Spark 伪分布式 & 全分布式 安装指南 经验

0、前言 3月31日是 Spark 五周年纪念日,从第一个公开发布的版本开始,Spark走过了不平凡的5年:从刚开始的默默无闻,到13年的鹊起,14年的大爆发。Spark核心之上有分布式的机器学习,SQL,streaming和图计算库。

jopen 2015-04-02   84283   0

不同的瑞士军刀:对比 Spark 和 MapReduce 经验

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce

jopen 2016-01-14   21447   0

Spark Streaming使用Kafka保证数据零丢失 经验

https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件:

Fregata: Spark上支持万亿维机器学习模型 经验

练数据量更大。 通常认为,当模型的规模超过单节点的容量后,基于MapReduce计算模型的Spark, Hadoop MapReduce就无法支持了。为了解决这一问题,Parameter Serv

Mar89Z 2017-01-09   11638   0

Spark奠基者博士论文中文版出来了 资讯

经过长达3个月的历程终于全部翻译完成。 该论文是Spark主要开发者Matei Zaharia的博士论文,全文共6章,超过4万字,是一部Spark方面的基本文献。从10月底开始,通过 社区招募 ,先

jopen 2015-01-27   14963   0
Spark  

陈超:Spark这一年,从开源到火爆 资讯

net/article/2015-03-10/2824162 2014年的大数据领域,Apache Spark(以下简称Spark)无疑最受瞩目。Spark,出自名门伯克利AMPLab之手,目前由商业公司Databricks保驾护航。自2014

jopen 2015-03-10   34447   0
Spark  

Spark成为大数据分析领域新核心的五个理由 资讯

为了更为顺畅地实现Hadoop基础之上的高级与实时分析目标,Apache Spark凭借着自身的出色表现很快成为大数据领域的新核心。 在过去几年当中,随着Hadoop逐步成为大数据处理领域的主导性

jopen 2015-03-20   16135   0
Spark  

Pinterest使用MemSQL和Spark Streaming进行实时数据分析 资讯

http://www.infoq.com/cn/news/2015/04/pinterest-memsql-spark-streaming Pinterest 是一家提供可视化书签工具的公司,这种工具可

mip33 2015-04-19   12920   0

王团结:如何用Hadoop/Spark构建七牛数据平台 资讯

YARN or Mesos?Spark痛点探讨 ”、“ Mesos资源调度与管理的深入分享与交流 ”、及“ 主流SQL on Hadoop框架选择 ”之后,CSDN Spark微信用户群邀请了王团结为大

jopen 2015-07-30   15456   0
Hadoop  

IBM 想要通过 Apache Spark 影响百万工程师 资讯

6月15日消息,IBM今日宣布了一系列Apache Spark开源软件相关的措施,旨在更好地存储、处理以及分析大量不同类型的数据。 Spark是由加州大学伯克利分校开发的一个框架,通过将信息保存至

nw44 2015-06-15   15693   0

Storm、Spark和MapReduce 开源分布式计算系统框架比较 资讯

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm;

jopen 2015-10-15   16466   1
Spark  

IBM携手Spark,拥抱机器学习的下一个世代 资讯

Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写复杂的平行运算程序,让

jopen 2015-09-15   6373   0
Spark  

使用Akka来优化Spark+ElasticSearch的准实时系统 资讯

000个查询,系统是无法承受的。 André Camilo 给出的第一种方案是使用Spark和ElasticSearch: 我们创建了一个Spark Streaming的数据流管道,该管道首先从JMS队列中读取消息

jopen 2015-12-17   20256   0

spark十分优秀,但并非银弹 资讯

已经有太多的文章说spark有多么的优秀了,我是非常认可的。比如:统一分析引擎,RDD抽象,dataset、df等编程接口,交互式编程的支持,稳定高效的机器学习算法库,高效的spark sql实现,基本

jopen 2016-01-24   9359   0
Spark  

事实上,Spark是一项非常值得学习的技术 资讯

2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。

jopen 2016-02-15   34562   0
Spark  

变不可能为可能,Tachyon帮助Spark变小时级任务到秒 资讯

数据库,而且我们还开发了一套让Spark从RDBMS直接读取数据的流程。我们作为读取数据的一方对于数据库的schema并不完全清楚,所以我们先读取为动态类型的Spark DataFrame,分析了数据结构和内容之后再转换为RDD。

jopen 2016-03-03   17142   0

Mac版Spark获得更新 整体生产力都提升了 资讯

去年 12 月份,Readdle 推出了 Spark 电子邮件应用的 Mac 版本,这款应用程序能够为用户提供跨平台的邮件收发体验,并且支持新款 MacBook Pro 中加入的 Touch Bar 触控栏,而现在,这款应用已经更新到了

jopen 2017-03-16   5515   0
Spark  

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较 经验

端接收数据,所以继承了 InputDStream,是没有 receivers 的 在结合 Spark Streaming 及 Kafka 的实时应用中,我们通常使用以下两个 API 来获取最初的 DStream(这里不关心这两个

spark快速大数据分析之读书笔记 经验

http://my.oschina.net/sucre/blog/617340 RDD编程 1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。

SophiaSpoff 2016-02-18   7692   0

Spark进行大数据处理之机器学习篇 经验

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。 1.引言 Spark机器学习API包含两个package:spark.mllib

co880591 2016-06-01   148422   0
1 2 3 4 5 6 7 8 9 10