IBM携手Spark,拥抱机器学习的下一个世代 资讯

Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写复杂的平行运算程序,让

jopen 2015-09-15   6373   0
Spark  

使用Akka来优化Spark+ElasticSearch的准实时系统 资讯

000个查询,系统是无法承受的。 André Camilo 给出的第一种方案是使用Spark和ElasticSearch: 我们创建了一个Spark Streaming的数据流管道,该管道首先从JMS队列中读取消息并将其转换

jopen 2015-12-17   20256   0

事实上,Spark是一项非常值得学习的技术 资讯

2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。

jopen 2016-02-15   34562   0
Spark  

变不可能为可能,Tachyon帮助Spark变小时级任务到秒 资讯

我们还开发了一套让Spark从RDBMS直接读取数据的流程。我们作为读取数据的一方对于数据库的schema并不完全清楚,所以我们先读取为动态类型的Spark DataFrame,分析了数据结构和内容之后再转换为RDD。

jopen 2016-03-03   17142   0

Mac版Spark获得更新 整体生产力都提升了 资讯

去年 12 月份,Readdle 推出了 Spark 电子邮件应用的 Mac 版本,这款应用程序能够为用户提供跨平台的邮件收发体验,并且支持新款 MacBook Pro 中加入的 Touch Bar 触控栏,而现在,这款应用已经更新到了

jopen 2017-03-16   5515   0
Spark  

Spark进行大数据处理之机器学习篇 经验

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。 1.引言 Spark机器学习API包含两个package:spark.mllib

co880591 2016-06-01   148422   0

为什么说Spark SQL远远超越了MPP SQL 经验

Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。 前言 这里说的并不是性能,因为我没尝试

GustavoGaga 2016-06-18   12095   0

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题 经验

Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDFS,用于数据挖掘或机器学习。HD

FloridaStil 2016-02-17   30236   0

英特尔推出用于Apache Spark的深度学习库 经验

英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。 深度学习库是英特尔公司在行业中实现最先进的人工智能战略的一部分。在去年 11 月宣布的

Pho81C 2017-02-12   11956   0

分布式计算系统 Spark 成为 Apache 顶级项目 资讯

Apache 软件基金会今天宣布,Spark 项目已从孵化器毕业,成为 Apache 软件基金会的一个顶级项目。 Spark 是一个高效的分布式计算系统,发源于美国加州大学伯克利分校 AMPLab

jopen 2014-02-28   14848   0
Spark  

三个理由告诉你为什么需要在云端运行Spark 资讯

Spark的发展势头正猛,可是对主流用户们来说还是太难了。云外加可视化也许有所帮助。 开源项目Apache Spark如今可能是从加州大学伯克利分校的AMP实验室孕育而来的最有名的项目

jopen 2015-06-24   10217   0
Spark  

Spark 1.2.1稳定版本发布(released) 资讯

Spark 1.2.1是一个维护版本( maintenance release) ,其中修复了一些bug,是基于branch-1.2 分支。并且推荐所有的1.2.0的用户升级到这个稳定版本。此次更新有

jopen 2015-02-09   20834   0
Spark  

MemSQL 4提供社区版本,并支持地理空间智能以及与Spark集成 资讯

ql4-community-edition 内存数据库 MemSQL 的最新版本支持事务和分析,并提供了一个供组织免费使用的 社区版本 。MemSQL 4于5月20日 发布 ,支持关系型、JS

jopen 2015-06-03   8006   0
MemSQL  

Tachyon:Spark生态系统中的分布式内存文件系统 资讯

Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力

wge7 2015-06-25   16075   0
Tachyon  

Spark的速度快是以丧失计算结果正确性为代价的 资讯

是的,Spark很快。但是它不保证它算出的值是对的,哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是:《Spark: Cluster Computing with Working S

n5em 2015-06-05   20774   0
Spark  

Apache Spark 1.6 正式发布,性能大幅度提升 资讯

Apache Spark 1.6 正式发布,Spark 1.6 包含 1000+ 分支,主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑:Spark

jopen 2016-01-04   18184   0

大数据处理框架,Apache Spark 1.5.2 发布 资讯

Apache Spark 1.5.2 发布,此版本是个维护版本,包括 Spark 一些领域的稳定性修复,主要是:DataFrame API, Spark Streaming, PySpark, R, Spark

jopen 2015-11-15   21282   0

Apache Spark 2.0 最快今年4月亮相 资讯

6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1

jopen 2016-02-28   10292   0
Spark  

别再比较Hadoop和Spark了,那不是设计人员的初衷 资讯

对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。

jopen 2016-03-09   8767   0
Spark   Hadoop  

Spark1.0.0生态圈一览 经验

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器 (Machines)、人(People)之间通过大规模集成,来展现

jopen 2014-06-08   48536   0
1 2 3 4 5 6 7 8 9 10