为什么说Spark SQL远远超越了MPP SQL 经验

Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。 前言 这里说的并不是性能,因为我没尝试

GustavoGaga 2016-06-18   12095   0

流式大数据处理的三种框架:Storm,Spark和Samza 经验

e是不可变数组,对应着固定的键值对。 Apache Spark Spark Streaming 是核心Spark API的一个扩展,它并不会像Storm那样一次一个地处理数据流,而

sam2015 2016-02-17   17945   0

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题 经验

目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDFS,用于数据挖掘或机器

FloridaStil 2016-02-17   30236   0

英特尔推出用于Apache Spark的深度学习库 经验

英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。 深度学习库是英特尔公司在行业中实现最先进的人工智能战略的一部分。在去年 11 月宣布的

Pho81C 2017-02-12   11956   0

分布式计算系统 Spark 成为 Apache 顶级项目 资讯

Apache 软件基金会今天宣布,Spark 项目已从孵化器毕业,成为 Apache 软件基金会的一个顶级项目。 Spark 是一个高效的分布式计算系统,发源于美国加州大学伯克利分校 AMPLab

jopen 2014-02-28   14848   0
Spark  

三个理由告诉你为什么需要在云端运行Spark 资讯

Spark的发展势头正猛,可是对主流用户们来说还是太难了。云外加可视化也许有所帮助。 开源项目Apache Spark如今可能是从加州大学伯克利分校的AMP实验室孕育而来的最有名的项目

jopen 2015-06-24   10217   0
Spark  

Spark 1.2.1稳定版本发布(released) 资讯

Spark 1.2.1是一个维护版本( maintenance release) ,其中修复了一些bug,是基于branch-1.2 分支。并且推荐所有的1.2.0的用户升级到这个稳定版本。此次更新有

jopen 2015-02-09   20834   0
Spark  

MemSQL 4提供社区版本,并支持地理空间智能以及与Spark集成 资讯

,支持关系型、JSON及地理空间数据等不同数据格式的实时内存数据处理。此外,它还支持与 Apache Spark 、Hadoop分布式文件系统( HDFS )及 Amazon S3 集成。 该数据库解决方

jopen 2015-06-03   8006   0
MemSQL  

Tachyon:Spark生态系统中的分布式内存文件系统 资讯

Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力

wge7 2015-06-25   16075   0
Tachyon  

Spark的速度快是以丧失计算结果正确性为代价的 资讯

是的,Spark很快。但是它不保证它算出的值是对的,哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是:《Spark: Cluster Computing with Working S

n5em 2015-06-05   20774   0
Spark  

Apache Spark 1.6 正式发布,性能大幅度提升 资讯

Apache Spark 1.6 正式发布,Spark 1.6 包含 1000+ 分支,主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑:Spark

jopen 2016-01-04   18184   0

大数据处理框架,Apache Spark 1.5.2 发布 资讯

Apache Spark 1.5.2 发布,此版本是个维护版本,包括 Spark 一些领域的稳定性修复,主要是:DataFrame API, Spark Streaming, PySpark, R, Spark

jopen 2015-11-15   21282   0

Apache Spark 2.0 最快今年4月亮相 资讯

6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1

jopen 2016-02-28   10292   0
Spark  

别再比较Hadoop和Spark了,那不是设计人员的初衷 资讯

对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。

jopen 2016-03-09   8767   0
Spark   Hadoop  

Spark1.0.0生态圈一览 经验

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器 (Machines)、人(People)之间通过大规模集成,来展现

jopen 2014-06-08   48536   0

Spark在腾讯数据仓库TDW的应用 经验

据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支。Spark集群已稳定运行2年,积累了大量的案例和运

jopen 2014-11-29   53806   0

Databircks连城:Spark SQL结构化数据分析 经验

虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、Pyth

jopen 2015-06-18   24182   0

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark St

jopen 2015-06-22   21976   0

基于Spark和Flask的一个可伸缩的电影推荐系统 经验

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于 协同过滤 建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差(ALS) 算法。 该教程由两部

jopen 2015-09-28   13227   0

如何使用Spark大规模并行构建索引 经验

12528 使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点。

toly_me 2016-02-01   25775   0
1 2 3 4 5 6 7 8 9 10