开源项目,开源代码,开源文档,开源新闻,开源社区

DagScheduler 和 TaskScheduler 的任务交接 spark 调度器分为两个部分，一个是 DagScheduler，一个是 TaskScheduler， DagScheduler

smallstone 2017-04-25 24034 0

Spark 分布式/云计算/大数据

Spark 0.6.0 是一个重要的版本，带来了一些新的功能，体系结构的变化，以及性能增强。最显着的增加是一个独立的部署模式，一个Java API，以及扩展的文档。在某些方面性能提升了 2 倍。

jopen 2012-10-17 17129 0

Spark

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

jopen 2015-12-15 18423 0

Hadoop

。我们使用Spark技术来实现这个算法。Spark是一款卓越的数据分布式计算引擎，它能把数据分散到集群的所有节点进行计算。它和Map/Reduce有两个重要的区别： Spark程序代码更容

d2dn 2015-09-11 16802 0

分布式/云计算/大数据 Apache Spark

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets)，

jopen 2014-12-03 46280 0

Spark 分布式/云计算/大数据

译者：黄经业 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会

likeo 2015-04-21 18486 0

Spark 分布式/云计算/大数据

com/jacksu/utils4s/blob/master/spark-knowledge/md/spark_streaming使用kafka保证数据零丢失.md spark streaming从1.2开始提供了数据

jopen 2016-01-16 8823 0

Kafka 分布式/云计算/大数据 Spark Streaming

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark

jopen 2016-01-05 18274 0

分布式/云计算/大数据

一、 Spark 安装前提安装 Spark 之前需要先安装 Hadoop 集群，因为之前已经安装了 hadoop ，所以我直接在之前的 hadoop 集群上安装 spark ，但是因为机器内存不够，我只选择

yvdyyn805 2016-01-27 45467 0

分布式/云计算/大数据

之前有说过要设计一个工作流调度器。开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Streaming(基于Transfomer架构的理念)，我们可能能简化这些工作。我在这块并没

jxjy1403 2016-02-07 9214 0

工作流分布式/云计算/大数据 Spark Streaming

SparkNet: Training Deep Network in Spark 这篇论文是 Berkeley 大学 Michael I. Jordan 组的 ICLR2016(under review)

nd4670 2016-05-05 42958 0

Spark 神经网络

搭建Spark源码研读和代码调试的开发环境从Github上获取Spark源码导入源码到Intellij IDEA 16 2. 添加缺失的flume sink源代码 3. 添加运行依赖的jars

skxe3313 2016-12-11 26753 0

Spark 分布式/云计算/大数据

本文主要帮助初学者快速了解Spark，不会面面俱到，但核心一定点到。详细内容可参考Spark入门教程-1 Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学

jiushi506 2017-03-07 18089 0

Spark 分布式计算分布式/云计算/大数据

P20

Algorithms with Twitter Algebird + Spark Streaming 基于Twitter Algebird 和 Spark Streaming 的大规模流式数据处理算法 2. You

erbq 2014-09-18 667 0

分布式/云计算/大数据方案

P40

1. spark ----高效的分布式计算架构 ---- 何奇14112852181Life is short，you need spark! 2. Life is short，you need spark

cador 2017-03-13 721 0

分布式/云计算/大数据方案 Apache Java Go

P24

1. YAFIM: Frequent Itemset Mining with Spark Rong Gu, Hongjian Qiu, Yihua Huang Parallel Algorithm System

aacall 2014-06-25 592 0

分布式/云计算/大数据 Intel Scala Go

2015年的Spark社区的进展实在是太快了，我发现1月份出版的一本参考书到现在已经有很多内容是过时的了。社区大踏步前行的同时，用户和应用案例也越来越多，应用行业越来越广泛。到年底了我们来梳理下Spark这快速发展的一年。

jopen 2016-01-07 38554 0

Spark 数据挖掘

的点被分配到相同的集群。黑色的孤立点被视为“异常点”。图片来自Natalino Busa。在Spark里使用PairRDDs 在大多数实际应用中,机器学习系统必须处理数以百万计的用户和数十亿的事件。因此

jopen 2016-03-04 33151 0

DBSCAN Spark

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师

jopen 2014-11-22 190566 0

Hadoop 分布式/云计算/大数据

Spark生态@爱奇艺秉承“悦享品质”的品牌理念，提供更多、更好的视频 – 2010年4月上线 – 2013年5月与PPS合并 – 月度独立访问用户4+亿（3月份数据） – 20

jopen 2014-12-12 32735 0

Spark 分布式/云计算/大数据

一分钟吃透 Spark 之 TaskScheduler 经验

快如闪电的集群计算，Spark 0.6.0 发布资讯

2分钟读懂大数据框架Hadoop和Spark的异同资讯

Apache Spark在大规模分布式自然语言处理的应用经验

Spark：比Hadoop更强大的分布式数据计算项目经验

颠覆大数据分析之Spark弹性数据集经验

Spark Streaming使用Kafka保证数据零丢失经验

Spark大数据分析框架的核心部件经验

Hadoop2.6.0上的spark1.5.2集群搭建经验

Spark Streaming 妙用之实现工作流调度器经验

SparkNET: 用Spark训练深度神经网络经验

搭建 Spark 源码研读和代码调试的开发环境经验

30分钟概览Spark分布式计算引擎经验

基于Twitter Algebird和Spark Streaming的大规模流式数据处理算法文档

spark--高效的分布式计算架构文档

YAFIM：基于spark的并行化频繁项集挖掘算法文档

解读2015之Spark篇：新生态系统的形成资讯

用Spark/DBSCAN做地理定位数据聚类资讯

大数据技术大合集：Hadoop家族、Cloudera系列、spark、storm 经验

视频类网站大数据生态 Spark在爱奇艺的应用实践经验

Spark修改窗口的相关搜索

关键词

一分钟吃透 Spark 之 TaskScheduler 经验

快如闪电的集群计算，Spark 0.6.0 发布 资讯

2分钟读懂大数据框架Hadoop和Spark的异同 资讯

Apache Spark在大规模分布式自然语言处理的应用 经验

Spark：比Hadoop更强大的分布式数据计算项目 经验

颠覆大数据分析之Spark弹性数据集 经验

Spark Streaming使用Kafka保证数据零丢失 经验

Spark大数据分析框架的核心部件 经验

Hadoop2.6.0上的spark1.5.2集群搭建 经验

Spark Streaming 妙用之实现工作流调度器 经验

SparkNET: 用Spark训练深度神经网络 经验

搭建 Spark 源码研读和代码调试的开发环境 经验

30分钟概览Spark分布式计算引擎 经验

基于Twitter Algebird和Spark Streaming的大规模流式数据处理算法 文档

spark--高效的分布式计算架构 文档

YAFIM：基于spark的并行化频繁项集挖掘算法 文档

解读2015之Spark篇：新生态系统的形成 资讯

用Spark/DBSCAN做地理定位数据聚类 资讯

大数据技术大合集：Hadoop家族、Cloudera系列、spark、storm 经验

视频类网站大数据生态 Spark在爱奇艺的应用实践 经验

Spark修改窗口 的相关搜索

关键词

快如闪电的集群计算，Spark 0.6.0 发布资讯

2分钟读懂大数据框架Hadoop和Spark的异同资讯

Apache Spark在大规模分布式自然语言处理的应用经验

Spark：比Hadoop更强大的分布式数据计算项目经验

颠覆大数据分析之Spark弹性数据集经验

Spark Streaming使用Kafka保证数据零丢失经验

Spark大数据分析框架的核心部件经验

Hadoop2.6.0上的spark1.5.2集群搭建经验

Spark Streaming 妙用之实现工作流调度器经验

SparkNET: 用Spark训练深度神经网络经验

搭建 Spark 源码研读和代码调试的开发环境经验

30分钟概览Spark分布式计算引擎经验

基于Twitter Algebird和Spark Streaming的大规模流式数据处理算法文档

spark--高效的分布式计算架构文档

YAFIM：基于spark的并行化频繁项集挖掘算法文档

解读2015之Spark篇：新生态系统的形成资讯

用Spark/DBSCAN做地理定位数据聚类资讯

视频类网站大数据生态 Spark在爱奇艺的应用实践经验

Spark修改窗口的相关搜索