开源项目,开源代码,开源文档,开源新闻,开源社区

isolation以防止不同版本jar包冲突，比如google Guava在混合使用Hadoop、HBase和Spark时，很容易产生冲突。（https://issues.apache.org/jira/browse/HADOOP-11656）

zfb1226 2016-06-02 26655 0

Hadoop Spark 分布式/云计算/大数据

0版本中，通过基于DataFrame的API，Spark机器学习库MLlib将实现几乎完整的ML持久性支持。本文将提前透露有关代码示例，以及MLlib API持久性的一些细节。 ML持久性的关键特性包括： Spark支持所有语言的

e鸿619 2016-06-02 22626 0

数据挖掘 Spark 分布式/云计算/大数据

com快译】目前Databricks订阅用户已经能够获取Spark 2.0的技术预览版。性能提升、SparkSessions以及数据流处理能力将成为新版本的主要发展方向。 Apache Spark 2.0即将正式与广大用户

zpzdmy 2016-05-30 14134 0

Spark 分布式/云计算/大数据

什么是Spark Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

jopen 2015-04-02 62295 0

分布式/云计算/大数据 Apache Spark

Apache Spark 是用于大规模数据处理的快速和通用引擎，它运行在 Hadoop，Mesos，可以离线或云端运行，具有高速、可扩展等特点。近年来，在 IBM 等大公司和众多社区贡献者的推动下，Spark

v9z1n9e0vl 2017-02-12 13014 0

Spark 语言模型分布式/云计算/大数据

http://36kr.com/p/533859.html 本周一，IBM 宣布将对开源实时大数据分析项目Apache Spark进行大规模资助，蓝色巨人宣称，其资助的力度之大相当于每年数亿美元的投入。 Had

jopen 2015-06-15 18185 0

Spark

2016 年大数据领域会发生什么情况？考虑到如今在深层神经网络和规范性分析方面取得的进展，你可能觉得这个问题很好回答。而实际上，来自业界的大数据预测大不相同，本文精选出了最值得关注的 33 个预测，为您开启未知的

jopen 2016-01-05 26776 0

Spark MapReduce

深入理解Spark RDD抽象模型和编写RDD函数 Spark revolves around the concept of a resilient distributed dataset (RDD)

ErikaKhr 2016-12-19 18383 0

Spark 分布式/云计算/大数据

文/张逸 Spark 的发展对于一个具有相当技术门槛与复杂度的平台，Spark 从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009 年，Spark 诞生于伯克利大学 AMPL

jopen 2014-11-24 36172 1

Spark

http://dockone.io/article/1023 在今天的文章中，我们将着重探讨如何利用SMACK（即Spark、Mesos、Akka、Cassandra以及Kafka）堆栈构建可扩展数据处理平台。虽然这套堆

电子天府 2016-02-16 55332 0

Cassandra Spark Kafka 分布式/云计算/大数据

陈亮牵头，携手技术社区的核心开发者及合作伙伴，举办了一场Apache CarbonData+Spark 主题的技术交流会，就 CarbonData+Spark 的重要特性和使用介绍，做了全面而细致的分享，本文简单整理了其中的部

AAFDell 2017-09-11 32989 0

Spark SQL 分布式/云计算/大数据

Apache Spark 1.2.0已经发布，Spark核心引擎在性能和可用性方面都有很大改进。这是来自60多家研究机构和公司的172位贡献者的成果，包括了1000多个补丁。 Spark 1.2.0与之前的1

jopen 2015-01-10 22324 0

Apache Spark

数据科学家这个职业的火热。在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点，分别请了四位专家：Hulu的董西成、明略数据的梁堰波、

jopen 2016-01-08 53926 0

大数据数据挖掘分布式系统

一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，分析，展示，安全等各个方面，构建了一个完整的大数据生态系统，并有Cloudera，HortonWor

jopen 2015-09-26 32975 0

Hadoop 分布式/云计算/大数据

http://www.csdn.net/article/2015-12-15/2826487 以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会（Big Data Technology Conference

jopen 2015-12-18 33498 0

架构

P26

零售业ERP项目创业投资可行性分析报告作者：韩峻玮零售业ERP项目创业投资可行性分析报告作者：韩峻玮 2004年3月6日目录一、项目简介 5 二、市场分析 5 Confidential

108439162 2012-02-20 579 0

ERP/CRM 报告

io/156-156 摘要本文一是为了讨论在Linux系统出现问题时我们能够借助哪些工具去协助分析，二是讨论出现问题时大致的可能点以及思路，三是希望能给应用层开发团队介绍一些Linux内核机制从而选择更合适的使用策略。

小米_1900 2016-02-29 37761 0

Linux内核 Linux

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-10-11 79484 0

分布式/云计算/大数据 Awesome Big Data

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-08-20 57775 0

Github

P24

Giraph： 9 Storm： 9 ZooKeeper： 9 Ambari: 9 Oozie： 9 Cloudera Hue： 9 二、Spark生态圈： 10 Spark： 10 Spark SQL： 11

guet_lee 2017-01-12 2237 0

分布式/云计算/大数据

呼之欲出！比Spark快10倍的Hadoop3.0有哪些实用新特性？经验

Apache Spark 2.0前瞻：为机器学习模型注入持久性经验

星星之火渐呈燎原之势：Spark 2.0预览版重磅来袭经验

用Apache Spark进行大数据处理——第一部分：入门介绍经验

Facebook官方详解：使用Apache Spark进行大型语言模型训练经验

助人就是助己：IBM宣布大规模资助开源大数据项目Spark 资讯

2016年大数据领域预测：Spark淘汰MapReduce，拯救Hadoop 资讯

深入理解 Spark RDD 抽象模型和编写 RDD 函数经验

张逸：并行分布式计算框架Spark的现状与未来发展资讯

数据处理平台架构中的SMACK组合：Spark、Mesos、Akka、Cassandra以及Kafka 经验

关于CarbonData+Spark SQL的一些应用实践和调优经验分享经验

Apache Spark 1.2.0发布：引入基于Netty的实现，支持高可用，并提供机器学习API 资讯

解读2015之大数据篇：大数据的黄金时代资讯

脱离JVM？Hadoop生态圈的挣扎与演化经验

彦伟：京东实时数据平台架构设计与实现思路资讯

零售业ERP系统分析报告及项目创业投资可行性分析文档

Linux内核分析：页回收导致的cpu load瞬间飙高的问题分析与思考经验

大数据相关资源集合：Awesome Big Data 经验

Github上关于大数据的开源项目、论文等合集资讯

大数据分析系统架构之探讨文档

Flink，Spark Streaming，Storm对比分析的相关搜索

关键词

呼之欲出！比Spark快10倍的Hadoop3.0有哪些实用新特性？ 经验

Apache Spark 2.0前瞻：为机器学习模型注入持久性 经验

星星之火渐呈燎原之势：Spark 2.0预览版重磅来袭 经验

用Apache Spark进行大数据处理——第一部分：入门介绍 经验

Facebook官方详解：使用Apache Spark进行大型语言模型训练 经验

助人就是助己：IBM宣布大规模资助开源大数据项目Spark 资讯

2016年大数据领域预测：Spark淘汰MapReduce，拯救Hadoop 资讯

深入理解 Spark RDD 抽象模型和编写 RDD 函数 经验

张逸：并行分布式计算框架Spark的现状与未来发展 资讯

数据处理平台架构中的SMACK组合：Spark、Mesos、Akka、Cassandra以及Kafka 经验

关于CarbonData+Spark SQL的一些应用实践和调优经验分享 经验

Apache Spark 1.2.0发布：引入基于Netty的实现，支持高可用，并提供机器学习API 资讯

解读2015之大数据篇：大数据的黄金时代 资讯

脱离JVM？Hadoop生态圈的挣扎与演化 经验

彦伟：京东实时数据平台架构设计与实现思路 资讯

零售业ERP系统分析报告及项目创业投资可行性分析 文档

Linux内核分析：页回收导致的cpu load瞬间飙高的问题分析与思考 经验