呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性? 经验

isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。(https://issues.apache.org/jira/browse/HADOOP-11656)

zfb1226 2016-06-02   26655   0

Apache Spark 2.0前瞻:为机器学习模型注入持久性 经验

0版本中,通过基于DataFrame的API,Spark机器学习库MLlib将实现几乎完整的ML持久性支持。本文将提前透露有关代码示例,以及MLlib API持久性的一些细节。 ML持久性的关键特性包括: Spark支持所有语言的

e鸿619 2016-06-02   22626   0

星星之火渐呈燎原之势:Spark 2.0预览版重磅来袭 经验

com快译】目前Databricks订阅用户已经能够获取Spark 2.0的技术预览版。性能提升、SparkSessions以及数据流处理能力将成为新版本的主要发展方向。 Apache Spark 2.0即将正式与广大用户

zpzdmy 2016-05-30   14134   0

用Apache Spark进行大数据处理——第一部分:入门介绍 经验

什么是Spark Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。

jopen 2015-04-02   62295   0

Facebook官方详解:使用Apache Spark进行大型语言模型训练 经验

Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动下,Spark

v9z1n9e0vl 2017-02-12   13014   0

助人就是助己:IBM宣布大规模资助开源大数据项目Spark 资讯

http://36kr.com/p/533859.html 本周一,IBM 宣布 将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。 Had

jopen 2015-06-15   18185   0
Spark  

2016年大数据领域预测:Spark淘汰MapReduce,拯救Hadoop 资讯

2016 年大数据领域会发生什么情况?考虑到如今在深层神经网络和规范性分析方面取得的进展,你可能觉得这个问题很好回答。而实际上,来自业界的大数据预测大不相同,本文精选出了最值得关注的 33 个预测,为您开启未知的

jopen 2016-01-05   26776   0

深入理解 Spark RDD 抽象模型和编写 RDD 函数 经验

深入理解Spark RDD抽象模型和编写RDD函数 Spark revolves around the concept of a resilient distributed dataset (RDD)

ErikaKhr 2016-12-19   18383   0

张逸:并行分布式计算框架Spark的现状与未来发展 资讯

文/张逸 Spark 的发展 对于一个具有相当技术门槛与复杂度的平台,Spark 从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009 年,Spark 诞生于伯克利大学 AMPL

jopen 2014-11-24   36172   1
Spark  

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka 经验

http://dockone.io/article/1023 在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆

电子天府 2016-02-16   55332   0

关于CarbonData+Spark SQL的一些应用实践和调优经验分享 经验

陈亮牵头,携手技术社区的核心开发者及合作伙伴,举办了一场Apache CarbonData+Spark 主题的技术交流会,就 CarbonData+Spark 的重要特性和使用介绍,做了全面而细致的分享,本文简单整理了其中的部

AAFDell 2017-09-11   32989   0

Apache Spark 1.2.0发布:引入基于Netty的实现,支持高可用,并提供机器学习API 资讯

Apache Spark 1.2.0已经发布 ,Spark核心引擎在性能和可用性方面都有很大改进。这是来自60多家研究机构和公司的172位贡献者的成果,包括了1000多个补丁。 Spark 1.2.0与之前的1

jopen 2015-01-10   22324   0

解读2015之大数据篇:大数据的黄金时代 资讯

数据科学家这个职业的火热。 在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数据的梁堰波、

jopen 2016-01-08   53926   0

脱离JVM?Hadoop生态圈的挣扎与演化 经验

一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目,围绕着大数据的存储,计算,分析,展示,安全等各个方面,构建了一个完 整的大数据生态系统,并有Cloudera,HortonWor

jopen 2015-09-26   32975   0

彦伟:京东实时数据平台架构设计与实现思路 资讯

http://www.csdn.net/article/2015-12-15/2826487 以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference

jopen 2015-12-18   33498   0
架构  
P26

  零售业ERP系统分析报告及项目创业投资可行性分析 文档

零售业ERP项目 创业投资可行性分析报告 作者:韩峻玮 零售业ERP项目创业投资 可 行 性 分 析 报 告 作者:韩峻玮 2004年3月6日 目录 一、 项目简介 5 二、 市场分析 5 Confidential

108439162 2012-02-20   579   0
ERP/CRM   报告  

Linux内核分析:页回收导致的cpu load瞬间飙高的问题分析与思考 经验

io/156-156 摘要 本文一是为了讨论在Linux系统出现问题时我们能够借助哪些工具去协助分析,二是讨论出现问题时大致的可能点以及思路,三是希望能给应用层开发团队介绍一些Linux内核机制从而选择更合适的使用策略。

小米_1900 2016-02-29   37761   0

大数据相关资源集合:Awesome Big Data 经验

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-10-11   79484   0

Github上关于大数据的开源项目、论文等合集 资讯

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-08-20   57775   0
Github  
P24

  大数据分析系统架构之探讨 文档

Giraph: 9 Storm: 9 ZooKeeper: 9 Ambari: 9 Oozie: 9 Cloudera Hue: 9 二、Spark生态圈: 10 Spark: 10 Spark SQL: 11

guet_lee 2017-01-12   2237   0
1 2 3 4 5 6 7 8 9 10