解析Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyo...
勿忘初心321 8年前    18139   

如何运用Spark进行实时数据分析

Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不...
勿忘初心321 8年前    32298   

使用Akka来优化Spark+ElasticSearch的准实时系统

假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的阈值。面对这一场景,用户应该...
jopen 8年前    20256   

Spark和Hadoop,孰优孰劣?

Spark 已经取代 Hadoop 成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家 Bernard Marr 在一篇 文章 中分析了Spa...
jopen 8年前    16341   

IBM承诺将推动Spark的发展

上个月早些时候在拉斯维加斯举行的 IBM Insight 2015 大数据分析峰会上, IBM 公司宣布将主要承担 Apache Spark 项目。正如IBM公司 之前所说 的“这可能将会是下个...
jopen 8年前    13908   

应用Spark解决Kaggle数据科学问题

如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题。近期, comSysto公司 的Danial Bartl就 分享 了该公司研发团队利用 Spark 平台解决 Kaggle 竞赛...
jopen 8年前    17064   

Spark 数据挖掘 - 利用决策树预测森林覆盖面积

预测问题记住一点:最垃圾的预测就是使用平均值,如果你的预测连比直接给出平均值效果都要差,那就省省吧! 统计学诞生一个多世纪之后,随着现在机器学习和数据科学的产生,我们依旧使用回归的思想来进行预...
jopen 8年前    32268   

运用Spark加速实时数据分析

Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不...
jopen 8年前    11656   

Storm、Spark和MapReduce 开源分布式计算系统框架比较

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Sto...
jopen 8年前    16466   

谷歌推出Dataproc,让Spark、Hadoop更便宜更快更简单

近日,谷歌 发布 了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务,可以帮助用户快速创建集群、简化集群管理及降...
jopen 8年前    8859   

IBM携手Spark,拥抱机器学习的下一个世代

Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写...
jopen 9年前    6373   

Spark之后,谁将接手大数据

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了 Hadoop平台 。...
jopen 9年前    12885   

IBM如何拥抱Spark

Spark 是目前相当火热的开源计算框架,相对于 Hadoop ,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通...
jopen 9年前    23892   

Spark与Flink:对比与分析

Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个 节点上,可以被并行操作。用户也可以让Spark保留一个R...
jopen 9年前    34743   

Spark 和 Hadoop 是朋友不是敌人

IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。
jopen 9年前    17287   

通过可视化来了解你的Spark应用程序

【编者按】在" Spark 1.4:SparkR发布,钨丝计划锋芒初露 "一文中,我们有简单地介绍了1.4版本给Spark注入的新特性,在各个组件的介绍中也提到了新UI给用户带来的便捷。而从本文...
jopen 9年前    13638   

Spark 1.4:SparkR发布,钨丝计划锋芒初露

6月11日(美国时间),Spark 1.4版本正式发布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升级之外,...
jopen 9年前    20979   

三个理由告诉你为什么需要在云端运行Spark

Spark的发展势头正猛,可是对主流用户们来说还是太难了。云外加可视化也许有所帮助。
jopen 9年前    10217   

助人就是助己:IBM宣布大规模资助开源大数据项目Spark

本周一,IBM 宣布 将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。 Hadoop技术出自Google、Yahoo这...
jopen 9年前    18185   

Spark 1.4 新特性概述

经过4个RC版本,Spark 1.4最终还是赶在Spark Summit前发布了,本文简单谈下本版本中那些非常重要的新feature和improvement.
gf67 9年前    22439   
1 2 3 4

热门问答

热门文档