网易大数据平台的Spark技术实践 经验

ys)。 在批处理方面,MapReduce(MR)已经证明其为最有效的工具,随着MR的开源实现Hadoop为代表的大数据分析技术的普及,其在大处理方面的能 力已经得到认可,但是它更适用于对集群上大数据

jopen 2014-12-19   64036   0

Docker应用场景 经验

Foundry平台来搭建自己的PaaS环境等。 本文主要介绍docker在大数据方面的应用,经过一段时间的研究和实际操作,提出了Hadoop on Docker架构。大概思路就是将硬件(或云服务器)通过Docker搭建成为一个“超级服

jopen 2016-01-17   22611   0

Apache基金会宣布Apache Eagle成为顶级项目 资讯

是一个开源监视和警报解决方案,用于智能实时地识别大数据平台上的安全和性能问题,例如 Apache Hadoop,Apache Spark 等。 “我们很自豪 Eagle 能顺利度过孵化过程,并作为 Apache

jopen 2017-01-10   9828   0
Apache  

将机器学习带入Java与JavaScript等编程语言的五种方式 资讯

面向四种语言的最佳资源库再加上Java on Hadoop,相信足以帮助大家将机器学习转化为切实可靠的业务工具。 在经历了数十年单纯作为专业学科的潜伏期之后,机器学习突然之间在技术前沿与核心领

jopen 2014-08-06   35293   0

《Spark官方文档》集群模式概览 经验

。 Apache Mesos – 一种可以运行Hadoop MapReduce或者服务型应用的通用集群管理器。 Hadoop YARN – Hadoop 2的集群管理器。 另外,使用Spark的 EC2

fyfg0690 2016-02-28   9942   0

英特尔开源分布式深度学习库BigDL:支持高性能大数据分析 资讯

上的分布式深度学习库 BigDL,其可以利用已有的 Spark 集群来运行深度学习计算,并且还能简化从 Hadoop 的大数据集的数据加载。 开源地址: https://github.com/intel-analytics/BigDL

jopen 2017-01-16   23127   0

大数据与机器学习周报 第5期 资讯

原始数据 《专访卢亿雷:谈Hadoop生态的最新发展》 :在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,

jopen 2016-04-12   29688   0

Hive查询 经验

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。

jopen 2014-01-28   23015   0
P3

  Twitter Storm 环境搭建 文档

在过去的十年里,数据处理发生了革命性的变化:MapReduce,Hadoop,以及相关的技术使我们可以存储和处理以前不可想象的大规模的数据。很遗憾,这些数据处理系统都不是实时系统,而且也根本没办法把Hadoop变成一个实时系统;实时数据处

cdmamata 2014-01-13   488   0

常用NoSQL比较 经验

mapReduce功能函数只能用javascript编写,并且通过控制台命令执行 8.GridFS文档系统--功能类似于Hadoop的HDFS,实现分布式存储功能 四、Hbase HBase基于Google的Big

fmms 2012-02-07   103640   0

实时股票分析系统的架构与算法 资讯

、 Spark MLlib 、 Apache HAWQ (一个Hadoop原生的大规模并行SQL分析引擎)以及 Apache Hadoop™ 等开源组件对架构中的每一部分进行了细化: 如图所示

jopen 2015-12-09   20197   0
算法  
P7

  开源日志系统比较 文档

构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。

vv2011_p 2012-12-21   606   0

开源者的信仰正在崩塌 资讯

自由软件用户。 在 2009 年,Olson 建立了 Cloudera——第一个利用 Hadoop 牟利的组织,基于谷歌软件基础结构的开源数据运算平台——他用 Apache 许可协议替代了 GPL。Apache

fmms 2012-03-26   8249   0
开源  

颠覆大数据分析之Spark弹性数据集 经验

Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会涉及HDFS的读写,而在Spark中则

likeo 2015-04-21   18486   0

CMU-CS硕士北美码农求职数据科学家,已拿到Apple Offer 资讯

Graphical Model,基本对于现在工业界能用的 Model 都了解 3. 三是我会使用 Hadoop 等工具,这主要得益于第一我选过 Cloud Computing ,这 课手把手,还给钱,教使用

jopen 2015-02-03   14236   0
码农  

Apache HBase 2015年发展回顾与未来展望 资讯

现在,调整配置后不再需要重启,但是目前只支持一部分配置的在线调整,如 Load Balance 和 Compaction。Hadoop 也已经实现了此功能。 目前社区的工作方向和趋势: 提高可用性 很多应用都要求存储具有高可用性,目前

jopen 2016-01-03   22798   0
HBase  

大数据全栈式开发语言 – Python 资讯

提到基础设施搭建,不得不提 Hadoop,在今天,Hadoop 因为其 MapReduce 数据处理速度不够快,已经不再作为大数据处理的首选,但是 HDFS 和 Yarn——Hadoop 的两个组件——倒是越来越受欢迎。Hadoop

pm45e 2015-08-03   38813   1
Python  

开源日志系统比较:scribe、chukwa、kafka、flume 经验

构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。

jopen 2013-12-11   163521   0

Apache 基金会宣布 Apache Kylin 成为顶级项目 资讯

程和原则顺利运作。 Apache Kylin是一个开源的分布式分析引擎,提供Apache Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据集。 “Apache Ky

jopen 2015-12-08   23929   0

谷歌技术"三宝"之MapReduce 博客

因为没找到谷歌的示意图,所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置,如下图。 Hadoop实际上就是谷歌三宝的开源实 现,Hadoop MapReduce对应Google

openkk 2012-05-04   5497   0
1 2 3 4 5 6 7 8 9 10