开源项目,开源代码,开源文档,开源新闻,开源社区

ys)。在批处理方面，MapReduce(MR)已经证明其为最有效的工具，随着MR的开源实现Hadoop为代表的大数据分析技术的普及，其在大处理方面的能力已经得到认可，但是它更适用于对集群上大数据

jopen 2014-12-19 64036 0

Spark 分布式/云计算/大数据

Foundry平台来搭建自己的PaaS环境等。本文主要介绍docker在大数据方面的应用，经过一段时间的研究和实际操作，提出了Hadoop on Docker架构。大概思路就是将硬件（或云服务器）通过Docker搭建成为一个“超级服

jopen 2016-01-17 22611 0

Docker Java开发

是一个开源监视和警报解决方案，用于智能实时地识别大数据平台上的安全和性能问题，例如 Apache Hadoop，Apache Spark 等。 “我们很自豪 Eagle 能顺利度过孵化过程，并作为 Apache

jopen 2017-01-10 9828 0

Apache

面向四种语言的最佳资源库再加上Java on Hadoop，相信足以帮助大家将机器学习转化为切实可靠的业务工具。在经历了数十年单纯作为专业学科的潜伏期之后，机器学习突然之间在技术前沿与核心领

jopen 2014-08-06 35293 0

机器学习

。 Apache Mesos – 一种可以运行Hadoop MapReduce或者服务型应用的通用集群管理器。 Hadoop YARN – Hadoop 2的集群管理器。另外，使用Spark的 EC2

fyfg0690 2016-02-28 9942 0

Spark 分布式/云计算/大数据

上的分布式深度学习库 BigDL，其可以利用已有的 Spark 集群来运行深度学习计算，并且还能简化从 Hadoop 的大数据集的数据加载。开源地址： https://github.com/intel-analytics/BigDL

jopen 2017-01-16 23127 0

深度学习分布式系统大数据

原始数据《专访卢亿雷：谈Hadoop生态的最新发展》：在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变化，技术圈的生态状况，

jopen 2016-04-12 29688 0

数据挖掘大数据

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。

jopen 2014-01-28 23015 0

Hive 数据挖掘

P3

在过去的十年里，数据处理发生了革命性的变化：MapReduce，Hadoop，以及相关的技术使我们可以存储和处理以前不可想象的大规模的数据。很遗憾，这些数据处理系统都不是实时系统，而且也根本没办法把Hadoop变成一个实时系统；实时数据处

cdmamata 2014-01-13 488 0

分布式/云计算/大数据

mapReduce功能函数只能用javascript编写，并且通过控制台命令执行 8.GridFS文档系统--功能类似于Hadoop的HDFS,实现分布式存储功能四、Hbase HBase基于Google的Big

fmms 2012-02-07 103640 0

NoSQL数据库 NOSQL

、 Spark MLlib 、 Apache HAWQ （一个Hadoop原生的大规模并行SQL分析引擎）以及 Apache Hadoop™ 等开源组件对架构中的每一部分进行了细化：如图所示

jopen 2015-12-09 20197 0

算法

P7

构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。

vv2011_p 2012-12-21 606 0

日志组件

自由软件用户。在 2009 年，Olson 建立了 Cloudera——第一个利用 Hadoop 牟利的组织，基于谷歌软件基础结构的开源数据运算平台——他用 Apache 许可协议替代了 GPL。Apache

fmms 2012-03-26 8249 0

开源

Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会涉及HDFS的读写，而在Spark中则

likeo 2015-04-21 18486 0

Spark 分布式/云计算/大数据

Graphical Model，基本对于现在工业界能用的 Model 都了解 3. 三是我会使用 Hadoop 等工具，这主要得益于第一我选过 Cloud Computing ，这课手把手，还给钱，教使用

jopen 2015-02-03 14236 0

码农

现在，调整配置后不再需要重启，但是目前只支持一部分配置的在线调整，如 Load Balance 和 Compaction。Hadoop 也已经实现了此功能。目前社区的工作方向和趋势：提高可用性很多应用都要求存储具有高可用性，目前

jopen 2016-01-03 22798 0

HBase

提到基础设施搭建，不得不提 Hadoop，在今天，Hadoop 因为其 MapReduce 数据处理速度不够快，已经不再作为大数据处理的首选，但是 HDFS 和 Yarn——Hadoop 的两个组件——倒是越来越受欢迎。Hadoop

pm45e 2015-08-03 38813 1

Python

构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。

jopen 2013-12-11 163521 0

日志系统日志处理

程和原则顺利运作。 Apache Kylin是一个开源的分布式分析引擎，提供Apache Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据集。 “Apache Ky

jopen 2015-12-08 23929 0

Apache Kylin

因为没找到谷歌的示意图，所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置，如下图。 Hadoop实际上就是谷歌三宝的开源实现，Hadoop MapReduce对应Google

openkk 2012-05-04 5497 0

Windows 95 GlassFish

网易大数据平台的Spark技术实践经验

Docker应用场景经验

Apache基金会宣布Apache Eagle成为顶级项目资讯

将机器学习带入Java与JavaScript等编程语言的五种方式资讯

《Spark官方文档》集群模式概览经验

英特尔开源分布式深度学习库BigDL：支持高性能大数据分析资讯

大数据与机器学习周报第5期资讯

Hive查询经验

Twitter Storm 环境搭建文档

常用NoSQL比较经验

实时股票分析系统的架构与算法资讯

开源日志系统比较文档

开源者的信仰正在崩塌资讯

颠覆大数据分析之Spark弹性数据集经验

CMU-CS硕士北美码农求职数据科学家，已拿到Apple Offer 资讯

Apache HBase 2015年发展回顾与未来展望资讯

大数据全栈式开发语言 – Python 资讯

开源日志系统比较：scribe、chukwa、kafka、flume 经验

Apache 基金会宣布 Apache Kylin 成为顶级项目资讯

谷歌技术"三宝"之MapReduce 博客

K-means Hadoop 的相关搜索

关键词

网易大数据平台的Spark技术实践 经验

Docker应用场景 经验

Apache基金会宣布Apache Eagle成为顶级项目 资讯

将机器学习带入Java与JavaScript等编程语言的五种方式 资讯

《Spark官方文档》集群模式概览 经验

英特尔开源分布式深度学习库BigDL：支持高性能大数据分析 资讯

大数据与机器学习周报 第5期 资讯

Hive查询 经验

Twitter Storm 环境搭建 文档

常用NoSQL比较 经验

实时股票分析系统的架构与算法 资讯

开源日志系统比较 文档

开源者的信仰正在崩塌 资讯

颠覆大数据分析之Spark弹性数据集 经验

CMU-CS硕士北美码农求职数据科学家，已拿到Apple Offer 资讯

Apache HBase 2015年发展回顾与未来展望 资讯

大数据全栈式开发语言 – Python 资讯

开源日志系统比较：scribe、chukwa、kafka、flume 经验

Apache 基金会宣布 Apache Kylin 成为顶级项目 资讯

谷歌技术"三宝"之MapReduce 博客

K-means Hadoop 的相关搜索

关键词

网易大数据平台的Spark技术实践经验

Docker应用场景经验

Apache基金会宣布Apache Eagle成为顶级项目资讯

将机器学习带入Java与JavaScript等编程语言的五种方式资讯

《Spark官方文档》集群模式概览经验

英特尔开源分布式深度学习库BigDL：支持高性能大数据分析资讯

大数据与机器学习周报第5期资讯

Hive查询经验

Twitter Storm 环境搭建文档

常用NoSQL比较经验

实时股票分析系统的架构与算法资讯

开源日志系统比较文档

开源者的信仰正在崩塌资讯

颠覆大数据分析之Spark弹性数据集经验

Apache HBase 2015年发展回顾与未来展望资讯

Apache 基金会宣布 Apache Kylin 成为顶级项目资讯