开源项目,开源代码,开源文档,开源新闻,开源社区

你可能听说过 Apache Tez ，它是一个针对 Hadoop 数据处理应用程序的新分布式执行框架。但是它到底是什么呢？它的工作原理是什么？哪些人应该使用它，为什么？如果你有这些疑问，那么可以看一下

jopen 2014-10-13 30952 0

分布式/云计算/大数据 Apache Tez

在hadoop2中新的NameNode不再是只有一个，可以有多个（目前只支持2个）。每一个都有相同的职能。一个是active状态的，一个是standby状态的。当集群运行时，只有active状态的N

xmnx 2015-03-23 22084 0

Hadoop 分布式/云计算/大数据

P6

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术 2014-07-16 13:51 大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm

tony2007 2015-06-19 2795 0

Hadoop 分布式/云计算/大数据

P5

家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践，倒计时开始…… 第1分钟： Hadoop要解决的问题是什么？答：Hadoop核心要解决长期IT界乃至人类社会的两大主题： 1，

xcxc 2015-08-23 651 0

Hadoop 分布式/云计算/大数据

P25

Apache Hadoop 2.0 下一代数据处理框架介绍 2. 主要内容Hadoop 1.0 的局限性 Hadoop 2.0 新特性介绍 Hadoop现状及最新进展 3. Hadoop1.0的局限-

pnx8 2014-08-17 3282 0

Hadoop 分布式/云计算/大数据方案 Apache Java

容器和微服务凭借构架上的灵活优势，已经杀进了Hadoop生态系统。分别位于德国和美国两家公司的技术高管对此提出了自己的观点。最近关于大数据的实践多是基于裸机的，这意味着Hadoop已经在非虚拟服务器上被广为实现

jsho1213 2016-11-10 11218 0

微服务 Hadoop

P6

用Hadoop搭建分布式存储和分布式运算集群用Hadoop搭建分布式存储和分布式运算集群 1. 列出使用的机器普通PC，要求： cpu: 750M-1G mem: >128M disk: >10G

daibiao 2012-06-13 5156 0

Hadoop 分布式/云计算/大数据

Hadoop让大数据分析走向了大众化，然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前，是否已经将现有技术推向极限？这里总结了对Hadoop投资前可以尝试的10个替代方案，省时、省钱、省力，何乐而不为？

jopen 2014-08-31 16681 0

Hadoop 分布式/云计算/大数据

简介： Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。

jopen 2015-01-13 23366 0

Hadoop2 分布式/云计算/大数据

智能（BI）应用为运营商带来了巨大机遇。对此，中国移动研究院业务支撑所所长孙少陵日前在“Hadoop与大数据技术大会”上对于运营商的大数据商业智能探索进行了详细介绍。机遇与挑战并存如

jopen 2013-01-04 16327 0

Hadoop

168.79.101 hadoop1 192.168.79.102 hadoop2 192.168.79.103 hadoop3 192.168.79.104 hadoop4 一：准备 1

jopen 2015-11-04 33701 0

Hadoop 分布式/云计算/大数据

，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。

lidki 2015-03-22 18001 0

Mahout 数据挖掘

P24

Mahout 算法介绍聚类 K-means 分类贝叶斯分类过程手机上网推荐实例推荐算法讲解 2. Mahout开源（apache 许可）可伸缩的机器学习算法库与Hadoop 紧密结合 3. Mahout

xiaobig 2013-10-27 738 0

数据挖掘

习领域经典算法的实现，可以帮助开发人员更加方便快捷地创建智能应用程序。通过和 Apache Hadoop 分布式框架相结合，Mahout 可以有效地使用分布式系统来实现高性能计算。网址： http://mahout

jopen 2015-11-05 16169 0

Mahout 机器学习

P20

少数据集中的维度数据，以便只专注于最有用的属性，或者用于探明趋势。无监管学习的常见方法包括 k-Means、分层集群和自组织地图。　　在本文中，我将重点讨论 Mahout 当前已实现的三个具体的机器

bbcpeng 2013-09-13 3757 0

机器学习 Apache

布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其他常见的机器学习算法的分布式实现方案。当前拥有：

jopen 2013-11-11 36239 0

Mahout 算法

Canopy Clustering Canopy聚类 K-means Clustering K均值算法 Fuzzy K-means 模糊K均值 Expectation Maximization

jopen 2013-11-04 99916 0

Mahout 算法

normal equation for least squares bisecting K-Means clustering online hypothesis testing Latent

jopen 2016-01-04 18184 0

被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平台，设计思想主要来源于Hadoop、MPP数据库、流式计算系统等，支持增量迭代计算。原理 Spark 1.4特点如下所示。

jopen 2015-07-16 34743 0

Spark

P44

法处理情况下的机器学习工具。在目前阶段，这种可伸缩性由java实现，有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口，预装好的服务器。以及安装

pcint 2013-07-18 1264 0

针对Hadoop数据处理应用程序的新分布式执行框架： Apache Tez 经验

hadoop2.5.2HA高可靠性集群搭建(zookeeper3.4.6+hbase0.98.11) 经验

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术文档

10分钟内理解云计算分布式大数据处理框架Hadoop 文档

Apache Hadoop2.0 下一代数据处理框架介绍文档

容器和微服务在Hadoop生态系统中找到一席之地经验

用Hadoop搭建分布式存储和分布式运算集群文档

数据分析≠Hadoop+NoSQL，不妨先看完善现有技术的10条捷径(分享) 经验

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试经验

中国移动集中化BI探索：数据仓库与Hadoop混搭资讯

hadoop2.x 完全分布式详细集群搭建(图文：4台机器) 经验

Mahout快速入门教程经验

Mahout 学习分享文档

Mahout环境安装说明经验

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用文档

分布式机器学习算法的集合：Mahout 经验

Mahout算法集经验

Apache Spark 1.6 正式发布，性能大幅度提升资讯

Spark与Flink：对比与分析资讯

mahout in action中文版(最全的) 文档

K-means Hadoop 的相关搜索

关键词

针对Hadoop数据处理应用程序的新分布式执行框架： Apache Tez 经验

hadoop2.5.2HA高可靠性集群搭建(zookeeper3.4.6+hbase0.98.11) 经验

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术 文档

10分钟内理解云计算分布式大数据处理框架Hadoop 文档

Apache Hadoop2.0 下一代数据处理框架介绍 文档

容器和微服务在Hadoop生态系统中找到一席之地 经验

用Hadoop搭建分布式存储和分布式运算集群 文档

数据分析≠Hadoop+NoSQL，不妨先看完善现有技术的10条捷径(分享) 经验

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试 经验

中国移动集中化BI探索：数据仓库与Hadoop混搭 资讯

hadoop2.x 完全分布式详细集群搭建(图文：4台机器) 经验

Mahout快速入门教程 经验

Mahout 学习分享 文档

Mahout环境安装说明 经验

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用 文档

分布式机器学习算法的集合：Mahout 经验

Mahout算法集 经验

Apache Spark 1.6 正式发布，性能大幅度提升 资讯

Spark与Flink：对比与分析 资讯

mahout in action中文版(最全的) 文档

K-means Hadoop 的相关搜索

关键词

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术文档

Apache Hadoop2.0 下一代数据处理框架介绍文档

容器和微服务在Hadoop生态系统中找到一席之地经验

用Hadoop搭建分布式存储和分布式运算集群文档

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试经验

中国移动集中化BI探索：数据仓库与Hadoop混搭资讯

Mahout快速入门教程经验

Mahout 学习分享文档

Mahout环境安装说明经验

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用文档

Mahout算法集经验

Apache Spark 1.6 正式发布，性能大幅度提升资讯

Spark与Flink：对比与分析资讯