针对Hadoop数据处理应用程序的新分布式执行框架: Apache Tez 经验

你可能听说过 Apache Tez ,它是一个针对 Hadoop 数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下

jopen 2014-10-13   30952   0

hadoop2.5.2HA高可靠性集群搭建(zookeeper3.4.6+hbase0.98.11) 经验

hadoop2中新的NameNode不再是只有一个,可以有多个(目前只支持2个)。每一个都有相同的职能。 一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的N

xmnx 2015-03-23   22084   0
P6

  大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 文档

大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 2014-07-16 13:51 大 数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm

tony2007 2015-06-19   2795   0
P5

  10分钟内理解云计算分布式大数据处理框架Hadoop 文档

家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始…… 第1分钟: Hadoop要解决的问题是什么? 答:Hadoop核心要解决长期IT界乃至人类社会的两大主题: 1,

xcxc 2015-08-23   651   0
P25

  Apache Hadoop2.0 下一代数据处理框架介绍 文档

Apache Hadoop 2.0 下一代数据处理框架介绍 2. 主要内容Hadoop 1.0 的局限性 Hadoop 2.0 新特性介绍 Hadoop现状及最新进展 3. Hadoop1.0的局限-

pnx8 2014-08-17   3282   0

容器和微服务在Hadoop生态系统中找到一席之地 经验

容器和微服务凭借构架上的灵活优势,已经杀进了Hadoop生态系统。分别位于德国和美国两家公司的技术高管对此提出了自己的观点。 最近关于大数据的实践多是基于裸机的,这意味着Hadoop已经在非虚拟服务器上被广为实现

jsho1213 2016-11-10   11218   0
P6

  用Hadoop搭建分布式存储和分布式运算集群 文档

用Hadoop搭建分布式存储和分布式运算集群 用Hadoop搭建分布式存储和分布式运算集群 1. 列出使用的机器 普通PC,要求: cpu: 750M-1G mem: >128M disk: >10G

daibiao 2012-06-13   5156   0

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径(分享) 经验

Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代方案,省时、省钱、省力,何乐而不为?

jopen 2014-08-31   16681   0

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试 经验

简介: Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。

jopen 2015-01-13   23366   0

中国移动集中化BI探索:数据仓库与Hadoop混搭 资讯

智能(BI)应用为运营商带来了巨大机遇。 对此,中国移动研究院业务支撑所所长孙少陵日前在“Hadoop与大数据技术大会”上对于运营商的大数据商业智能探索进行了详细介绍。 机遇与挑战并存 如

jopen 2013-01-04   16327   0
Hadoop  

hadoop2.x 完全分布式详细集群搭建(图文:4台机器) 经验

168.79.101 hadoop1 192.168.79.102 hadoop2 192.168.79.103 hadoop3 192.168.79.104 hadoop4 一:准备 1

jopen 2015-11-04   33701   0

Mahout快速入门教程 经验

,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就 是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

lidki 2015-03-22   18001   0
P24

  Mahout 学习分享 文档

Mahout 算法介绍 聚类 K-means 分类 贝叶斯分类过程 手机上网推荐实例 推荐算法讲解 2. Mahout开源(apache 许可) 可伸缩的机器学习算法库 与Hadoop 紧密结合 3. Mahout

xiaobig 2013-10-27   738   0

Mahout环境安装说明 经验

习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建 智能应用程序。通过和 Apache Hadoop 分布式框架相结合,Mahout 可以有效地使用分布式系统来实现高性能计算。 网址: http://mahout

jopen 2015-11-05   16169   0
P20

  Apache Mahout 简介:通过可伸缩、商业友好的机器学习来构建智能应用 文档

少数据集中的维度数据,以便只专注于最有用的属性,或者用于探明趋势。无监管学习的常见方法包括 k-Means、分层集群和自组织地图。   在本文中,我将重点讨论 Mahout 当前已实现的三个具体的机器

bbcpeng 2013-09-13   3757   0

分布式机器学习算法的集合:Mahout 经验

布式机器学习算法的集合,协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现(Hadoop-based,另有pure Java版本),Mahout里还有其他常见的机器学习算法的分布式实现方案。当前拥有:

jopen 2013-11-11   36239   0
Mahout   算法  

Mahout算法集 经验

Canopy Clustering Canopy聚类 K-means Clustering K均值算法 Fuzzy K-means 模糊K均值 Expectation Maximization

jopen 2013-11-04   99916   0
Mahout   算法  

Apache Spark 1.6 正式发布,性能大幅度提升 资讯

normal equation for least squares bisecting K-Means clustering online hypothesis testing Latent

jopen 2016-01-04   18184   0

Spark与Flink:对比与分析 资讯

被有效的重复使用。Flink是可扩展的批处理和流式数据处 理的数据处理平台,设计思想主要来源于Hadoop、MPP数据库、流式计算系统等,支持增量迭代计算。 原理 Spark 1.4特点如下所示。

jopen 2015-07-16   34743   0
Spark  
P44

  mahout in action中文版(最全的) 文档

法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装

pcint 2013-07-18   1264   0
1 2 3 4 5 6 7 8 9 10