P5

  十分钟掌握MapReduce的精髓 文档

作者的目的是讨论MapReduce是否应该继续提供“免费的午餐”,但作者在文中用比较通俗的语言对MapReduce的原理进行了讲解并给了例子,我相信这对不熟悉MapReduce的人来说是个非常不错的入门文章,所以将文章转过来并改名《十分钟掌握MapReduce的精髓》与各位云友分享,希望对大家有用。以下是原文:

wujianhai 2011-11-18   3379   0
P13

HDFS+MapReduce+Hive+HBase 十分钟快速入门 文档

本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。

kspengjun 2011-07-26   211   0
Hadoop   HDFS   MapReduce   Hive   HBase  
P12

  MapReduce框架结构 文档

MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的HYPERLINK"http://labs.google.com/papers/mapreduce.html"MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processingandgeneratinglargedatasets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的,下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

JDynamiTe 2011-03-30   7150   0
P14

Google MapReduce中文版 文档

MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。<br> &nbsp;MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。<br> &nbsp;我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:一个典型的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。程序员发现这个系统非常好用:已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个MapReduce程序在执行。