P36

  Hadoop / MapReduce 讨论与学习 文档

Hadoop 源起: Apache Lucene 开源的高性能全文检索工具包 Apache Nutch 开源的 Web 搜索引擎 Google 三大论文 MapReduce / GFS / BigTable Apache Hadoop 大规模数据处理 Hadoop 核心: Hadoop Common 分布式文件系统HDFS MapReduce框架

jphnny 2016-06-28   3381   0

MapReduce数据流 经验

MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意的输入文件。

openkk 2012-02-16   49209   0

MapReduce + Oracle = Tablefunctions 经验

我们在OpenWorld大会做的其中一件事,是漂亮的展示了如何在通用的Oracle数据库之上实现MapReduce系统。这里基于在这个博客上,显示了很好的实施tablefunctions和映射器等.

jopen 2014-10-06   14418   0
P35

  PageRank 的 MapReduce 实现 文档

PageRank算法介绍; PageRank算法的MapReduce实现; 实现一个简单的搜索引擎; WordCount例程源码讲解。PageRank算法由Google创始人之一Larry Page提出,它是Google排名运算法则的一部分,是Google用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站好坏的重要标准之一。

平江夜弹 2012-08-11   690   0
Go  

下载谷歌MapReduce 博客

准备下载谷歌MapReduce资料。

bigcat76 2011-07-27   576   0
P96

  MapReduce 算法设计 文档

自MapReduce发明后,Google大量用于各种海量数据处理,目前Google内部有7千以上的程序基于MapReduce实现。MapReduce可广泛应用于搜索引擎(文档倒排索引,网页链接图分析与页面排序等)、Web日志分析、文档分析处理、机器学习、机器翻译等各种大规模数据并行计算应用领域各类大规模数据并行处理算法。

bxunzhao 2013-05-18   999   0

MapReduce实现 - GraphLab 经验

GraphLab 是一个机器学习平台,主要是图模型方面的计算。 GraphLab 是另一种有趣的MapReduce抽象实现,侧重机器学习算法的并行实现。GraphLab中,Map阶段定义了可以独立执行(在独立的主机上)的计算,Reduce阶段合并这些计算结果。

jopen 2012-12-13   16544   0

大数据(四) - MapReduce 经验

MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的

jopen 2016-01-20   13788   0
P35

  Hadoop及mapreduce入门 文档

数据太多了,需要能存储、快速分析Pb级数据集的系统单机的存储、IO、内存、CPU有限,需要可扩展的集群使用门槛低,数据分析是个庞杂的问题,MPI太复杂单点故障问题–机器多了单点故障成为正常的异常–节点有增有减Hadoop就是一个满足易用性、可靠性、可扩展性的存储计算平台,还是开源的!Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

P35

  Hadoop及Mapreduce入门 文档

Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

lxz 2014-01-03   2919   0
P2

  MapReduce 编程模型 文档

MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。

hadooper 2013-05-30   1983   0

Python 的mapreduce 单词统计 代码段

#!/usr/bin/env python import random # 'abc..z' alphaStr = "".join(map(chr, range(97,123))) fp = open("word.txt", "w") maxIter = 100000 for i in range(maxIter): word = "" len =random.randint(1,5) for j

en9 2014-12-30   2110   0
Python  
P27

  MapReduce 技术的初步了解与学习 文档

今天咱们学习下MapReduce模型。由于是本人是初次接触,不是很了解。所以,有任何问题,还望各位不吝批评指正。本文中,我会先用最最通俗的语言阐述什么是MapReduce,然后再摘自Google MapReduce中文版上的一些内容,以期对这个模型有个初步的了解与认识。ok,闲不多说,下面进入正题。

lzqkean 2013-11-06   427   0
P12

  MapReduce框架结构 文档

MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的HYPERLINK"http://labs.google.com/papers/mapreduce.html"MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processingandgeneratinglargedatasets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的,下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

JDynamiTe 2011-03-30   7606   0

快速学习mongodb的mapreduce例子 经验

map和reduce是十分有用的操作,特别是在NOSQL中.本文简单小结下 在mongodb中对mapreduce的操作,以及在JAVA中如何操作.

fmms 2012-02-17   50599   0
P8

  自己整理的Hadoop Hive MapReduce 文档

Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

xfj3526 2012-06-13   5194   0

使用mapreduce计算环比的实例 经验

最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个例子,也算是对自己写的程序的总结了。

Smith 2016-02-21   16578   0

Hadoop入门之HDFS与MapReduce 经验

Hadoop的核心就是HDFS与MapReduce

fmms 2012-01-06   60053   0

MapReduce工作机制总结 经验

总结从MapReduce程序中的JobClient.runJob(conf)开始,给出了MapReduce执行的流程图(如下),并分析了流程图中的四个核心实体,结合实际代码介绍了MapReduce执行的详细流程。

jopen 2013-12-06   25604   0

MapReduce架构设计 经验

MapReduce架构设计

jopen 2013-06-11   45698   0
1 2 3 4 5 6 7 8 9 10