P7

  Hadoop实战-初级部分 之 Hadoop IO 文档

  HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum(默认512字节)字节,都会创建一个单独的校验和。 数据节点负责在存储数据及其校验和之前验证它们收到的数据。 从客户端和其它数据节点复制过来的数据。客户端写入数据并且将它发送到一个数据节点管线中,在管线的最后一个数据节点验证校验和。

singing 2014-01-07   2012   0
P2

  Hadoop 认识 文档

一.Hadoop核心角色hadoop框架Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondaryNameNode,JobTracker,TaskTracker组成。其中NameNode,secondaryNameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。 1,NameNodeNameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。

zhezi7 2012-10-08   2833   0
P

Hadoop API 文档

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。<br> Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

mimosa1987 2013-01-04   1259   0
P3

  hadoop 安装 文档

一、安装sun的jdk和hadoop,不要使用open-jdk本人安装的jdk1.7.0.rpm包(默认安装路劲为/usr/java/jdk1.7.0)解压hadoop-0.20.2到:/home/hadoop/。

gps2012 2013-01-14   525   0
P6

  Hadoop入门 文档

Hadoop是Google MapReduce 的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

ck614 2010-11-10   4010   0
P

Hadoop 入门 文档

Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。Hadoop的最新版本是0.21.0,说明其还在不断完善发展之中。<br> Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。MapReduce是Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。MapReduce的名字源于这个模型中的两项核心操作:Map和Reduce。Map是把一组数据一对一的映射为另外的一组数据,Reduce是对一组数据进行归约,映射和归约的规则都由一个函数指定。

Bluth 2012-12-25   321   0
P83

  Hadoop 源码 文档

上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是:Chubby-->ZooKeeperGFS-->HDFSBigTable-->HBaseMapReduce-->Hadoop目前,基于类似思想的OpenSource项目还很多,如Facebook用于用户分析的Hive。HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂,原因是HDFS提供了一个分布式文件系统,该系统提供API,可以屏蔽本地文件系统和分布式文件系统,甚至象AmazonS3这样的在线存储系统。这就造成了分布式文件系统的实现,或者是分布式文件系统的底层的实现,依赖于某些貌似高层的功能。功能的相互引用,造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf,conf用于读取系统配置,它依赖于fs,主要是读取配置文件的时候,需要使用文件系统,而部分的文件系统的功能,在包fs中被抽象了。

xnbw 2016-01-12   2076   0
P4

  Hadoop 集群 文档

Hadoop集群搭建机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。

serisboy 2013-04-09   2702   0
P19

  MapReduce与Hadoop 文档

在输入数据的“逻辑”记录上应用Map操作得出一个中间Key/value pair集合。在所有具有相同key值的value值上应用Reduce操作,从而达到合并中间的数据,得到一个想要的结果的目的

loyoo 2012-08-28   2554   0
P150

  Hadoop 入门 文档

Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。

robinzhang 2012-03-22   713   0
P3

  Hadoop Streaming 文档

Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。<br> Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。

misterle 2012-10-07   2751   0
P40

  Hadoop 讲解 文档

Mapreduce hadoop hive三者关系Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。(就是抽象)不管过去,现在是Apache软件基金会管理的开源项目基本架构 - Hadoop是如何构成的Hadoop主要由HDFS(HadoopDistributedFileSystem)和MapReduce引擎两部分组成最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。

hans511002 2012-06-24   728   0
P23

  Hadoop学习总结之五:Hadoop的运行痕迹 文档

在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。

huafenged 2012-02-24   530   0
P11

  云计算Hadoop:快速部署Hadoop集群 文档

 Apache Hadoop是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种PaaS模型。<br>   它的设计核心是MapReduce实现和 HDFS (Hadoop Distributed File System),它们源自MapReduce(由一份 Google 文件引入)和 Google File System。<br>   MapReduce是 Google 引入的一个软件框架,它支持在计算机(即节点)集群上对大型数据集进行分布式计算。它由两个过程组成,映射(Map)和缩减(Reduce)。<br>   在映射过程中,主节点接收输入,把输入分割为更小的子任务,然后把这些子任务分布到工作者节点。

pdffile 2013-01-05   503   0
P7

  Hadoop 网站介绍 文档

Mapreduce是一个简单易用的编程框架,基于Map-reduce写出的程序可以同时运行在由成千上万台计算机组成的计算集群上。就算您不懂得并行编程,不懂套接字,您一样可以控制多台计算机同时处理数据。 在Mapreduce OnlineEvaluation上,您可以选择题目,编写相应的mapreduce程序,体验云平台的编程环境并很方便地学习编写mapreduce程序。

wanboy 2012-09-03   2458   0
P25

  Hadoop进阶 文档

HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件;HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

7at7 2011-04-27   3440   0
P

Hadoop API 文档 文档

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

perfectqgw 2012-11-18   13672   0
P158

  Hadoop 源码分析 文档

Google的核心竞争技术是它的计算平台. Google的大牛们用了下面5篇文章, 介绍了它们的计算设施. GoogleCluster: Chubby: GFS: BigTable: MapReduce: 很快, Apache上就出现了一个类似的解决方案, 目前它们都属于Apache的Hadoop项目

brucehtan 2014-11-09   2206   0
P13

  Hadoop官方文档0.18 文档

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

pkuxiaoq 2011-05-31   519   0
1 2 3 4 5 6 7 8 9 10