P6

  使用 Linux 和 Hadoop 进行分布式计算 文档

们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的 Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架,并展示它为什么是最重要的基于 Linux 的分布式计算框架之一。

wwqu1020 2012-09-13   3132   0
P6

  基于Hadoop架构的分布式计算和存储技术及其应用 文档

本文介绍了Hadoop架构的主要构成,通过一个实例详细阐述了Hadoop架构的MapReduce实现机制;开发了一个基于Hadoop架构职工工资统计应用实例,并根据该实例分析了其在单节点模式、伪分布模式和完全分布模式应用中的运行效率。

wwqu1020 2012-09-13   631   0
P55

  Hadoop入门实战手册 文档

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。<br> Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的基础框架。它由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

somnus_sta 2012-09-13   629   0
P8

  HBase 技术介绍 文档

HBase简介HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现,类似GoogleBigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;

duchengli 2012-09-12   438   0
P3

  MooseFS 一种分布式文件系统 文档

MooseFS是一种分布式文件系统,MooseFS文件系统结构包括以下四种角色:1管理服务器managingserver(master)2元数据日志服务器Metaloggerserver(Metalogger)3数据存储服务器dataservers(chunkservers) 4客户机挂载使用clientcomputers 

li4li5li6 2012-09-11   3131   0
P9

  基于HDFS的Fedora的分布式存储实现研究--小论文 文档

摘要:随着信息社会发展,海量数字信息资源存储的需求变得越来越普遍,使用分布式文件存储是一种有效的解决方案。本文通过分析Fedora的底层存储架构以及HDFS本身信息存储交互特点,给出了Fedora的HDFS的分布式存储实现方案,为今后使用Fedora进行分布式存储及管理提供了借鉴参考。

li4li5li6 2012-09-11   3028   0
P4

  Hadoop Eclipse插件安装 文档

:以下指南均在ubuntu下,如果你是win+cygywin模式,可能有差别(没研究不多说),仅供参考,如有误人之处还望指正。别看区区一个插件,还真是复杂,光是版本问题就捣鼓了好长时间,网上也没有成熟的案例都在讨论+询问,我这现在捣鼓明白了,跟大家分享一下

minglang 2012-09-09   535   0
P23

  Hbase 原理及性能分析报告 文档

Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。<br> Hbaes的目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。<br> Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统,那么我们就先要了解Hadoop文件系统的基本特性和原理,才能更好地理解Hbase的工作方式。

nx42 2012-09-07   753   0
P45

  zookeeper 集群安装 文档

我们把提供相同应用的服务器组称之为一个quorum,quorum中的所有机器都有相同的配置文件。其中server.X代表组成整个服务的机器,当服务启动时,会在数据目录下查找这个文件myid,这个文件中存有服务器的号码。下面会讲myid文件的配置。

efeil 2012-09-07   2739   0
P18

  ZooKeeper 分布式应用技术分享 文档

为什么需要ZooKeeper?大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器ZooKeeper:提供通用的分布式锁服务,用以协调分布式应用(如,为HBase提供服务)ZooKeeper的数据模型ZooKeeper的数据模型层次化目录结构命名符合常规文件系统规范,不能包含/节点Znode可以包含数据与子节点客户端应用可在节点上设置监视器节点数据不支持部分读写,而是一次性完整读写Ephemeral节点节点创建属性Ephemeral创建的节点不是持久节点一旦与客户端的会话结束,节点自动删除Sequence创建节点时

kingb 2012-09-05   4419   0
P10

  分布式计算(Map/Reduce) 文档

分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按GoogleMap/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。

wanboy 2012-09-03   642   0
P7

  Hadoop 网站介绍 文档

Mapreduce是一个简单易用的编程框架,基于Map-reduce写出的程序可以同时运行在由成千上万台计算机组成的计算集群上。就算您不懂得并行编程,不懂套接字,您一样可以控制多台计算机同时处理数据。 在Mapreduce OnlineEvaluation上,您可以选择题目,编写相应的mapreduce程序,体验云平台的编程环境并很方便地学习编写mapreduce程序。

wanboy 2012-09-03   2458   0
P38

  Hadoop 介绍 - API 文档

Hadoop项目简介; HDFS体系结构; HDFS关键运行机制; Hadoop VS.Google(分布式文件系统); Hadoop API; Hadoop环境搭建。

zoujl 2012-08-29   4332   0
P19

  MapReduce与Hadoop 文档

在输入数据的“逻辑”记录上应用Map操作得出一个中间Key/value pair集合。在所有具有相同key值的value值上应用Reduce操作,从而达到合并中间的数据,得到一个想要的结果的目的

loyoo 2012-08-28   2554   0
P9

  MapRedue 作业过程 文档

1.Hadoop作业构成1.1Hadoop作业执行流程用户配置并将一个Hadoop作业提到Hadoop框架中,Hadoop框架会把这个作业分解成一系列maptasks和reducetasks。Hadoop框架负责task分发和执行,结果收集和作业进度监控。下图给出了一个作业从开始执行到结束所经历的阶段和每个阶段被谁控制(用户orHadoop框架。

grid2012 2012-08-28   1979   0
P11

  HBase 存储架构 文档

HBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问题向你抱怨,但是如果你想学习哪些高级的配置选项并了解它们的意思,你可能就需要来了解一下这个存储问题了。“怎样才能把HBase调整到最适合我需求的状态?”你可能对于这样一系列类似的问题非常感兴趣。那么你就需要绕过这些问题来学习HBase的基础知识。另一个支持你学习这些基础知识的理由是有时候各种各样你想不到的灾难需要你恢复整个HBase。我首先学习了HBase中控制各种不同文件的独立的类,然后根据我对整个HBase存储系统的理解在脑海中构建HBase架构的图像。

dutianmin 2012-08-27   4513   0
P14

  HDFS小文件处理解决方案总结+facebook(HayStack)+淘宝(TFS) 文档

一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右 HDFS存储特点:(1) 流式读取方式,主要是针对一次写入,多次读出的使用模式。写入的过程使用的是append的方式。(2) 设计目的是为了存储超大文件,主要是针对几百MB,GB,甚至TB的文件(3) 该分布式系统构建在普通PC机组成的集群上,大大降低了构建成本,并屏蔽了系统故障,使得用户可以专注于自身的操作运算。 HDFS与小图片存储的共通点和相悖之处:(1 都建立在分布式存储的基本理念之上(2) 均要降低成本,利用普通的PC机构建系统集群 (1)  HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于namenode的内存大小。

平江夜弹 2012-08-23   5511   0
P10

  HBase Architecture(中) 文档

WAL是灾难发生时的救生索。与MySQL中的binary log类似,它会记录下针对数据的所有变更。在主存产生问题的时候这是非常重要的。如果服务器crash了,它就可以通过重放日志让一切恢复到服务器crash之前的那个状态。同时这也意味着如果在记录写入到WAL过程中失败了,那么整个操作也必须认为是失败的。

lanbocui 2012-08-21   2232   0
P10

  HBase编程api介绍 文档

HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息。它有两种构造方式: public HBaseConfiguration() public HBaseConfiguration(final Configuration c)

lanbocui 2012-08-21   5078   0
P8

  HBase Architecture(译):上(2) 文档

该引用文件代表了hash值为” d9ffc3a5cd016ae58e23d7a6cb937949”的原始region的一半内容。引用文件仅仅有很少量的信息:原始region split点的key,引用的是前半还是后半部分。这些引用文件会通过HalfHFileReader类来读取原始region的数据文件。

lanbocui 2012-08-21   2112   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档