P11

  Hadoop 安装手册 文档

帮助读者快速掌握hadoop的安装和部署HDFS,Hbase,Hive等组件。Hadoopt是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

ccvcd 2014-04-10   394   0
P133

  Hadoop快速入门 文档

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

beanshell 2011-07-16   599   0
P6

  Hadoop 集群配置 文档

Hadoop集群在linux下配置第一部分Hadoop1.2.1下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop1.2.1。

yangzhp1_1 2013-12-17   2695   0
P14

  hadoop,hbase安装步骤 文档

Hadoop,ZooKeeper,HBase,hive(HQL)安装步骤Hadoop安装:首先我们统一一下定义,在这里所提到的Hadoop是指HadoopCommon,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(centos6.X)下安装使用。准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yuminstallrsync来安装rsync。

xnbw 2016-01-11   2200   0
P30

  Hadoop 入门指南 文档

Why Hadoop 数据规模爆炸式增长,大数据计算需要“高效”解决方案 多机环境中网络成为瓶颈 多机环境下的稳定性问题 如何平衡计算效率和开发效率 What Hadoop Google的GFS + MapReduce的山寨产品 Hadoop = HDFS + MapReduce HDFS:分布式“大文件”存储系统 MapReduce:分布式计算框架 计算逻辑必须符合Map-Reduce编程规范

yudian 2014-10-29   565   0
P46

  云计算之Hadoop 文档

Hadoop核心、Hadoop dfs(Hdfs)、MapReduce 分布式并行计算模型 Hadoop扩展、Hadoop base(Hbase)基于hadoop核心的高扩展性分布式数据库、Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心 、Hive-建立在hadoop之上的数据仓库基础设施,提供数据摘要,adhoc、querying,数据集分析。

qiu.n@sand 2011-10-26   5538   0
P61

  Hadoop分享 文档

Hadoop分享: 1、云计算概念 2、Google的云计算 3、Hadoop 4、HDFS 5、Map/Reduce 6、日志框架的Hadoop尝试 7、路在何方

jphnny 2016-06-28   640   0
P32

  Hadoop学习总结 文档

分布式开发框架纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取?Facebook的服务器大概1万台,按照oracle的标准10g版本计算大约需要21亿元Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成。Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》。可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。

lxj2008 2014-01-19   553   0
P35

  Hadoop及Mapreduce入门 文档

Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

lxz 2014-01-03   2919   0
P150

  Hadoop 介绍 文档

参考资料Google的核心技术Google的十个核心技术,而且可以分为四大类:分布式基础设施:GFS、Chubby和ProtocolBuffer。分布式大规模数据处理:MapReduce和Sawzall。分布式数据库技术:BigTable和数据库Sharding。数据中心优化技术:数据中心高温化、12V电池和服务器整合。Google的核心技术分布式基础设施GFS由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为"BigFiles"的文件系统,而GFS(全称为"GoogleFileSystem")这套分布式文件系统则是"BigFiles"的延续。

pnx8 2014-08-17   388   0
P10

  Hadoop 集群测试报告 文档

1. 是否写WAL日志,对于Hbase的批量入库性能有较大影响。是否采用需要多方面的权衡。<br> 2. 顺序访问时,所费时间是毫秒级。<br> 3. 很显然,并发数越少,访问所费时间越长。并发数为5时,所费时间不超过2秒。<br> 4. 用SingleColumnValueFilter等Filter方式进行过滤查询,效率低,海量数据下难以达到一般业务需求。测试1000万以上数据,查询一个号码(如:13621217968)的匹配,需要110122 milseconds+。

lenhan12345 2012-11-27   7980   0
P3

  广告商采用 Hadoop 文档

借助Apache Hadoop进行可靠的宣传和促销消费者从未在自己如何搜索、讨论和购买产品上生成如此多的数据。这种新数据对于品牌或产品的塑造和推广非常重要,但是并未以预先定义的表格化格式整齐排列。ApacheHadoop通过引入社交媒体、点击流、视频和交易数据,让这种“新”数据可供分析,无需预先定义数据模式。该新数据可与现有结构化数据集相结合,用于更深入的情绪分析和定向促销。现在媒体公司、机构和企业可存储新型数据并在更长时间保留一切内容进行广告宣传,实现客户忠诚度和投资回报。以下参考架构图呈现了我们的广告和媒体客户采用的方法组合,无论他们是对百货、家居装饰设计、儿童玩具还是对零售网站上的一切物品进行广告宣传。下面是我们的媒体和广告客户使用HDP来提升其收益的一些具体方式。挖掘百货和药物商店POS数据来确定高价值购物者一家营销分析公司专门跨诸多百货和药物商店收集收银台的有用信息。他们挖掘这种销售信息来进行购物篮分析,价格敏感度以及需求预测。借助运行在YARN上的和ApacheHive,帮助公司快速处理海量数据,跟上市场瞬息万变的节奏。

tony2007 2015-06-20   8022   0
P

Hadoop 1.2.1 API 规范 文档

Hadoop是一个分布式的计算平台。 Hadoop primarily consists of the Hadoop Distributed FileSystem (HDFS) and an implementation of the Map-Reduce programming paradigm.<br> Hadoop is a software framework that lets one easily write and run applications that process vast amounts of data. Here's what makes Hadoop especially useful:<br> 可扩展: Hadoop can reliably store and process petabytes. 廉价: It distributes the data and processing across clusters of commonly available computers. These clusters can number into the thousands of nodes. <br> 高效: By distributing the data, Hadoop can process it in parallel on the nodes where the data is located. This makes it extremely rapid. <br> 可靠: Hadoop automatically maintains multiple copies of data and automatically redeploys computing tasks based on failures.

mingmingok 2014-05-27   5722   0
P

Apache Hadoop Main 2.2.0 API 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算

colophus 2014-11-13   434   0
P83

  hadoop源码分析总结 文档

目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。 HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。 下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂,原因是HDFS提供了一个分布式文件系统,该系统提供API,可以屏蔽本地文件系统和分布式文件系统,甚至象Amazon S3这样的在线存储系统。这就造成了分布式文件系统的实现,或者是分布式文件系统的底层的实现,依赖于某些貌似高层的功能。功能的相互引用,造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf,conf用于读取系统配置,它依赖于fs,主要是读取配置文件的时候,需要使用文件系统,而部分的文件系统的功能,在包fs中被抽象了。

bluesky666 2015-05-05   2182   0
P17

  Windows下使用Hadoop实例 文档

Windows下使用Hadoop实例

porchidy 2013-09-08   3685   0
P30

  Hadoop 淘宝方案 文档

Hadoop与数据分析淘宝。Hadoop基本概念;Hadoop的应用范围;Hadoop底层实现原理;Hive与数据分析;Hadoop集群管理;典型的Hadoop离线分析系统架构;常见问题及解决方案。

qsf113 2012-05-09   664   0
P

Hadoop 中文版文档 文档

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。

bmml123 2012-03-21   10514   0
P21

  Hadoop HDFS安装和管理 文档

由于相对hdfs的客户端存在相对路径问题,参见《HadoopHDFS开发参考》,我们修改了hadoop-0.18.1的源码并进行了重新编译,代码为forlink-hadoop.tar.gz。HDFS中,节点分为Namenode和Datanode,其中Namenode只有一个(可以通过《HadoopHDFS系统双机热备方案》配置两台,但同时只能有一台提供服务),Datanode可以有多台。

huafenged 2011-08-17   5478   0
1 2 3 4 5 6 7 8 9 10