P

Hadoop 0.20.203.0 API 文档

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

perfectqgw 2012-11-18   3212   0
P

Hadoop 0.20.1 API 文档

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

wanjia19 2011-08-10   6182   0
P3

  Hadoop任务调度 文档

在Master上运行的是JobTracker守护进程,而在Slave上运行的是TaskTracker守护进程。对于一个作业,首先提交给JobTracker,再由JobTracker对提交的作业进行处理。

thinkingx 2011-12-15   5872   0
P2

  Hadoop API组成 文档

willfly 2011-08-28   4194   0
P7

  Hadoop 命令大全 文档

0概述:所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

xfj3526 2012-06-13   3684   0
P41

  Hadoop Map/Reduce教程 文档

Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。

wentao 2012-02-03   2837   0
P50

  Hadoop 实战手册 文档

本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。 本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统 需要做部分修改。

ka520 2015-11-14   434   0

Hadoop Streaming使用简介 经验

它是hadoop的一个工具,用来创建和运行一类特殊的map/reduce作业。所谓的特殊的map/reduce作业可以是可执行文件或脚本本件(python、PHP、c等)。Streaming使用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据的交换。由此可知,任何能够使用“标准输入”和“标准输出”的编程语言都可以用来编写MapReduce程序。

jopen 2011-12-21   55545   0

Hadoop命令手册 博客

概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。 命令选项 描述 --config confdir 覆盖缺省配置目录。缺省是

jopen 2012-02-01   4317   0
P27

  Hadoop 分享 文档

司目录HDFS文件系统与HDFS窥探内部结构运行正常流程/非正常流程/发现异常MapReduce参与计算角色窥探JOB运行MR提供重写接口配置参数调优Hadoop组成HDFS文件系统HDFS什么是文件系统文件系统:操作系统用于明确磁盘或分区上的文件的方法和数据结构;即在磁盘上组织文件的方法。

gppxm 2012-10-19   2076   0
P35

  Hadoop及mapreduce入门 文档

数据太多了,需要能存储、快速分析Pb级数据集的系统单机的存储、IO、内存、CPU有限,需要可扩展的集群使用门槛低,数据分析是个庞杂的问题,MPI太复杂单点故障问题–机器多了单点故障成为正常的异常–节点有增有减Hadoop就是一个满足易用性、可靠性、可扩展性的存储计算平台,还是开源的!Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

P49

  Hadoop Technical Introduction 文档

Job – A “full program” - an execution of a Mapper and Reducer across a data set Task – An execution of a Mapper or a Reducer on a slice of data a.k.a. Task-In-Progress (TIP) Task Attempt – A particular instance of an attempt to execute a task on a machine

Eric_V72 2013-10-20   347   0

Hadoop 排重优化 经验

如果觉得有帮助的话就顶下吧 在统计的时候经常会用到排重,比如想统计每日登陆用户,但是一个用户一次多次登陆情况,或者一个产品被多少个用户下载。。

ygp8 2015-09-05   6606   0

Hadoop 入门实践 经验

Hadoop 包括如下几个模块:

Hadoop Hive与Hbase整合 经验

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库

jopen 2012-02-04   180500   0

Hadoop集群设置 经验

设置dfs.name.dir 时,通过逗号分隔多个值,可以使namenode将元数据存储到多个副本,以便namenode出错时恢复。 dfs.data.dir也可设置多个目录,但是其目的不是为了冗余容错,而是可以循环写入,提高性能。 fs.checkpoint.dir也可设置多个目录,以保存检查点。和namenode一样,其支持冗余备份。

jopen 2014-01-28   18751   0

Hadoop的使用命令 经验

Hadoop的使用命令

jopen 2014-10-29   16967   0

Hadoop安装部署 经验

使用VirtualBox安装CentOS6.4,存储为30G,内存为1G,并使用复制克隆出两个新的虚拟机,这样就存在3台虚拟机,设置三台虚拟机的主机名称,如:master、slaver1、slaver2

ymc4 2015-02-11   28859   0

Hadoop】HDFS的运行原理 经验

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。

wdey 2015-05-24   13886   0
P10

  Hadoop 运行流程 文档

Hadoop包括hdfs与mapreduce两部分,在使用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。

szx85307 2012-05-28   2711   0
1 2 3 4 5 6 7 8 9 10