开源项目,开源代码,开源文档,开源新闻,开源社区

P

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

perfectqgw 2012-11-18 3212 0

Hadoop 分布式/云计算/大数据

P

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

wanjia19 2011-08-10 6182 0

Hadoop 分布式/云计算/大数据

P3

在Master上运行的是JobTracker守护进程，而在Slave上运行的是TaskTracker守护进程。对于一个作业，首先提交给JobTracker，再由JobTracker对提交的作业进行处理。

thinkingx 2011-12-15 5872 0

Hadoop 分布式/云计算/大数据

P2

willfly 2011-08-28 4194 0

Hadoop 分布式/云计算/大数据

P7

0概述：所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

xfj3526 2012-06-13 3684 0

Hadoop 分布式/云计算/大数据

P41

Hadoop Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。

wentao 2012-02-03 2837 0

Hadoop 分布式/云计算/大数据

P50

本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统需要做部分修改。

ka520 2015-11-14 434 0

Hadoop 分布式/云计算/大数据手册

它是hadoop的一个工具，用来创建和运行一类特殊的map/reduce作业。所谓的特殊的map/reduce作业可以是可执行文件或脚本本件（python、PHP、c等）。Streaming使用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据的交换。由此可知，任何能够使用“标准输入”和“标准输出”的编程语言都可以用来编写MapReduce程序。

jopen 2011-12-21 55545 0

Hadoop 分布式/云计算/大数据

概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项描述 --config confdir 覆盖缺省配置目录。缺省是

jopen 2012-02-01 4317 0

计算机

P27

司目录HDFS文件系统与HDFS窥探内部结构运行正常流程/非正常流程/发现异常MapReduce参与计算角色窥探JOB运行MR提供重写接口配置参数调优Hadoop组成HDFS文件系统HDFS什么是文件系统文件系统：操作系统用于明确磁盘或分区上的文件的方法和数据结构；即在磁盘上组织文件的方法。

gppxm 2012-10-19 2076 0

Hadoop 分布式/云计算/大数据报告

P35

数据太多了，需要能存储、快速分析Pb级数据集的系统单机的存储、IO、内存、CPU有限，需要可扩展的集群使用门槛低，数据分析是个庞杂的问题，MPI太复杂单点故障问题–机器多了单点故障成为正常的异常–节点有增有减Hadoop就是一个满足易用性、可靠性、可扩展性的存储计算平台，还是开源的！Hive：数据仓库，facebook贡献PIG：并行计算的一种高级语言，yahoo贡献Nutch：网页搜索软件，不只是爬虫Avro：数据序列化系统Chukwa：用于管理大规模分布式集群的数据收集系统ZooKeeper：用于分布式应用的高性能协同服务Hbase：类似于BigTable的，key-value数据库系统Mahout：分布式机器学习和数据挖掘的LibHama：基于BSP的超大规模科学计算框架

也许那样飞 2016-01-15 2782 0

分布式/云计算/大数据

P49

Job – A “full program” - an execution of a Mapper and Reducer across a data set Task – An execution of a Mapper or a Reducer on a slice of data a.k.a. Task-In-Progress (TIP) Task Attempt – A particular instance of an attempt to execute a task on a machine

Eric_V72 2013-10-20 347 0

Hadoop 分布式/云计算/大数据 x86 Java Go

如果觉得有帮助的话就顶下吧在统计的时候经常会用到排重，比如想统计每日登陆用户，但是一个用户一次多次登陆情况，或者一个产品被多少个用户下载。。

ygp8 2015-09-05 6606 0

Hadoop 分布式/云计算/大数据

Hadoop 包括如下几个模块：

JaquelineEc 2016-03-04 22471 0

Hadoop 分布式系统分布式/云计算/大数据

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库

jopen 2012-02-04 180500 0

Hadoop 分布式/云计算/大数据

设置dfs.name.dir 时，通过逗号分隔多个值，可以使namenode将元数据存储到多个副本，以便namenode出错时恢复。 dfs.data.dir也可设置多个目录，但是其目的不是为了冗余容错，而是可以循环写入，提高性能。 fs.checkpoint.dir也可设置多个目录，以保存检查点。和namenode一样，其支持冗余备份。

jopen 2014-01-28 18751 0

Hadoop 分布式/云计算/大数据

Hadoop的使用命令

jopen 2014-10-29 16967 0

Hadoop 分布式/云计算/大数据

使用VirtualBox安装CentOS6.4，存储为30G，内存为1G，并使用复制克隆出两个新的虚拟机，这样就存在3台虚拟机，设置三台虚拟机的主机名称，如：master、slaver1、slaver2

ymc4 2015-02-11 28859 0

Hadoop 分布式/云计算/大数据

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。

wdey 2015-05-24 13886 0

HDFS 分布式/云计算/大数据

P10

Hadoop包括hdfs与mapreduce两部分，在使用期期间我主要看了mapreduce部分，即hadoop执行作业的部分。mapreduce中几个主要的概念mapreduce整体上可以分为这么几条执行的线索，jobclient，JobTracker与TaskTracker。

szx85307 2012-05-28 2711 0

Hadoop 分布式/云计算/大数据

Hadoop 0.20.203.0 API 文档

Hadoop 0.20.1 API 文档

Hadoop任务调度文档

Hadoop API组成文档

Hadoop 命令大全文档

Hadoop Map/Reduce教程文档

Hadoop 实战手册文档

Hadoop Streaming使用简介经验

Hadoop命令手册博客

Hadoop 分享文档

Hadoop及mapreduce入门文档

Hadoop Technical Introduction 文档

Hadoop 排重优化经验

Hadoop 入门实践经验

Hadoop Hive与Hbase整合经验

Hadoop集群设置经验

Hadoop的使用命令经验

Hadoop安装部署经验

【Hadoop】HDFS的运行原理经验

Hadoop 运行流程文档

K-means Hadoop 的相关搜索

关键词

Hadoop 0.20.203.0 API 文档

Hadoop 0.20.1 API 文档

Hadoop任务调度 文档

Hadoop API组成 文档

Hadoop 命令大全 文档

Hadoop Map/Reduce教程 文档

Hadoop 实战手册 文档

Hadoop Streaming使用简介 经验

Hadoop命令手册 博客

Hadoop 分享 文档

Hadoop及mapreduce入门 文档

Hadoop Technical Introduction 文档

Hadoop 排重优化 经验

Hadoop 入门实践 经验

Hadoop Hive与Hbase整合 经验

Hadoop集群设置 经验

Hadoop的使用命令 经验

Hadoop安装部署 经验

【Hadoop】HDFS的运行原理 经验

Hadoop 运行流程 文档

K-means Hadoop 的相关搜索

关键词

Hadoop任务调度文档

Hadoop API组成文档

Hadoop 命令大全文档

Hadoop Map/Reduce教程文档

Hadoop 实战手册文档

Hadoop Streaming使用简介经验

Hadoop命令手册博客

Hadoop 分享文档

Hadoop及mapreduce入门文档

Hadoop 排重优化经验

Hadoop 入门实践经验

Hadoop Hive与Hbase整合经验

Hadoop集群设置经验

Hadoop的使用命令经验

Hadoop安装部署经验

【Hadoop】HDFS的运行原理经验

Hadoop 运行流程文档