P5

  在windows上建立hadoop+eclipse开发环境 文档

在windows上建立hadoop-eclipse开发环境

lxj2008 2014-01-19   358   0
P32

  Hadoop学习总结 文档

分布式开发框架纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取?Facebook的服务器大概1万台,按照oracle的标准10g版本计算大约需要21亿元Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成。Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》。可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。

lxj2008 2014-01-19   553   0
P5

  HADOOP-0.20.2 分布式集群配置 文档

本文以安装和使用hadoop-0.20.2为例。 PasswordAuthenticationnoAuthorizedKeysFile.ssh/authorized_keys三台机器都要如上配置!下面可以通过SSH命令试试是否可以无密码登陆。最好先重新启动下命令:[root@hadoop1root]$servicesshdrestart[root@hadoop1root]$sshhadoop2如果可以无密码登陆,即成功!JDK安装本集群安装jdk1.6.0_24版本,直接放置在root下。以下的配置三台电脑均相同。通过windows中的SSHsecureshell软件将jdk-6u24-linux-rpm.bin安装包传送到三台机器。通过授权、安装命令安装jdk[root@hadoop1root]$chmod+xjdk-6u24-linux-rpm.bin[root@hadoop1root]$./jdk-6u24-linux-rpm.bin等待一段时间,提示回车的时候,按下回车,一会自动打开jdk的网页介绍。3.配置jdk文件,在/etc/profile中配置环境变量如下:exportJAVA_HOME=”/usr/java/jdk1.6.0_24”exportPATH=”$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:”exportCLASSPATH=”$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib”exportHADOOP_HOME=”/root/hadoop-0.20.2”//提前配置好省的麻烦。。。4.测试。建立个test.ja

lxj2008 2014-01-19   3462   0
P6

  Hadoop-1.1.2-eclipse-plugin插件编译步骤及方法 文档

Windows下编译hadoop_eclipse插件步骤.

yongning99 2014-01-13   4353   0
P7

  Hadoop实战-初级部分 之 Hadoop IO 文档

  HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum(默认512字节)字节,都会创建一个单独的校验和。 数据节点负责在存储数据及其校验和之前验证它们收到的数据。 从客户端和其它数据节点复制过来的数据。客户端写入数据并且将它发送到一个数据节点管线中,在管线的最后一个数据节点验证校验和。

singing 2014-01-07   2012   0
P35

  Hadoop及Mapreduce入门 文档

Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

lxz 2014-01-03   2919   0
P23

  Hadoop 运维杂记 文档

Hadoop运维杂记张月@蓝汛自我介绍张月性别男,爱好女就职于蓝汛Chinacache数据平台日志Team工作内容:开发,运维基于hadoop数据平台及其生态系统;公司内部Hadoop技术推广;不要相信我说的实践是检验真理的唯一标准今日菜单Hadoop在蓝汛说说Cloudera和它的产品们运维杂记——几次重大事故Hadoop在蓝汛系统结构

lxz 2014-01-03   2998   0
P30

  淘宝Hadoop与数据分析 文档

基本概念Hadoop的应用范围Hadoop底层实现原理Hive与数据分析Hadoop集群管理典型的Hadoop离线分析系统架构常见问题及解决方案关于打扑克的哲学打扑克与MapReduce

lxz 2014-01-03   3863   0
P16

  亿赞普Hadoop应用浅析 文档

亿赞普Hadoop应用浅析IZP肖燕京密级:目录一IZPHadoop集群现状Hadoop应用Hadoop集群维护及出现的问题密级:一:IZPHadoop集群现状集群规模共大、小2个集群:数据中心和实验室集群数据中心:1台NameNode,1台SecondNameNode,1台JobTracker,100来台DataNode共100多台高配服务器;数据中心又分为10多个机架,每个机架上10多台服务器;

lxz 2014-01-03   625   0
P51

  EasyHadoop 实战手册 文档

  本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。      本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统 需要做部分修改。Hadoop为分布式文件系统和计算的基础框架系统,其中包含hadoop程序,hdfs系统等。

lxz 2014-01-03   1977   0
P6

  Hadoop 集群配置 文档

Hadoop集群在linux下配置第一部分Hadoop1.2.1下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop1.2.1。

yangzhp1_1 2013-12-17   2695   0
P39

  Hadoop MapReduce 模块源代码详细解析 文档

该文档从源代码的级别剖析了Hadoop 0.20.2版本的MapReduce模块的运行原理和流程,对JobTracker、TaskTracker的内部结构和交互流程做了详细介绍。系统地分析了Map程序和Reduce程序运行的原理。读者在阅读之后会对Hadoop MapReduce 0.20.2版本源代码有一个大致的认识。

songyl525 2013-12-11   465   0
P4

  hadoop SequenceFile 文件写入及各式分析 文档

hadoop SequenceFile 是一个由二进制形式key/value的字节流组成的存储文件,SequenceFile可压缩可切分,非常适合hadoop文件存储特性,SequenceFile的写入由SequenceFile.Writer来实现, 根据压缩类型SequenceFile.Writer又派生出两个子类SequenceFile.BlockCompressWriter和SequenceFile.RecordCompressWriter, 压缩方式由SequenceFile类的内部枚举类CompressionType来表示。

songyl525 2013-12-11   2837   0
P

Hadoop 1.0 权威入门指南_v1.0 文档

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。 GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。 Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持。

haohaoaiiqian 2013-12-02   2024   0
P14

  Hadoop 集群搭建笔记 文档

分布式集群系统安装伪分布模式安装比较简单,集群模式是在伪分布模式基础上进行修改的,所以伪分布模式安装必须搞定。以下是操作步骤1.确定集群的结构由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。假设各节点安装的linux版本完全一致。

beat_it 2013-11-16   2072   0
P129

  Hadoop 从入门到精通 文档

VirtualBox号称是免费虚拟机软件中最强的,拥有丰富的特色和出色的性能,在虚拟机市场占用重要地位。我们选择它的理由是:*安装程序体积小。相对于同类产品VMWare的四五百兆的体积,VirtualBox只有几十兆的安装程序,安装完成后也只有120多兆,太小巧了。*功能简单实用。配置简单、克隆系统、共享文件、虚拟化等一样不缺*免费。这是最大的诱惑。

beat_it 2013-11-16   525   0
P

Hadoop 1.2.1 API 文档 文档

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

allen789 2013-10-31   7446   0
P22

  Hadoop: A Software Framework for Data Intensive Computing Applications 文档

Hadoop: A Software Framework for Data Intensive Computing Applications

Eric_V72 2013-10-21   1733   0
P49

  Hadoop Technical Introduction 文档

Job – A “full program” - an execution of a Mapper and Reducer across a data set Task – An execution of a Mapper or a Reducer on a slice of data a.k.a. Task-In-Progress (TIP) Task Attempt – A particular instance of an attempt to execute a task on a machine

Eric_V72 2013-10-20   347   0
P27

  Hadoop与数据分析 文档

Hadoop基本概念,Hadoop的应用范围,Hadoop底层实现原理,Hive与数据分析,Hadoop集群管理典型的Hadoop离线分析系统架构。

zhpboy 2013-10-12   4361   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档