P23

  分布式运算平台-Hadoop-基础篇 文档

1:大规模数据处理的问题1990年,一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。如何解决?一个很简单的减少读取时间的办法是同时从多个磁盘上读取数据。试想一下,我们拥有100个磁盘,每个存储百分之一的数据。如果它们并行运行,那么不到两分钟我们就可以读完所有的数据。2:Hadoop的由来谈到Hadoop就不得不提到Lucene和Nutch。

zhpboy 2013-10-12   3298   0
P12

  Hadoop开发环境搭建(Win8+Linux) 文档

常见的Hadoop开发环境架构有以下三种:Eclipse与Hadoop集群在同一台Windows机器上。Eclipse与Hadoop集群在同一台Linux机器上。Eclipse在Windows上,Hadoop集群在远程Linux机器上。点评:第一种架构:必须安装cygwin,Hadoop对Windows的支持有限,在Windows上部署hadoop会出现相当多诡异的问题。第二种架构:Hadoop机器运行在Linux上完全没有问题,但是有大部分的开发者不习惯在Linux上做开发。

pdddy 2013-09-23   8604   0
P17

  Windows下使用Hadoop实例 文档

Windows下使用Hadoop实例

porchidy 2013-09-08   3685   0
P11

  ubuntu下安装配置hadoop1.0.4 文档

第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下,我的环境操作系统:wmv虚拟机中的ubuntu12.04hadoop版本:hadoop-1.0.4(听说是稳定版就下了)eclipse版本:eclipse-jee-indigo-SR2-win321.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是2.安装ssh这个也不用说了

zhangbc 2013-09-06   757   0
P22

  MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序 文档

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序

li270606338 2013-08-28   7576   0
P18

  hadoop搭建与eclipse开发环境设置及远程调试 文档

hadoop搭建与eclipse开发环境设置。 ――罗利辉前言1.1目标目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。具体目标是:在ubuntu系统上部署hadoop在windows上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试1.2软硬件要求注意:Hadoop版本和Eclipse版本请严格按照要求。

li270606338 2013-08-28   4101   0
P11

  Hadoop在ubuntu下安装配置手册 文档

Hadoop在ubuntu下安装配置手册准备工作:基本环境部署:操作系统安装:Ubuntu,版本为12.0.4,安装虚拟机。

li270606338 2013-08-28   2926   0
P

Hadoop 1.0 权威API参考v1.0 文档

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

kingrom 2013-07-28   2713   0
P16

  亿赞普 Hadoop 应用浅析 文档

目录一IZPHadoop集群现状Hadoop应用Hadoop集群维护及出现的问题密级:一:IZPHadoop集群现状集群规模共大、小2个集群:数据中心和实验室集群数据中心:1台NameNode,1台SecondNameNode,1台JobTracker,100来台DataNode共100多台高配服务器;数据中心又分为10多个机架,每个机架上10多台服务器;实验室集群:共10几台普通微型机.机器配置名称节点和第二名称节点内存不小于90G,硬盘约1TBJobTracker内存不小于20G,硬盘约1TB数据节点内存不小于20G,硬盘不小于10TB槽位分配:每台机器十多个Map槽位,四至六个Reduce槽位密级。

liushijie 2013-06-25   296   0
P17

  Centos6 Hadoop 安装笔记 文档

Centos6Hadoop1.2安装HelloWorld级Centos6Hadoop安装笔记单机版安装系统安装安装操作系统的时候,请分好区,尽量给一个空间大的地方使用Hadoop,例如将Hadoop安装在/opt目录下,就把/opt目录尽量分配大空间。安装SSHCentos系统安装时,选择安装SSH。

r_s 2013-06-19   4424   0
P39

  Hadoop:The Definitive Guid 学习笔记 文档

本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。DataStorageandAnalysis数据存储和分析现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。读取硬盘上的全部数据会花费比较长的时间,如果是写操作的话则会更慢。一个解决的办法是同时读取多个硬盘上的数据。

ch1990 2013-06-17   2068   0
P1

  hadoop面试小结 文档

hadoop面试小结

wujiuliu 2013-05-31   7460   0
P3

  Hadoop 搭建步骤(个人整理篇) 文档

Hadoop版本:hadoop-0.21.0<br> Java版本:1.6.0_26<br> 操作系统: CentOS-5.4-x86_64-bin-DVD.iso<br> 三台机器:一台做master、两台做slave。

foreveract 2013-05-26   2672   0
P32

  基于hadoop的数据仓库技术 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

cqn1512 2013-05-02   3410   0
P15

  Hadoop+Hbase搭建云存储总结 文档

Hadoop文件系统:Hadoop文件系统是一个能够兼容普通硬件环境的分布式文件系统,和现有的分布式文件系统不同的地方是Hadoop更注重容错性和兼容廉价的硬件设备,这样做是为了用很小的预算甚至直接利用现有机器就实现大流量和大数据量的读取。Hadoop使用了POSIX的设计来实现对文件系统文件流的读取。HDFS(Hadoop FileSystem)原来是Apache Nutch搜索引擎(从Lucene发展而来)开发的一个部分,后来独立出来作为一个Apache子项目。Hadoop的假设与目标:硬件出错,Hadoop假设硬件出错是一种正常的情况,而不是异常,为的就是在硬件出错的情况下尽量保证数据完整性。

ccop 2013-04-18   537   0
P4

  Hadoop 集群 文档

Hadoop集群搭建机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。

serisboy 2013-04-09   2702   0
P3

  Hadoop 关于处理大量小文件的问题和解决方法 文档

小文件指的是那些size比HDFS的blocksize(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150bytes的内存空间。所以,如果有10million个文件,每一个文件对应一个block,那么就将要消耗namenode3G的内存来保存这些block的信息。

wtwt 2013-03-20   409   0
P5

  两台Ubuntu虚拟机部署Hadoop集群 文档

两台Ubuntu虚拟机部署Hadoop集群

zzllzz 2013-03-16   511   0
P3

  hadoop实战(虚拟多台电脑) 文档

hadoop实战(虚拟多台电脑).

troy-feng 2013-03-10   453   0
P6

  hadoop优化配置 文档

  节点是通过心跳来告诉master 自己还存活的。而在这之前,我做了一个测试,加了一个新节点到集群中,后来又把节点给删了,hosts(这个hosts应该是指被删除节点的host吧) 的文件也被改了,会不会是这个节点还在往master 发送心跳?SSH 到那个新节点上,jps 看一下任务,task tracker 果然还活着!把这个进程kill 掉,问题就OK 了。

yveguo 2013-02-27   2258   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档