P24

  Hadoop 平台结构浅析 文档

什么是Hadoop?Hadoop是Apache下面的一个分布式并行计算框架,是从Lunece中抽取出来的一个框架。Hadoop的核心设计思想是MapReduce和HDFS,其中MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。前提和设计目标1.硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2.跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。

liu1122 2013-01-20   2848   0
P23

  Hadoop 运维杂记 文档

Hadoop运维杂记张月@蓝汛自我介绍张月性别男,爱好女就职于蓝汛Chinacache数据平台日志Team工作内容:开发,运维基于hadoop数据平台及其生态系统;公司内部Hadoop技术推广;不要相信我说的实践是检验真理的唯一标准今日菜单Hadoop在蓝汛说说Cloudera和它的产品们运维杂记——几次重大事故Hadoop在蓝汛系统结构

lxz 2014-01-03   2998   0
P31

  Hadoop深入浅出 - MapReduce 文档

◆MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. ◆MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 ◆这两个函数的形参是key、value对,表示函数的输入信息。

boke_jian 2014-08-21   2675   0
P23

  Hadoop 源代码分析(MapReduce概论) 文档

Hadoop源代码分析(MapReduce概论) - 大家都熟悉文件系统,在对HDFS进行分析前,我们并没有花很多的时间去介绍HDFS的背景,毕竟大家对文件系统的还是有一定的理解的,而且也有很好的文档。在分析Hadoop的MapReduce部分前,我们还是先了解系统是如何工作的,然后再进入我们的分析部分。

gps2012 2013-01-14   247   0
P5

  hadoop集群配置范例 文档

HADOOP-0.20.2分布式集群配置。本文以安装和使用hadoop-0.20.2为例。 注意:三台机器dns和默认网关必须一致。登陆密码一致最好。而且务必三台机器互相ping通主机,即主机名和ip解析正确。

tony2007 2015-06-20   260   0
P4

  告诉你hadoop是什么 文档

Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

wyc08st 2016-04-30   602   0
P12

  Hadoop 0.20.0 源码流程分析 文档

JobClient.runJob(job)静态方法会实例化一个JobClient实例,然后用此实例的submitJob(job)方法向 master提交作业。此方法会返回一个RunningJob对象,它用来跟踪作业的状态。作业提交完毕后,JobClient会根据此对象开始轮询作业的进度,直到作业完成。 submitJob(job)内部是通过submitJobInternal(job)方法完成实质性的作业提交。 submitJobInternal(job)方法首先会向hadoop分布系统文件系统hdfs依次上传三个文件: job.jar, job.split和job.xml。

sweetbaybe 2012-12-24   2501   0
P19

  hadoop2.1.0编译安装教程 文档

由于现在hadoop2.0还处于beta版本,在apache官方网站上发布的beta版本中只有编译好的32bit可用,如果你直接下载安装在64bit的linux系统的机器上,运行会报一个INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的错误,但在实际测试中是可以正常安装并可以运行自带的wordcont例子,所以这 个错误不会导致hadoop2.1.0的安装和运行失败,此错误引起原因是由于鉴于性能问题以及某些Java类库的缺失,对于某些组件,Hadoop提供 了自己的本地实现。 这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so,此文件在发行的hadoop版本 lib/native目录下。

nw37 2015-01-08   509   0
P11

  Hadoop 源码阅读总结 文档

基于NIO,Listener关注OP_ACCEPT事件,当有客户端连接过来,Accept后,从readers中选取一个Reader将客户端Channel注册到Reader中的NIO selector,并新建一个Connection对象关联客户端Channel,Reader关注OP_READ事件. 客户端建立连接后,首先发送的是ConnnectionHeader包含协议名,用户组信息,验证方法,Connection会根据以上信息进行校验.之后将是先读取4位的长度代表这次请求的数据的长度,然后一直等待事件触发读取够长度,将读取的数据 解码为调用id和param,新建一个Call对象(关联Connection)放入call队列中,handlers中的Handler会将Call中callQuene中取走.

bluesky666 2015-05-05   1964   0
P27

  Hadoop HDFS 实现原理与应用介绍 文档

主要内容应用背景Hadoop简介HDFS设计目标HDFS系统结构HDFS实现原理典型实例应用背景需求每天上TB的日志需要存储备份需从浩瀚的日志中挖掘和分析数据问题数据量太大,机器不多搞不定。配置好的服务器很贵,只能选择使用每TB成本低的机器。机器多了,“毛病”花样百出。

cablist 2012-11-12   13153   0
P31

  内存计算Spark和 SQL on Hadoop 文档

内存计算Spark和SQL on Hadoop黄永卿解决方案中心目录安装配置与简介为什么需要Spark Hadoop(MapReduce)极大的简化了大数据分析但是,随着大数据需求和使用模式的扩大,用户的需求也越来越多:>>更复杂的多重处理需求(比如迭代计算,ML,Graph)>>低延迟的交互式查询需求(比如ad-hocquery)MapReduce计算模型的架构导致上述两类应用先天缓慢,用户迫切需要一种更快的计算模型,来补充MapReduce的先天不足。

pnx8 2014-08-17   756   0
P11

  Apache Hadoop入门第一步 文档

Apache Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用Apache Hadoop软件库,可以从单个服务器扩展到上千台服务器,每台服务器都提供本地的计算后存储。ApacheHadoop软件库不再依赖于硬件实现高可用性,Apache Hadoop软件库可以检测并处理应用层的失效,从而在计算机集群之上提供高可用性服务。

paradoxlee00 2012-04-11   5446   0
P14

  Hadoop 集群搭建笔记 文档

分布式集群系统安装伪分布模式安装比较简单,集群模式是在伪分布模式基础上进行修改的,所以伪分布模式安装必须搞定。以下是操作步骤1.确定集群的结构由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。假设各节点安装的linux版本完全一致。

beat_it 2013-11-16   2072   0
P17

  Hadoop1.x以及2.x安装 文档

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

小牛牛 2015-03-23   2407   0
P5

  HADOOP-0.20.2 分布式集群配置 文档

本文以安装和使用hadoop-0.20.2为例。 PasswordAuthenticationnoAuthorizedKeysFile.ssh/authorized_keys三台机器都要如上配置!下面可以通过SSH命令试试是否可以无密码登陆。最好先重新启动下命令:[root@hadoop1root]$servicesshdrestart[root@hadoop1root]$sshhadoop2如果可以无密码登陆,即成功!JDK安装本集群安装jdk1.6.0_24版本,直接放置在root下。以下的配置三台电脑均相同。通过windows中的SSHsecureshell软件将jdk-6u24-linux-rpm.bin安装包传送到三台机器。通过授权、安装命令安装jdk[root@hadoop1root]$chmod+xjdk-6u24-linux-rpm.bin[root@hadoop1root]$./jdk-6u24-linux-rpm.bin等待一段时间,提示回车的时候,按下回车,一会自动打开jdk的网页介绍。3.配置jdk文件,在/etc/profile中配置环境变量如下:exportJAVA_HOME=”/usr/java/jdk1.6.0_24”exportPATH=”$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:”exportCLASSPATH=”$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib”exportHADOOP_HOME=”/root/hadoop-0.20.2”//提前配置好省的麻烦。。。4.测试。建立个test.ja

lxj2008 2014-01-19   3462   0
P12

  用Linux和Apache Hadoop进行云计算 文档

Google、VMWare和Amazon等公司已经开始提供云计算产品和战略。本文讲解如何使用ApacheHadoop构建一个MapReduce框架以建立Hadoop集群,以及如何创建在Hadoop上运行的示例MapReduce应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。云计算简介近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以通过Internet访问“云”中的任何资源,而不需要担心计算能力、带宽、存储、安全性和可靠性等问题。

caoyu152152 2011-07-11   583   0
P

Hadoop 1.0 权威API参考v1.0 文档

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

kingrom 2013-07-28   2713   0
P8

  Hadoop集群测试方案及计划 v1.0 文档

引言随着云计算技术的飞速发展,越来越多的数据密集型企业相继出现.面临着这些海量的数据信息,包括结构化信息、半结构化信息及其非结构化信息,如何存储并对这些信息进行处理将是这些企业面临的巨大挑战.Hadoop是一个基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个(Hadoop Distributed FileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

lygkkk123 2012-08-21   570   0
P30

  基于Hadoop的Map/Reduce框架研究报告 文档

1.模型介绍:Hadoop简介Map Reduce计算模型2.实例分析WordCount Hadoop简介Hadoop简介Hadoop是一个开源分布式计算平台,它实现了Map/Reduce计算模型。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。Hadoop简介分布式并行编程概念基于集群的分布式并行编程能够让软件与数据同时运行在连成一个网络的许多台计算机上,由此获得海量计算能力。Hadoop简介迎接编程方式的变革1.摩尔定律正在失效根据摩尔定律,约每隔18个月,CPU性能会提高一倍。然而,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效。2.分布式并行编程互联网时代的到来,将使软件编程方式发生重大变革,基于大规模计算机集群的分布式并行编程是将来软件性能提升的主要途径。

blue_kite 2012-11-30   541   0
1 2 3 4 5 6 7 8 9 10