P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题?

w327 2015-05-25   779   0
P72

  hadoop原理与实践01_v1.0 文档

Hadoop原理与实践Hadoop起源与体系介绍为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备Hadoop产生的背景大数据想驾驭这庞大的数据,我们必须了解大数据的特征。

小辉x 2016-05-16   660   0
P17

  Hadoop集群监控与Hive高可用 文档

--向磊Page*Hadoop集群监控Cacti默认Cacti模板太少增加模板我们的模板磁盘IO内存详情单个内核使用CPU总和及IOWaitJMX支持监控HadoopPage*Hadoop集群监控Cacti优点监控每台服务器的详细数据SNMP采集数据可以自己定义相比zabbix:无需客户端安装配置简单spine采集速度快模板众多支持IPMI缺点SNMPD为UDP协议,不够稳定无法获知集群整体运行状况Page*Hadoop集群汇总监控GangliaPage*Hadoop集群汇总监控Ganglia优点集群总体状况和负载汇总采用多播地址降低带宽占用TCP采集数据稳定hadoop原生支持ganglia数据采集缺点配置稍复杂,需安装客户端单台数据不如cacti详细Page*Hive高可用集群Hive存在的问题单一节点Hive ThriftServer故障导致任务失败高可用方案多个HiveThriftServer节点HAProxy+HiveHAProxy在实际应用中出现过的问题和优化Hive日志问题轮询方式优化仍存在不稳定因素,其他方式解决HAProxy+Hive网络拓扑

也许那样飞 2016-01-15   2511   0
P11

  ubuntu下安装配置hadoop1.0.4 文档

第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下,我的环境操作系统:wmv虚拟机中的ubuntu12.04hadoop版本:hadoop-1.0.4(听说是稳定版就下了)eclipse版本:eclipse-jee-indigo-SR2-win321.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是2.安装ssh这个也不用说了

zhangbc 2013-09-06   757   0
P5

  在windows上建立hadoop+eclipse开发环境 文档

在windows上建立hadoop-eclipse开发环境

lxj2008 2014-01-19   358   0
P33

  分布计算中的hadoop编程技术 文档

MapReduce是一个在海量数据上进行数据处理的并行编程模型,它特别适合于海量非结构化和结构化数据的搜索、分析和挖掘任务,已经开始被人们广泛使用。对于兴起的众多类似MapReduce系统来说,如何有效地评估和分析对比这些系统,成为当前一个需要解决的问题。本文详细讨论了针对MapReduce运行系统的性能评估指标和方法,设计和选择一系列具有代表性的程序和数据作为基准,用来评估和分析MapReduce系统。在这一评估方法指导下,本文在我们自己实现的MapReduce运行系统——Tplatform平台上扩展了Profiling功能,然后进行了一系列评估实验,来分析和寻找系统性能瓶颈,为未来系统优化提供依据。通过实验我们发现了我们系统的一些可改进的问题如任务调度、落后者问题等等。我们选择了针对导致提交任务延迟增加的落后者问题,通过实现后备任务策略来尝试改进。经模拟实验结果显示,我们提出的改进策略能够有效地改进落后者问题的性能问题。关键词:MapReduce,性能评估,落后者问题,后备任务策略。

sts2008 2010-12-02   4916   0
P3

  Hadoop 搭建步骤(个人整理篇) 文档

Hadoop版本:hadoop-0.21.0<br> Java版本:1.6.0_26<br> 操作系统: CentOS-5.4-x86_64-bin-DVD.iso<br> 三台机器:一台做master、两台做slave。

foreveract 2013-05-26   2672   0
P8

  VM下配置Hadoop详细教程 文档

前言:Hadoop是一个分布式系统基础架构,主要是由HDFS、MapReduce和Hbase组成,分别为Google集群系统GFS、MapReduce、BigTable的开源实现。具有扩容能力强,效率高,成本低,可靠性好等特点。配置前最好熟悉一下Linux常用命令的使用,遇到问题时善于利用收索引擎,本教程的Linux版本选择比较常用的Ubuntu。

12csc12 2011-10-19   293   0
P83

  Hadoop源代码分析(完整版) 文档

目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。 HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。

cixiang 2010-11-15   335   0
P42

  Hadoop可靠性概述(百度) 文档

HDFS可靠性概述HDFS系统架构NameNode元数据结构HDFS能做什么?存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量(latency不敏感)应用模式为:write-once-read-many存取模式HDFS不适合做什么?存储小文件(不建议使用)大量的随机读(不建议使用)需要对文件的修改(不支持)谁在用Hadoop

hans511002 2012-06-24   776   0
P32

  基于hadoop的数据仓库技术 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

cqn1512 2013-05-02   3410   0
P16

  亿赞普Hadoop应用浅析 文档

亿赞普Hadoop应用浅析IZP肖燕京密级:目录一IZPHadoop集群现状Hadoop应用Hadoop集群维护及出现的问题密级:一:IZPHadoop集群现状集群规模共大、小2个集群:数据中心和实验室集群数据中心:1台NameNode,1台SecondNameNode,1台JobTracker,100来台DataNode共100多台高配服务器;数据中心又分为10多个机架,每个机架上10多台服务器;

lxz 2014-01-03   625   0
P30

  淘宝Hadoop与数据分析 文档

基本概念Hadoop的应用范围Hadoop底层实现原理Hive与数据分析Hadoop集群管理典型的Hadoop离线分析系统架构常见问题及解决方案关于打扑克的哲学打扑克与MapReduce

lxz 2014-01-03   3863   0
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题? 解读以Hadoop为核心,融合其他技术的平台系统Avro是实现融合的关键技术Cloudera在做-Hadoop应用体验Cloudera在做-Hadoop开发体验DevelopWithCDK讯飞如何应对这个技术挑战?讯飞大数据开放平台以数据导向为理念以Hadoop为核心融合优秀技术因地制宜的使用技术提升大数据用户体验

ee37 2015-07-05   501   0
P12

  淘宝 Hadoop 数据分析实践 文档

数据分析选型历程; Hadoop简介; 系统架构; 集群介绍; 近期对Hadoop的改造实践。

wsldg 2012-02-28   678   0
P6

  如何把hadoop源码关联到eclipse工程中 文档

在eclipse中阅读源码非常方便,利于我们平时的学习,下面讲述如何把hadoop源码导入到eclpse的java工程中。解压源码首先,我们在windows下使用winrar把hadoop-1.1.2.tar.gz解压,如图1所示图1我们关注文件夹src,浏览该文件夹,如图2所示图2我们需要这三个文件夹,一会我们会把这三个文件夹复制到eclipse中。

ainubis 2014-06-27   266   0
P17

  windows上Hadoop的伪分布式配置 文档

在windows上配置Hadoop需要做一些准备,包括软件的下载,了解Hadoop运行的条件,了解Hadoop在Linux与windows平台上的不同。 Hadoop安装需要的基础东西有,Hadoop安装包,jdk开发工具,Cygwin安装程序。 其中jdk最好在1.6版本以上,考虑到兼容性以及功能的完整性我们选择Hadoop-0.20.2版本;因为由于我们是模拟Linux平台配置Hadoop所以需要先在电脑上安装Cygwin,提供其他软件之外的shell支持,安装时可以选择从你下载的Cygwin安装包目录安装也可以选择从Internet上直接安装,从Internet上安装可能需要更长的时间,下面我们会详细介绍。

louiscool 2012-04-25   614   0
P10

  Hadoop 学习总结之三:Map-Reduce入门 文档

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-。

huafenged 2012-02-24   3024   0
P4

  hadoop1.0.3 windows配置及eclipse整合与实例 文档

hadoop1.0.3 windows配置及eclipse整合与实例

ftfniqpl 2012-07-09   6259   0
1 2 3 4 5 6 7 8 9 10