P9

  Hadoop 集群搭建文档 文档

环境:Win7系统装虚拟机虚拟机VMware-workstation-full-9.0.0-812388.exeLinux系统Ubuntu12.0.4JDKjdk-7u17-linux-i586.tar.gz搭建步骤:首先在win系统装虚拟机,执行VMware-workstation-full-9.0.0-812388.exe;其次需要在虚拟机上装Ubuntu12.0.4;安装完成Ubuntu12.0.4之后,需要安装JDK,(注意:安装JDK需要处理一些其他问题,JDK必须是Linux版本的,还有就是JDK要和操作系统的位数相符合,比如32位、64位都有对应的安装包):JDk的安装路径

cbxw 2015-01-07   1752   0
P61

  Hive 用户指南(Hive User Guide) 中文版 文档

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

icebingsky 2015-01-06   1683   0
P31

  基于Hadoop生态技术构建阿里搜索离线系统 文档

目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来阿里搜索业务简介搜索技术体系目录阿里搜索业务简介搜索技术体系搜索离线系统实时计算方案集群优化与管理展望未来离线系统—架构

byc2 2014-11-19   1874   0
P

Apache Hadoop Main 2.2.0 API 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算

colophus 2014-11-13   434   0
P79

  Introduction to cloud computing 文档

Hadoop Technical Walkthrough HDFS Databases Using Hadoop in an Academic Environment Performance tips and other tools

zts2014 2014-10-16   2250   0
P26

  Hadoop Performance at LinkedIn 文档

Hadoop Performance at LinkedIn

b8gp 2014-10-10   2310   0
P14

  CDH4.1.2 集群安装配置详细过程 文档

CDH4.1.2集群安装配置详细过程CDH4.1.2 CDH是Cloudera完全开源的Hadoop分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。全称:ClouderaHadoop。它是在ApacheHadoop基础上打入了很多patch。使之性能更好,更加满足生产环境。CDH4.1.2使用的是apache的hadoop2.0版本,与之前的稳定的hadoop-1.x相比,ApacheHadoop2.x有较为显著的变化。Hadoop介绍Hadoop是apache的开源项目,开发的主要目的是为了构建可靠、可拓展、稳定的分布式的系统,hadoop是一系列的子工程的总和,其中包含:1.hadoopcommon:为其他项目提供基础设施

sandyfog 2014-09-25   4353   0
P25

  Apache Hadoop2.0 下一代数据处理框架介绍 文档

主要内容Hadoop1.0的局限性Hadoop2.0新特性介绍Hadoop现状及最新进展Hadoop1.0的局限-HDFS※资源隔离※元数据扩展性※访问效率※数据丢失缺陷?Hadoop1.0的局限-MapReduce扩展性集群最大节点数–4000最大并发任务数–40000可用性JobTracker负载较重存在单点故障,一旦故障,所有执行的任务的全部失败批处理模式,时效性低仅仅使用MapReduce一种计算方式低效的资源管理把资源强制划分为maptaskslot和reducetaskslot,当系统中只有maptask或者只有reducetask的时候,会造成资源的浪费当map-reducejob非常多的时候,会造成很大的内存开销,潜在来说,也增加了JobTrackerfail的风险,这也是业界普遍总结出老Hadoop的Map-Reduce只能支持4000节点主机的上限

pnx8 2014-08-17   3282   0
P86

  Hadoop 技术架构培训 文档

Hadoop综述主要内容*第一篇HDFS分布式文件系统第二篇MapReduce第三篇Hbase简单介绍第一篇HDFS*一:TheDesignofHDFS二:HDFSConcepts三:应用程序示例四:DataFlow第二篇MapReduce*一:MapReduce基础二:MapReduce数据流三:MapReduce工作原理第三篇Hbase简单介绍*一:简介二:数据模型三:行、列、时间戳、API第

pnx8 2014-08-17   4043   0
P150

  Hadoop 介绍 文档

参考资料Google的核心技术Google的十个核心技术,而且可以分为四大类:分布式基础设施:GFS、Chubby和ProtocolBuffer。分布式大规模数据处理:MapReduce和Sawzall。分布式数据库技术:BigTable和数据库Sharding。数据中心优化技术:数据中心高温化、12V电池和服务器整合。Google的核心技术分布式基础设施GFS由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为"BigFiles"的文件系统,而GFS(全称为"GoogleFileSystem")这套分布式文件系统则是"BigFiles"的延续。

pnx8 2014-08-17   388   0
P31

  内存计算Spark和 SQL on Hadoop 文档

内存计算Spark和SQL on Hadoop黄永卿解决方案中心目录安装配置与简介为什么需要Spark Hadoop(MapReduce)极大的简化了大数据分析但是,随着大数据需求和使用模式的扩大,用户的需求也越来越多:>>更复杂的多重处理需求(比如迭代计算,ML,Graph)>>低延迟的交互式查询需求(比如ad-hocquery)MapReduce计算模型的架构导致上述两类应用先天缓慢,用户迫切需要一种更快的计算模型,来补充MapReduce的先天不足。

pnx8 2014-08-17   756   0
P51

  EasyHadoop 实战操作手册v1.0 文档

讲解Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。

风颖尘 2014-08-14   2634   0
P6

  如何把hadoop源码关联到eclipse工程中 文档

在eclipse中阅读源码非常方便,利于我们平时的学习,下面讲述如何把hadoop源码导入到eclpse的java工程中。解压源码首先,我们在windows下使用winrar把hadoop-1.1.2.tar.gz解压,如图1所示图1我们关注文件夹src,浏览该文件夹,如图2所示图2我们需要这三个文件夹,一会我们会把这三个文件夹复制到eclipse中。

ainubis 2014-06-27   266   0
P13

  hadoop开发案例 之Cloudera Manager详解 文档

Cloudera Manager介绍和安装ClouderaManager(简称CM)用于管理CDH4集群,可进行节点安装、配置、服务配置等,提供Web窗口界面提高了Hadoop配置可见度,而且降低了集群参数设置的复杂度。

玫瑰情书 2014-06-18   693   0
P9

  8步安装好你的hadoop 文档

在所有节点编辑好host文件三个节点,先定义好主机名!!!!!这步很重要分别是hadoop1,hadoop2,hadoop32在所有节点上创建密钥

lwg32719 2014-06-07   2110   0
P

Hadoop 1.2.1 API 规范 文档

Hadoop是一个分布式的计算平台。 Hadoop primarily consists of the Hadoop Distributed FileSystem (HDFS) and an implementation of the Map-Reduce programming paradigm.<br> Hadoop is a software framework that lets one easily write and run applications that process vast amounts of data. Here's what makes Hadoop especially useful:<br> 可扩展: Hadoop can reliably store and process petabytes. 廉价: It distributes the data and processing across clusters of commonly available computers. These clusters can number into the thousands of nodes. <br> 高效: By distributing the data, Hadoop can process it in parallel on the nodes where the data is located. This makes it extremely rapid. <br> 可靠: Hadoop automatically maintains multiple copies of data and automatically redeploys computing tasks based on failures.

mingmingok 2014-05-27   5722   0
P26

  基于Hadoop的电影推荐系统 文档

Hadoop正是为了解决互联网时代的海量数据存储和处理而设计、开发的。简单地讲,Hadoop是一个可以更容易开发和并行处理大规模数据的分布式计算平台 Hadoop的核心框架包括两个部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的缩写)是分布式计算的基石,而Mapreduce是任务的分解和结果的汇总。简单的说,Map就是 将一个任务分解成 为多个任务,而Reduce就是将分解后多任务处理的结果汇总起来得出最后的结果;HDFS是一个与其它文件系统类似的,对于整个集群有单一的命名空间,文件被分割为多块分配存储到数据节点上的一个系统。

P23

  Hadoop源代码分析(MapReduce概论) 文档

大家都熟悉文件系统,在对HDFS进行分析前,我们并没有花很多的时间去介绍HDFS的背景,毕竟大家对文件系统的还是有一定的理解的,而且也有很好的文档。在分析Hadoop的MapReduce部分前,我们还是先了解系统是如何工作的,然后再进入我们的分析部分。

suncf1985 2014-05-08   2043   0
P9

  Hadoop 集群搭建文档 文档

Hadoop集群搭建文档

774318955 2014-04-28   2885   0
P11

  Hadoop 安装手册 文档

帮助读者快速掌握hadoop的安装和部署HDFS,Hbase,Hive等组件。Hadoopt是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

ccvcd 2014-04-10   394   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档