P67

  Hadoop源码分析-HDFS部分 文档

HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。

dishad631 2010-10-01   492   0
P5

  Eclipse开发hadoop程序 文档

hadoop Map/Reduce开发实例

TmRobust 2012-01-09   573   0
P45

  基于Hadoop的大数据应用分析 文档

基于Hadoop的大数据应用分析5.东软基于HADOOP的大数据应用建议内容提要1.大数据背景介绍2.HADOOP体系架构3.基于HADOOP的大数据产品分析4.基于HADOOP的大数据行业应用分析IDC定义:为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。大数据定义及特点大数据对系统的需求High performance–高并发读写的需求高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询

xcxc 2015-08-24   782   0
P23

  Hadoop 介绍演示文稿 文档

Hadoop介绍1.概括介绍2.框架介绍2.1HDFS2.2I/O操作2.3MapReduce概要介绍1.Hadoop就是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。2.Hadoop是项目的总称,主要是由Hdfs、MapReduce组成。3.Hadoop就是一个类包,我们使用的一般是java写的类包,程序中导入该包就可以使用它封装的各种类来写Hadoop程序4.运行Hadoop程序目前只能在Linux系统上,window上运行需要安装其他插件,实习公司的Hadoop程序是在window下开发(编写程序),在3台ubuntu系统上测试(测试程序正确性)。5.个人的观点:Hadoop中存在很多命令行,就像Linux中的命令行一样,所以一定要学好linux;Hadoop中存在上千个参数,运行特定的程序,要想取得很好的效果,正确的设置参数是一个很重要的方面。例如:参数dfs.block.size(Hdfs中block的大小)。

gonow86 2013-01-30   652   0
P31
P7

  Hadoop1.0.0学习笔记 文档

Hadoop1.0.0学习笔记。安装JDK,配置环境JAVA环境变量

Swear_Max 2013-01-15   2690   0
P4

  Hadoop Eclipse插件安装 文档

:以下指南均在ubuntu下,如果你是win+cygywin模式,可能有差别(没研究不多说),仅供参考,如有误人之处还望指正。别看区区一个插件,还真是复杂,光是版本问题就捣鼓了好长时间,网上也没有成熟的案例都在讨论+询问,我这现在捣鼓明白了,跟大家分享一下

minglang 2012-09-09   535   0
P4

  hadoop SequenceFile 文件写入及各式分析 文档

hadoop SequenceFile 是一个由二进制形式key/value的字节流组成的存储文件,SequenceFile可压缩可切分,非常适合hadoop文件存储特性,SequenceFile的写入由SequenceFile.Writer来实现, 根据压缩类型SequenceFile.Writer又派生出两个子类SequenceFile.BlockCompressWriter和SequenceFile.RecordCompressWriter, 压缩方式由SequenceFile类的内部枚举类CompressionType来表示。

songyl525 2013-12-11   2837   0
P14

  Hadoop,ZooKeeper,HBase,hive(HQL)安装步骤 文档

首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。 Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(cent os 6.X)下安装使用。 准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。

xiangya123 2012-06-04   634   0
P

Hadoop 官方中文文档 文档

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

hans511002 2012-06-24   345   0
P7

  hadoop安装指南及基本命令 文档

关闭防火墙: (1) 重启后永久性生效: 开启:chkconfig iptables on 关闭:chkconfig iptables off (2) 即时生效,重启后失效: 开启:service iptables start 关闭:service iptables stop

beauty2003 2016-05-10   416   0
P8

  Lucene+Hadoop分布式 文档

不管程序性能有多高,机器处理能力有多强,都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则,以此原则形成以分布式并行计算为核心的架构设计。以分布式并行计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。  

huaxinmifeng 2011-10-27   7864   0
P33

  Hadoop中HDFS源代码分析 文档

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch 的一部分正式引入。它受到最先由 Google 开发的MapReduce 和GoogleFileSystem的启发,2006年3月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统,使得Hadoop框架具有高容错性,它会自动处理失败节点。

gps2012 2013-01-14   519   0
P7

  Hadoop 的一周学习心得 文档

Apache的Hadoop是一个商业硬件上运行的建造大型集群应用的框架。透明的Hadoop框架提供应用可靠性和大容量数据的解决方案。Hadoop的计算模式实现了一个名为Map/ Reduce的思想,如请求的任务是许多小碎片的工作,每一个工作可能在集群中的任一节点被执行。此外,它提供了一个分布式文件系统(HDFS),存储在具有高带宽的集群计算节点上。Map/Reduce和HDFS的良好设计使得这个框架足以自动应付节点的故障。

xsh1019 2013-01-05   3560   0
P4

  Hadoop后台进程介绍 文档

称节点是Hadoop后台进程中最重要的部分。Hadoop以一种主/从结构来实现分布式文件系统和分布式计算。分布式文件系统被称为HadoopFileSystem或者HDFS。名称节点是HDFS中的控制部分,用来控制从属的数据节点进程执行底层的输入/输出任务。名称节点也是HDFS的记录,其记录了文件是如何被分解为各个节点块的情况以及分布式文件系统的总体情况。

willfly 2011-08-28   7104   0
P39

  Hadoop:The Definitive Guid 学习笔记 文档

本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。DataStorageandAnalysis数据存储和分析现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。读取硬盘上的全部数据会花费比较长的时间,如果是写操作的话则会更慢。一个解决的办法是同时读取多个硬盘上的数据。

ch1990 2013-06-17   2068   0
P26

  基于Hadoop的电影推荐系统 文档

Hadoop正是为了解决互联网时代的海量数据存储和处理而设计、开发的。简单地讲,Hadoop是一个可以更容易开发和并行处理大规模数据的分布式计算平台 Hadoop的核心框架包括两个部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的缩写)是分布式计算的基石,而Mapreduce是任务的分解和结果的汇总。简单的说,Map就是 将一个任务分解成 为多个任务,而Reduce就是将分解后多任务处理的结果汇总起来得出最后的结果;HDFS是一个与其它文件系统类似的,对于整个集群有单一的命名空间,文件被分割为多块分配存储到数据节点上的一个系统。

1 2 3 4 5 6 7 8 9 10