P83

  Hadoop 源码 文档

上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是:Chubby-->ZooKeeperGFS-->HDFSBigTable-->HBaseMapReduce-->Hadoop目前,基于类似思想的OpenSource项目还很多,如Facebook用于用户分析的Hive。HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂,原因是HDFS提供了一个分布式文件系统,该系统提供API,可以屏蔽本地文件系统和分布式文件系统,甚至象AmazonS3这样的在线存储系统。这就造成了分布式文件系统的实现,或者是分布式文件系统的底层的实现,依赖于某些貌似高层的功能。功能的相互引用,造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf,conf用于读取系统配置,它依赖于fs,主要是读取配置文件的时候,需要使用文件系统,而部分的文件系统的功能,在包fs中被抽象了。

xnbw 2016-01-12   2076   0
P4

  Hadoop 集群 文档

Hadoop集群搭建机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。

serisboy 2013-04-09   2702   0
P19

  MapReduce与Hadoop 文档

在输入数据的“逻辑”记录上应用Map操作得出一个中间Key/value pair集合。在所有具有相同key值的value值上应用Reduce操作,从而达到合并中间的数据,得到一个想要的结果的目的

loyoo 2012-08-28   2554   0
P150

  Hadoop 入门 文档

Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。

robinzhang 2012-03-22   713   0
P3

  Hadoop Streaming 文档

Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。<br> Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。

misterle 2012-10-07   2751   0

hadoop优化 博客

从网上搜集的各种优化,标记下。 1. 网络带宽 Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。 但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HDFS访问速度慢的问题。 把操作集群的客户端也联入DataNode的交换机内部,解决了这个问题。 2. 系统参数 对ulimit -c的修改也是官方文档建议的修改,在集群只有10台服务器时,并没有遇

jopen 2012-09-22   1054   0
thinkjs  
P40

  Hadoop 讲解 文档

Mapreduce hadoop hive三者关系Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。(就是抽象)不管过去,现在是Apache软件基金会管理的开源项目基本架构 - Hadoop是如何构成的Hadoop主要由HDFS(HadoopDistributedFileSystem)和MapReduce引擎两部分组成最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。

hans511002 2012-06-24   728   0

Apache Hadoop 开源项目

Apache Hadoop是一个用java语言实现的软件框架,在由大量计算机中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级 Hadoop是从google的MapReduce和Google文件系统的论文获得的灵 Hadoop是Apache的一线项目,开发和实用来自世界各地的社区,Yah 止最大的贡献者,并且Yahoo广泛使用它在搜索业务和广告业务上。IBM和联合就是使用的Hado

码头工人 2019-01-17   727   0

HadoopHadoop的生态系统资源列表:Awesome Hadoop 经验

Hadoop和Hadoop的生态系统资源列表。

jopen 2014-10-15   40861   0

Hadoop基础教程》之初识Hadoop 经验

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。

jopen 2015-01-12   27646   0
P23

  Hadoop学习总结之五:Hadoop的运行痕迹 文档

在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。

huafenged 2012-02-24   530   0
P11

  云计算Hadoop:快速部署Hadoop集群 文档

 Apache Hadoop是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种PaaS模型。<br>   它的设计核心是MapReduce实现和 HDFS (Hadoop Distributed File System),它们源自MapReduce(由一份 Google 文件引入)和 Google File System。<br>   MapReduce是 Google 引入的一个软件框架,它支持在计算机(即节点)集群上对大型数据集进行分布式计算。它由两个过程组成,映射(Map)和缩减(Reduce)。<br>   在映射过程中,主节点接收输入,把输入分割为更小的子任务,然后把这些子任务分布到工作者节点。

pdffile 2013-01-05   503   0

Hadoop入门之Hadoop中的HelloWorld程序 经验

初步接触Hadoop,必不可少的就是运行属于Hadoop的Helloworld程序——wordcount,其实,安装好的Hadoop集群上已有相应的程序,但是我想在window平台,eclipse上执行。

jopen 2014-02-27   67090   0

什么是Hadoop即服务(Hadoop-as-a-Service) 经验

两周前的VMworld 2014大会上,EMC演示了一段基于EMC Hybrid Cloud混合云架构之上的HaaS(Hadoop-as-a-Service,Hadoop即服务)和Virtual Data Lake(虚拟数据湖)的应用实例,并发布了EMC Hadoop Starter Kit快速部署套件。对于了解大数据的人肯定不会对Hadoop陌生,那到底什么是Hadoop即服务(HaaS)呢?本文将带你来一探究竟。

jopen 2014-09-18   27225   0
P7

  算法杂货铺 -- k均值聚类(K-means) 文档

在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度,然后介绍一种常见的聚类算法——k均值和k中心点聚类,最后会举一个实例:应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。

songyl525 2013-12-11   470   0

TensorFlow实战之K-Means聚类算法实践 经验

Google 最近开源了它的第二代人工智能与数值计算库TensorFlow。TensorFlow由Google大脑团队开发,并且能够灵活地运行在多个平台上——包括GPU平台与移动设备中。

jopen 2015-11-17   157944   0

【十大经典数据挖掘算法】k-means 经验

k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。

QLKJacquett 2016-01-31   17515   0
K-means   算法  

基于模糊K-Means算法的新闻聚类 经验

基于模糊K-Means算法的新闻聚类

MamieH92 2016-02-28   18878   0
算法  

K-Means 聚类算法实现的Java小程序 经验

这是一个利用K-Means 聚类算法对好友进行分类的Java小程序。

jopen 2013-12-16   32963   0
算法  
1 2 3 4 5 6 7 8 9 10