P3

  hadoop常见错误总结 文档

错误1:bin/hadoop dfs 不能正常启动,持续提示: INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s). 原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。 解决:修改core-site.xml 的 hadoop.tmp.dir配置文件路径:/home/hadoop/tmp。

419133824 2012-02-18   5004   0
P5
P

Hadoop 1.2.1 API 文档 文档

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

allen789 2013-10-31   7446   0
P

Hadoop 入门手册 文档

MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年,Google’s MapReduce Programming Model-Revisted论文发表,进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石,逐步发展成为全球互联网企业的领头羊。 <br> Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。Hadoop的最新版本是0.21.0,说明其还在不断完善发展之中。

030472875ken 2012-01-19   5752   0
P11

  Hadoop 安装手册 文档

帮助读者快速掌握hadoop的安装和部署HDFS,Hbase,Hive等组件。Hadoopt是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

ccvcd 2014-04-10   394   0
P133

  Hadoop快速入门 文档

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

beanshell 2011-07-16   599   0

Spark与Hadoop之间的PK 资讯

一说大数据,人们往往想到 Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些 Hadoop 被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。最近半年来的 Spark 之热就是典型例子。

jopen 2014-12-05   15510   0
Spark  
P6

  Hadoop 集群配置 文档

Hadoop集群在linux下配置第一部分Hadoop1.2.1下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop1.2.1。

yangzhp1_1 2013-12-17   2695   0
P14

  hadoop,hbase安装步骤 文档

Hadoop,ZooKeeper,HBase,hive(HQL)安装步骤Hadoop安装:首先我们统一一下定义,在这里所提到的Hadoop是指HadoopCommon,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(centos6.X)下安装使用。准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yuminstallrsync来安装rsync。

xnbw 2016-01-11   2200   0
P30

  Hadoop 入门指南 文档

Why Hadoop 数据规模爆炸式增长,大数据计算需要“高效”解决方案 多机环境中网络成为瓶颈 多机环境下的稳定性问题 如何平衡计算效率和开发效率 What Hadoop Google的GFS + MapReduce的山寨产品 Hadoop = HDFS + MapReduce HDFS:分布式“大文件”存储系统 MapReduce:分布式计算框架 计算逻辑必须符合Map-Reduce编程规范

yudian 2014-10-29   565   0
P46

  云计算之Hadoop 文档

Hadoop核心、Hadoop dfs(Hdfs)、MapReduce 分布式并行计算模型 Hadoop扩展、Hadoop base(Hbase)基于hadoop核心的高扩展性分布式数据库、Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心 、Hive-建立在hadoop之上的数据仓库基础设施,提供数据摘要,adhoc、querying,数据集分析。

qiu.n@sand 2011-10-26   5538   0
P61

  Hadoop分享 文档

Hadoop分享: 1、云计算概念 2、Google的云计算 3、Hadoop 4、HDFS 5、Map/Reduce 6、日志框架的Hadoop尝试 7、路在何方

jphnny 2016-06-28   640   0
P32

  Hadoop学习总结 文档

分布式开发框架纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取?Facebook的服务器大概1万台,按照oracle的标准10g版本计算大约需要21亿元Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成。Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》。可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。

lxj2008 2014-01-19   553   0
P35

  Hadoop及Mapreduce入门 文档

Hive:数据仓库,facebook贡献PIG:并行计算的一种高级语言,yahoo贡献Nutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper:用于分布式应用的高性能协同服务Hbase:类似于BigTable的,key-value数据库系统Mahout:分布式机器学习和数据挖掘的LibHama:基于BSP的超大规模科学计算框架

lxz 2014-01-03   2919   0

Hadoop + HBase + Solr = Lily 开源项目

Lily是第一个基于云技术(Big Data与NOSQL)实现的开源数据和内容仓库。它用到的具体技术包括: Hadoop, HBase和Solr。可应用于构建:网络硬盘系统,大型SaaS模式的Web内容管理系统,文物数据库,新闻管理系统,内容收集系统,数字资产管理,结构化数据管理。 Hadoop提供分布式文件系统,HBase是一个运行在Hadoop之上的No-SQL数据库。HBase具有可伸缩和自

码头工人 2019-01-17   1174   0
P150

  Hadoop 介绍 文档

参考资料Google的核心技术Google的十个核心技术,而且可以分为四大类:分布式基础设施:GFS、Chubby和ProtocolBuffer。分布式大规模数据处理:MapReduce和Sawzall。分布式数据库技术:BigTable和数据库Sharding。数据中心优化技术:数据中心高温化、12V电池和服务器整合。Google的核心技术分布式基础设施GFS由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为"BigFiles"的文件系统,而GFS(全称为"GoogleFileSystem")这套分布式文件系统则是"BigFiles"的延续。

pnx8 2014-08-17   388   0

Hadoop编程入门 博客

原文地址: http://blog.csdn.net/calvinxiu/archive/2007/02/09/1506112.aspx Hadoop 是Google MapReduce 的 一个Java 实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄 露一样, MapReduce的 run-time

Hadoopp 2012-09-28   1276   0
NeoLua  
P10

  Hadoop 集群测试报告 文档

1. 是否写WAL日志,对于Hbase的批量入库性能有较大影响。是否采用需要多方面的权衡。<br> 2. 顺序访问时,所费时间是毫秒级。<br> 3. 很显然,并发数越少,访问所费时间越长。并发数为5时,所费时间不超过2秒。<br> 4. 用SingleColumnValueFilter等Filter方式进行过滤查询,效率低,海量数据下难以达到一般业务需求。测试1000万以上数据,查询一个号码(如:13621217968)的匹配,需要110122 milseconds+。

lenhan12345 2012-11-27   7980   0
P3

  广告商采用 Hadoop 文档

借助Apache Hadoop进行可靠的宣传和促销消费者从未在自己如何搜索、讨论和购买产品上生成如此多的数据。这种新数据对于品牌或产品的塑造和推广非常重要,但是并未以预先定义的表格化格式整齐排列。ApacheHadoop通过引入社交媒体、点击流、视频和交易数据,让这种“新”数据可供分析,无需预先定义数据模式。该新数据可与现有结构化数据集相结合,用于更深入的情绪分析和定向促销。现在媒体公司、机构和企业可存储新型数据并在更长时间保留一切内容进行广告宣传,实现客户忠诚度和投资回报。以下参考架构图呈现了我们的广告和媒体客户采用的方法组合,无论他们是对百货、家居装饰设计、儿童玩具还是对零售网站上的一切物品进行广告宣传。下面是我们的媒体和广告客户使用HDP来提升其收益的一些具体方式。挖掘百货和药物商店POS数据来确定高价值购物者一家营销分析公司专门跨诸多百货和药物商店收集收银台的有用信息。他们挖掘这种销售信息来进行购物篮分析,价格敏感度以及需求预测。借助运行在YARN上的和ApacheHive,帮助公司快速处理海量数据,跟上市场瞬息万变的节奏。

tony2007 2015-06-20   8022   0
1 2 3 4 5 6 7 8 9 10