P51

  Nutch 1.0 源代码分析 文档

currentTimeMillis()); JobClient.runJob(sortJob); 这里用的是hadoop的东西,输入文件目录为:用户指定的url目录。输出目录为:产生的那个临时文件夹。这里的Sequ

228823266 2012-01-17   431   0
P36

  构建高并发高可用的电商平台架构实践 文档

可以恢复的。 g、 数据的定时定量归档 数据经过日志收集系统归集后,一般存储在分布式文件系统如Hadoop,为了便于对数据进行后续的处理分析,需要定时(TimeTrigger)或者定量(SizeTri

gwpking 2016-04-15   835   0
P51

  Nutch 源代码 文档

currentTimeMillis()); JobClient.runJob(sortJob); 这里用的是hadoop的东西,输入文件目录为:用户指定的url目录。输出目录为:产生的那个临时文件夹。这里的Sequ

n8cx 2014-08-24   3011   0
P15

  分布式服务框架 Zookeeper - 管理分布式环境中的数据 文档

Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍

louiscool 2012-04-25   5139   0
P15

  分布式服务框架 Zookeeper 管理分布式环境中的数据 文档

Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍

caoxin1106 2012-04-16   4829   0
P21

  搜索引擎技术 文档

通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点:

lingmeiwen 2011-12-26   4208   0
P21

  分布式搜索引擎技术 - Lily 文档

通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点:

ykyx00 2012-04-01   5121   0
P31

  海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践 文档

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表,如下: List dateLists

cdredfox 2012-01-10   4904   0
P40

  Zookeeper 介绍-v1.0 文档

3. 概述 Zookeeper作为Hadoop项目中的一个子项目,是 Hadoop集群管理的一个必不可少的模块,它主要用来控制 集群中的数据,如它管理Hadoop集群中的NameNode,还有 Hbase中Master

meigx_2013 2013-09-26   5677   0
P12

  MapReduce框架结构 文档

些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。   Hadoop的Map/Reduce框架也是基于这个原理实现的,下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

JDynamiTe 2011-03-30   7606   0
P30

  极限存储设计原理及实践 文档

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表,如下: List dateLists

gonow86 2013-01-30   2351   0
P5

  Yahoo! S4:分布式流计算平台 文档

通常对于大规模分布式数据的处理会首先想到MapReduce,Yahoo!也维护了Hadoop项目,但是他们最终放弃了扩展Hadoop的想法,因为相比之下,流计算面对的场景和需求是完全不同的。 流计算强调的是

caeseryu 2012-09-16   450   0
P30

  极限存储设计原理及实践 - 淘宝 文档

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表,如下: List dateLists

hans511002 2012-06-24   3343   0
P25

  Katta运行机理 文档

TF-IDF 4. Over ViewKatta的解决方案 Serving indexes the hadoop distributed file system way Index as index shards

faintyou 2011-12-14   374   0
方案   报告   Apache   Scala   XML  
P25

  Hive 使用手册 文档

32份,则表的HDFS存储路径如下: HDFS:/ warehouse /xiaojun/part-00020 在Hadoop和Hive中,所有的数据都会以文件的形式存储在节点上,如果你在Hive下面使用dfs –ls命令查看HDFS目录,你会看到,

dacoolbaby 2013-03-13   4915   0
P12

  (12)使用数据分区优化join 文档

大数据学习网介绍我们的网址是:bigdatastudy.cn 我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 3

ngn6 2015-08-12   548   0
P9

  10、Hive工作原理和基本使用 文档

•元数据存储,通常是存储在关系数据库如 mysql, derby 中 •解释器、编译器、优化器、执行器 •Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算 组件的基本功能 •用户接口主要有三个:CLI,JDBC/ODBC和

lxj2008 2014-01-17   6687   0
P11

  (4)Spark程序的开发和运行 文档

大数据学习网介绍我们的网址是:bigdatastudy.cn 我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 3

ngn6 2015-08-12   2542   0
P4

  使用 Zookeeper 构建 LogServer 文档

集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。目前zookeeper被应用于hadoop/hbase中进行节点的管理,通过zookeeper你可以很方便的开发出一些分布式控制的工具,比如分布式lock

mercykevin 2012-11-05   6120   0
P5

  十分钟掌握MapReduce的精髓 文档

何的难。 注2:Lucene之父Doug Cutting的又一力作,Project Hadoop - 由Hadoop分布式文件系统和一个Map/Reduce的实现组成,Lucene/Nutch的成产线也够齐全的了。

wujianhai 2011-11-18   3799   0
1 2 3 4 5 6 7 8 9 10