开源项目,开源代码,开源文档,开源新闻,开源社区

P51

currentTimeMillis()); JobClient.runJob(sortJob); 这里用的是hadoop的东西，输入文件目录为：用户指定的url目录。输出目录为：产生的那个临时文件夹。这里的Sequ

228823266 2012-01-17 431 0

搜索引擎 nutch

P36

可以恢复的。 g、数据的定时定量归档数据经过日志收集系统归集后，一般存储在分布式文件系统如Hadoop，为了便于对数据进行后续的处理分析，需要定时(TimeTrigger)或者定量(SizeTri

gwpking 2016-04-15 835 0

电子商务/商城

P51

currentTimeMillis()); JobClient.runJob(sortJob); 这里用的是hadoop的东西，输入文件目录为：用户指定的url目录。输出目录为：产生的那个临时文件夹。这里的Sequ

n8cx 2014-08-24 3011 0

搜索引擎 nutch

P15

Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍

louiscool 2012-04-25 5139 0

分布式/云计算/大数据

P15

Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍

caoxin1106 2012-04-16 4829 0

分布式/云计算/大数据

P21

通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。 HBase中的表一般有这样的特点：

lingmeiwen 2011-12-26 4208 0

搜索引擎

P21

通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。 HBase中的表一般有这样的特点：

ykyx00 2012-04-01 5121 0

搜索引擎

P31

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表，如下: List dateLists

cdredfox 2012-01-10 4904 0

分布式/云计算/大数据方案 SQL ini

P40

3. 概述 Zookeeper作为Hadoop项目中的一个子项目，是 Hadoop集群管理的一个必不可少的模块，它主要用来控制集群中的数据，如它管理Hadoop集群中的NameNode，还有 Hbase中Master

meigx_2013 2013-09-26 5677 0

分布式/云计算/大数据

P12

些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的，下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

JDynamiTe 2011-03-30 7606 0

MapReduce 分布式/云计算/大数据

P30

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表，如下: List dateLists

gonow86 2013-01-30 2351 0

软件架构

P5

通常对于大规模分布式数据的处理会首先想到MapReduce，Yahoo!也维护了Hadoop项目，但是他们最终放弃了扩展Hadoop的想法，因为相比之下，流计算面对的场景和需求是完全不同的。流计算强调的是

caeseryu 2012-09-16 450 0

分布式/云计算/大数据

P30

where pt_start < ='20100420' and pt_end>'20100410' Hadoop: 在调用setInputDir之前通过提供的方法获得生命周期目录列表，如下: List dateLists

hans511002 2012-06-24 3343 0

分布式/云计算/大数据方案 SQL ini

P25

TF-IDF 4. Over ViewKatta的解决方案 Serving indexes the hadoop distributed file system way Index as index shards

faintyou 2011-12-14 374 0

方案报告 Apache Scala XML

P25

32份，则表的HDFS存储路径如下： HDFS:/ warehouse /xiaojun/part-00020 在Hadoop和Hive中，所有的数据都会以文件的形式存储在节点上，如果你在Hive下面使用dfs –ls命令查看HDFS目录，你会看到，

dacoolbaby 2013-03-13 4915 0

分布式/云计算/大数据手册 Perl Python Ruby

P12

大数据学习网介绍我们的网址是：bigdatastudy.cn 我们提供专业的大数据学习视频，包括Hadoop，Spark，Storm，Mahout，机器学习等。我们定价合理，让每个人都学得起大数据。 3

ngn6 2015-08-12 548 0

Spark 分布式/云计算/大数据

P9

•元数据存储，通常是存储在关系数据库如 mysql, derby 中 •解释器、编译器、优化器、执行器 •Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算组件的基本功能 •用户接口主要有三个：CLI，JDBC/ODBC和

lxj2008 2014-01-17 6687 0

分布式/云计算/大数据

P11

大数据学习网介绍我们的网址是：bigdatastudy.cn 我们提供专业的大数据学习视频，包括Hadoop，Spark，Storm，Mahout，机器学习等。我们定价合理，让每个人都学得起大数据。 3

ngn6 2015-08-12 2542 0

分布式/云计算/大数据 Scala

P4

集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。目前zookeeper被应用于hadoop/hbase中进行节点的管理，通过zookeeper你可以很方便的开发出一些分布式控制的工具，比如分布式lock

mercykevin 2012-11-05 6120 0

分布式/云计算/大数据

P5

何的难。注2：Lucene之父Doug Cutting的又一力作，Project Hadoop - 由Hadoop分布式文件系统和一个Map/Reduce的实现组成，Lucene/Nutch的成产线也够齐全的了。

wujianhai 2011-11-18 3799 0

MapReduce 分布式/云计算/大数据

Nutch 1.0 源代码分析文档

构建高并发高可用的电商平台架构实践文档

Nutch 源代码文档

分布式服务框架 Zookeeper - 管理分布式环境中的数据文档

分布式服务框架 Zookeeper 管理分布式环境中的数据文档

搜索引擎技术文档

分布式搜索引擎技术 - Lily 文档

海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践文档

Zookeeper 介绍-v1.0 文档

MapReduce框架结构文档

极限存储设计原理及实践文档

Yahoo! S4：分布式流计算平台文档

极限存储设计原理及实践 - 淘宝文档

Katta运行机理文档

Hive 使用手册文档

(12)使用数据分区优化join 文档

10、Hive工作原理和基本使用文档

(4)Spark程序的开发和运行文档

使用 Zookeeper 构建 LogServer 文档

十分钟掌握MapReduce的精髓文档

Hadoop 的相关搜索

关键词

Nutch 1.0 源代码分析 文档

构建高并发高可用的电商平台架构实践 文档

Nutch 源代码 文档

分布式服务框架 Zookeeper - 管理分布式环境中的数据 文档

分布式服务框架 Zookeeper 管理分布式环境中的数据 文档

搜索引擎技术 文档

分布式搜索引擎技术 - Lily 文档

海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践 文档

Zookeeper 介绍-v1.0 文档

MapReduce框架结构 文档

极限存储设计原理及实践 文档

Yahoo! S4：分布式流计算平台 文档

极限存储设计原理及实践 - 淘宝 文档

Katta运行机理 文档

Hive 使用手册 文档

(12)使用数据分区优化join 文档

10、Hive工作原理和基本使用 文档

(4)Spark程序的开发和运行 文档

使用 Zookeeper 构建 LogServer 文档

十分钟掌握MapReduce的精髓 文档

Hadoop 的相关搜索

关键词

Nutch 1.0 源代码分析文档

构建高并发高可用的电商平台架构实践文档

Nutch 源代码文档

分布式服务框架 Zookeeper - 管理分布式环境中的数据文档

分布式服务框架 Zookeeper 管理分布式环境中的数据文档

搜索引擎技术文档

海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践文档

MapReduce框架结构文档

极限存储设计原理及实践文档

Yahoo! S4：分布式流计算平台文档

极限存储设计原理及实践 - 淘宝文档

Katta运行机理文档

Hive 使用手册文档

10、Hive工作原理和基本使用文档

(4)Spark程序的开发和运行文档

十分钟掌握MapReduce的精髓文档