开源项目,开源代码,开源文档,开源新闻,开源社区

P10

分布式式计算，同样是一个宽泛的概念，在这里，它狭义的指代，按Google Map/Reduce框架所设计的分布式框架。在Hadoop中，分布式文件系统，很大程度上，是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分

萧萧若水 2011-10-30 3954 0

分布式/云计算/大数据

P8

property.dataDir的配置；其中hbase.rootdir对应Hadoop的$HADOOP_HOME/etc/hadoop/core-site.xml文件中fs.defaultFS的值；hbase

李新广 2015-07-10 1620 0

NoSQL数据库

P31

processing 5. 背景：多种数据处理技术的出现过去的十年是数据处理变革的十年， MapReduce、 Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统

nd7b 2015-12-09 6303 0

分布式/云计算/大数据报告 Apache Go

P51

URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class

Wyh_D_Void 2011-05-23 890 0

爬虫网络爬虫

P20

　　mahout 的意思是大象的饲养者及驱赶者。Mahout 这个名称来源于该项目（有时）使用 Apache Hadoop — 其徽标上有一头黄色的大象 — 来实现可伸缩性和容错性。　　Mahout 项目是由 Apache

bbcpeng 2013-09-13 3757 0

机器学习 Apache

P16

是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive

xsh1019 2013-01-05 692 0

分布式/云计算/大数据

P21

些实现的代码和示例，色彩有些斑驳，缺少了点感性。幸好我们还有OpenSource，还有Hadoop。Hadoop是一个基于Java实现的，开源的，分布式存储和计算的项目。作为这个领域最富盛名的开源项目

hadoopfans 2010-11-20 5861 0

分布式/云计算/大数据

P3

在过去的十年里，数据处理发生了革命性的变化：MapReduce，Hadoop，以及相关的技术使我们可以存储和处理以前不可想象的大规模的数据。很遗憾，这些数据处理系统都不是实时系统，而且也根本没办法把Hadoop变成一个实时系统；实时数据处

cdmamata 2014-01-13 488 0

分布式/云计算/大数据

P7

构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。

vv2011_p 2012-12-21 606 0

日志组件

P82

层外部大数据商城系统Hadoop元数据云数据推送平台数据平台导入临时区数据平台导出临时区NAS 存储ETL程序区 10. 大数据分析平台总体架构——数据交换层NAS存储Hadoop集群元数据区数据平台

guet_lee 2017-01-12 6513 0

分布式/云计算/大数据方案报告 HTTP Go

P10

现顺序化存储优化，以得到最好的IO性能。 1.3. HLogKey类当前的WAL实现采用了Hadoop SequenceFile，它会将记录存储为一系列的key/values。对于WAL来说，va

lanbocui 2012-08-21 2232 0

分布式/云计算/大数据

P39

法处理情况下的机器学习工具。在目前阶段，这种可伸缩性由java实现，有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口，预装好的服务器。以及安装

Mon 2013-12-01 5643 0

P8

息存储可以分布式集群化，具有了水平扩展的能力。作者何鹏关注分布式存储与计算相关框架，包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

657226016 2018-05-20 885 0

P9

apache.nutch.crawl.Indexer：这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

228823266 2012-01-17 5175 0

搜索引擎 nutch

P8

息存储可以分布式集群化，具有了水平扩展的能力。作者何鹏关注分布式存储与计算相关框架，包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

hjlsoft 2014-11-23 1818 0

消息中间件

P8

发读写性能来说，是非常糟糕的，这让我立刻抛弃了对CouchDB的兴趣。 5、 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

synart 2012-04-18 8205 0

NoSQL数据库 SQL

P44

法处理情况下的机器学习工具。在目前阶段，这种可伸缩性由java实现，有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口，预装好的服务器。以及安装

pcint 2013-07-18 1264 0

P4

1. MyDBJob的实现满足Hadoop的基本五个步骤 1.继承HadoopJob类 2.创建构造器 3.覆写InternalExecute()方法 4.编写Mapper,Reducer类 5.部署在main函数中执行

lvzhichun 2013-09-14 2182 0

SQL

P19

getEdit()); } SequenceFile.Writer 4.append 最终是调用hadoop的SequenceFile.Writer.append将数据持久化的。当Region的memstore

de521 2014-08-09 2131 0

NoSQL数据库

P3

是一个运行在Hadoop（Doug Cutting 在06年3月份加入了Yahoo ）上的并行处理架构，有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。附带一下 Hadoop 基本进入了实用阶段

风云lucky 2011-07-22 513 0

Go

分布式计算(Map/Reduce) 文档

HBase0.96安装步骤文档

Storm对于交通数据的处理文档

自己动手写网络爬虫（二）文档

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用文档

Hive 学习文档

分布式基础学习文档

Twitter Storm 环境搭建文档

开源日志系统比较文档

京东金融大数据分析平台总体架构-v1.0 文档

HBase Architecture（中）文档

Mahout in Action 中文版文档

RocketMQ-原理简析（适合初级使用者）文档

Nutch 主要类分析文档

RocketMQ -原理简析（适合初级使用者）文档

NOSQL数据库介绍文档

mahout in action中文版(最全的) 文档

MyDBJob的实现文档

深入学习Hbase原理资料整理文档

Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

Hadoop 的相关搜索

关键词

分布式计算(Map/Reduce) 文档

HBase0.96安装步骤 文档

Storm对于交通数据的处理 文档

自己动手写网络爬虫（二） 文档

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用 文档

Hive 学习 文档

分布式基础学习 文档

Twitter Storm 环境搭建 文档

开源日志系统比较 文档

京东金融大数据分析平台总体架构-v1.0 文档

HBase Architecture（中） 文档

Mahout in Action 中文版 文档

RocketMQ-原理简析（适合初级使用者） 文档

Nutch 主要类分析 文档

RocketMQ -原理简析（适合初级使用者） 文档

NOSQL数据库介绍 文档

mahout in action中文版(最全的) 文档

MyDBJob的实现 文档

深入学习Hbase原理资料整理 文档

Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

Hadoop 的相关搜索

关键词

HBase0.96安装步骤文档

Storm对于交通数据的处理文档

自己动手写网络爬虫（二）文档

Apache Mahout 简介：通过可伸缩、商业友好的机器学习来构建智能应用文档

Hive 学习文档

分布式基础学习文档

Twitter Storm 环境搭建文档

开源日志系统比较文档

HBase Architecture（中）文档

Mahout in Action 中文版文档

RocketMQ-原理简析（适合初级使用者）文档

Nutch 主要类分析文档

RocketMQ -原理简析（适合初级使用者）文档

NOSQL数据库介绍文档

MyDBJob的实现文档

深入学习Hbase原理资料整理文档