P10

  分布式计算(Map/Reduce) 文档

分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分

萧萧若水 2011-10-30   3954   0
P8

  HBase0.96安装步骤 文档

property.dataDir的配置;其中hbase.rootdir对应Hadoop的$HADOOP_HOME/etc/hadoop/core-site.xml文件中fs.defaultFS的值;hbase

李新广 2015-07-10   1620   0
P31

  Storm对于交通数据的处理 文档

processing 5. 背景:多种数据处理技术的出现过去的十年是数据处理变革的十年, MapReduce、 Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统

nd7b 2015-12-09   6303   0
P51

  自己动手写网络爬虫(二) 文档

URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class

Wyh_D_Void 2011-05-23   890   0
P20

  Apache Mahout 简介:通过可伸缩、商业友好的机器学习来构建智能应用 文档

  mahout 的意思是大象的饲养者及驱赶者。Mahout 这个名称来源于该项目(有时)使用 Apache Hadoop — 其徽标上有一头黄色的大象 — 来实现可伸缩性和容错性。   Mahout 项目是由 Apache

bbcpeng 2013-09-13   3757   0
P16

  Hive 学习 文档

是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive

xsh1019 2013-01-05   692   0
P21

  分布式基础学习 文档

些实现的代码和示例,色彩有些斑驳,缺少了点感性。幸好我们还有OpenSource,还有HadoopHadoop是一个基于Java实现的,开源的,分布式存储和计算的项目。作为这个领域最富盛名的开源项目

hadoopfans 2010-11-20   5861   0
P3

  Twitter Storm 环境搭建 文档

在过去的十年里,数据处理发生了革命性的变化:MapReduce,Hadoop,以及相关的技术使我们可以存储和处理以前不可想象的大规模的数据。很遗憾,这些数据处理系统都不是实时系统,而且也根本没办法把Hadoop变成一个实时系统;实时数据处

cdmamata 2014-01-13   488   0
P7

  开源日志系统比较 文档

构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。

vv2011_p 2012-12-21   606   0
P82

  京东金融大数据分析平台总体架构-v1.0 文档

层外部大数据商城系统Hadoop元数据云数据推送平台数据平台导入临时区数据平台导出临时区NAS 存储ETL程序区 10. 大数据分析平台总体架构——数据交换层NAS存储Hadoop集群元数据区数据平台

guet_lee 2017-01-12   6513   0
P10

  HBase Architecture(中) 文档

现顺序化存储优化,以得到最好的IO性能。 1.3.  HLogKey类 当前的WAL实现采用了Hadoop SequenceFile,它会将记录存储为一系列的key/values。对于WAL来说,va

lanbocui 2012-08-21   2232   0
P39

  Mahout in Action 中文版 文档

法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装

Mon 2013-12-01   5643   0
P8

  RocketMQ-原理简析(适合初级使用者) 文档

息存储可以分布式集群化,具有了水平扩展的能力。 作者 何鹏 关注分布式存储与计算相关框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

657226016 2018-05-20   885   0
P9

  Nutch 主要类分析 文档

apache.nutch.crawl.Indexer:     这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

228823266 2012-01-17   5175   0
P8

  RocketMQ -原理简析(适合初级使用者) 文档

息存储可以分布式集群化,具有了水平扩展的能力。 作者 何鹏 关注分布式存储与计算相关框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

hjlsoft 2014-11-23   1818   0
P8

  NOSQL数据库介绍 文档

发读写性能来说,是非常糟糕的,这让我立刻抛弃了对CouchDB的兴趣。 5、 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC

synart 2012-04-18   8205   0
P44

  mahout in action中文版(最全的) 文档

法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装

pcint 2013-07-18   1264   0
P4

  MyDBJob的实现 文档

1. MyDBJob的实现满足Hadoop的基本五个步骤 1.继承HadoopJob类 2.创建构造器 3.覆写InternalExecute()方法 4.编写Mapper,Reducer类 5.部署在main函数中执行

lvzhichun 2013-09-14   2182   0
SQL  
P19

  深入学习Hbase原理资料整理 文档

getEdit()); } SequenceFile.Writer 4.append 最终是调用hadoop的SequenceFile.Writer.append将数据持久化的。 当Region的memstore

de521 2014-08-09   2131   0
P3

  Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

是一个运行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行处理架构,有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。附带一下 Hadoop 基本进入了实用阶段

风云lucky 2011-07-22   513   0
Go  
1 2 3 4 5 6 7 8 9 10