P9

  Nutch 主要类分析 文档

apache.nutch.crawl.Indexer:     这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

228823266 2012-01-17   5175   0
P8

  RocketMQ -原理简析(适合初级使用者) 文档

息存储可以分布式集群化,具有了水平扩展的能力。 作者 何鹏 关注分布式存储与计算相关框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

hjlsoft 2014-11-23   1818   0
P8

  NOSQL数据库介绍 文档

发读写性能来说,是非常糟糕的,这让我立刻抛弃了对CouchDB的兴趣。 5、 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC

synart 2012-04-18   8205   0
P25

  机器学习十大算法 文档

但结论必须是确定的 3. 对已生成的决策树进行裁剪,减小生成树的规模. 2、The k-means algorithm k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k

岳麓丹枫 2014-09-29   800   0

Spring Data Neo4j 2.0.0 发布 资讯

persistence is located here. Hadoop - Spring based configuration of Hadoop jobs and a POJO programming

jopen 2011-12-25   14615   0
Spring  

开源计算框架:Apache Tez 经验

户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。但是,有很多用例需要近乎实时的查询处理性能。还有一些工作则不太 适合MapReduce,例如机器学习。Tez的目的就是帮助Hadoop处理这些用例场景。

jopen 2015-10-22   9934   0

OOzie简介 经验

的Oozie工作流程 Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。 用于管理和协调运行在Hadoop平台上(包括:HDFS、Pig和 MapReduce)的J

jopen 2014-08-29   15110   0

HDFS Java文件API示例 经验

addResource(new Path( "/u/hadoop-1.1.0/conf/core-site.xml")); conf.addResource(new Path( "/u/hadoop-1.1.0/conf/hdfs-site

jopen 2014-02-16   16113   0

NoSQL 的 ORM 框架,Apache Gora 0.5 发布 资讯

issues,同时还有一些改进和新功能。最值得关注的特性是:添加了 MongoDB 新模块;新增 Shim 功能,支持多个 Hadoop 版本;改进了 Accumulo 认证;改进了大量模块的文档;实现了可插式的 solr,支持 HttpSolrServer

jopen 2014-09-20   7325   0

Apache Hive 1.0.1/1.1.1 发布,数据仓库平台 资讯

Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

nwbg 2015-05-23   9039   0
P4

  MyDBJob的实现 文档

1. MyDBJob的实现满足Hadoop的基本五个步骤 1.继承HadoopJob类 2.创建构造器 3.覆写InternalExecute()方法 4.编写Mapper,Reducer类 5.部署在main函数中执行

lvzhichun 2013-09-14   2182   0
SQL  

Oozie 管理Hdoop作业(job)的工作流程调度管理系统 经验

的Oozie工作流程 Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。 用于管理和协调运行在Hadoop平台上(包括:HDFS、Pig和 MapReduce)的J

jopen 2014-03-13   63987   0

分布式文件系统 XtreemFS 1.4 发布 资讯

版本,该版本支持异步后台写,并显著提升了数据存储的性能,此外还提升了稳定性。新的 Hadoop 客户端可以让文件系统替代 Hadoop 集群中的 HDFS。

jopen 2012-11-15   9014   0

eBay的OLAP分析引擎 Kylin 项目加入 Apache 基金会孵化 资讯

公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量。 Kylin 是: 超级快的 OLAP 引擎,具备可伸缩性 为 Hadoop 提供 ANSI-SQL

jopen 2014-12-05   11485   0
Kylin  

Cloudera 月底将发布新的开源储存引擎 Kudu 资讯

据。预计本月底发布。 Kudu 将被当作目前广泛使用的 Hadoop Distributed File System 和 Hadoop-oriented HBase NoSQL 数据库的替代产品,并将集合两者的特点。Kudu

jopen 2015-09-25   9454   0
Kudu  

Apache Avrov1.10.0-beta7发布 资讯

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的 创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)牵头开发。Avro是一个数据序列化系统,设计用于支持大

jopen 2016-08-24   8016   0

HBase 开源项目

System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库

码头工人 2019-01-17   881   0

JSON查询语言 Jaql 开源项目

数据 半行处理:Jaql查询能够利用Hadoop的Map-Reduce作为并行计算平台来处理 大量数据 可扩展性:用户必须能够很容易地扩展Jaql Hadoop 是Google MapReduce的

码头工人 2019-01-17   847   0

JPA 持久层框架 DataNucleus Access Platform 3.0.3 发布 资讯

JSON, Excel/ODF spreadsheets, XML, BigTable, 和 Hadoop 数据库等. 发布日志: 1. 为JDO添加bean validation (javax

openkk 2011-11-05   8947   0

分布式流处理框架:Apache Samza 经验

Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送,采用 Apache Hadoop YARN 来提供容错,处理器隔离,安全性和资源管理。专用于实时数据的处理,非常像Twitte

jopen 2013-09-23   27242   0
1 2 3 4 5 6 7 8 9 10