开源项目,开源代码,开源文档,开源新闻,开源社区

apache.nutch.crawl.Indexer：这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

228823266 2012-01-17 5175 0

搜索引擎 nutch

息存储可以分布式集群化，具有了水平扩展的能力。作者何鹏关注分布式存储与计算相关框架，包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

hjlsoft 2014-11-23 1818 0

消息中间件

发读写性能来说，是非常糟糕的，这让我立刻抛弃了对CouchDB的兴趣。 5、 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

synart 2012-04-18 8205 0

NoSQL数据库 SQL

P25

但结论必须是确定的 3. 对已生成的决策树进行裁剪,减小生成树的规模. 2、The k-means algorithm k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k

岳麓丹枫 2014-09-29 800 0

机器学习

persistence is located here. Hadoop - Spring based configuration of Hadoop jobs and a POJO programming

jopen 2011-12-25 14615 0

Spring

户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。但是，有很多用例需要近乎实时的查询处理性能。还有一些工作则不太适合MapReduce，例如机器学习。Tez的目的就是帮助Hadoop处理这些用例场景。

jopen 2015-10-22 9934 0

分布式/云计算/大数据 Apache Tez

的Oozie工作流程 Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上（包括：HDFS、Pig和 MapReduce）的J

jopen 2014-08-29 15110 0

作业调度框架 Oozie

addResource(new Path( "/u/hadoop-1.1.0/conf/core-site.xml")); conf.addResource(new Path( "/u/hadoop-1.1.0/conf/hdfs-site

jopen 2014-02-16 16113 0

HDFS NoSQL数据库

issues，同时还有一些改进和新功能。最值得关注的特性是：添加了 MongoDB 新模块；新增 Shim 功能，支持多个 Hadoop 版本；改进了 Accumulo 认证；改进了大量模块的文档；实现了可插式的 solr，支持 HttpSolrServer

jopen 2014-09-20 7325 0

Apache Gora

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

nwbg 2015-05-23 9039 0

Apache Hive

1. MyDBJob的实现满足Hadoop的基本五个步骤 1.继承HadoopJob类 2.创建构造器 3.覆写InternalExecute()方法 4.编写Mapper,Reducer类 5.部署在main函数中执行

lvzhichun 2013-09-14 2182 0

SQL

的Oozie工作流程 Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上（包括：HDFS、Pig和 MapReduce）的J

jopen 2014-03-13 63987 0

Oozie 工作流引擎

版本，该版本支持异步后台写，并显著提升了数据存储的性能，此外还提升了稳定性。新的 Hadoop 客户端可以让文件系统替代 Hadoop 集群中的 HDFS。

jopen 2012-11-15 9014 0

XtreemFS

公司开发，基于 Hadoop 提供 SQL 接口和 OLAP 接口，支持 TB 到 PB 级别的数据量。 Kylin 是：超级快的 OLAP 引擎，具备可伸缩性为 Hadoop 提供 ANSI-SQL

jopen 2014-12-05 11485 0

Kylin

据。预计本月底发布。 Kudu 将被当作目前广泛使用的 Hadoop Distributed File System 和 Hadoop-oriented HBase NoSQL 数据库的替代产品，并将集合两者的特点。Kudu

jopen 2015-09-25 9454 0

Kudu

Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）牵头开发。Avro是一个数据序列化系统，设计用于支持大

jopen 2016-08-24 8016 0

序列化 Apache Avro

System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库

码头工人 2019-01-17 881 0

开源数据库

数据半行处理：Jaql查询能够利用Hadoop的Map-Reduce作为并行计算平台来处理大量数据可扩展性：用户必须能够很容易地扩展Jaql Hadoop 是Google MapReduce的

码头工人 2019-01-17 847 0

其它开源项目

JSON, Excel/ODF spreadsheets, XML, BigTable, 和 Hadoop 数据库等. 发布日志: 1. 为JDO添加bean validation (javax

openkk 2011-11-05 8947 0

Java 持久层框架

Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送，采用 Apache Hadoop YARN 来提供容错，处理器隔离，安全性和资源管理。专用于实时数据的处理，非常像Twitte

jopen 2013-09-23 27242 0

分布式/云计算/大数据 Apache Samza

K-means Hadoop 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Spring SQL Java 搜索引擎持久层框架序列化 Apache Hive 机器学习 nutch Apache Gora Kylin HDFS Apache Samza 开源数据库 Kudu Apache Avro 作业调度框架分布式/云计算/大数据 NoSQL数据库 Oozie 消息中间件 Apache Tez 其它开源项目工作流引擎 XtreemFS

Nutch 主要类分析文档

RocketMQ -原理简析（适合初级使用者）文档

NOSQL数据库介绍文档

机器学习十大算法文档

Spring Data Neo4j 2.0.0 发布资讯

开源计算框架：Apache Tez 经验

OOzie简介经验

HDFS Java文件API示例经验

NoSQL 的 ORM 框架，Apache Gora 0.5 发布资讯

Apache Hive 1.0.1/1.1.1 发布，数据仓库平台资讯

MyDBJob的实现文档

Oozie 管理Hdoop作业（job）的工作流程调度管理系统经验

分布式文件系统 XtreemFS 1.4 发布资讯

eBay的OLAP分析引擎 Kylin 项目加入 Apache 基金会孵化资讯

Cloudera 月底将发布新的开源储存引擎 Kudu 资讯

Apache Avrov1.10.0-beta7发布资讯

HBase 开源项目

JSON查询语言 Jaql 开源项目

JPA 持久层框架 DataNucleus Access Platform 3.0.3 发布资讯

分布式流处理框架：Apache Samza 经验

K-means Hadoop 的相关搜索

关键词

Nutch 主要类分析 文档

RocketMQ -原理简析（适合初级使用者） 文档

NOSQL数据库介绍 文档

机器学习十大算法 文档

Spring Data Neo4j 2.0.0 发布 资讯

开源计算框架：Apache Tez 经验

OOzie简介 经验

HDFS Java文件API示例 经验

NoSQL 的 ORM 框架，Apache Gora 0.5 发布 资讯

Apache Hive 1.0.1/1.1.1 发布，数据仓库平台 资讯

MyDBJob的实现 文档

Oozie 管理Hdoop作业（job）的工作流程调度管理系统 经验

分布式文件系统 XtreemFS 1.4 发布 资讯

eBay的OLAP分析引擎 Kylin 项目加入 Apache 基金会孵化 资讯

Cloudera 月底将发布新的开源储存引擎 Kudu 资讯

Apache Avrov1.10.0-beta7发布 资讯

HBase 开源项目

JSON查询语言 Jaql 开源项目

JPA 持久层框架 DataNucleus Access Platform 3.0.3 发布 资讯

分布式流处理框架：Apache Samza 经验

K-means Hadoop 的相关搜索

关键词

Nutch 主要类分析文档

RocketMQ -原理简析（适合初级使用者）文档

NOSQL数据库介绍文档

机器学习十大算法文档

Spring Data Neo4j 2.0.0 发布资讯

OOzie简介经验

HDFS Java文件API示例经验

NoSQL 的 ORM 框架，Apache Gora 0.5 发布资讯

Apache Hive 1.0.1/1.1.1 发布，数据仓库平台资讯

MyDBJob的实现文档

Oozie 管理Hdoop作业（job）的工作流程调度管理系统经验

分布式文件系统 XtreemFS 1.4 发布资讯

eBay的OLAP分析引擎 Kylin 项目加入 Apache 基金会孵化资讯

Apache Avrov1.10.0-beta7发布资讯

JPA 持久层框架 DataNucleus Access Platform 3.0.3 发布资讯