开源项目,开源代码,开源文档,开源新闻,开源社区

，基于 Apache Hadoop 的数据处理任务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在Hadoop 平台上。 Oozie 包括一个离线的Hadoop处理的工作流解决方案，以及一个查询处理

openkk 2012-06-09 14963 0

工作流引擎

P6

IOException; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Scanner; import

xnbw 2016-01-12 1920 0

NoSQL数据库

P6

大数据是一个非常新的市场，市面上大部分的大数据产品都基于开源项目Hadoop。虽然Hadoop是一个较为成熟的产品，但属于第一代大数据产品，利用Hadoop开发的大数据产品无法保障系统的可靠性、不支持快速实时查

whitefifa 2013-08-15 522 0

P5

umnFamily： HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行

liu2511981 2012-05-17 6311 0

分布式/云计算/大数据

Mahout 框架一直与 Hadoop 相关联，但旗下很多算法还可以脱离 Hadoop 运行。他们对那些可能最终迁移到 Hadoop 上的应用程序或从 Hadoop 上剥离成为独立应用程序的项目非常有用。

jopen 2014-12-05 46666 0

机器学习

P4

段。2016年新春伊始，五名业内人士将与您分享他们对于2016年大数据和分析市场趋势的预测。 Hadoop发行商Hortonworks公司的CTO Scott Gnau预测以下趋势将在2016年主导数据和分析市场领域：

leo1986leo 2016-08-06 622 0

大数据分布式/云计算/大数据

a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism

jopen 2014-08-31 63675 0

Hive 数据挖掘

P22

道过程是多么的折腾。采用HBase就简单了，只需要加机器即可，HBase会自动水平切分扩展，跟Hadoop的无缝集成保障了其数据可靠性（HDFS）和海量数据分析的高性能（MapReduce）。小结

liu2511981 2012-05-16 2693 0

分布式/云计算/大数据

P29

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

东皇太一 2011-07-19 479 0

数据挖掘

P23

Hbase分析报告本文基于环境hadoop-0.16.4 和 hbase-0.1.3 编写 Hbase是一个分布式开源数据库，基于Hadoop分布式文件系统，模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。

calmdiss 2013-05-11 321 0

分布式/云计算/大数据

P23

Hbase分析报告本文基于环境hadoop-0.16.4 和 hbase-0.1.3 编写 Hbase是一个分布式开源数据库，基于Hadoop分布式文件系统，模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。

hadoopfans 2010-11-20 4664 0

构架分布式/云计算/大数据报告

P23

Hbase分析报告本文基于环境hadoop-0.16.4 和 hbase-0.1.3 编写 Hbase是一个分布式开源数据库，基于Hadoop分布式文件系统，模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。

nx42 2012-09-07 753 0

分布式/云计算/大数据报告

Web项目中读取HBase的数据。先介绍一下必要的一些环境： HBase的版本：0.98.8-hadoop2 所需的依赖包： commons-codec-1.7.jar commons-collections-3

n342 2015-04-29 99384 0

HBase NoSQL数据库

下面将介绍大数据领域支持Java的主流开源工具： 1. HDFS HDFS是Hadoop应用程序中主要的分布式储存系统， HDFS集群包含了一个NameNode（主节点），这个节点负

jopen 2014-04-30 52548 0

开源

的Git代码库中[2]，感兴趣的读者可以克隆并切换到0.8分支查看。背景：Kylin使用Hadoop结合数据立方体（Cube）技术实现多维度快速OLAP分析能力的。关于数据立方体概念，请参考[3]。

jopen 2015-09-10 25064 0

Apache Kylin

hiveudf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class

jopen 2014-01-27 20004 0

Hive 数据挖掘

写的类GFS开源项目Hadoop，最开始hadoop的赞助人是yahoo，后来这个项目成了Apche的顶级项目。大数据的解决方案：谷歌的那一套系统是闭源的，开源的Hadoop于是就广泛传播开来了。

jopen 2015-01-28 48655 0

架构分布式/云计算/大数据

· 协议（Protocol）: HTTP/REST (也有 Thrift) · 概要：模型化谷歌大表使用Hadoop HDFS作为数据存储 Hadoop Map/reduce 框架通过服务器端的扫描和过滤来实现查询术语推送实时查询优化

jopen 2014-03-13 23273 0

数据库 NoSQL数据库

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下，用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。

jopen 2014-01-28 19847 0

Hive 数据挖掘

可以是不同的类型。当前该实现在 Lucene 和 Hadoop mapfiles 让大型高负荷的索引变简单能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务在不同服务器上复制碎片以保证性能和容错性

jopen 2012-09-11 21225 0

分布式分布式/云计算/大数据

Java开源工作流引擎，Apache Oozie 3.2.0 发布资讯

HBase实例文档

大数据-基本功能文档

HBase 原理及实例文档

值得mark的11个开源机器学习项目经验

2016年大数据和分析市场的21个趋势预测文档

Hive深入浅出经验

业务开发测试hbase之旅文档

Hive开发资料文档

Hbase 分析报告文档

Hbase分析报告文档

Hbase 原理及性能分析报告文档

实战：在Java Web 项目中使用HBase 经验

13款开源Java大数据工具经验

Apache Kylin的快速数据立方体算法 - 概述资讯

Hive自定义函数经验

大数据基础架构总结经验

类似于谷歌大表(Google' Gigtable)的开源数据库经验

Hive安装简介经验

开源分布式存储系统 katta 介绍经验

K-means Hadoop 的相关搜索

关键词

Java开源工作流引擎，Apache Oozie 3.2.0 发布 资讯

HBase实例 文档

大数据-基本功能 文档

HBase 原理及实例 文档

值得mark的11个开源机器学习项目 经验

2016年大数据和分析市场的21个趋势预测 文档

Hive深入浅出 经验

业务开发测试hbase之旅 文档

Hive开发资料 文档

Hbase 分析报告 文档

Hbase分析报告 文档

Hbase 原理及性能分析报告 文档

实战：在Java Web 项目中使用HBase 经验

13款开源Java大数据工具 经验

Apache Kylin的快速数据立方体算法 - 概述 资讯

Hive自定义函数 经验

大数据基础架构总结 经验

类似于谷歌大表(Google' Gigtable)的开源数据库 经验

Hive安装简介 经验

开源分布式存储系统 katta 介绍 经验

K-means Hadoop 的相关搜索

关键词

Java开源工作流引擎，Apache Oozie 3.2.0 发布资讯

HBase实例文档

大数据-基本功能文档

HBase 原理及实例文档

值得mark的11个开源机器学习项目经验

2016年大数据和分析市场的21个趋势预测文档

Hive深入浅出经验

业务开发测试hbase之旅文档

Hive开发资料文档

Hbase 分析报告文档

Hbase分析报告文档

Hbase 原理及性能分析报告文档

13款开源Java大数据工具经验

Apache Kylin的快速数据立方体算法 - 概述资讯

Hive自定义函数经验

大数据基础架构总结经验

类似于谷歌大表(Google' Gigtable)的开源数据库经验

Hive安装简介经验

开源分布式存储系统 katta 介绍经验