开源项目,开源代码,开源文档,开源新闻,开源社区

P18

学习 Hive 李建奇 1 学习看了一部分代码，感觉，hive 比较复杂，使用场景有限，一般用 hadoop 原生的 map reduce 就可以了。 1.1 版本 0.6 1.2 目的学习 facebook

xfj3526 2012-06-13 5802 0

分布式/云计算/大数据

有关的技术： 1、Hadoop Hadoop是一个框架，它是由Java语言来实现的。Hadoop是处理大数据技术. Hadoop可以处理云计算产生大数据，需要区分hadoop并不是云计算。只是它和云计算密不可分。

d6nd 2015-03-11 15780 0

云技术

P25

email string, notes string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES

flyfoxs 2011-08-31 4038 0

分布式/云计算/大数据 SQL

和数据处理两个层次。存储服务层提供了数据处理层需要的各类分布式存储，包括分布式文件系统（Hadoop HDFS）、分布式SQL数据库（MySQL）、分布式 NoSQL数据库（Redis、Mong

jopen 2014-03-01 101750 0

大数据算法

P14

的延时来控制机器在此之前的数据不一致性。图7 不同数据一致性下运行时间图8展示了在广告点击预测中（细节描述见后文），不同的一致性模型下得到同样精度参数模型所花费的时间。当使用顺序一致性模型时（

eefb 2015-09-09 505 0

机器学习

一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用

jopen 2013-12-11 48080 0

分布式/云计算/大数据 Hive

系统，每小时同步的日志数据被追加到当天数据表中，导入完成后，当天各项统计项将被重新计算并输出统计结果。以上需求若直接基于 hadoop 开发，需要自行管理数据，针对多个统计需求开发不同的 map/reduce 运算任务，对合并、

jopen 2014-11-17 30553 0

Hive 分布式/云计算/大数据

project designed for Hadoop, Oryx comes courtesy of the creators of the Cloudera Hadoop distribution. The

fd5f 2014-12-29 50116 0

机器学习

此安装包同时不再要求在目标服务器上安装上述包管理软件，以及连接到互联网的要求，仅倚赖Hadoop集群本身。如何使用：从Kylin.io下载页面 http://kylin.io/download/

jopen 2015-03-06 15918 0

Apache Kylin

fast SQL-on-Hadoop database eBay 开源了一种名为 Kylin 的数据库技术，eBay 在周三的一篇博客上分享了 Kylin 的诸多细节，基于 Hadoop 提供 SQL 接口和

jopen 2014-10-23 11724 0

Kylin

Framework）。REEF被设计运行于下一代Hadoop资源管理器 YARN 之上，非常适合运行机器学习任务。资源管理器YARN是Apache hadoop项目的一部分，可以让用户在同一物理集群上

jopen 2013-08-13 7417 0

开源

Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop（ Hadoop 并不仅仅是一个用于存储的分布式文件系统，而是设计用来在由通用

fmms 2011-09-25 14248 0

云计算

由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spa

jopen 2015-11-15 21282 0

Apache Spark

MapReduce 启发，许多研究者在不同的实验平台上实现了 MapReduce 框架，本文将对 Apache Hadoop MapReduce、Apache、Spark、斯坦福大学的 Phoenix，Nokia 研发的

jopen 2015-07-15 71471 0

MapReduce 分布式/云计算/大数据

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但

jopen 2014-11-17 109482 0

Spark 分布式/云计算/大数据

ster机之间配置好ssh，并配置好hadoop，扩展到hbase所在的hadoop集群上（ssh配置这里不介绍了，hadoop集群扩展，见我的博客《hadoop集群扩展》）。二、修改master机器上的hosts文件，新增内容如下

jopen 2015-07-16 19789 0

NoSQL数据库 HBase

，基于 Apache Hadoop 的数据处理任务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在Hadoop 平台上。 Oozie 包括一个离线的Hadoop处理的工作流解决方案，以及一个查询处理

openkk 2012-06-09 14963 0

工作流引擎

P6

IOException; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Scanner; import

xnbw 2016-01-12 1920 0

NoSQL数据库

P6

大数据是一个非常新的市场，市面上大部分的大数据产品都基于开源项目Hadoop。虽然Hadoop是一个较为成熟的产品，但属于第一代大数据产品，利用Hadoop开发的大数据产品无法保障系统的可靠性、不支持快速实时查

whitefifa 2013-08-15 522 0

P5

umnFamily： HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行

liu2511981 2012-05-17 6311 0

分布式/云计算/大数据

学习 Hive 源码文档

主流云技术解读：重点不在开发而在架构资讯

Hive/HBase Integration or,MaybeSQL 文档

大数据实时处理：百分点实时计算架构和算法经验

DMLC 深盟分布式深度机器学习开源平台解析文档

基于hive的日志数据统计实战经验

Hive实战之日志分析经验

11个著名的开源机器学习工具经验

开源的分布式的 OLAP 分析引擎，Apache Kylin 提供二进制安装包资讯

eBay开源新数据库技术Kylin，支持TB到PB级数据量资讯

微软开源大数据框架 REEF 资讯

数据收集系统 Chukwa 资讯

大数据处理框架，Apache Spark 1.5.2 发布资讯

五种基于 MapReduce 的并行计算框架介绍及性能测试经验

Spark介绍经验

Hbase集群扩展经验

Java开源工作流引擎，Apache Oozie 3.2.0 发布资讯

HBase实例文档

大数据-基本功能文档

HBase 原理及实例文档

hadoop 电影票房预测的相关搜索

关键词

学习 Hive 源码 文档

主流云技术解读：重点不在开发而在架构 资讯

Hive/HBase Integration or,MaybeSQL 文档

大数据实时处理：百分点实时计算架构和算法 经验

DMLC 深盟分布式深度机器学习开源平台解析 文档

基于hive的日志数据统计实战 经验

Hive实战之日志分析 经验

11个著名的开源机器学习工具 经验

开源的分布式的 OLAP 分析引擎，Apache Kylin 提供二进制安装包 资讯

eBay开源新数据库技术Kylin，支持TB到PB级数据量 资讯

微软开源大数据框架 REEF 资讯

数据收集系统 Chukwa 资讯

大数据处理框架，Apache Spark 1.5.2 发布 资讯

五种基于 MapReduce 的并行计算框架介绍及性能测试 经验

Spark介绍 经验

Hbase集群扩展 经验

Java开源工作流引擎，Apache Oozie 3.2.0 发布 资讯

HBase实例 文档

大数据-基本功能 文档

HBase 原理及实例 文档

hadoop 电影票房预测 的相关搜索

关键词