P18

  学习 Hive 源码 文档

学习 Hive 李建奇 1 学习 看了一部分代码,感觉,hive 比较复杂,使用场景有限,一般用 hadoop 原生的 map reduce 就可以了。 1.1 版本 0.6 1.2 目的 学习 facebook

xfj3526 2012-06-13   5802   0

主流云技术解读:重点不在开发而在架构 资讯

有关的技术: 1、Hadoop Hadoop是一个框架,它是由Java语言来实现的。Hadoop是处理大数据技术. Hadoop可以处理云计算产生大数据, 需要区分hadoop并不是云计算。只是它和云计算密不可分。

d6nd 2015-03-11   15780   0
P25

  Hive/HBase Integration or,MaybeSQL 文档

email string, notes string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES

flyfoxs 2011-08-31   4038   0

大数据实时处理:百分点实时计算架构和算法 经验

和数据处理两个层次。 存储服务层提供了数据处理层需要的各类分布式存储,包括分布式文件系统(Hadoop HDFS)、分布式SQL数据库(MySQL)、分布式 NoSQL数据库(Redis、Mong

jopen 2014-03-01   101750   0
P14

  DMLC 深盟分布式深度机器学习开源平台解析 文档

的延时来控制机器在此之前的数据不一致性。   图7 不同数据一致性下运行时间 图8展示了在广告点击预测中(细节描述见后文),不同的一致性模型下得到同样精度参数模型所花费的时间。当使用顺序一致性模型时(

eefb 2015-09-09   505   0

基于hive的日志数据统计实战 经验

一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用

jopen 2013-12-11   48080   0

Hive实战之日志分析 经验

系统,每小时同步的日志数据被追加到当天数据表中,导入完成后,当天各项统计项将被重新计算并输出统计结果。 以 上需求若直接基于 hadoop 开发,需要自行管理数据,针对多个统计需求开发不同的 map/reduce 运算任务,对合并、

jopen 2014-11-17   30553   0

11个著名的开源机器学习工具 经验

project designed for Hadoop, Oryx comes courtesy of the creators of the Cloudera Hadoop distribution. The

fd5f 2014-12-29   50116   0

开源的分布式的 OLAP 分析引擎,Apache Kylin 提供二进制安装包 资讯

此安装包同时不再要求在目标服务器上安装上述包管理软件,以及连接到互联网的要求,仅倚赖Hadoop集群本身。 如何使用: 从Kylin.io下载页面 http://kylin.io/download/

jopen 2015-03-06   15918   0

eBay开源新数据库技术Kylin,支持TB到PB级数据量 资讯

fast SQL-on-Hadoop database eBay 开源了一种名为 Kylin 的数据库技术,eBay 在周三的一篇博客上分享了 Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和

jopen 2014-10-23   11724   0
Kylin  

微软开源大数据框架 REEF 资讯

Framework)。REEF被设计运行于下一代Hadoop资源管理器 YARN 之上,非常适合运行机器学习任务。 资源管理器YARN是Apache hadoop项目的一部分,可以让用户在同一物理集群上

jopen 2013-08-13   7417   0
开源  

数据收集系统 Chukwa 资讯

Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 HadoopHadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用

fmms 2011-09-25   14248   0

大数据处理框架,Apache Spark 1.5.2 发布 资讯

由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spa

jopen 2015-11-15   21282   0

五种基于 MapReduce 的并行计算框架介绍及性能测试 经验

MapReduce 启发,许多研究者在不同的实验平台上实现了 MapReduce 框架,本文将对 Apache Hadoop MapReduce、Apache、Spark、斯坦福大学的 Phoenix,Nokia 研发的

jopen 2015-07-15   71471   0

Spark介绍 经验

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点; 但

jopen 2014-11-17   109482   0

Hbase集群扩展 经验

ster机之间配置好ssh,并配置好hadoop,扩展到hbase所在的hadoop集群上(ssh配置这里不介绍了,hadoop集群扩展,见我的博客《hadoop集群扩展》)。 二、修改master机器上的hosts文件,新增内容如下

jopen 2015-07-16   19789   0

Java开源工作流引擎,Apache Oozie 3.2.0 发布 资讯

,基于 Apache Hadoop 的数据处理任务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上。 Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理

openkk 2012-06-09   14963   0
P6

  HBase实例 文档

IOException; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Scanner; import

xnbw 2016-01-12   1920   0
P6

  大数据-基本功能 文档

大数据是一个非常新的市场,市面上大部分的大数据产品都基于开源项目Hadoop。虽然Hadoop是一个较为成熟的产品,但属于第一代大数据产品,利用Hadoop开发的大数据产品无法保障系统的可靠性、不支持快速实时查

whitefifa 2013-08-15   522   0
P5

  HBase 原理及实例 文档

umnFamily: HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行

liu2511981 2012-05-17   6311   0
1 2 3 4 5 6 7 8 9 10