开源项目,开源代码,开源文档,开源新闻,开源社区

P6

法，最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。

shuixian0626 2012-07-06 4913 0

分布式/云计算/大数据

对数据库性能进行了优化，提升了存储能力，并进行了新功能和 Hadoop 的整合。 2. Altiscale CEO: Raymie Stata Hadoop 在 2014 年很火，但是其大数据平台仍然十分复杂，并且很难用。这也是

jopen 2014-12-25 21239 0

大数据

一些方案来提高虚拟机的熵。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错，可在应用层面处理失败。Hadoop

jopen 2015-09-30 16390 0

Java Java开发

html 我们知道有eclipse的Hadoop插件，能够在eclipse上操作hdfs上的文件和新建mapreduce程序，以及以Run On Hadoop方式运行程序。那么我们可不可以直接在ec

ZXF0109521 2016-02-01 59440 0

Spark YARN Eclipse 分布式/云计算/大数据

一些方案来提高虚拟机的熵。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错，可在应用层面处理失败。Hadoop

jopen 2015-10-05 22580 0

Docker

P18

学习 Hive 李建奇 1 学习看了一部分代码，感觉，hive 比较复杂，使用场景有限，一般用 hadoop 原生的 map reduce 就可以了。 1.1 版本 0.6 1.2 目的学习 facebook

xfj3526 2012-06-13 5802 0

分布式/云计算/大数据

有关的技术： 1、Hadoop Hadoop是一个框架，它是由Java语言来实现的。Hadoop是处理大数据技术. Hadoop可以处理云计算产生大数据，需要区分hadoop并不是云计算。只是它和云计算密不可分。

d6nd 2015-03-11 15780 0

云技术

P25

email string, notes string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES

flyfoxs 2011-08-31 4038 0

分布式/云计算/大数据 SQL

技术，如 Hadoop，Mahout，HBase，Cassandra，我在下面也会涵盖。我可以举几个例子，在分析这一块，cloudera，hortonworks，mapr作为Hadoop的三剑客，一

jopen 2015-01-25 84829 0

大数据分布式/云计算/大数据

一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用

jopen 2013-12-11 48080 0

分布式/云计算/大数据 Hive

系统，每小时同步的日志数据被追加到当天数据表中，导入完成后，当天各项统计项将被重新计算并输出统计结果。以上需求若直接基于 hadoop 开发，需要自行管理数据，针对多个统计需求开发不同的 map/reduce 运算任务，对合并、

jopen 2014-11-17 30553 0

Hive 分布式/云计算/大数据

project designed for Hadoop, Oryx comes courtesy of the creators of the Cloudera Hadoop distribution. The

fd5f 2014-12-29 50116 0

机器学习

此安装包同时不再要求在目标服务器上安装上述包管理软件，以及连接到互联网的要求，仅倚赖Hadoop集群本身。如何使用：从Kylin.io下载页面 http://kylin.io/download/

jopen 2015-03-06 15918 0

Apache Kylin

fast SQL-on-Hadoop database eBay 开源了一种名为 Kylin 的数据库技术，eBay 在周三的一篇博客上分享了 Kylin 的诸多细节，基于 Hadoop 提供 SQL 接口和

jopen 2014-10-23 11724 0

Kylin

Framework）。REEF被设计运行于下一代Hadoop资源管理器 YARN 之上，非常适合运行机器学习任务。资源管理器YARN是Apache hadoop项目的一部分，可以让用户在同一物理集群上

jopen 2013-08-13 7417 0

开源

Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop（ Hadoop 并不仅仅是一个用于存储的分布式文件系统，而是设计用来在由通用

fmms 2011-09-25 14248 0

云计算

由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spa

jopen 2015-11-15 21282 0

Apache Spark

MapReduce 启发，许多研究者在不同的实验平台上实现了 MapReduce 框架，本文将对 Apache Hadoop MapReduce、Apache、Spark、斯坦福大学的 Phoenix，Nokia 研发的

jopen 2015-07-15 71471 0

MapReduce 分布式/云计算/大数据

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但

jopen 2014-11-17 109482 0

Spark 分布式/云计算/大数据

ster机之间配置好ssh，并配置好hadoop，扩展到hbase所在的hadoop集群上（ssh配置这里不介绍了，hadoop集群扩展，见我的博客《hadoop集群扩展》）。二、修改master机器上的hosts文件，新增内容如下

jopen 2015-07-16 19789 0

NoSQL数据库 HBase

大数据下的数据分析平台架构文档

盘点2014：十家最酷的大数据创业公司资讯

基于Java的现成容器——第一部分经验

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

五个基于Java的Docker镜像资讯

学习 Hive 源码文档

主流云技术解读：重点不在开发而在架构资讯

Hive/HBase Integration or,MaybeSQL 文档

讲给硅谷创业者的大数据精华集合经验

基于hive的日志数据统计实战经验

Hive实战之日志分析经验

11个著名的开源机器学习工具经验

开源的分布式的 OLAP 分析引擎，Apache Kylin 提供二进制安装包资讯

eBay开源新数据库技术Kylin，支持TB到PB级数据量资讯

微软开源大数据框架 REEF 资讯

数据收集系统 Chukwa 资讯

大数据处理框架，Apache Spark 1.5.2 发布资讯

五种基于 MapReduce 的并行计算框架介绍及性能测试经验

Spark介绍经验

Hbase集群扩展经验

K-means Hadoop 的相关搜索

关键词

大数据下的数据分析平台架构 文档

盘点2014：十家最酷的大数据创业公司 资讯

基于Java的现成容器——第一部分 经验

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

五个基于Java的Docker镜像 资讯

学习 Hive 源码 文档

主流云技术解读：重点不在开发而在架构 资讯

Hive/HBase Integration or,MaybeSQL 文档

讲给硅谷创业者的大数据精华集合 经验

基于hive的日志数据统计实战 经验

Hive实战之日志分析 经验

11个著名的开源机器学习工具 经验

开源的分布式的 OLAP 分析引擎，Apache Kylin 提供二进制安装包 资讯

eBay开源新数据库技术Kylin，支持TB到PB级数据量 资讯