P6

  大数据下的数据分析平台架构 文档

法,最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。

shuixian0626 2012-07-06   4913   0

盘点2014:十家最酷的大数据创业公司 资讯

对数据库性能进行了优化,提升了存储能力,并进行了新功能和 Hadoop 的整合。 2. Altiscale CEO: Raymie Stata Hadoop 在 2014 年很火,但是其大数据平台仍然十分复杂,并且很难用。这也是

jopen 2014-12-25   21239   0

基于Java的现成容器——第一部分 经验

一些方案来提高虚拟机的熵 。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错,可在应用层面处理失败。Hadoop

jopen 2015-09-30   16390   0

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

html 我们知道有eclipse的Hadoop插件,能够在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式运行程序。那么我们可不可以直接在ec

ZXF0109521 2016-02-01   59440   0

五个基于Java的Docker镜像 资讯

一些方案来提高虚拟机的熵 。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错,可在应用层面处理失败。Hadoop

jopen 2015-10-05   22580   0
Docker  
P18

  学习 Hive 源码 文档

学习 Hive 李建奇 1 学习 看了一部分代码,感觉,hive 比较复杂,使用场景有限,一般用 hadoop 原生的 map reduce 就可以了。 1.1 版本 0.6 1.2 目的 学习 facebook

xfj3526 2012-06-13   5802   0

主流云技术解读:重点不在开发而在架构 资讯

有关的技术: 1、Hadoop Hadoop是一个框架,它是由Java语言来实现的。Hadoop是处理大数据技术. Hadoop可以处理云计算产生大数据, 需要区分hadoop并不是云计算。只是它和云计算密不可分。

d6nd 2015-03-11   15780   0
P25

  Hive/HBase Integration or,MaybeSQL 文档

email string, notes string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES

flyfoxs 2011-08-31   4038   0

讲给硅谷创业者的大数据精华集合 经验

技术,如 Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。我可以举几个例子,在分析这一 块,cloudera,hortonworks,mapr作为Hadoop的三剑客,一

jopen 2015-01-25   84829   0

基于hive的日志数据统计实战 经验

一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用

jopen 2013-12-11   48080   0

Hive实战之日志分析 经验

系统,每小时同步的日志数据被追加到当天数据表中,导入完成后,当天各项统计项将被重新计算并输出统计结果。 以 上需求若直接基于 hadoop 开发,需要自行管理数据,针对多个统计需求开发不同的 map/reduce 运算任务,对合并、

jopen 2014-11-17   30553   0

11个著名的开源机器学习工具 经验

project designed for Hadoop, Oryx comes courtesy of the creators of the Cloudera Hadoop distribution. The

fd5f 2014-12-29   50116   0

开源的分布式的 OLAP 分析引擎,Apache Kylin 提供二进制安装包 资讯

此安装包同时不再要求在目标服务器上安装上述包管理软件,以及连接到互联网的要求,仅倚赖Hadoop集群本身。 如何使用: 从Kylin.io下载页面 http://kylin.io/download/

jopen 2015-03-06   15918   0

eBay开源新数据库技术Kylin,支持TB到PB级数据量 资讯

fast SQL-on-Hadoop database eBay 开源了一种名为 Kylin 的数据库技术,eBay 在周三的一篇博客上分享了 Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和

jopen 2014-10-23   11724   0
Kylin  

微软开源大数据框架 REEF 资讯

Framework)。REEF被设计运行于下一代Hadoop资源管理器 YARN 之上,非常适合运行机器学习任务。 资源管理器YARN是Apache hadoop项目的一部分,可以让用户在同一物理集群上

jopen 2013-08-13   7417   0
开源  

数据收集系统 Chukwa 资讯

Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 HadoopHadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用

fmms 2011-09-25   14248   0

大数据处理框架,Apache Spark 1.5.2 发布 资讯

由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spa

jopen 2015-11-15   21282   0

五种基于 MapReduce 的并行计算框架介绍及性能测试 经验

MapReduce 启发,许多研究者在不同的实验平台上实现了 MapReduce 框架,本文将对 Apache Hadoop MapReduce、Apache、Spark、斯坦福大学的 Phoenix,Nokia 研发的

jopen 2015-07-15   71471   0

Spark介绍 经验

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点; 但

jopen 2014-11-17   109482   0

Hbase集群扩展 经验

ster机之间配置好ssh,并配置好hadoop,扩展到hbase所在的hadoop集群上(ssh配置这里不介绍了,hadoop集群扩展,见我的博客《hadoop集群扩展》)。 二、修改master机器上的hosts文件,新增内容如下

jopen 2015-07-16   19789   0
1 2 3 4 5 6 7 8 9 10