P10

  编译和使用 hive-hbase-handler.jar 文档

r组件,发现在hive中查询HBase表存在问题。 准备:        编译这个jar包需要hadoop和hbase的相关jar包和hive的hbase-handler代码。我是在windows上使

hans511002 2012-06-24   8842   0

Dpark源码剖析 经验

ark类似于hadoop,逐渐成长为一种生态系统。如下图所示,其上层包含了一系列计算工具,包括: Shark for SQL,查询hadoop数据的分布式SQL查询引擎,类似于hadoop上的hive,但效率更高。

Spark on Yarn 经验

最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的Hadoop

jopen 2015-01-10   29664   0
P32

  HDFS原理与实现@百度 文档

解决方案 3. 什么是Hadoop?基础架构(infrastructure) Reliable Scalable Distributed computing 4. Hadoop发展史 5. 什么是HDFS

jelly0812 2011-12-29   4274   0

IT屌丝如何成为数据科学家? 资讯

Wabbit 和 OpenNLP 等库也为大多数常见算法提供了经过验证的实现方法。如果你还不太熟悉 Hadoop,学习 map-reduce、 Pig 、 Hive 和 Mahout 将很有帮助。 Python

jopen 2013-09-26   22708   0

QCon专访彭渊:Fourinone是俄罗斯套娃中最小的一个 资讯

淘宝Fourinone是一个自主研发的分布式并行计算框架,它集成了Hadoop、ZooKeeper、MQ、分布式缓存四大主要的分布式计算功能,Fourinone的功能强大用途广泛,它实现了ZooKee

fourinone 2012-10-21   15218   0
P31

  HiveQL 应用培训 文档

HUE应用 6. SQL GUI客户端修改Hive连接库设置 7. SQL GUI客户端2 8. Hadoop 家族成员HadoopHDFSMapReduceHiveHBaseZooKeeper分布式文件

sulinixl 2012-08-02   4762   0

登月1号:支付宝演绎空中升级绝技 经验

出于业务稳定发展的需要,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及ODPS为底层的云梯2。而阿里内部对于二者的技术争论由来已久。

jopen 2014-10-30   22579   0

分布式架构 MapR 经验

Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。

openkk 2012-06-09   15928   0

Katta分布式Lucene 开源项目

,执行分布式检索。 它能很好的运行在由许多廉价服务器组成的大型集群之上,跟Hadoop MapReduce, Hadoop DFS, HBase, Bigtable or Hypertable类似。

码头工人 2019-01-17   875   0
P158

  apache-spark源码走读 文档

Spark源码走读之6 -- 存储子系统分析 欢迎转载,转载请注明出处,徽沪一郎。 楔子 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系

bxingqing 2017-06-12   1332   0

Mahout快速入门教程 经验

,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就 是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

lidki 2015-03-22   18001   0
P16

  MapReduce 的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

hhy5277 2013-01-18   884   0
P16

  MapReduce 的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

kanmars 2012-11-05   3974   0

Facebook崛起背后的数据天才 资讯

Facebook 迅速发展的脚步。 哈梅巴赫还推荐 Facebook 使用开源软件平台 Hadoop——Hadoop 可以将数据分散到商用服务器的海洋,这些机器将协同处理数据,让它们变成真正有意义的信息

jopen 2013-02-05   22043   0
P16

  MapReduce的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

banny 2014-04-09   285   0

开源大数据处理工具汇总(上) 经验

某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL, 其主要优点包括: ❶让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能,支持WHERE查询,让Hive的样式系统更符合SQL模型。

jopen 2016-01-05   78569   0

Apache Pig 开源项目

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复

码头工人 2019-01-17   1160   0

MapReduce单元测试框架 MRUnit 0.8.1-incubating 发布 资讯

MRUnit是由Couldera公司开发的专门针对 Hadoop中编写MapReduce单元测试的框架,基本原理是JUnit4和 EasyMock。MR就是Map和Reduce的缩写。MRUnit框架

jopen 2012-03-11   7933   0

使用canopy生成和k-means聚类对新闻进行聚类 经验

apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;

htae2565 2016-02-28   15972   0
算法  
1 2 3 4 5 6 7 8 9 10