登月1号:支付宝演绎空中升级绝技 经验

出于业务稳定发展的需要,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及ODPS为底层的云梯2。而阿里内部对于二者的技术争论由来已久。

jopen 2014-10-30   22579   0

分布式架构 MapR 经验

Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。

openkk 2012-06-09   15928   0

Katta分布式Lucene 开源项目

,执行分布式检索。 它能很好的运行在由许多廉价服务器组成的大型集群之上,跟Hadoop MapReduce, Hadoop DFS, HBase, Bigtable or Hypertable类似。

码头工人 2019-01-17   875   0
P158

  apache-spark源码走读 文档

Spark源码走读之6 -- 存储子系统分析 欢迎转载,转载请注明出处,徽沪一郎。 楔子 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系

bxingqing 2017-06-12   1332   0
P16

  MapReduce 的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

hhy5277 2013-01-18   884   0
P16

  MapReduce 的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

kanmars 2012-11-05   3974   0

Facebook崛起背后的数据天才 资讯

Facebook 迅速发展的脚步。 哈梅巴赫还推荐 Facebook 使用开源软件平台 Hadoop——Hadoop 可以将数据分散到商用服务器的海洋,这些机器将协同处理数据,让它们变成真正有意义的信息

jopen 2013-02-05   22043   0
P16

  MapReduce的原理 文档

MapReduce的原理 Hadoop中的MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并 行处理上T级别的数据集。

banny 2014-04-09   285   0

开源大数据处理工具汇总(上) 经验

某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL, 其主要优点包括: ❶让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能,支持WHERE查询,让Hive的样式系统更符合SQL模型。

jopen 2016-01-05   78569   0

Apache Pig 开源项目

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复

码头工人 2019-01-17   1160   0

MapReduce单元测试框架 MRUnit 0.8.1-incubating 发布 资讯

MRUnit是由Couldera公司开发的专门针对 Hadoop中编写MapReduce单元测试的框架,基本原理是JUnit4和 EasyMock。MR就是Map和Reduce的缩写。MRUnit框架

jopen 2012-03-11   7933   0
P9

  HBase 技术介绍 文档

HBase技术介绍 博客分类: · Hadoop HBaseHadoopMapreduce数据结构Google From:http://www.searchtb.com/2011/01/understanding-hbase

hypermusic 2013-05-30   3005   0

值得尝试的10款出色NoSQL数据库 资讯

Appliance的其中一个组件,Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 7. MongoDB

jopen 2012-10-18   37422   0
NOSQL  

分布式数据库,HBase 0.92 发布 资讯

值得关注的有: Jira entry HBASE-200 coprocessors Support for Hadoop 0.20, 0.21, and 0.22 Support for Java Serialization

fmms 2012-01-25   30923   0
HBase  

Spark运行环境的安装 经验

export SPARK_WORKER_MEMORY=200m #指定hadoop的配置文件目录 export HADOOP_CONF_DIR=/root/app/hadoop/etc/hadoop #指定worker工作时分配cpu数量

jopen 2015-06-25   207580   0

Kylin 大数据时代的OLAP利器 资讯

性跨上了一个新台阶,这些技术进步共同作用的结果是类似的技术基本覆盖了TB级别的数据分析需求。 Hadoop以及相关大数据技术的出现提供了一个几近无限扩展的数据平台,在相关技术的支持下,各个应用的数据已

jopen 2016-01-04   124168   0
OLAP   大数据  

新一代大数据处理引擎 Apache Flink 经验

大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先

jopen 2015-12-28   33401   0

Apache pig 学习 经验

org/dist/pig/pig-0.11.0/pig-0.11.0.tar.gz (注:此版本适用于Hadoop的0.20.X,1.x中,0.23.X和2.X) SVN 下载地址: http://svn

jopen 2015-11-07   27266   0
P12

  1、Cloudera Manager 介绍与安装 文档

Manager (简称CM)用于管理CDH4集群,可进行节点安装、配置、服务配置等,提供Web窗口界面提高了Hadoop配置可见度,而且降低了集群参数设置的复杂度。 https://ccp.cloudera.com

lxj2008 2014-01-17   34763   0

分布式分析引擎 Apache Kylin v1.5.3 正式发布 资讯

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

jopen 2016-07-29   12355   0
1 2 3 4 5 6 7 8 9 10