P4

  MapReduce 程序编程框架 文档

numPartitions); 函数返回 对于的reduce task ID 用户也可以不提供Partitioner,这是Hadoop会使用默认的。 2.4 Combiner Combiner使得map task与reduce

gaofei8704 2013-06-19   624   0

Apache Pig的前世今生 经验

最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache 来负责维护,Pig是一个基于 Hadoop的大规模数据分析平

jopen 2015-01-10   18860   0

Pig + Ansj 统计中文文本词频 经验

org.apache.hadoop hadoop-common ${hadoop.version}

jopen 2016-01-12   10801   0

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统 资讯

得知,Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Sp

dy223 2015-03-26   11635   0
Tachyon  

用一个城市的形象来比喻描述大数据的技术生态 资讯

服务器,数据库,C++,java等基础语言是个什么东西的时候,大数据时代来了,科技蜀黍又玩起 Hadoop,HDFS,MapReduce,Common,Spark,Mahout,HBase,NoSQL,Cassandra,GFS

jopen 2015-02-04   9124   0

IBM携手Spark,拥抱机器学习的下一个世代 资讯

Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写复杂的平行运算程序,让

jopen 2015-09-15   6373   0
Spark  
P4

  MapReduce 实例 文档

(Java私塾)MapReduce实例 第一部分: 什么是 MapReduce               Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机

singing 2014-01-09   2559   0

英特尔推出用于Apache Spark的深度学习库 经验

以及机器和深度学习工作量等的统一数据分析平台(Hadoop / Spark)。它允许开发人员将深度学习应用程序编写为在现有 Spark 或 Hadoop 集群之上运行的标准 Spark 程序,以使深度

Pho81C 2017-02-12   11956   0

10个所需的IT技能,助你职场成功 资讯

最新稳定发行版: 3.7.3 6. Hadoop Hadoop是用Java编写的一款开源软件框架,用于处理大数据。列表中Hadoop位列第六。对Hadoop的招聘需求在上个季度已经下降了0.2个百分点。

fdwm 2015-04-19   8401   0
IT  
P4

  MapReduce 程序编程框架 文档

numPartitions); 函数返回 对于的reduce task ID 用户也可以不提供Partitioner,这是Hadoop会使用默认的。 2.4 Combiner Combiner使得map task与reduce

gaofei8704 2013-06-25   290   0

关于Spark的基本概念和特性简介 经验

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单介绍了

jopen 2015-06-25   53456   0

Azkaban:来自Linkedin的批量工作流任务调度器 经验

Azkaban是由Linkedin开源的一个批量工作流任务调度器。Azkaban来自LinkedIn公司,用于管理他们的Hadoop批处理 工作流。日常生产环境中,为了得到想要的数据,通常需要执行很多作业,一批作业执行完毕,再

jopen 2014-12-03   24977   0
Azkaban  

Hypertable应用实践:比肩HBase 经验

Hypertable原有架构示意图 业务应用 Facebook 在 SIGMOD 2011 会议上介绍了基于 Hadoop/HBase 的三种应用系统: Titan ( Facebook Messages )、 Puma

jopen 2012-09-20   43535   0

Apache kafka 工作原理介绍 经验

为了让开发组的数据工程 师能够测试新的算法,我们要允许这些玩家数据进入到 Hadoop 集群,即加载这些数据到 Hadoop 集群里面。 对于一个实时游戏,我们必须要做到对存储在服务器内存中的数据

jopen 2015-08-11   22359   0

Spark编程指南 经验

是一个元素集合,划分到集群的不同节点上,可以被并行操作。RDDs的创建可以从Hadoop文件系统(或者任何支持Hadoop的文件系统)上的一个文件开始,或者通过转换这个驱动程序中已存在的Scala集合而来。用户也可以使Spark持久化一个

jopen 2014-08-24   162840   0

淘宝云梯的多NameNode和跨机房之路 经验

的增长趋势,在可以预见的很短时间内, 集群规模将因为机房机位不足而无法继续扩充。由于当时云梯的Hadoop版本还不支持单集群跨机房分布的功能,所以阿里集团的大数据业务 将因为集群规模的限制而停止发展。

jopen 2014-10-29   12874   0

资源管理框架(mesos/YARN/coraca/Torca/Omega)分析 经验

sos slave主要功能是汇报任务的状态和启动各个framework的executor(比如Hadoop的excutor就是TaskTracker)。 整个mesos系统采用了双层调度框架:第一

jopen 2015-03-13   23243   0
P35

  pivotal-bigdata-suite-overview 文档

管理不同类型企业数据资源的典型技术半/非结构化数据以批量结构化处理为主 主要用于与结构化数据整合的大数据分析场景 Hadoop的分布式计算架构非常适合处理社交媒体、移动互联等典型的半/非结构化数据,被广泛应用于大数据领域

gavin_xzw 2017-04-09   10339   0
方案   报告   Apache   Intel   Go  
P11

  hbase 数据表介绍 文档

操作工具类代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HColumnDescriptor;

beauty2003 2016-05-10   2073   0
P76

  淘宝数据开发平台介绍 文档

审计系统自动化运维系统Hive运行时 监控 系统 实时分析系统可视化引擎数据 监控 和 管理 系统Hadoop Map ReduceHadoop HDFSDatax报表需求(淘数据)数据开发界面Hbase元数据中心

hans511002 2012-06-24   4302   0
1 2 3 4 5 6 7 8 9 10