P18

  MapReduce 源码分析完整版 文档

unt是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。假设有如下的两个文本文件来运行WorkCount程序: Hello World Bye World Hello Hadoop GoodBye

wanghaoms 2013-03-05   3360   0

Google Dremel 原理 - 如何能3秒分析1PB 经验

oogle在处理大数据方面,果真有得天独厚的优势。下面的内容,很大部分来自这篇论文。 随着Hadoop的流行,大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据“玩转”的交互式系统。如

jopen 2012-10-24   66522   0

mapreduce源码分析总结 经验

Reduce : > -> 下面通过一个的例子来详细说明这个过程。 WordCount是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。假设有如下的两个文本文件来运行WorkCount程序:

jopen 2013-10-10   26724   0
P8

  Google Dremel 原理-如何能3秒分析1PB 文档

,Google在处理大数据方面,果真有得天独厚的优势。下面的内容,很大部分来自这篇论文。 随着Hadoop的流行,大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据“玩转”的交互式系统。如

beijixing022 2013-12-12   363   0
Go  

不当IT民工 让你拿高薪的10个技能 资讯

专家不容易。 No 7 :Hadoop (分布式计算, 大数据处理) 年薪 10.3 万美元起 Hadoop 是当下十分热门的“大数据”科技。Hadoop 是一个开源软件用来收集和存储大量

openkk 2012-08-13   14616   1

常见计算框架算子层对比 经验

meetup上我做的 Spark SQL分享 slides 。 Pig-latin Hadoop MR上的DSL,面向过程,适用于large-scale的数据分析。 语法很美,可惜只适合CLI

jopen 2015-01-16   23507   0

2014年值得关注的9项技术 资讯

为自从他出生以来,我们就一直在使用着笔记本(不过他看到过一台 1U 服务器,因为我们用它做过 Hadoop 的测试)。我觉得云 IDE 可以做到一点,那就是让下一代不知道笔记本到底是什么。为何要在硬盘上安装

jopen 2014-01-14   7699   0
技术  
P19

  (1)Spark简介 文档

大数据学习网介绍我们的网址是:bigdatastudy.cn 我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 3

ngn6 2015-08-12   775   0
P18

  (2)Spark 基础知识 文档

大数据学习网介绍我们的网址是:bigdatastudy.cn 我们提供专业的大数据学习视频,包括Hadoop,Spark,Storm,Mahout,机器学习等。 我们定价合理,让每个人都学得起大数据。 3

ngn6 2015-08-12   631   0

Docker周报第31期 资讯

基于Docker快速搭建多节点Hadoop集群 Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点Hadoop集群的详细步骤。作者在发现目前的Hadoop

码头工人 2015-05-31   14444   0
Docker  

HBase入门 经验

HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构

jopen 2012-09-20   35064   0

李元佳:漫谈 Greenplum 开源背后的动机 资讯

上面提到,除了云以外,Pivotal的战略重心是大数据,Pivotal除了有自己的hadoop发行版以外还有greenplum作为大数据最重要的资产。但是大数据整个市场都不是太理想,Hadoop发行版除了有Cloudera,Hortonw

jopen 2015-10-29   8779   0

连线:微软支持开源运动的幕后故事 资讯

云计算系统中加入了两款开源平台,并向 3 个开源项目贡献代码。这是一些知名的大项目,包括 Node.js 和 Hadoop。这种情况在以往不可能发生。 幕后人物 比尔·希尔夫 微软的改变是由于一些人,

fmms 2012-01-31   13403   0
微软  

Google集群资源管理系统:Omega 经验

构,分别是中央式调度器架构(类似于Hadoop JobTracker,但是支持多种类型作业调度)、双层调度器架构(类似于 Apache Mesos 和 Hadoop YARN ) 和共享状态架构(就是

jopen 2014-03-27   45205   0

Linux useradd 命令实现系统用户及用户组的管理 经验

passwd -l sam 新建用户异常: useradd -d /usr/hadoop -u 586 -m hadoop -g hadoop 1 Creating mailbox file: 文件已存在

mxf8 2015-03-16   21067   0
Linux  

大数据平台CDH集群离线搭建 经验

标签: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是简要对比了当前的类似工具,而

jopen 2016-01-19   25575   0

0x0F 大数据职位,数据场技能(下) 经验

摘要:成为数据极客,建立自己的数据场需要哪些技能呢?遇到普通的数据,通过SQL做分析。如果数据量比较大,可以使用Hadoop等大数据框架处理。在深入挖掘上,可用Python或者R语言进行编程。 0x0F.jpg 01

ersm3365 2016-01-29   41293   0

TaskTracker端启动Task流程分析 经验

我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。 TaskTracker周期性地向JobTracker发送心跳报告,在RPC调用返回结果后,解析结果得到JobTrack

CarSpillman 2016-07-21   8725   0
技术  

从LinkedIn的数据处理机制学习数据架构 资讯

数据存储系统) Voldemart (分布式 Key-value 存储系统) HDFS (存放 Hadoop map-reduce 任务的数据) Caching Memcached 基于 Lucene 的索引

jopen 2014-06-05   9673   0
P9

  Namenode 启动过程分析 文档

Namenode启动过程分析 我这里所讲的是hadoop-0.20.2-cdh3u1版本已regular方式启动时的代码流程分析。 在namenode启动时会首先去构造Configuration对象

光荣复兴 2014-03-30   2154   0
1 2 3 4 5 6 7 8 9 10