开源项目,开源代码,开源文档,开源新闻,开源社区

P30

1. 1Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：2010-05-26 2. OutlineHadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析

lxz 2014-01-03 3863 0

Hadoop 分布式/云计算/大数据方案 SQL Go

P30

1. 基于Hadoop/HBase的一淘搜索离线系统莫问 2. 个人简介花名：莫问真名：王峰 2006年硕士毕业于北航计算机系毕业后加入阿里巴巴集团雅虎中国 - 垂直搜索团队阿里云 - 计算服务团队

moshco 2017-02-06 642 0

分布式/云计算/大数据方案 SQL XML

P36

1. 以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据http://www.xfyun.cn/ 2. 大数据技术发展Native lib Checksum 机制 ShortCircuit Read一头奔跑的大象，不断进化YARN

ee37 2015-07-05 501 0

Hadoop 分布式/云计算/大数据

P12

1. 淘宝Hadoop数据分析实践淘宝数据平台与产品部周敏（周忱） 2. 数据分析选型历程 Hadoop简介系统架构集群介绍近期对Hadoop的改造实践主要内容 3. webalizer awstat 般若

wsldg 2012-02-28 678 0

Hadoop 分布式/云计算/大数据 Java SQL

目标配置一个分布式计算集群，让hadoop 框架能够正常的运行起来，主要有master 的namenode,jobtracker 和slave 的datanode,tasktracker. 便于之

openkk 2011-01-03 2897 0

并发

我现在集群中有9个slave，我需要配置成map节点5个，reduce节点3个，那么我在master节点的mapred-site.xml中设置之后，是否需要将这个配置文件拷贝到slave节点上去覆盖原先的那个配置文件？

Numen_fan 2017-04-17 1250 0

C/C++ Hadoop XML

经验。本文则主要介绍TalkingData在大数据平台建设过程中，逐渐引入Spark，并且以 Hadoop YARN和Spark为基础来构建移动大数据平台的过程。初识Spark 作为一家在移动互

jopen 2015-06-08 49372 0

Hadoop 分布式/云计算/大数据

早期的一篇文章，针对Hadoop 2.6.0.这里发一下. 一、Listener Listener线程，当Server处于运行状态时，其负责监听来自客户端的连接，并使用Select模式处理Accept事件。

er74 2015-07-26 15301 0

Hadoop 分布式/云计算/大数据

Gobblin 是 Hadoop 通用数据摄取框架，可以从各种数据源中提取，转换和加载海量数据。比如：数据库，rest APIs，filers，等等。Gobblin 处理日常规划任务需要所有数据摄取

jopen 2015-09-15 31462 0

Gobblin 分布式/云计算/大数据

发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache

jopen 2016-01-08 10239 0

Spark Hadoop 分布式/云计算/大数据

Cloudera Manager 进行安装，阅读官方文档，掌握大概脉络。 Cloudera Manager在集群已经实现ssh免秘钥登录，能够访问网络资源和本地资源的情况下，可以自动安装和配置CDH(Cloudera

jopen 2016-01-18 13599 0

分布式/云计算/大数据

数据仓库时还是很有价值的。目前来说只有impala比较成熟（人家标称要使用CDH版本hadoop，如果要使用apache的，要做好测试的心里准备）。其它两个系统还都处理孵化状态，但是前景非常不错。

jopen 2013-11-30 29365 0

Hadoop 分布式/云计算/大数据

10分钟搭建Hadoop集群 1. 准备 3台Linux机器或虚拟机，安装了CentOS6/Redhat6/Ubuntu; 在所有机器上都安装了ssh和rsync，ubuntu安装例子： $ sudo

jopen 2013-04-23 16349 0

Hadoop 分布式/云计算/大数据

Cascalog 是 Hadoop 上的数据处理解决方案，无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理 Hadoop

jopen 2014-10-29 14108 0

Cascalog Hadoop

一、规划 1. 准备安装包 JDK: http://download.oracle.com/otn-pub/java/jdk/7u67-b01/jdk-7u67-linux-x64.tar.gz

jopen 2014-10-09 59369 0

Hadoop2 分布式/云计算/大数据

Hadoop技术已经无处不在。不管是好是坏，Hadoop已经成为大数据的代名词。短短几年间，Hadoop从一种边缘技术成为事实上的标准。看来，不仅现在Hadoop是企业大数据的标准，而且在未来，它的地位似乎一时难以动摇。

jopen 2014-08-05 27938 0

Hadoop 分布式/云计算/大数据

主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN

jopen 2014-10-29 43441 0

Hadoop 分布式/云计算/大数据

做项目的时候遇到一个问题，在Mapper和Reducer方法中处理目标数据时，先要去检索和匹配一个已存在的标签库，再对所处理的字段打标签。因为标签库不是很大，没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件，用分布式缓存存储，这样让每个slave都能读取到这个文件。

jopen 2014-11-15 50169 0

缓存分布式/云计算/大数据

P6

在eclipse中阅读源码非常方便，利于我们平时的学习，下面讲述如何把hadoop源码导入到eclpse的java工程中。解压源码首先，我们在windows下使用winrar把hadoop-1.1.2.tar.gz解压，如图1所示

ainubis 2014-06-27 266 0

Hadoop 分布式/云计算/大数据

P17

第三章 windows上Hadoop的伪分布式配置 3.1 安装前的准备在windows上配置Hadoop需要做一些准备，包括软件的下载，了解Hadoop运行的条件，了解Hadoop在Linux与windows平台上的不同。

louiscool 2012-04-25 614 0

Hadoop 分布式/云计算/大数据

淘宝Hadoop与数据分析文档

基于hadoop-hbase的一淘搜索离线系统文档

以Hadoop为核心的大数据开放平台建设文档

淘宝 Hadoop 数据分析实践文档

实现Hadoop分布式环境部署博客

hadoop集群中配置map／reduce节点数问题问答

从Hadoop到Spark的架构实践经验

Hadoop的Server及其线程模型分析经验

Hadoop 通用数据摄取框架：Gobblin 经验

Hadoop和Spark的处理模型比较经验

hadoop再次集群搭建（4）-Cloudera Manager Installation 经验

Hadoop上时实类SQL查询系统对比经验

10分钟搭建Hadoop集群经验

Hadoop 的数据处理解决方案：Cascalog 经验

基于Hadoop2.5.0的集群搭建经验

Hadoop的辉煌还能延续多久？经验

Hadoop生态系统学习路线经验

Hadoop DistributedCache分布式缓存的使用经验

如何把hadoop源码关联到eclipse工程中文档

windows上Hadoop的伪分布式配置文档

Ubuntu 安装hadoop 的相关搜索

关键词

淘宝Hadoop与数据分析 文档

基于hadoop-hbase的一淘搜索离线系统 文档

以Hadoop为核心的大数据开放平台建设 文档

淘宝 Hadoop 数据分析实践 文档

实现Hadoop分布式环境部署 博客

hadoop集群中配置map／reduce节点数问题 问答

从Hadoop到Spark的架构实践 经验

Hadoop的Server及其线程模型分析 经验

Hadoop 通用数据摄取框架：Gobblin 经验

Hadoop和Spark的处理模型比较 经验

hadoop再次集群搭建（4）-Cloudera Manager Installation 经验

Hadoop上时实类SQL查询系统对比 经验

10分钟搭建Hadoop集群 经验

Hadoop 的数据处理解决方案：Cascalog 经验

基于Hadoop2.5.0的集群搭建 经验

Hadoop的辉煌还能延续多久？ 经验

Hadoop生态系统学习路线 经验

Hadoop DistributedCache分布式缓存的使用 经验

如何把hadoop源码关联到eclipse工程中 文档

windows上Hadoop的伪分布式配置 文档

Ubuntu 安装hadoop 的相关搜索

关键词

淘宝Hadoop与数据分析文档

基于hadoop-hbase的一淘搜索离线系统文档

以Hadoop为核心的大数据开放平台建设文档

淘宝 Hadoop 数据分析实践文档

实现Hadoop分布式环境部署博客

hadoop集群中配置map／reduce节点数问题问答

从Hadoop到Spark的架构实践经验

Hadoop的Server及其线程模型分析经验

Hadoop和Spark的处理模型比较经验

Hadoop上时实类SQL查询系统对比经验

10分钟搭建Hadoop集群经验

基于Hadoop2.5.0的集群搭建经验

Hadoop的辉煌还能延续多久？经验

Hadoop生态系统学习路线经验

Hadoop DistributedCache分布式缓存的使用经验

如何把hadoop源码关联到eclipse工程中文档

windows上Hadoop的伪分布式配置文档