开源项目,开源代码,开源文档,开源新闻,开源社区

Apache Hadoop于2005年推出，提供了核心的MapReduce处理引擎来支持大规模数据工作负载的分布式处理。7年后的今天，Hadoop正在经历着一次彻底检查，不仅支持MapReduce，还支持其他分布式处理模型。

jopen 2014-10-09 24967 0

分布式/云计算/大数据 Hadoop YARN

Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark Streaming可以创建数据管道来用批量加载数据一样的

jopen 2015-06-22 21976 0

Spark Hadoop 分布式/云计算/大数据

产业变化产生了大量的数据，远远超出了单台机器能够处理的范围，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的

jopen 2015-09-26 32975 0

Hadoop 分布式/云计算/大数据

P39

1 引言 1.1 致谢作者是在读了“觉先”的博客《Hadoop学习总结之四：Map-Reduce的过程解析》之后才从宏观上了解Hadoop MapReduce模块的工作原理，并且以此为蓝本，写出

songyl525 2013-12-11 465 0

Hadoop 分布式/云计算/大数据

作者 Scott Delap 译者 Terry Hadoop 是一个开源的分布式计算平台，它主要由MapReduce的算法执行和一个分布式 的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy

Hadoopp 2012-09-28 840 0

Google I/O Nexus 6 Window 10

P30

1Apache Tez : Next Generation Execution Engine upon Hadoop Jeff Zhang 2. OutlineTez Introduction Tez API Tez

dfwm 2014-10-19 763 0

分布式/云计算/大数据 Apache Java Scala Go

P13

Manager （简称CM）用于管理CDH4集群，可进行节点安装、配置、服务配置等，提供Web窗口界面提高了Hadoop配置可见度，而且降低了集群参数设置的复杂度。 https://ccp.cloudera.com

玫瑰情书 2014-06-18 693 0

Hadoop 分布式/云计算/大数据 x86 SQL

chinacloud.cn/show.aspx?id=19488&cid=12 Hadoop并不完全代表云计算，所以，要用Hadoop搭建完整的云计算平台，答案是不够。我们常说云计算，实际上还是通过计算机的大规模或者

jopen 2015-03-18 14267 1

Hadoop ci 云计算 C/C++ SQL

Internet-Level Knowledge)，支持有效的收集、存储和分析网络流数据，SILK可以高效地查询历史大流量数据集，能用于分析大的企业或者中型ISP的骨干或边界网络流量。然而，随着互联网带宽的日益增

jopen 2015-07-30 14958 0

Hadoop 分布式/云计算/大数据

现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS)，但Hadoop下的Common、Avro、Chukwa、Hive、HBas

jopen 2016-01-18 18790 0

分布式/云计算/大数据

索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计中提及的一个重要概念“shard

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云计算/大数据 ElasticSearch

开源的新型列式存储系统，是 Apache Hadoop 生态圈的新成员之一（ incubating ），专门为了对快速变化的数据进行快速的分析，填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景，以及架构进行简单介绍。

MadFlemming 2016-08-11 65206 0

HBase Hadoop 数据存储存储系统分布式/云计算/大数据

Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.

jopen 2012-02-04 249329 0

Hadoop 工作流引擎

hadoop2.2.0集群搭建 PS：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装 hadoop-2

jopen 2014-04-01 16479 0

分布式/云计算/大数据 Hadoop2

Bigtop 是一个工程的系统开发包，对Apache Hadoop生态系统的测试。 Bigtop的主要目标就是构建一个Apache Hadoop生态系统的包和交互式测试的社区。这个包括对各类不同级别工程进行

jopen 2014-05-13 35312 0

分布式/云计算/大数据 Apache Bigtop

前言 Hadoop2.0介绍 Hadoop 是 apache 的开源项目，开发的主要目的是为了构建可靠，可拓展 scalable ，分布式的系统， hadoop 是一系列的子工程的总和，其中包含

jopen 2014-03-26 36055 0

Hadoop 分布式/云计算/大数据

org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce

jopen 2013-07-11 38600 0

Hadoop 分布式/云计算/大数据

64-bit only ）辅助工具： WinSCP + Putty Hadoop 版本： 2.5.0 Hadoop 的 Eclipse 开发插件（ 2.x 版本适用）： http://pan

jopen 2014-09-02 31951 0

Hadoop 分布式/云计算/大数据

side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的

jopen 2014-08-27 12298 0

分布式/云计算/大数据 Hadoop

快速开发，快速运行，基于Go工具包。实现基于 Hadoop 的 ETL 和特性抽取工具。快速入门 Crunch is optimized to be a big-bang-for-the-buck

jopen 2014-11-20 35244 0

Crunch 数据挖掘

Hadoop的分布式文件系统HDFS属于大数据的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

云计算 Java SQL 工作流引擎 Apache Scala Hadoop HBase C/C++ 数据挖掘数据存储 Spark ElasticSearch Google I/O Nexus 6 Window 10 x86 存储系统分布式/云计算/大数据 Hadoop2 Crunch Apache Bigtop Hadoop YARN

Hadoop YARN的发展史与详细解析经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

脱离JVM？Hadoop生态圈的挣扎与演化经验

Hadoop MapReduce 模块源代码详细解析文档

雅虎架构师谈MapReduce和Hadoop的未来博客

Tez - 下一代Hadoop上的执行引擎文档

hadoop开发案例之Cloudera Manager详解文档

能否利用Hadoop搭建完整的云计算平台？问答

基于Hadoop的大规模网络流量分析经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ）经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

工作流引擎服务器 Hadoop Oozie 介绍经验

hadoop2.0集群搭建详解经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍经验

Hadoop 2.0集群配置详细教程经验

Hadoop 统计文件中某个单词出现的次数经验

Hadoop伪分布配置与基于Eclipse开发环境搭建经验

hadoop作业调优参数整理及原理（主要为shuffle过程）经验

Go开发的基于Hadoop的ETL抽取工具：Crunch 经验

Hadoop的分布式文件系统HDFS属于大数据的相关搜索

关键词

Hadoop YARN的发展史与详细解析 经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

脱离JVM？Hadoop生态圈的挣扎与演化 经验

Hadoop MapReduce 模块源代码详细解析 文档

雅虎架构师谈MapReduce和Hadoop的未来 博客

Tez - 下一代Hadoop上的执行引擎 文档

hadoop开发案例 之Cloudera Manager详解 文档

能否利用Hadoop搭建完整的云计算平台？ 问答

基于Hadoop的大规模网络流量分析 经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ） 经验

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

Kudu:支持快速分析的新型Hadoop存储系统 经验

工作流引擎服务器 Hadoop Oozie 介绍 经验

hadoop2.0集群搭建详解 经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍 经验

Hadoop 2.0集群配置详细教程 经验

Hadoop 统计文件中某个单词出现的次数 经验

Hadoop伪分布配置与基于Eclipse开发环境搭建 经验

hadoop作业调优参数整理及原理（主要为shuffle过程） 经验

Go开发的基于Hadoop的ETL抽取工具：Crunch 经验

Hadoop的分布式文件系统HDFS属于大数据 的相关搜索

关键词

Hadoop YARN的发展史与详细解析经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

脱离JVM？Hadoop生态圈的挣扎与演化经验

Hadoop MapReduce 模块源代码详细解析文档

雅虎架构师谈MapReduce和Hadoop的未来博客

Tez - 下一代Hadoop上的执行引擎文档

hadoop开发案例之Cloudera Manager详解文档

能否利用Hadoop搭建完整的云计算平台？问答

基于Hadoop的大规模网络流量分析经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ）经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

工作流引擎服务器 Hadoop Oozie 介绍经验

hadoop2.0集群搭建详解经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍经验

Hadoop 2.0集群配置详细教程经验

Hadoop 统计文件中某个单词出现的次数经验

Hadoop伪分布配置与基于Eclipse开发环境搭建经验

hadoop作业调优参数整理及原理（主要为shuffle过程）经验

Hadoop的分布式文件系统HDFS属于大数据的相关搜索