开源项目,开源代码,开源文档,开源新闻,开源社区

Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如雨后春笋般围绕它建

jopen 2015-03-19 29675 0

Hadoop 分布式/云计算/大数据

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark St

jopen 2015-06-22 21976 0

Spark Hadoop 分布式/云计算/大数据

原文 http://www.thebigdata.cn/Hadoop/13701.html 继云计算之后，大数据(Big Data)接棒成为最热门的科技潮字，和大数据有关的技术和科技接二连三成

jopen 2015-03-13 25945 0

Hadoop 分布式/云计算/大数据

版本及配置简洁 Java: JDK1.7.0_71 Hadoop: hadoop-2.5.2 Linux: centos6.4 64bit 暂且配置3台机器，假设三台机器IP如下：

jopen 2015-05-27 19313 0

Hadoop 分布式/云计算/大数据

概念 HDFS是Hadoop Distribute File System 的简称，也就是Hadoop分布式文件系统。设计理念 1、硬件错误是常态错误检测并快速自动恢复是HDFS的最核心设计目标

fdwm 2015-04-19 17745 0

HDFS 分布式/云计算/大数据

，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，分析，展示，安全等各个方面，构建了一个完

jopen 2015-09-26 32975 0

Hadoop 分布式/云计算/大数据

P39

1 引言 1.1 致谢作者是在读了“觉先”的博客《Hadoop学习总结之四：Map-Reduce的过程解析》之后才从宏观上了解Hadoop MapReduce模块的工作原理，并且以此为蓝本，写出

songyl525 2013-12-11 465 0

Hadoop 分布式/云计算/大数据

环境配置：Ubuntu11.10，Hadoop1.0.0 安装ssh apt-get install ssh 安装rsync apt-get install rsync 配置ssh免密码登录

fmms 2012-01-09 30023 0

Hadoop 分布式/云计算/大数据

HBase是 Hadoop中的一个简单数据库。它与Google的Bigtable特别相似，但也存在许多的不同之处。数据模型 HBase数据库使用了和 Bigtable非常相似的数据模型。用户在表

Hadoopp 2012-09-28 1184 0

CCleaner IcAROS Desktop

作者 Scott Delap 译者 Terry Hadoop 是一个开源的分布式计算平台，它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy

Hadoopp 2012-09-28 840 0

Google I/O Nexus 6 Window 10

P30

1Apache Tez : Next Generation Execution Engine upon Hadoop Jeff Zhang 2. OutlineTez Introduction Tez API Tez

dfwm 2014-10-19 763 0

分布式/云计算/大数据 Apache Java Scala Go

Sqoop是一个用于将Hadoop与关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

码头工人 2019-01-17 737 0

其它开源项目

P13

Manager介绍和安装Cloudera Manager （简称CM）用于管理CDH4集群，可进行节点安装、配置、服务配置等，提供Web窗口界面提高了Hadoop配置可见度，而且降低了集群参数设置的复杂度。 https://ccp.cloudera

玫瑰情书 2014-06-18 693 0

Hadoop 分布式/云计算/大数据 x86 SQL

，需要考虑使用分布式的方法。而分布式计算平台Hadoop以及依托在Hadoop平台下的MapReduce框架为解决这类问题提供了良好的支撑。Hadoop 是Apache的一个子项目主要由分布式文件系

jopen 2015-07-30 14958 0

Hadoop 分布式/云计算/大数据

以实现智能实时地保护Hadoop生态系统中大数据的安全。 Eagle在eBay的使用场景目前，Eagle的数据行为监控系统已经部署到一个拥有2500多个节点的Hadoop集群之上，用以保护数百P

jopen 2016-01-06 30988 0

Hadoop 开源分布式/云计算/大数据

partition to shard ” 的实现。不过目前只涉及到构建索引那块。问题描述当你bulk数据到集群，按照 ElasticSearch Bulk 源码解析所描述的: 接着通过executeBu

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云计算/大数据 ElasticSearch

开源的新型列式存储系统，是 Apache Hadoop 生态圈的新成员之一（ incubating ），专门为了对快速变化的数据进行快速的分析，填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景，以及架构进行简单介绍。

MadFlemming 2016-08-11 65206 0

HBase Hadoop 数据存储存储系统分布式/云计算/大数据

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看

flylong 2016-09-01 15746 0

Hadoop HBase 分布式系统分布式/云计算/大数据

Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.

jopen 2012-02-04 249329 0

Hadoop 工作流引擎

计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架，能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

fmms 2012-01-01 43838 0

搜索引擎 Hadoop Lucene

Hadoop2_5_2 HA高可靠性集群搭建(Hadoop Zookeeper) 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Java SQL 工作流引擎 Apache Scala 搜索引擎 Hadoop Lucene HBase 数据存储 Spark ElasticSearch Google I/O CCleaner Nexus 6 Window 10 IcAROS Desktop HDFS 分布式系统 x86 存储系统分布式/云计算/大数据其它开源项目

十八款Hadoop工具帮你驯服大数据经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

一篇文章读懂大数据的黄色小象帮手––Hadoop 经验

Hadoop yarn完全分布式安装笔记经验

Hadoop分布式文件系统HDFS介绍经验

脱离JVM？Hadoop生态圈的挣扎与演化经验

Hadoop MapReduce 模块源代码详细解析文档

Ubuntu11.10下安装Hadoop1.0.0（单机伪分布式）经验

详细讲解Hadoop中的一个简单数据库HBase 博客

雅虎架构师谈MapReduce和Hadoop的未来博客

Tez - 下一代Hadoop上的执行引擎文档

关系数据库与Hadoop数据迁移工具 Sqoop 开源项目

hadoop开发案例之Cloudera Manager详解文档

基于Hadoop的大规模网络流量分析经验

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

工作流引擎服务器 Hadoop Oozie 介绍经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍经验

Hadoop2_5_2 HA高可靠性集群搭建(Hadoop Zookeeper) 的相关搜索

关键词

十八款Hadoop工具帮你驯服大数据 经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

一篇文章读懂大数据的黄色小象帮手––Hadoop 经验

Hadoop yarn完全分布式安装笔记 经验

Hadoop分布式文件系统HDFS介绍 经验

脱离JVM？Hadoop生态圈的挣扎与演化 经验

Hadoop MapReduce 模块源代码详细解析 文档

Ubuntu11.10下安装Hadoop1.0.0（单机伪分布式） 经验

详细讲解Hadoop中的一个简单数据库HBase 博客

雅虎架构师谈MapReduce和Hadoop的未来 博客

Tez - 下一代Hadoop上的执行引擎 文档

关系数据库与Hadoop数据迁移工具 Sqoop 开源项目

hadoop开发案例 之Cloudera Manager详解 文档

基于Hadoop的大规模网络流量分析 经验

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎 经验

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

Kudu:支持快速分析的新型Hadoop存储系统 经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

工作流引擎服务器 Hadoop Oozie 介绍 经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍 经验

Hadoop2_5_2 HA高可靠性集群搭建(Hadoop Zookeeper) 的相关搜索

关键词

十八款Hadoop工具帮你驯服大数据经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

Hadoop yarn完全分布式安装笔记经验

Hadoop分布式文件系统HDFS介绍经验

脱离JVM？Hadoop生态圈的挣扎与演化经验

Hadoop MapReduce 模块源代码详细解析文档

Ubuntu11.10下安装Hadoop1.0.0（单机伪分布式）经验

雅虎架构师谈MapReduce和Hadoop的未来博客

Tez - 下一代Hadoop上的执行引擎文档

hadoop开发案例之Cloudera Manager详解文档

基于Hadoop的大规模网络流量分析经验

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

工作流引擎服务器 Hadoop Oozie 介绍经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍经验