开源项目,开源代码,开源文档,开源新闻,开源社区

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨跟我一块看下它们究竟有什么异同。

jopen 2015-12-15 18423 0

Hadoop

Twill是 Apache Hadoop YARN 的一个抽象层。它能够减少开发分布应用程序的复杂性，让开发人员可以更加关注他们的业务逻辑。它通过一个类似于Java线程的简单而直观的编程模型来暴露 Apache

jopen 2013-12-11 18505 0

Twill 分布式/云计算/大数据

计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架，能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

jopen 2014-01-02 13759 0

Nut 搜索引擎

在Hadoop2.0.0之前，NameNode(NN)在HDFS集群中存在单点故障（single point of failure），每一个集群中存在一个NameNode，如果NN所在的机器出现了故障

jopen 2014-04-22 78538 0

Hadoop 分布式/云计算/大数据

新版本日志系统预计存储在TB级别，并且需要统计分析一些数据（离线统计，非即时），所以选择廉价linux服务器搭建一个hadoop集群，1个namenode，1个resourcemanager(mapreduce新框架yarn，去掉了原来的

jopen 2014-05-08 44807 0

分布式/云计算/大数据 Hadoop

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到，但是他们都有什么功能，为什么会需要奇怪的名字（如Oozie，ZooKeeper、Flume）。

fmms 2012-02-21 67402 0

Hadoop 分布式/云计算/大数据

Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统 HDFS( Hadoop

jopen 2014-01-23 40789 0

Hadoop 分布式/云计算/大数据

P20

分布式计算开源框架Hadoop介绍 ── 分布式计算开源框架Hadoop入门实践（一）在SIP项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计，在我从前写的文章《Tiger

softmind 2011-10-08 6215 0

Hadoop 分布式/云计算/大数据

最近做了一个项目，要求找出二度人脉的一些关系，就好似新浪微博的“你可能感兴趣的人” 中，间接关注推荐；简单描述：即你关注的人中有N个人同时都关注了 XXX 。在程序的实现上，其实我们要找的是：若

openkk 2012-09-01 67412 0

Hadoop 算法

hadoop 学习笔记：mapreduce框架详解开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs

jopen 2014-08-29 30078 0

分布式/云计算/大数据 MapReduce

com/lib/view/open1409640189307.html 2 、 Hadoop 节点配置在讲解之前，先声明一点，这篇文章的所有环境都是基于上一篇伪分布的配置文章的基础上再做配置的，如果你没有看过我之前的那篇文章，建议你先去阅读一下。

jopen 2014-11-22 27139 0

Hadoop 分布式/云计算/大数据

Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台，设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载（onboard）”到Hadoop集群。

jopen 2015-01-29 67916 0

分布式/云计算/大数据 Apache Falcon

术是弹性分布式数据集(Resilient distributed datasets)，提供了比Hadoop更加丰富的MapReduce模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图计算

jopen 2014-12-03 46280 0

Spark 分布式/云计算/大数据

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是： HDFS是一个高容错系统且能运行在各种低成本硬件上；

jopen 2016-01-12 16076 0

HDFS Hadoop 大数据分布式/云计算/大数据

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情况：每一个map或者reduce只有30-40秒钟就结束超大规模的job 时，通常会需要大量的map和reduce的slots

jopen 2016-01-16 7166 0

Hadoop 分布式/云计算/大数据

HadoopDemo Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用等运行环境： java 1.8 hadoop1.1.2

jopen 2015-12-04 19595 0

Hadoop 分布式/云计算/大数据

Spark 安装前提安装 Spark 之前需要先安装 Hadoop 集群，因为之前已经安装了 hadoop ，所以我直接在之前的 hadoop 集群上安装 spark ，但是因为机器内存不够，我只选择

yvdyyn805 2016-01-27 45467 0

分布式/云计算/大数据

vate key）实现与EC2实例安全连接、GitHub通过上传的公钥（public key）实现基于git协议（底层使用SSH）远程库管理。 SSH（Secure Shell）是一个提供数据

jopen 2016-01-18 16615 0

分布式/云计算/大数据

中。对于那些想要把数据快速摄取到Hadoop中的企业来讲，Kafka是一个很好的选择。Kafka是什么？Kafka是一个分布式、可伸缩、可信赖的消息传递系统，利用发布-订阅模型来集成应用程序/数

LynHolcomb 2016-08-30 31986 0

数据库 Hadoop 分布式/云计算/大数据 Apache Kafka

P23

1. 分布式运算平台-Hadoop-基础篇马云龙 2. 1：大规模数据处理的问题 2：Hadoop的由来 3：Hadoop需要解决的问题 4：Hadoop介绍 5：HDFS介绍 6：MapReduce介绍

zhpboy 2013-10-12 3298 0

Hadoop 分布式/云计算/大数据 Apache C/C++ Go

2分钟读懂大数据框架Hadoop和Spark的异同资讯

Apache Hadoop YARN的一个抽象层：Twill 经验

lucene + hadoop 分布式搜索运行框架：Nut 经验

Hadoop2.2.0中HDFS的高可用性实现原理经验

hadoop-2.4.0完全分布式集群搭建经验

Hadoop - 你不得不了解的大数据工具经验

用 Hadoop 进行分布式并行编程, 第 1 部分经验

分布式计算开源框架Hadoop入门实践文档

海量数据的二度人脉挖掘算法（Hadoop 实现）经验

hadoop 学习笔记：mapreduce框架详解经验

Hadoop2.5.0完全分布式配置(1主3从) 经验

面向Hadoop的、新的数据处理和管理平台：Apache Falcon 经验

Spark：比Hadoop更强大的分布式数据计算项目经验

大数据技术hadoop入门理论系列之二—HDFS架构简介经验

提高hadoop的mapreduce job效率笔记—–修改mapper和reducer数量经验

Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作等经验

Hadoop2.6.0上的spark1.5.2集群搭建经验

hadoop再次集群搭建（2）-配置免秘钥ssh登录经验

Kafka实战：从RDBMS到Hadoop，七步实现实时传输经验

分布式运算平台-Hadoop-基础篇文档

基于hadoop的电影推荐系统的相关搜索

关键词

2分钟读懂大数据框架Hadoop和Spark的异同 资讯

Apache Hadoop YARN的一个抽象层：Twill 经验

lucene + hadoop 分布式搜索运行框架：Nut 经验

Hadoop2.2.0中HDFS的高可用性实现原理 经验

hadoop-2.4.0完全分布式集群搭建 经验

Hadoop - 你不得不了解的大数据工具 经验

用 Hadoop 进行分布式并行编程, 第 1 部分 经验

分布式计算开源框架Hadoop入门实践 文档

海量数据的二度人脉挖掘算法（Hadoop 实现） 经验

hadoop 学习笔记：mapreduce框架详解 经验

Hadoop2.5.0完全分布式配置(1主3从) 经验

面向Hadoop的、新的数据处理和管理平台：Apache Falcon 经验

Spark：比Hadoop更强大的分布式数据计算项目 经验

大数据技术hadoop入门理论系列之二—HDFS架构简介 经验

提高hadoop的mapreduce job效率笔记—–修改mapper和reducer数量 经验

Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作等 经验

Hadoop2.6.0上的spark1.5.2集群搭建 经验

hadoop再次集群搭建（2）-配置免秘钥ssh登录 经验

Kafka实战：从RDBMS到Hadoop，七步实现实时传输 经验

分布式运算平台-Hadoop-基础篇 文档

基于hadoop的电影推荐系统 的相关搜索

关键词

2分钟读懂大数据框架Hadoop和Spark的异同资讯

Hadoop2.2.0中HDFS的高可用性实现原理经验

hadoop-2.4.0完全分布式集群搭建经验

Hadoop - 你不得不了解的大数据工具经验

用 Hadoop 进行分布式并行编程, 第 1 部分经验

分布式计算开源框架Hadoop入门实践文档

海量数据的二度人脉挖掘算法（Hadoop 实现）经验

hadoop 学习笔记：mapreduce框架详解经验

Spark：比Hadoop更强大的分布式数据计算项目经验

大数据技术hadoop入门理论系列之二—HDFS架构简介经验

提高hadoop的mapreduce job效率笔记—–修改mapper和reducer数量经验

Hadoop简单应用案例，包括MapReduce、单词统计、HDFS基本操作等经验

Hadoop2.6.0上的spark1.5.2集群搭建经验

hadoop再次集群搭建（2）-配置免秘钥ssh登录经验

Kafka实战：从RDBMS到Hadoop，七步实现实时传输经验

分布式运算平台-Hadoop-基础篇文档

基于hadoop的电影推荐系统的相关搜索