2分钟读懂大数据框架Hadoop和Spark的异同 资讯

谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

jopen 2015-12-15   18423   0
Hadoop  

Apache Hadoop YARN的一个抽象层:Twill 经验

Twill是 Apache Hadoop YARN 的一个抽象层。它能够减少开发分布应用程序的复杂性,让开发人员可以更加关注他们的业务逻辑。它通过一个类似于Java线程的简单而直观的编程模型来暴露 Apache

jopen 2013-12-11   18505   0

lucene + hadoop 分布式搜索运行框架:Nut 经验

计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

jopen 2014-01-02   13759   0

Hadoop2.2.0中HDFS的高可用性实现原理 经验

Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障

jopen 2014-04-22   78538   0

hadoop-2.4.0完全分布式集群搭建 经验

新版本日志系统预计存储在TB级别,并且需要统计分析一些数据(离线统计,非即时),所以选择廉价linux服务器搭建一个hadoop集群,1个namenode,1个resourcemanager(mapreduce新框架yarn,去掉了原来的

jopen 2014-05-08   44807   0

Hadoop - 你不得不了解的大数据工具 经验

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。

fmms 2012-02-21   67402   0

Hadoop 进行分布式并行编程, 第 1 部分 经验

Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop

jopen 2014-01-23   40789   0
P20

  分布式计算开源框架Hadoop入门实践 文档

分布式计算开源框架Hadoop介绍 ── 分布式计算开源框架Hadoop入门实践(一) 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger

softmind 2011-10-08   6215   0

海量数据的二度人脉挖掘算法(Hadoop 实现) 经验

最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你关注的人中有N个人同时都关注了 XXX 。 在程序的实现上,其实我们要找的是:若

openkk 2012-09-01   67412   0
Hadoop   算法  

hadoop 学习笔记:mapreduce框架详解 经验

hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs

jopen 2014-08-29   30078   0

Hadoop2.5.0完全分布式配置(1主3从) 经验

com/lib/view/open1409640189307.html 2 、 Hadoop 节点配置 在讲解之前,先声明一点,这篇文章的所有环境都是基于上一篇伪分布的配置文章的基础上再做配置的,如果你没有看过我之前的那篇文章,建议你先去阅读一下。

jopen 2014-11-22   27139   0

面向Hadoop的、新的数据处理和管理平台:Apache Falcon 经验

Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载(onboard)”到Hadoop集群。

jopen 2015-01-29   67916   0

Spark:比Hadoop更强大的分布式数据计算项目 经验

术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算

jopen 2014-12-03   46280   0

大数据技术hadoop入门理论系列之二—HDFS架构简介 经验

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是: HDFS是一个高容错系统且能运行在各种低成本硬件上;

jopen 2016-01-12   16076   0

提高hadoop的mapreduce job效率笔记—–修改mapper和reducer数量 经验

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情况: 每一个map或者reduce只有30-40秒钟就结束 超大规模的job 时,通常会需要大量的map和reduce的slots

jopen 2016-01-16   7166   0

Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作等 经验

HadoopDemo Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用等 运行环境: java 1.8 hadoop1.1.2

jopen 2015-12-04   19595   0

Hadoop2.6.0上的spark1.5.2集群搭建 经验

Spark 安装前提 安装 Spark 之前需要先安装 Hadoop 集群,因为之前已经安装了 hadoop ,所以我直接在之前的 hadoop 集群上安装 spark ,但是因为机器内存不够,我只选择

yvdyyn805 2016-01-27   45467   0

hadoop再次集群搭建(2)-配置免秘钥ssh登录 经验

vate key)实现与EC2实例安全连接、GitHub通过上传的公钥(public key)实现基于git协议(底层使用SSH)远程库管理。 SSH(Secure Shell)是一个提供数据

jopen 2016-01-18   16615   0

Kafka实战:从RDBMS到Hadoop,七步实现实时传输 经验

中。 对于那些想要把数据快速摄取到Hadoop中的企业来讲,Kafka是一个很好的选择。Kafka是什么?Kafka是一个分布式、可伸缩、可信赖的消息传递系统,利用发布-订阅模型来集成应用程序/数

P23

  分布式运算平台-Hadoop-基础篇 文档

1. 分布式运算平台-Hadoop-基础篇马云龙 2. 1:大规模数据处理的问题 2:Hadoop的由来 3:Hadoop需要解决的问题 4:Hadoop介绍 5:HDFS介绍 6:MapReduce介绍

zhpboy 2013-10-12   3298   0
1 2 3 4 5 6 7 8 9 10