Hadoop到Spark的架构实践 经验

经验。本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以 Hadoop YARN和Spark为基础来构建移动大数据平台的过程。 初识Spark 作为一家在移动互

jopen 2015-06-08   49372   0

Hadoop的Server及其线程模型分析 经验

早期的一篇文章,针对Hadoop 2.6.0.这里发一下. 一、Listener Listener线程,当Server处于运行状态时,其负责监听来自客户端的连接,并使用Select模式处理Accept事件。

er74 2015-07-26   15301   0

Hadoop 通用数据摄取框架:Gobblin 经验

Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest APIs,filers,等等。Gobblin 处理日常规划任务需要所有数据摄取

jopen 2015-09-15   31462   0

Hadoop和Spark的处理模型比较 经验

发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache

jopen 2016-01-08   10239   0

Hadoop上时实类SQL查询系统对比 经验

数据仓库时还是很有价值的。 目前来说只有impala比较成熟( 人 家标称要使用CDH版本hadoop,如果要使用apache的,要做好测试的心里准备 )。 其它两个系统还都处理孵化状态,但是前景非常不错。

jopen 2013-11-30   29365   0

Hadoop 的数据处理解决方案:Cascalog 经验

Cascalog 是 Hadoop 上的数据处理解决方案,无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理 Hadoop

jopen 2014-10-29   14108   0

hadoop-2.2.0+spark1.1.0安装过程 经验

hadoop-2.2.0+spark1.1.0安装过程 首先介绍一下整个过程中需要用到的一些软件 虚拟机vmwareworkstation 10 Linux版本 CentOS 6.4 Jdk

jopen 2014-08-14   52072   0

Hadoop的辉煌还能延续多久? 经验

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一时难以动摇。

jopen 2014-08-05   27938   0

Hadoop生态系统学习路线 经验

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN

jopen 2014-10-29   43441   0

Hadoop DistributedCache分布式缓存的使用 经验

做项目的时候遇到一个问题,在Mapper和Reducer方法中处理目标数据时,先要去检索和匹配一个已存在的标签库,再对所处理的字段打标签。因为标签库不是很大,没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件,用分布式缓存存储,这样让每个slave都能读取到这个文件。

jopen 2014-11-15   50169   0

linux分布式安装hadoop1.2 经验

三台机器,centos6.5, master、slave1、slaver2分布式安装hadoop1.2 配置环境 准备: 三台虚拟机 配置主节点: 1. 查看当前使用网卡 [root@localhost

yne7 2015-03-30   9376   0
P6

  如何把hadoop源码关联到eclipse工程中 文档

在eclipse中阅读源码非常方便,利于我们平时的学习,下面讲述如何把hadoop源码导入到eclpse的java工程中。 解压源码 首先,我们在windows下使用winrar把hadoop-1.1.2.tar.gz解压,如图1所示

ainubis 2014-06-27   266   0
P17

  windows上Hadoop的伪分布式配置 文档

第三章 windows上Hadoop的伪分布式配置 3.1 安装前的准备 在windows上配置Hadoop需要做一些准备,包括软件的下载,了解Hadoop运行的条件,了解Hadoop在Linux与windows平台上的不同。

louiscool 2012-04-25   614   0
P10

  Hadoop 学习总结之三:Map-Reduce入门 文档

欲配置JobConf,需要大致了解Hadoop运行job的基本原理: · Hadoop将Job分成task进行处理,共两种task:map task和reduce task · Hadoop有两类的节点控制job

huafenged 2012-02-24   3024   0

微软数据库拥抱Hadoop 资讯

Kumert 宣布 , Hadoop 分布式计算平台将整合到下一个版本的关系数据库 SQL Server 2012、Windows Server 和 Azure 中。 Hadoop 是一个顶级 Apache

jopen 2011-10-14   30596   2
Hadoop  

Hadoop 1.0 正式版发布 资讯

顶级Apache开源项目Hadoop 发布了1.0.0版 。 Hadoop是前雅虎开发者Doug Cutting开发的分布式计算平台,名字源于玩具象,至今已被数千家公司用于分析大容量数据。Hadoop 1.0.0

openkk 2011-12-29   18313   1
Hadoop  

Apache Hadoop 2.0 Alpha 版发布 资讯

Apache Hadoop 社区近日发布了最新的 Apache Hadoop 2.0 Alpha 版本,这标志着 Apache Hadoop 进入了一个新的分支。 Hadoop 是 Apache

jopen 2012-05-29   8833   0

Spark 和 Hadoop 是朋友不是敌人 资讯

的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“ 旨在比下 Hadoop 的新软件 ”和“ 企业将放弃大数据技术 Hadoop ”的标题中看出来。 作为一个长期的大数据实践者,雅虎投资

jopen 2015-07-13   17287   0
Hadoop   Spark  

大数据处理一定需要Hadoop吗? 资讯

Google所用的内部搜寻引擎工具,所以,拥有处理大数据工具的分散式运算平台Hadoop应运而生。 但问题是Hadoop使用上有难度,数据处理公司Cloudera决心要解决这个问题。 过去的公

dy223 2015-03-26   12892   0

2分钟读懂Hadoop和Spark的异同 资讯

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样

jopen 2016-01-25   13152   0
Spark   Hadoop  
1 2 3 4 5 6 7 8 9 10