Hadoop集群环境下网络架构的设计与优化 经验

数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop

jopen 2014-04-15   11532   0

Hadoop完全分布式模式的安装和配置 经验

一、建立hadoop运行账号(all/root) 二、配置hosts文件(namenode/root) 三、下载并解压jdk(namenode/root) 四 下载并解压hadoop安装包(namenode/hadoop)

jopen 2013-11-25   33355   0

小米研发的hadoop布署、监控系统:Minos 经验

Minos是小米hadoop团队自主研发的hadoop布署、监控系统。它起初被开发和用于部署与管理小米公司中的Hadoop, HBase 和 ZooKeeper集群。Minos可以很容易地扩展,以支持其他系统包括:HDFS

jopen 2013-09-15   59382   0

Hadoop YARN的发展史与详细解析 经验

Apache Hadoop于2005年推出,提供了核心的MapReduce处理引擎来支持大规模数据工作负载的分布式处理。7年后的今天,Hadoop正在经历着一次彻底检查,不仅支持MapReduce,还支持其他分布式处理模型。

jopen 2014-10-09   24967   0

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark Streaming可以创建数据管道来用批量加载数据一样的

jopen 2015-06-22   21976   0

Hadoop yarn完全分布式安装笔记 经验

版本及配置简洁 Java:   JDK1.7.0_71 Hadoop: hadoop-2.5.2 Linux:  centos6.4 64bit 暂且配置3台机器,假设三台机器IP如下:

jopen 2015-05-27   19313   0

Hadoop分布式文件系统HDFS介绍 经验

概念 HDFS是Hadoop Distribute File System 的简称,也就是Hadoop分布式文件系统。 设计理念 1、硬件错误是常态 错误检测并快速自动恢复是HDFS的最核心设计目标

fdwm 2015-04-19   17745   0

脱离JVM?Hadoop生态圈的挣扎与演化 经验

产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的 一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的

jopen 2015-09-26   32975   0

从零开始搭建Hadoop2.7.1的分布式集群 经验

Hadoop 2.7.1 (2015-7-6更新),Hadoop的环境配置不是特别的复杂,但是确实有很多细节需要注意,不然会造成许多配置错误的情况。尽量保证一次配置正确防止反复修改。 网上教程有很

jopen 2016-01-18   29490   0
P39

  Hadoop MapReduce 模块源代码详细解析 文档

 1 引言 1.1 致谢 作者是在读了“觉先”的博客《Hadoop学习总结之四:Map-Reduce的过程解析》之后才从宏观上了解Hadoop MapReduce模块的工作原理,并且以此为蓝本,写出

songyl525 2013-12-11   465   0

Ubuntu11.10下安装Hadoop1.0.0(单机伪分布式) 经验

环境配置:Ubuntu11.10,Hadoop1.0.0 安装ssh apt-get install ssh 安装rsync apt-get install rsync 配置ssh免密码登录

fmms 2012-01-09   30023   0

雅虎架构师谈MapReduce和Hadoop的未来 博客

作者 Scott Delap 译者 Terry Hadoop 是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式 的文件系统等两部分组成。InfoQ曾经 刊登过 一 篇Jeremy

Hadoopp 2012-09-28   840   0
P30

  Tez - 下一代Hadoop上的执行引擎 文档

1Apache Tez : Next Generation Execution Engine upon Hadoop Jeff Zhang 2. OutlineTez Introduction Tez API Tez

dfwm 2014-10-19   763   0
P13

  hadoop开发案例 之Cloudera Manager详解 文档

Manager (简称CM)用于管理CDH4集群,可进行节点安装、配置、服务配置等,提供Web窗口界面提高了Hadoop配置可见度,而且降低了集群参数设置的复杂度。 https://ccp.cloudera.com

玫瑰情书 2014-06-18   693   0

能否利用Hadoop搭建完整的云计算平台? 问答

chinacloud.cn/show.aspx?id=19488&cid=12 Hadoop并不完全代表云计算,所以,要用Hadoop搭建完整的云计算平台,答案是不够。我们常说云计算,实际上还是通过计算机的大规模或者

jopen 2015-03-18   14267   1
Hadoop   ci   云计算   C/C++   SQL  

基于Hadoop的大规模网络流量分析 经验

Internet-Level Knowledge),支持有效的收集、存储和分析网络流数据,SILK可以高效地查询历史大流量数据集,能用于分析大的企业或者中型ISP的骨干或边界 网络流量。然而,随着互联网带宽

jopen 2015-07-30   14958   0

Hadoop主要子项目介绍(Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ) 经验

现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS),但Hadoop下的Common、Avro、Chukwa、Hive、HBas

jopen 2016-01-18   18790   0

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

partition to shard ” 的实现。不过目前只涉及到构建索引那块。 问题描述 当你bulk数据到集群,按照 ElasticSearch Bulk 源码解析 所描述的: 接着通过execut

ukon7587 2016-04-12   20807   0

Kudu:支持快速分析的新型Hadoop存储系统 经验

开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景,以及架构进行简单介绍。

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看

flylong 2016-09-01   15746   0
1 2 3 4 5 6 7 8 9 10