• 1. HBase技术研究与应用分析付仁杰 @ 研发中心 中国电信上海理想集团
  • 2. Hadoop系列专题内容: 1、Hadoop是什么? 2、分布式云存储:HDFS 3、并行计算:MapReduce 4、案例:全球眼中的应用 5、Hadoop集群构建规划Hadoop 与分布式计算Hive与 数据仓库Hbase与 列数据库实验1 构建Hadoop 集群分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 3. 1、Hadoop是什么?1.1、Hadoop与云计算 1.2、Apache Hadoop构成 1.3、Hadoop的历史 1.4、Hadoop在各大厂商中的支持 1.5、 Hadoop的适用场景 分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 4. 1.1、云计算?Hadoop?云计算BECDAIAAS/虚拟化分布式并行计算 (实现大众化)云存储PAASSAAS分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 5. 1.2、Hadoop是什么?一个分布式文件系统和并行执行环境 让用户便捷地处理海量数据 Apache软件基金会下面的一个开源项目 目前Yahoo!是最主要的贡献者
  • 6. 1.2、Apache Hadoop Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。   HDFS 分布式文件系统   MapReduce 实现了MapReduce编程框架分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 7. 1.3 Hadoop的历史页面:http://www.open-open.com/news/view/a22597分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 8. 1.4 Hadoop有前途吗?Apache Hadoop; Cloudera Hadoop ; Yahoo! Hadoop  Hortonworks公司; Dell + Cloudera Hadoop 计划; HP的项目:收购的Vertica ; Oracle的NoSQL数据库; IBM的Hadoop项目研:研究基于Hadoop的并行计算解决方案; TaoBao的Hadoop应用:淘宝云研究院、TFS、1400个节点的Hadoop计算集群; 微软宣布全面拥抱Hadoop,并宣称: 预计在今年年底可推出基于Hadoop的Windows Azure预览版; 基于Hadoop的Windows Server将在在2012年推出。 EMC+ MapR: 提供基于Hadoop的硬件及数据分析平台 ……分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 9. 1.5 Hadoop能做什么?不能做什么? 适用场景: 大规模海量数据分析、适合并行处理、耗时很长的、计算分析任务:如:海量日志分析、海量视频处理、数据挖掘、海量话单分析、DPI数据分析、并行ETL等等。 不适合场景 事务性问题?银行交易系统? 挑战: 海量管理、多类型、变化快、无中心节点模型… 分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 10. Hadoop的特点扩容能力(Scalable): 能可靠地(reliably)存储和处理千兆字节(PB)数据。 成本低(Economical): 可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率(Efficient): 通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 可靠性(Reliable): hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。
  • 11. 2、分布式云存储——HDFS 2.1、什么是HDFS? 2.2、HDFS原理 2.3、 HDFS如何写文件? 2.4、HDFS网络及构成 2.5、HDFS分布式云存储 分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?
  • 12. 2.1、什么是HDFS?HDFS: Hadoop 分布式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System) 与MapReduce结合,实现“机架感知”机制; 为Hbase、Hive等软件提供分布式文件并行存储机制。 Hadoop系列软件的应用基础存储机制
  • 13. HDFS设计目标前提假定: 节点失效是常态 实现目标: 1. 任何一个节点失效,不影响HDFS服务 2. HDFS可以自动完成副本的复制
  • 14. HDFS节点失效是常态DataNode中的磁盘挂了怎么办? DataNode所在机器挂了怎么办? NameNode挂了怎么办? Client挂了怎么办?
  • 15. 2.2、HDFS原理NamenodeBreplicationRack1Rack2ClientBlocksDatanodesDatanodesClientWriteReadMetadata opsMetadata(Name, replicas..) (/home/foo/data,6. ..Block ops
  • 16. HDFS中的要素NameNode Keeps track of entire fs image Entire namespace is stored in memory, but persisted to disk DataNode A Block Server Block Report Facilitates Pipelining of Data Block placement Default is 3 replicas, but settable Clients read from closest replica
  • 17. 2.3、 HDFS如何写文件?Write packetCreate file Write packetWrite packetSend ackSend ackSend ackClose file
  • 18. 2.4、HDFS网络及构成DHCPDNS
  • 19. 2.5、HDFS分布式云存储分布式 云存储方案硬件LinuxHadoop-HDFS 分布式文件系统硬件Linux硬件Linux统一接入访问控制RedHat 客户端Suse 客户端Windows 客户端CentOS 客户端理想集群监控管理层各类应用增加:集群一键自动部署增加:集群设备监控、报警集成:任务细节监控集成:HDFS存储监控增加:主节点HA热备能力增加:支持多种客户端挂载增加:用户访问控制(A\P等)
  • 20. 3、分布式计算---MapReduce3.1 MapReduce是什么? 3.2 Why MapReduce? 3.3 Map-Reduce原理 3.4 MapReduce网络结构 3.5 Map-Reduce调度示意图 3.6 MapReduce执行流程
  • 21. 3.1、MapReduce:大规模数据处理处理海量数据(>1TB) 上百/上千CPU实现并行处理 简单地实现以上目的 移动计算比移动数据更划算 分而治之(Divide and Conquer)
  • 22. 3.2、网格计算? MapReduce?高性能计算(High Performance Computing,HPC)和网格计算社区多年来一直在做大规模数据处理,它们使用的是消息传递接口(Message Passing Interface,MPI)这样的API。 从广义上讲,高性能计算的方法是将作业分配给一个机器集群,这些机器访问共享文件系统,由一个存储区域网络 (Storage Area Network,SAN)进行管理。这非常适用于以计算密集型为主的作业,但当节点需要访问的大数据量(数百GB的数据)时,这会成为一个问题,因为网络带宽成为"瓶颈",所以计算节点闲置下来了。 MapReduce尝试在计算节点本地存储数据,因此数据访问速度会因为它是本地数据而比较快。这项“数据本地化”功能,成为MapReduce的核心功能并且也是它拥有良好性能的原因之一。
  • 23. 3.3、Why MapReduce?快速、并行计算 动态扩展计算能力 有效利用多核计算资源 允许断点重做原过程Map Reduce 过程拆分调度Map计算ShuffleReduce汇总排序输出耗时
  • 24. 3.4、Map-Reduce原理
  • 25. 3.5、MapReduce网络结构DHCPDNSJobTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerJobTracker
  • 26. 3.6、Map-Reduce调度示意图Job TrackerTask TrackersJob QueueJobTaskTaskTaskTask
  • 27. 3.7 MapReduce+HDFSDHCPDNSJobTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerTaskTracker
  • 28. MapReduce的应用:【1】日志分析 【2】排序 【3】搜索 【4】广告计算,广告优化、分析,点击流分析,链接分析 【5】搜索关键字进行内容分类 【6】搜索引擎,创建索引 【7】word 计数,统计值计算,统计数据,过滤,分析,查询 【8】垃圾数据分析 【9】数据分析 【10】机器学习 【11】数据挖掘 【12】大规模视频处理、大规模图像转换
  • 29. 4、案例:Hadoop在全球眼中的应用4.1、云存储的应用 4.2、车辆识别与车辆追踪 4.3、Hadoop生态系统概述
  • 30. 4.1、云存储在全球眼中的应用全球眼视频特点: 每个摄像头:生成视频约6Mb/秒; 每地区按500个摄像头计算,每天产生约30TB录像(约375MB/秒); 针对海量视频并行存储,并发写速率要求高; 现网全球眼视频存储昂贵,且每个磁阵支持并发写入的摄像头很少; 项目应用: 2010年12月,成功应用于全球眼云存储POC测试,完成了预定的各种功能; 理想“分布式云存储”解决方案可以支持RedHat、SuSE、Windows多种客户端操作系统。 2011年,已经在上海、福建两个地方进行试点测试,目前运行正常;
  • 31. 产品介绍: 基于理想Hadoop分布式计算解决方案,结合C++视频分析算法,将任务自动分解到多个节点上并行化处理; 采用目标追踪模型,实现海量监控视频中目标物体活动轨迹的自动追踪。如多车辆目标追踪、模糊车辆特征追踪等; 适用于公安领域的案件侦破:如嫌疑车辆追踪分析、嫌疑人员追踪分析等; 2011年已取得软件著作权证书。 项目应用与方向: 2011年初,完成全球眼海量视频目标智能追踪平台的POC验证,并在上海、福建进行试点验证。 相关分布式海量视频分析方面的论文,在IEEE国际会议发表,并已被EI检索。 适用于分布式计算与C、C++、Java算法等结合的应用项目,以提高系统处理能力。如视频并行转码、综合预处理系统等等。 314.2、分布式海量视频目标追踪
  • 32. 4.3、Hadoop生态系统概述
  • 33. 5、Hadoop集群规划5.1、Hadoop展示:Map-Reduce 5.2、Hadoop展示:HDFS 5.3、搭建Hadoop集群的硬件估算
  • 34. 5.1、Hadoop展示:Map-Reduce(1)演示
  • 35. 5.1、Hadoop展示:Map-Reduce(1)云计算新宠儿: HadoopHadoop战略格局解析Hadoop小试牛刀: Hadoop构建案例: 全球眼与Hadoop演示 TaskTracker
  • 36. 5.2、Hadoop集群展示(2)云计算新宠儿: HadoopHadoop战略格局解析Hadoop小试牛刀: Hadoop构建案例: 全球眼与Hadoop演示
  • 37. 5.3、搭建Hadoop集群的硬件估算常规估算: 数据大小:(现场讨论) 存储容量估算:(现场讨论) 读写速度估算:(现场讨论) 计算能力要求估算:(现场讨论) 我们的现状NameNode * 2DataNode * 8CPU双路4核两路4核内存32G32G硬盘1TB*8=8T1TB*8=8T网卡千兆网 4路千兆网 4路
  • 38. Hadoop后续专题内容: 1、Hadoop是什么? 2、分布式云存储:HDFS 3、并行计算:MapReduce 4、案例:全球眼中的应用 5、Hadoop集群构建规划Hadoop 与分布式计算Hive与 数据仓库Hbase与 列数据库实验1 构建Hadoop 集群分布式云存储:HDFS并行计算:MapReduceHadoop集群构建规划案例:全球眼中的应用Hadoop是什么?预告: 硬件部署与环境准备 软件部署 云存储挂载与测试 Hadoop环境测试
  • 39. Click to edit company slogan .Thank You !付仁杰 @ 研发中心 中国电信上海理想集团