• 1. Hadoop原理与实践Hadoop起源与体系介绍
  • 2. 2为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备
  • 3. Hadoop产生的背景3facebook社交网络物联网淘宝、ebuy电子商务…微博、Apps移动互联…
  • 4. 大数据4GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量: 在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
  • 5. 从淘宝技术的变迁看架构演变15
  • 6. 从淘宝技术的变迁看架构演变16
  • 7. 从淘宝技术的变迁看架构演变1.17
  • 8. 从淘宝技术的变迁看架构演变1.18
  • 9. 从淘宝技术的变迁看架构演变29
  • 10. 从淘宝技术的变迁看架构演变210
  • 11. 从淘宝技术的变迁看架构演变2.111
  • 12. 从淘宝技术的变迁看架构演变2.112
  • 13. 从淘宝技术的变迁看架构演变313
  • 14. 云梯系统架构14
  • 15. 淘宝云计算15
  • 16. 从淘宝技术的变迁看架构演变16
  • 17. 大数据的4V特征17Big DataVolumeVarityValueVelocity数据量巨大 PB->EB->EB数据类型多样 关系型、文本、视频、音频价值高,密度低 过程化数据多,价值高密度低高速处理 数据输入输出的速度快
  • 18. 不要随机样本,而是全体数据 不要精准性,而是混杂性 不要因果关系,而是相关关系与传统数据处理的区别18
  • 19. 对处理速度的要求 对存储的要求 对资金投入的要求19
  • 20. 20为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备
  • 21. Google搜索引擎,Gmail,安卓,谷歌地图,Google earth,Google翻译,Google眼镜…Hadoop的思想之源Google21
  • 22. 不适用超级计算机,不适用存储(淘宝去IOE) 大量使用普通PC(去掉机箱,外设,硬盘),提供冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google付费Hadoop的思想之源Google22
  • 23. 分布式架构23
  • 24. Google面对数据和计算的难题 大量的网页怎么存储? 存储的网页怎么搜索? 哪一个网站在前面展示?24
  • 25. 倒排索引25
  • 26. 这是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金”的关键算法,这个算法成就了今天的GooglePage-Rank算法26
  • 27. Map-Reduce:计算PR27
  • 28. GFS (Google File System) Map-Reduce BigTable Google的技术28
  • 29. 2002年Luncene、Nutch开源网络搜索引擎2003年Google发布GFS论文 2004年Google发布MapReduce论文 2006年从Nutch项目移除,称为Hadoop 2008年成为Apache顶级项目Hadoop发展历程29Doug Cutting
  • 30. Google和Hadoop的三个技术30GFS Google File SystemMapReduceBigTableGoogleHDFSMapReduceHbaseHadoop
  • 31. Map-reduce的思想就是“分而治之” Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行 “简单的任务”有几个含义:1 数据或计算规模相对于原任务要大大缩小;2 就近计算,即会被分配到存放了所需数据的节点进行计算;3 这些小任务可以并行计算,彼此间几乎没有依赖关系 Reduce负责对Map阶段的结果进行汇总 Reduce的数量可以自由定义MapReduce31
  • 32. 没有Reduce的处理过程32
  • 33. 有Reduce的处理过程33
  • 34. HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。 HBase是Apache的Hadoop 项目的子项目。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式 Hbase34
  • 35. Hbase物理模型35
  • 36. 实现大数据的事实标准开源软件 包括数十个具有强大生命力的子项目 已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录(百度)Hadoop目前的状态36
  • 37. Hadoop的架构37
  • 38. HDFS的守护程序 记录文件是如何分割成数据块,以及这些块存储在那些节点上 对内存 IO进行集中管理NameNode38
  • 39. 监控HDFS状态的辅助后台程序 每个集群都有一个 与NameNode进行通讯,定期保存HDFS元数据快照 当NameNode故障可以作为备用NameNode使用Secondary NameNode39
  • 40. 每台从服务器都运行一个 负责把HDFS数据块读写到本地文件系统 一次写入,多次读取(不能修改) 数据块尽量分散到各个节点DataNode40
  • 41. 用于处理作业(用户提交代码)的后台程序 决定有哪些文件参与处理,然后切割task并分配节点 监控task,重启失败的task(于不同的节点) 每个集群只有唯一一个JobTracker,位于Master节点JobTracker41
  • 42. 位于slave节点上,与datanode结合(代码与数据一起的原则) 管理各自节点上的task(由jobtracker分配) 每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务 与jobtracker交互TaskTracker42
  • 43. Master:Namenode、Secondary Namenode、Jobtracker。浏览器(用于观看管理界面),其它Hadoop工具 Slave:Tasktracker、Datanode Master不是唯一的Master与Slave43
  • 44. 44为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备
  • 45. 数据日益庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升45
  • 46. 场景146质监数据仓库准实时采集组织机构 代码系统缺陷产品 召回行政许可检验检测商品条码标准信息标准化管理…特种设备 检验特种设备 监察监督检查外部门准 实时共享信息按天/半天/小时采集质监业务 系统数据外部 共享信息本地 视频互联网 数据本地 图片质监 物联网定时采集人社厅 共享信息检察院 共享信息公安厅 共享信息计生委 共享信息民政厅 共享信息国安厅 共享信息工商 共享信息质监业务 系统数据非结构化数据
  • 47. 场景147数据仓库HDFS分布式存储系统非结构化应用搜索一键搜索综合查询SolrHive & PigMahout数据分析网络舆情分析12365信息分析数据挖掘协作筛选集群分类
  • 48. 索引不同造成行为的差异 Hbase适合大量插入同时又有读的情况 Hbase的瓶颈是硬盘传输速度,Oracle的瓶颈是硬盘寻道时间 Hbase很适合寻找按照时间排序top n的场景 Hbase与传统数据库Oracle的区别48
  • 49. 怎么用Hadoop49
  • 50. 分析技术数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等Hadoop适合的场景50
  • 51. 存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储存储问题解决方案在CAP理论指导下数据库技术适当“退化”NoSQL技术: HDFS, HBASE, OceanBase, MongoDB等Hadoop适合的场景51
  • 52. 计算因结构变化为导致计算模式变更需求模式变化带来的计算碰到瓶颈解决方案Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)Hadoop适合的场景52
  • 53. 53为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备
  • 54. 54
  • 55. 55HIVEPig!Zoo Keeper
  • 56. Hadoop客户端 使用类似于SQL的面向数据流的语言Pig Latin Pig Latin可以完成排序,过滤,求和,聚组,关联等操作,可以支持自定义函数 Pig自动把Pig Latin映射为Map-Reduce作业上传到集群运行,减少用户编写Java程序的苦恼 三种运行方式:Grunt shell,脚本方式,嵌入式PIG56
  • 57. Google Bigtable的开源实现 列式数据库 可集群化 可以使用shell、web、api等多种方式访问 适合高读写(insert)的场景 HQL查询语言 NoSQL的典型代表产品 Hbase57
  • 58. 数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表 支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其它特征都能支持 可以看成是从SQL到Map-Reduce的映射器 提供shell、JDBC/ODBC、Thrift、Web等接口 HIVE58
  • 59. Google Chubby的开源实现 用于协调分布式系统上的各种服务。例如确认消息是否准确到达,防止单点失效,处理负载均衡等 应用场景:Hbase,实现Namenode自动切换 工作原理:领导者,跟随者以及选举过程ZooKeeper59
  • 60. 用于在Hadoop和关系型数据库之间交换数据 通过JDBC接口连入关系型数据库 Sqoop60
  • 61. 架构在Hadoop之上的挖掘工具 分布式机器学习算法的集合 支持分类、聚类、关联规则、回归等算法Mahout61
  • 62. 是Cloudera提供的日志收集系统 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume62
  • 63. Amazon AWS Cloudera CDH3 CDH4 Microsoft IBM BigInsights 常见的Hadoop63
  • 64. 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4分别对应了hadoop1.0 hadoop2.0 Hadoop的基本版本64
  • 65. Hadoop的版本65
  • 66. 66
  • 67. 67
  • 68. 68为什么是Hadoop?Hadoop的起源和架构Hadoop能解决什么?Hadoop的体系和版本学习Hadoop的准备
  • 69. 技术准备 Java Linux 软件准备 Vmware Workstations 11 CentOS 6.5 JDK 1.7或1.8 Hadoop 1.1.2.tar.gz Hadoop 2.6.2.tar.gz实验环境69
  • 70. 硬件准备 笔记本至少4G内存 安装3个虚拟机 内存1G 硬盘10G 安装至少一个网卡(Host-Only模式) 安装至少要有Desktop/X Window System 关闭防火墙和SElinux硬件准备70
  • 71. 面向大数据处理 擅长做离线数据分析 分布式文件系统+计算框架 Hadoop不是数据库,是一个快速进化的生态系统总结:什么是Hadoop71
  • 72. 72