Hadoop数据分析平台 第3周


DATAGURU专业数据分析网站 2012.9.3 Hadoop数据分析平台 第3周 DATAGURU专业数据分析网站 2012.9.3 Hello, World!  对刚安装好的hadoop集群做个测试 2 DATAGURU专业数据分析网站 2012.9.3 测试 3 DATAGURU专业数据分析网站 2012.9.3 测试结果 4 DATAGURU专业数据分析网站 2012.9.3 通过web了解Hadoop的活动  通过用浏览器和http访问jobtracker所在节点的50030端口监控jobtracker  通过用浏览器和http访问namenode所在节点的50070端口监控集群 5 DATAGURU专业数据分析网站 2012.9.3 http://192.168.1.102:50030/jobtracker.jsp 6 DATAGURU专业数据分析网站 2012.9.3 Jobtracker监控 7 DATAGURU专业数据分析网站 2012.9.3 Jobtracker监控 8 DATAGURU专业数据分析网站 2012.9.3 http://192.168.1.102:50070/dfshealth.jsp 9 DATAGURU专业数据分析网站 2012.9.3 观看日志 10 DATAGURU专业数据分析网站 2012.9.3 浏览文件系统 11 DATAGURU专业数据分析网站 2012.9.3 数据写在了哪儿(从OS看) 12 DATAGURU专业数据分析网站 2012.9.3 HDFS设计基础与目标  硬件错误是常态。因此需要冗余  流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事 务处理  大规模数据集  简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即 是文件一经写入,关闭,就再也不能修改  程序采用“数据就近”原则分配节点执行 13 DATAGURU专业数据分析网站 2012.9.3 HDFS体系结构  NameNode  DataNode  事务日志  映像文件  SecondaryNameNode 14 DATAGURU专业数据分析网站 2012.9.3 Namenode  管理文件系统的命名空间  记录每个文件数据块在各个 Datanode上的位置和副本 信息  协调客户端对文件的访问  记录命名空间内的改动或空 间本身属性的改动  Namenode使用事务日志记 录HDFS元数据的变化。使用 映像文件存储文件系统的命 名空间,包括文件映射,文 件属性等 15 DATAGURU专业数据分析网站 2012.9.3 Datanode  负责所在物理节点的 存储管理  一次写入,多次读取 (不修改)  文件由数据块组成, 典型的块大小是64MB  数据块尽量散布道各 个节点 16 DATAGURU专业数据分析网站 2012.9.3 读取数据流程  客户端要访问HDFS中的一个 文件  首先从namenode获得组成这 个文件的数据块位置列表  根据列表知道存储数据块的 datanode  访问datanode获取数据  Namenode并不参与数据实际 传输 17 DATAGURU专业数据分析网站 2012.9.3 HDFS的可靠性  冗余副本策略  机架策略  心跳机制  安全模式  校验和  回收站  元数据保护  快照机制 18 DATAGURU专业数据分析网站 2012.9.3 冗余副本策略  可以在hdfs-site.xml中设置复制因子指定副本数量  所有数据块都有副本  Datanode启动时,遍历本地文件系统,产生一份hdfs数据块和本地文件的对应关系列 表(blockreport)汇报给namenode 19 DATAGURU专业数据分析网站 2012.9.3 机架策略  集群一般放在不同机架上,机架间带宽要比机架内带宽要小  HDFS的“机架感知”  一般在本机架存放一个副本,在其它机架再存放别的副本,这样可以防止机架失效时 丢失数据,也可以提高带宽利用率 20 DATAGURU专业数据分析网站 2012.9.3 心跳机制  Namenode周期性从datanode接收心跳信号和块报告  Namenode根据块报告验证元数据  没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求  如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测 出这些数据块,并在合适的时机进行重新复制  引发重新复制的原因还包括数据副本本身损坏、磁盘错误,复制因子被增大等 21 DATAGURU专业数据分析网站 2012.9.3 安全模式  Namenode启动时会先经过一个“安全模式”阶段  安全模式阶段不会产生数据写  在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时, 会被认为是“安全”的  在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束  当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数 22 DATAGURU专业数据分析网站 2012.9.3 校验和  在文件创立时,每个数据块都产生校验和  校验和会作为单独一个隐藏文件保存在命名空间下  客户端获取数据时可以检查校验和是否相同,从而发现数据块是否损坏  如果正在读取的数据块损坏,则可以继续读取其它副本 23 DATAGURU专业数据分析网站 2012.9.3 回收站  删除文件时,其实是放入回收站/trash  回收站里的文件可以快速恢复  可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值,就被彻底删除, 并且释放占用的数据块 24 DATAGURU专业数据分析网站 2012.9.3 元数据保护  映像文件刚和事务日志是Namenode的核心数据。可以配置为拥有多个副本  副本会降低Namenode的处理速度,但增加安全性  Namenode依然是单点,如果发生故障要手工切换 25 DATAGURU专业数据分析网站 2012.9.3 快照  支持存储某个时间点的映像,需要时可以使数据重返这个时间点的状态  Hadoop目前还不支持快照,已经列入开发计划 26 DATAGURU专业数据分析网站 2012.9.3 HDFS文件操作  命令行方式  API方式 27 DATAGURU专业数据分析网站 2012.9.3 列出HDFS下的文件  注意,hadoop没有当前目录的概念,也没有cd命令 28 DATAGURU专业数据分析网站 2012.9.3 上传文件到HDFS 29 DATAGURU专业数据分析网站 2012.9.3 将HDFS的文件复制到本地 30 DATAGURU专业数据分析网站 2012.9.3 删除HDFS下的文档 31 DATAGURU专业数据分析网站 2012.9.3 查看HDFS下某个文件的内容 32 DATAGURU专业数据分析网站 2012.9.3 查看HDFS基本统计信息 33 DATAGURU专业数据分析网站 2012.9.3 进入和退出安全模式 34 DATAGURU专业数据分析网站 2012.9.3 怎样添加节点?  在新节点安装好hadoop  把namenode的有关配置文件复制到该节点  修改masters和slaves文件,增加该节点  设置ssh免密码进出该节点  单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker)  运行start-balancer.sh进行数据负载均衡 35 DATAGURU专业数据分析网站 2012.9.3 启动某些特定后台进程而非所有后台进程 36  Start-all.sh的内容 DATAGURU专业数据分析网站 2012.9.3 负载均衡  作用:当节点出现故障,或新增加节点时,数据块分布可能不均匀,负载均衡可以重 新平衡各个datanode上数据块的分布 37 DATAGURU专业数据分析网站 2012.9.3 HDFS API 38 DATAGURU专业数据分析网站 2012.9.3 学习Java的参考书  《Java就业培训教程》,张孝祥,清华大学出版社  《Java程序设计教程》,雍俊海,清华大学出版社 39 DATAGURU专业数据分析网站 2012.9.3 上传本地文件到HDFS 40 DATAGURU专业数据分析网站 2012.9.3 创建HDFS文件 41 DATAGURU专业数据分析网站 2012.9.3 重命名HDFS文件 42 DATAGURU专业数据分析网站 2012.9.3 查看HDFS文件的最后修改时间 43 DATAGURU专业数据分析网站 FAQ时间 44
还剩43页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

风颖尘

贡献于2014-08-14

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf