• 1. 亿赞普Hadoop应用浅析IZP 肖燕京密级:
  • 2. 目录一 IZP Hadoop集群现状 Hadoop应用 Hadoop集群维护及出现的问题密级:
  • 3. 一:IZP Hadoop集群现状集群规模 共大、小 2个集群:数据中心和实验室集群 数据中心: 1台NameNode, 1台SecondNameNode, 1台JobTracker,100来台DataNode 共100多台高配服务器; 数据中心又分为10多个机架,每个机架上10多台服务器; 实验室集群:共10几台普通微型机. 机器配置 名称节点和第二名称节点内存不小于90G,硬盘约1TB JobTracker内存不小于20G,硬盘约1TB 数据节点内存不小于20G,硬盘不小于10TB 槽位分配:每台机器十多个Map槽位,四至六个Reduce槽位 密级:
  • 4. 一:IZP Hadoop集群现状集群一天新增数据 包括新上传数据和作业产生的新数据 一天新增数据不小于4TB 集群使用现状 一天提交约2000个Job 所有Job输入日志为60-80 TB 平均每天Hadoop集群的使用率为20-25%密级:
  • 5. 二:IZP Hadoop应用 数据挖掘 网页库 爬取的网页存入Hbase 从数据中提取网页关键词信息,并对网页进行兴趣组分类 CTR (网页的广告点击率 预测) 用户兴趣组 根据用户的历史行为对用户进行标签分类; 不同的用户在同一个页面看到不同的广告; 密级:
  • 6. 二:IZP Hadoop应用商业智能 数据分析 对日志进行统计汇总,进行商业分析,提取商业价值 数据产品 将相关业务需求整理成一个产品; 与CTR等公司合作 比如联合CTR公司对春节联欢晚会网络直播进行了满意度调查 密级:
  • 7. 二:IZP Hadoop应用数据平台 转码 中间数据 分成5个维度; User维度:统计用户的属性,行为; url维度:统计url来源、去向、pv、uv等 Host维度,Query维度,Ad维度 分词在Hadoop中的使用 爬取到的网页内容如此之大,如何进行分词! 分词涉及到多个c++库,而且是个c++可执行程序; Pscp 的使用: pscp -h hostlist.txt -l user src.xml /target 密级:
  • 8. 三:Hadoop维护与出现的问题哥们,你今天使了多大力?(槽位监控) 每台节点上布置程序统计该节点的槽位利用率信息 将上述信息导入Mysql 汇总,在网页上展示 密级:
  • 9. 三:Hadoop维护与碰到的问题密级:
  • 10. 你今天做了几个俯卧撑? 每天提交的作业数也是衡量Hadoop利用率的一个指标 对JobTracker上的日志进行分析提取 统计Job提交数 统计成功运行Job数 这些Job的总输入数据规模 密级:三:Hadoop维护与出现的问题
  • 11. 妙手回春 (死节点自动重启) 包括datanode与tasktracker的守护进程 从JobTracker页面抽取死掉的tasktracker 从NameNode页面抽取死掉的datanode 分别对上述的死节点执行重启操作 将上述程序放入定时器让其每隔一定时间执行一次 密级:三:Hadoop维护与出现的问题
  • 12. 我的地盘听我的 1) Hadoop权限管理 用户与组别设置: 对应客户端的用户与组名吗? /user/xxx权限管理 2) Hadoop资源分组 capacity-scheduler 每个用户限制Job个数 每个组限制系统资源密级:三:Hadoop维护与出现的问题
  • 13. 后继有人(NameNode镜像备份) 1) 设置定时器自动拷贝镜像 使用expect 2) 网络文件系统备份 新建NFS hdfs-site.xml 中 dfs.name.dir密级:三:Hadoop维护与出现的问题
  • 14. 机架感知 1) 设置core-site.xml中topology.script.file.name属性 2) rack.py 可执行权限 输入ip 输出机架名 密级:三:Hadoop维护与出现的问题
  • 15. 三:Hadoop维护与出现的问题有只拦路虎(集群负载不均衡) 根据槽位数分配任务 用了少数几个槽位也可能会导致机器负载高 如果还往这台机器分配任务…… JobTracker死锁 密级:
  • 16. 密级:欢迎有识之士加入亿赞普Thanks for listening and thinking!xiaoyanjing@izptec.com