• 1. 淘宝Hadoop数据分析实践淘宝 数据平台与产品部 周敏(周忱)
  • 2. 数据分析选型历程 Hadoop简介 系统架构 集群介绍 近期对Hadoop的改造实践主要内容
  • 3. webalizer awstat 般若 & Oracle Atpanel & Oracle RAC 日志最高达250GB/天 最高达约50道作业 每天运行20小时以上 Oracle RAC集群最多20个节点 Hadoop Hive淘宝数据分析选型历程
  • 4. Hadoop是什么一个Map/Reduce框架实现一个开源项目一个分布式计算平台一个分布式文件系统
  • 5. Oracle 备库MySQL 备库日志系统Hadoop Cluster:云梯1TimeTunnelDataExchange数据平台搜索支付宝B2B云梯2天网调度系统Gateway Servers数据魔方量子统计口碑DataSync爬虫数据Map Reduce Java JobsStreaming JobsHive Jobs广告BI淘数据推荐系统搜索排行…目前架构
  • 6. 规模总容量27.79PB, 利用率51.06% 总共1600+台机器 约6.6千万个文件 每台机器12 TB/24TB 约40000道作业/天 扫描数据约1.7PB/天 产生数据约255 TB/天 用户数820人, 用户组67个
  • 7. YunTi调度器 Heartbeat锁粒度降低 JobHistory页面分离 Log4j配置及使用优化 MapReduce模拟器JobTracker优化
  • 8. NFS配置 Synchronized锁换读写锁 RPC reader多线程 为提速作业提交, 引入新的RPC 乐观锁 吞吐量提升20+倍, OPS达4w 重启提速, 启动时间约为原来的1/3 NNThroughputBechmarkMixed HDFS模拟器 NameNode优化
  • 9. 极限存储 采用增量存储表数据 建立聚簇索引定位某天/某段时间内的快照 压缩核心表在云梯的存储空间, 平均比率1/30 已经节省3PB空间 压缩 历史数据采用BZip2压缩 已经开发LZMA2压缩, 等待上线 Hadoop RAID 源于Facebook的版本, 添加Placement Mover 正在上线, 预计可再节省3PB空间存储优化
  • 10. 避免JobClient/TaskTracker上传、下载相同文件 Reduce 数目自适应 Hadoop Job Hooks CRC32 小作业优化 Shuffle线程sleep 5秒 OOB heartbeat setup/cleanup task消除 LocalJobRunner小作业优化
  • 11. 淘宝数据魔方 http://data.taobao.com 淘宝数据平台团队博客 http://www.tbdata.org/ 个人 http://coderplay.javaeye.com http://twitter.com/minzhou 链接
  • 12. Thank you!Q&A