hadoop存储与计算分离实践


余根茂 阿里云E-MapReduce团队 Hadoop存储与计算分离实践 p  传统集群部署实践 p  云上集群部署实践 p  传统集群部署实践 n  存储和计算 计算能力 存储能力 + = 集群能力 n  数据“中心” 本地磁盘比网络传输快 任务处理中数据获取开销大 计算找数据 以数据为中心 数据本地性 n  集群混部 n  理想 更少的数据迁移 更高的资源利用率 n  现实 带宽逐渐不是稀缺资源 磁盘不再是承载计算的主战场 n  现实 集群的木桶效应 集群资源浪费 n  现实 Data Locality vs. Remote Data n  混部的劣势 更多的集群资源浪费 更差的集群扩展性 不再万能的Data Locality 混合部署的合理性? p  云上集群部署实践 n  云计算基础设施 ECS SLS VPC ACS RDS ONS OSS MNS OTS E-MapReduce CDP CMS Express Connect 网 络 存 储 计 算 中 间 件 支 持 集 群 服 务 Block Storage n  云上集群部署 ECS HADOOP Block Storage E-MapReduce 一键部署,即开即用 n  新的挑战 存储成本比例较高 * 采用2016.10.9当天价格 n  新的挑战 热数据逐渐变冷 冷数据逐渐堆积 存储质量下降 数据Balance代价上升 n  新的挑战 磁盘存储费用高 冷数据积累 数据存储成本高昂 集群维护成本 数据服务可用性要求高 … 替代方案? Hadoop + OSS n  基于OSS的分离部署 OSS 内网传输 ECS HADOOP Block Storage n  OSS数据使用方式 n  OSS数据使用方式 n  OSS数据使用方式 n  Hadoop对OSS支持演进 2015.11 2016.3 2016.9 feture EMR-Core 1.0.0 提供 Hadoop对OSS的支持。 EMR-Core 1.1.0 针对通用 场景进行优化,性能提升 10倍。 EMR-Core 1.2.0支持 MetaService,安全性 和易用性更高。 针对小文件和数仓场景 的优化。 2016.7 EMR-Core 1.1.3 针对OSS的 读写进行进一步优化,提高了 稳定性和性能。 n  针对性优化 文件移动对OSS来说是比较重的操作 Hadoop执行中涉及到很多文件移动 output/ _temporary/ 0/ part-r-00000 _temporary/ attempt_201608262141 _0003_r_000000_0/ Task part-r-00000 attempt_201608262141 _0003_r_000000_0/ copy + delete part-r-00000 copy + delete n  针对性优化 文件移动对OSS来说是比较重的操作 Hadoop执行中涉及到很多文件移动 output/ _temporary/ 0/ part- r-00000.upload _temporary/ attempt_201608262141 _0003_r_000000_0/ Task part- r-00000.uploa d attempt_201608262141 _0003_r_000000_0/ copy + delete part-r-00000 OSS 碎片 管理 result result commit n  针对性优化 结果数据先写本地再上传OSS 结果数据边计算边上传OSS t t+1 t+2 compute disk write upload upload upload upload + commit OSS 碎片 管理 OSS n  针对性优化-未来 p 小文件预取和缓存 p 元数据视图系统 p … On the way n  成本和性能 成本能节省多少? 性能能达到要求? n  性能测试 p  DFSIO p  TeraSor t IO TeraGen/TeraSor t 测试工具 Hadoop DFSIO Spark版本 对比指标 时间 测试组 800 x 1KB(1MB,100MB,10GB) 10GB,100GB,500GB n  性能测试 测试平台 E-MapReduce Region 华东1 可用区B 网络环境 VPC网络 集群规模 1 主节点,8 从节点 机器配置 4核16G 机型II,4*200GB高效云盘 镜像版本 EMR-2.1.0 n  成本对比 场景模拟: p 一次500GB TeraSort排序的存储成本 p 一次年度采购中的存储成本 n  成本对比 Time Price Cost(storage) Hadoop+OSS 7364s 0.000148/GB/h 0.151元 Hadoop+HDFS 5106s 0.000582/GB/h 0.825元 一次排序测试的成本 * 以上为500GB TeraSort测试数据 * 云盘按照包年价格折算 * OSS按照包年价格折算 * HDFS采用2备份配置 81.7% n  成本对比 一次年度采购中的数据存储成本 数据量 5T 10T 20T HDFS 52224 104448 208896 OSS 6480 12924 25848 HDFS+OSS (热/冷=4/6) 24777.6 49555.2 99074.4 * 以上按照对应产品的包年价格 * HDFS采用2备份配置 * 未计入OSS的接口调用费用 87.6% 87.6% 87.6% 52.6% 52.6% 52.6% n  如何选择 合理组合才能带来性能和成本的双赢 成本 性能 HDFS 高 高 OSS 低 较高 n  E-MapReduce E-MapReduce(Elastic MapReduce)是构建于阿里云ECS虚拟机之上, 结合开源生态系统,为用户提供集群,作业和执行计划等管理的一站式大 数据处理分析服务。 n  E-MapReduce Aliyun ECS YARN MR Hive Pig Spark Streaming Spark SQL Spark MLlib …Spark GraphX E-MapReduce Console Aliyun OSS Aliyun RDS Aliyun OTS Aliyun LogService HDFS HBase Presto Aliyun ONS EMR-SDK Open API … 欢迎大家使用E-MapReduce
还剩36页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 2 人已下载

下载pdf

pdf贡献者

opentianya

贡献于2017-04-10

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf