浙江移动云计算和大数据实践


ArchSummit全球架构师峰会 深圳站2015 行至水穷处、云起浙里时 --浙江移动云计算和大数据实践 汤人杰 2015年6月18日 第二部分 背景和问题 第四部分 浙江支撑云建设蓝图 第三部分 技术发展跟踪和思考 第五部分 建议与思考 第一部分 云计算与团队建设成果 目录 浙江公司云平台建设现状 目前浙江公司建设了三个资源池,各自独立发展,有独立的管理平台。  支撑资源池:承载业务支撑系统与管理支撑系统,上层管理平台由华胜天成负责开 发  网管资源池:承载网管支撑系统与业务平台,上层管理平台由东信北邮负责开发  IDC资源池:承载IDC业务(公有云),上层管理平台由华为负责开发 支撑资源池 (业务支撑+管理支撑系统) 网管资资源池 (网管支撑+业务平台) 资源池管理平台(华胜天成) IDC资源池 资源池管理平台(东信北邮) 资源池管理平台(华为) 物理资源 物理资源 物理资源  以大数据资源池管理平台为核心整合,形成企业统一资源池管理平台  网管支撑系统后续将逐步迁移到支撑资源池 支撑系统云化成果概览 资源池 • 截止2015年5月,支撑系统共有服务器3XXX台,其中X86服务器2XX X台。 • 支撑资源池共计604台X86服务器,共部署843个虚拟机,采用Vmware虚拟 化技术搭建 云化系统 • 截止2015年5月,共完成72个系统迁移至支撑资源池 • 2011年已完成CRM Web和APP的云化改造 • 计划8月底前完成计费账务系统云化改造 • 目前系统云化比例为43.56%,计划至年底前系统云化比例提升至60% 设备 • 5个机房,合计面积约1.15万平方米,机房利用率为77.5% • 各类主机3290台,处理能力达到18.11亿Tpmc,其中系统X86化比例62.5% • 各类存储设备容量达到6191TB,利用率88%;非高端(分布式)存储比例达 20% 2015年去IOE和系统云化工作重点 深度参与集团公 司去IOE试点项目 去“I” • 支撑、经分和管信三 域系统全面去“I” • 在原有商业虚拟化软 件基础上将引入开源 虚拟化软件 去“O” • 已使用大云RDB3完成统 一用户系统去“O”工作 • 今年将在CRM核心系统 部分模块实现去“O” 去“E” • 今年将在计费账务 系统和虚拟化资源 池中试点引入软件 定义存储,初步实 现去“E” 争取集团内去IOE工作的绝对领先地位 第二部分 背景和问题 第四部分 浙江支撑云建设蓝图 第三部分 技术发展跟踪和思考 第五部分 建议与思考 第一部分 云计算与团队建设成果 目录 困惑与问题(一)  应用永远云化中,开发商始终在叫云化改造工作量大,报价高。应用云化? 这概念是个什么东东?  大数据技术平台和云计算到底什么关系?大数据资源池和我们现在的资源池 什么关系?  技术架构竖井化,甚至以项目为单位搞技术架构。基础软硬件标准化管理失 控,七国八制,运维亚历山大,这种情况谈何核心能力掌控?  资源池CPU利用率为什么提不高?  小型机能云化吗?去I以后小型机如何投资保护? 困惑与问题(二)  浙江移动的云平台在技术架构上与阿里云有什么异同?  浙江移动的云平台在业界处于什么技术水平?  浙江移动的云平台是否可以使用或融合阿里云或华为云的技术架构?  ORACLE云如何建设和提供?  什么是PAAS?  公有云私有云?政企独立云?什么概念?如何实现?  云计算和大数据的关系?不使用虚拟机算不算云?  HADOOP上虚机? 云计算技术-核心特征和价值 云计算起源于亚马逊EC2产 品和谷歌-IBM分布式计算 项目 云计算主要核心特征 • 资源共享 • 按需自助 • 集中部署 • 弹性伸缩 云计算核心价值-降本增效、高能可靠 • 快速部署--聚焦业务,支撑业务 • 集中、共享、弹性、标准--有效降低成本 • 分布式计算和存储—提升性能和可靠性 云计算是个人PC、互联网之 后的第三次IT浪潮 云计算驱动企业IT架构演进 “烟囱”式IT系统架构 打破竖井、应用和平台解耦 打破供应商绑定 加强企业自身核心能力掌控 敏捷建设、聚焦支撑业务 统一管理建设运营,提升运维效率、提升资源利用率,降低TCO …… 企 业 IT 架 构 演 进 资源池化、云化IT架构 云计算技术-服务分层 云计算包括以下三个层次的服务: • IaaS(Infrastructure-as-a- Service):基础设施即服务。消费者通过Internet可设施获得虚 拟计算、网络和存储资源,比如Amazon AWS。 • PaaS(Platform-as-a- Service):平台即服务,指将软件研发的平台作为一种服务,比如 Google的AppEngine为企业和个人提供完整的开发、运行和部署的环境和工具。 • SaaS(Software-as-a- Service):软件即服务,通过Internet提供软件的模式,用户无需购 买软件,而是向提供商租用基于Web的软件。如Google提供的Gmail、Apps、搜索等。 云平台建设的常见路径是自底向上 IaaS PaaS SaaS 云计算与大数据 IaaS PaaS SaaS 物理资源 虚拟资源 Hadoop NoSQL MPP 公共服务组件 数据挖掘分析 (大数据平台服务)BDPAAS 云计算架构 EPaaS TPaaS DPaaS  云计算是大数据的基础,大数据是云计算的应用  大数据技术平台是云计算PaaS层的一个分支,是云平台 的重要组成部分 云计算技术-核心技术 云计算最核心的技术是 -- 并行计算 云计算是分布式计算、并行计算、分布式存储、数据管理、虚拟化、负载均衡等 技术发展融合的产物 并行计算的基本思想是:用多个处理器协调求解同一问题。即将被求解问题分为 若干部分,各部分均由一个独立的计算单元来并行处理,处理完成后,将结果进 行处理后返回用户 分布式操作系统-小变大之谜 由于纵向拓展可优化空间太小(单台服务器的性能上限很明显),分布式系统强调横向扩展、 横向优化,当分布式集群计算资源不足时,就要往集群里面添加服务器,来不停地提升分布式集 群的计算能力。分布式系统要做到统一管理集群的所有服务器,屏蔽底层管理细节,诸如容错、 调度、通信等,让开发人员觉得分布式集群在逻辑上是一台服务器。真正意义的大云必须真正实 现数据中心级的弹性伸缩,俗称小变大。 和单机Linux操作系统相比,分布式系统和单机Linux一样要解决五大类操作系统必需的功能, 即资源分配、进程管理、任务调度、进程间通信(IPC)和文件系统 关键要素:资源管理、调度管理 阿里云的启示-“大云”的技术生态圈 负载均衡技术:前端应用引流的标准化(调度服务一般可自行实现后台任务的调度) 轻量级虚拟化技术:资源隔离轻量化,资源生成敏捷化 分布式协调技术:应用无状态、应用名字集中管理、应用部署在线化。资源管理在线 化的前提恰恰是实现应用的无状态化 弹性伸缩 资源管理 虚拟化技术 重量级虚拟化 技术 轻量级虚拟化 技术 调度管理 分布式调度技术 负载均衡技术 分布式协调技 术 一个好汉:分布式调度 三个帮:负载均衡、轻量级虚拟化、分 布式协调 分布式调度和分布式协调是最难 实现的两个技术服务 身边的云-阿里云 标准硬件 飞天: 核心云构件 技术服务 身边的云-阿里云主要技术服务解构  IAAS服务-ECS、VPC、OSS 大致对应网络、I、E、虚拟机等基础设施的标准化、服务化、虚拟化  PAAS服务:ACE、MQS、RDS、DRDS、SLB、ODPS、 ADS、OTS、OCS…… 大致对应中间件、数据管理软件等平台软件的标准化、服务化、虚拟化 身边的云-阿里云-飞天平台解构  核心云构件-女娲、伏羲是实现“大云”的核心技术 支柱 – 女娲:应用协调、应用命名------分布式协调 – 伏羲:资源管理、应用调度------分布式调度 阿里云是真正意义的大云! – 阿里云深度实现了云计算核心技术并行计算 – 阿里云可以真正实现数据中心级的弹性伸缩 阿里云的启示-云的进化论 阶段1:X86化。核心是硬件标准化,是云的原始积累 阶段2:IaaS资源池化。核心特征是虚机级资源管理、调度管理和IAAS服务标准化,俗称 大变小。 阶段3:应用云化也可以叫做应用资源池化。核心特征是集群级资源管理、调度管理。但 这种管理都是私有化的、静态的 一方面是有积极意义的可视为云的进化,从小云进化到低级中云。一方面它的局限性太大,仍然是应用级的竖 井,不能跨应用弹性伸缩,云化能力不能被标准化和共享,这一点在技术角度和管理角度(供应商依赖和甲方核心能 力掌控)有着深远的负面影响! 阶段4:PaaS资源池化。核心特征是标准化的、集中的和动态的集群级调度管理,同时实 现了PaaS服务的标准化。资源管理仍然是静态的,分散的,但调度管理实现集中化、标 准化、动态化 将标准化的技术服务能力从应用层转移到PaaS平台层,从应用云化走向应用上云。这是我们近期很现实的一 个发展方向。尽管不能大幅度提升弹性伸缩范围,但可以解决云化能力的标准化和能力沉淀,可以极大降低我们对 供应商的依赖,提升核心能力掌控。本阶段云将进化到了高级中云。 阶段5:控制标准化,核心特征是实现资源管理的数据中心集中化和动态化,俗称小变大。 是我们发展的终极目标。可以真正实现大云。 2014年商用产品 2015年商用产品 2015年试点产品 存储 计算 网络 弹性计算 BC-EC 对象存储 BC-oNest 弹性块存储 BC-EBS BC-vNetwork 运营管理 运营管理 BC-OP 资源池管理 BC- Cloudmaster 云计算安全 BC-Security 资 源 层 云计算应用 (公众服务云,企业私有云,混合云) 中国移动云计算平台典型架构存在的明显缺失  技术服务层重IaaS轻PaaS  最关键的核心云构件层基本缺失  管理上的大云,技术上的小云 应用的快速部署开通受到极大制约 只能实现虚机层弹性伸缩,效果极其有限,严重影响资源的充分动态调度,降本增效 浙江公司云计算发展阶段的自我定位 降低风险 降低运营支出 降低资本支出 提高敏捷性 全面优化 简化 高效 灵活 统一 . 对数据中心内 部整体目标架 构没有统一的 规划设计 . 标准化的硬件和 软件体系 . 业务基础架构建 设以月为单位 . 通过核心云构件 实现进程级资源 共享 . 业务基础架构建 设以小时为单位 . 实现数据中心级 弹性伸缩 传统孤岛 标准化 IaaS 资源池化 PaaS 资源池化 控制标准化 虚拟化 服务化 智能化 孤岛 X86化 . 通过服务化实现 共享的平台架构 . 业务基础架构建 设以日为单位 . 实现集群级弹性 伸缩 . 通过虚拟化实现 共享的基础架构 . 业务基础架构建 设以周为单位 . 实现虚拟机级弹 性伸缩 (IT领先的银行) (领先互联网公司) (浙江公司) 应用资 源池化 大云不是梦 浙江支撑云建设路线 PaaS资源池化 控制标准化 IaaS 资源池化 应用资源池化 X86化 小型机 时代 2009年至今 2009年以前 2011年至今 2015年开始 只要有决心有思路抓紧干, 相当程度上实现真正意义的数据中心级“大云”不是梦! 1-3阶段往往是结合在一 起的,可视为一个大阶 段,也是我们目前所处 的大致阶段。 浙江支撑已经开始初步 实践阶段4,规划和技术 验证阶段5,这将是云的 后续大幅度提升和进阶 的阶段。 我们的管理差距在哪里? 用反云的方式建设云 • 云平台建设和应用云化改造不分:应用视角的竖井式云化建设 多,云平台自身建设考虑少。所谓系统的云化变成了应用的竖 井化改造,能力未能沉淀和积累,事实上形成新的竖井。应用 云化只是一个过渡性的概念,必将被基于PaaS资源池化 和EPaaS化的应用上云概念取代 • 用自上而下的方式管理云的投资 • 云平台整合化程度有限:资源池越多,资源利用率越低,建设 运维效率越低,云计算的效果越不能有效发挥 新时代的新竖井 问题很明显,后果很严重  云平台能力弱,应用上云难度大:大多停留在IaaS级,PaaS和核心云构件层严 重缺失,反过来导致应用云化改造代价大,不少应用仍长期停留在传统架构上  资源利用率,TCO管理水平与互联网公司差距仍然很大:CPU平均利用率明显低 于互联网公司 ;较高虚拟化软件License成本(1-1.5w/CPU),较低的整合比  应用快速部署开通,有效支撑业务能力有限:简单的IaaS云最多做到日级基础集 成,考虑PaaS和应用集成时间动辄周级,先进互联公司可以做到平台分钟级, 应用小时级  技术架构七国八制  资源池起不到能力储备作用,竖井式集成仍属常态,应用部署速度难以提升 大云几时有?把酒问苍天? 我们的问题实属业界的通病,因此,只要亡羊补牢,时尤未晚 第二部分 背景和问题 第四部分 浙江支撑云建设蓝图 第三部分 技术发展跟踪和思考 第五部分 建议与思考 第一部分 云计算与团队建设成果 目录 分布式协调服务-意义 分布式协调是分布式应用中不可缺少的,通常担任协调者的角色,或者说是将多机协调 的职责从分布式应用中独立出来,以减少系统的耦合性和增强扩充性。 众所周知,协调服务很难开发,它们很容易发生条件竞争和死锁,统一分布式协调服务 的建设动力就是减轻分布式应用开发的困难,使它们不再从头开始构建协调服务。但目前, 大部分分布式应用需要开发私有的协调程序,资源浪费,效果乏善可陈、系统扩展困难,开 发维护成本高,因此我们提出将协调器独立出来设计成为通用、伸缩性好的分布式协调服务。 应用1 client 应用2 client 应用3 client 应用1 协调器 应用2 协调器 应用3 协调器 应用1 server 应用2 server 应用3 server 应用1 client 应用2 client 应用3 client 分布式协调服务 应用1 server 应用2 server 应用3 server 分布式协调服务-应用场景 配置管理 主从管理 共享锁 集群管理 分布式消息队 列 统一命名服务 … … 分布式协调服务能做什么? • 状态数据共享-应用无状态-应用分布式-应用高可用性 • 应用服务名字管理-服务自动发现-服务自动注册-应用配置自 动化-应用运维自动化 意义重大! 分布式协调服务-建设建议 Chubby VS Zookeeper − Chubby中心化设计方式存在MASTER性能瓶颈及扩展问题,闭源 − Zookeeper是Google Chubby的开源实现,以Fast Paxos算法为基础, 解决了Chubby的单点瓶颈问题,已被广泛应用 − Fourinone据称在高可用性、内存管理效率等方面优于Zookeeper,但 闭源 我们的建设建议: − 考虑基于开源产品Zookeeper,建设EPaaS层级的通用的、伸缩 性好的分布式协调服务。 主流产品: − Zookeeper:开源产品 − Chubby:Google − Fourinone:淘宝 资源调度服务-意义 当前大部分应用使用静态分配 资源方式 ╳ 资源利用率低 ╳ 资源占用多,缺乏统一化,配 置峰值资源需求等于浪费资源 ╳ 扩展困难 因此我们提出建设资源调度服务,对资源进行 统一动态调度,为多种计算框架提供支持。  简化计算框架调用资源  简化多计算框架并用资源,减少了分布式计 算框架之间的选择,按需调用  为数据中心管理,自动化运维提供了更高层 次的方案 资源调度服务-常见开源解决方案  随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离 线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark 到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所 长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能 都会采用;  考虑到资源利用率,运维成本,数据共享等因素,互联网公司一般希望将所有 这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统 一使用,这样,便诞生了资源统一管理与调度平台,典型代表是Mesos和 YARN。  Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache 孵化器中的项 目。  YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变 而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出 的。它完全不同于Hadoop MapReduce,所有代码全部重写而成。 资源调度服务-建设思路 应用容器(AC) 负载均衡(LB) 实体服务总线(ESB) 虚拟服务总线(VSB) 分布式消息队列(DMQ) 分布式缓存(DMC) 弱一致性批处理 (WCBP) 强一致性数据分析 (CDA) 强一致性数据挖掘 (CDM) 流计算(SP) 高速流计算(HSSP) 分布式内存数据库(DMD) 数据交换(DE) 迭代式批处理 (IBP) 实时处理(RTP) 资源调度服务 分钟级别 小时级别 Mesos,集群资源管理器,提供了有效的、跨分布式应用或框架的资源隔离和共 享,可以运行MPI、Hypertable、Spark等多种应用。使用ZooKeeper实现容错 复制,使用Linux Containers来隔离任务,支持多种资源计划分配。  技术平台服务:Mesos+定制,实现资源调度、分钟级别动态伸缩  大数据平台服务:YARN,实现资源调度、小时级别动态伸缩 IAAS层的演进-虚拟化技术发展方向 Docker技术 虚拟机技术 LXC技术 LXC技术:Linux Container容器,基于Linux内核的Cgroup资源 管理框架,提供轻量级的虚拟化,隔离进程和资源,而且不需要提 供指令解释机制以及全虚拟化的其他复杂性,是一种操作系统层次 上的轻量级资源虚拟化技术。 虚拟机技术:硬件设备的软件模拟实现,技术核心为VMM(虚拟 机监视器),是一层位于操作系统和计算机硬件之间的代码,隔离 并管理上层运行的多个虚拟机,为每个客户操作系统虚拟一套独立 于实际硬件的虚拟硬件环境,是重量级的资源虚拟化技术。 Docker技术:开源的应用容器引擎,在标准的LXC之上融合AUFS 这样的分层镜像管理机制,抛弃传统VM试图模拟完整机器的思路, 而是以应用为单元进行“集装封箱”,是以PaaS层延伸的轻量级资 源虚拟化技术。 基于容器的集群管理产品 Kubernetes 是Google开源的容器集群管理系统,基于 Docker构建一个容器的调度服务,提供资源调度、均衡容 灾、服务注册、动态扩缩容等功能套件,为开发者提供了快 速构建和运行容器的方法,使CaaS(容器即服务)成为可 能。 目前Kubernetes迭代速度极快,发展迅速,成熟度较差。 技术发展趋势带来的思考  IaaS技术正在向开源化、轻量化方向发展,在私有云场景下传统虚拟机技 术即将遇到严峻的挑战。轻量级虚拟化的开源解决方案正在成熟, 意义重大  资源的弹性动态伸缩是云的本质特征,其核心服务分布式调度和分布式协调 已经有初步的开源解决方案,意义重大  IOE时代的技术管理关键字:已知,稳定,计划,商业  后IOE时代的技术管理关键字:未知,变化,迭代,开源  技术团队必须自己告诉自己该学什么技术 大云几时有?把酒问苍天? 行至水穷处,云起这里时! 第二部分 背景和问题 第四部分 浙江支撑云建设蓝图 第三部分 技术发展跟踪和思考 第五部分 建议与思考 第一部分 云计算与团队建设成果 目录 * 架构转型思路:面向互联开放的云聚化架构 • 从垂直型、功能型的传统架构,向“云+平台+应用”的互联网架构转型--架 构云化,能力聚化,应用互联网化 基于功能的垂直型系统建设 应用 数据 技术 设备 应用 数据 技术 设备 基于开放能力的系统建设 应用1 业务能力 技术能力 计算云 网络云 网络 转 型 1、基础设施架构云化:通过云计算技术,实现资源分配的高弹性高扩展性。满足互联网时代业务对技 术架构的高并发、快速响应、高可靠、海量存储等要求。 2 、业务、技术能力平台化:将各系统逐步进行改造形成应用+平台,标准化的、集成化、开放化的技 术、数据、业务能力平台,提高应用系统的专业化、组件化程度,提高建设效率。统一规划、管理各类 数据,加强大数据分析、挖掘等数据服务能力建设,推进数据变现。 3、应用互联网化:依赖云+平台+敏捷开发等手段、提供无缝的、全渠道的(内、外)客户体验优良的 应用,满足企业互联网营销和服务的需要。 应用2 能力集成 存储云 数据能力 基础设施云化 能力平台化 应用互联网化 * 架构转型:IT总体架构框架视图 思路:从垂直型、功能型的传统架构,向“云+平台+应用”的互联网架构转型--架构云化,能力 聚化,应用互联网化。 企业级中间件平台 企业级计算资源服 务 企业级数据平台 业务支撑域 大数据运营域 管理信息域 运营管理域 SaaS 层 IaaS 层 企业级存储资源服 务 企业级网络资源服 务 ISaaS BSaaS EPaaS APaaS 企业级云服务控制 平台 企业级大数据平台 应 用 层 能力集成平台 XX中心… 能力开放平台 应用层:供内、外部客户通过各种渠道交互使用, 综合提供多渠道协同的一致的客户体验。(分域建 设)。 层次划分及关系说明 ISaaS层:通过能力集成层完成各核心能力中心能力 的编排及标准化处理,实现对内(各中心间通信) 对外(各渠道应用)的透明访问与控制,并基于能 力开放平台完成能力的运营,实现能力的资产化管 理。 BSAAS层:能力层,实现核心的业务、数据、基础 技术等标准能力,对外提供标准化服务接口,并通 过能力集成层完成能力的注册与访问。关注能力的 聚合性与标准化。 EPAAS层:提供应用系统部署及运行所需要的云化 软硬件资源的透明访问与控制,实现应用与系统软 硬件的分离。 APAAS层:应用部署与运行层,提供应用系统部署 及运行所需要的软件资源,通过EPASS对外提供访 问服务。 IAAS层:基础设施层,提供应用系统运行的各种硬 件资源,通过EPASS层虚拟化后提供高扩展、高性 能、高可靠的云化系统。 PaaS 层 XX系统 … XX系统 … XX系统 … XX系统 … 架构转型:IT总体架构框架视图 * 业务能力服务 企业级中间件服务 企业级计算资源服务 能力集成与开放平台 企业级数据服务 业务支撑域 大数据运营域 管理信息域 运营管理域 应 用 层 PaaS 层 IaaS 层 企业级存储资源服务 企业级网络资源服务 ISaaS BSaaS EPaaS APaaS DPAAS 企业级云服务 企业级数据服务 BDPAAS 包括实体渠道、互联网渠道、 热线渠道各种交互式系统。 大数据域应用:包括数据门 户,客户体验、财务分析、 决策分析、创新变现等应用。 企业管理门户及系统。 运营管理门户及系统。 企业内部集成使用,包括服务总线、流程平台、数据总线 等,企业外部以开放服务提供业务能力及通信能力 业务支撑域能力,业务支撑能 力与基础业务与系统能力。 包括客户体验分析、财务分析、 运营决策分析;创新变现等能 力。 包括财务与人力管理,供应 链管理、规划与项目管理、 ERP、办公等能力。 提供应用系统部署及运行所需要的软硬件资源虚拟后的透明访问与管理控制功能,包括弹性 资源管理、分布式资源协调、分布式调度。 供应用部署及运行时使用的中间件, 包括WEB软件、消息中间件软件、分 布式缓存等软件平台。 供应用部署及运行时使用的数据库软 件。 供应用部署及运行时使用的大数据与 流计算软件。 各种计算资源池服务。 各种存储资源池服务。 各种网络资源池服务。 SaaS 层 包括监控管理,流程管理、 运营分析、安全管理等能 力。 能力规划-浙江公司支撑云平台蓝图 已具备能力 2015年建设 2015年研究 结合互联网企业先进理念和运营商实际情况制定的浙江公司云平台蓝图 业务支撑系统 客户服务系统 经营分析系统 管理信息系统 运营门户 资源管理 服务目录 流程管理 监控告警 部署自动化 容量管理 运维自动化 安全管理 自助服务 业务 系统 P a a S 物理资源(服务器、磁盘阵列、交换机、路由器……) 计算虚拟化 (VCS) 分布式块存储 (DBS) 分布式文件存储 (DFS) 分布式对象存储 (DOS) 网络虚拟化 (NV) 网络设备虚拟化 (NFV) I a a S 应用容器(AC) 负载均衡(LB) 实体服务总线(ESB) 虚拟服务总线(VSB) 分布式消息队列(DMQ) 分布式缓存(DMC) 关系型数据库 (RD) 强一致性 分布式内存数据库 (CDMD) 高速关系型数据库 (HSRD) 弱一致性批处理 (WCBP) 强一致性数据分析 (CDA) 强一致性数据挖掘 (CDM) 流计算(SP) 高速流计算(HSSP) 分布式内存数据库(DMD) 数据交换(DE) 迭代式批处理 (IBP) 实时处理(RTP) 分布式协调服务(DCS) 分布式调度服务(DDS) 资源弹性伸缩服务(ESS) 容器虚拟化 (CVS) 能力规划-浙江公司支撑云平台蓝图的主要突破点  着重规划了PaaS层服务能力,突破近年来云平台长期处于低水平IaaS级建设的 束缚,有望将虚机级弹性伸缩扩展到集群级,初步提升资源利用率和费效比, 同时在快速部署开通、有效敏捷支撑业务获得明显提升  直接针对阿里飞天,创新性提出EPaaS(数据中心操作系统)的规划,是实现 深度的弹性伸缩、提高资源利用率、降本增效的关键,为真正实现数据中心级 “大云”迈出坚实的一步  IaaS---IaaS资源池化---小云  APaaS指TPaaS、DPaaS、BDPaaS---PaaS资源池化---中云  IaaS+APaaS=技术服务层  EPaaS=控制层---控制标准化---大云 能力规划-与互联网公司对标 同样能实现: • 数据中心级资源抽 象化和共享化 • 技术平台标准化 • 应用与平台解耦 阿 里 云 全 景 图 与阿里云相比,我们的支撑云平台 有自己的优势: • 云服务数量更多开源社区版、开源 商业版、商业版产品融合使用,技 术开放性、数据一致性和安全性更 高 计划建设浙江移动特色的私有云,力争三年内建设达到或接近国内先进水平 也有挑战: • 应用云化迁移仍需逐步深入 • 和全面投产的阿里云不同,我 们的云平台很多服务尚需逐步 落地 阿里云目前已经涵 盖IaaS和PaaS层 多种云服务能力 2015年度支撑云建设重点目标 IT云平台建设内容和目标 •引入开源虚拟化平台KVM搭建 小规模资源池,降低对商业虚拟 化软件的依赖 •在资源池中尝试引入软件定义存 储并池化管理,提升存储使用效 率并降低成本 • 提升IaaS和PaaS层资源接入能力 • 实现资源自助式服务和一键式开 通能力 • 打造敏捷集成能力,实现标准化 资源集成周期由两周缩短为3天 •TPaaS层,重点建设分布式消息队列 和缓存等基础应用集成平台 •DPaaS层,重点引入数据库云平台, 搭建PG-XC平台用于去“O”试点 •BDPaaS(大数据平台)层,重点建 设分布式实时处理和批处理、数据挖 掘、流处理等平台 至2015年底,在云平台建设和去“ioe”方面取得重大突破,云化比例 达到60%;提供16种服务能力;实现自助式服务开通和敏捷集成; ------迎头赶上年内达到运营商内部领先水平 IaaS PaaS 云管理 平台 IT云平台建设目标和内容 云平台建设 支撑云建设思路的转变-两大转型 三管齐下:  能力规划,构建支撑云发展蓝图  以蓝图为路标,建设云平台将云计算技术架构落地沉淀  推动应用上云,以私有云的形式向上层应用提供基础技术平台服务。 自上而下》自下而上 应用云化》应用上云 以云平台服务目录管理为入口,坚决推进技术架构标准化 浙江移动传统数据分析系统架构 浙江移动传统数据系统主要包括数据仓库层和数据集市层,其中数据仓库层主要负责基础数据模 型的处理和历史数据存储,数据集市层从数据仓库获取基础数据模型,并在此基础上支撑端到端 应用。 • 数据仓库层主要包括主仓库、应急库、 历史库和互联网日志集群。 • 主仓库负责原始数据的采集和处理,并 将处理后的基础数据模型分发给各数据 集市,同时承载一经、KPI、MIS等及时 性较高的关键应用;应急库作为主仓库 的业务级容灾系统,用于保障核心业务 连续稳定运行;历史库存储主仓库历史 数据,并用于长周期历史数据趋势分析; 互联网日志集群主要负责互联网日志数 据的预处理。 • 主仓库、应急库、历史库采用小型机+高端SAN存储+传统DB2数据库构建; • 报表库、地市数据中心、创新平台、VGOP等数据集市采用小型机+高端SAN存储+传统Oracle数据库构建。 传统系统架构优化的业务背景及驱动力 传统小型机+高端存储+传统关系型数据库的系统架构存在性能、成本、扩展性上的瓶颈,无法满 足大数据时代在低成本前提下在海量、多样的数据中高效地提取价值的要求。因此,大数据时代 的经分系统架构亟需变革。 与传统数据相比,网络数据在数据量上有质的变 化并且还在快速增长(年均增长率约60%); 47 95 180 360 1200 2100月记录条数(亿)传 统 计 费 话 单 新 增 网 络 数 据 与传统数据相比,网络数据有分析模式多样化(如路径 分析、社交网络分析)、存储模式非结构化(如文本) 的特征; 为了支撑流量经营,浙江移动在经分系统中引入了DPI、互联网日志和位置信令等多种网络数据 源,这些网络数据具备大数据的典型特征,对现有经分系统架构带来了新的挑战。 传统经营分析系统架构的问题分析 • 系统处理能力不足:网络数据具有数据量大、增长快的特征(目前日均125亿条记录,3TB左右数据量,年 均增长率约60%)。现有经分系统采用传统的集中式架构(小型机+高端存储+DB2数据库),对海量数据 的处理能力不足。目前DPI数据(每日70亿条记录)的处理时间共需21个小时,无法满足流量经营业务需 求(业务要求次日8点前看到前一天分析结果); • 系统处理模式单一:现有经分系统采用传统关系型数据库DB2,主要通过SQL方式进行数据处理,不具备 MapReduce等分布式处理机制,对于诸如路径分析、社交网络分析存在性能瓶颈,无法满足大数据时代 分析挖掘的业务需求; • 非结构化数据处理能力不足:传统关系型数据库采用二维表的方式存储预定义结构的数据,但是对文本 (如互联网网页)等无法用二维结构描述的数据不能进行有效存储及处理,缺乏非结构化数据的处理能力; • 实时解析能力不足:当前网络数据采集延时较高,如DPI数据采集延时在1小时以上,互联网日志采集延时 在30分钟,位置信令延时5分钟,无法满足实时营销的要求;网络数据仍以传统批量处理方式进行数据整 合,数据生成通常需要隔天,无法支持对实时营销事件的触发和协同要求。 数据处理 能力不足 • 存储周期不足:目前经分历史库的容量已趋近极限,数据存储周期不足,无法满足长周期深度趋势分析的 业务需求,比如计费详单数据要求存储12+1月,目前只保存3+1月;同时海量的网络历史数据无法纳入历 史库。若采用传统方式扩容历史库,成本过于昂贵(相较于X86+本地盘的云架构,相同TPMC的小型机价 格是X86平台价格的10倍,相同容量的高端存储+SAN网络价格是普通硬盘价格的20倍)。 数据存储 能力不足 • 接口机存在网络和性能瓶颈:外围数据源与数据仓库,数据仓库与各数据集市之间的交换都依靠接口机, 面对百亿级网络数据,1Gb带宽的接口机成为数据传输瓶颈,影响数据传输的及时性; • 系统之间数据交互混乱、效率低:目前仓库、集市部署了多套ETL工具和多种接口方式,同时存在集市直 接从源系统抽取数据的情况,造成数据不一致的隐患,影响了数据的准确性。 数据交换 能力不足 大数据发展业务需求分析 客户洞察及市场营销 . 360度视图 . 交往圈分析 . 基于社交网络、社交媒体、位 置等信息的实时、智能营销 . 流量经营、存量经营、集客经 营、智慧家庭经营、智慧生活 经营 数据外部化运用 . 服务社会公共事务 . 服务其他企业和行业 企业管理 . 投诉及满意度分析 . 客户服务保障支撑 . 客户业务体验分析 智能运维 产品优化创新 . 个性化资费套餐 . 差异化贴心服务 . 定制化产品 . 业务创新 . 全程全网监控 . IT系统运营管理 客户服务 . 财务分析 . 成本分析 . 供应链运营分析 . 网络规划建设分析 . 内审专题分析 大数据发展技术需求分析 主流大数据技 术 内存数据库 NoSQL技术 流计算技术 MPP技术 应用分析:Hadoop 在处理非结构数据和半结构数据上具 备优势,尤其适合海量数据批处理等应用需求。随着 Hadoop技术的成熟,基于Hadoop的即席查询技术也逐渐 崭露头角。比如仿照Dremel的开源项目Apache Drill以及 Cloudera Impala。 应用分析: MPP数据库适合结构化 数据的深度分析、复杂查询以及多变 的自助分析类应用。无需像Hadoop 一样需要定制开发,同时可以降低拥 有成本。 应用分析:Storm是一种开源的分布式实时计算 系统,可以简单、高效、可靠地处理大量的数据 流。Spark Streaming是基于Spark衍生的开源 流处理工具,以类似批处理方式来处理这部分小 数据。 应用分析: NoSQL抛弃了关系数据库复杂的关系操作、事务处 理等功能,仅提供简单的键值对(Key,Value)数据的存储与查询, 换取高扩展性和高性能。例如HBase和Cassendra等。 应用分析:将数据存储在内存RAM中并进行 计算和查询,充分发挥多核CPU的能力的数 据库管理系统。内存计算未来尝试和流计算 配合,用于状态和规则的存储,尝试用于缓 存,优化客户体验。 Hadoop技术 平 台 技 术 要 求 对信息技术部大数据平台提出的技术要求 海量数据存储 1.非结构化及海量数据处理 2.低成本的PB级数据存储 3.海量数据的一致性,分布式事务管理能力 实时大数据分析 1.实时数据展现,实时分析 2.流计算能力 云化能力 1.多租户能力,在存储、计算、分析层实现资源隔离,提供云服务 2.资源虚拟化,统一存储,统一管理 数据开放 1.分析结果对外部系统开放数据能力,发掘数据价值 2.地理位置数据分析报告开放能力 BOM模型融合 1.数据质量管理和数据资产管理 2.BSS,OSS,MSS三域融合数据模型 任何一种单一技术都能以满足 大数据采集、存储、处理和对 外服务的需求,多种技术并存 才是发展趋势,即采用“混搭” 架构 大数据整体目标架构(平台+应用) 采集层:快速、准确地采集数据。 存储与计算:平滑扩展的存储与计算能力。 分析引擎:提高大数据分析效率的工具平台。 数据服务层:提供公共分析结果的调用。 管理中心:高效、统一的运维与数据管理。 应用层:百花齐放的应用。 B域数据 O域数据 M域数据 互联网数据 社交数据 IoT数据 第三方数据 平台存储 与计算层 数据 服务层 应用层 数据源 采集层 … 存储与计算 离线采集 (ETL) 实时采集 (Flume/Kafka..) 互联网采集 (Crawler) 第三方 数据采集 分析引擎 统计分析 数据挖掘 交互式分析 透明访问 多媒体分析 流处理 RTD 融合数据模型 标签管理 行业知识库 用户 洞察 位置 洞察 终端 洞察 策略 洞察 网络 洞察 渠道 洞察 … 数据开放总线 精准营销 客户体验管理 动态人流监控 日志留存 营销效益分析 广告平台 …… 管理中心 应用管理 数据管理 元数据管理 数据质量 DataStudio …… 统一管理 任务调度 资源管理 告警监控 …… 传统DB MPP 流处理 Hadoop / Spark / Impala /.... 企业级大数据平台的云服务 Oracle Mysql集群 Hbase …… NewSQL NoSQL 批量统计服务 即时统计服务 实时统计服务 实时规则触发服务 数据采集服务 数据交换服务 实时查询 自助分析 flume sqoop ActiveMQ kafka …… 联机分析型 云化数据库资源池 (MPP) 混合型 云化数据库资源池 (EXDATA) Hadoop 资源池 流处理资源池 (IBM Streams、Storm) 企业级云化大数据平台对外提供3大服务:数据交换服务、数据处理服务、数据开放服务。 数据交换层:以Flume、Sqoop、Hadoop、消息队列等技术建立统一数据采集交换中心,提供数据采集服务、 数据交换服务,实现移动信息生态圈数据共享与交换。 数据处理层:以Hadoop、MPP、流处理等技术建立数据处理中心,提供离线计算服务和在线计算服务,实现 海量数据批处理和实时处理。 数据开放层:以Oracle、Mysql、Hbase等技术,实现海量数据实时查询、多维度挖掘分析,实现大数据变现。 企业级云化大数据平台 Oracle (数据展现) Essbase (多维数据查询) Hbase (实时查询集群) Pg、mysql gbase…… 数据交换集群 ( hadoop生态体系:flume、spark sql、hive、消息队列) Hadoop资源池 流处理资源池 IBM Streams [主](高性能) Storm [辅] 大数据分析集群 (单一维度数据 分析、 O、B、M三域 历史存储) MPP资源池 Exdata集群 (混合场景) Aster集群 (数据挖掘) 数 据 挖 掘 平 台 产品待定 核心数据仓库 GBASE 数据分析集市 数 据 集 市 资源管理 运维管理 调度管理 数据管理 BIEE Tomcat Weblogic Apache 自助报表 … 框架 中间件 专题 报表 开放服务(Restful) ……. 安全管理 爬虫集群 ( HDFS 、 Nutch、Solr DMZ区) Hadoop 数据交换 MPP Hadoop通用集群 (单维度数据应用) GBASE基础集群 (融合类DW建模) GBASE应用集群 (融合类数据应用) 数据开放 一体机应用集群 (大并发类数据应用) aaaa ASTER应用集群 (挖掘类数据应用) 流处理 IBM STREAM (高性能实时数据应用) STORM (中低性能实时数据应用) 多维实时查询(待定) 海量实时查询(HBASE) 应用数据(如指标库) 常规查询(Oracle) 应用数据(如报表) 其它查询(KV等) 应用数据(如广告查询) 在线自助分析(待定) 应用数据(如标签库) 分发模型 DW模型 DWD模型 (全量) 应用数据处理 应用数据处理 融合建模 DW模型 分发模型 DWD模型(B域为主) 分发模型 DW模型 DWD模型 ( B域为主) 应用数据处理 分发模型 DW模型 DWD模型 ( B域为主) 应用数据处理 分发模型 DW模型 DWD模型 ( B域为主) 应用数据处理 应用数据(如OLAP) 统一采集分发 ( Hadoop/Hive/spark sql Kafka/Flume等) 基础建模 分发模型 ODS DWD DW模型 数据服务 位置服务 洞察服务 金融服务 … 应用数据处理 Hadoop 爬虫集群 大数据整体系统架构 第二部分 背景和问题 第四部分 浙江支撑云建设蓝图 第三部分 技术发展跟踪和思考 第五部分 建议与思考 第一部分 云计算与团队建设成果 目录 中国移动云计算发展愿景-低成本、高效、统一 云计算发展愿景  云计算将逐步成为构建中国移动各IT系统的核心,通过云计算技术降低系统建设 和运营成本,提高信息处理能力,实现服务创新,增强企业核心竞争力 基于IT系统低成本高效建设和发展的需求,在 基础设施和应用等方面实现系统架构的革新 统一规划建设企业私有云(支撑云和业务云) 以资源池形式支撑内部IT系统的资源需求,具备 根据需要分配资源和弹性扩展的能力 采用多租户形式实现IT应用系统的集中 构建私有云实现IT基础架构的革新 面向公众客户(中小微企业、个人用户), 提供标准化的通用资源和服务,类似亚马 逊AWS 面向大中型政企客户,提供针对客户需求 定制化云服务平台,如盘古搜索 进一步发展基于云计算的移动互联网业务 服务对象为公众客户,可信任程度较低, 存在较高的应用安全风险,需提供较完备 的安全管理手段 基于“移动信息专家”的转型需求和业务创新 的需要,推出公共云服务,为中国移动的发展 提供新的“蓝海” 提供公共云服务打造中国移动新“蓝海” 对内通过企业级私有云实现IT资源有效整合 对外提供基于云计算的公众云服务 两类云平台分别规划,独立建设 集团计划建设部《2011年中国移动云计算工作思路》 : 身边的云-阿里云的启示 阿里云  技术架构追赶谷歌看齐,具备技术上一统的能力,达到阶段五  分为私有云和公有云,二者技术架构统一,管理平台统一,运维管理 体系统一  按照安全管理等管理需求,划分成七个相对独立的集群  大力推进阿里公有云和阿里政企私有云,为大数据运营暗度陈仓  阿里云的安全问题是最大软肋,阿里大力掩盖中 浙江移动云  技术架构大部分处于阶段二,部分阶段三,阶段四正在起步  按部门和项目建设分为多朵云,仅IAAS技术架构统一,管理平台 即将统一,运维管理体系不统一  第三条曲线的挑战即将到来,大数据平台和运营变现风雨欲来  作为国企,安全是我们的卖点 对浙江移动云计算发展的思考  技术架构演进,技术架构统一,管理平台统一  如何分域?分域后运维管理是否必要统一?  从企业级大数据统一运营变现的角度,未来省级私有云和公有云是否有整合为一朵云的必要?  NFV之后,由于基础设备的特殊性,核心业务云也许会横空出世? 支撑资源池 网管资源池 IDC资源池 支撑云 业务云 公众服务云 企业私有云 混合云 ? NFV云 ? 回答问题  资源池早就有了,但为什么每年报硬件投资总是应用视角?据说是计划STYLE?四个字,与时 俱进  应用永远云化中,开发商始终在叫云化改造工作量大,报价高。应用云化?这概念是个什么东东? 应用云化是过渡性产物,会淘汰  大数据技术平台和云计算到底什么关系?大数据资源池和我们现在的资源池什么关系?BDPaaS 是云平台PaaS的一个分支。我们现在基本是IaaS资源池,大数据是PaaS资源池  资源池CPU利用率为什么提不高?  资源池早就有了,为什么不少应用上线总是在等机器?因为我们的云计算还在前三个阶段,到 四五阶段就好了  小型机能云化吗?去I以后小型机如何投资保护?能做IaaS虚拟化,但对应用有要求。如果抛开 应用改造,好的办法是在PaaS资源池使用。此外还要结合维保代价综合考虑,利旧一部分应该 是合算的。  为什么集成还是觉得慢?一,竖井式建设是最大的罪魁祸首;二,应用自身部署慢,或架构落 后通不过入网测试;三,网络环境复杂要联调;本质上和第一二个问题一回事。 回答问题  技术架构竖井化,甚至以项目为单位搞技术架构。基础软硬件标准化管理失控,七国 八制,运维亚历山大,这种情况谈何核心能力掌控? − 必须通过云平台建设,推进技术架构标准化,否则运维效果,运维成本,核心能 力掌控永无宁日  浙江移动的云平台是否可以使用或融合阿里云的技术架构? − 可以使用,遇到的挑战主要有运维能力培养,技术选择权的丧失。本质上阿里是 一个封闭体系。不可以融合,阿里云的IaaS、PaaS、飞天是耦合的。  浙江移动的云平台是否可以使用或融合华为云的技术架构? − 华为主要是基于OPENSTACK体系上做的二次开发,相对开放性好一些,移动不 会彻底丧失技术选择权。但华为目前主要聚焦于PaaS。 核心观点总结  X86化,虚拟机化不等于云化,PaaS资源池化和核心云构件EPaaS的建 设才能实现真正意义的大云,这一点对企业私有云意义尤其重大  大数据技术平台的整合和发展、轻量级虚拟化技术,HADOOP和 DOCKER的融合、ZOOKEEPER和MESOS技术的发展很可能成为未来一 段时间内云计算架构演进的重点  应用云化的提法很可能已经过时,后续可考虑改为云平台建设+应用上云, 应予以纠正  云计算推广和建设应摈弃传统的自上而下的竖井式做法,改为自下而上的 平台化视角  从企业整体视角,资源池应有三统一分(技术架构统一,管理平台统一, 数据运营统一,安全管理分域)的整体理念,而不是简单地以部门甚至项 目为单位切分
还剩59页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 2 人已下载

下载pdf

pdf贡献者

e6ef

贡献于2015-09-15

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf