大数据开发平台


BigData Dev@Alibaba 强琦(花名:和仲) CDO - 数据交换平台 2013.6.6 大纲 • 背景 • 大数据开发平台 • 应用 背景 • 数据规模 � 数百万表 � 结构化数据总量80P � 月增数据3P � 业务线全覆盖 � 外部 背景 能力 � 找不到-数据管理 � 用不起-计算能力 � 用不了-数据质量 关系 �empowerer �网状-星型 �数据市场-共享共建 方式 �平台-落地 �封闭-开放体系 背景.能力 • 数据管理-找得到 � 元数据,数据地图 � 质量体系-血缘 � 数据探索 • 大数据处理平台-用得起,用得好 � 大规模批量计算系统 � 流计算服务化平台 � 数据同步中心 � 实时数据中心 � 在线kv存储服务 背景.能力 • 大数据处理平台 � 调度服务 � 即时计算服务 � 监控,计量,审计,安全服务 � 开发者门户IDE � 算法平台 � …… • 用不了-数据质量 � DQC � 血缘 � … 背景.关系 • Empowerer �赋予别人能力 �易用性 �让大家充分来挖掘大数据价值 • 星型 �统一中间层ODS �通用数据层 �避免重复建设(数据质量) �数据做乘法 • 数据市场 �质量体系 �市场机制 �应用市场 背景.方式 • 落地 � 以业务落地为打造平台的标准 � 开放体系 • 组件API服务(介于saas, paas间) • 接入标准(元数据,安全,计量,血缘,授权) • open 数据交换平台.Alibaba Map 信用 信用 金融 金融 社会化 社会化 物流 物流 管理 管理 SASSSASS 数据交换平台 数据交换平台 淘宝 淘宝 天猫 天猫 一淘 一淘 阿里 阿里 云云 CC NN ZZ ZZ 金融 金融 平台支撑平台支撑 数据交换平台 基础数据 体系 基础数据 体系 安全体系安全体系 监控系统监控系统 审计系统审计系统 计量体系计量体系 开发者平台开发者平台 应用开发应用开发 决策分析决策分析 数据中间层 统一ODS 服务总线服务总线 在线数据服务在线数据服务 KVKV 实时计算实时计算DBDB…… 调度调度 工作流 资源调度 数据同步数据同步 批量同步 数据管理数据管理 生命周期 元数据 流式处理流式处理 数据质量 全量计算全量计算 SQL&MR MPI 实时同步 集群同步 sql DSL SOURCE 数据市场数据市场 数据地图数据地图 BSP 系统组成.全量计算 • 云梯1 �用户数 5k+ �资源组 200- �每天job数 20万- �任务Hive 85%,MR 13%,Streaming 2% �集群数(小时集群30台,大集群4400) �大集群扩展到9000台 系统组成.全量计算 • 云梯2 �每天调度任务数 25万~35万 �集群规模, 2047台集群和5000台集群 �每天IO, 400T �任务:SQL, MR, DT, BSP, R �基于飞天平台 �支持海量结构化数据的离线存储和计算 �以RESTful API的方式提供服务 �DT Tunnel支持以HTTP协议并发高速数据传输 �支持多用户管理和基于ACL和policy的权限控制 ODPSODPSODPSODPS架构架构架构架构 SQLSQLSQLSQLSQLSQLSQLSQL基础计算模型层基础计算模型层基础计算模型层基础计算模型层基础计算模型层基础计算模型层基础计算模型层基础计算模型层 算法平台框架算法平台框架算法平台框架算法平台框架 变量衍生框变量衍生框变量衍生框变量衍生框 架架架架 变量衍生框变量衍生框变量衍生框变量衍生框 架架架架变量构造及处理层变量构造及处理层变量构造及处理层变量构造及处理层变量构造及处理层变量构造及处理层变量构造及处理层变量构造及处理层 MRMRMRMR    MRMRMRMR     BSPBSPBSPBSP    BSPBSPBSPBSP     MPIMPIMPIMPI    MPIMPIMPIMPI     GraphiGraphiGraphiGraphi calcalcalcal     GraphiGraphiGraphiGraphi calcalcalcal     ………………………………………… 特征向量化特征向量化特征向量化特征向量化特征向量化特征向量化特征向量化特征向量化 Sort\Sort\Sort\Sort\ MatrixMatrixMatrixMatrix Sort\Sort\Sort\Sort\ MatrixMatrixMatrixMatrix 离散化、缺失离散化、缺失离散化、缺失离散化、缺失 处理处理处理处理 离散化、缺失离散化、缺失离散化、缺失离散化、缺失 处理处理处理处理 特征选择(特征选择(特征选择(特征选择(PCAPCAPCAPCA、、、、IVIVIVIV、、、、 IGIGIGIG、、、、……………………)))) 特征选择(特征选择(特征选择(特征选择(PCAPCAPCAPCA、、、、IVIVIVIV、、、、 IGIGIGIG、、、、……………………))))特征选择及分析层特征选择及分析层特征选择及分析层特征选择及分析层特征选择及分析层特征选择及分析层特征选择及分析层特征选择及分析层 变量分析及检验变量分析及检验变量分析及检验变量分析及检验 ((((ODPS-RODPS-RODPS-RODPS-R)))) 变量分析及检验变量分析及检验变量分析及检验变量分析及检验 ((((ODPS-RODPS-RODPS-RODPS-R)))) 抽样分层抽样分层抽样分层抽样分层抽样分层抽样分层抽样分层抽样分层 分类算法框分类算法框分类算法框分类算法框 架架架架 分类算法框分类算法框分类算法框分类算法框 架架架架核心算法层核心算法层核心算法层核心算法层核心算法层核心算法层核心算法层核心算法层 聚类算法聚类算法聚类算法聚类算法 框架框架框架框架 聚类算法聚类算法聚类算法聚类算法 框架框架框架框架 关联规则关联规则关联规则关联规则关联规则关联规则关联规则关联规则 非结构化非结构化非结构化非结构化非结构化非结构化非结构化非结构化 模型结果评模型结果评模型结果评模型结果评 估估估估 模型结果评模型结果评模型结果评模型结果评 估估估估结果输出层结果输出层结果输出层结果输出层结果输出层结果输出层结果输出层结果输出层 代码输出代码输出代码输出代码输出代码输出代码输出代码输出代码输出 规则输出规则输出规则输出规则输出规则输出规则输出规则输出规则输出 部署部署部署部署部署部署部署部署 流计算服务化 •MRM �void map(Info batchInfo, Record record, MapperEmitter emitter ); �void reduce(X key, List values, ReducerEmitter emitter); �T merge(T oldValue, X key, Z value, StateGroup stateGroup , Emitter emitter); �T rollback(T oldValue, X key, Z value, StateGroup stateGroup , Emitter emitter ); �mapOnly, mapreduceOnly, mrm �并行 DAG checkPoint 几对矛盾 吞吐与响应时间(batch) 实时性与数据通道不可控 非幂等处理与数据通道不可控(架构复杂度) 实时性与业务存储的压力 精度与成本 恢复成本与运行时成本 易用性与表达能力 CPi Bi2 Bi1 Bin B(i+1)2 B(i+1)1 B(i+1)k ………………………………………… CPj B(j+1)2 B(j+1)1 B(j+1)k …………………… …………………… Current CheckPoint(flush-Current CheckPoint(flush-Current CheckPoint(flush-Current CheckPoint(flush-存储多版本存储多版本存储多版本存储多版本)))) Incremental snapshot(i) Incremental snapshot(j) 即时计算 MN-1MN-1MN-1MN-1 ( ( ( (合并节点合并节点合并节点合并节点)))) MN-1MN-1MN-1MN-1 ( ( ( (合并节点合并节点合并节点合并节点)))) CCNCCNCCNCCN 配置中心配置中心配置中心配置中心 CCNCCNCCNCCN 配置中心配置中心配置中心配置中心 LCN-1LCN-1LCN-1LCN-1 ((((本地计算节点本地计算节点本地计算节点本地计算节点)))) LCN-1LCN-1LCN-1LCN-1 ((((本地计算节点本地计算节点本地计算节点本地计算节点)))) LCN-LCN-LCN-LCN-………… ((((本地计算节点本地计算节点本地计算节点本地计算节点)))) LCN-LCN-LCN-LCN-………… ((((本地计算节点本地计算节点本地计算节点本地计算节点)))) CN-1CN-1CN-1CN-1 ((((缓存节点缓存节点缓存节点缓存节点)))) CN-1CN-1CN-1CN-1 ((((缓存节点缓存节点缓存节点缓存节点)))) CN-CN-CN-CN-………… ((((缓存节点缓存节点缓存节点缓存节点)))) CN-CN-CN-CN-………… ((((缓存节点缓存节点缓存节点缓存节点)))) MN-..MN-..MN-..MN-.. ( ( ( (合并节点合并节点合并节点合并节点)))) MN-..MN-..MN-..MN-.. ( ( ( (合并节点合并节点合并节点合并节点)))) HDFS/HDFS/HDFS/HDFS/盘古盘古盘古盘古 集群集群集群集群HDFS/HDFS/HDFS/HDFS/盘古盘古盘古盘古 集群集群集群集群 ITierITierITierITierITierITierITierITier ITierITierITierITierITierITierITierITier WEBWEBWEBWEBWEBWEBWEBWEBISVISVISVISVISVISVISVISV 中间层 请求 Garuda 数据源数据源数据源数据源&&&&存储存储存储存储 MCNMCNMCNMCN 管理中心管理中心管理中心管理中心 MCNMCNMCNMCN 管理中心管理中心管理中心管理中心 RESTREST MYSQLMYSQL JDBCJDBC ZKZK ZKZKZKZK RESTRESTRESTRESTPANGU/HDFSPANGU/HDFSPANGU/HDFSPANGU/HDFS JDBCJDBC 即时计算.架构总览 开发者平台 开发一款数据产品 运行时 数据管理 数据同步 调度 同步 • TimeTunnel �日志实时采集、同步、订阅、存储系统 �60TB/天,500日志,分布1万台服务器,占205台 • Shrek � DB log,采集变更记录到TT(Mysql:binlog;Oracle:redo log) 主要应用 广告 大数据下的技术与商业初探 Data App Data Service Data Platform互联网基础服务 数据层 互联网业务 http://www.alidata.org/ @阿里和仲 Thanks
还剩28页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

wind1211

贡献于2014-07-02

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf