• 1. 大数据模型构建平台BDMP 方案介绍BDX-SRD-Solution Support Dept. 2015-02
  • 2. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 3. 背景内部需求行业需求大市场需求 模型设计及开发经验丰富,但缺乏有效载体,经验沉淀不足; 模型复制难度大,项目实施费时费力; 项目实施往往加班加点,人力资源复用率较低,工作效率不高 通信行业BI系统进入瓶颈期,指标杂乱,管理无序,效率低下,亟需对数据仓库进行重构; 目前多省已表达出重构需求,工程量随时可能放大 亚信战略转型,放眼金融业、电商、政企等大市场。需求一旦纷至沓来,我们是否做好了准备? 我们的“装备”是否先进? 借助本次模型重构的契机,依据模型设计的全流程,推出大数据模型构建平台(Big Data Modeling Platform,简称BDMP),旨在利用IT化的手段,沉淀建模经验,提升工作效率,让模型构架更加专业、规范,后期管控及维护更加方便快捷。BDMP将成为我们在模型建设中的一把“利刃”
  • 4. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 5. 定位对内 提升模型建设效率; 沉淀模型设计经验对外 平台定位 强化模型设计能力; 提升模型管控效率 与DACP的关系数据调研数据初始化概念模型设计逻辑模型设计物理模型设计BDMP 模型设计开发管理数据管理运行监控维护管理…… BDMP侧重于模型架构及设计阶段,DACP侧重于开发及维护; 模型开发及维护依然借助于DACP,与DACP形成模型全流程管理DACP 开发维护
  • 6. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 7. 亮点建模工具IT化 建模经验得到有效沉淀,有效提升工作效率模型要素标准化 构建行业指标库、维度库、规则库等,建立一套标准体系模型命名自动化 表、字段自动规范命名,字段词义解析,并能不断积累完善模型转换自动化 逻辑模型设计完成,依据指定模型层次、主题、平台(DB2及Hadoop),自动生成物理模型
  • 8. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 9. 服务 层准备层基础层数据调研系统 管理逻辑模型物理模型基础配置信息数据层次配置分表原则配置主题域配置基础配置信息数据层次配置分表原则配置主题域配置知识库模板库数据可视化概念模型系统架构
  • 10. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 11. 数据分类设计数据分布调研数据CRUD调研逻辑 模型基础概念 模型概念模型物理模型对数据类型进行调研和划分,确认数据的大的分类数据分布设计的目的是需要对当前企业内部的系统分布及数据在各个系统中的分布情况进行调研,掌握目前企业已经具有的数据 在数据分布调研过程中,不仅要关注当前系统的情况,还需要关注系统演化的路线,及对数据分布造成的影响数据CRUD模型定义了数据的所有权,规定了各系统对每一类数据的操作权限(创建、读取、更新和删除)方法论-建设步骤
  • 12. 数据模型建设阶段 数据仓库的概念模型是联系主观与客观的桥梁,它是一个为一定的目标设计系统、收集信息而服务的概念性工具,具体到计算机系统设计中,概念模型是客观世界到计算机世界的一个中间层次。概念模型的作用就是信息世界的一种架构。因此,概念模型的设计要求创建一种基于对象的,代表实际业务的模型。由于概念模型是面向业务层面的模型,因此概念模型主要来源于业务和需求。 是一个高层次的数据模型 定义了重要的业务概念和彼此的关系 由核心的数据实体或其集合,以及实体间的业务关系组成 设计时可以采用实体建模法,来保证概念的完整性,以及减少概念的重复数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型概念模型
  • 13. 数据模型建设方法论Party Managment:参与方管理包括现在和未来希望可以维护其资料的参与方,包括个人客户(潜在)、集团客户、家庭客户、SP等供应商、员工等等Revenu: 收入覆盖所有的收入源(预付费/后付费,设备租赁,或者销售),销售流程,预存,缴费和返还/调账流程。以及由收入产生的账户、账务、收入、欠费等等的信息。 。 .Finance(Cost and Contribute):财务是业务的财务透视,包括电信服务提供商业务的所有成本,这个域与所有其他的业务域相交,但是限制自己是成本和赢利能力两个方面的度量。 。Service: 服务包括产品、规格、策划、服务、订购实例等电信和其他公司向外出售的相关信息及服务能力参与方参与电信所有活动所产生的并且希望保留记录信息,例如: tCDRs,客户息,以及由此产生的日志、流服务信水信息等等。Event: 事件/活动(使用者)Resouce : 资源电信网络、终端、物品、地域等等的资源信息Marketing: 市场使用潜在客户与联系人的列表,覆盖所有的忠诚度,营销活动和促销流程,以及市场份额Provision and Activation:供应链覆盖完整供应链的订单管理和安装流程。包含了携号转网,故障管理(与Customer Management共享)和SLA管理。 。概念模型(一) 概念模型的核心模型Level0层级以及其关系的设定 Level0级的核心是主题的划分以及主题之间的关系的确定 亚信面向数据管理核心主题的划分综合业界的八大主题划分,主要包括参与人、服务、资源、收入、财务等等 子主题的划分按照对业务系统(例如:Bss、Oss、MSS)的理解划分,例如:客户、集团、用户、账务等等 主题的划分以及概念和逻辑模型基本适用于DWD、主要从数据管理方便、数据可更好归类等角度考虑
  • 14. 数据模型建设方法论User: 用户包括实例用户、中高端用户、存量用户、等等以用户为粒度的相关资料及衍生信息。Account: 账务整合所有的收入源,销售,预存,缴费和返还/调账。以及由收入产生的账户、账务、收入、欠费等信息整合 。 .Data And Service: 数据业务主要从数据业务的角度,包含业务订购实例规模、使用情况以及业务规则等信息进行整合。Group: 集团客户包括以集团的粒度,整合相关业务维度、标签、指标等信息主要包含业务特征,业务探索分析等处理结果。Business Discovery : 业务探索The Matic : 专题包含面向某类专题分析,相对比较独立。如:交往圈、终端换机、流失预警、批养卡等。Behaviour: 用户行为主要以用户为粒度,在不同业务中的使用情况进行汇总,满足多业务维度下使用量分析。Instance: 用户订购主要包含用户与产品、策划及服务的订购关系,满足满足实例级各种业务分析。概念模型(二) 亚信面向数据数据分析核心主题的划分经过几省经验总结及参照集团规范等划分为用户、账务、业务量、用户订购、集团客户、数据业务、专题、业务探索等 主题划分以及概念和逻辑模型基本适用于DWI、DWA层 主题划分主要从业务分析、业务考察规则、数据使用方便等角度整合业务信息 该部分主题独立划分在不适合或有更好的建议,也可以根据各省实际情况调整
  • 15. 概念模型设计示例数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型
  • 16. 逻辑模型来自拥有行业经验的概念模型,里面凝聚了许多成功的经验,而且从规划上符合行业系统的长远发展,因此逻辑模型应当从概念模型上相对平滑的过度过来。 逻辑建模是数据仓库实施中的重要一环,它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。从狭义的概念说,逻辑模型是否正确表达了业务规则,也就是准确,但是随着人们对数据仓库认识的加深,质量的含义不断延伸,现在对模型质量要求不仅仅单纯指单纯的业务规则,还包括模型满足用户分析需求的程度,它是一个包含丰富内涵、具有多维因素的综合性概念。数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型逻辑模型确定设计原则细化各概念实体进行模型验证、优化设计步骤确定模型的定位逻辑模型建设思路
  • 17. 设计原则数据仓库在设计之初要尽力保持它的领先地位 第一,体系结构的领先性。它使得项目在各个阶段转换时,数据仓库和它所支持的系统的物理以及逻辑架构都具有持续性,不会发生改变。 第二,技术的领先性。它可以跟踪系统任何阶段的软件工具的部署和正确使用。 第三,行业模型的先进性、完整性、一致性、灵活性以及松散型 数据仓库模型设计是一种从旧有数据中,模型化得到的新的数据。那么如何才能从旧有数据中挖出这些新数据呢?如何将各类数据融合在一起。其中所遇到的最主要的挑战将是如何用新的方法观察数据并且让业务人员比较容易得到需要的数据。 对不同域的数据数据模型进行整合,形成跨企业统一的数据视图;例如:B\O\M域模型进行整合 以尽可能小的业务单元进行底层数据的组织和存储,以满足数据仓库的灵活性。任何一个信息系统都具有整体性、结构性、层次性、相对性、可变性,数据仓库的目标逻辑结构的设计同样要体现这些特征。 数据结构的设计保持松散 , 因为数据仓库在实现过程会有很多变数,需要不断的改动和调整结构等. 所以希望将改动次数降到最低。 对性能的评估在一个数据仓库之初也要充分考虑.最好DBA的参与。逻辑模型设计原则数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型
  • 18. 物理模型设计: 根据已有模型版本,参考行业模型,形成标准的浙江物理模型的版本 参照国际标准命名规范,在原有命名规范的基础上,形成浙江的基本不变的模型主题、层次以及数据表的命名规范 根据不同平台的特点,形成不同特点平台的物理模型,例如针对存储在云平台下的详单的物理模型,存储在云平台下(NOSQL)平台下分光以及流量数据的物理模型,形成在MPP下,适合MPP特点的物理数据表的物理模型 确认模型的层次为ODS、DWD、DWI、DWA,并对模型层次进一步的细分,不断补析充和完善各层次模型,清晰化各层次模型存储数据的数据特点数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型物理模型建设思路
  • 19. ODS:操作型数据以及实时数据存储,主要存储来自M、B、O 以及互联网等等,经过简单数据处理的数据,数据存储时间短,主要 解决业务部门短时数据需求DWD:按照八大主题规范,经过转换后,最完整的明细数据存储,同时数据把持唯一性和完整性,是数据中心最完整、最明细的数据,基本遵循三范式规范,数据可以根据类型存储在不同的存储介质上。DWI:数据中心根据客户以及业务需求,拆分、整合信息数据,主要以主题内及相关业务指标、统计指标等业务规则进行处理,包括拆分的账单数据、拆分的集团客户数据、产品数据等等,用户归属、同时包括处理后的信息数据等 DWA:主要存储应用类数据以及应用产品类相关数据,例如: 各类统一视图信息(使用维度建模技术),客户推荐等等的相关业务模型以及Glasory(维度建模技术)B域数据O域数据M域数据其他数据数据层次划分说明数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型
  • 20. 物理模型设计原则以及设计重点数据分类设计数据分布调研数据CRUD调研逻辑模型基础概念模型概念模型物理模型已有企业规范编码 规范减少重复无效计算减少I/O和数据量级数据层级清晰划分确定数据架构向物理模型转换确定命名规范表结构 设计业务口径固化 统计口径固化 规划70%以上的应用都经过DWA层实现,减少重复计算核心数据分段存储 历史表的拆分 增加冗余列(预连接)避免查询时进行表连接操作 增加派生列(预计算)避免查询时连接和使用聚合函数清晰各个层级的定义,明确各个层级的分工 用空间换时间的优化方法 良好扩展性,全面支撑上层应用功能变化遵守CMCC-LDM 省公司有遵守的要求 在CMCC-LDM基础上进行扩充分层存储、分表等模式名规范 表命名“见名知意”原则 表命名指示内容包括 所属层次 业务内容 分表特性 数据粒度 更新特性 编码规范
  • 21. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 22. 功能架构数据调研数据 初始化概念模型 设计逻辑模型 设计物理模型 设计系统管理:权限管理 配置管理 知识库管理 依据模型设计架构的全流程进行功能模块的设置BDMP功能架构
  • 23. 数据调研 在建模之前,通过对接口数据及数据业务关系进行全面调研及梳理,明确客户需求,指导后续模型和程序设计及开发主要功能 提供下载接口调研模版文档,提供相关行业接口调研文档填写实例; 导入接口调研数据,根据不同的筛选条件查询接口数据信息; 创建接口数据层表之间业务关系图(可从外部导入)
  • 24. 数据初始化 将中心整理的词库规则等数据初始化到新部署的环境当中, 并提供查询和供本地化数据复制配置的功能主要功能 根据当地仓库设计,配置相关信息,包括仓库数据层次配置,仓库分表原则配置,仓库主题域(包含子主题域)配置,命名元素(字段命名和表命名)修改配置;模型设计文档信息配置或导入(导入文档信息到数据库或者直接配置);提供模型设计文档模版下载; 当地需要的稽核规则配置; 提供物理化模版下载;物理化基础数据配置或者导入:包括平台定义配置,表空间配置,表属主配置,hadoop文件路径规划配置等
  • 25. 概念模型设计主要功能 创建或者导入概念模型ER-实体关系图; 提供查询不同行业的ER-实体关系图; 可导入或者配置概念模型和逻辑模型的衍生关系(需要提供下载衍生关系模版);
  • 26. 逻辑模型设计主要功能 提供下载逻辑模型设计文档模版(要包含逻辑模型跟接口数据之间的关系,不同层次模型之间的关系和逻辑实体间的业务关系和逻辑和物理模型的衍生关系); 导入逻辑模型设计文档;生成逻辑实体之间的业务逻辑关系图;生成逻辑模型和物理模型的衍生关系图。  提供在线创建逻辑模型的功能;提供在线操作方式生成逻辑模型跟接口数据的血缘关系图;提供在线操作创建逻辑实体间的业务关系图; 提供相对应概念模型列表和E-R图的查询以及概念模型和逻辑模型的衍生关系查询;                                  
  • 27. 物理模型设计 依据逻辑模型的设计信息按步骤物理化的流程主要功能根据逻辑模型设计信息衍生成具体的物理表; 完成核心功能,表名和字段名的翻译流程(根据初始化的数据内容);  单元稽核:对翻译后内容根据配置的规则库进行稽核;稽核失败信息查询;稽核失败信息处理;翻译后内容沉淀审核功能; 选择不同的数据平台,完成物理化关系数据配置和导入(提供下载配置模版),包括 db2的hash分区键配置,hadoop建表的信息配置; 普通仓库的分区字段定义,domain数据类型的修改,以及主键配置等物理化常用信息; 调用后台方法完成具体的物理化;可查询最终的物理化信息; 导出物理化后建表语句;导出excel文档;导出word文档;导出pdm文档;导入DACP                               
  • 28. 系统管理 在建模之前,通过对接口数据及数据业务关系进行全面调研及梳理,明确客户需求,指导后续模型和程序设计及开发主要功能 系统数据管理; 系统配置管理: 知识库管理:指标库、规则库、维度库等知识库的回收、审核、维护 系统用户权限管理
  • 29. 目录|CONTENTS背景1234567定位亮点系统架构方法论功能架构开发现状
  • 30. 开发现状开发模式人员安排进度预估 后台:已完成词库、维度库、账务域模型开发; 前台:在周报系统基础上进行增删改,节约开发成本 前期在现有经分重构及详单云化项目成员中进行人员复用,节约人力成本 预计3月底完成第一版
  • 31. THANKS