• 1. 经营分析系统 技术交流中国电信经营分析系统
  • 2. 第一部分:公司介绍 第二部分:需求说明 第三部分:解决方案 第四部分:问题交流目录
  • 3. Part1 公司介绍
  • 4. 第一部分:公司介绍 第二部分:需求说明 第三部分:解决方案 第四部分:问题交流Part2 需求说明
  • 5. 背景企业经营发展的结果 以业务为中心 话单量小、业务少、用户少 以客户为中心 大数据量、业务多、异构数据、决策分析 技术发展的结果 数据库与数据仓库 人工智能 数据挖掘 联机分析
  • 6. 企业信息化的四个进程数据信息知识施效在 线 分 析数 据 挖 掘客户 关系 管理数据仓库=营销自动化 =销售队伍自动化 =客户服务与技术支持=事实 发生了什么?=为什么会发生? =对象是谁? =还会发生什么?
  • 7. 经营分析系统信息流图
  • 8. 建设目标建立一个统一的数据信息平台 采用先进的数据仓库技术和分析挖掘工具,提取数据中的有价值信息 为企业的客户服务、市场营销等工作提供科学有效的支撑,提升企业的运营水平和竞争能力,体现以客户为中心的经营理念
  • 9. 建设原则两级系统,三层结构 整合业务数据、面向经营分析 能通过多种手段实现业务智能 主题可扩充、新增及重构 成为业务决策者专业的咨询顾问 经营分析系统的开发与建设将分阶段进行
  • 10. 系统功能支持与各种主流数据库平台、多维分析引擎、数据挖掘引擎和前端展示工具的无缝集成 开放的应用程序接口和工具 提供统一的数据仓库平台,支持后续应用和扩展 可定制化的客户界面 统一的用户和权限管理机制
  • 11. 主题分析及专题分析前端用户/浏览器应用服务器 /Web Server业务主题分析服务质量模块用户分析模块业务分析模块收益分析模块市场营销分析模块市场竞争分析模块新业务分析模块合作服务方分析模块大客户分析模块专题分析业务(含新业务)专题市场、竞争专题大客户发展、异动专题客户专题分析数据仓库
  • 12. 业务管理模型
  • 13. Part3 解决方案◆技术体系结构 ◆主要厂商产品介绍
  • 14. 体系结构BOSSMIS/OA网管其它数据源数据源
  • 15. BOSS系统 网管 客服 其它1 数据源BOSSMIS/OA网管其它数据源数据源数据源
  • 16. 数据源省BOSS系统的数据: 批价后的详单 帐务数据 欠费记录 缴费记录 欺诈记录 客户信息 资源记录 营业记录 投诉记录 查询记录 结算数据 人工录入的信息网管系统的数据 热点小区 接通率 故障信息 客服数据 投诉信息 服务状况 其他数据 人工输入
  • 17. 数据源细分计费子系统: 通话详单(原始、计费后)、详单格式 计费使用费率表 错误话单 结算话单 帐务子系统: 帐务数据 欠费记录 缴费记录、缴费方式 欺诈记录 营业子系统: 用户资料及信用度 资源使用记录 营业厅、营业员资料 客服子系统: 投诉记录 用户查询记录 网管系统: 接通率数据 掉话率数据 手工录入数据: 市场调查结果记录 市场宣传费用和形式记录流水型增长数据: 通话详单(原始、计费后) 错误话单 帐务数据 欠费记录 缴费记录 欺诈记录 资源使用记录 投诉记录 用户查询记录 财务数据 物流数据 市场调查结果记录 市场宣传费用和形式记录 变化更新数据: 计费使用费率表 缴费方式 用户资料及信用度 营业厅、营业员资料
  • 18. BOSSMIS/OA网管其它数据源数据源数据获取层2 数据获取层
  • 19. 数据来源 首先直接快速传输到分段存储区,再从分段存储区经过清洗、转换、映射等复杂的数据移动处理转移到目标数据仓库中。 以保证数据的快速导入而尽量减小对业务系统造成的压力。 有数据库和文件二种方式,分别对应于不同运营系统的数据源。 数据集成 异构数据源整合临时存储区(Staging Area)
  • 20. BOSS与经营分析系统的连接方案计费营帐经营分析系统DW客服采集BOSS系统ODS文件加载,例如 采用sql*load数据集成,例如采用OWB,Pl/Sql, CA Advantage Data Transformer数据清洗、转换,如采用OWB,Pl/Sql
  • 21. Sql*Load实现方式1、掌握源文件的文件格式 2、定义目的ODS的对应表结构 3、编写执行的脚本 4、运行脚本 5、查看运行的日志例子:将pt0431文件的记录装载进入表cc_test中 实现:1、依据文件pt0431格式和表cc_test的结构,编写脚本jl.ldr:LOAD DATA INFILE '../pt0431' INTO TABLE cc_test (文件格式与表结构对应关系定义) 2、编写控制脚本jl.sql:sqlload userid=ht/hello control=jl.ldr log=jl.log 3、执行:#sh jl 4、查看日志文件jl.log
  • 22. Pl/Sql实现方式有些数据需要经过程序处理后才能很好的被使用。 例如:基于批价详单来分析话务流向时需要利用详单记录中的Other_party字段。 Other_party可能的存在形式: 1795X+固定电话号码; 013XH1H2H3H4N1-N4; 13XH1H2H3H4N1-N4; 00+电话号码; 特殊号码:110、119、1861等; 172X1X2; 只有经过一定的处理,才能分析去话的方向是联通、电信,国际,特殊呼叫等 适用于随机获取数据
  • 23. ETL 环境和处理流程来源 OLTP 系统数据转化引擎缓存来源 主机或 C/S 系统转化引擎数据仓库企业元数据数据集市数据集市数据集市数据集市扫描元数据 要求资源 规划交付用户流程数据仓库监控 任务调度 数据抽取 数据清洗 数据转换 数据加载 索引建立 数据聚合 元数据导入 元数据维护BOSSOANMSELSE
  • 24. 抽取策略1、对于有时间线的数据增量抽取,例如:服务信息表, 由于有处理时间,可增量抽取 2、没时间线的数据则完全抽取,例如客户信息表 3、明细帐单、综合帐单在出帐后,例如出帐后第二天 抽取 4、对于文件,象BOSS系统的结算清单、计费清单按文 件生成周期实时抽取
  • 25. 3 数据存储层BOSSMIS/OA网管其它数据源数据源数据存储层
  • 26. 基础数据仓库数据来源 数据结构 3NF 星型结构 雪花结构 完整性和有效性检查,对冗余和不一致的数据进行了清洗和转换。 数据量将非常庞大。 3NF 减少数据冗余 减少存储容量 灵活的扩展能力 执行效率相对较低
  • 27. 数据集市数据仓库的子集,主要面向某特定主题。 数据来源 对基础数据仓库中数据的复制、分布或聚合 数据结构 星型结构Star-Schema 存在数据冗余 相对较大容量 维变化时,需重新建立 执行效率高
  • 28. 粒度选择多重粒度级别中央数据仓库采用低粒度级,例如,客户月通话详单— -高细节数据,能回答所有问题,但分析效率较低;数据集市采用高粒度级,例如,客户月通话综合信息- --低细节数据,能回答部分问题,但分析效率高;如果高粒度数据也包含分析所需的足够的细节,则高粒度数据的 使用效率会提高很多
  • 29. 中央数据仓库与从属数据集市中央数据仓库客户信息Cust_ID Msisdn Age_level Cust_Type City_Code ……通话详单Call_Type Msisdn Start_Date Start_time Call_duration …..帐户信息Account_ID Cust_ID Lfee Cfee Discount_fee ……其它信息Cust_ID Msisdn Age_level Cust_Type City_Code ……Cust_IDMsisdn客户通话行为分析客户消费行为分析其它分析……依据分析的需要Map数据
  • 30. 数据仓库完整构架Data Marts Data Mining OLAP Analysis Mart MartStaging AreaData WarehouseOperational DataExternal DataArchive DataManual DataBusiness Users
  • 31. 4 数据 访问层信息处理 查询和报表 分析处理 基本的OLAP操作 数据挖掘 知识发现BOSSMIS/OA网管其它数据源数据源数据访问层
  • 32. 举例:话务流向分析 维:通话日期、通话时间、对端号码,共3个维; 分析指标:通话次数,通话时长 实施:建立一个3维的数据立方体,对指标采用切片、钻取、旋转等方法进行分析多维数分析
  • 33. 时间日期对端号码同一时刻话务流向分析12:00OLAP分析方法一【切片】12:00日期对 端 号 码
  • 34. OLAP分析方法一【切片】时间日期5月1日对端号码同一日期话务流向分析5月1日对端号码时 间
  • 35. OLAP分析方法一【切片】流向同一运营商的话务量分析时间日期联通对端号码联通日 期时 间
  • 36. 时间日期年季度季度月月月月对端号码OLAP分析方法二【钻取】在同一个维上,按不同的层次来分析
  • 37. OLAP分析方法三【旋转】将年份和季度交换坐标
  • 38. 基于WEB的展现方式对数据进行可视化的分析,分析结果的展现方式有以下几种,并且各种形式之间可以相互的转换: 1.柱状图; 2.相对柱状图; 3.累计柱状图; 4.饼图; 5.散点图; 6.折线图; 7.趋势图; 8.网页表格; 9.表格中的数据倒出到Excel报表
  • 39. WEB展现示例【柱图】
  • 40. WEB展现示例【3D柱图】
  • 41. 5 元数据关于数据的数据 技术元数据 操作元数据 业务元数据 贯穿全过程BOSSMIS/OA网管其它数据源数据源元数据管理
  • 42. 元数据管理业务定义属性定义DA / DBA Tool Erwin抽取规则, 转换规则ETL Tool报表格式, 过滤,分割等DSS Tool数据库 元数据元数据库双向 自动无连接业务定义Other ExcelHTMLBusiness Users数据仓库开发元数据管理Intranet/ Extranet-Definitions -Domains -Names
  • 43. 6 系统管理安全 备份
  • 44. 安全体系结构
  • 45. 系统安全安全的层次 每个层次均需要相应措施保证 数据库、应用、网络 网络层 防火墙 电子认证 加密
  • 46. 安全层次数据库层 密码 数据库权限控制 应用层安全 用户身份认证 按照操作对象和操作类别规定各操作员的权限 保证身份的有效性和不可抵赖性 采用口令+密码方式,可以向数字证书升级 数据加密 服务和数据权限
  • 47. 容灾与备份:概述什么灾? 火灾、地震、洪水… 系统故障:硬件、操作系统、数据库... 应用故障:设计时考虑不周 误操作 黑客入侵、故意破坏 容灾方法 以备份系统代替主系统,并及时恢复主系统 数据复制 其它:地理分布,电源、网络等的高可用性
  • 48. 容灾与备份:数据备份策略数据备份的层次 物理视图 逻辑视图(DB、数据库模式、应用) 数据备份的方式 联机复制 同步、异步、状态 脱机备份 防止“误操作型”灾难 数据备份的目标 一致性、当前性、可恢复性,尽量减少数据丢失及尽快恢复
  • 49. 容灾与备份:数据复制层次主机硬盘DB文件表应用 内存备份机硬盘DB文件表应用 内存输入输入 物理视图 DB视图 数据库模式视图 应用视图复制或转移
  • 50. Part3 解决方案◆技术体系结构 ◆主要厂商产品介绍
  • 51. 产品供应商IBM Corp. Oracle Corp. SAS Institute Microsoft Corp. MicroStrategy Inc. CA Brio Technology Business Objects Inc. Cognos
  • 52. 产品供应商Data warehouses OLAP Data mining Reporting, Querying and business intelligence ETLOracle Sybase SAS DB2 NCRBI/SAS DB2 Olap Server Oracle Express Business Objects/OLAP access SAS Data mining Geneva(PwC) Intelligent Miner,Visualization(IBM) MineSet (Silicon Graphics) Visual Insights(Lucent) Business Objects Brio Adaptive Server IQ multiplex(Sybase) Actuate Hummingbird suite NUMA-Q2000(IBM) Pilot Balanced Score cardOWB Informatica CA Data Transformer SAS/WA
  • 53. BestWorstRelative to all platforms (including S/390); updated April 2001Copyright © 2001Data Mgmt.Data Admin.Scalability & SuitabilityConcurrent Query Mgmt.DW Track RecordQuery PerformanceHP HP9000 HP-UX Oracle IBM SP RS/6000 AIX DB2 EEESun Enterprise Solaris Oracle Generic Intel IA-32 Win2000 SQL ServerUnisys ES7000 Win2000 SQL ServerIBM S/390 OS/390 DB2 EEECompaq Alpha Tru64 OracleNCR WorldMark MP-RAS Teradata主机厂家: 主机型号: 操作系统: 数据仓库平台:数据仓库比较
  • 54. Copyright © 2001IBM DB2
  • 55. IBM数据仓库解决方案DB2 Warehouse Manager (管理工具)DB2 Visual warehousing (ETL)MIS/OABOSS网管No.7监测DB2 UDB V7.2 数据仓库DB2 OLAP SERVER (MDB)查询 人员分析 人员Hyperion analyzer 决策 人员IBM Intelligent Miner 数据挖掘DB2 Warehouse ManagerDB2 UDB V7.2 数据集市外部来源DB2 UDB V7.2 数据集市Enterprise Information Portal
  • 56. IBM数据仓库的特点提供大型数据库DB2作为数据仓库的存储数据库,DB2性能优异,提供从桌面机到工作站、小型机、大型机的良好扩展性 提供Visual Warehousing作为数据抽取工具,VW能够从广泛的数据源抽取数据,并且在大数据量的抽取中充分显示了速度优势 提供多维型、关系型两种Cube的实现方式 提供功能强大的访问Cube的查询语法 Query Script 在所有同类产品中提供最强大的分区功能
  • 57. DWDMDMQuery Performance (10)Data Management (10)ChallengesStrengths Performance standard for very-large data warehouses and data marts Manageability — low number of DBAs required Query optimization support for complex data models Support for concurrent query workloads Lack of platform choice (confusion) Delays on NT/MPP Ability to execute well Ability to keep current capability lead Marketing and positioning for broader market Higher initial cost of solution BI tool and application supportProven DW Track Record (10)Concurrent Query Management (10)Platform Suitability & Scalability (10)Data Administration (9)Common TopologyUser access to the data warehouse and few data martsNCR Teradata
  • 58. Copyright © 2001Oracle
  • 59. Oracle数据仓库解决方案Oracle9i Enterprise Manager (管理工具)Oracle9i Warehouse Builder (ETL)MIS/OABOSS网管No.7监测Oracle9i 数据仓库Oracle Discovery 即席查询查询 人员Oracle Reports 预定义报表分析 人员Oracle Express OLAP决策 人员Oracle Data Mining 数据挖掘Oracle9i 数据集市Oracle9i 数据集市Oracle9i ODS外部来源O r a c l E P o r t a lExpress Server (MDB)
  • 60. Oracle数据仓库的特点提供RDBMS和MDDB两种数据存储结构,Oracle功能强大,提供了良好扩展性, 提供了功能强大的系统管理界面 支持超大型数据仓库,并提供多种优化手段和针对数据仓库的特征,如分区,位图索引 提供功能强大的访问Cube的查询语法Express command 提供Oracle Warehouse Builder作为数据抽取工具,OWB提供功能包括:模型构造和设计;数据提取、移动和装载;元数据管理;分析工具的整合;以及数据仓库管理。具有开放可延伸的框架。
  • 61. Sybase数据仓库解决方案RelationalPackageLegacyExternal sourceData Clean ToolSource DataData StagingWareHouse Admin. ToolsEnterprise Data Warehouse Data Extraction, Transformation and loadDatamartDatamartEnterprise/ Central Data WarehouseRDBMS ROLAPRDBMSRDBMS, Star SchemaArchitected DatamartsCentral Metadata Data Modeling ToolEnd-User ToolEnd-User ToolMDBEnd-User ToolEnd-User ToolLocal MetadataLocal MetadataPowerMartSybase IQSybase IQCognosPowerMartWarehouse ArchitectWCCBrio/BOSybase ASE
  • 62. Sybase数据仓库的特点按列存储,有很高的压缩比例 PowerMart能够在一个统一的界面中将用户定义的转换规则、Schedule、权限设置、数据源和目标等等数据抽取定义通过有效的方式管理起来,方便整个数据抽取工作的管理 Adaptive Server IQ不仅使用了基于值的位映射(bitmap)算法及传统的b-tree算法,还使用了Sybase有专利权的位式(bit-wise)索引 IQ with Multiplex可以支持无限的用户访问数据仓库
  • 63. 系统硬件拓扑图数据仓库服务器数据分析服务器数据抽取服务器数据挖掘服务器 WEB服务器省中心局域网广域网广域网存储及备份系统防火墙管理终端…相关部门客户层…相关部门客户层Internet
  • 64. (本页无文本内容)
  • 65. SAN典型结构
  • 66. 存储方式比较
  • 67. 存储估算数据仓库数据 3NF Star-Schema 数据集市 Star-Schema Cube
  • 68. 3NF计算公式总容量=∑源数据i * (1+索引因子) * RAID 因子 源数据i=单条记录字节数 * 记录数/人.天 * 用户数*有效用户系数 * 天数/月 * 保存月数 说明: 索引因子 = 0.7 RAID因子 = 1.25<按RAID5考虑> 记录数/人.天 = 8 用户数*有效用户系数 = 200万/600万/1200万 天数/月 = 31 保存月数 = N 注:以上计算基于Oracle数据仓库引擎
  • 69. Star-Schema的计算维表 用来描述属性数据,通常数据量很小,可以忽略不计。 事实表 记录的大小取决于分析的内容,包括每个维值的代码和汇总数值的大小。 记录的数量取决于分析维度的多少和每个维度可能出现的值的个数。 事实表大小= 事实表记录大小x 各维值取值数x 压缩比因子 业务主题总数据量= 各事实表大小的总和 星型数据存储量= 业务主题总数据量x (1+索引因子) x RAID 因子
  • 70. 存储估算(600万为例)语音业务用户 本地话单每年存储量为: 230*8*600万* 31 * 12 = 4.11T 漫游话单每年存储量为: 230*10% * 8*600万* 31 * 12 = 0.411T 语音业务用户话单每年总存储量为: 4.11T+0.411T = 4.521T
  • 71. 数据业务及其他新业务 本地话单每年存储量为: 400*20%* 8*600万* 31 * 12 =1.44T 漫游用户话单每年存储量为: 400*20%* 10% * 8*600万* 31 * 12 = 190.4G 数据业务及其他新业务话单每年总存储量为: 1.44T+190.4G = 1.63T存储估算(600万为例)
  • 72. 结算话单 结算话单每年存储量为: [200*600万*(8+8*10%)*50%]*31*12 = 1.97T 每年话单存储总量为: 4.521T + 1.63T + 1.97T = 8.121T 存储估算(600万为例)
  • 73. 营业部交易记录 基本上是每个客户有几条记录,但相对稳定,不会大量产生,也不随时间爆炸性增长,估算为0.6T/年。 客服数据 也会随时间增长,但增幅远小于话单数据,估算为0.6T/年。 存储估算(600万为例)
  • 74. 客户资料数据 相对稳定,以后随客户数量的增加而增长,其增幅也不大,估算为0.6T/年。 总容量  结合上述因素,总的存储空间为: (8.121T+0.6T*3)*1.25=12.4T存储估算(600万为例)
  • 75. 主机性能测算TPC-C TPC-C is an on-line transaction processing benchmark TPC-H TPC-H is an ad-hoc, decision support benchmark It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. The performance metric reported by TPC-H is called the TPC-H Composite Query-per-Hour Performance Metric (QphH@Size)
  • 76. 影响因素源主机 源数据库 网络带宽 数据量(主要) 目标主机(主要) 目标数据库(主要)
  • 77. HP Superdome + Oracle
  • 78. IBM SP + DB2
  • 79. NCR
  • 80. SUN + Oracle
  • 81. 特别提示 Oracle 9i Warehouse Builder Unleashing World Record Performance March 2002 采用HP Superdome + Oracle发布
  • 82. 测试环境——主机、数据库Database Information: Oracle 9.0.1.1 Enterprise Edition HP Superdome Enterprise Server: 64 552MHz PA-RISC 8600 CPUs each with 512KB I-cache, 1MB D-cache. 128 GB Memory 64 PCI Fibre Channel 2X Card 1 HP 1000 BaseSX PCI Lan Adapter 4 SureStore E Disk Array XP512 (with a total of 744 18.2GB Disks) 1 High Availability Storage System (with a total of 3 9.1 GB 10K RPM LVD Disks) OS used is HP-UX 11.i 64-bit
  • 83. 测试环境——数据量
  • 84. 测试结果
  • 85. 第一部分:公司介绍 第二部分:需求说明 第三部分:解决方案 第四部分:实施和服务 第五部分:系统演示 第六部分:问题交流议程
  • 86. 元数据驱动、螺旋上升的数据仓库构建的过程就是“建立元数据――构造数据仓库/集市”的不断循环、不断上升的过程 经营分析系统实施方法论元数据驱动 信息模型 分阶段实施 由元数据进行统一的管理和协调
  • 87. 采用以元数据为中心的数据仓库开发方法 经营分析系统开发方法
  • 88. 中央数据仓库数据主题域的构成
  • 89. 核心服 务支撑基础客 户营 销业务收益合作服务方市场 大客户新业务分析主题的划分与关系
  • 90. 经营分析系统结算计费营帐客服CMCC 接口问题的解决70%是管理上,30%是技术上,因此需要BOSS厂商的支持、需要运营商的支持、需要多方的协调、理解经营分析系统建设需要您的支撑
  • 91. 需求阶段应充分考虑到项目中的风险(包括接口问题)——提出问题设计阶段采取好的方法来解决问题,这里我们采用把项目打散,模块化实施,分清楚哪些是我们自己应该做好的,哪些是需要第三方来配合做好的——解决问题实施阶段采用CMM体系,会在没周例会中对问题进行评估,哪些是解决的,哪些是未解决,哪些是我们的原因,哪些是第三方的原因,如何来进一步解决——验证问题的解决如何在项目实施中解决接口问题的?
  • 92. 需求阶段设计阶段实施阶段遇到问题解决问题积累经验目的:让客户对整个的项目实施有可视化 的视图、清晰,明白项目的实施进 程、了解存在问题的症结所在放心工程
  • 93. 实施和服务项目咨询 项目管理 项目研发 项目实施 质量保证 长期服务 一对一服务 新的思维方式 专题咨询服务
  • 94. 技术服务全面咨询服务 技术方案提供 技术培训 安装调试 运行维护 长期服务 现场支持 技术响应热线 定期主动服务
  • 95. 技术培训内容: 包含硬件设备、系统软件、应用软件的使用、维护、开发等各项内容 方式 包含现场培训、国内培训、国外培训等方式 层次 包含初级培训、高级培训、专项培训 其他 根据用户的不同要求,公司将安排其他用户所需的培训
  • 96. 质量体系在产品或项目研发、工程实施、售后服务等方面均严格遵循ISO9001、CMM2和内部相关规范 质量方针:开发先进、适用、可靠的数据仓库应用产品,提供优质、全面、高效的服务
  • 97. 服务承诺响应时间 一小时答复 四小时到现场 服务热线 一对一服务 公司正在筹建**办事处以长期服务为核心的理念 不只是软件产品、也不只是系统开发和集成,而是长期的持续的服务 紧密合作,共同进步 与客户实际需求相结合,提供一对一的定制化服务
  • 98. 我们的优势1、规范化的公司管理和项目管理2、移动行业是公司发展的战略重点3、专业的电信行业研究院和软件开发中心 和国际先进水平的技术队伍4、拥有世界范围的数据仓库实施经验5、完善的技术支持和售后服务体系6、全程参与中国移动经营分析系统需求调研7、对中国移动业务深刻的理解
  • 99. 第一部分:公司介绍 第二部分:需求说明 第三部分:解决方案 第四部分:实施和服务 第五部分:系统演示 第六部分:问题交流议程
  • 100. 第一部分:公司介绍 第二部分:需求说明 第三部分:解决方案 第四部分:实施和服务 第五部分:系统演示 第六部分:问题交流议程
  • 101. Thanks