- 1. 数据仓库基础培训胡红强
神州数码思特奇信息技术股份有限公司
2009年04月15日
- 2. 内容部门产品简介23主流数据仓库厂商和产品介绍数据仓库概述1
- 3. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 4. 数据仓库的历史-联机事务处理系统联机事务处理系统(On-line Transaction Processing)OLTP系统:也称为生产系统,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。
OLTP在使用过程中积累了大量的数据。
关系数据库概念提出之后,联机事务处理一直是数据库应用的主流。
OLTP的特点:·对响应时间要求非常高;·用户数量非常庞大,主要是操作人员;·数据库的各种操作基于索引进行。
- 5. 数据仓库的历史-联机分析处理系统联机分析处理系统(On-line Analytical Processing)OLAP系统:是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的 。
OLAP的特点:·基础数据来源于生产系统的操作数据;·对系统的相应时间合理;·用户数量相对较小,其用户主要是业务决策人员与管理人员。
- 6. 数据仓库的历史-建立数据仓库的基本条件建立数据仓库的基本条件:
第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;
第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力;
第三:该行业为数据密集型行业;
- 7. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 8. 数据仓库的基本概念数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon博士提出的:数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。
所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:客户、产品、账务、事件、服务使用、资源、客户服务、地域等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;
分析和明确企业所涵盖的业务范围,并且对企业业务进行高度概括性的描述,把密切相关业务对象进行归类,它没有统一的标准,主要根据设计者的经验。不同的行业会有不同的主题域划分方式。
- 9. 数据仓库的基本概念-面向主题
- 10. 数据仓库的基本概念-数据集成所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息;
各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、编码规则等都是不同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码:451、452等,那么在数据仓库中,需要将各个业务系统中相同含义的数据通过规则映射为同一个编码。
- 11. 数据仓库的基本概念-数据集成
- 12. 数据仓库的基本概念-随时间变化所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。
- 13. 数据仓库的基本概念-信息相对稳定所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。
数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不断变化的。
- 14. 数据仓库的基本概念-操作型系统与数据仓库的差异操作型系统数据仓库系统面向应用面向主题详细的数据综合的或汇总的为日常工作服务为管理决策服务可更新不更新事务处理驱动分析驱动非冗余数据经常有冗余一次处理很小的数据一次处理大量的数据高访问性适量的访问度当前数据历史数据
- 15. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 16. 数据仓库的技术要求-ETL数据仓库的技术要求包含如下几个方面:
ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。
- 17. 数据仓库的技术要求-ETLETL在技术上涉及到:增量、全量、定时、调度、监控等方面技术。
增量数据:流水类数据、话单类数据的抽取方式;
全量数据:用户信息类数据,状态会更新发生变化的数据;
定时抽取:数据抽取一般在生产系统比较闲暇的时候进行,凌晨时候比较多,而且按照要分析数据的周期,还分为按日、按月数据;
作业调度:由于涉及到的业务系统的数据量庞大,需要分批进行抽取,以及抽取数据后面的一系列处理过程;
作业监控:对所有作业执行的监控;
- 18. 数据仓库的技术要求-ETL
- 19. 数据仓库的技术要求-存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库一般遇到的几个问题:
大数据量的存储和管理;
并行处理;
针对决策支持查询的优化;
支持多维分析的查询方式;
- 20. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 21. 构造数据仓库的方法构造数据仓库有两种方式:一是自上而下,一是自下而上。
Bill Inmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性;
Ralph Kimbal先生推崇“自下而上”的方式,他认为建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果。
二者都要达到同一个目标: 企业级数据仓库
实际上在建设数据仓库的时候,一般都参照这两种方式结合使用,没有硬性规定。
- 22. 数据仓库的结构
- 23. 数据仓库体系结构
- 24. 数据仓库层次描述STAGE层ODS层MID层MRT层作用 提供业务系统数据文件的临时存储。 提供业务系统细节数据的长期沉淀;为未来分析类需求的扩展提供历史数据支撑;支撑中间汇总层数据生成 支撑DM层数据生成;方便应用需求处理,提高性能;支撑专题分析和数据挖掘 面向分析类应用所构建的数据存储;为报表、KPI、OLAP和指标体系等应用提供数据支撑数据模型与业务系统一致 3NF,与企业级数据模型一致 介于DM与DW之间,反范式设计,增加数据冗余 多维模型 数据存储粒度存储业务系统数据的原始粒度存储详单、客户资料等细节数据的原始粒度 ;经过转换处理后的数据对用户等数据的轻度加工 中度、高度汇总数据 数据周期临时性长期保留,详单类可考虑6个月左右长期保留 原则上保留所有数据
- 25. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 26. 数据仓库的相关概念ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。
数据挖掘(Data Mining):是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。
- 27. 数据仓库的相关概念联机分析处理(OLAP,Online Analytical Processing):是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。
商业智能(Business Intelligence,简称BI):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
- 28. 数据仓库的相关概念-啤酒和尿布的故事沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。
- 29. 数据仓库的相关概念-知识发现过程数据库知识发现(KDD-Knowledge Discovery Database):
- 30. 数据仓库的相关概念-交叉销售啤酒和尿布这两个不相关的物品通过我们的分析和挖掘得出了它们之间的关联性。在电信行业中也有很广泛的应用,我们称之为交叉销售。
产品一:短信套餐,产品二:彩铃
- 31. 数据仓库概述数据仓库的历史
数据仓库的基本概念
数据仓库的技术要求
数据仓库体系结构与设计
数据仓库的相关概念
数据仓库的项目过程
- 32. 数据仓库项目过程ETL工具展现分析工具数据库WEB服务器数据库建模工具COGNOSBOBRIOORACLEDB2TeradataTomcatWeblogicPowerDesignerERWinInfomaticDataStageJBoss解决方案方法论行业模型典型分析项目控制项目建设物理模型数据加载应用开发上线加载产品选购方案选择项目工作
- 33. 内容部门产品简介23主流数据仓库厂商和产品介绍数据仓库概述1
- 34. 部门产品简介产品内容
数据平台
技术平台
产品平台
产品分类
- 35. 部门产品简介-产品内容方法论数据仓库技术组件与功能应用分析集合数据组织过程与个性应用实现数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针数据模型的建模方法;
统一的概念模型、逻辑模型;
数据库中对应的组织(物理化)ETL功能组件;
前端门户组件、模版;
元数据管理;
用户与组织;
权限组织;数据的加载、清洗、组织规划的过程;
用户本地的需求整理与实现;
与开发者的经验、技能相关;面向业务的分析;
面向问题的专题;
固定报表;
即席查询分析;
KPI;
分析、互动流程
- 36. 部门产品简介-产品内容数据平台…技术平台…应用平台…功能体系框架
面向业务的应用分析目录
功能面向分析目标
融合规范与个性需求
随业务发展以及个性需求不断演进与深化
避免功能开发的凌乱
可以面向不同角色灵活分配
与业务无关的技术功能
数据转换与数据加载
系统监控
信息发布支撑
工作流支撑
短信、EMAIL推送接口
前端门户框架
用户与权限管理支撑
数据存放中心
统一的数据模型
明细层数据
汇总层数据
应用层数据
数据的物理优化
数据分区
物化视图
- 37. 部门产品简介-产品内容
- 38. 部门产品简介-用户角色矿工勘探员农夫操作员旅行者老总/经理
KPI,仪表盘,简单的综合信息报表营销人员
当前周期的数据,明细数据,直接获取下载,用来做业务分析员
有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息熟练的分析员
精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。专业分析员
对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径 (特定用户进行细分等),一般直接使用数据仓库。
- 39. 部门产品简介产品内容
数据平台
技术平台
产品平台
产品分类
- 40. 部门产品简介-数据平台-层次规划用户名用户描述DCDE该层是数据仓库的代码处理层,包括参照代码表以及前端门户展示所用的结果表;DODS提供业务系统细节数据的长期沉淀;为未来分析类需求的扩展提供历史数据支撑;DMID支撑DM层数据生成;方便应用需求处理,提高性能;支撑专题分析和数据挖掘;DMRT面向分析类应用所构建的数据存储;为报表、KPI、OLAP和指标体系等应用提供数据支撑;DAPP各结果应用层的数据存储,包括报表、KPI、专题应用分析等;
- 41. 部门产品简介-数据平台-概念模型
- 42. 部门产品简介-数据平台-逻辑模型
- 43. 部门产品简介-数据平台-物理模型实体表名属性字段名、字段类型索引、分区、主外键等
- 44. 部门产品简介-数据平台-对象规范所有数据库对象,包括表(Table)、视图(View)、索引(Index)、和存储过程(Store Procedure)均应遵循以下命名规范。
Prefix_Function_Subject_Body_Suffix,其中:
为前缀名,表示数据库对象类型;
< Function >为隶属功能域,表示数据库对象在仓库中的功能层次;
为表隶属主题域名(三位字符缩写);
为主体名,应该能够清楚地说明对象的含义;
是后缀名,在该对象需分表存放或以历史表方式出现时使用。
名称的各部分之间以"_"(下划线)连接,各部分中出现的英文字母全部采用大写字母。
此外,ORACLE、DB2中数据库对象名称(包括字段名称)长度限制为30字符,所有在部分尽量采用缩写形式,必要时做必要截取。
- 45. 部门产品简介-数据平台-字段规范字段名由字母,数字和下划线组合而成;
字段名应采用能够准确反映其中文含义的英文单词或英文单词缩写构成,若是完整英文单词,采用首字母大写;若是单词缩写,全部使用大写字母;
在数据库多个实体中具有相同含义的字段名命名应保持一致;
字段名不要使用系统的保留字,长度不可以超过30个字符。
- 46. 部门产品简介-数据平台-功能域功能域 功能域缩写 功能域中文描述 CODECDE代码表 REFERRENCEREF参照表 MIDDLEMID中间汇总数据 DATA MARTMRT数据集市层 OLAPOLPOLAP应用层 KPI KPIKPI应用层 REPORTRPT报表应用 SYSTEM MANGERSYS系统管理 DATA MININGDMN数据挖掘应用
- 47. 部门产品简介-数据平台-主题域主题域 主题域缩写 主题域中文描述 PARTYPAR参与人主题SERVICESRV客户服务主题PRODUCTPDT产品主题FINANCEFIN账务主题MARKETMKT市场主题RESOURCERES资源主题BILLINGBLL服务使用主题EVENTEVT事件主题
- 48. 部门产品简介产品内容
数据平台
技术平台
产品平台
产品分类
- 49. 部门产品简介-技术平台技术模块说明前端门户基于J2EE的体系架构,具有样式、颜色、布局方面的配置功能;具有工作流支撑;具有图形、表格、固定报表、可定制报表等公共组件;具有标准的页面、标签等开发模版、公共类/方法;是一个框架同时是一个开发平台;ETL平台灵活的调度平台、ETL JOB开发模版、对数据库的各类操作的标准封装。元数据系统技术元数据、业务元数据、管理元数据;具有存储、接口、内部数据分析等功能。日志管理包括日志信息的标准存储、日志的录入、查询接口。信息推送推送信息的存储、备份;与EMAIL、彩信、彩E、短信等平台的推送接口;提供给上层应用的发送接口(具有定时、目标群选择、条件设置等功能)用户组织包括用户的各类信息、用户归属组织的各类信息、用户角色的各类信息;权限系统用户/角色与各类应用、各种数据权限的信息;提供权限判断接口,尤其是数据权限的接口。数据质量提供各类质量指标的定制,并提供关系对比、波动对比等各类质量分析功能。系统监控从日志和系统、数据库搜集需要监控的信息,提供监控预警功能。接口平台管理与与其它系统交互的数据,提供数据的备份与回复管理。
- 50. 部门产品简介-技术平台-元数据关于数据的数据;
数据内容表;
数据目录;
数据仓库地图;
数据仓库路标;
数据仓库目录;
将数据仓库内容结合到一起的黏合剂;
神经中枢; 元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。对信息/数据仓库/应用分析的描述、索引、解释、导航标签......有没有预先定义好的用户发展报表?
数据仓库中有什么数据?
有没有按产品分类的销售和成本数据?
我从哪可以找到我所需要的数据?
这个数据仓库的数据源有哪些系统?
客户的基本信息、积分、账单是怎么集成起来的?
数据仓库的数据从合适开始积累的?
有没有按月份和渠道进行的用户发展信息?
- 51. 部门产品简介-技术平台-元数据的分类业务元数据/商业元数据
报表的分布信息;
报表、查询的解释;
指标的定义;
指标的计算规则;
信息访问导航信息;
用业务属于表达的数据结构;
表的名称和业务定义;
单位信息;
技术元数据
数据仓库的逻辑模型;
数据仓库的物理模型;
源系统的模型;
数据ETL规则;
应用程序信息;
指标统计规则;
数据存放以及备份规则;
数据库配置信息;
统计程序与表之间的关系;
- 52. 部门产品简介-技术平台-元数据例子定义:从移动定制了一个或多个服务的个人或者团体
备注:客户实体中包含了当前的、潜在的以及以前的客户信息
源系统:BOSS3.0
建立日期: 2004年03月05日
最后更新日期:2008年08月25日
更新周期:每日
更新方式:每日增量更新,每月初全量刷新
最近一次数据质量检查:2008年09月01日
最近备份:2008年09月10日
负责人:张无忌
字段详细信息、版本变更历史、引用此实体的统计程序... 实体名称:客户
实体CODE:Customer
- 53. 部门产品简介产品内容
数据平台
技术平台
产品平台
产品分类
- 54. 部门产品简介-产品平台规范功能个性需求新需求提出统一的应用框架下管理和开发
- 55. 部门产品简介产品内容
数据平台
技术平台
产品平台
产品分类
- 56. 部门产品简介-产品分类经营分析地市集市部门集市决策支持报表中心专题分析综合的产品,倾向于全面分析,对各层面都有支撑,对中层分析执行人员支撑力度更大面向一线人员,地市各部门、营业厅,为业务开展提供支撑。面向一个部门,目前以深度营销分析为代表,特点是专著一块业务,带有比较强的流程操作面向经理、老总层面;分析以宏观为主,围绕决策这个主题,提供效益、市场等方面的信息功能单一的报表展现系统针对特定业务问题,推出的分析方案。横向面窄,纵向面深。iSMASSiL-SMASSiDept-SMASSiDSSiREPORTiSA-SMASS
- 57. 内容部门职责和产品简介23主流数据仓库厂商和产品介绍数据仓库概述1
- 58. 主流数据仓库厂商和产品介绍ORACLE公司:
Oracle公司针对数据仓库系统有一套完整的解决方案。包括:
关系型数据Oracle9i、10g、11g;
Oracle的OLAP工具:Oracle Express;
Oracle的即席查询工具:Oracle Discoverer;
Oracle的企业级报表工具:Oracle Reports;
Oracle的数据挖掘工具:Data Mining Suite;
以及收购的Hyperion公司的相关商务智能工具,目前正在整合中。
- 59. 主流数据仓库厂商和产品介绍IBM公司:
IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。
IBM在2007年收购了著名的商务智能厂商COGNOS,势力得到了大大的加强。目前也在整合当中。
- 60. 主流数据仓库厂商和产品介绍Teradata:
Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。1998年,该公司也提供了基于Windows NT的Teradata。
Teradata系统目前主要运用于零售、航空、金融、电信、邮政等领域,具有一定的市场份额。
- 61. Gartner 2008 数据仓库提供商 魔力四象限
- 62. Gartner 2007 数据仓库提供商 魔力四象限
- 63. Gartner 2008年商业智能 魔力四象限
- 64. Gartner 2007年商业智能 魔力四象限
- 65. (本页无文本内容)