• 1. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 2. 教材及参考书教材: 《客户关系管理》 汤兵勇 王素芬等 高等教育出版社 参考书: 《客户关系管理——理论与实践》邵兵家 于同奎等 清华大学出版社 《CRM 原理 设计 实践》 何荣勤 电子工业出版社
  • 3. 电子商务是一场商业革命改变了传统的商务活动方式(在家购物) 摆脱了地域和时间的限制(3a) 节省成本 提升服务 拓展商机电子商务 是一场革命打破时空局限 改变贸易形态汇聚信息 生成新的业务自适应导航 服务个人化
  • 4. 电子商务的发展高速发展阶段 20世纪末,基于计算机与通讯结合的网络环境的出现,在互联网上从事能产生效益的商务活动,成为经济活动中的热点。出于对美好未来的憧憬,电子商务得到了爆炸式发展。CMP Research (1998)大约有三分之一的美国企业宣称将会在一年内实施它们的电子商务;美国1997年1月到6月申请商业域名的公司就从17万多个激增到近42万个,1997年底又翻了一番。 在当年电子商务的发展中,资本市场的投资起到了推波助澜的作用。从20世纪90年代开始,在IT业快速发展的推动下,美国股市连涨10年,创造了经济奇迹。20世纪90年代中期以后,网络概念股票在美国股市受到青睐。网上图书销售商亚马逊(Amazon.com)的营业收入从1996年的1 580万美元猛增到1998年的4亿美元。面对Internet的应用前景看好的情况下,网络概念股节节走高。以高新技术类上市公司为主的美国NASDAQ股票市场,1996年初的指数点位还只有1 000点,而2000年初该点位已经超过4 000点(参见图1.1)。在财富效应的驱动下,各种资金蜂拥般地进入以网络为核心的IT领域,电子商务经历了其发展初期的爆炸式发展。
  • 5. 电子商务的发展NASDAQ股票走势
  • 6. 电子商务的发展蓄势调整阶段 2000年初,在投资者的疯狂追捧下,NASDAQ接近了5 000点大关。然而就在这个时候,IT业在这10多年的高速发展中所积累的问题开始暴露,电子商务也未能例外。尽管一些电子商务网站的营业收入已经做得很大,但支出更大,一直不能实现赢利;此外,随着规模的扩大,物流、管理等方面的问题也开始凸现。能否继续保持高速发展也就成为电子商务发展进程中一个十分现实的问题。 从2000年中期开始,和整个IT业一道,电子商务开始了调整。股市泡沫开始破灭,NASDAQ指数在一年的时间内就从接近5 000年跌下了2 000点。随着资金的撤离,许多依赖资本市场资金投入的网站陷入了困境,不少网站开始清盘倒闭。据不完全统计,超过三分之一的网站销声匿迹了。电子商务经历了其发展过程中的寒冬。
  • 7. 电子商务的发展稳步发展阶段 2002年底至今,电子商务步入复苏和稳步发展阶段。在经历了电子商务发展冬天的严峻考验后,生存下的电子商务网站开始懂得必须以务实的态度经营电子商务网站,而且首先要在经营上找到经济的赢利点,正是有了这可贵的经营实践和务实的经营理念,才使得这些经营性的网站一返长期亏损局面而出现了赢利。人们看到了希望,电子商务网站的经营实现了突破,开始迎来了又一个春天。电子商务毕竟是具有强大生命力的新生事物,短暂的调整改变不了其上升趋势。在经历了惨烈的调整之后,从2002年底开始,不断有电子商务企业宣布实现赢利,这标志着电子商务的复苏。
  • 8. 电子商务规模Worldwide E-Business (total), in US$ billion 全球电子商务总交易额,以10亿美元计其他地区拉美西欧亚太北美图中地区与图例说明中的顺序一样Source: Forrester ResearchWorldwide EB: US$ 3 trillion (1/2003, est.) 全球电子商务: 3万亿美元 (2003年1月估计)
  • 9. 电子商务定义商业模式 + 技术 = 电子商务 电子商务是基于网络化的企业运营模式 利用计算机信息与通信系统通过互联网在销售商、顾客和银行金融机构等参加交易各方之间对商品和服务进行电子传递和电子交换的商业贸易与商业服务形式。
  • 10. 电子商务定义狭义定义 电子交易,主要是指通过Internet进行的商业交易,包括企业与企业,企业与消费者,企业与政府之间的交易活动。 广义定义 包括电子交易在内的,运用Internet 进行的整个商业活动,包括从产品的生产到产品到达消费者的全过程,也有称为电子业务。 电子业务所指的范畴比电子商务要大得多,可以粗略地定义为:以信息技术的基础设施和解决方案装备起来的关键业务系统,通过因特网、外联网及万维网与它们的组成部门(例如客户、雇员、供应商、业务伙伴、各种联络渠道及影响者等)直接联接起来的各种业务活动。      在这个定义中,“各种业务活动”既包括企业内部的活动(如ERP),也包括企业外部的活动(如狭义电子商务、CRM等)。      电子业务是指,将一个企业的物质流、信息流及业务过程管理全面用信息技术装备起来并实现网络化。电子业务优化就是要把一个产品(或工艺过程)从开始设计、放大生产、投放市场再到最后交到最终用户手中,所涉及到的每个过程(甚至包括售后服务),都加以优化。目的是创造性地、智能化地快速响应市场需求,从而在竞争中取得更大的市场份额。 
  • 11. 企业电子化框架WEB和IT技术支撑企業策略企業價值电子化企业 EB电子商务 EC企业智能BI知识管理 KMSRMERP CAD/CAM/CAPP…CRM客戶供应商
  • 12. 电子商务和CRM电子商务公司的经营长时间处于无序和迷茫之中,虽然他们急于想抓住已有的客户并发展潜在的客户,但实际上却在忽视他们,渐渐丢失这部分最重要的资源。而面对客户个性化需求的增长,电子商务公司更是一筹莫展。 目前84%的在线交易没有对客户进行跟踪; 96%的在线交易没有为客户提供个性化的服务;75%的在线交易无法辨认重复客户。 CRM必将成为电子商务时代企业竞争的关键。随着电子商务模式的普及和发展,一对一的销售和个性化的销售正逐渐成为企业利润增长的重要来源,忽视CRM系统的建设,等同于漠视企业客户资源的流失,任何一个企业,尤其是那些面对急剧扩张的客户群而束手无策的电子商务企业都不得不考虑这样的问题。 CRM所提供的信息可以直接成为电子商务活动的信息流,CRM使企业全面观察客户,综合利用客户信息,推动电子商务的发展。
  • 13. CRM定义不同机构对CRM有着不同的理解和表述 CRM的“铁三角”内涵 CRM的定义返回
  • 14. 不同机构对CRM有着不同的理解和表述GartnetGroup认为所谓的客户关系管理就是为企业提供全方位的管理视角,赋予企业更完善的客户交流能力,使客户的收益率最大化。 Hurwitzgroup认为CRM的焦点是改善与销售、市场营销、客户服务和支持等领域的客户关系有关的商业流程并实现自动化。 IBM把客户关系管理分为三类:关系管理、流程管理和接入管理,涉及企业识别、挑选、获取、保持和发展客户的整个商业过程。 返回
  • 15. GartnetGroup认为所谓的客户关系管理就是为企业提供全方位的管理视角,赋予企业更完善的客户交流能力,使客户的收益率最大化。 返回
  • 16. Hurwitzgroup认为CRM的焦点是改善与销售、市场营销、客户服务和支持等领域的客户关系有关的商业流程并实现自动化。 返回
  • 17. IBM认为把客户关系管理分为三类:关系管理、流程管理和接入管理,涉及企业识别、挑选、获取、保持和发展客户的整个商业过程。 返回
  • 18. CRM的“铁三角”内涵 CRM分为理念、技术、实施三个层面。 CRM理念:建立“以客户为核心、以市场为导向”经营管理模式。 CRM技术:Internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心等等。 CRM实施:CRM软件不是一种交付即用的工具,需要根据组织的具体情况进行CRM实施。 CRM理念是CRM成功的关键,它是CRM实施应用的基础和土壤; CRM技术是CRM成功实施的手段和方法;实施是决定CRM成功与否、效果如何的直接因素。 返回
  • 19. CRM的定义 CRM是企业利用 IT技术和互联网技术实现对客户的整合营销,是以客户为核心的企业营销的技术实现和管理实现,以提高组织的赢利能力(经济效益、社会效益)并加强竞争优势 。返回
  • 20. 关于CRM的几点误解1CRM是一个系统或是一项技术 2CRM是应用软件 3CRM一定要建立呼叫中心 4实现CRM,ERP要先行 5CRM是一对一营销 6CRM是统计模型 7CRM是数据库应用 8CRM是电子商务 9CRM能“包治百病” 返回
  • 21. CRM产生背景——管理理念更新企业管理中心发展阶段 产值中心论 销售额中心论 利润中心论 客户中心论 客户满意中心论 客户资源价值体现 成本领先优势和规模优势 市场价值和品牌效应 信息价值 网络化价值
  • 22. CRM产生背景——过程需求拉动客户行为的需求 消费价值观变迁:理性消费、感觉消费、感情消费。 互联网使客户选择权空前扩大:购买者可以获得更多相关的信息;客户很容易比剧痛厂商的价格和服务;切换厂商带来的损失大大降低;客户期望值提升等。 新时代客户购买行为的准则:快速、容易、便宜、个性化、熟悉、安全等。 市场竞争的需求 竞争全球化 产品差距缩小,竞争力从产品转向服务 大批e化企业对传统企业蚕食鲸吞 内部管理的需求 客户信息分割大致客户服务效率低下 销售人员花在一般事务处理的时间太多 销售人员占有关键客户资料 企业各部门难以获得所需的客户互动信息。来自不同部门的信息分散在企业内,无法对客户有全面的了解,各部门难以在统一的信息的基础上面对客户。
  • 23. CRM产生背景——技术推动企业的客户可通过电话、传真、网络等访问企业,进行业务往来。 任何与客户打交道的员工都能全面了解客户关系、根据客户需求进行交易、了解如何对客户进行纵向和横向销售、记录自己获得的客户信息。 能够对市场活动进行规划、评估,对整个活动进行360度的透视。 能够对各种销售活动进行追踪。 系统用户可不受地域限制,随时访问企业的业务处理系统,获得客户信息。 拥有对市场活动、销售活动的分析能力。 能够从不同角度提供成本、利润、生产率、风险率等信息,并对客户、产品、职能部门、地理区域等进行多维分析。
  • 24. CRM的产生 接触管理 CRM最早由美国Gartner Group提出,在1980年初便有所谓的"接触管理"(Contact Management)专门收集客户与公司联系的所有信息。 客户关怀 到1990则演变成包括电话服务中心支持资料分析的客户关怀(Customer care)。 客户关系管理 经过近二十年的不断发展,客户关系管理不断演变发展并趋向成熟,现在已形成了一套完整的管理理论体系。
  • 25. CRM的发展 接触管理 CRM最早由美国Gartner Group提出,在1980年初便有所谓的"接触管理"(Contact Management)专门收集客户与公司联系的所有信息。 客户关怀 到1990则演变成包括电话服务中心支持资料分析的客户关怀(Customer care)。 客户关系管理 经过近二十年的不断发展,客户关系管理不断演变发展并趋向成熟,现在已形成了一套完整的管理理论体系。
  • 26. CRM的作用1、提高市场营销效果 2、为生产研发提供决策支持 3、技术支持的重要手段 4、为财务金融策略提供决策支持 5、为适时调整内部管理提供依据 6、优化企业业务流程 返回
  • 27. CRM的分类按目标客户分类 按应用集成度分类返回
  • 28. 按目标客户分类 高端应用 中低端应用 返回
  • 29. 按应用集成度分类 CRM专项应用 CRM整合应用 CRM企业集成应用 返回
  • 30. CRM与企业文化的关系CRM实施的前提是企业文化的改造 CRM的实施也推动了企业文化的变革。 返回
  • 31. 中国实施CRM的难点实施成本过高、周期长 实施达不到理想效果 缺乏优秀的CRM咨询机构 人的认识不够 企业IT基础设施较差
  • 32. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 33. CRM发展
  • 34. CRM含义CRM是以客户为中心的管理理念和经营战略,它以信息技术、网络、通讯技术为手段,整合企业内外所有与客户相关的资料和数据,通过改善与企业销售、市场营销、客户服务和支持等领域的客户有关的商业流程并实现自动化,提高客户满意度和忠诚度,从而实现企业利润最大化。
  • 35. CRM的“铁三角”内涵
  • 36. CRM理念CRM理念是指企业根据客户终生价值的大小,充分调配可用的资源,有效的建立、维护、发展客户的长期合作关系,以提高客户忠诚度、满意度,实现企业利润最大化。
  • 37. CRM理念是CRM的指导性原则CRM理念是企业实施CRM的指导性的原则。他是企业经营的一种基本方式和指导思想。它指导企业应该怎么做(充分调配可用的资源),做什么(有效的建立、维护、发展客户的长期合作关系),通过什么方式做(根据客户终生价值的大小),这么做的目的是什么(提高客户忠诚度、满意度,实现企业利润最大化)。 CRM理念作为企业的指导性原则,与技术没有直接的关系,可以脱离技术的存在而存在。
  • 38. CRM理念关注的对象是“关系”CRM理念要有效的建立、维护、发展客户的长期合作关系,主体是关系。 关系:人或事物之间的关联。 Relationship: a relationship is the way in which two people of groups of people behave towards each other and feel towards each other.(关系是两个人或两组人之间彼此的行为方式和感觉状态)。
  • 39. 关系的特征关系是双方彼此的行为和感觉,是相互的过程,缺少任何一方都不行。(企业选择终生价值大的客户,也必须通过提高客户满意度留住客户,“双赢”。) 关系有感觉和行为两个要素。 关系有一个生命周期。(关系建立、关系发展、关系维持、关系结束)
  • 40. 关系营销CRM理念源自关系营销学。 关系营销,是把营销活动看成是一个企业与消费者、供应商、分销商、竞争者、政府机构及其他公众发生互动作用的过程,其核心是建立和发展与这些公众的良好关系。
  • 41. 关系营销产生 1984年,科特勒提出了所谓的“大市场营销”概念 。(4P+政治权利+公共关系) 贝瑞率先提出和讨论了如何维系和改善同现有客户之间关系的问题。 杰克逊提出要与不同的客户建立不同类型的关系。 北欧诺迪克学派的的代表人物葛劳罗斯、舒莱辛格和赫斯基则论证了企业同客户的关系对服务企业市场营销的巨大影响。
  • 42. 关系营销与传统交易营销对比
  • 43. 关系营销的本质特征 (1)双向沟通。在关系营销中,沟通应该是双向而非单向的。只有广泛的信息交流和信息共享,才可能使企业赢得各个利益相关者的支持与合作。 (2)合作。一般而言,关系有两种基本状态,即对立和合作。只有通过合作才能实现协同,因此合作是“双赢”的基础。 (3)双赢。即关系营销旨在通过合作增加关系各方的利益,而不是通过损害其中一方或多方的利益来增加其他各方的利益。 (4)亲密。关系能否得到稳定和发展,情感因素也起着重要作用。因此关系营销不只是要实现物质利益的互惠,还必须让参与各方能从关系中获得情感的需求满足。 (5)控制。关系营销要求建立专门的部门,用以跟踪客户、分销商、供应商及营销系统中其他参与者的态度,由此了解关系的动态变化,及时采取措施消除关系中的不稳定因素和不利于关系各方利益共同增长因素。此外,通过有效的信息反馈,也有利于企业及时改进产品和服务,更好地满足市场的需求。
  • 44. 关系营销层次 一级关系营销(财务层次营销),利用价格刺激增加目标市场客户的财务利益。 二级关系营销 (社交层次营销),即增加目标客户的财务利益,同时也增加他们的社会利益。 三级关系营销 (结构层次营销),向交易伙伴提供财务利益和社会利益的同时,与交易伙伴结成定结构纽带稳联系。
  • 45. 客户关系类型
  • 46. 客户满意度客户满意度是客户对企业以及企业产品或服务的满意程度。客户满意度也是客户对企业的一种感受状态,并且在这种感受状态下更容易激发交易行为的发生。一个常用的统计结果是:一个满意的客户,要6倍于一个不满意的客户更愿意继续购买那个企业的产品或服务。 客户满意是指一个人通过对一个产品的可感知效果(或结果)与他的期望值相比较后,所形成的愉悦或失望的感觉状态。美国营销学会更为直观表达为:满意=期望-结果。
  • 47. 客户忠诚度客户忠诚是从客户满意概念中引出的概念,是指客户满意后而产生的对某种产品品牌或公司的信赖、维护和希望重复购买的一种心理倾向。客户忠诚实际上是一种客户行为的持续性,客户忠诚度是指客户忠诚于企业的程度。 客户忠诚是企业取得竞争优势的源泉,因为忠诚客户趋向于购买更多的产品、对价格更不敏感,而且主动为本企业传递好的口碑、推荐新的客户。因此,拥有长期忠诚客户的企业比拥有低单位成本、高市场份额但客户流失率高的对手更有竞争优势。CRM的目的就是通过合适的客户保持战略,不断强化客户的关系持续意愿,最终建立客户忠诚,从而实现长期稳定的客户重复购买。因此,客户忠诚是企业实施CRM所追求的根本目标。
  • 48. 客户忠诚度客户忠诚的定义分歧较大,不同的研究者从不同的角度进行了阐述。 比较典型的是以客户的重复购买次数来定义,如Tucker将连续3次购买定义为客户忠诚。 而Oliver认为,客户忠诚是高度承诺在未来一贯地重复购买偏好的产品或服务,并因此产生对同一品牌或同一品牌系列产品或服务的重复购买行为,而且不会因为市场态势的变化和竞争性产品营销努力的吸引而产生转移行为。 这一定义不仅描述了客户忠诚的行为特征即重复购买,也强调了客户忠诚的态度特征即客户的忠诚来源于客户对产品的喜爱和依赖,是积极的,不会随着外界条件的改变而改变。
  • 49. 客户忠诚类型1)垄断忠诚 2)惰性忠诚 3)价格忠诚 4)激励忠诚 5)超值忠诚
  • 50. 客户的忠诚体现 1)客户关系的持久性,表现在时间和联系的持续性。 2)客户花在企业的消费金额提高,表现在增加钱包份额,增加交叉销售。 3)客户对企业有很深的感情,非常愿意购买企业的产品,自觉地为企业作正面宣传,不会总是等到打折时才购买,对企业的满意度很高。
  • 51. 客户忠诚度的指标体系 从分析忠诚客户行为,我们确定客户忠诚度的相关因素为3类,即3个子系统,共9个因素。 关系的持久性A1 购买持续期A11 购买频率 A12 购买频率变化趋势A13 消费金额A2 钱包份额A21 交叉销售A22 情感因素A3 产品被提及率A31 对价格敏感性A32 客户满意度 A34 购买自愿程度A33
  • 52. 客户满意陷阱美国学者Reicheld和Sasser的研究表明,客户忠诚度提高5%,行业的平均利润率提高25%~85%。因此,许多企业采取大量的措施提高客户的满意度,希望籍此提高客户忠诚度。但是实践和研究发现,客户满意度并不等于忠诚度,许多行业存在着高满意度,低忠诚度的现象。根据美国贝思公司的一项调查显示,宣称满意或很满意的客户,有65%~85%会转向其他公司的产品。在汽车行业中,有85%~95%的客户感到满意,可只有30%~40%的客户会继续购买同一品牌的产品,这就是所谓的客户满意陷阱。
  • 53. 客户满意陷阱
  • 54. 基本期望和潜在期望客户的期望由两部分构成即基本期望和潜在期望。 基本期望是指客户认为理应从产品和服务中得到满足的基本需要;潜在期望是指超出基本期望的客户并未意识到而又确实存在的需求。 客户满意也有两种类型:客户的基本期望得到满足导致的满意和客户的潜在期望得到满足导致的满意。 这两种类型的满意对客户忠诚的影响是不同的。
  • 55. 基本期望满意水平与客户忠诚关系图 当客户基本期望的满意水平达到一定程度,客户忠诚就会随着满意水平的提高而提高,但这种满意水平对客户忠诚的边际效用是递减的。尤其是客户忠诚度上升到平均忠诚度(平均忠诚度是指提供行业平均水平的产品和服务所激发的客户忠诚)附近,不管企业采取何种措施提高客户满意水平,客户忠诚度的变化都不大。这是因为基本期望对客户而言需求层次比较低,客户认为商品和服务的这些价值是自己理应得到的,其他的供应商也能提供类似的价值,企业的产品和服务并没有特别的吸引力,因此客户很难做出不好的评价却缺乏再次购买的热情,也不会向其他人推荐。
  • 56. 基本期望满意水平与客户忠诚关系图 客户潜在期望的满意水平对客户忠诚的边际效用是递增的。其原因是客户从商品中获得了意想不到的价值(此处的价值包括物质、心理、精神几方面的价值),满足了自己的潜在期望而感到愉悦。这种感觉越强对客户的吸引力越大,在下一次购买时,为了再次体验到这种感觉,客户很可能仍然选择同一品牌。经过多次重复购买,客户多次感到愉悦,对该种产品逐渐产生信任和依赖,不再考虑其他品牌的产品,形成积极的长期忠诚。
  • 57. 两种期望满意水平与客户忠诚关系图 本图由上面两图合成。对客户而言,这两种期望是同时存在的,但是客户首先要求满足基本期望,否则就会不满更谈不上忠诚。当客户的基本期望得到了极大的满足,客户忠诚度接近平均忠诚度时,客户会更关注潜在期望的实现。如果此时企业仍致力于提高客户基本期望的满意水平而忽略客户的潜在期望就造成了客户满意陷阱。因此,客户满意陷阱不是客户的满意度高而忠诚度低,而是客户基本期望的满意水平高而忠诚度低,只要提高客户潜在期望的满意水平,客户满意陷阱的问题就可以迎刃而解。根据上面的分析我们可以得出结论:基本期望得不到满足客户就会产生不满,但基本期望的满意水平对激励客户忠诚效果不大。潜在期望得不到满足客户不会不满,得到了满足就能让客户感到愉悦,激励客户再次购买,其满意水平与客户忠诚度近似于线性关系。潜在期望才是影响客户忠诚最重要的因素。
  • 58. 客户关系生命周期对于客户而言,基本期望和潜在期望并不是一成不变的。随着购买次数的增加,客户对商品和服务越来越熟悉,变得越来越苛刻,越来越难以满足,以前充满吸引力的因素已不再令人感到新鲜,同时客户对市场和竞争对手的了解也更加深入,他们知道该要求什么,并要求得到更多。这说明客户有一个成长成熟的过程,在这一过程中, 客户基本期望和潜在期望的层次越来越高。 为此,我们引入客户关系生命周期的概念。将客户关系划分为三个阶段:考察期、形成期和稳定期。 我们结合客户关系生命周期不同阶段的特征,探讨在不同的阶段客户基本期望和潜在期望的变化,以及为了满足这些需要应采取的措施。
  • 59. 考察期 在客户关系生命周期的考察期,不确定性是最重要的特征,客户不能确定自己在交易中到底能获得多少价值,而供应商对客户的需求和偏好也没有充分的了解。因此,评估供应商的潜在价值和降低不确定性是这一阶段的中心目标,客户会尝试性地购买。由于自身价值评估能力不足,对可替代供应商和市场状况的了解有限,客户基本期望价值的基础是以往的经历和已知的类似关系。只要企业有形产品的性价比高于同行业的平均水平,配套的售后服务如送货、维修等及时完善,客户一般会感到满意。而客户的潜在期望是得到更多的物质利益和供应商的关怀。针对这一时期客户的潜在期望,供应商可以实施常客奖励计划和感情联络计划。常客奖励计划即客户每重复购买一次就能够得到更大的优惠。而感情联络计划则是指提供客户意料之外的有价值的附加产品,让客户感受到企业的关爱,逐渐使企业的产品和服务成为客户生活完整的一部分。如生产微波炉的厂商免费为客户赠送微波炉菜谱,定期向客户传递最新菜式和使用小窍门以及行业的最新资讯,吸收客户成为客户俱乐部的会员等等。
  • 60. 形成期 在客户关系的形成期,客户通过一系列的重复购买,拓宽了视野,对可替代供应商和市场状况更加熟悉,自身的价值评估能力得到提高。在使用产品的过程中,客户也会遇上一些特别的问题或是根据自己的情况产生一些特殊的要求。同时,供应商对客户的喜好、习惯、背景、购买方式和能力等私人信息更加了解。由于客户对供应商以前提供的优质产品和服务已习以为常,不再感觉新鲜和有吸引力,但是产品和服务的质量一旦下降一点,客户立即就会表示不满。因此,在这一时期, 客户基本期望的基础是以前购买该产品的经历和市场上最好的供应商,要满足客户的基本期望,就要一如既往地为客户提供在考察期提供的所有优质的产品和服务。客户的潜在期望是作为个体受到供应商非同一般的重视。因此要激励客户忠诚,供应商应采取特别对待计划,即分析每一位老客户的资料,倾听客户在购买和使用产品中产生的个性化需求,为客户量身定制最适合客户的产品和奖励方式和特殊服务,以此体现对客户高度的尊重和重视。
  • 61. 稳定期 在客户关系的稳定期,客户对产品产生了强烈的喜爱和依赖,对企业高度信任,不会再积极地搜寻可替代供应商。但是,客户不仅对市场状况非常熟悉,而且对企业的产品、组织结构和运作流程及方法都有了越来越深入的了解,客户不仅关注自身从企业获得了多少价值,也关注企业在交易中获得的价值,在客户看来,双方获得的价值必须是均等的,否则就不公平。因此,企业要向客户提供在客户关系的考察期和形成期提供的一切价值,还要通过各种宣传让客户明白企业和客户双方得到的价值是对等的,让客户了解企业为满足客户的个人要求所花费的苦心和成本,才能满足客户的基本期望。如上所述,客户对企业非常了解和熟悉,而企业的产品和服务也是客户生活不可或缺的部分,因而客户对企业有一种潜在的归属感:希望成为企业的一部分而且自我对企业重要价值能得到承认。要满足客户的这种心理,企业应采取共同体计划:将客户视为企业的一部分,让他们参与到企业活动中来,听取客户对企业各方面工作的建议并给予奖励,让客户有成就感,有参与感,使客户和企业真正成为一家人。
  • 62. 不同阶段客户忠诚的激励措施
  • 63. 客户的终生价值所谓客户的终生价值是随着时间的延续,企业从客户(个人、家庭或中间商)那里获得的所有收益超过公司为吸引这个客户、向这个客户出售商品、提供服务等所有支出成本的一个可接受的现金量,并且要将这个现金量折为现值。
  • 64. 客户终生价值的组成 CLV=CLV1+CLV2+CLV3+CLV4+CLV5+CLV6 其中: CLV指客户在其一生中有可能为企业带来的价值之和; CLV1指客户初期购买给企业带来的收益; CLV2指以后若干时间内客户重复购买及由于客户提高支出分配(或我们称为钱包份额)为企业所带来的收益; CLV3指交叉销售带来的收益。客户在长时期内倾向于使用一个厂家的更多种产品和服务; CLV4指由于厂商和客户都知道如何在长期内更有效地相互配合,使得服务成本降低、并能原谅某些失误及提高营销效率所带来的收益; CLV5指客户是公司的一个免费的广告资源,客户向朋友或家人推荐企业的产品或服务所给企业带来的收益,即推荐收益; CLV6指随着时间推移,重复购买者或忠诚客户对价格的敏感性降低,不是等到降价或不停地讨价还价才购买所获得的收益。
  • 65. 客户让渡价值客户让渡价值是指客户购买的总价值与客户购买的总成本之间的差额。
  • 66. 客户购买总价值客户购买总价值是指客户购买某一商品与服务所期望获得的一组利益,它包括产品价值、服务价值、人员价值和形象价值等。
  • 67. 客户购买总成本客户购买总成本是指客户为购买某商品所消耗的货币成本、时间成本、精神成本和体力成本的总和。 客户购买总成本不仅指货币成本 (产品价格),正如亚当·斯密曾说过的“任何东西的真实价格就是获得它的辛劳和麻烦”,它还包括购买者预期的时间、精力和精神费用。购买者将这些费用与货币价格加在一起,就构成了客户购买总成本。
  • 68. 客户让渡价值可以把顾客让渡价值看成是顾客购买所获得的利润。 每一个顾客在他购买商品的过程中总是力图争取得到最大的顾客让渡价值。 企业不仅要着力创造价值,还必须关注消费者在购买商品和服务中所倾注的全部成本。由于顾客在购买商品和服务时,总希望把有关成本,包括货币、时间、精力和精神降到最低限度,而同时又希望从中获得更多实际利益。因此,企业还必须通过降低生产与销售成本,减少顾客购买商品的时间、精力与精神耗费从而降低货币非货币成本。
  • 69. 客户保留成本&客户流失成本 科特勒提出按照四个步骤来进行是否采取客户保留措施的决策。 测定客户的保留率。客户保留率即发生重复购买的客户比率。 识别造成客户流失的原因,并且计算不同原因造成的流失客户比率。 估算由于不必要的客户流失,企业利润的损失。这一利润就是客户生命周期价值的总和。 决策。企业维系客户的成本只要小于损失的利润,企业就应支付降低客户流失率的费用。
  • 70. 客户盈利性&客户贡献度客户盈利性=客户总收益-客户总成本 All customer revenues, minus all customer expenses (transactional, channel, delivery etc.) equals customer profitability or value. 客户贡献度=客户总收益-客户直接成本
  • 71. 客户终生价值模型一、 不考虑客户支出分配的客户终生价值模型 二、 考虑客户支出分配的客户终生价值模型
  • 72. 影响客户终生价值各因素分析 (一)计算的时间长度 (二)贴现率 (三)客户的维系率 (四)产品被提及率 (五)客户的收入的变化 (六)客户关系的维系成本 (七)营销费用 (八)其它
  • 73. 客户生命周期客户生命周期是指当一个客户开始对企业进行了解或企业欲对某一客户进行开发开始,直到客户与企业的业务关系完全终止且与之相关的事宜完全处理完毕的这段时间。客户的生命周期是企业产品生命周期的演变,但对商业企业来讲,客户的生命周期要比企业某个产品的生命周期重要得多。客户的生命周期性可分为潜在客户期、客户开发(发展)期、客户成长(维系)期、客户成熟期、客户衰退期、客户终止期共六个阶段。在客户生命周期不同阶段,企业的投入与客户对企业收益的贡献是大不相同的。
  • 74. 潜在客户期当客户对企业的业务进行了解,或企业欲对某一区域的客户进行开发时,企业与客户开始交流并建立联系,此时客户已进入潜在客户期。因客户对企业的业务进行了解企业要对其进行相应的解答,某一特定区域内的所有客户均是潜在客户,企业投入是对所有客户进行调研,以便确定出可开发的目标客户。此时企业有一定的投入成本,但客户尚未对企业做出任何贡献。
  • 75. 客户开发期当企业对潜在客户进行了解后,对已选择的目标客户进行开发时,便进入客户开发期。此时企业要进行大量的投入,但客户为企业所做的贡献很小甚至没有。
  • 76. 客户成长期当企业对目标客户开发成功后,客户已经与企业发生业务往来,且业务在逐步扩大,此时已进入客户成长期。企业的投入和开发期相比要小得多,主要是发展投入,目的是进一步融洽与客户的关系,提高客户的满意度、忠诚度,进一步扩大交易量。此时客户已经开始为企业做贡献,企业从客户交易获得的收入已经大于投入,开始盈利。
  • 77. 客户成熟期当客户与企业相关联的全部业务或大部分业务均与企业发生交易时,说明此时客户已进入成熟期,成熟的标志主要看客户与企业发生的业务占其总业务的份额。此时企业的投入较少,客户为企业做出较大的贡献,企业与客户交易量处于较高的盈利时期。
  • 78. 客户衰退期当客户与企业的业务交易量逐渐下降或急剧下降,客户自身的总业务量并未下降时,说明客户已进入衰退期。此时,企业有两种选择,一种是加大对客户的投入,重新恢复与客户的关系,确保忠诚度;另一种做法便是不再做过多的投入,渐渐放弃这些客户。企业两种不同做法自然就会有不同的投入产出效益。
  • 79. 客户终止期当企业的客户不再与企业发生业务关系,且企业与客户之间的债权债务关系已经理清时,意味客户生命周期的完全终止。此时企业有少许成本支出而无收益。
  • 80. 延长客户生命周期企业要尽可能的延长客户的生命周期,尤其是成熟期。客户成熟期的长度可以充分反映出一个企业的盈利能力。面对激烈的市场竞争,企业要掌握客户生命周期的不同特点,提供相应的个性化服务,进行不同的战略投入,使企业的成本尽可能低,盈利尽可能高,从而增强企业竞争力。
  • 81. 客户生命周期企业投入产出比
  • 82. 客户生命周期的划分
  • 83. 阶段一客户是潜在客户最初,当一个客户在询问企业的业务时,他就表现出对该业务的兴趣,他就成为了该企业业务的潜在客户。 特征是:询问。 影响客户进入下一阶段的因素: 1)外界评价 2)客户的层次 3)客户的所属行业
  • 84. 阶段二客户是新客户当客户经过需求意识阶段、信息收集阶段、评估选择阶段后,对企业业务有所了解,或者在别人的推荐和介绍之下会将某种产品和服务的期望同属于自己的价值观念密切联系在一起了,客户决定使用或者购买某一企业的某个产品或是服务时,他就由潜在客户上升为了新客户。 影响新客户的因素: 1)客户对产品质量的感知 2)客户对产品服务质量的感知 3)客户对价值的感知 4)企业竞争者的资费信息 5)客户需求的情况
  • 85. 阶段三客户是老客户用户对企业培养起了基本的信任感,使用该企业的业务也持续了一段时间,从而成为了该企业业务的老用户。 影响老客户的因素主要是: 1)企业的服务情况 2)客户新的业务需求 3)企业竞争者的信息
  • 86. 阶段四客户是新业务的新客户 是由原来的老用户发展而来的,即原有的老客户由于建立起对该企业业务的信任感,进而进一步使用了该企业的新业务 。 影响新业务的新客户的因素主要是: 1)老业务的运行情况 2)新业务的发展情况 3)客户的满意程度 4)企业的发展状况
  • 87. 基于客户生命周期的客户终生价值客户终生价值就是指客户在其整个生命周期过程中,为企业所做贡献的总和。由于在客户生命周期的不同时间内,对企业所做的贡献亦有所不同,同时由于时间价值的存在,所以计算客户终生价值时,必须要对不同时期的贡献进行贴现,计算出客户的终生价值的现值。 客户终生价值的计算可分成以下四个步骤: 第一步:确定客户生命周期; 第二步:计算客户生命周期内每年给企业带来的利润净额; 第三步:对客户生命周期内每年的利润净额进行贴现; 第四步:求和。
  • 88. 客户的维持策略CRM更侧重于客户份额所带来的长期收益
  • 89. 增加客户份额的两种手段 一、多吸引新客户; 二、保留老客户。
  • 90. 客户维系策略有三个层次 第一层次,维系客户的手段主要是利用价格刺激来增加客户关系的财务利益。 第二层次,既增加财务利益,又增加社会利益,而社会利益要优先于财务利益。 第三层次,在增加财务利益和社会利益的基础上,附加了更深层次的结构性联系。 返回
  • 91. 全面客户体验全面客户体验(Total customer experience)就是客户跟企业产品、人员和流程互动的总和。它从客户看到产品广告的瞬间开始,到客户收到货物的时刻,直至产品使用过程中的很长一段时间。
  • 92. 客户体验管理根据Bernd H. Schmitt在《顾客体验管理》一书中的定义,顾客(客户)体验管理是“战略性地管理顾客对产品或公司全面体验的过程”。客户体验管理注重与客户的每一次接触,通过协调整合售前、售中和售后等各个阶段, 各种接触渠道, 有目的地, 无缝隙地为客户传递良性信息, 创造匹配品牌承诺的正面感觉, 以实现良性互动,进而创造差异化的客户体验,实现客户的忠诚, 强化感知价值, 从而增加企业收入与资产价值。通过对客户体验加以有效把握和管理,可以提高客户对公司的满意度和忠诚度、并最终提升公司价值。
  • 93. 总之通过CRM企业可以获得如下的收益: 1.更快和更明智的决策制定 2.提高营销精确度 3.改善客户服务 4.更快地实现产品上市 5.从重视产品向重视客户的转移 返回
  • 94. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 95. CRM软件系统的一般模型
  • 96. CRM软件系统的一般模型模型阐明了目标客户、主要过程以及功能之间的相互关系。 CRM的主要过程由市场、销售和服务构成。 首先,在市场营销过程中,通过对客户和市场的细分,确定目标客户群,制定营销战略和营销计划。 而销售的任务是执行营销计划,包括发现潜在客户、信息沟通、推销产品和服务、收集信息等,目标是建立销售订单,实现销售额。 在客户购买了企业提供的产品和服务后,还需对客户提供进一步的服务与支持,这主要是客户服务部门的工作。 产品开发和质量管理过程分别处于CRM过程的两端,提供必要的支持。
  • 97. 营销管理营销管理的主要任务是:通过对市场和客户信息的统计和分析,发现市场机会,确定目标客户群和营销组合,科学地制定出市场和产品策略;为市场人员提供制定预算、计划、执行和控制的工具,不断完善市场计划;同时,还可管理各类市场活动(如广告、会议、展览、促销等),对市场活动进行跟踪、分析和总结以便改进工作。
  • 98. 销售管理销售管理部分则使销售人员通过各种销售工具,如电话销售、移动销售、远程销售、电子商务等,方便及时地获得有关生产、库存、定价和订单处理的信息。所有与销售有关的信息都存储在共享数据库中,销售人员可随时补充或及时获取,企业也不会由于某位销售人员的离去而使销售活动受阻。另外, 借助信息技术,销售部门还能自动跟踪多个复杂的销售线路,提高工作效率。
  • 99. 客户服务和支持客户服务和支持部分具有两大功能, 即服务和支持。一方面,通过计算机电话集成技术(CTI)支持的呼叫中心,为客户提供每周7 x 24 小时不间断服务,并将客户的各种信息存入共享的数据库以及时满足客户需求。另一方面,技术人员对客户的使用情况进行跟踪,为客户提供个性化服务,并且对服务合同进行管理。
  • 100. CRM软件系统的一般模型在CRM软件系统中,各种渠道的集成是非常重要的。CRM的管理思想要求企业真正以客户为导向,满足客户多样化和个性化的需求。而要充分了解客户不断变化的需求,必然要求企业与客户之间要有双向的沟通,因此拥有丰富多样的营销渠道是实现良好沟通的必要条件。
  • 101. CRM软件系统的一般模型CRM改变了企业前台业务运作方式,各部门间信息共享,密切合作。 位于模型中央的共享数据库作为所有CRM过程的转换接口,可以全方位地提供客户和市场信息。过去,前台各部门从自身角度去掌握企业数据,业务割裂。而对于CRM模型来说,建立一个相互之间联系紧密的数据库是最基本的条件。这个共享的数据库也被称为所有重要信息的“闭环”( Closed-loop)。 由于CRM系统不仅要使相关流程实现优化和自动化,而且必须在各流程中建立统一的规则,以保证所有活动在完全相同的理解下进行。这一全方位的视角和“闭环”形成了一个关于客户以及企业组织本身的一体化蓝图,其透明性更有利于与客户之间的有效沟通。 这一模型直接指出了面向客户的目标,可作为构建CRM系统核心功能的指导。
  • 102. CRM软件系统的组成 根据CRM系统的一般模型,可以将CRM软件系统划分为接触活动、业务功能及数据库三个组成部分。
  • 103. 接触活动在客户交互周期中的客户接触参与阶段,系统主要包含: 营销分析 活动管理 电话营销 电子营销 潜在客户管理
  • 104. 常有的渠道典型的方式有: Call Center; 面对面的沟通; 传真; 移动销售(mobile sales); 电子邮件; Internet; 其他营销渠道,如金融中介或经纪人等。返回
  • 105. 接触活动CRM软件应当能够或多或少地支持各种各样的接触活动。企业必须协调这些沟通渠道,保证客户能够采取其方便或偏好的形式随时与企业交流,并且保证来自不同渠道的信息完整、准确和一致。今天,Internet 已经成为企业与外界沟通的重要工具,特别是电子商务的迅速发展,促使CRM软件与Internet进一步紧密结合,发展成为基于Internet的应用模式。
  • 106. 业务功能销售模块 营销模块 客户服务模块 呼叫中心模块 电子商务模块功能返回
  • 107. 业务功能 企业中每个部门必须能够与客户进行沟通,而市场营销、销售和服务部门与客户的接触和交流最为频繁,因此,CRM软件主要应对这些部门予以支持。 然而, 并不是所有的CRM软件产品都能覆盖所有的功能范围。一般地,一个软件最多能够支持两至三种功能,如市场营销和销售。因此,在软件评价中,功能范围可以作为决定性的评判依据。
  • 108. 业务功能
  • 109. 业务功能——销售模块目标:提高销售过程的自动化和销售效果。 该模块所能实现的主要功能 : 销售 现场销售管理 现场销售/掌上工具 电话销售 销售佣金
  • 110. 业务功能——营销模块 目标:对直接市场营销活动加以计划、执行、监视和分析。 该模块所能实现的主要功能 : 营销 针对电信行业的营销部件 其它功能 返回
  • 111. 业务功能——客户服务模块 目标:提高那些与客户支持、现场服务和仓库修理相关的业务流程的自动化并加以优化。 该模块所能实现的主要功能 : 服务 合同 客户关怀 移动现场服务
  • 112. 呼叫中心模块所能实现的主要功能(1)电话管理员 开放连接服务 语音集成服务 报表统计分析 管理分析工具
  • 113. 呼叫中心模块所能实现的主要功能(2)代理执行服务 自动拨号服务 呼入呼出调度管理 多渠道接入服务 市场活动支持服务返回
  • 114. 电子商务模块功能电子商店 电子营销 电子支付 电子货币与支付 电子支持返回
  • 115. 数据库 一个高质量的数据库包含的数据应当能全面、准确、详尽和及时地反映客户、市场及销售信息。 数据可以按照市场、销售和服务部门的不同用途分成三类:客户数据、销售数据、服务数据。 客户数据包括客户的基本信息、联系人信息、相关业务信息、客户分类信息等,它不但包括现有客户信息,还包括潜在客户、合作伙伴、代理商的信息等。销售数据主要包括销售过程中相关业务的跟踪情况,如与客户的所有联系活动、客户询价和相应报价、每笔业务的竞争对手以及销售订单的有关信息等等。 服务数据则包括客户投诉信息、服务合同信息、售后服务情况以及解决方案的知识库等。这些数据可放在同一个数据库中,实现信息共享,以提高企业前台业务的运作效率和工作质量。 目前,飞速发展的数据仓库技术(如OLAP、数据挖掘等)能按照企业管理的需要对数据源进行再加工,为企业提供了强大的分析数据的工具和手段。
  • 116. 技术原则 CRM系统除了上述三个组成部分外,在技术上需要实现其特有的一些功能。与其他标准软件相类似,主要必须遵循以下几点原则: 易转换——适应性及强大的参数设置功能; 在已有的IT环境下,对所定义的各个部分具有强大的一体化功能; 强大的数据复制及同步功能; 独立于开发平台(与核心部分以C++还是Java编写无关); 通过COM/DCOM以及CORBA与E-Business构成一体化结构,以及以网页为基础的组合结构; 界面友好; 关系DBMS以及通常的开发环境(C++, Java)。
  • 117. 技术功能信息分析能力 对客户互动渠道集成能力 支持网络应用能力 建设集中客户数据仓库能力 对工作流集成能力 与ERP集成能力
  • 118. 技术功能返回
  • 119. 技术功能目前,CRM标准软件系统在技术上仍不够成熟。根据Forrester研究公司的报告估计,目前只有10%的标准软件产品在引入前不需作相应的调整,30%的产品则必须作全面的修改,导致引入成本非常高,而这些产品以后可能仍不能与现实相适应。 CRM的主要目的就在于在适当的时间通过适当的渠道将合适的产品提供给合适的客户。通过CRM软件系统的应用,企业提高了前台业务的运作效率。客户信息可以从中央数据库完整地获取,而不依赖于销售渠道;产品及客户分析结果以及产品销售、地区销售等的预测能够非常容易且实时地得到利用;同时企业可以通过CRM软件系统来对销售进行管理,使得能在有很多决策部门的大型组织中实现复杂的销售过程;CRM软件还能简化识别目标客户的工作,加强与目标客户的联系;能够更为合理地分配营销资源,提高反馈率,并加强宣传的作用,从而减少市场营销成本。 总之,CRM软件系统支持营销、销售和服务过程,使得对客户和所谓的“闭环”过程有一个全方位的视角。其作用是由业务功能和技术功能两方面共同决定和完成的。
  • 120. CRM功能模块 销售管理子系统 市场营销管理子系统 服务管理子系统 现场服务管理子系统 呼叫中心管理
  • 121. 销售管理子系统 在CRM系统中销售管理子系统(Sales Management)主要管理商业机遇(Opportunity)、客户帐号(Account)以及销售渠道等方面。该模块把企业的所有销售环节有机的组合起来,使其产品化。这样在企业销售部门之间、异地销售部门之间以及销售与市场之间建立一条以客户为引导的流畅工作流程。它缩短了企业的销售周期,同时提高了销售的成功率。随着销售周期的缩短,销售人员将有更多的时间去与客户进行面对面的销售活动。 销售管理模块能确保企业的每一个销售代表(包括移动和固定销售代表)能及时的获得企业当前的最新信息,包括企业的最新动态、客户信息、帐号信息、产品和价格信息以及同行业竞争对手的信息等信息。这样销售代表在同客户面对面的交流中将更有效,成功率将更高。
  • 122. 市场营销管理子系统 市场营销管理子系统(Marketing Management)帮助市场专家对客户和市场信息进行全面的分析,从而对市场进行细分,产生高质量的市场策划活动,指导销售队伍更有效的工作。在市场营销子系统中可以对市场、客户、产品和地理区域信息进行复杂的分析。帮助市场专家开发、实施、管理和优化他们的策略。 市场管理子系统为销售、服务和呼叫中心提供关键性的信息。比如产品信息、报价信息、企业宣传资料等等都将在市场营销管理模块提供。呼叫中心的智能化呼叫脚本的制作也在市场营销管理模块编制。市场营销管理子系统通过数据分析工具,帮助市场人员识别、选择和产生目标客户列表。市场营销管理系统能和其它的应用模块相集成,确保新的市场活动自动的发布给合适的销售、服务人员手里,使活动得到快速的执行。
  • 123. 服务管理子系统 服务管理子系统(Service Management)可以使客户服务代表能够有效地提高服务效率,增强服务能力,从而更加容易捕捉和跟踪服务中出现的问题,迅速准确地根据客户需求分解调研、销售扩展、销售提升各个步骤中的问题,增长每一个客户在企业中的生命周期。服务专家通过分解客户服务的需求,并向客户建议其他的产品和服务, 来增强和完善每一个专门的客户解决方案。 服务管理子系统通过提供易于使用的工具和信息(包括服务需求管理,服务环境配置及多种问题解决方案)。这些方案包括相关案例分析,问题的分析诊断(包括横向决策树),用于在巨大的科技文档库、产品标示、操作步骤、FAQ数据库和已有的客户服务解决方案中进行查找的强有力的集成文本检索工具。 基于客户、话务员、服务渠道和服务许可等广泛的信息,客户咨询通过合适的渠道被发送给合适的话务员进行处理。服务管理子系统可以从空闲的话务员中选择最称职的话务员来解决客户咨询。通过对服务许可管理的全面支持,采用自动的工作流并增强对每一个咨询的路由、监控和解决,服务服务子系统可以确保客户的要求及时满意地得到解决。 服务子系统可以采用不同的方式来与客户进行交流(包括INTERNET,电子邮件,FAX,IVR-交互式语音应答,电话)。通过与呼叫中心的持久连接及与包括第三方服务提供商,商业伙伴和客户在内的INTERNET客户的间断性连接,服务子系统全面支持客户服务专家在机构扩展方面的进行全方位的运做。
  • 124. 现场服务管理子系统 场服务管理子系统(Field Service Management)提供了一个移动解决方案,允许公司有效地管理其服务领域的方方面面。现场服务的组织主要可以预防的维护计划、中断/安装服务事件、返回物料许可(RMA)、高级的区域资源调配、提供与确保客户问题在第一次访问过程中得到解决所需的资源(包括工具、部件和技能等相关的全面信息)来实现。 现场服务管理子系统提供服务请求管理、服务活动管理、帐号管理、智能分配及发送、组件使用、主要清单、和以有问题及解决方案的知识基础。数据驱动的工作流、路由和鉴权机制确保现场服务组织遵循许可的行业习惯。 现场服务管理子系统支持多种渠道,包括移动现场服务专家使用掌上或膝上型电脑装置,连接呼叫中心的话务员,与包括第三方服务提供商,商业伙伴和客户在内的INTERNET客户的间断性连接,提供机构的扩展。 智能呼叫路由,分配及帮助的发送分配给最有资格的服务代表。使他们可以在他们的掌上或膝上型电脑访问到全面的客户信息及问题和解决方案的相关知识,移动现场服务专家可以迅速有效地解决客户问题。一旦需要,现场服务子系统自动在整个组织内增强这个问题,确保可以根据服务级别许可应用合适的资源来解决这个问题。在话务员迅速解决了客户的服务咨询后,他们还可以扩展销售或提升销售其他附加的产品和服务,增加客户的收入和潜在的赢利。
  • 125. 呼叫中心管理 呼叫中心子系统(Call Center)通过将销售子系统与服务子系统的功能集成为一个单独的应用,使一般的业务代表能够向客户提供实时的销售和服务支持。通常业务代表处理客户、帐户、产品、历史定单、当前机会、突出的应用、服务记录、服务级别许可。业务代表能够动态地推荐产品和服务,或者他们可以遵循基于智能脚本的工作流来解决服务咨询,进而向客户提供其它产品和服务。 呼叫中心的业务代表通常频繁地接到发往内部的销售及服务电话及外拨与市场活动和市场扩展相关的电话。业务代表在与客户的联系中提供简单的观点,以保障准确有效地响应每一位客户的需要。在业务代表迅速解决了客户的服务咨询后,他们还可以扩展销售或提升销售其他附加的产品和服务。 业务代表在与客户的交谈过程中智能化问卷可以起到引导作用,根据客户的概况、个性化特点和当前需求,动态地推荐合适的产品及服务。智能化问卷可以帮助客户代表克服自身的缺陷,站在销售的角度,发表有竞争力的观点。使用智能化问卷,即使是新手也可以象最有经验的业务代表一样工作。 呼叫中心集成计算机电话集成技术(CTI)。实现被叫号码识别功能(DNIS),自动号码识别功能(ANI)和交互式语音应答系统(IVR)。从而为客户提供更智能化的企业服务。
  • 126. CRM软件系统发展趋势 采用先进的软件技术架构 采用分布式技术 采用参数化的设定理念 提供方便的工作流管理与监控 融入现代呼叫中心和门户技术 采用商业智能(BI)技术
  • 127. 采用先进的软件技术架构 企业级软件系统的体系结构经历了三个发展阶段:从主机/终端(H/T)体系结构,到客户机/服务器(C/S)体系结构,再到浏览器/服务器(B/S)体系结构。 早期的软件大多采用主机/终端体系结构,直到90年代大都变为两层的C/S体系结构。它将复杂的网络应用的用户交互界面GUI和业务应用处理与数据库访问以及处理相分离,服务器与客户端之间通过消息传递机制进行对话,由客房端发出请求给服务器,服务器进行相应的处理后经传递机制送回客户端,应用开发简单且具有较多功能强大的前台开发工具。由于应用处理留在客户端,使得在处理复杂应用时客户端应用程序仍显肥胖,限制了对业务处理逻辑变化适应和扩展能力,当访问数据量增大、业务处理复杂时,客户端与后台数据库服务器数据交换频繁,易造成网络瓶颈。 为解决这类问题,出现了采用三层式程序架构(3 Tire Client/Server)的趋势,将大量数据库I/O的动作集中于App Server, 有效降低WAN的数据传输量,客户端不必安装数据库中间件,可简化系统的安装部署。Business Logic集中于App Server,如要修改,仅须更新Server端的组件即可,易于维护。当前端使用者数增加时,可扩充App Server的数量,系统扩充性好。 随着Internet/Intranet技术的不断发展,尤其是基于WEB的信息发布和检索技术,导致了整个应用系统的体系结构从C/S的主从结构向灵活的多级分布结构的重大演变,使其在当今以Web技术为核心的信息网络的应用中予以更新的内涵,这就是B/S体系结构。
  • 128. 采用先进的软件技术架构 目前CRM系统软件架构的发展潮流之一就是采用J2EE体系结构。J2EE体系框架把绝大部分的应用逻辑和数据处理都集中在应用服务器上( 应用服务层可以由几台或几十台机器组成,采用负载均衡理论,对应用逻辑进行分解 ),这种结构提高了系统的处理效率,降低了系统的维护成本(当业务逻辑发生改变时,只需要维护应用服务器上的逻辑构件),保证了数据的安全和完整统一,同时还简化了体系结构设计和应用开发,具有良好的可扩展性,可满足各种需求,可自由选择应用服务器、开发工具、组件,并提供了灵活可靠的安全模型。
  • 129. 采用先进的软件技术架构
  • 130. 采用分布式技术 由于目前企业都呈现跨地域的特点,CRM系统除采用B/S架构外,另一技术潮流是采用分布式数据库应用,提供分布式数据库的数据复制和同步功能,来降低网络传输负荷。 另外也可采用远程访问技术,实现跨地域存取。如采用Microsoft Windows 2000 Server 的“终端服务”功能。“终端服务”的结构为传统的两层或三层式客户端/服务器结构提供一项重大的改革。采用“终端服务”后,所有客户端应用程序的执行、数据处理及资料储存都会在服务器上执行,通过终端机仿真便可让同质的应用程序在异质的桌面硬件上执行。
  • 131. 采用参数化的设定理念 为了增加CRM系统的变化适应力,技术方面的另一个好的潮流是引入参数化的设定理念,使系统能满足不同企业的管理多样化的需求。现在的CRM系统对于企业管理的核心流程的控制,不能固定地写在程序内。 为了CRM流程能适应企业的流程由于环境的改变或企业战略调整而变化,CRM软件的设计上要加入参数化的设定理念,即是在产品设计之初,将企业流程的可能改变预留在系统的功能中,然后再运用系统参数的设定来决定程序的流程,如此一来流程变更时便不需改程序,只是更改参数的设置而已。
  • 132. 提供方便的工作流管理与监控 CRM系统的另一个潮流是系统提供方便的工作流管理与监控。企业的业务流程因业务的差异和业务参与部门的不同往往非常复杂,而业务部门组织机构的调整、人员权限的调整和业务管理流程等的调整,都会对CRM系统的流程产生影响。传统的系统应对这些变化的手段往往是对系统的源代码进行修改,如此不仅降低了响应的及时性,而且增加了用户对开发商的依赖性。将工作流(workflow)管理的先进技术引入系统后,能实现了工作流程的灵活定制和管理。 用户可以通过工作流管理模块,方便的定制工单的流转方向、流转时限,查阅人员的权限,部门和业务流程的变更可以轻松实现。同时提供了工作流的每一个节点的动态监控、报警的设置和管理。通过工作流监控功能,能随时跟踪监控系统中各业务的整个流程,并设置业务处理的时限警戒线。 如果有一个灵活的工作流程处理机制内建在CRM系统中,处理上述流程间的自动化工作,将可以把CRM系统的应用效益带入另一个崭新的天地。
  • 133. 融入现代呼叫中心和门户技术 CRM系统的另一个技术潮流是融入现代call center技术,提供telephone、Email、Fax、WAP、Web、PDA、Face to Face等各种各样与客户互动的灵活接入方式,并能根据呼叫接入的不同提供了多种的路由算法和提供基于经验的智能路由等功能。 通过CRM系统的实施,企业客户可以按自己的交流渠道偏好来与企业交流,企业也可依客户渠道偏好来与客户互动,并使得企业市场、销售和服务部门建立起与客户互动的统一的沟通界面,从而强化客户的沟通效果。 CRM系统在技术实现上的潮流是集成门户(Portal)技术,以及交互式语音应答系统(IVR)和CTI中间件等call center技术,实现客户门户(Customer Portal)、伙伴门户(Partner Portal)和员工门户(Employee Portal),并能为客户、合作伙伴和员工提供灵活的交互语音应答服务,实现了呼叫中心CTI控制的全部功能,如语音导航、查询、语音信箱、传真、外拨等基础的业务服务,支持语音、传真、短信、互联网等多媒体的统一接入,具有混合排队、智能路由、负载均衡的先进体系结构设计,并结合TTS、ASR等先进的语音处理技术,提供7*24小时的不间断服务,能随时应答用户的呼叫并提供相应服务。
  • 134. 采用商业智能(BI)技术 目前流行的CRM整体解决方案不但完成客户的数据采集、业务处理的流程化等运营型CRM的管理功能,而且将数据仓库(DW)的相关技术引入,能够进行客户相关数据分析和营销、销售和服务的部门级辅助决策支持,并能为高层领导提供企业全局的辅助决策支持,实现了运营与分析的闭环互动。 CRM运营系统通过多种渠道与客户互动,通过市场营销、销售和服务等业务流程的管理,将客户的各种背景信息、偏好、行为习惯、交易数据、信用状况等信息收集并整合在一起,再将这些运营数据和外来的市场数据经过整合和变换,装载进数据仓库。 CRM分析系统运用OLAP和数据挖掘等技术来从数据仓库中分析和提取相关规律、模型和趋势,让客户信息和知识在整个企业内得到有效的流转和共享,并进一步转化为企业的战略规划、科学决策和各业务流程的辅助支持,用于提高在所有渠道上同客户交互的有效性和针对性,把适合的产品和服务,通过适合的渠道,在适当的时候,提供给合适的客户,从而实现企业利润的最大化。 此外,CRM系统不是一个孤立的系统,还需要扩大与企业各种电子商务应用的交互,通过XML、Business API和组件等技术或采用集成的EAI解决方案,实现CRM系统与ERP、SCM、EC等系统的整合和数据共享与交互。
  • 135. 小结CRM的主要目的就在于在适当的时间通过适当的渠道将合适的产品提供给合适的客户。 通过CRM软件系统的应用,企业提高了前台业务的运作效率。
  • 136. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 137. 数据挖掘的出现数据挖掘数据库越来越大有价值的知识可怕的数据
  • 138. 数据挖掘的出现数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识决策模式 趋势 事实 关系 模型 关联规则 序列目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置金融 经济 政府 POS. 人口统计 生命周期
  • 139. 技术是一个驱动因素 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降 更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术
  • 140. 什么是数据挖掘?
  • 141. 数据挖掘的定义SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
  • 142. 数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
  • 143. 定义: 半自动或自动地从海量数据中发现模式, 相关性,变化, 反常规律性, 统计上的重要结构和事件. 是统计学、数据库技术和人工智能技术的综合。 特点:半自动或自动 提取 预测 大数据库什么是数据挖掘
  • 144. (本页无文本内容)
  • 145. 数据挖掘依赖的基础  统计学  机器学习  数据库  高效率的计算
  • 146. 统计学 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代 -- 1950`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 -- 1970`s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用
  • 147. 计算机科学 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别 -- 1960`s: 统计方法与非统计方法的分流 -- 应用统计学与工程学的交叉 如: 统计图像分析 机器学习和神经网络 -- 1980`s 非统计学习方法的失败 -- flexible models的出现,如: 树,网络 -- 应用统计学与学习方法的交叉
  • 148. 数据挖掘技术的出现直接演化的结果: -- AI和机器学习 * 1989 KDD工作组2000 ACM SIGKDD工作组 *集中于自动发现 -- 数据库研究 * 大型数据组 * SIGMMODassociation rules,scalable algorithms -- 数据管理者 * 如何处理数据 * 面向客户 * 工业占主导的,面向应用 必然性
  • 149. 数据挖掘不同于传统上的统计学前者: 发现驱动 (数据驱动) 数据研究 后者: 假设驱动 (人为驱动) 研究数据
  • 150. 数据挖掘模型的分类描述性模型: 描述数据中的模式, 用以创建有意义的 群或子群 预测性模型: 在从已知条件中确定的模式基础上, 预 测一些现象或数值
  • 151. 数据挖掘都干了些什么? 英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。 使直邮的回应率提高了100%
  • 152. 数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%
  • 153. 数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。 营销费用减少了30%
  • 154. 数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。 发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本
  • 155. 数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务
  • 156. 通过数据挖掘您可以发现最有价值的客户
  • 157. 通过数据挖掘您可以使组合销售更有效率
  • 158. 通过数据挖掘您可以留住那些最有价值的客户
  • 159. 通过数据挖掘您可以用更小的成本发现欺诈现象
  • 160. 电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健数据挖掘应用领域
  • 161. 数据挖掘效益分析(直邮) (Big Bank & Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000
  • 162. 数据挖掘技术数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
  • 163. 决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。
  • 164. 决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。
  • 165. 决策树建立决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。 然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。 还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。
  • 166. 决策树图
  • 167. 决策树应用决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。
  • 168. 决策树算法常用的算法有CHAID、 CART、 Quest 和C5.0。 决策树的优缺点: 优点: 1)        可以生成可以理解的规则。 2)        计算量相对来说不是很大。 3)        可以处理连续和种类字段。 4)        决策树可以清晰的显示哪些字段比较重要 缺点: 1)        对连续性的字段比较难预测。 2)        对有时间顺序的数据,需要很多预处理的工作。 3)        当类别太多时,错误可能就会增加的比较快。 4)        一般的算法分类的时候,只是根据一个字段来分类。
  • 169. 聚类分析聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。
  • 170. 聚类分析簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析 把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;
  • 171. 应用聚类分析的例子市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;
  • 172. 聚类分析的评判一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;
  • 173. 人工神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。
  • 174. 人工神经网络在使用神经网络进行数据挖掘时有几点需要注意: 第一,神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学。 第二,神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以“记住”任何事情。 第三,除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。当然,一旦神经网络建立好了,在用它做预测时运行时还是很快的。 第四,建立神经网络需要做的数据准备工作量很大。一个很有误导性的神话就是不管用什么数据神经网络都能很好的工作并做出准确的预测。这是不确切的,要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作,对任何数据挖掘技术都是这样,神经网络尤其注重这一点。比如神经网络要求所有的输入变量都必须是0-1(或-1 -- +1)之间的实数,因此像“地区”之类文本数据必须先做必要的处理之后才能用作神经网络的输入。
  • 175. 遗传算法遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。
  • 176. 遗传算法GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。
  • 177. 支持向量机支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。 通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。
  • 178. 贝叶斯预测贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。
  • 179. 规则推导规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
  • 180. 规则推导
  • 181. 可视化技术用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。
  • 182. 其他技术近邻算法,将数据集合中每一个记录进行分类的方法。 统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。 模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。
  • 183. 数据挖掘功能—预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
  • 184. 数据挖掘功能—关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。 时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
  • 185. 数据挖掘功能—分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
  • 186. 数据挖掘功能—聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
  • 187. 数据挖掘功能—概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
  • 188. 数据挖掘功能—偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
  • 189. 数据挖掘环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
  • 190. 数据挖掘环境
  • 191. 数据挖掘的流程
  • 192. 数据挖掘的流程确定业务对象 数据准备 数据挖掘 结果分析和知识同化
  • 193. 数据挖掘的流程-确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
  • 194. 数据挖掘的流程-数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。 数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
  • 195. 数据挖掘的流程-数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
  • 196. 数据挖掘的流程-分析和同化结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
  • 197. 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.
  • 198. 数据挖掘过程工作量
  • 199. 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。
  • 200. 数据挖掘工具及其功能
  • 201. 数据挖掘中存在的问题数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。 面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。 既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。 各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。 当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。 数据挖掘涉及到数据也就碰到了数据的私有性和安全性。 数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。 总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。
  • 202. 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现和知识的维护更新。
  • 203. OLAM联机分析挖掘,又称为OLAP Mining。它是联机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。
  • 204. OLAM产生的原因 OLAP与DM虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,随着OLAP与DM技术的应用和发展,数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。
  • 205. OLAM产生的原因一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足: 1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。 2)OLAP分析事先需要对用户的需求有全面而深人的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。 3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。
  • 206. OLAM产生的原因另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点: 1) DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。 2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。 3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。
  • 207. OLAM产生两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。
  • 208. OLAM产生联机分析挖掘概念正式提出是在1997年,由加拿大Simon Fraser大学教授Jiawei Han等在数据立方体的基础上提出多维数据挖掘的概念,称为OLAP mining。这实际上是在OLAP系统的基础上,把数据分析算法、数据挖掘算法引人进来,解决多维数据环境的数据挖掘问题。
  • 209. OLAM体系结构
  • 210. OLAM体系结构OLAM的挖掘分析处理是建立在数据仓库系统的数据立方体基础上的。数据立方体的组织模型、计算和操作对与系统的执行效率和响应速度起着至关重要的作用。OLAM集成了传统的OLAP和数据挖掘技术,为用户的在线分析挖掘操作提供接口。OLAM引擎通过用户图形接口接收用户的分析请求指令和数据,在元数据的指导下,对数据立方体进行相应的操作,包括集合运算(如求和、求平均)和导向运算(如选择、旋转、上钻与下钻)等,然后将挖掘分析的结果以可视化的形式展现给用户,整个分析挖掘过程是动态进行的。
  • 211. OLAM的系统特征 OLAM系统的主要目的就是实现OLAP与数据挖掘的功能互补,提高数据分析挖掘的性能。建立在庞大复杂的数据仓库基础上的OLAM在实现过程中面临最大的挑战是数据分析挖掘执行的效率的提高和对用户请求的快速准确响应。目前专门的OLAM产品还没有正式出现,但根据OLAM系统的设计目的和用户要求,OLAM应具有其自己的系统及功能特征。
  • 212. OLAM的系统特征(1)多维分析和数据挖掘无缝集成,即多维分析与数据挖掘的完美结合需要理论基础,需要一套系统构建方法。比如借助于OLAP对数据立方体进行切片、切块、旋转、向下钻取、向上汇总等操作的支持,应能方便地对任何一部分数据和不同抽象级别地数据进行挖掘。
  • 213. OLAM的系统特征(2)具有较高的执行效率和较快的响应速度。OLAM系统快速响应能力的获得是一个十分有挑战性的问题,可以认为是OLAM技术中最困难的问题之一。往往数据挖掘算法复杂且耗时,这时要求协调执行效率和挖掘精度两者的关系。
  • 214. OLAM的系统特征(3)支持迭代分析过程,即系统应提供“回溯”能力,以便随时标记分析过程中的时空状态点,并在分析过程中随时回到这一点,有利于分析的灵活进行,防止在进行由浅人深的分析过程中用户“迷失方向”。
  • 215. OLAM的系统特征(4)支持复杂信息建模,即要求OLAM系统支持多种异构DBMS中多种数据类型的融合,全面处理企业内的各种决策支持应用。一方面,决策分析的数据对象来自于不同开发环境和目的的分立应用系统,数据的管理方法和数据结构也可能不同,这就要求OLAM在数据方面有很强的包容性;另一方面,不同的数据挖掘方法要求不同的数据结构支撑。
  • 216. OLAM的系统特征(5)良好的可扩展性。要求OLAM系统支持多种挖掘算法的模块的添加、多种工作对象的建构、多种数据源的集成、多种前端工具的利用等扩展功能。用户能根据实际问题的不同,选用不同的挖掘算法。此外,OLAM因该具有支持这些扩展的通用接口,以便与其它工具和算法衔接,或者嵌人用户自己的算法。
  • 217. OLAM的系统特征(6)灵活友好的人机交互能力。OLAM中的决策分析过程是要在人的指导下进行的,人作为系统的有机组成部分和系统应用密不可分。人利用自己掌握的领域知识在OLAM系统的辅助下完成领域内问题的求解,在这个过程中人与计算机分别承担各自最擅长的工作,达到资源的合理配置。
  • 218. OLAM的系统特征(7)支持复杂事务模型及多任务优化和调度。OLAM事务是有“内部结构”的数据库操作集合,是一个有层次的复杂网络结构,传统的无内部结构、彼此孤立的、最小原子特性的事务模型只是这种模型的特例。OLAM事务之间具有广泛的联系,考虑在对事务分解的基础上,充分利用不同事务中的公共子事务来优化事务的调度。
  • 219. OLAM的分析操作从OLAM的定义来看,它是建立在多维数据视图基础之上的。因此,对于OLAM的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、旋转等操作;而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合可以有不同的模式。
  • 220. OLAM的分析操作先进行立方体计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行二定的立方体计算,以选择合适的数据范围和恰当的抽象级别。 先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深人分析。 立方体计算与数据挖掘同时进行。在挖掘的过程中,可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部分。 回溯操作。OLAM的标签和回溯特性,允许用户回溯一步或几步,或回溯至标志处,然后沿着另外的途径进行挖掘,这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。
  • 221. OLAM技术的发展趋势OLAM技术实现了OLAP和DM技术的互补,它的发展趋势是两者更加可靠的集成、融合,有自己合理优化的结构体系和一套完备的技术理论基础,从整体上为决策分析提供完美支持。 OLAM技术是一门交叉学科,涉及机器学习、模式识别、统计学、智能数据库、人工智能、高性能计算、数据可视化、专家系统等综合技术。这些相关学科的发展,无疑也将会推动OLAM技术的发展。特别是,近年来随着数据库技术的发展,出现了不同数据类型的高级数据库,如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库、时序数据库等。因此,未来的OLAM技术应用应基于这些高级数据库展开。 随着互联网技术的发展,全球信息的共享,基于Web的联机分析挖掘(Web0LAM),也将成为OLAM技术发展的一个新方向。
  • 222. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 223. DW&OLAPDW是管理决策分析的基础,若要有效地利用DW中的信息资源,必须有强大的工具对信息进行分析、决策,OLAP就是一个得到广泛用的DW技术。
  • 224. DW&OLAPOLAP专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。
  • 225. 发展背景 60年代,关系数据库之父E.F.Cdd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Cdd提出了OLAP(联机分析处理)概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Cdd提出了多维数据库和多维分析的概念,即OLAP技术概念。
  • 226. OLAP定义 OLAP委员会的定义:OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 他指得是一类技术,而非特指某软件、或管理方法。 OLAP的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
  • 227. OLAP技术特点一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机/服务器体系结构完成的; 二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。
  • 228. OLAP的特性 快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
  • 229. OLAP相关基本概念 维:维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。 维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 维的成员:维的一个取值成为该维的一个维成员。是数据项在某维中位置的描述。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。例如:某公司销售数据在省、市、县,地理维有三个层次,则“山东省日照市五莲县”就构成地理维的一个维成员。维成员并不一定要在维的每一个层次上都取值,例如:山东省,山东省日照市,日照市五莲县都是地理维的维成员。
  • 230. OLAP相关基本概念 多维数据集(数据立方体或超立方)。多维数据集是决策支持的支柱,也是OLAP的核心。它是维和变量的组合表示,是维的不同组合和所考察的度量指标构成的多维数组。 多维数据集可以用一个多维数组表示。可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。三维的数据集可以用图表示。 高于三维只能用数组表示。 数据单元(单元格):多维数据集的取值称为数据单元。当在多维数据集的每个维都选中一个维成员以后,这些维成员的组合就惟一确定了观察变量的值。数据单元也就可以表示为:(维1维成员,维2维成员,维3维成员,观察变量)。例如:在时间、销售地区、产品维度上分别取‘2002-10-12’、‘上海’、‘服装’,则可以唯一确定观察变量的值10000,因此该数据单元应该为(2002-10-12,上海,服装,10000)。 多维数据集的度量值(测量值)。多维数据集的度量值是基于多维数据集中事实表的一列或多列,数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。
  • 231. OLAP多维数据分析 多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
  • 232. 切片 (Slice)定义1:在多维数据集的某一维上选定某一维成员的动作称为切片。 定义2:选定多维数据集的一个二维子集的动作叫做切片。 例:多维数据集S(地区,时间,产品,销售渠道,销售额)。选定地区维与产品维,另外的维取一个维成员(如时间维取1999年,销售渠道维取批发),就可以得到多维数据集S在地区和产品维上的一个切片:(地区、产品、销售额)。此切片表示1999年各地区、各产品的批发销售情况。 切片的结果一定是一个二维的平面。 切片的实质: 1、切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据; 2、一个切片最终是由除切片所在平面两个维之外的其他维的成员值确定的。
  • 233. 切块(Dice)定义1、在多维数据集的某一维上选定某一区间的维成员的动作称为切块。 定义2、选定多维数据集的一个三维子集的动作称为切块。
  • 234. 切片和切块(Slice and Dice)
  • 235. 钻取(Drill-up&Roll-up) 钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。 使用户在DW的多层数据中能通过导航信息而获得更多的细节性数据。 大多数OLAP工具可让用户下钻到一个数据集中有更好细节描述的数据层,更完整的工具则可让用户随处钻探:上翻、交叉钻探(让用户从同一个层次的一个数据集横向地移到另一个数据集进行查看和分析) 。
  • 236. 钻取(Drill)
  • 237. 旋转(Rotate)/转轴(Pivot)旋转即改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。 例如:旋转可能包含交换行和列,或是把某一个行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换。
  • 238. 旋转(Rotate)/转轴(Pivot)
  • 239. OLAP分类
  • 240. ROLAPROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。
  • 241. ROLAP的星型模式
  • 242. MOLAPMOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。
  • 243. HOLAPHOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。 HOLAP 方法是结合ROLAP 和MOLAP产生的。它得益于ROLAP较大的可伸缩性和MOLAP的快速计算。例如,HOLAP允许将大量详细数据存放在关系数据库表中,而聚集数据保存在分离的MOLAP 存储中。这种方式具有更好的灵活性。
  • 244. OLTP、ROLAP与MOLAP模式
  • 245. 数据组织形式
  • 246. ROLAP vs MOLAP (1) 查询性能 MOLAP查询能力较好;MDDB中事先做好了许多计算,是MOLAP的查询能力可以预测,并且较为理想; ROLAP速度较MOLAP慢,且不易预测。 (2)数据加载性能 MOLAP加载数据时间较长,每月一次; ROLAP加载数据时间较短,每天刷新。 (3)分析能力 MOLAP在分析过程中的精度较高,具有分析的优势; ROLAP分析效果不如MOLAP,受SQL语言限制。因为对于现实中的许 多问题的解决很难用一条SQL语句来实现。 (4)数据集市的大小 MOLAP在实际应用中的数据存贮量往往增加较快,有时会使多维表形 成稀疏矩阵。随着维数的增加,呈现爆炸性增长趋势。 ROLAP不会出现稀疏矩阵的情况,关系数据库可以支持无限增长的数 据存贮要求。
  • 247. ROLAP vs MOLAP (5)维的管理 ROLAP采用星型模式构建,其维表可能很宽,可以包含很多列。分析 人员可以在这样的一个表中的所有列进行查询、汇总、钻取等操作。MOLAP 很难完成如此复杂的操作。 (6)维护能力 MOLAP能够较好的进行自我维护,在数据更新加载时,只需要用SQL语句对其输入数据就可以了。 ROLAP在维护与聚集时却比较困难。 结论: 如果需要建立一个大型的、功能复杂的企业级数据仓库,就要选择ROLAP。例如:SQL Server 2000中建立的维度表超过一千万以上维成员时,就不能采用MOLAP模式。 如果希望建立一个目标单一、维数不是很多的分析型数据集市,则MOLAP可能是一个较佳的选择。
  • 248. OLAP体系结构
  • 249. OLAP体系结构
  • 250. OLAP体系结构
  • 251. OLAP评价准则 1993年,E.F.Codd 在“Providing OLAP to User Analysts”一文中,提出了关于OLAP的12条标准,用来评价分析处理工具。其目的是加深对OLAP的理解,事实上,这些标准已成为OLAP工具所应该具有关键特性的最小描述,对于在数据仓库设计,使用OLAP的用户来说,了解这些标准是必不可少的。 Codd提出了关系数据库12条准则,分布式数据库12条准则,这是他的第三个12条准则。 如今,OLAP 的概念已经在商业数据库领域得以广泛使用,OLAP 的特征也得到了验证和确认,从实践来看,COOD 提出的12条准则可以作为评价和购买OLAP 产品的标准。
  • 252. OLAP评价准则 (1)、多维性 由于企业数据空间是多维的,因此OLAP的概念模型也应是多维的。用户可以简单、直接的操作这些多维数据模型,进行切片、切片等操作。 (2)、透明性 无论OLAP是否是前端产品的一部分,分析工具所处的位置对用户应是透明的。 透明性原则: 〈I〉OLAP在体系结构中的位置对用户是透明的。OLAP应处于一个真正的开放系统结构中,他可使分析工具嵌入用户所需的任何位置,而不会对宿主工具的使用产生副作用,同时必须保证OLAP 的嵌入不会引起和增加任何复杂性。 〈II〉OLAP的数据源对用户也是透明的。用户只需使用熟悉的查询工具进行查询,而不必关心输入OLAP 工具的数据来自何处。 (3)、存取能力 OLAP系统不仅能进行开放的存取,而且还提供高效的存取策略。 OLAP用户分析员不仅能在公共概念视图的基础上对关系数据库中的数据进行分析,而且在公共分析模型的基础上还可以对RDB、非RDB和外部存贮的数据进行分析。要实现这些功能就要求OLAP能将自己的概念视图映射到异质的数据存贮上,并可访问数据,还可进行所需的转换以便给出单一的、连贯的、一致的用户视图。
  • 253. OLAP评价准则 (4)、稳定的报表性能 报表操作不应随维数的增加而削弱,即当数据维数和数据的综合层次增加时,提供给最终分析员的报表能力和响应速度不应该有明显的降低。即便是用户数据模型改变时,关键数据的计算方法也无须改变,即OLAP系统的数据模型对企业的数据模型应该具有“鲁棒”性。 (5)、客户机/服务器体系结构 OLAP是建立在C/S体系结构上的。 OLAP 工具的服务器构件应有足够的智能,以便各种客户只需做较少的工作使用最少的集成程序就能与其组合起来。这要求他的多维数据库能够被不同的应用和工具所访问,服务器端智能的以最小的代价完成同多种服务器之间的挂接任务。智能化服务器必须具有在不同的逻辑和物理的数据库间映射并组合数据的能力,还应构造通用的、概念化的、逻辑的和物理的模式,从而保证透明性和建立统一的概念模式、逻辑模式和物理模式。客户端负责应用逻辑及用户界面。 (6)、维的等同性 每一数据维在其结构和操作功能上必须等价,要求维上的操作是公共的。
  • 254. OLAP评价准则 (7)、动态稀疏矩阵处理 OLAP 服务器的物理结构应完全适用于特定的分析模式,创建和加载此种模式是为了提供优化的稀疏矩阵处理,当存在稀疏矩阵时,OLAP 服务器应能推知数据是如何分布的,以及怎样存储才更有效。 该准则的含义: 〈I〉对任意给定的稀疏矩阵,存在一个最优的物理视图,该视图能提供最大的内存效率和矩阵处理能力。 〈II〉OLAP工具的基本物理数据单元可配置给可能出现的维的子集。同时,还要提供动态可变的访问方法并包含多种存取机制。 (8)、支持多用户 OLAP工具应提供并发访问、数据完整性及安全性等功能。当多个用户在同一分析模型上建立不同的分析模型时,都需要这些功能的支持。 (9)、非限定的跨维操作 在多维数据分析中,所有的维的生成和处理都是平等的。OLAP工具应能处理维间相关计算,而不是要求商业用户定义计算的行为。
  • 255. OLAP评价准则 (10)、直接数据操纵 要求数据操作直观易懂。 综合路径重定位、向上综合、向下挖掘和其他操作都可以通过直观、方便的点、拉操作完成。 (11)、柔性报表 用户通过使用OLAP服务器及其工具,可以按任何想要的方式来操作、分析、综合和查看数据,这些方式包括创建逻辑组或将行、列及单元按需要依次排放。 报表机制也应提供这种灵活性,能从各种可能的方面显示出从数据模型中综合出的数据和信息,充分反映数据分析模型的多维特性,并按用户需要的方式显示它。 (12)、维和聚集层次不受限 OLAP服务器应能在一个通用分析模型中协调至少15个维,每一个通用维应允许有任意个用户定义的聚集,而且用户分析员可以在任意给定的综合路径上建立任意多个聚集层次。
  • 256. OLAP应用领域 –市场和销售分析(Marketing and Sales analysis) –电子商务分析(Clickstream analysis) –基于历史数据的营销(Database marketing) –预算(Budgeting) –财务报告与整合(Financial reporting and consolidation) –管理报告(Management reporting) –利益率分析(Profitability analysis) –质量分析(Quality analysis)
  • 257. OLAP发展 面向对象的联机分析处理 O3LAP(Object-Oriented OLAP) 对象关系的联机分析处理 OROLAP (Object Relational OLAP) 分布式联机分析处理 DOLAP (Distributed OLAP) 时态联机分析处理 TOLAP (Temporal OLAP)
  • 258. OLAM联机分析挖掘 将联机分析处理与数据挖掘以及在多维数据库中发现知识集成在一起。 联机分析挖掘提供在不同的数据子集和不同的抽象层上进行数据挖掘的工具. 联机分析挖掘为用户选择所期望的数据挖掘功能动态修改挖掘任务提供了灵活性 。 超立方体计算与传统挖掘算法的结合   先进行立方体计算,后进行数据挖掘   先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘结果分析   立方体计算与数据挖掘同时进行
  • 259. OLAP基于Web的应用 静态方法 静态HTML报表 动态方法 通过HTML模板及元数据动态生成报表 改进方法 使用Java或ActiveX
  • 260. CRM: Customer Relationship Management 客户关系管理重庆大学经济与工商管理学院 于同奎 Tel: (023)65108564 E-mail: yutongkui@hotmail.com 2004.8
  • 261. 数据挖掘的出现数据挖掘数据库越来越大有价值的知识可怕的数据
  • 262. 数据挖掘的出现数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识决策模式 趋势 事实 关系 模型 关联规则 序列目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置金融 经济 政府 POS. 人口统计 生命周期
  • 263. 技术是一个驱动因素 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 “每次18个月增长一倍” -- 存储器价格飞快下降 更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术
  • 264. 什么是数据挖掘?
  • 265. 数据挖掘的定义SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
  • 266. 数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
  • 267. 定义: 半自动或自动地从海量数据中发现模式, 相关性,变化, 反常规律性, 统计上的重要结构和事件. 是统计学、数据库技术和人工智能技术的综合。 特点:半自动或自动 提取 预测 大数据库什么是数据挖掘
  • 268. (本页无文本内容)
  • 269. 数据挖掘依赖的基础  统计学  机器学习  数据库  高效率的计算
  • 270. 统计学 Gauss, Fisher,和 -- 最小二乘法,最大似然法 -- 一些基本原理的发展 数学时代 -- 1950`s :Neyman等数学家独领风骚 计算时代 -- 自从1960`s平稳增长 -- 1970`s:EDA,Bayesian estimation, flexible models, EM,etc -- 逐渐意识到计算机在数据分析中的 能力和作用
  • 271. 计算机科学 模式识别和人工智能(AI) -- 集中于感官问题,如: 语言识别,图像识别 -- 1960`s: 统计方法与非统计方法的分流 -- 应用统计学与工程学的交叉 如: 统计图像分析 机器学习和神经网络 -- 1980`s 非统计学习方法的失败 -- flexible models的出现,如: 树,网络 -- 应用统计学与学习方法的交叉
  • 272. 数据挖掘技术的出现直接演化的结果: -- AI和机器学习 * 1989 KDD工作组2000 ACM SIGKDD工作组 *集中于自动发现 -- 数据库研究 * 大型数据组 * SIGMMODassociation rules,scalable algorithms -- 数据管理者 * 如何处理数据 * 面向客户 * 工业占主导的,面向应用 必然性
  • 273. 数据挖掘不同于传统上的统计学前者: 发现驱动 (数据驱动) 数据研究 后者: 假设驱动 (人为驱动) 研究数据
  • 274. 数据挖掘模型的分类描述性模型: 描述数据中的模式, 用以创建有意义的 群或子群 预测性模型: 在从已知条件中确定的模式基础上, 预 测一些现象或数值
  • 275. 数据挖掘都干了些什么? 英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。 使直邮的回应率提高了100%
  • 276. 数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%
  • 277. 数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。 营销费用减少了30%
  • 278. 数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。 发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本
  • 279. 数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务
  • 280. 通过数据挖掘您可以发现最有价值的客户
  • 281. 通过数据挖掘您可以使组合销售更有效率
  • 282. 通过数据挖掘您可以留住那些最有价值的客户
  • 283. 通过数据挖掘您可以用更小的成本发现欺诈现象
  • 284. 电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健数据挖掘应用领域
  • 285. 数据挖掘效益分析(直邮) (Big Bank & Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000
  • 286. 数据挖掘技术数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
  • 287. 决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。
  • 288. 决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。
  • 289. 决策树建立决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有7%有响应。 然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。 还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。
  • 290. 决策树图
  • 291. 决策树应用决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。
  • 292. 决策树算法常用的算法有CHAID、 CART、 Quest 和C5.0。 决策树的优缺点: 优点: 1)        可以生成可以理解的规则。 2)        计算量相对来说不是很大。 3)        可以处理连续和种类字段。 4)        决策树可以清晰的显示哪些字段比较重要 缺点: 1)        对连续性的字段比较难预测。 2)        对有时间顺序的数据,需要很多预处理的工作。 3)        当类别太多时,错误可能就会增加的比较快。 4)        一般的算法分类的时候,只是根据一个字段来分类。
  • 293. 聚类分析聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。
  • 294. 聚类分析簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析 把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;
  • 295. 应用聚类分析的例子市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;
  • 296. 聚类分析的评判一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;
  • 297. 人工神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。
  • 298. 人工神经网络在使用神经网络进行数据挖掘时有几点需要注意: 第一,神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学。 第二,神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以“记住”任何事情。 第三,除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。当然,一旦神经网络建立好了,在用它做预测时运行时还是很快的。 第四,建立神经网络需要做的数据准备工作量很大。一个很有误导性的神话就是不管用什么数据神经网络都能很好的工作并做出准确的预测。这是不确切的,要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作,对任何数据挖掘技术都是这样,神经网络尤其注重这一点。比如神经网络要求所有的输入变量都必须是0-1(或-1 -- +1)之间的实数,因此像“地区”之类文本数据必须先做必要的处理之后才能用作神经网络的输入。
  • 299. 遗传算法遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。
  • 300. 遗传算法GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。
  • 301. 支持向量机支持向量机(SVM)是一种建立在统计学习理论基础上的机器学习方法。 通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。
  • 302. 贝叶斯预测贝叶斯网络是用来表示变量集合连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。在数据挖掘中具有以下优点:可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析。
  • 303. 规则推导规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
  • 304. 规则推导
  • 305. 可视化技术用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。
  • 306. 其他技术近邻算法,将数据集合中每一个记录进行分类的方法。 统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。 模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。
  • 307. 数据挖掘功能—预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
  • 308. 数据挖掘功能—关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。 时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
  • 309. 数据挖掘功能—分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
  • 310. 数据挖掘功能—聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
  • 311. 数据挖掘功能—概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
  • 312. 数据挖掘功能—偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
  • 313. 数据挖掘环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
  • 314. 数据挖掘环境
  • 315. 数据挖掘的流程
  • 316. 数据挖掘的流程确定业务对象 数据准备 数据挖掘 结果分析和知识同化
  • 317. 数据挖掘的流程-确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
  • 318. 数据挖掘的流程-数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。 数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
  • 319. 数据挖掘的流程-数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
  • 320. 数据挖掘的流程-分析和同化结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
  • 321. 数据挖掘过程工作量 在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.
  • 322. 数据挖掘过程工作量
  • 323. 数据挖掘需要的人员 数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。
  • 324. 数据挖掘工具及其功能
  • 325. 数据挖掘中存在的问题数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。 面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。 既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。 各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。 当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。 数据挖掘涉及到数据也就碰到了数据的私有性和安全性。 数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。 总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。
  • 326. 数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现和知识的维护更新。
  • 327. OLAM联机分析挖掘,又称为OLAP Mining。它是联机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。
  • 328. OLAM产生的原因 OLAP与DM虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,随着OLAP与DM技术的应用和发展,数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。
  • 329. OLAM产生的原因一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足: 1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。 2)OLAP分析事先需要对用户的需求有全面而深人的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。 3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。
  • 330. OLAM产生的原因另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点: 1) DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。 2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。 3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。
  • 331. OLAM产生两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。
  • 332. OLAM产生联机分析挖掘概念正式提出是在1997年,由加拿大Simon Fraser大学教授Jiawei Han等在数据立方体的基础上提出多维数据挖掘的概念,称为OLAP mining。这实际上是在OLAP系统的基础上,把数据分析算法、数据挖掘算法引人进来,解决多维数据环境的数据挖掘问题。
  • 333. OLAM体系结构
  • 334. OLAM体系结构OLAM的挖掘分析处理是建立在数据仓库系统的数据立方体基础上的。数据立方体的组织模型、计算和操作对与系统的执行效率和响应速度起着至关重要的作用。OLAM集成了传统的OLAP和数据挖掘技术,为用户的在线分析挖掘操作提供接口。OLAM引擎通过用户图形接口接收用户的分析请求指令和数据,在元数据的指导下,对数据立方体进行相应的操作,包括集合运算(如求和、求平均)和导向运算(如选择、旋转、上钻与下钻)等,然后将挖掘分析的结果以可视化的形式展现给用户,整个分析挖掘过程是动态进行的。
  • 335. OLAM的系统特征 OLAM系统的主要目的就是实现OLAP与数据挖掘的功能互补,提高数据分析挖掘的性能。建立在庞大复杂的数据仓库基础上的OLAM在实现过程中面临最大的挑战是数据分析挖掘执行的效率的提高和对用户请求的快速准确响应。目前专门的OLAM产品还没有正式出现,但根据OLAM系统的设计目的和用户要求,OLAM应具有其自己的系统及功能特征。
  • 336. OLAM的系统特征(1)多维分析和数据挖掘无缝集成,即多维分析与数据挖掘的完美结合需要理论基础,需要一套系统构建方法。比如借助于OLAP对数据立方体进行切片、切块、旋转、向下钻取、向上汇总等操作的支持,应能方便地对任何一部分数据和不同抽象级别地数据进行挖掘。
  • 337. OLAM的系统特征(2)具有较高的执行效率和较快的响应速度。OLAM系统快速响应能力的获得是一个十分有挑战性的问题,可以认为是OLAM技术中最困难的问题之一。往往数据挖掘算法复杂且耗时,这时要求协调执行效率和挖掘精度两者的关系。
  • 338. OLAM的系统特征(3)支持迭代分析过程,即系统应提供“回溯”能力,以便随时标记分析过程中的时空状态点,并在分析过程中随时回到这一点,有利于分析的灵活进行,防止在进行由浅人深的分析过程中用户“迷失方向”。
  • 339. OLAM的系统特征(4)支持复杂信息建模,即要求OLAM系统支持多种异构DBMS中多种数据类型的融合,全面处理企业内的各种决策支持应用。一方面,决策分析的数据对象来自于不同开发环境和目的的分立应用系统,数据的管理方法和数据结构也可能不同,这就要求OLAM在数据方面有很强的包容性;另一方面,不同的数据挖掘方法要求不同的数据结构支撑。
  • 340. OLAM的系统特征(5)良好的可扩展性。要求OLAM系统支持多种挖掘算法的模块的添加、多种工作对象的建构、多种数据源的集成、多种前端工具的利用等扩展功能。用户能根据实际问题的不同,选用不同的挖掘算法。此外,OLAM因该具有支持这些扩展的通用接口,以便与其它工具和算法衔接,或者嵌人用户自己的算法。
  • 341. OLAM的系统特征(6)灵活友好的人机交互能力。OLAM中的决策分析过程是要在人的指导下进行的,人作为系统的有机组成部分和系统应用密不可分。人利用自己掌握的领域知识在OLAM系统的辅助下完成领域内问题的求解,在这个过程中人与计算机分别承担各自最擅长的工作,达到资源的合理配置。
  • 342. OLAM的系统特征(7)支持复杂事务模型及多任务优化和调度。OLAM事务是有“内部结构”的数据库操作集合,是一个有层次的复杂网络结构,传统的无内部结构、彼此孤立的、最小原子特性的事务模型只是这种模型的特例。OLAM事务之间具有广泛的联系,考虑在对事务分解的基础上,充分利用不同事务中的公共子事务来优化事务的调度。
  • 343. OLAM的分析操作从OLAM的定义来看,它是建立在多维数据视图基础之上的。因此,对于OLAM的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、旋转等操作;而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合可以有不同的模式。
  • 344. OLAM的分析操作先进行立方体计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行二定的立方体计算,以选择合适的数据范围和恰当的抽象级别。 先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深人分析。 立方体计算与数据挖掘同时进行。在挖掘的过程中,可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部分。 回溯操作。OLAM的标签和回溯特性,允许用户回溯一步或几步,或回溯至标志处,然后沿着另外的途径进行挖掘,这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。
  • 345. OLAM技术的发展趋势OLAM技术实现了OLAP和DM技术的互补,它的发展趋势是两者更加可靠的集成、融合,有自己合理优化的结构体系和一套完备的技术理论基础,从整体上为决策分析提供完美支持。 OLAM技术是一门交叉学科,涉及机器学习、模式识别、统计学、智能数据库、人工智能、高性能计算、数据可视化、专家系统等综合技术。这些相关学科的发展,无疑也将会推动OLAM技术的发展。特别是,近年来随着数据库技术的发展,出现了不同数据类型的高级数据库,如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库、时序数据库等。因此,未来的OLAM技术应用应基于这些高级数据库展开。 随着互联网技术的发展,全球信息的共享,基于Web的联机分析挖掘(Web0LAM),也将成为OLAM技术发展的一个新方向。