数据挖掘商业案例分析及实现


1 目录 第一部分 金融行业应用...................................................................................... 5 1. 前言......................................................................................................................... 5 1.1 客户细分―使客户收益最大化的同时最大程度降低风险................... 5 1.2 客户流失―挽留有价值的客户............................................................... 5 1.3 交叉销售................................................................................................... 6 1.4 欺诈监测................................................................................................... 6 1.5 开发新客户............................................................................................... 7 1.6 降低索赔................................................................................................... 7 1.7 信用风险分析........................................................................................... 7 2. 客户流失.......................................................................................................... 8 2.1 客户流失需要解决的问题....................................................................... 8 2.2 客户流失的类型....................................................................................... 9 2.3 如何进行客户流失分析?....................................................................... 9 2.4 客户流失应用案例................................................................................. 11 3. 客户细分............................................................................................................... 21 3.1 信用风险分析......................................................................................... 21 3.2 客户细分的概念..................................................................................... 21 3.3 客户细分模型......................................................................................... 22 3.4 客户细分模型的基本流程..................................................................... 23 3.5 细分方法介绍......................................................................................... 25 3.6 客户细分实例......................................................................................... 25 4. 营销响应............................................................................................................... 30 4.1 什么是营销响应?................................................................................. 30 4.2 如何提高营销响应率?......................................................................... 30 4.3 营销响应应用案例................................................................................. 32 5. 信用评分............................................................................................................... 38 5.1 信用评分背景......................................................................................... 38 5.2 信用评分的概念..................................................................................... 39 5.3 信用评分的方法..................................................................................... 39 5.4 信用评分应用案例................................................................................. 42 6. 客户满意度研究................................................................................................... 50 6.1 为什么要进行客户满意度研究?......................................................... 50 6.2 满意度研究的目标和内容..................................................................... 50 6.3 满意度研究方法..................................................................................... 51 6.4 结构方程模型在客户满意度测评中的应用......................................... 54 6.5 满意度研究在金融行业中的应用......................................................... 55 7. CRISP-DM 简介 ................................................................................................... 57 7.1 数据理解................................................................................................. 58 7.2 数据准备................................................................................................. 58 7.3 建立模型................................................................................................. 58 7.4 模型评估................................................................................................. 59 2 7.5 部署(发布)......................................................................................... 59 8. 数据挖掘经验谈................................................................................................... 60 8.1 采用 CRISP-DM 方法论 ........................................................................ 60 8.2 以终为始................................................................................................. 60 8.3 设定期望值............................................................................................. 60 8.4 限定最初的项目范围............................................................................. 60 8.5 确保团队合作......................................................................................... 61 8.6 避免陷入数据垃圾................................................................................. 61 9. 数据挖掘部署策略............................................................................................... 62 9.1 策略 1-快速更新批处理方式............................................................. 62 9.2 策略 2-海量数据批处理方式............................................................. 63 9.3 策略 3-实时封装方式.......................................................................... 64 9.4 策略 4-实时定制方式.......................................................................... 65 10. 成功案例........................................................................................................ 67 10.1 国外成功案例......................................................................................... 67 10.1.1 Banco Espirito Santo (BES)............................................................. 67 10.1.2 Bank Financial ........................................................................................ 67 10.1.3 美国汇丰银行.................................................................................. 68 10.1.4 美国 First Union 公司 ..................................................................... 69 10.1.5 Achmea 公司 .......................................................................................... 70 10.1.6 标准人寿保险公司.......................................................................... 71 10.2 国内成功案例......................................................................................... 71 10.2.1 中国建设银行风险预警管理项目.................................................. 71 10.2.2 光大银行信贷风险管理项目.......................................................... 72 10.2.3 中国银行信用风险评级管理项目.................................................. 72 10.2.4 中国中信银行.................................................................................. 72 10.2.5 部分金融业客户的名单(排名不分先后).................................. 73 第二部分 电信行业应用.................................................................................... 74 1. 前言....................................................................................................................... 74 1.1 数据挖掘的概念............................................................................................ 74 1.2 数据挖掘技术在电信行业客户关系管理的主要应用领域如下: .............. 75 1.3 数据挖掘成功方法论.................................................................................... 75 1.4 商业理解........................................................................................................ 76 1.5 数据理解与数据准备.................................................................................... 77 1.6 建立模型........................................................................................................ 77 1.7 模型检验........................................................................................................ 77 1.8 模型发布与应用............................................................................................ 77 2. 国内数据挖掘应用中存在的问题....................................................................... 78 2.1 数据质量和完备性........................................................................................ 78 2.2 相应的人员素质............................................................................................ 78 2.3 应用周期........................................................................................................ 78 2.4 数据挖掘项目的建议:................................................................................ 78 3. 客户流失........................................................................................................ 80 3.1 客户流失需要解决的问题............................................................................ 80 3 3.2 电信客户流失的类型.................................................................................... 81 3.3 如何进行客户流失分析?............................................................................ 81 3.4 案例分析........................................................................................................ 83 3.5 商业理解........................................................................................................ 83 3.6 数据理解........................................................................................................ 83 4. 营销响应........................................................................................................ 89 4.1 为什么要进行营销响应分析?.................................................................... 89 4.2 营销响应........................................................................................................ 89 4.3 什么是营销响应?........................................................................................ 90 4.4 如何提高营销响应率?................................................................................ 90 4.5 案例分析........................................................................................................ 92 5. 客户细分........................................................................................................ 98 5.1 客户细分的背景............................................................................................ 98 5.2 客户细分的概念............................................................................................ 98 5.3 客户细分模型................................................................................................ 99 5.4 客户细分模型的基本流程.......................................................................... 101 5.5 细分方法介绍.............................................................................................. 102 5.6 客户细分实例.............................................................................................. 102 6. 客户满意度.................................................................................................. 106 6.1 结构方程模型用于客户满意度测评中的应用.......................................... 106 6.2 满意度研究在金融行业中的应用.............................................................. 107 6.3 研究目标...................................................................................................... 107 6.4 研究过程...................................................................................................... 108 6.5 满意度研究的结果分析.............................................................................. 108 6.6 结论.............................................................................................................. 109 6.7 客户总体满意度.......................................................................................... 109 6.8 各品牌主要商业过程满意度及服务改进策略.......................................... 109 6.9 各品牌主要商业过程的具体满意度及改进策略...................................... 110 7. 忠诚度.......................................................................................................... 112 7.1 忠诚度水平与性质...................................................................................... 112 7.2 离网与蚕食风险.......................................................................................... 114 7.3 提升策略...................................................................................................... 115 8. CRISP-DM 简介............................................................................................. 116 8.1 数据挖掘经验谈.......................................................................................... 118 8.2 数据挖掘部署策略...................................................................................... 119 9. 成功案例...................................................................................................... 124 9.1 国外成功案例.............................................................................................. 124 9.1.1 Southwestern Bell(西南贝尔) ................................................................ 124 9.1.2 CallCounter .................................................................................................. 124 9.1.3 Rural Cellular Corporatio ............................................................................ 127 9.1.4 英国电信公司.............................................................................................. 128 9.2 国内成功案例.............................................................................................. 130 9.2.1 某省级电信公司.......................................................................................... 130 9.2.2 部分国内外电信客户的名单(排名不分先后)...................................... 131 4 第三部分 制造行业应用.................................................................................. 133 1. 简介..................................................................................................................... 133 5 第一部分 金融行业应用 1. 前言 随着中国加入 WTO,国内金融市场正在逐步对外开放,外资金融企业的进入在带来先进 经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收 购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完 善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价 值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如 何才能吸引、增加并保持最好的客户呢? 数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则 (Rules)、模式(Patterns)等形式。 用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行 细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成 本、达到有效增加客户数量的目的等。 1.1 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务 革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和 数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时, 实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS 预测分析技术能够适应用于各种 金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自 ATM、交易网站、呼 叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销 活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 1.2 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自 6 己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如 何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价 值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失 者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找 出最有价值的客户。 1.3 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助 于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户 与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企 业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存 在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增 多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。 从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服 务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提 升客户的收益率。 1.4 欺诈监测 通过侦测欺诈、减少欺诈来降低成本。为了与欺诈活动作斗争,首先您需要预测欺诈在 何时、何地发生。数据挖掘技术侦测在欺诈中常见的模式,预测欺诈活动将在哪里发生。 对于银行业的公司来说,欺诈活动频繁发生的一个领域是自动取款机(ATM)。数据挖 掘帮助公司预测欺诈性的 ATM 交易。银行可以来预测欺诈最有可能在哪个地理位置上发生。 接着该信息就被传送给 ATM 网络的成员机构,由这些机构通知客户,让客户确定交易是否正 当,从而避免发生更多的欺诈行为。有了这些信息,他们可以更快地冻结帐户或采取其它必 要的手段。 7 1.5 开发新客户 金融机构可以使用数据挖掘技术提高市场活动的有效性。银行部门对给出反馈的活动对 象进行分析,使之变成新的客户。这些信息也可应用到其它客户,以提高新的市场活动的反 馈率。 1.6 降低索赔 保险公司都希望减少索赔的数量。可以使用聚类分析,根据现有客户的特征档案来找出 哪些客户更有可能提出索赔请求。这些档案是通过对客户提取 200 至 300 个不同的变量而产 生出来的。接着,您就可以针对那些可能提出较少索赔请求的客户开展获取活动。 1.7 信用风险分析 传统的风险管理已无法有效控制跨区域、跨部门、跨行业的多种风险,利用科学的数据 分析系统提高欺诈的防范,降低信用风险尤为重要。客户科学评估造成风险的因素,有效规 避风险,建立完善的风险防范机制。 8 2. 客户流失 随着金融体制改革的不断深化和金融领域的对外开放,我国金融行业的竞争日趋激烈。 《2006 年金融服务指数研究报告》显示,在我国金融业逐步对外资行业开放的今天,中国 金融业的服务质量虽然有稳步提升,但总体仍需提高,中资银行面临着极大的优质客户流失 的危险。这将对银行经营和效益产生极大的影响。除了提高服务质量,银行要加强营销活动, 保留优质客户,首先面临的第一个问题就是,谁可能流失?应该针对哪些客户进行客户保留 活动?针对所有的客户开展保留活动,成本太大。合理的做法是应用数据挖掘技术,研究流 失客户的特征,从而对流失进行预测、并对流失的后果进行评估,采取客户保留措施,防止 因客户流失而引发的经营危机,提升公司的竞争力。 具体来说,客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。客户 流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础,通 过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切 相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关 业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销 策略,采取针对性措施,开展客户挽留工作。 2.1 客户流失需要解决的问题 1)哪些现有客户可能流失? 客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。 2) 现有客户可能在何时流失? 如果某一客户可能流失,他会在多长时间内流失。 3) 客户为什么流失? 哪些因素造成了客户的流失,客户流失的重要原因是什么。主要对引起客户流失的诸因素进 行预测和分析。 4) 客户流失的影响? 客户流失对客户自身会造成什么影响? 客户流失对公司的影响如何? 对可能流失客户进行价值评估,该客户的价值影响了运营商将要付出多大的成本去保留该客 9 户。 5) 客户保留措施? 针对公司需要保留的客户,制定客户和执行保留措施。 2.2 客户流失的类型 为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展 客户保留活动。客户流失现象可以分为以下三种情况: 1)公司内客户转移:客户转移至本公司的不同业务。主要是增加新业务,或者费率调整引 发的业务转移,例如从活期存款转移至零存整取,从外汇投资转移至沪深股市投资。这种情 况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公司整 体而言客户没有流失。 2)客户被动流失:表现为金融服务商由于客户欺诈等行为而主动终止客户与客户的关系。 这是由于金融服务商在客户开发的过程中忽视了客户质量造成的。 3)客户主动流失:客户主动流失可分为两种情况。一种是客户不再使用任何一家金融服务 商的业务;另一种是客户选择了另一家服务商,如客户将存款从一家银行转移到另一家银行。 客户主动流失的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服 务价值低于另一家服务商。这可能是客户对公司的业务和服务不满意,也可能是客户仅仅想 尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。 2.3 如何进行客户流失分析? 对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确 定义何为流失,进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的,它 是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个 核心变量:财务原因/非财务原因,主动流失/被动流失。对不同的流失客户按该原则加以区 分,进而制定不同的流失标准。例如,非财务原因主动流失的客户往往是高价值的客户,他 们会正常支付服务费用并容易对市场活动有所响应,这种客户是企业真正需要保留的客户。 而对于非财务原因被动流失的客户,预测其行为的意义不大。 研究哪些客户即将流失,是一个分类问题。将现有客户分为流失和不流失两类,选择适 10 量的流失客户和未流失客户的属性数据组成训练数据集,包括:客户的历史通话行为数据、 客户的基础信息、客户拥有的产品信息等。Clementine 提供人工神经网络、决策树、Logistic 回归等模型用于建立客户流失的分类模型。 关于流失用户特征的分析,是一个属性约减和规则发现问题。Clementine 提供关联分 析方法,可以发现怎样的规则导致客户流失。也可以利用 Clementine 的决策树方法,发现 与目标变量(是否流失),关系最为紧密的用户属性。由于不同类型的客户可能具有不同的 流失特征。因此,在进行深入的客户流失分析时,需要先进行客户细分,再对细分之后的客 户群分别进行挖掘。 在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么 它可能什么时候会流失。生存分析可以解决这类问题。生存分析不仅可以告诉分析人员在某 种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。 生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自 变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变 化,当生存率达到一定的阈值后,客户就可能流失。 分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分 析。客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表 征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户 流失的动机,是价格因素还是为了追求更好的服务等。这方面内容丰富,需作具体分析。 分析客户流失对公司的影响时,不仅要着眼于对收入的影响,而且要考虑其它方面的影 响。单个的客户流失对公司的影响可能是微不足道的,此时需要研究流失客户群对公司收入 或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析,归纳客户流失的原因, 有针对性的制定防止客户流失的措施。 在预测出有较大流失可能性的客户后,分析该客户流失对公司的影响。评估保留客户后 的收益和保留客户的成本。如果收益大于成本,客户是高价值客户,则采取措施对其进行保 留。至于低价值客户,不妨任其流失甚至劝其流失。 总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业 务目标的基础上准备数据、建模、模型评估,最后将模型部署到企业中。 11 2.4 客户流失应用案例 为了举例说明,我们设想一个虚构的银行 ZBANK 使用保留客户的应用或客户流失建模。 ZBANK 正受到来自其它金融机构日益激烈的竞争。住房贷款是 ZBANK 最宝贵的客户来源之一, 在该业务中遇到一些客户会转投其它竞争对手。在营销策略方面,ZBANK 给它的房贷新客户 许多的优惠措施(如免费的电器和家具优惠券),因此它获得客户的初始成本相对要高于竞 争对手。但是,由于此类贷款由市场主导,因此房屋抵押贷款给 ZBANK 带来较小的风险,同 时也使其处于一个有利的战略地位可以交叉销售其它的服务如期房贷款和住房保险。 除了保持其战略性市场主导地位,对于 ZBANK 来说预测客户流失的可能性也很重要,以 便减少那些获得不久就拖欠贷款的新客户。ZBANK 有一个客户数据库,包含了有关房贷客户 的交易和人口统计信息。 (1)商业理解 预测现有用户中哪些客户在未来六个月中可能流失以及对哪些流失客户采取保留措施。 (2)数据理解 a) 数据说明 选取一定数量的客户(包括流失的和未流失的),选择客户属性,包括客户资料、客户 账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户流失。所选取的数据属 性包括: (1)客户号; (2)储蓄账户余额; (3)活期账户余额; (4)投资账户余额; (5)日均交易次数; (6)信用卡支付方式; (7)是否有抵押贷款; (8)是否有赊账额度; (9)客户年龄; (10)客户性别; (11)客户婚姻状况; (12)客户孩子数目; 12 (13)客户年收入; (14)客户是否有一辆以上汽车; (15)客户流失状态。 其中客户流失状态有三种属性: (1)被动流失; (2)主动流失,这是分析中特别关注的一类客户; (3)未流失。 在分析中,我们主要关注的是主动流失的客户。被动流失对银行来说是意义最小的,因 为该指标代表的大多数客户是在贷款期内卖掉了房子,因此不再需要房贷了。主动流失指的 是转投向 ZBANK 竞争对手的客户,是该行关注的焦点。 在开发这个应用之前,ZBANK 将所有现有的客户归到上述的三个类别中。同时按照常规, 所有的人口统计信息(也就是从客户年龄到客户是否有一辆以上汽车)每六个月更新一次, 而交易信息(从储蓄账户余额到是否有赊账额度)则是实时更新的。为了让预测模型能预先 进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自变量)之间设定了 6 个月的延迟。也就是说,输入变量的采集六个月后再将客户流失状态分类;因此该模型提早 6 个月预测客户流失。 b) 数据描述及图表分析 在数据理解中,可以利用描述及可视化来帮助探索模式、趋势和关系。图 2.1 显示了 Clementine 中数据理解的数据流图,包括:使用数据审核,统计分析,网络图,直方图, 两步聚类,关联分析,查看数据属性之间的关系。 13 图 2.1:数据理解的数据流图 图 2.2 显示了数据审核结果。可以很清楚地了解 14 个数据字段的基本情况。如数据类 型、最大最小值、平均值、标准差、偏度、是否唯一、有效记录个数等。从图 2.2 可见,房 贷客户的平均年龄是 57.4 岁,最小的 18 岁,最大的 97 岁。 图 2.2:数据审核图 这些描述能帮助理解数据。使用绘图和直方图节点将数据可视化就产生了客户收入和年 龄图及日均交易数的直方图(见图 3)。将可视化的结果与目标变量联系起来,可以看出客 户流失状态包含在不同的图表中。例如,客户的离中趋势,男性和女性客户的被动流失和主 动流失以及每个级别的日均交易次数都包含在了图表中。这种对关系的初步评估对于建模是 很有用的。更重要的是,结果表明主动流失在女性客户和不太活跃的客户(由日均交易次数 14 确定)中较为多见。 图 2.3:各种数据分布图 最后,一幅网状图表明了客户性别,客户婚姻状况,信用卡支付方式,客户流失状态之 间的联系(见图 3 下左面板)。较强的关系由较粗的线表示。那些在一定标准(由用户定义) 之下的联系则不包括在图中(例如在被动流失和选中的一些输入变量之间)。网状图表明现 有客户(即非流动者)更多的是那些已婚男性,那些用其它账户进行信用卡支付的人。要注 意的是,前面已经提到过,客户流失状态滞后输入变量六个月。 c) 关联分析及聚类的结果为了进一步了解房贷客户可以使用聚类。 图 2.4 总结了使用双步聚类节点获得的结果。如图所示,客户似乎分为七种自然的聚类。所 产生的聚类特征可用来定义和理解每个聚类以及聚类间的区别。例如,我们比较聚类 1 和聚 类 4,聚类 1 中包含的是较年轻并绝大多数已婚(92.2%),并且年收入较高的女性。而聚 类 4 中包含的是较年长(平均要比 1 中大 5 岁),59.8%已婚,年收入较低(平均要比 1 中 低 4000 美元)的男性。聚类的结果对于市场定位和分割研究是非常有用的,但是对于预测 建模的作用则没这么明显。 15 图 2.4:两步聚类的部分结果 本例使用关联分析来制订规则,寻找输入变量和目标变量间的关系。这些规则不仅对发 现模式、关系和趋势很重要,对于预测建模(例如决定采用/不采用哪些输入变量)也很重 要。我们使用 Clementine 的 GRI(广义规则归纳)节点来进行联合分析,结果如图 2.5 所 示。其中,第一条联合分析规则表明,有 156 名(或 11.0%的)房贷客户的投资账户余额低 于 4988 美元,其中 81.0%是被动流失的。同样,第三条规则表明有 198 名(或 13.9%的)房 贷客户的活期账户余额超过 1017 美元,其中 81.0%是主动流失的。其它的规则可以类似地 进行理解。这些规则表明交易和人口统计信息是如何与客户流失状态联系起来的。要注意的 是,客户流失状态滞后输入变量六个月。 16 图 2.5:关联分析的部分结果 3)数据准备 根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等。在本 例中,利用 Clementine 进行数据准备的数据流图如图 2.6 所示。通过分裂节点,给数据集 添加一个新的标志属性。该标志属性是 0-16 之间的随机数。然后再根据标志属性值(<4 和)=4),利用过滤节点,将原来的数据样本分成训练集(约占 75%)和测试集(约占 25%)。 图 2.6:数据准备的数据流图 (4)建立模型及评估 预测建模是本例中最重要的分析,神经网络和决策树尤其适用于对房贷客户的流失建 模。图 2.7 和图 2.8 展示的是使用 Clementine 训练神经网络模型和建决策树功能得到的神 17 经网络和决策树的结果。 图 2.7:C5.0 决策树结果 图 2.8:神经网络模型结果 决策树模型中有 4 个终端节点和仅仅 3 个重要的输入变量(按照重要性降序排列):投 资账户余额、客户性别和客户年龄。神经网络模型在输入层、隐藏层和输出层分别有 15 个、 5 个和 3 个神经元。此外,最终要的 5 个输入变量是(按照重要性降序排列):活期账户余 额、客户孩子数目、储蓄账户余额、投资账户余额和客户婚姻状况。Logistic 回归模型统 计有效,卡方检验的 p 值为 1.000,表明数据吻合得很好。此外,下列输入变量在统计时, 18 在 0.05 的有效水平上预测客户流失状态也统计有效:储蓄账户余额 c(p 值=0.000)、活期 账户余额(p 值=0.000)、客户年龄(p 值=0.002)、客户年收入(p 值=0.033)及客户性 别(p 值=0.000)。 从用评估图节点产生的提升表中可以看出每个预测模型都是有效的,如图 2.9 所示(从 左至右分别为 Logistic 回归、决策树和神经网络)。提升表中绘制的是累积提升值与样本 百分比的关系(在这里是构造/培训样本)。基准值(即评估每个模型的底限)是 1,它表 示当从样本中随机抽取记录的百分点时能成功地“击中”现有客户。提示值衡量的是当来自 数据中的某一记录是一个现有客户的降序预测概率能被百分点反映时,预测模型“击中”现 有客户的成功可能性(准确度)有多高。如图 2.9(左)所示,每个模型的提升值均大于 1, 在 100%时收敛于 1。由于每个预测模型都能以有效精度预测目标变量(起码对于现有客户和 非现有客户之间的关系),因此我们可以说它们都是有效的。 图 2.9:提升图(左)和三个模型的分析结果(右) 值得注意的是神经网络和决策树得出的预测模型并不完全一致,这从图 2.9(右)两个 模型结果的比较可以看出来。所以,不仅要在训练样本中比较两个模型的表现,也要在训练 /测试样本中进行比较,而后者更加重要。对于这些预测模型来说,评估它们相对表现的最 佳办法应该是看它们预测目标变量(客户流失状态)的精确率。在本例中为了简单起见,假 设总体精确度包括了比较不同预测模型表现的评估标准。在图 2.10 的右面板中,决策树模 型的预测相对精确,总体精确度为 81.6%,因此根据评估标准,决策树模型是最好的预测模 型,应该在 ZABNK 预测房贷客户的流失中使用。 19 图 2.10:测试集的提升表(左)和三个模型的分析结果(右) (5)模型部署 在本例中,决策树模型不仅精度最高,而且从图 2.7 中的简明的规则可以看出,决策树 的模型也容易理解。结果表明,ZBANK 的房贷客户中,那些 39 岁以上,在投资帐户中余额 超过 4976 美元的女性更可能主动流失。要注意的是,客户流失状态滞后输入变量六个月。 从到目前位置的结果来看,决策树客户流失预测模型能够更精确地根据交易和人口统计的信 息判断出流失客户和非流失客户,从而产生增值效益。因此,ZBANK 可以用决策树模型判断 哪些客户倾向于主动流失,然后向他们提供优惠措施或采取其它预防措施。同样,客户流失 模型可以判断哪些是流失风险较低的房贷申请者。使用数据挖掘的决策树模型可以用来对现 有客户和新的房贷申请者进行评级。在 Clementine 中部署模型的数据流图如图所示。运行 数据流后,Clementine 自动将结果存储在逗号分隔的文件中。银行中其他人员即使没有安 装 Clementine,也可以使用记事本等软件打开查看。并且可以很好的集成到银行现有的其 他业务系统中。图 2.12 给出了一个结果的例子。其中按照客户流失概率的大小,对客户进 行排序。 图 2.11:模型部署的数据流图 20 图 2.12:流失概率和客户价值的散点图 最后需要指出的是在本例中,模型的总体分类精确率是简化计算的。在实际使用中,一 般还需要考虑误分类及其相关成本,还有流失客户和非流失客户在样本和总体中的相对比 重。 21 3. 客户细分 3.1 信用风险分析 随着金融市场逐步开放,商业银行和保险公司面临着巨大的压力和挑战。面对竞争和挑 战、重点是做好客户市场细分,有效发掘客户需求,提供客户差异化服务。一个银行的客户 是多种多样的,各个客户的需求也是千变万化的,银行不可能满足所有客户所有的需求,这 不仅是由银行自身条件所限制,而且从经济效益方面来看也是不足取的,因而银行应该分辨 出它能有效为之服务的最具吸引力的市场,扬长避短,而不是四面出击。对一个银行来说, 在经营管理中应用市场细分理论是很有必要的。 3.2 客户细分的概念 客户细分的概念是美国市场学家温德尔?史密斯(Wendeii R.Smith)于 20 世纪 50 年代中 期提出来的。 客户细分(Customer Segmentation)是指按照一定的标准将企业的现有客户划分为不同 的客户群。客户细分是客户关系管理的核心概念之一,是实施客户关系管理重要的工具和环 节。Suzanne Donner 认为:正确的客户细分能够有效地降低成本,同时获得更强、更有利 可图的市场渗透。通过客户细分,企业可以更好地识别不同客户群体对企业的价值及其需求, 以此指导企业的客户关系管理,达到吸引合适客户,保持客户,建立客户忠诚的目的。 所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下,根据客户的 价值、需求和偏好等综合因素对客户进行分类,分属于同一客户群的消费者具备一定程度的 相似性,而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有: (1) 客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者 的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户,客户需求的异质性是 进行客户细分的内在依据。 (2) 消费档次假说。随着经济的发展和消费者收入水平的提高,消费量会随之增加。但 消费量的增加并非线性增长,而是呈现出区间性台阶式的变化形式,一旦消费者达到某种消 费层次之后,消费变化的趋势将变得非常平缓。根据消费档次假说,消费者的消费档次或消 22 费习惯在一段时期内是相对稳定的,这就为通过消费行为来划分消费群体提供了理论前提和 基础。 (3) 企业资源的有限性和有效市场竞争的目的性。资源总是希缺的,由于缺乏足够的资 源去应对整个客户群体,因此必须有选择地分配资源。为了充分发挥资源的最大效用,企业 必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。 (4) 稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实 际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就 显得毫无意义。 3.3 客户细分模型 客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型 是指选择一定的细分变量,按照一定的划分标准对客户进行分类的方法。一个好的细分模型, 首先是要满足细分深度的要求,不同的使用者对客户细分的深度也有不同的要求,这就要求 模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力,现代数据 库的存储容量越来越大,数据结构也趋于多样性,误差数据也会随之增多,这就要求模型能 适应数据在量和样上的膨胀,对误差数据能做出判别和处理。最后是模型要有很强的适用能 力,变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他们的消费行为 都是在变化的,这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细 分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模 型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细 分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额 等为细分变量,如 RFM 模型和客户价值矩阵模型。 (1)RFM 模型。RFM 细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重 点客户的细分模型。 R-Recency 指客户上次消费行为发生至今的间隔,间隔越短则 R 越大;F—Frequency 指在 一段时期内消费行为的频率;M—Monetary 指在某一时期内消费的金额。研究发现,R 值越 大、F 值越大的客户越有可能与企业达成新的交易,M 越大的客户越有可能再次响应企业的 产品和服务。 23 (2)客户价值矩阵模型。 客户价值矩阵模型是在对传统的 RFM 模型修正的基础上提出的改进模型。用购买次数 F 和 平均购买额 A 构成客户价值矩阵,用平均购买额替代了 RFM 模型中存在多重共线性的两个 变量,消除了 RFM 模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中,确 定购买次数 F 和平均购买额 A 的基准是各自的平均值,一旦确定了坐标轴的划分,客户就被 定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少,客 户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型客户、经常客户和不确定客 户,如图 3.l 所示。 图 3.1:客户价值矩阵 客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同, 用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学 特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、 基于客户价值相关指标的客户细分。 3.4 客户细分模型的基本流程 客户细分包括六个基本流程: 第一步:理解业务需求。 在未来的业务中,知道谁是客户是个非常好的起始点,以了解瞬息万变的市场环境。清楚地 了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客 户归组到一起,这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根 据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构 24 成。当这些条件变得越来越复杂时,数据挖掘技术就应运而生了。决定使用哪些条件取决于 客户细分的目的和应用方法。在使用数据挖掘开发客户细分时,最重要的部分是其结果应当 在业务远景中意义深远,并且能够在实际业务环境中进一步得到应用。需要记住的一点是: 由于市场环境是动态变化的,细分建模过程应当是重复性的,且模型应随着市场的变化而不 断革新。 第二步:选择市场细分变量。 由于变量选择的优劣对细分结果质量的影响非常显著,所以变量选择应该建立在理解业务需 求的基础之上,以需求为前提,在消费者行为和心理的基础上,根据需求选择变量。此外, 变量的选择还应该有一定的数量,多了不好,少了也不好。 第三步:所需数据及其预处理。 为创建数据模型,必须使用收集到的原始数据,并将其转换成数据模型所支持的格式。我们 称这个过程中的这个阶段为初始化和预处理。在金融业中进行客户行为细分通常需要行为数 据和人口统计数据等类型的数据。行为数据是客户行为,可通过客户的账户信息、购买产品 的信息等捕获。人口统计数据(如年龄、性别、工作等)可根据客户办理业务时,提供给金融 机构的信息获得。这在识别或描述客户组的特征时很有用。 第四步:选择细分技术。 目前,通常采用聚了技术来进行客户细分。常用的聚类算法有 K-means、两步聚类、Kohonen 网络等,可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。 第五步:评估结果。 在对用户群进行细分之后,会得到多个细分的客户群体,但是,并不是得到的每个细分都是 有效的。细分的结果应该通过下面几条规则来测试:与业务目标相关的程度;可理解性和是 否容易特征化;基数是否足够大,以便保证一个特别的宣传活动;是否容易开发独特的宣传 活动等。 第六步:应用细分模型。 根据客户细分的结果,市场部门制定合适的营销活动,进行有针对性的营销。总之,客户细 分是金融机构与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势, 只有通过深入分析用户消费行为,精确识别、细分用户市场,开发出针对不同层次用户的服 务品牌进行服务营销,方能使得各方价值发挥到最大,实现共赢。不同级别的客户对服务的 需求以及“赢”的概念是不同的,正是因为为不同的客户提供不同的产品和服务才能使客户 都达到满意,从而在市场上占据有利地位。 25 3.5 细分方法介绍 在数据挖掘中,往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类: (1)K-Means 聚类法。使用者需要首先确定数据分为 K 群,该方法会自动确定 K 个群 的中心位置,继而计算每条记录距离这 K 个中心位置的距离,按照距离最近的原则把各个记 录都加入到 K 个群,重新计算 K 个群的中心位置,再次计算每条记录距离这 K 个中心位置的 距离,并把所有记录重新归类,再次调整中心位置,依次类推……,当达到一定标准时,结 束上述步骤。这种方法运算速度快,适合于大数据量。 (2)两步聚类法:这种方法首先需要确定一个最大群数(比如说 n),并把数据按照 一定的规则分为 n 个群,这是该方法的第一步。接着按照一定的规则把 n 个群中最接近的群 进行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比 如说 m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据 结构本身自动确定应该把数据分为多少群。 (3)Kohonen 网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。 为了提升客户的全面经验,许多金融机构将数据挖掘应用于客户细分在客户个人属性以及产 品之间提取直观的联系。从这些现存的客户以及潜在客户中得到的客户特征经验的知识进而 可以用于配合市场营销工作来增加交叉销售的机会,提高投资回报率(ROI)( Peacock,1998)。 这使得金融机构可以提供特定的产品与服务来满足客户的需要。数据挖掘中典型的细分应用 要么是使用有监督学习方法,要么是使用非监督学习方法来进行(Chung 和 Gray,1999)。 对于前者,数据挖掘模型学习客户的行为特征与已经确定的我们感兴趣的输出变量之间的关 系。例如,客户评价模型,将客户分为不同的等级,并得出每个等级的特征。另一方面,非 监督学习方法基于客户的输入属性产生不同的类别,而且不需要设定我们感兴趣的输出变 量。每个类别的成员享有相似的特征,并且与其它的类别之间的特征是截然不同的。 3.6 客户细分实例 假设 Z 银行拥有以下数据: 1.客户号; 2.储蓄账户余额; 26 3.活期账户余额; 4.投资账户余额; 5.日均交易次数; 6.信用卡支付模式; 7.是否有抵押贷款; 8.是否有赊账额度; 9.客户年龄; 10.客户性别; 11.客户婚姻状况; 12.客户家庭情况(孩子数); 13.客户年收入; 14.客户是否拥有一辆以上小汽车; 15.客户流失状态。 假设 Z 银行希望建立更为有效的市场营销战略来给持有高价值投资组合的客户推销其 金融产品。为了做到这些,Z 银行使用细分模型特征化了其客户,并且依赖客户属性分割这 些客户为截然不同的类别。其后,自然可以利用这些从客户中得到的特征剖面来定制其市场 营销战略来给其潜在的客户提供更多目标性的信息。 此外,假设 Z 银行使用监督学习以及非监督学习建模技术来生成客户的特征。这里我们使用 SPSS 公司的数据挖掘软件 Clementine。相关的数据挖掘应用程序图示参见图 3.2。 图 3.2:投资账户余额分段 对于监督学习模型,基于上面涉及到的十三个变量基础进行细分。目标变量是由输入变 27 量-投资账户余额,直接生成的多分类变量。关于投资账户余额的分布可以由直方图节点来 决定如何适当的将每个客户分类到三个箱柜中:高、中和低投资组合价值。关于投资账户余 额的分布与归箱也显示在图 3.2 中。关于投资账户余额的归箱组成了我们感兴趣的投资价值 目标变量。 进而可以构建 Logistic 回归模型来生成基于不同单个客户投资价值的不同分类的特征 属性。 图 3.3 描述了 Logistic 回归模型的结果。进一步的结果表明,在预测每个客户的投资 价值的预测模型中统计上显著的变量有储蓄账户余额和活期账户余额。进而,高价值投资组 合客户的特征就由这些变量来决定。 图 3.3:Logistic 回归模型 非监督学习细分模型是基于十四个变量来做出的。在这种情形下,不需要设定目标变量。 对于非监督学习细分,通常可以使用三种数据挖掘算法,也就是,两步聚类、Kohonen 网络 以及 K-means 聚类。对于我们的演示,这里仅仅使用了两步聚类。 28 图 3.4:两步聚类分析结果 图 3.4 显示了使用两步聚类法生成的五个类别的聚类模型。关于每一类的信息也列了出 来。例如,第 4 类包含 278 个客户,它描述了在这个类别中大部分的客户是男性且大部分无 抵押贷款的客户。另一方面,第 2 类描述了大多数为已婚女性且拥有赊账额度的客户。 更进一步的数据探索是建立在两步聚类结果上,通过利用我们所关心的变量的直方图或 是分布图等图形化展示手段来比较五个类别的结果。图 3.5 显示了关于五个类别中流失状态 以及流失率的比较。我们可以看到,第 2 类中拥有大多数的主动以及被动流失的客户。同样, 第 3 类则是相当的混合了现存客户以及主动流失的客户。此外,第 4 类中具有最大的现存客 户。对于其他的分类输入变量来讲可以绘出相似的分布图。 图 3.5:五个类别中流失状态以及流失率的比较 最后,关于投资账户的直方图也可以根据五个类别分别绘出,参见图 3.6。我们可以看 到,第 1 类包含了相对其它几类更多的低投资账户的客户。另一方面,第 3 类则是由持有高 29 价值投资账户的客户组成。如此,如果 Z 银行能够促销新产品,第 3 类的客户可能是更为有 希望的目标群体,能够生成更好的市场营销结果。利用这些知识,Z 银行现在能够设计适当 的银行产品来满足那些不同的客户群体。 图 3.6:五个类别的投资账户余额的直方图 30 4. 营销响应 为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。然而, 如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇 由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上,一方面,客户 每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告,缺 乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,用户越来越看重个性 化服务,对新的金融产品具有较大的需求。 为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这 些管理系统增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上, 不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。 所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向 恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而 在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公 司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的 增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。 4.1 什么是营销响应? 营销响应模型是一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响 应,自变量是客户及其行为的各种属性,如:客户年龄,客户收入,客户最近一次购买产品 的时间,客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动 进行响应,这样,当以后有类似的活动时,可以针对具有较高响应可能性的客户进行相应的 营销活动。而对响应度不高的客户就不用对他们进行营销活动,从而减少活动成本,提高投 资回报率。 4.2 如何提高营销响应率? 金融机构应当在深入了解客户需求和客户特征的基础上,制定营销策略,从而达到增加 31 营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群开展营销活动,而是 针对每一个客户开展活动。所谓“知己知彼,百战不殆”,建立在对客户需求良好把握基础 之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动,首先需要 回答以下几个问题: ? 对谁开展营销活动? ? 多长时间开展一次营销活动? ? 何时开展营销活动? ? 如何开展营销活动? 金融机构在数据挖掘技术的帮助下,针对客户数据建立营销响应模型,在合适的时间, 通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响 应率和投资回报率。 图 4.1:营销活动的四个要素 1)选择合适的客户 金融机构对以往的营销数据进行分析,采用决策树等数据挖掘方法,识别出具有高响应 率的客户的特征。通过选择合适的客户,可以排除对促销活动响应不积极的客户,将目标客 户的数量大大减小,从而在实现更有针对性地营销的同时减小营销成本。据统计,通过减小 目标客户的数量,通常可以节省 25%-40%的营销费用,同时增加营销响应率。 2)选择合适的渠道 第二步是要针对用户选择合适的营销渠道,也就是和客户接触的方式。通过使用每个用 户偏爱的方式与之接触,也有利于提升客户响应率。在确定促销渠道时,要考虑客户对渠道 的偏爱,渠道成本,期望的响应率,其他营销限制条件等。 3)选择合适的时间 在当今竞争激烈的社会里,客户有很多满足自己需求的机会和选择。因此,一旦发现了 32 客户尚未被满足的需求或者出现遗失客户风险时,一定要及时和客户接触。这种事件驱动的 促销方式,通常也可以取得较高的响应率。 4)选择合适的活动频率 此外,并不是促销活动越多,效果越好。活动计划者需要根据实际情况,针对具体的客 户,选择一个最优的活动次数,既使得客户的各种需求得到较好的满足,又避免因为过于频 繁的接触而导致客户的反感。同时,过多的营销活动,也会增加营销成本。需要在增加的成 本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确 定也至关重要,比如,对于不喜欢过于频繁的接到促销电话的客户,就要适量降低电话促销 的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动,可以将 促销活动的投资收益率提高 25%-50%。 表 4.1:营销活动四阶段总结 阶段 1.合适的客户 2.合适的渠道 3.合适的时间 4.合适的营销频率 目标 为营销活动选择最 佳客户 为目标客户选择最优 营销方式 在合适的时间对目标 客户开展营销 确定最适合客户的 营销频率 方法 预测分析 渠道优化 事件营销 促销优化 策略 预测谁是最有可能 响应营销并且能给 营销活动带来收益 的客户 在客户偏爱的方式和 公司的成本与能力之 间选取最优结合点 变小的,经常性的营 销活动为事件触发的 营销活动 在客户响应率和公 司收益之间选择最 佳结合点 好处 降低 25%-40%的营 销成本 降低接触客户的成本 响应率的提高至少达 到两倍 提高 25%-50%的收 益 4.3 营销响应应用案例 一家虚拟银行新推出了一种新的抵押贷款业务,为了推广新产品,该银行决定执行直接 营销活动。为此,分析人员收集了以往进行类似产品的营销时公司执行营销活动的相关数据, 经过数据挖掘应用,计算客户影响概率,得到客户响应率模型,进而对客户对新产品的响应 概率进行预测。从中选取响应率高的客户开展新产品营销活动。 (1)商业理解 识别出可能响应直接营销活动的客户,提高营销活动的响应率。 (2)数据理解 收集部分以往的营销活动数据(包括对活动响应的客户数据和未对活动响应的客户数 据),选择客户属性,包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步 确定哪些因素可能影响客户响应。所选取的数据属性包括:用户编号、年龄、收入、孩子数 33 目、是否有汽车、是否抵押、居住区域、性别、婚姻状况、在该银行是否有储蓄账户、在该 银行是否有活期账户、是否对促销活动响应等 12 个字段。 其中是否响应是预测的目标变量,共有两个属性: 否:客户未响应营销活动;是:客户响应营销活动。 图 4.2:数据 首先采用直方图,散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否 察看收入与孩子数目之间的散点图。可见,如果只考虑“孩子数目”属性,发现随着孩子数 目增加,响应的客户比率降低。同时考虑“孩子数目”和“收入”属性,发现响应比率与“收 入”和“孩子数目”的比值相关,这个比值通常被成为“相对收入”。 图 4.3:收入与孩子数目的散点图 下图是孩子数目的分布图。有一个孩子的客户占 44.3%。而在这些客户中,大部分是对 直接营销活动进行响应的客户。总的说来,随着孩子数目增加,客户响应率降低。 34 图 4.4:孩子数目的分布图 (3)数据准备 根据数据理解的结果准备建模需要的数据,包括数据选择、新属性的派生,数据合并等。 在数据理解中发现,是否响应与“收入”和“孩子数目”的比率有关,因此,派生出“相对 收入”属性,定义为:如果“孩子数目”为 0,则“相对收入”=“收入”;否则,“相对 收入”=“收入”/“孩子数目”。 (4)建立模型及评估 对数据进行预处理之后,分别使用 C5.0 决策树模型,神经网络模型,C&RT 决策树分类 模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。然后对测试集分别应 用这三个模型,选取效果最好的模型部署到企业中。 图 4.5:部分数据流图 使用 C5.0 决策树对是否响应建模,发现与客户响应相关的共有 4 条规则,与客户不响 应相关的共有 8 条规则。响应的客户有如下特点:有孩子,相对收入大于 49997 元;或者有 孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于 25563 元;或者是年龄大 于 45 岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于 25563 元;或者是年龄大 于 45 岁,没孩子,没贷款,收入小于 25563 元。 35 图 4.6:C5.0 决策树分类结果 神经网络模型在输入层、隐藏层和输出层分别有 20 个、3 个和 2 个神经元。此外,最 重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。其估计精度 达到了 87.77%。 图 4.7:神经网络的输出结果 使用 C&RT 对是否响应建模,得到的规则包括:当相对收入小于 25564.5 元时,客户倾 向于不响应;当相对收入大于 25564.5 元,孩子数目小于等于 0.5(需根据实际业务情况进 36 行解释),没有抵押贷款,且年龄小于等于 45 时,倾向于不响应;当收入大于 25564.5 元, 孩子数目小于等于 0.5,没有抵押贷款,且年龄大于 45 的客户响应率高。 使用测试集评估不同模型的表现。其中“客户响应”表示目标变量的真实值,$C-响应、 $N-响应、$R-响应分别表示使用 C5.0、神经网络、C&RT 得到的预测值。可见,C5.0 的预测 精度(95.29%)最高。最后,还可以查看不同模型预测结果的一致性。 图 4.8:C&RT 分类结果 图 4.9:模型评估 (5)模型部署 37 通过建模和评估后,选择预测精度最高的 C5.0 模型部署到企业中。新的用户数据在经 过 C5.0 模型评分后,按照流失概率的高低排序,通过 Clementine Solution Publisher 发 布。 图 4.10:模型部署数据流图 图 4.11:对新数据进行评分 38 5. 信用评分 5.1 信用评分背景 20 世纪 90 年代以来,随着中国经济的快速发展,中国的信用消费已逐步浮出水面,信 用卡消费、个人汽车贷款、耐用消费品贷款、助学贷款、住房按揭等各种个人消费贷款陆续 开办。中国银行业资产规模进一步得到扩张,但信贷过快增长中潜在风险增大,不良贷款比 率仍偏高并可能反弹。进一步加强信贷管理已经成为银行控制风险、保持规模增长的首要问 题。自 1998 年起,商业银行就一直在强化信贷管理、规范信贷决策行为、防范信贷风险, 并取得了一定的成绩,但仍存在一些比较突出的问题。主要表现在: 第一,对借款人的信用状况缺乏较全面的了解。由于我国的征信体系的建设尚处于起步 阶段,商业银行不能像国外发达国家那样从征信局取得贷款申请人的信用资料,使得银行不 能全面了解贷款申请人的信用状况,在发放个人贷款时信息不对称的问题相当突出。 第二,对个人信用评价缺乏科学的方法。在对贷款人的信用风险进行评估以及决定是否 发放贷款时,主要依靠授信机构的信贷人员进行主观判断,从而决定是否给予某个消费者一 定的信用消费权利,精确的信用评分方法几乎没有使用。个人信贷业务的特点是单笔业务的 交易量较小,但是业务的数量却较大。因此,主要依赖信贷人员判断的信用评估和控制方法, 不仅无法对个人信用程度进行精确的计量,而且无法对个人信用程度进行精确的计量,而且 无法有效地降低单笔贷款的管理成本。 国际银行业信贷风险管理工具框架最为基础和核心的工作是建设信贷风险内部评级模 型,只有在利用风险评级工具精确衡量风险的基础上,才能有效地运用更为复杂的信贷风险 管理工具。这正是我国银行业所缺乏的。个人消费信贷的快速增长迫切要求商业银行提高建 立与消费信贷增长相适应的风险管理体系。 信贷风险内部评级模型的建立可以选择多种方式。在选择建立模型的方式时,必须遵循 循序渐进的原则。例如,在数据质量不足和信贷文化较为落后的条件下,应该采取较为保守 的方式作为起点,例如专家经验模型或采用外部的评级模型。在使用这些模型的过程中,除 了能够更精确的衡量信贷风险从而优化银行资产质量外,而且客户经理也能够逐步掌握模型 的应用技巧,培养起信贷风险管理文化,为以后实施数量统计模型做准备。随着银行个人业 务的发展,银行业已经积累了大量的数据,可以尝试自建数量统计模型,以挖掘出适合国内 39 经济环境和银行自身情况的风险因素。 5.2 信用评分的概念 信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信 用分数。根据客户的信用分数,授信者可以分析客户按时还款的可能性。据此,授信者可以 决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料,同样 可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。 在信用评分领域有两个非常重要的方面: 客户信用资料的收集:是指在信用消费中,通过调查了解申请授信的消费者个人的信用 信息。 利用信用评分模型进行评分:是指输入客户信用资料,通过信用评分模型得到客户的信 用分数,确定客户的信用等级。 5.3 信用评分的方法 在信用评分的过程中,最关键的就是信用评分模型的构建。用来产生信用评分的模型不 胜枚举,每一种模型均有其独特的规则。在此,我们主要介绍信用评分模型的构建方法。 信用评分模型的基本原理是确定影响违约概率的因素,然后给予权重,计算其信用分数。 信用评分模型的构建,目前最为有效的手段是数据挖掘。下面对数据挖掘的定义进行简单介 绍,并重点描述利用数据挖掘技术构建信用评分模型的步骤和方法。 (1) 信用评分模型构建步骤 利用数据挖掘技术构建信用评分模型一般可以分为 6 个步骤,它们分别是:商业理解、 数据理解、数据准备、建立模型、模型评估、模型部署。 1)商业理解:明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键。例如, 确定项目的目的是构建个人住房贷款的信用评分模型。 2)数据理解:在给定数据挖掘商业目标的情况下,下一个步骤是寻找可以解决和回答 商业问题的数据。构建信用评分模型所需要的是关于客户的大量信息,应该尽量收集全面的 信息。所需要的数据可能是业务数据,可能是数据库/数据仓库中存储的数据,也可能是外 40 部数据。如果没有所需的数据,那么数据收集就是下一个必需的步骤。如果银行内部不能满 足构建模型所需的数据,就需要从外部收集,主要是从专门收集人口统计数据、消费者信用 历史数据、地理变量、商业特征和人口普查数据的企业购买得到。接着要对收集的数据进行 筛选,为挖掘准备数据。在实际项目中,由于受到计算处理能力和项目期限的限制,在挖掘 项目中想用到所有数据是不可能实现的。因此数据筛选是必不可少的。数据筛选考虑的因素 包括数据样本的大小和质量。一旦数据被筛选出来,成功的数据挖掘的下一步是数据质量检 测和数据整合。目的就是提高筛选出来数据的质量。如果质量太低,就需要重新进行数据筛 选。 3)数据准备:在选择并检测了数据挖掘需要的数据、格式或变量后,在许多情况下数 据转换非常必要。数据挖掘项目中的特殊转换方法取决于数据挖掘类型和数据挖掘工具。一 旦数据转换完成,即可开始挖掘工作。 4)建立模型:在时间或其它相关条件(诸如软件等)允许的情况下,最好能够尝试多 种不同的挖掘技巧来建立模型。因为使用越多的数据挖掘技巧,可能就会解决越多的商业问 题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行检测。例如:在构建信用评分 模型时,分类可以通过三种方法来实现:决策树、神经网络和 Logistic 回归,每一种方法 都可能产生出不同的结果。如果多个不同方法生成的结果都相近或相同,那么挖掘结果是很 稳定、可用度非常高的。如果得到的结果不同,在使用结果制定决策前必须查证问题所在。 5)模型评估和结果解释:数据挖掘之后,应该根据零售贷款业务情况、数据挖掘目标 和商业目的来评估和解释挖掘的结果。 6)模型部署:数据挖掘关键问题,是如何把分析结果即信用评分模型转化为商业利润。 通过数据挖掘技术构建的信用评分模型,有助于银行决策层了解整体风险分布情况,为风险 管理提供基础。当然,其最直接的应用就是将信用评分模型反馈到银行的业务操作系统,指 导零售信贷业务操作。 (2)信用风险评分模型构建方法 信用评分模型是根据过去信用记录和个人资料进行数据分析,描述影响个人信用水平的因 素,从而帮助贷款机构发放消费信贷的一整套决策模型。信用评分的目的是为了帮助银行决 策,使银行确定对特定的客户采取特定的行动,它采用的技术主要是数理统计和人工智能的 有关技术,信用评分方法很多,而且随着技术的发展和业务上的要求,新的评分技术也在不 断推出,这里我们概要介绍其中几种。 1)判别分析法 41 该方法在个人信用评分历史上曾经是使用最广泛的方法。它通过利用所建立的判别函数 的系数对特征变量加权来确定个人的信用得分。最早将判别分析用于信用评分系统的是 Durand(1941)。它的特点是:要求特征变量服从多元正态分布,且两类子总体的协方差矩阵 相等。在实际消费信用数据中,这些条件往往不易满足。这是判别分析引起质疑和批评的主 要原因。 2)回归分析法 线性回归方法,普通的线性回归曾被用于解决信用评分中的分类问题,它产生的也是一个线 性评分卡。但是线性回归方法用于信用评分时存在明显缺陷,即回归方程两边变量的取值范 围可能不一致:右边取值可以从负无穷到正无穷,但方程的左边是概率变量 p,其取值范围 只能在(0,1)范围内。如果等式左边变换成 p 的一函数,它可以取任意值,则模型更有意 义,于是,对线性回归进行改进而形成的 Logistic 回归方法就成为信用评分模型中使用最 广泛的方法之一。 Logistic 回归模型克服了线性回归模型的缺陷,其回归方程两边的值均可取任意值。 就理论背景而言,人们会认为在信用评分中 Logistic 回归比线性回归更合适,而 Logistic 也是现实中应用最广的评分模型。 3)数学规划方法 该方法通过研究对客户信用有影响的各个因素并确定它们的权重,把客户分为好、坏两类, 从而建立一个线性规划方程,目的是使得方程误差最小,它也产生一个线性评分卡。绝大部 分文献认为线性规划方法与统计学方法效果相当。 4)神经网络方法 神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,具有自组织性、自适应性及 较强的稳健性。神经网络模型类型较多,不下数十种。Chen& Titterington(1994)认为, 神经网络方法实际上可以看作一种非线性回归。该方法可能存在过度拟合的问题。Davis (1992)也比较过神经网络与其他方法,认为神经网络能很好地处理数据结构不太清楚的情 况,但其训练样本时间较长。此外,其可解释性较差也受到质疑。 5)分类树方法 分类树方法最后不生成一个评分卡,而是将消费者分成不同的组,在组内各样本的违约概率 尽量相等,而违约概率在组之间的差异则尽可能大。其特点是能更有效地处理特征变量之间 存在相互作用的情形,而且即使有些特征变量存在一定的数据缺失,该方法也能适用。分类 树方法也有一些缺陷,如某些低端节点所包含的样本可能太少,从而使得在这些节点中所作 42 的统计推断不可靠。 6)最近邻方法 也是一种非参数方法,其结果也是评分卡。它的思想是在申请人的特征向量空间内定义一种 测度(距离)用于测量两个申请人之间的距离。当对一新申请人信用评估时,只要考察与他 最近邻的 k 个人中“好客户”及“坏客户”的比例,根据此比例确定该申请人的信用类型。 在以上几种信用评分方法中,到目前为止应用最成功的还是 Logistic 回归方法,它已取代 线性回归、判别分析法而成为信用评分领域使用最普遍的统计方法。 5.4 信用评分应用案例 (1) 商业理解 某银行的业务人员希望根据零售系统中现有的数据,了解具有较高风险的住房贷款协议 的特征,以及那些已经贷款的客户中风险高信用低的客户特征,从而为实际的业务处理过程 中,对新申请贷款的客户进行评估提供参考依据。其业务问题就是“能否通过贷款申请人的 特征和贷款申请内容的情况来判断该客户的风险度?” 对于这个业务问题,首先必须将客户的“风险”转换成可预测的数据指标。对于个贷业 务来说,客户在申请某个贷款产品后可能会发生的违约概率可以作为衡量该客户“风险”重 要的数据指标,违约概率越大,该客户的“风险”度也就越高。违约行为反应在业务数据中 就是客户在贷款期限内发生了逾期情况,而逾期情况又可以从逾期的时长,逾期金额的大小, 以及在贷款期限内,截止到统计时间为止的逾期次数等多个方面进行考量。例如将“还款逾 期超过 60 天”作为客户发生违约的基本指标。相应的数据挖掘目标就是:违约客户的特征 和预测;违约客户的评分和分级。 在本例中,我们将最大逾期时间不到30天并且有12期以上的交易记录的定义为好客户; 最大逾期时间超过 60 天的为坏客户。显然,有些客户并不能确定为好客户,又不能确定为 好客户。如最大逾期时间在 30 天到 60 天之间的客户。因此,在我们所选取的建模总体中, 客户实际被分为三类:好客户、坏客户和未确定客户。 (2) 数据理解 数据主要来源于以下几个方面: ? 贷款协议文件:客户与银行发生贷款业务关系时所签立的协议; ? 贷款协议还款计划表:报告当期的贷款协议还款计划和往期还款历史记录; ? 43 客户信息文件:客户基本信息,包含性别、年龄、婚姻状况等信息; ? 客户信息文件(个贷):客户附加信息,包括财产,工作,住址等信息。 首先将各分行的原始数据进行追加,并从客户历史交易记录中汇总出逾期信息。将客户 信息,协议信息和逾期信息进行合并,生成全行数据。下面所进行的数据理解和数据处理都 是在这个数据样本文件的基础上进行。 图 5.1:数据理解 通过 Clementine 中的数据审核节点查看数据的分布图(直方图、条形图)、数据的基 本统计信息(最大值、最小值、平均值、标准差和偏度)和数据中有效数据所占的比例等。 在数据审核节点中会自动对数据进行抽样来提高分析的速度。 图 5.2:使用 Clementine 数据审核节点查看数据的分布和基本统计信息 (3)数据准备 根据商业理解,我们选择住房贷款、选择合同开始年份在 2003 之后、还款周期为按月还款 44 以及国家代码为中国的样本。选择好客户和坏客户样本,并进行均衡,均衡后的好坏客户占 比基本相同,如图: 图 5.3:客户类型分布图 通过对数据质量的检验发现抚养人口、劳动合同期限等字段由于缺失太多而无法清洗, 考虑对这些字段进行剔除。而学历、单位性质、职位职称等字段可以将缺失值作为一个新的 属性用在建模中。 在数据准备部分,根据业务经验,我们还派生了一些新的字段,例如:月总收入、月还 款占总收入比例等。鉴于一些特征变量的分类过多,不利于建模处理,因此对这些集合变量 考虑进行重新分类,对连续变量也可以进行离散化处理。如图是对贷款金额的分组,可以看 出第 1、3 组的贷款人相对较优,而第 2、4、6 的则比较差。 图 5.4:贷款金额分组 (3) 建立模型 在本次建模中,主要使用 Logistic 回归、神经网络和 C5.0 分类树方法,从中挑选中最 适合的模型用于评分和分级。不同的模型具有不同的优点和缺点,可以将不同的模型结合起 来,充分利用各个模型的优点,从而得到一个更好的模型。 首先,使用神经网络和 C5.0 分类树方法分别建立信用评分模型;然后将这两个模型的 评分结果作为解释变量之一,再加上其余的特征变量,最后建立一个基于 Logistic 回归的 信用评分模型。由于神经网络和 C5.0 分类树方法的预测精确度比较高,因此其信用评分结 果中应该综合了解释变量和因变量之间关系的更多信息,将这种信用评分结果作为解释变量 45 之一,应该能够提高模型的精确度。而最终用 Logistic 回归建立模型,又保证了模型的稳 健性。通过神经网络敏感性分析可以看出:分行和按揭成数在模型中是最重要的,这两个变 量的分析结果要远大于其他变量。分行最重要进一步说明每个分行客户的特征差别很大,对 全部分行统一建立模型必然会影响到模型的精确度。如果在各分行数据量足够的情况下,推 荐对每个分行建立一个模型。也可以考虑将客户特征相似的分行划分为一类,对每类分行建 立一个模型。 图 5.5:神经网络敏感性分析 在 C5.0 模型生成的决策树中,按揭成数为第一个拆分的变量;对按揭成数为 2 的贷款 人,还款方法为第二个拆分的变量 ;对按揭成数为 3 的贷款人,分行为第二个拆分的变量。 可以看着三个字段在模型中是最重要。 图 5.6:C5.0 生成的规则集 46 我们通过主成分分析共生成 5 个因子,这 5 个因子包含了绝大部分特征信息。通过这 5 个因子建立模型在损失一小部分信息的基础上解决了共线性问题。以 5 个因子作为输入建立 了 Logistic 回归模型,结果为: 图 5.7:由主成分分析得到的因子 图 5.8:Logistic 回归模型 以 Logistic 模型预测为好客户的概率乘以 1000 作为模型的评分。模型的评分在 0-1000 之间,评分越高代表贷款人越优。按照模型评分从低到高的顺序将贷款人等分为 10 级,每 级都有相同比例的贷款人,10 级最优客户中好客户发生比为 9.031,而 1 级最差客户中只有 0.100。还可以对等级进行重新分组,合并具有相似好客户发生比的相邻客户等级。 47 图 5.9:Logistic 回归模型给出的评分和等级 (4) 模型评估 一个好的数据挖掘模型,要经过多方面的评估。在对模型进行评估时,既要参照评估标 准,同时也要考虑到商业目标和商业成功的标准。在大多数的数据挖掘项目中,数据挖掘工 程师要不止一次的应用某个特定的技术或者是利用不同的可选择的技术产生多种结果。因此 在这一阶段的任务中,也要根据评估标准比较所有不同的结果。 精确度是用来评估模型的最简单和最基础的指标。使用分析节点可以方便的对多个模型 同时进行计算和比较。神经网络模型、C5.0 决策树模型和 Logistic 模型的精确度分别为 77.99%、69.58%和 73.15%。其中神经网络的预测精确度是最高的,但是会出现过度拟和的 问题。Logistic 回归模型对坏客户的预测是最好的,综合了 3 个模型的优点,既能保证精 确度又能保证模型的稳健性。 图 5.10:神经网络、C5.0 和 Logistic 回归模型的精度比较 从 3 个模型的收益图上可以看出,神经网络要略微优于 C5.0 决策树和 Logistic 回归。 对于 Logistic 回归模型来说,找出的 20%的客户中就可以发现 35%的坏客户,30%的客户中 就可以发现 50%的坏客户。 K-S 统计量是一个易于理解和计算的统计量,它是好客户分布累 计百分比与坏客户分布累计百分比之差,也就是区分度的最大值。下图是 Logistic 模型的 K-S 曲线,当模型的评分在 412.585 时,两条曲线的垂直距离达到最大值 46.975。此时累计 坏客户百分比为 66.530,好客户百分比为 19.572。模型的 K-S 统计量为 46.975,在 41-50 之间,根据经验准则,这是一个好的模型。 48 图 5.11:神经网络、C5.0、Logistic 回归的收益图 K-S 统计量是一个易于理解和计算的统计量,它是好客户分布累计百分比与坏客户分布 累计百分比之差,也就是区分度的最大值。下图是 Logistic 模型的 K-S 曲线,当模型的评 分在412.585时,两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530, 好客户百分比为 19.572。模型的 K-S 统计量为 46.975,在 41-50 之间,根据经验准则,这 是一个好的模型。 图 5.12:Logistic 回归模型的 K-S 曲线 ROC 曲线和 Gini 系数则是利用好、坏客户分数分布的全部信息对评分模型区分好、坏 49 客户的能力进行评估。下图中的红线代表了 ROC 曲线,离对角线(蓝线)越远,对应的评分 模型也就越好。这说明 ROC 曲线和对角线之间的面积越大,评分模型的区分能力也就越强。 图 5.13:Logistic 回归模型的 ROC 曲线 50 6. 客户满意度研究 6.1 为什么要进行客户满意度研究? 客户满意(CS, Customer Satisfaction),是指客户通过对一个产品或服务的感知效 果/结果与其期望值相比较后,所形成的愉悦或失望的感觉状态。客户满意度就是对客户满 意水平的量化,客户满意度在国内外越来越引起理论界和实业界人士的关注。 但是面临客户多种多样的要求,以及这些要求反映的庞杂的信息,令企业的努力往往成 效并不显著,而企业也存在资源有限的现实问题,不可能也不必要在所有方面令客户满意, 如何做到用有限的资源有效提高客户满意度,这是“客户满意度研究”的任务,“客户满意 度研究”是实现客户满意的第一步。 客户满意度研究的应用价值主要表现在以下几个方面: 客户满意度研究能帮助企业把其有限的资源集中到客户最看重的特性方面,从而达到建 立和提升客户忠诚并保留客户 ; 通过分析客户的价值,把有限的资源优先配给最有价值的客户 ; 通过客户满意度研究,还能预测客户未来的需求,并调整客户接触链上的服务人员的评 价、培训、选拔和补充工作; 通过对客户满意度的持续跟踪研究,能动态揭示客户满意度的变化,评估满意度改善措 施的效果,制定最为有效的行动策略。 6.2 满意度研究的目标和内容 虽然达到客户满意度已成为许多公司和组织的主要营运目标,他们投入大量人力物力进 行满意度方面的调查,然而由于对满意度指标把握的不准确和分析方法的贫乏,结果却难以 得到关于改进产品和服务,提高客户满意度的有价值的结论。满意度指标确定和分析应用已 成为进行客户满意度调查的关键和难点。而要理清和把握满意度调查的这两个方面,有必要 先明确客户满意度调研的目标和分类。 调查的核心是确定产品和服务在多大程度上满足了客户的欲望和需求。就其调研目标来 说,主要达到四个目标:1.确定导致客户满意的关键绩效因素;2.评估公司的满意度指标及 主要竞争者的满意度指标;3.判断轻重缓急,采取正确行动;4.控制全过程。 51 就调查的内容来说,又可分为客户感受调查和市场地位调查两部分。客户感受调查只针 对公司自己的客户,操作简便。主要测量客户对产品或服务的满意程度,比较公司表现与客 户预期之间的差距,为基本措施的改善提供依据。市场地位调查涉及所有产品或服务的消费 者,对公司形象的考察更有客观性。不仅问及客户对公司的看法,还问及他们对同行业竞争 对手的看法。 6.3 满意度研究方法 一个普通的客户满意度研究,通常的程序包含五大步聚: 图 6.2:满意度研究的大致步骤 (1)客户类型判定 在进行客户满意度研究之前,首先要清晰研究需要针对的客户。客户满意度研究的客户 分类需考虑到:目前客户、过去客户、潜在客户。 对于已经建立了完善的客户关系管理数据库的企业,可以从数据库中根据客户分类要求列出 所有的客户名单,根据抽样方法从名单中选取被访客户,工业产品、电信、银行、保险等的 客户满意度研究通常可以用此方法。对于没有建立或不太可能建立完善的客户关系管理数据 库的企业,则需要通过对目标群体进行随机抽样的方法来选取被访客户,快速消费品通常需 要采用此方法来进行。 (2)确定影响客户满意度的关键评价指标 关键评价指标的确定是客户满意度研究的重点,满意度研究首先应揭示出不同客户满意的评 价指标在重要性上的差异、客户满意的程度,而且应找出满意和不满意的内在原因,并能比 较各个竞争对手和自身在不同指标上的优劣。探索主要评价指标应从两个方向进行:一为企 业内部,二为客户。 52 通过对企业内部员工/管理者的访谈,了解企业内部员工/管理者对所提供的产品或服务 的专业性认识,因此会比较系统和完整地提供建立客户满意度评价的体系和具体的指标。但 对客户的访谈也是必不可少的,因为企业内部员工/管理者对客户满意的理解与客户的实际 需求通常会存在着差距,因此必须从客户的角度了解他们对满意情况的评价准则。 在这一过程中,有一些统计分析技术可以帮助企业制定和筛选出最能有效体现客户实际满意 度的评价指标体系,下面是这一过程中经常用到的一些分析技术。 因子分析法。利用因子分析方法分析客户的指标重要性评价数据,我们可以将不同指标 分为若干个因子,从每个因子中选择一个指标。通过比较各个指标的负荷量和有效性可以帮 助我们确定具体应选择的指标。 判别分析法。应用判别分析方法,我们可以确定选出来的指标能否很好地预测整体满意 或不满意的程度。交替使用因子分析和判别分析,得到的满意度指标不仅在统计上是有效的, 而且在逻辑上讲也适用于测量客户满意度。 结构方程模型(SEM):关键评价指标体系的建立,实际上也是研究假设的确立,此部 分是客户满意度研究的关键。随着满意研究理论探索和数据验证的不断深入,结构方程模型 越来越成为满意度研究领域的重要工具,不论是前期关键评价指标体系的确定,还是后期满 意度分析。在实际应用结构方程模型确定评价指标体系时,通常依据一定的客户满意度理论 模型,然后对理论模型中的潜在变量逐级展开,直到形成一系列可以直接测量的指标,这些 测量指标便构成了客户满意度评价指标体系。 (3)测量客户对关键评价指标的满意度 这部分主要通过定量研究进行,采用量级评分的方法进行测量。主要采用 5 级、7 级或 10 级量表测量工具,对客户进行大规模的问卷调查。 (4)确定关键评价指标的相对重要性 这一步分析的一个关键部分是用整体满意程度作为因变量,用对关键评价指标的满意程度作 为自变量进行结构分析。进行关键评价指标的满意度及其相对重要性测量的方法形形色色。 但是,整体归结起来,可以大概划分为以下几种: 1)简单易行型 直截了当地问:“你对 XX 品牌的产品/服务总体上满意吗?”这种方式效率高,容易回答, 而且容易了解到消费者对竞争品牌的总体评价。但是由于这样一个问题太过突兀和简单,受 访者的回复在很多情况下不能代表其真实的意思。 2)双重评价型 53 这种方式需要调查设计者找到一些影响满意度的驱动要素,然后让受访者对被调查品牌 在该驱动要素上的表现打分,同时还要对该驱动要素对其重要性程度进行打分。这样设计, 不仅仅可以了解客户对某品牌产品/服务的满意度高低,而且可以了解对相应的满意度驱动 要素的评价。这种方法考虑到满意度驱动要素,是一种进步。但是也存在几个缺陷: a) 根据我们的经验,这种方式难以区分不同要素对消费者的真实重要程度。 b) 用驱动要素对受访者的重要性替代这一概念,这种“概念替换”经常会误导企业的 资源配置。 c) 这种方式需要受访者对每个驱动要素的表现和重要性分别进行评估,需要占用受访 者较多的时间和精力,从而增加了调查成功的难度。 本方法目前在企业自身实施的满意度调查中应用得比较广泛,因为其应用基本不需要太多的 统计分析技术,实施简单。 3)双重评价改进型 这种调查方式是在上一种方式的基础上改进而得到的。具体方法是:假定全部要素的重要性 合计为 100,受访者在对每个调查要素给予重要性权重的时候,需要使得权重和为 100。这 种方法可以部分弥补上面提到的 a)类缺陷,但也无法解决上一方法中的缺陷 b)和 c)。 4)采用线性回归统计分析技术 随着市场调查分析技术的发展,统计工具在市场研究中应用得越来越多。利用多元回归 分析技术,可以计算出满意度驱动要素对满意度的影响大小。这种影响大小可以解释为,当 满意度驱动要素提升 1 分,满意度在现有的基础上可以提升多少分。当满意度的驱动要素非 常少,而且这些要素相互之间的影响不强时,这种方法不失为一种简单有效的方法。 实际上,多元回归分析在研究满意度问题的时候会存在以下几个问题: a) 无法同时检验客户满意度各构成要素对客户整体满意度与客户忠诚度两个因变量的 影响,模型中同时只能包含一个因变量。 b) 实际生活中,影响消费者对某种产品/服务满意度的要素通常非常多,对企业而言, 这些要素越细化,在确定满意度提升的措施时才更有可操作性。而随着影响要素的增加和细 化,如果采用回归的方式,计算出来的影响要素一般会由于这些要素的相互作用和影响,使 其数值变得无法解释现实情况。从科学的角度看,随着新的分析研究技术的涌现,回归统计 分析技术已经不太适用客户满意度分析研究领域。 5) 采用结构方程模型 在社会科学及经济、市场、管理等研究领域,有时需要处理多个原因、多个结果的关系, 54 或者会碰到不可直接观测的变量(即潜变量),这些都是传统的统计分析方法不好解决的问 题。结构方程模型(SEM, Structural Equation Modeling),由 K.Jorekog 于 1973 年提出, 它是一种因果关系模型,通过要素间的因果关系/准因果关系来揭示现实生活中的相互关系。 结构方程模型弥补了传统统计分析方法的不足,在过去三十多年里不断得到迅速发展,成为 多元数据分析的重要工具。目前广泛地应用于许多市场研究分析当中,它也是目前国际上流 行的客户满意度研究分析手段。 注:目前国际上流行的结构方程建模的工具主要有 AMOS,LISREL,MPLUS,EQS。其中 AMOS 以其友好的图形界面,强大的结构化方程建模功能而得到广泛应用。 6.4 结构方程模型在客户满意度测评中的应用 由于客户满意度研究对企业具有重大的指导作用,科学高效的研究方法和手段将成为满 意度研究机构的核心竞争力,其研究成果能够为企业更加合理地配置资源提供科学依据。而 结构方程模型已成为进行满意度研究的最重要的工具。目前,美国用户满意指数(ACSI)、 瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数(CCSI)等国家级用户满意度研 究都是采用结构方程模型构建关系。 一个有效实用的客户满意度研究结构方程模型的构建,需要对客户需求和感知进行深入 研究,通过大量的前期工作,比如客户焦点小组访谈、客户需求分解、客户预调查、行业专 家拜访、购买消费现场观察等多种手段,才能构建起一个基础模型。然后通过消费者试调查, 采集到一定的数据后,对数据进行多种统计处理、分析和检验,根据相应的结果对模型进行 必要的调整,然后才能应用到实际的客户满意度分析中。否则,随意构建的模型只能成为使 得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的整个过程和 大致思路: 55 图 6.3:利用结构方程模型进行满意度研究过程和思路 在满意度研究中常用的结构方程模型示例 图 6.4:满意度模型框架示例 6.5 满意度研究在金融行业中的应用 现在我国已兑现入世承诺、金融业全面开放。中国金融服务领域的竞争将愈演愈烈,只 有了解消费者的需求,预测他们的消费趋势,并开发新的产品/服务来满足消费者的需求, 同时在现有业务上提供令人满意的高质量服务,才能在这场竞争中立于不败之地。因此“客 户满意”越来越成为众多金融服务行业已经意识和正在努力提高的经营指标,成为该行业工 作的重点。 下面借在某市对八家银行业(银行 1-8)的满意度研究案例,介绍如何应用结构方程模 型进行满意度研究。 (1)研究目标和过程 本调查虽然涵盖的是个人银行业务,没有直接涉及对公业务,但是任何一个人首先和银 行发生业务联系的是个人业务。如果一个“公家人”或“公司人”在个人银行业务上对某家 56 银行不满意,很难想象这个人在以后的对公业务上会与这家银行建立愉快的合作。毕竟,如 今的银行业早就不是垄断行业了!本次研究框架根据银行满意度测评结构方程模型,对 34 个满意度驱动要素―知名度、银行实力、银行信誉、产品/服务创新、网点数量、网点位置 分布、外部标识、内部环境、服务窗口数量、服务种类标示、服务设施配备、宣传资料、营 业时间、办理业务种类、人员服务态度、手续简便、等候时间、办理效率、热线电话接通率、 语音提示、自动声讯效率、人工热线接通情况、服务态度、业务水平、网上银行安全性、开 通方便、操作方便、资料记录准确及时、网页速度、ATM 机数量、可靠性、处理速度、取款 金额次数限制、ATM 机安全性等进行测算,给出分值及其对满意度的影响大小,并根据分析 结果提出了满意度改进建议。 (2)主要结论 调查发现,从该市居民经常办理个人业务的银行和客户心目中最好的银行的提及率分布 来看,银行 1 均高居榜首,但是银行 1 作为最好银行的提及率仅有主办理银行提及率的一半; 而银行 2 和银行 6 作为最好银行的提及率远远高于其作为主办理银行的提及率。另外银行 1 作为主办理银行的提及率与去年调查结果相比下降了近十个百分点,而选择其它商业银行, 如银行 6、银行 7、银行 2 办理业务的比例明显有所上升。 客户在银行办理的业务类型中,人民币存取款、缴费、领工资、使用银行卡等业务的比 重有所下降,而办理住房贷款、消费贷款、外币存取款的比重有所上升,说明银行提供的新 业务内容正逐步得到消费者的认可。 各主要银行的客户群体呈现出鲜明的人口特征。如银行 1 更受 40 岁以上的中老年人群 的青睐;主要集中在工人、教师和离退休人员;主要为高中/中专学历的群体;个人月收入 主要集中在 1-3 千元等等;银行 6 的用户满意度和忠诚度明显高于其它银行,银行 1 的用户 忠诚度最低。 银行 1 在服务厅、网络方面占有一定的优势,但是在服务软件、服务硬件方面均远远落 后于其它银行; 银行 6 虽然继续在银行形象、服务软件、服务硬件方面处于领先,但是与去年调查结果 相比有了一定的退步. 57 7. CRISP-DM 简介 在 1996 年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。 三个在这方面经验丰富的公司 DaimlerChrysler、SPSS、NCR 发起建立一个社团,目的是建 立数据挖掘方法和过程的标准。在获得了 EC(European Commission)的资助后,他们开始 实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了 CRISP-DM 专家组(SIG, Special Interest Group)。 1999 年,CRISP-DM SIG(Special Interest Group)组织开发并提炼出 CRISP-DM (CRoss-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程),同 时在 Mercedes-Benz 和 OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG 还将 CRISP-DM 和商业数据挖掘工具集成起来。SIG 组织目前在伦敦、纽约、布鲁塞尔已经 发展到 200 多个成员。当前 CRISP-DM 提供了一个数据挖掘生命周期的全面评述。它包括项 目的相应周期,各个阶段的任务和这些任务之间的关系。所有数据挖掘任务之间关系的存在 是依赖用户的目的、背景和兴趣,最重要的还有数据。SIG 组织已经发布了 CRISP-DM 1.0 的电子版,这个可以免费使用。 数据挖掘项目的生命周期由六个阶段组成。如图展示了这一数据挖掘过程的各个阶段, 这些阶段之间的顺序并不固定,在不同阶段之间来回循环往往是非常有必要的。究竟下一步 要执行哪个阶段或者哪一个特定的任务,都取决于每一个阶段的结果。图中的箭头表明了各 阶段之间最重要和最频繁的依赖关系。图中最外层的这个循环表明了数据挖掘本身的循环性 质。经过一个具体的数据挖掘项目得到了某项解决措施或办法并加以展开,并不代表数据挖 掘本身已经结束。从这一数据挖掘过程以及解决措施展开的过程中所吸取的经验、教训,又 引发了新的、通常是更加有挑战的商业问题。接下来的数据挖掘过程将会从过去的项目经验 中获利。在接下来的内容中,我们将简要的勾勒一下每个阶段的轮廓: 58 图 7.1:CRISP-DM 数据挖掘标准流程 7.1 数据理解 数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据 的质量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假 设。 7.2 数据准备 数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象) 的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一 阶段的任务主要包括:制表、记录、数据变量的选择和转换,以及为适应建模工具而进行的 数据清理等等。 7.3 建立模型 在这一阶段,各种各样的建模方法将被加以选择和使用,其参数将被校准为最为理想的 值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。一些建模 方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务 有时是非常必要的。 59 7.4 模型评估 从数据分析的角度考虑,在这一阶段中,您已经建立了一个或多个高质量的模型。但在 进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步 骤,是非常重要的,这样可以确保这些模型达到企业的目标。一个关键的评价指标就是看, 是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有 关数据挖掘结果的使用应达成一致的决定。 7.5 部署(发布) 模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息,但这 些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某 些决策过程中,如在进行网页实时更新或者营销数据库的重复打分时,拥用一个能够即时更 新的模型。然而,根据需求的不同,部署阶段可以是仅仅像写一份报告那样简单,也可以像 在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中,往往是客户而不是数据分析 师来执行部署阶段。然而,尽管数据分析师不需要处理部署阶段的工作,对于客户而言,预 先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。 60 8. 数据挖掘经验谈 8.1 采用 CRISP-DM 方法论 采用 CRISP-DM 方法论作为数据挖掘的指导能帮助确保获得成功的商业结果。在现实中 对于一个数据挖掘项目来说,最初设定的商业目标很容易淹没在复杂数据挖掘技术和海量数 据中,所以以一个已经被验证方法论为指导是很关键的。 8.2 以终为始 为了能在项目终结时得到期望的 ROI(Return On Investment,投资回报率),你应该 在项目启动前已经确定了如何评估最终的结果的标准(例如:使用什么样的商业考核指标, 它们是被如何计算或派生的)。例如你是不是想在 20%的客户中找寻潜在流失者?基于客户 保留计划的消费和营销反应程度,你如何将这些信息转换成商业收入增长期望值?或者你知 不知道如果确定出额外的十条欺诈信息能节约多少开支? 8.3 设定期望值 确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术 辅助解决商业问题的一种方法。就像任何商业问题,投资者需要首先提出可解决的问题,然 后找寻方案。例如你计划为公司市场部做客户细分,那么应该与市场部的同事一起明确什么 样的结果是最终希望得到的(例如:“我们使用产品信息和人口统计数据,所以希望得到基 于客户的收入、年龄等信息的细分,这样能显示不同层次客户对产品的喜好”)。 8.4 限定最初的项目范围 以现实可行的目标和日程表为开始,当你获得成功后,再转向更复杂的项目。例如与其 试图立刻提高新客户的获取值,还不是集中精力在小的更实际的目标如对某一区域进行交叉 61 销售,客户保留项目。 8.5 确保团队合作 数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据,也需要 数据分析家提供分析解决方案,以及数据库管理者提供权限。例如,你可能在项目中需要数 据挖掘专家、数据库专家和市场经理。因为他们来自不同的部门,可能在数据挖掘项目合作 中会出现问题,所以找到可行的合作方式是很重要的。 8.6 避免陷入数据垃圾 在项目进行中,始终明确需要解决的商业问题,确保项目结果的最终完成。如果你只是 在没有项目计划的情况下简单的开始分析一堆数据,你将会很容易迷失在数据里而且浪费时 间。不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的 所有数据,仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解 决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如,使用 最新的信息进行预测客户行为往往比用大量的历史数据准确。 62 9. 数据挖掘部署策略 数据挖掘的结果发布可以很简单,例如只是生成一个规则集,对具体某个商业问题给出 一个参考建议;也可能很复杂,如需要实时嵌入到客户的决策支持系统,为决策者提供前瞻 性决定提供依据。以下阐述四种优化策略帮助部署高级分析结果,以及为获得最大投资回报 设定的预测分析解决方案。这些策略是通过概括现实中使用 Clementine 数据挖掘平台的众 多部署案例得到的,具有普遍应用性。 快速更新批处理方式:使用快速高效的批处理功能部署数据挖掘,为数据简单快速的打 分 ? 海量数据批处理方式:策略性应用代码部署,注意代码开销平衡,集中在为海量数据高 速打分 ? 实时封装方式:将数据挖掘部署封装应用并将集成风险最小化,应用在用户定制的高速、 实时为数据打分上 ? 实时定制方式:将数据挖掘部署到为客户量身定做的应用产品上,在企业组织结构下实 现不同功能的实时打分或者不能以实时封装方式部署的特殊商业目标 9.1 策略 1-快速更新批处理方式 快速更新批处理打分是应用最广泛的方式之一,适应于不需要实时响应的系统。例如, 许多公司使用这种方式对客户数据库保持更新,通过客户关系管理应用为决策者提供最新预 测分析。这种方式以及相关部署应用为与各式操作系统环境提供灵活集成。 Clementine Batch 和 Clementine Solution Publisher 帮助你高效部署数据挖掘结果 和迅速更新数据。在不需要 Clementine 客户端界面的情况下,后台部署 Clementine 数据挖 掘流。Clementine 批处理模式在命令行执行,而 Clementine Solution Publisher 是一个 灵活的打分组件,可以嵌入到应用中。这种部署方式可以在数据库内按计划执行,例如一个 预测应用需要每月、每周、每天甚至每小时使用最新数据。因为这些运行方式都是执行整个 数据流,更新打分时只需重新运行 Clementine 挖掘流。而且这种使用 Clementine Batch 或 Clementine Solution Publisher 的运行方式可以完全被 SPSS Predictive Enterprise Service 中的 Predictive Enterprise Manager 模块自动使用。 不同于其它的数据挖掘解决方案,Clementine 能够部署整个数据挖掘过程,包括关键 63 的数据准备,建模以及应用模型打分任务,可以在 IBM? DB2? , Oracle? Database, 以及 Microsoft? SQL Server?内使用。这些 Clementine 部署操作因为使用三层体系架构,利用 数据库的检索、优化和数据库内挖掘功能,确保高效数据库内挖掘。通常,大部分的公司只 使用 Clementine 客户端运行所需要的批处理打分,而使用 Clementine Batch 或 Clementine Solution Publisher 进行周期性打分。Clementine 客户端使用数据流描述语言(Stream Description Language)将需要执行的数据挖掘任务发送到 Clementine 服务器端。 Clementine 服务器分析挖掘任务决定那些可以在数据库端执行,将数据转移量降至最低。 在数据库内运行完这些操作后,将剩余的和已整合的数据传递给 Clementine 服务器。 图 9.1:Clementine 三层体系架构 9.2 策略 2-海量数据批处理方式 许多 Clementine 实施应用将 Clementine 数据挖掘流部署在一个可解释的打分引擎上, 这样就需要评估数据挖掘的实际时间以及所需的最小代码开发量。数据挖掘的过程可以被描 述在一个可以被打分组件或应用程序所解析的文件。而对于海量数据批量打分,其应用在至 少部分数据挖掘过程已经转化成某种编程语言,并且编译成计算机可识别代码的基础上。从 定义上讲,已编译模式比可解释模式要快。 因为在海量数据打分环境下运行瓶颈经常发生在数据准备阶段而不是对新数据打分阶 段,所以 SPSS 高速打分操作经常使用混合模式。Clementine 使用 PMML(Predictive Model Markup Language)将预测模型输出给高速打分引擎,PMML 是一种描述数据挖掘模型的行业 标准的 XML 标识性语言(PMML 标准是一个用于模型交换的中间方式,这个标准是由一个由 主流数据挖掘和数据库厂商组建的独立数据挖掘组织制定的)。PMML 模型部署是在已将数 据准备过程代码化后,将模型描述储存在 PMML 文件里,然后根据打分数据的要求将整个过 64 程编译。SmartScore? 就是 SPSS 基于以上应用的 PMML 打分软件开发包(SDK)。Clementine PMML 模型也可以实施在 IBM DB2 数据库内挖掘,不需要将数据 DB2 数据库中迁入牵出,提 高了性能。 图 9.2:两种典型部署方式 9.3 策略 3-实时封装方式 预测型分析应用在特定商业目标上时,通常需要实时、高速的对大数据集打分,SPSS 预测分析应用例如 PredictiveCallCenter? and PredictiveWebSite? 就是为已存在的客户 交互功能软件和 CRM 系统而设计的实时高速产品。PredictiveCallCenter?与呼叫中心系统 集成,提供如提升销售、交叉销售、客户保留等的即时推荐和决定支持。采用被已证明可行 性商业规则结合实时预测分析技术,PredictiveCallCenter?自动提供推荐内容并结合销售 意见和其他代理需要知道的信息将其推荐内容显示在代办人员的屏幕上。 Clementine 可以将 Clementine 预测模型直接发布到 SPSS 预测分析应用产品上如 PredictiveCallCenter。这样就允许将你自己训练的复杂模型使用 PredictiveCallCenter 实施并精炼成实时推荐应用发布出来。模型可以被开发成于多种类数据如网页、文本以及有 关态度的数据相结合,并且具有特定商业目标的应用如提高交叉销售。多种预测模型可以被 合并,例如,将交叉销售和欺诈检测模型相结合,可以确保销售人员不用将精力放在具有明 显欺诈风险的客户身上。 65 图 9.3:呼叫中心推荐信息产生流程 9.4 策略 4-实时定制方式 对于在企业决策支持系统中决策优化目标需要不同功能的实时打分应用,或者针对某特 定的商业实际需求,客户化的界面是十分关键和必要的。Cleo? 和 SPSS Predictive Analytic Framework? 就是为适应广泛商业应用需求而设计的客户化实时打分产品。 Cleo 是创建基于网页打分应用的软件平台,它能简单快速的创建客户化网络应用。企 业级用户使用 Cleo,基于网络的数据挖掘实施工具,给予同一公司的多用户使用 Clementine 模型和根据特定需求的数据打分的权限。采用 Clementine 创建的预测模型,通过 Cleo d 部署向导就可以很轻松的在线进行模型发布。在 Cleo server 能即时产生网络应用,当决策 者需要借助 Clementine 生成的预测流程支持他们的决策时,通过网络应用很轻松的实时为 数据打分。不同于其它一些基于网络应用的分析工具需要安装桌面软件或插件,Cleo 应用 是真正的瘦客户端,所有使用者只需使用网页浏览器就可以获得权限。当企业需要更多高级 功能,特别是通过与 SPSS 系统集成开发出更复杂的网络应用时,通常会使用 Predictive Analytic Framework.这个平台和 Cleo 很类似,是一个可供多种客户使用的,网络分布的瘦 客户端打分环境。它还加入了一些额外的功能如为了方便商业用户更新模型的简单易用界 面,监控预测分析性能而自动生成的增益曲线等等。通过 Predictive Analytic Framework 向导,模型可以很轻松的发布到网络平台上。 66 图 9.5: SPSS 定制开发应用示例 67 10. 成功案例 10.1 国外成功案例 10.1.1 Banco Espirito Santo (BES) BES 每天都致力于同那些可能流失的银行客户“奋勇战斗”。通过利用 SPSS 的数据挖 掘工具 Clementine,BES 识别出了那些可能离开银行服务的客户的关键行为特征。Jorge Portugal 和他的战略营销队伍一起分析这些动态的关系,并分别建立起模型来验证相应的 调整策略是否可以使得客户保持满意而不流失。 应用结果 ?  利用从未使用过的客户行为数据资源并从中获益 ?  客户流失率降低了 15%-20% ?  底线利润增长了 10%-20% 10.1.2 Bank Financial Bank Financial 主要服务于芝加哥的大都市区域,在其八个支部机构中提供完整的金 融服务,包括贷款、储蓄、保险以及投资。其资产超过 10 亿美元,其给零售客户以及商业 客户同时提供服务。自从 1962 年开始进入到芝加哥郊区开展服务,Bank Financial 就开始 不断的成长,增加新的分支机构以及服务产品。为了满足客户不断变化的需求,Bank Financial 的目标包括: ?  增加市场营销的有效性 ?  增强针对现有客户的定位 ?  提升客户的获得以及保持 ?  最优化产品打包策略 使用 SPSS 公司的 Clementine,Bank Financial 能够在很短的时间里得到更为准确的结 果,提升了市场营销的有效性,降低了营销的成本。通过使用预测性的方法来进行市场营销, Bank Financial 提升了其产品满足客户需求的能力,增加了客户赢得、保持以及满意度。 68 10.1.3 美国汇丰银行 “预测分析帮助我们在合适的时间、用合适的产品和服务来接触合适的人。而 SPSS 为 我们提供了进行这些分析的有力武器。” ------美国汇丰银行客户获取和研究部经理 Joe Somm 客户背景 美国汇丰银行是 HSBC 集团成员之一,通过位于纽约的 380 个分支机构为 140 多万银 行客户提供核算、投资、借贷和其它金融服务。美国汇丰银行资产为 350 亿美元。 面临问题 同一地区可能有多家银行设有分支机构,从而引起持续的竞争来吸引和保持附近的潜在客 户。为保持高水平的客户获取和保持率,并维持可赢利性,银行经常要实现这些目标:扩展 和现有客户的关系、控制营销费用以维持利润以及快速转移市场。 解决方案 美国汇丰银行用 SPSS 对不断增长的客户数据进行挖掘,建立预测模型来发现交叉销售和 “翻滚”销售机会。定位于每一产品最有价值的客户可以使销售最大化、营销费用最小化。 而且,SPSS 的易用性使研究人员可以快速地把研究结果提交给决策者。 应用结果 小额银行是一个高竞争性的业务。过去,美国汇丰银行经常使用从市场研究公司购买的生命 周期细分信息,向新旧客户推广产品。“外部的细分方案在发展新客户时可能是有价值的。 但是,我们认为现有的 140 万用户的购买习惯和需求数据,会隐藏着更有价值的信息。”美 国汇丰银行客户获取和研究部经理 Joe Somma 说。“我们只需对这些模式进行挖掘,来了解 什么人在什么时候需要什么。这种预测分析帮助我们在合适时间、用合适的产品和服务接触 合适的人。而 SPSS 为我们提供了进行这些分析的有力武器。” 揭示特定客户的需求,销售 增加 50% “账户的存款中哪种特征预示着客户可能会对某种投资感兴趣呢?这种购买行为 过去曾发生过很多次,可以帮助我们预测未来的购买行为。”Somma 说,“用 SPSS 对数据 进行挖掘帮助我们揭开了统计关系,更重要的是,为我们说明了这些关系的力度。这帮助我 们在建立有效的营销策略的同时对资源进行优化。”Somma 和银行各个产品部门的同事在用 SPSS 预测模型的基础上建立了成功的营销策略。短短三年时间,银行数个产品线销售提高 了 50%。 69 营销费用减少 30% 通过更精确地定位目标客户,美国汇丰银行不仅发现了对特定产品最有前景的客户,同时也 节约了费用。“比如,在进行直邮活动,我们可以更加有针对性,只寄出少量信件,而得到 更高的回应率。在最近一次活动中,直接邮递的数量减少了三分之一,但销售收入仍相当于 前次的 95%。这样就极大地增加了投资回收率。”“没人希望淹没在不想要的产品信息中。 通过用 SPSS 进行数据挖掘,我们减少了对那些不符合特征的客户的打扰。” 提高了建立和开展实时营销战略的能力 根据 Somma 的讲述,SPSS 不仅帮助他们发现新的商业机会,而且比竞争者做得更快。“准 备买存款证的客户可以买我们的,也可以买另一家银行的。这种情况下速度是非常重要的。 越快进行营销活动,效果就越好。SPSS 的易用性和强大的分析功能,使我们可以快速地建 立模型。SPSS 具备我们所需的分析深度和广度。而且,模型建立后,向产品线决策者发布 也非常容易。您可以把逻辑展示给他们,而他们无需了解任何统计分析的知识就可以快速看 到与过去购买某一产品的客户类似的客户。” 10.1.4 美国 First Union 公司 “作为这项研究的成果,现在我们确切明白了需要做什么来满足客户的需求和期 望...” ------First Union 的市场研究主管 Jim Robertson 面临问题 First Union 公司,美国第六大银行企业,需要检查其产品交付系统的性能需求和费用。希 望把客户转移到低成本的渠道,但只是在发现这些新的渠道是可接受的之后。Market Advantage 公司的咨询顾问们致力于发现能更好地满足客户需求的产品和交付渠道的变革, 把客户转移到低成本渠道,并保护 First Union 在竞争激烈的金融服务市场中处于领先地 位。 解决方案 “SPSS 是我们战略服务中理想的分析工具。它的方便性和深度分析功能都是一流 的。”Market Advantage 总裁 Jim Libby 说。作为金融业最大、最高级的数据分析项目之 一,Market Advantage 使用 SPSS 和咨询顾问公司合作,为 First Union 发现和实施关键的 交付渠道战略。该项目中,Market Advantage 首先进行了计算机辅助调查,他们在 80 个访 70 问站从 3600 多个金融服务客户中收集数据。这些客户明确回答了有关储蓄账户、抵押、信 用卡、贷款和信托、以及产品交付等方面的问题。由于 First Union 主要通过其费用昂贵的 交付渠道—金融中心来分发这些产品,它还希望了解其他可选的交付方式。 应用结果 通过多种方式的聚类分析,用不同的“命题”(结合定价、服务、交付和特性)确定了回答 者的分类。之后采用 SPSS 对这些结果做进一步的分类和描述,确定了新的细分客户。 Market Advantage 建立联合仿真模型确定哪些客户愿意采用其他可选的交付方式,如电话 银行。并把这些模型和 SPSS 融入同一界面来区分在不同的方案下谁希望、谁不希望购买、 转换或移植。这些模型有助于预示客户行为,并确定了那些愿意移植到新交付渠道的客户。 “这项研究产生了最深入的、业界从未见到的对零售金融产品和其他可选分发渠道的同 步认识。”Libby 说。作为结果,First Union 金融中心的主要目标发生了重大变化,把大 量的销售和服务转移到低成本的渠道,并显著地为职员减少了管理工作量。 10.1.5 Achmea 公司 客户背景 Achmea 公司是荷兰最大的金融服务提供商,拥有数百万的家庭保险客户和企业保险客户。 从 2002 年开始,该公司归属 Eureko 集团,该集团是总部位于荷兰的一家金融服务供应商, Eureko 集团的业务遍及欧洲十个国家,保险是其主要业务领域。 应用结果 增强索赔处理能力,提高欺诈识别技巧 Achmea 公司选择 SPSS 分析软件,增强其对保 险索赔的处理能力,发掘更多的保险欺诈行为,降低企业运营成本,提高客户满意度。采用 SPSS 软件,该公司在索赔流程的初始-索赔告知阶段,就可以实时确定哪些索赔风险低, 马上该认可,哪些索赔疑点重重,需作进一步的调整。这种“快速跟踪索赔处理”的方法为 公司赢得了强劲的竞争优势,针对合法的索赔请求,不再需要履行成本高昂的处理流程,从 而可以向客户提供更快捷的高品质服务。有了 SPSS 软件,Achmea 公司还可以自动发掘潜在 的欺诈行为。“SPSS 软件使我们自动识别可疑的保险索赔,而这些索赔往往伴随着高额成 本支出。SPSS 软件还大大加快了我们对值得信赖的忠诚客户的索赔要求的响应速度。借助 SPSS,我们预计发现比现在还多两倍的索赔欺诈,节约的成本高达数百万欧元。”Achmea 公司对私业务部非寿险运营总监说。 71 10.1.6 标准人寿保险公司 “Clementine 所创造的价值远远超出了它本身,并且还将继续创造价值。” ------标准人寿客户数据分析部 Donald MacDonald 客户背景 标准人寿保险公司是世界上最大的金融服务公司之一。它是标准人寿集团的一部分,该集团 下还有标准人寿银行、标准人寿保健公司和标准人寿投资公司。 面临问题 标准人寿使用独立理财顾问(IFAs)向客户直接转售保单。公司为 IFAs 提供资金,但不知 道每个顾问销售保单的具体情况。 解决方案 标准人寿选用 Clementine 建立起成功的 IFAs 的特征档案,并使用这些档案来培训表现不佳 的顾问。为了建立这些档案,公司收集了每个 IFA 的信息,包括 IFA 的所在地、产生的收入、 售出的保单数以及行为特征。 应用结果 ?  在每个 IFA 零售店增加了收入和售出的保单数 ?  培训表现不佳的顾问,使之更好地工作 ?  在能带来高收益的地区设立新的 IFA 工作点,并撤销了业绩不佳的点 10.2 国内成功案例 10.2.1 中国建设银行风险预警管理项目 针对经营管理中的风险加剧,建立风险预警机制势在必行。为此,建设银行建立了基于 SPSS 统计分析产品的风险预警管理系统,建立了风险处理和监测系统,进一步完善了建设 银行的风险数据存取和管理机制,保障了银行收益。目前,建设银行已经基本完成了中国银 行业的内部评级分析体系架构。 72 10.2.2 光大银行信贷风险管理项目 光大银行采用 Clementine 产品,进行企业信贷风险数据分析,成功实现了对银行客户 的信贷风险管理。光大银行对易用开放的产品、数据挖掘技术与信贷风险业务的完美融合极 为认可。 10.2.3 中国银行信用风险评级管理项目 面对日趋激烈的竞争,高效、系统的信用风险管理成为金融机构保持竞争优势的关键。 中国银行采用 SPSS 公司的统计分析产品 SPSS 软件,建立信用风险评级管理系统,有效组建 内部评级分析体系。 10.2.4 中国中信银行 客户背景 中信银行成立于 1987 年,隶属于中国中信集团公司。其业务辐射全球 70 多个国家和地 区,包括公司银行业务、国际业务、资金资本市场业务、投资银行业务、住房按揭业务、个 人理财业务、信用卡业务等。在英国《银行家》公布的 2007 年度“中国银行业百强”中, 中信银行以一级资本和总资产分别位列中国第七大商业银行,位居股份制商业银行第三位。 面临问题 随着零售银行资产业务的迅速扩张,全国个人购房贷款数量的快速增长,零售资产业务的重 要性在不断提升,已经成为银行业的重要利润来源。而不良贷款的出现给银行带来的巨大的 损失。原有的评分卡模型采用类似回归算法的方式,已不能满足快速变化的业务的需求。因 此,迫切需要建立新的、灵活易用的数据挖掘分析系统,对零售业务活动进行风险预测,并 将风险控制集成在银行整体业务流程中,为业务管理和决策提供有力的支持。 解决方案 使用企业级数据挖掘平台 Clementine,按照 CRISP-DM 标准流程,对中信银行过去 3~5 年的 客户贷款历史数据进行分析,建立一个基于运用神经网络、决策树—Logistic 回归的两阶 段个人信贷风险评分模型,使用 Clementine 提供的评估图、表格、统计量等多种方法对各 模型进行全面的评估。在模型的发布阶段,使用 Clementine Solution Publisher,将个人 73 信用评分模型嵌入到业务审批系统中,快速高效地实现了新贷款申请的在线分析应用。 应用结果 Clementine 良好的稳定性和卓越的性能大大提高数据挖掘效率,可视化编程让业务人员和 行业专家能够参与到数据挖掘项目中,业务经验和数据挖掘技术的完美结合,提高了数据挖 掘模型的质量。现在,客户提交贷款申请后,前端的审批员只要轻轻点击按钮,就可以实时 获取该客户的风险评分,根据客户的评分初步判断是否要发放贷款,大大提高了工作效率。 10.2.5 部分金融业客户的名单(排名不分先后) 西班牙人民银行 新加坡花旗银行 法国国民互助信贷银行 瑞士银行 德国商业银行 英国莱斯银行集团 丹麦 Basisbank 英国 Cahoot 意大利 Xelion 美国 Allstate 保险公司 法国 AXA 资产管理公司 韩国 LG 火灾保险公司 英国保诚人寿 日本安田互助人寿保险 标准人寿保险公司 中国银行 中国建设银行 中国光大银行 中国中信银行 74 第二部分 电信行业应用 1. 前言 随着电信业务的发展和体制改革地不断深化,国内电信行业内部各大运营商之间的竞争 日趋激烈,这一趋势在国内移动通信业内表现的尤为突出。移动通信运营商为了获取更多的 客户资源和占有更大的市场份额往往采取“简单”的价格竞争和“此起彼伏”的广告宣传 战,其弊端显而易见。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提 供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(CRM)成了电信运营商 增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准 确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。 近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。 从电信业务层面来讲,电信业务已从单纯的提供市话和长话服务演变为提供综合电信服 务,如宽带、移动电话、语音、传真、图像、电子邮件、计算机和 Web 数据传输,以及其他 数据通信服务。电信、计算机网络、因特网和各种其他方式的通信和计算机的融合是目前的 大势所趋。而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在 迅速扩张并越发竞争激烈。因此,为了提高企业竞争力利用数据挖掘技术来挖掘现有电信业 务能力,提高商业效率具有重要意义。 1.1 数据挖掘的概念 数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示 其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。 数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用 如 OLAP 分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况 对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时, 对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。电信运营商拥有许多成熟的数 据库应用系统,如网管系统、财务系统、计费账务系统、112 障碍管理系统、缴费销账系统 等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数 75 据进行重组整合,就能充分利用这些宝贵的数据,体现信息的真正价值。 1.2 数据挖掘技术在电信行业客户关系管理的主要应用领域如下: (1)客户消费模式分析 客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、 数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费 习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营 决策提供依据。 (2)客户市场推广分析 客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据 数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进 行相应的调整优化,以达到优惠促销活动的收益最大化。 (3)客户欠费分析和动态防欺诈 通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。 当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低 运营商的损失风险。 (4)客户流失分析 根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率 相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。然后根据此模型来 监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度, 防止客户流失的发生。这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流 失、无法有效实现客户关怀的状况。 1.3 数据挖掘成功方法论 按照 CRISP-DM(跨行业数据挖掘方法论),数据挖掘可以划分为以下六个步骤: 76 图 1.1:数据挖掘项目实施流程示意图 1.4 商业理解 在这个阶段要明确面临的商业问题和数据挖掘想要达到的目的,完成商业问题到挖掘问 题的定义过程。这阶段将产生的主要文档及提交物包括: a) 确定商业目标。包括电信行业背景,需要实现的商业目标和成功标准等; b) 形势评估。包括电信运营商拥有的资源、需求、假定和限制、风险偶然性、专业术 语和成本收益等; c) 在上述基础上确定数据挖掘的目标和成功标准; d) 制定的项目计划和阶段性里程碑的设定说明。 明确挖掘的目的。在进行数据挖掘前,一定要明确挖掘的目标。因为电信业务变化快, 不同的时期,挖掘的对象并不一样,挖掘目标也千差万别,而挖掘目的不一样,决定了挖掘 使用的模型和算法完全不一样。例如:电信开通新视通业务后,根据不同的类型用户对新视 通业务的使用情况,预测 2-3 个月内可能使用该业务的用户类型,使用机率和话务量。 明确影响挖掘目的的可能因素和结果。影响用户消费行为的因素是多种多样的,要比较 的指标也是多种多样的,所有这些因素均应在模型中考虑。比如,要考虑 IP 业务对用户的 影响,不仅要分析用户性质,还要分析用户消费额度;不仅要分析已经使用 IP 业务的用户 性质和消费额度分布,而且要分析已使用 IP 业务的用户在未使用该业务前在原来的未开通 77 IP 业务用户中的分布和比例,还要分析使用 IP 业务的用户使用前和使用后消费行为的变化。 1.5 数据理解与数据准备 数据理解和数据准备在真实的数据挖掘项目中会占很大的比重,搜集所有需要的数据和 数据质量的保证是数据挖掘结果正确与否的关键。 需要确定数据来源、确定数据整理方法。如对 IP 业务开通对用户行为的影响,原始数 据来自用户资料、用户详单。根据上述确定的因素,定义原始指标和衍生指标。 1.6 建立模型 针对不同的数据挖掘目标和数据特性,应采用不同的挖掘算法建立模型,并对筛选出的 每种候选模型进行数据处理并产生结果。目前在电信行业常用的算法有:C5.0 决策树、CART 决策树、神经元网络和 Logistic 回归等算法。 1.7 模型检验 对产生的模型结果需要进行比对验证、准确度验证、支持度验证等检验以确定模型的价 值。在这个阶段需要引入更多层面和背景的用户进行测试与验证,通过对几种模型的综合比 较,产生最后的优化模型。 1.8 模型发布与应用 建立和检验模型并不是数据挖掘的目的,只有把模型发布到相关决策者手中,才能使我 们通过数据挖掘提高企业利润或降低企业成本。例如在研究客户流失这个案例中,模型建立 好后除了提交一份完整的报告和测试结果外,还需要通过发布工具将模型嵌入到用户的应用 系统中,使决策者和相关管理者可以及时作出决策,实施相应的市场措施。 模型发布后并不意味一个数据挖掘项目的结束,数据挖掘系统与业务系统间存在着作用 与反作用的交互关系,随着时间的推移和数据的变化,这个闭环作用的系统中的很多关键参 数需要及时调整,才能保证挖掘结果的质量并延长其有效的生命周期。所以有时我们说“数 据挖掘是一门科学,同时也是一门艺术”。 78 2. 国内数据挖掘应用中存在的问题 2.1 数据质量和完备性 国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必 须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全 面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系, 无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。 2.2 相应的人员素质 在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系 统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员,必将导致分析系 统与现实脱钩,无法达到预期效果。 2.3 应用周期 a) 数据挖掘系统将会直接告诉你有关商业问题的答案; b) 数据挖掘系统将在工作流程中替代专业业务管理人员的角色; c) 数据挖掘系统的建设过程中无视内部的知识和专家经验; d) 数据挖掘系统是理论性的、以研究学习为导向的方法。 2.4 数据挖掘项目的建议: 结合项目的投资确定数据挖掘项目的目标和回报周期,保证项目的可实施性。 a) 数据挖掘项目整个实施流程的管理和控制是非常重要的; b) 数据挖掘项目需要和用户的专业业务人员紧密配合,共同寻找答案; c) 培训业务人员,传递产品技能,提供挖掘分析的技术支持,让业务专家而不是技术 人员成为项目的主导者; d) 需要提供外部观点和一般经验,同时与内部特色相结合; e) 确保实际的,以结果为导向的项目原则。 79 本手册将从客户流失、客户细分、客户满意度和营销响应四个大方面,使用 Clementine 具体讲述数据挖掘在电信行业的具体应用。 80 3. 客户流失 随着电信体制的改革和不断深化,国内电信行业内部各大运营商之间的竞争日趋激烈。 电信运营商为了获取更多的客户资源和占有更大的市场份额,往往采取名目繁多的促销活动 和层出不穷的广告宣传来吸引新客户。然而,统计发现,发展一个新客户比保持一个老客户 的费用要高 7 倍,而如果“用户保持率”增加 5%,将有望为运营商带来 85% 的利润增长。 因此,对老客户的保留直接关系到运营商的利益,无论是客户流失还是话务量流失都将对运 营商的经营产生深远的影响。针对这一问题,目前国外电信界应用最为广泛的解决方案之一, 是应用数据挖掘技术,研究流失客户的特征,从而对流失进行预测、并对流失的后果进行评 估,采取客户保留措施,防止因客户流失而引发的经营危机,提升公司的竞争力。 具体说来,客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。客户 流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础,通 过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切 相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关 业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销 策略,采取针对性措施,开展客户挽留工作。 3.1 客户流失需要解决的问题 1)哪些现有客户可能流失? 客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。 2)现有客户可能在何时流失? 如果某一客户可能流失,他会在多长时间内流失。 3)客户为什么流失? 哪些因素造成了客户的流失,客户流失的重要原因是什么。主要对引起客户流失的诸因 素进行预测和分析。 4)客户流失的影响? 客户流失对客户自身会造成什么影响? 客户流失对电信公司的影响如何?对可能流失客户进行价值评估,该客户的价值影响了运营 81 商将要付出多大的成本去保留该客户。 5)客户保留措施? 针对电信公司需要保留的客户,制定客户和执行保留措施。 3.2 电信客户流失的类型 为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展 客户保留活动。电信行业的客户流失现象可以分为以下三种情况: 1)公司内客户转移:客户转移至本电信公司的不同网络或不同业务。主要是电信公司 增加新业务,或者资费调整引发的业务转移,例如从普通的固定电话转至 IP 电话。这种情 况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公司整 体而言客户没有流失。 2)客户被动流失:表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户 使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。 3)客户主动流失:客户主动流失可分为两种情况。一种是客户不再使用任何一家电信 运营商的电信业务;另一种是客户选择了另一家运营商,即所谓的“客户跳网”。“客户跳 网”的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服务价值低 于另一家电信运营商。这可能是客户对电信公司的业务和服务不满意,也可能是客户仅仅想 尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。 3.3 如何进行客户流失分析? 对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确 定义何为流失,进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的,它 是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个 核心变量:财务原因/非财务原因,主动流失/被动流失。对不同的流失客户按该原则加以 区分,进而制定不同的流失标准。例如,非财务原因主动流失的客户往往是高价值的客户, 他们会正常支付服务费用并容易对市场活动有所响应,这种客户是电信企业真正需要保留的 82 客户。而对于非财务原因被动流失的客户,对于预测其行为的意义不大。 研究哪些客户即将流失时,是一个分类问题。将现有客户分为流失和不流失两类,选择 适量的历史上流失客户和未流失客户的属性数据组成训练数据集,包括:客户的历史通话行 为数据、客户的基础信息、客户拥有的产品信息等。Clementine 提供人工神经网络,决策 树,logistic 回归等模型用于建立客户流失的分类模型。关于流失用户特征的分析,是一 个属性约减和规则发现问题。Clementine 提供关联分析方法,可以发现怎样的规则导致客 户流失。也可以利用 Clementine 的决策树方法,发现与目标变量——是否流失——关系最 为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征,因此,在进行深入的客 户流失分析时,需要先进行客户细分,再对细分之后的客户群分别进行挖掘。 在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么 它可能什么时候会流失。生存分析可可以解决这类问题。生存分析不仅可以告诉分析人员在 某种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。 生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自 变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变 化,当生存率达到一定的阈值后,客户就可能流失。 分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分 析。客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表 征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户 流失的动机,是价格因素还是为了追求更好的服务等。这方面内容丰富,需作具体分析。 分析客户流失对电信公司的影响时,不仅要着眼与对收入的影响,而且要考虑其他方面 的影响。单个的客户流失对电信公司的影响可能是微不足道的,此时需要研究流失客户群对 电信公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析,归纳客 户流失的原因,有针对性的制定防止客户流失的措施。 在预测出有较大流失可能性的客户后,分析该客户流失对电信公司的影响。评估保留客 户后的收益和保留客户的成本。如果收益大于成本,客户是高价值客户,则采取措施对其进 行保留。至于低价值客户,不妨任其流失甚至劝其流失。 总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业 务目标的基础上准备数据、建模,模型评估,最后将模型部署到企业中。 83 3.4 案例分析 为了举例说明,我们设想为一个虚构的电信公司 ABCTelcom 的客户流失建模。ABCTelcom 原本是市场的领先者,但目前正受到来自其它电信公司日益激烈的竞争。由于竞争对手接连 推出了一系列新产品,并进行了大量的促销活动。最近半年来,ABCTelcom 的客户流失较为 严重。为了保持其战略性市场主导地位,ABCTelcom 公司计划开展客户保留活动。在活动进 行之前,为了尽可能提高活动收益,ABCTelcom 需要对现有的客户的数据进行分析,从众多 客户中找出流失可能性高的优质客户并针对其开展活动。而对于流失可能性低或者保留成本 大于收益的客户,则可以不展开活动。此外,客户流失预测也能帮助 ABCTelcom 发现那些申 请服务后不久就欠费停机的客户,从而减少这类客户带来的损失。 3.5 商业理解 预测现有客户在未来六个月内流失的概率并分析保留客户活动的成本和收益,针对收益 大于成本的客户开展客户保留活动,以减少公司优质客户的流失。 3.6 数据理解 a) 数据说明 选取一定数量的客户信息(包括流失的和未流失的),选择相关的客户属性(包括客户资料、 通话行为特征、消费属性、客服信息等)。利用直方图、分布图等数据分析工具初步确定哪 些因素可能影响客户流失。所选取的数据说明如下: 1.用户编号 2.长途通话时间 3.国际通话时间 4.本地通话 5.掉线次数 6.付款方式 7.本地话单类型 8.长途话单类型 9.年龄 10.性别 84 11.婚姻状态 12.孩子数目 13.估计收入 14.是否有车 15.是否流失 其中客户流失状态有三种属性: 1.被动流失 2.主动流失,这是分析中特别关注的一类客户 3.未流失,仍然是 ABCTelcom 的客户 在分析中,我们主要关注的是,主动流失的客户。被动流失对电信公司来说是意义最小 的,因为被动流失通常是客户发生欺诈,欠费等行为后不再继续使用该公司服务。主动流失 指的是客户停止在 ABCTelcom 的业务,转向了其竞争对手,这通常是因为别的公司能够提供 更切合客户需求的产品服务,是该行关注的焦点。在具体的应用之前,ABCTelcom 将所有现 有的客户归到上述的三个类别中。同时,所有的人口统计信息(也就是从年龄到是否有车) 每六个月更新一次,而交易信息(从长途通话时间到长途话单类型)则是每个月实时更新的。 为了让预测模型能预先进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自 变量)之间设定了 6 个月的延迟。比如,人口统计信息和交易信息都是 2007 年 1 月收集的, 而是否流失则是 2007 年 7 月的数据。也就是说,输入变量采集六个月后再将客户流失状态 分类;因此该模型提早 6 个月预测客户流失。 b) 数据描述和图 Clementine 提供了一系列数据描述和可视化的工具,可以帮助分析人员对数据分布以 及数据之间的关系进行基本探索。这些工具包括:数据审核,统计分析,网络图,直方图, 散点图,两步聚类等等。 图 2.1 描述了客户的性别分布。可见,主动流失的客户以女性为主。而被动流失的客户男女 比例基本持平。在三种客户状态中,被动流失的比例是最小的。 85 图 2.1:用户流失与性别的关系 3.数据准备 在数据准备阶段,分析人员根据数据理解的结果准备建模用的数据,包括数据选择、新 属性的派生,数据合并等。在本例中,由于长途通话时间,国际通话时间和本地通话时间都 是反映用户的对电话的使用情况,因此,将三者合并,得到新的通话总时间变量: 通话总时间 = 长途通话时间 + 国际通话时间 + 本地通话时间 由于用户编号是一个系统自动生成的属性,不具有实际意义,因此,在分析中将用户编 号排除到模型之外。 4.建立模型 将准备的数据划分为训练集和检验集,首先利用 C5.0 决策树模型进行属性约减,然后 以约减后的属性为自变量,以是否流失为因变量,训练神经网络模型,得到相应的客户流失 预测模型。对检验集应用该模型,并根据预测结果的准确性评价模型。下图是模型建立和评 估的数据流图。 图 2.2:Clementine 中对客户流失建模的数据流图 执行数据流,C5.0 算法得到的规则集如下图所示。可见其中年龄,收入,国际通话时 间,本地通话时间和性别是最重要的五个变量。C5.0 得到的规则集里,有三类客户很容易 主动流失。但是这只是一个初始的分析结果,还需要使用神经网络对这五个变量进行进一步 86 建模。 图 2.3:Clementine 中对客户流失进行属性约减得到的结果 由于我们的关心是客户主动流失,因此派生一个新变量流失概率,如果是否流失属性为 主动流失,则取值为 1,否则取值为 0。采用年龄,收入,国际通话时间,本地通话时间和 性别为输入变量,流失概率为目标变量,根据数据集训练得到一个 5-1-1 结构的神经网络模 型信息如下。 87 图 2.4:Clementine 中采用神经网络对客户流失建模得到的结果 5. 模型评估和部署 对训练集应用神经网络模型,可以对每个客户流失的可能性打分。将客户按照流失概率 由大到小排序,然后根据公式:价值=长途通话时间*2 +国际通话时间*5 + 本地通话时间*1 派生出每个客户的价值大小。分析客户价值和流失概率之间的关系,对高价值高流失概率的 客户进行采取措施,如给与一定的优惠,进行挽留,对低价值的客户可以任其流失。 图 2.5:模型评估和部署的数据流图 88 图 2.6:评分和价值的散点图 对高价值高流失概率的客户采取营销活动进行挽留的成本和收益如下图所示。可见,通 过及时地发现要流失的客户并根据客户价值及时采取挽留措施,可以避免因客户流失而带来 的损失。在验证模型后,可以利用 Clementine Publisher 发布模型,使得模型可以在多种 环境中使用。 图 2.7:营销活动的成本和收益 89 4. 营销响应 4.1 为什么要进行营销响应分析? 为了发展新客户和推广新产品,电信公司通常会针对潜在客户推出各种直接营销活动。 然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可 能遭遇由于活动响应率太低而无法收回成本的境况。事实上,一方面,在当今竞争激烈的电 信市场上,客户每天通过短信,电话,邮件,电子邮件,网站广告等方式会接触到大量的电 信业务广告。缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,电信 用户越来越看重个性化服务,对新的电信业务具有较大的需求。 为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这 些管理系统帮助增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事 实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。 所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向 恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而 在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公 司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的 增加 提高营销响应率的成果是显然的。假设有 100000 个潜在客户,每客户期望平均收益为 ¥100 元,若我们将响应率提高 0.5%,达到 1%,则花费同样的市场营销费用,每月能多增 加收入¥50000 元。 4.2 营销响应 为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。然而, 如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇 由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上,一方面,客户 90 每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告,缺 乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,用户越来越看重个性 化服务,对新的金融产品具有较大的需求。 为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这 些管理系统增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上, 不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。 所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向 恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而 在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公 司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的 增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。 4.3 什么是营销响应? 营销响应模型是电信企业使用最频繁的一种预测模型。目标变量是预测谁会对某种产品 或服务的宣传进行响应,因变量是客户及其行为的各种属性,如:客户年龄,客户收入,客 户最近一次购买产品的时间,客户最近一个月的购买频率等。利用响应模型来预测哪些客户 最有可能对营销活动进行响应,这样,当以后有类似的活动时,利用响应模型来预测出最有 可能的响应者,从而对他们采取相应的营销活动。而对响应度不高的客户就不用对他们进行 营销活动,从而减少活动成本,提高投资回报率。 4.4 如何提高营销响应率? 电信公司应当在深入了解客户需求和客户特征的基础上,制定营销策略,从而达到增加 营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群展开营销活动,而是 针对每一个客户开展活动。所谓“知己知彼,百战不殆”,建立在对客户需求良好把握基础 之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动,首先需要 回答以下几个问题: 对谁开展营销活动? 91 多长时间开展一次营销活动? 何时开展营销活动? 如何开展营销活动? 电信公司在数据挖掘技术的帮助下,针对客户数据建立营销响应模型,在合适的时间, 通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响 应率和投资回报率。 图 3.1:营销活动的四个要素 1) 选择合适的客户 电信公司对以往的营销数据进行分析,采用决策树分类等数据挖掘方法,识别出具有高响应 率特征的客户作为营销活动的目标客户。通过选择合适的客户,可以排除对促销活动反应不 积极的客户,将目标客户的数量大大减小,从而在实现更有针对性地营销的同时减小营销成 本。据统计,通过减小目标客户的数量,通常可以节省 25-40%的营销费用,同时增加营销 响应率。 2) 选择合适的渠道 第二步是要针对用户选择合适的营销渠道,也就是和客户接触的方式。通过使用每个用户偏 爱的方式与之接触,也有利于提升客户响应率。在确定促销渠道时,要考虑客户对渠道的偏 爱,渠道成本,期望的响应率,其他营销限制条件等。 3) 选择合适的时间 在当今竞争激烈的社会里,客户有很多满足自己需求的机会和选择。因此,一旦发现了客户 尚未被满足的需求或者出现遗失客户风险时,一定要及时和客户接触。这种事件驱动的促销 方式,通常也可以取得较高的响应率。 4) 选择合适的活动频率 此外,并不是促销活动越多,效果越好。活动计划者需要根据实际情况,针对具体的客户, 选择一个最优的活动次数,既使得客户的各种需求得到较好的满足,又避免因为过于频繁的 92 接触而导致客户的反感。同时,过多的营销活动,也会增加营销成本。需要在提高的成本和 提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也 至关重要,比如,对于不喜欢过于频繁的接到促销电话的客户,就要适量降低电话促销的频 率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动,可以将促销 活动的投资收益率提高 25%—50%。 表 3.1:营销活动过程 阶段 1.合适的客户 2.合适的渠道 3.合适的时间 4.合适的营销频率 目标 为营销活动选择最 佳客户 为目标客户选择最优 营销方式 在合适的时间对目标 客户开展营销 确定最适合客户的 营销频率 方法 预测分析 渠道优化 事件营销 促销优化 策略 预测谁是最有可能 响应营销并且能给 营销活动带来收益 的客户 在客户偏爱的方式和 公司的成本与能力之 间选取最优结合点 变小的,经常性的营 销活动为事件触发的 营销活动 在客户响应率和公 司收益之间选择最 佳结合点 好处 降低 25%-40%的营 销成本 降低接触客户的成本 响应率的提高至少达 到两倍 提高 25%-50%的收 益 4.5 案例分析 为提升业绩,某电信公司要决定执行直接营销活动。为此,分析人员需要识别出可能回 应直接营销活动的客户,从而展开有针对性的直接营销。 1. 商业理解 识别出可能回应直接营销活动的客户,提高营销活动的响应率。 2. 数据理解 收集部分以往的营销活动数据(包括对活动响应的客户数据和未对活动响应的客户数据), 选择客户属性,包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪 些因素可能影响客户响应。所选取的数据属性包括:编号,年龄,收入,孩子数目,是否有 汽车,是否抵押贷款,居住区域,性别,婚姻状况,在该银行是否有储蓄帐户,在该银行是 否有活期账户,是否对促销活动响应等 12 个字段。 其中是否响应是预测的因变量,共有两个属性: 否:客户未响应营销活动 是:客户响应营销活动 93 图 3.2:数据 首先采用直方图,散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否 察看收入与孩子数目之间的散点图。可见,如果只考虑“孩子数目”属性,发现随着孩子数 目增加,响应的客户比率降低。同时考虑“孩子数目”和“收入”属性,发现响应比率与“收 入”和“孩子数目”的比值相关,这个比值通常被成为“相对收入”。 图 3.3:收入与孩子数目的散点图 下图是孩子数目的分布图。有一个孩子的客户占 44.3%。而在这些客户中,大部分是对 94 直接营销活动进行响应的客户。总的说来,随着孩子数目增加,客户响应率降低。 图 3.4:孩子数目的分布图 (3)数据准备 根据数据理解的结果准备建模需要的数据,包括数据选择、新属性的派生,数据合并等。 在数据理解中发现,是否响应与“收入”和“孩子数目”的比率有关,因此,派生出“相对 收入”属性,定义为:如果“孩子数目”为 0,则“相对收入”=“收入”;否则,“相对 收入”=“收入”/“孩子数目”。 (4)建立模型及评估 对数据进行预处理之后,分别使用 C5.0 决策树模型,神经网络模型,C&RT 决策树分类 模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。然后对测试集分别应 用这三个模型,选取效果最好的模型部署到企业中。 图 3.5:部分数据流图 使用 C5.0 决策树对是否响应建模,发现与客户响应相关的共有 4 条规则,与客户不响 应相关的共有 8 条规则。响应的客户有如下特点:有孩子,相对收入大于 49997 元;或者有 孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于 25563 元;或者是年龄大 于 45 岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于 25563 元;或者是年龄大 95 于 45 岁,没孩子,没贷款,收入小于 25563 元。 图 3.6:C5.0 决策树分类结果 神经网络模型在输入层、隐藏层和输出层分别有 20 个、3 个和 2 个神经元。此外,最 重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。其估计精度 达到了 87.77%。 图 3.7:神经网络的输出结果 使用 C&RT 对是否响应建模,得到的规则包括:当相对收入小于 25564.5 元时,客户倾 向于不响应;当相对收入大于 25564.5 元,孩子数目小于等于 0.5(需根据实际业务情况进 96 行解释),没有抵押贷款,且年龄小于等于 45 时,倾向于不响应;当收入大于 25564.5 元, 孩子数目小于等于 0.5,没有抵押贷款,且年龄大于 45 的客户响应率高。 图 3.8:C&RT 分类结果 之后使用测试集评估不同模型的表现。下图给出了模型评估的结果。其中是否响应表示 目标变量的真实值,$C-是否响应代表使用 C5.0 模型得到的目标变量预测值,$N-是否响应 代表使用神经网络模型得到的目标变量预测值,$R-是否响应代表使用 C&RT 模型得到的目标 变量预测值,可见,这三个模型中,C5.0 的预测精度是最高的,达到了 95.29%以上。最后, 还可以查看不同模型预测结果的一致性。 97 图 3.9:模型评估 (5)模型部署 通过建模和评估后,选择预测精度最高的 C5.0 模型部署到企业中。新的用户数据在经 过 C5.0 模型评分后,按照流失概率的高低排序,通过 Clementine Solution Publisher 发 布。 图 3.10:模型部署数据流图 最后发布的结果如下表所示。评分就是某个客户流失的概率大小。 图 3.11:对新数据进行评分 98 5. 客户细分 5.1 客户细分的背景 随着电信体制改革的深化,中国加入 WTO,我国电信运营业的竞争也日趋激烈。现今, “个性化”营销、“一站式”服务、沟通“零距离”、“用户至上,用心服务”等词眼层出 不穷。综合来说,这些与营销和服务相关的术语、理念,对象都是电信客户。服务源于良好 的营销,因此,客户关系最终决定了电信市场营销。 我国电信业发展到今天,不仅初步形成六大运营商同台竞技的市场格局,而且从“卖方 市场”转向“买方市场”,决定了客户关系的“大一统”必然向细分客户关系和“个性化” 营销和服务的转变。因此,细分客户关系是电信营销的关键所在,客户细分可以对客户获取、 客户保持、客户增值等提供全面的支持。恰当的细分标准必须得到有效的细分方法的辅佐, 细分方法的选取应该取决于细分的目的和主题,当目的明确时可以选取若干细分标准而后进 行多维细分,但当运营商着眼于更广泛的消费者特性分析时,这种主观定义的细分方法就显 得力不从心,数据挖掘方法相比于基于统计的客户细分方法的功效就强大得多,运营商对数 据挖掘的重视程度也日益加深。基于数据挖掘技术的分类方法,为更深入的客户细分提供有 效的手段。与其他行业相比,中国电信运营业拥有更多有关用户的数据。谁能正确地挖掘与 分析隐含这些数据中的知识,谁就能更好地向用户提供产品与服务,能够发现更多的商机, 从而在竞争中获胜。 5.2 客户细分的概念 客户细分的概念是美国市场学家温德尔?史密斯(wendeii R.Smith)于 2O 世纪 5O 年代 中期提出来的。 客户细分(Customer Segmentation)是指按照一定的标准将企业的现有客户划分为不同 的客户群。客户细分是客户关系管理的核心概念之一,是实施客户关系管理重要的工具和环 节。Suzanne Donner 认为:正确的客户细分能够有效地降低成本,同时获得更强、更有利 可图的市场渗透。通过客户细分,企业可以更好地识别不同客户群体对企业的价值及其需求, 99 以此指导企业的客户关系管理,达到吸引合适客户,保持客户,建立客户忠诚的目的。所谓 客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下,根据客户的价值、需 求和偏好等综合因素对客户进行分类,分属于同一客户群的消费者具备一定程度的相似性, 而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有: (1)客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者 的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户,客户需求的异质性是 进行客户细分的内在依据。 (2)消费档次假说。随着经济的发展和消费者收入水平的提高,消费量会随之增加。但 消费量的增加并非线性增长,而是呈现出区间性台阶式的变化形式,一旦消费者达到某种消 费层次之后,消费变化的趋势将变得非常平缓。根据消费档次假说,消费者的消费档次或消 费习惯在一段时期内是相对稳定的,这就为通过消费行为来划分消费群体提供了理论前提和 基础。 (3)企业资源的有限性和有效市场竞争的目的性。资源总是希缺的,由于缺乏足够的资 源去应对整个客户群体,因此必须有选择地分配资源。为了充分发挥资源的最大效用,企业 必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。 (4)稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实 际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就 显得毫无意义。 5.3 客户细分模型 客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型 是指选择一定的细分变量,按照一定的划分标准对客户进行分类的方法。一个好的细分模型, 首先是要满足细分深度的要求,不同的使用者对客户细分的深度也有不同的要求,这就要求 模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力,现代数据 库的存储容量越来越大,数据结构也趋于多样性,误差数据也会随之增多,这就要求模型能 适应数据在量和样上的膨胀,对误差数据能做出判别和处理。最后是模型要有很强的适用能 力,变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他们的消费行为 都是在变化的,这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细 100 分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模 型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细 分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额 等为细分变量,如 RFM 模型和客户价值矩阵模型。 (1)RFM 模型。RFM 细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点 客户的细分模型。R—recency 指客户上次消费行为发生至今的间隔,间隔越短则 R 越大; F—frequency 指在一段时期内消费行为的频率;M—monetary 指在某一时期内消费的金额。 研究发现,R 值越大、F 值越大的客户越有可能与企业达成新的交易,M 越大的客户越有可 能再次响应企业的产品和服务。 (2)客户价值矩阵模型。客户价值矩阵模型是在对传统的 RFM 模型修正的基础上提出的 改进模型。用购买次数 F 和平均购买额 A 构成客户价值矩阵,用平均购买额替代了 RFM 模型 中存在多重共线性的两个变量,消除了 RFM 模型中购买次数和总购买额的多重共线性的影 响。在客户价值矩阵中,确定购买次数 F 和平均购买额 A 的基准是各自的平均值,一旦确定 了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高 低和平均购买额的多少,客户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型 客户、经常客户和不确定客户,如图 4.l 所示。 图 4.1:客户价值矩阵 客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同, 用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学 特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、 基于客户价值相关指标的客户细分。 101 5.4 客户细分模型的基本流程 客户细分包括六个基本流程: 第一步:理解业务需求。在未来的业务中,知道谁是客户是个非常好的起始点,以了解 瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细 分就是根据其特征将相似的客户归组到一起,这是了解客户和针对特定客户组进行市场定向 所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地 理位置或这些变量的组合来构成。当这些条件变得越来越复杂时,数据挖掘技术就应运而生 了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时, 最重要的部分是其结果应当在业务远景中意义深远,并且能够在实际业务环境中进一步得到 应用。需要记住的一点是:由于市场环境是动态变化的,细分建模过程应当是重复性的,且 模型应随着市场的变化而不断革新。 第二步:选择市场细分变量。由于变量选择的优劣对细分结果质量的影响非常显著,所 以变量选择应该建立在理解业务需求的基础之上,以需求为前提,在消费者行为和心理的基 础上,根据需求选择变量。此外,变量的选择还应该有一定的数量,多了不好,少了也不好。 第三步:所需数据及其预处理。为创建数据模型,必须使用收集到的原始数据,并将其 转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在运营商 中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行 为,可通过运营商的事务数据(账单数据、详单数据、CDR 数据等)而捕获。人口统计数据是 当客户首次启用其通话服务时,他们会将客户人口统计数据(如年龄、性别、工作等)提供给 运营商,这在识别或描述客户组的特征时很有用。 第四步:选择细分技术。目前,通常采用聚了技术来进行客户细分。常用的聚类算法有 K-means、两步聚类、Kohonen 网络等,可以根据不同的数据情况和需要选择不同聚类算法 来进行客户细分。 第五步:评估结果。在对用户群进行细分之后,会得到多个细分的客户群体,但是,并 不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试:与业务目标相 关的程度;可理解性和是否容易特征化;基数是否足够大,以便保证一个特别的宣传活动; 是否容易开发独特的宣传活动等。 第六步:应用细分模型。根据客户细分的结果,市场部门制定合适的营销活动,进行有 针对性的营销。 102 总之,客户细分是电信运营商与用户二者实现双赢的重要举措。目前用户需求呈现多样 化、个性化的趋势,只有通过深入分析用户消费行为,精确识别、细分用户市场,开发出针 对不同层次用户的服务品牌进行服务营销,方能使得各方价值发挥到最大,实现共赢。不同 级别的客户对服务的需求以及“赢”的概念是不同的,正是因为为不同的客户提供不同的服 务才能使客户都达到满意,从而在市场上占据有利地位。 5.5 细分方法介绍 在数据挖掘中,往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类: 1.K-Means 聚类法。使用者需要首先确定数据分为 K 群,该方法会自动确定 K 个群的 中心位置,继而计算每条记录距离这 K 个中心位置的距离,按照距离最近的原则把各个记录 都加入到 K 个群,重新计算 K 个群的中心位置,再次计算每条记录距离这 K 个中心位置的距 离,并把所有记录重新归类,再次调整中心位置,依次类推……,达到一定标准时,结束上 述步骤。这种方法运算速度快,适合于大数据量。 2.两步聚类法:这种方法首先需要确定一个最大群数(比如说 n),并把数据按照一 定的规则分为 n 个群,这是该方法的第一步。接着按照一定的规则把 n 个群中最接近的群进 行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比如 说 m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据结 构本身自动确定应该把数据分为多少群。 3.Kohonen 网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。 5.6 客户细分实例 假设某电信运营商拥有以下数据:帐户明细综合帐,存放的是帐户级费用和 SI 级的费 用,包括应收帐、已欠账、调帐。时间为 2006 年 11 月到 2007 年 3 月。字段信息如下表所 示: 1.费用标识 2.费用类型 3.已销帐金额 103 4.当前欠费 5.帐户标识 6.本地网标识 7.表示费用产生时费用所属营业点 8.转入总费用 9.使用费原始费用 10.总发生费 11.总调帐费用 12.原始新产生费用 13.转出总费用 14.补退费金额 15.账目类型 16.客户标识 费用类型说明表,包括以下字段: 1.费用标 2.费用名 3.ARPU 状 4.费用类型 假设该电信运营商希望更深入地了解小灵通客户的情况,建立更为有效的市场营销战略 来给小灵通客户推销其电信产品。 首先根据维度表费用标识字段,选择小灵通客户的信息,包括上网通信费、区间通话费、 区内通话费、国内长途、国际长途、电话信息、来电显示、短信,根据费用说明表中的 ARPU 值以及费用类型字段区分上述几种业务情况。我们将帐户综合明细帐,和费用类型说明中的 数据根据客户标识进行合并,得到小灵通客户的费用和费用类型信息。数据流如下: 104 图 4.2:数据理解数据流 重新结构化数据,并对每个客户每种类型的费用进行汇总,超级节点分别派生出本地话 费、增值业务、国内长途、国际长途的数据,得到建模需要的数据: 图 4.3:数据准备数据流 利用客户的交费记录,使用聚类算法,自动生成多个类别(如 5 档)。这样不仅能对小 灵通客户有初步的认识,也能够为后续分析,如进行客户金字塔分析建立初步的分析基础。 根据上述数据,对小灵通客户五种不同类型业务的消费情况进行聚类,找出具有相似消 费倾向的客户。 105 图 4.4:两步聚类结果 从分析的结果可以看出:Cluster-1 和 Cluster-2 中的客户基本上都是低价值的客户, Cluster-3 中的客户在每个类型的服务中消费都比较高,即高价值客户。为了更好的发现高 价值客户的特征,我们对 Cluster-3 中的客户进一步聚类,结果如下: 图 4.5:高价值客户聚类 从结果看出,X=0,Y=0 的客户,增值业务消费较高,X=0,Y=2 的客户,上网通信消费较 高,而 X=3,Y=2 的客户使用小灵通的目的主要是打电话。 106 6. 客户满意度 6.1 结构方程模型用于客户满意度测评中的应用 由于客户满意度研究对企业的重大指导作用,科学高效的研究方法和手段将成为满意度 研究机构的核心竞争力,其研究成果将为提高整个社会的整体满意水平,指导企业更加合理 地配置资源提供科学决策依据。而结构方程模型越来越被业界认可为“满意度研究的科学高 效的研究方法和手段”,成为进行满意度研究必不可少的工具。目前,美国用户满意指数 (ACSI)、瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数(CCSI)等国家级用 户满意度研究都是采用结构方程模型构建关系。 一个有效实用的客户满意度研究结构方程模型的构建,需要对客户需求和感知的深入研 究,通过大量的前期工作,比如客户焦点小组访谈、客户需求分解、客户预调查、行业专家 拜访、购买消费现场观察等多种手段,才能构建起一个基础模型。然后通过消费者试调查, 采集到一定的数据后,对数据进行多种统计处理、分析和检验,根据相应的结果对模型进行 必要的调整,然后才能应用到实际的客户满意度分析当中去。否则的话,随意构建的模型只 能成为使得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的的 整个过程和大致思路: 图 6.3:利用结构方程模型进行满意度研究过程和思路 在满意度研究中常用的结构方程模型示例 107 图 6.4:满意度模型框架示例 6.2 满意度研究在金融行业中的应用 中国加入 WTO 梦已成真,各行各业的市场竞争更加激烈,特别是电信行业,将面临与日 俱增的的市场压力、更精明的竞争对手和更苛刻的消费者。 中国通信行业正从快速增长阶段迈入平稳成长阶段,服务质量已经成为企业的核心竞争 力。因而电信运营商市场营销工作的重点不仅仅是吸引新用户,突出价格策略的重要性,而 是要将如何维护老用户作为市场营销工作新的重点,从而服务策略的重要性逐渐突现。目前 市场上的价格竞争将逐渐过渡到服务竞争。移动与联通已经形成了较为激烈的竞争格局,随 着电信、网通等国内运营商及国外运营商进入移动通信市场,这种竞争愈演愈烈。电信运营 商能否在如此严峻的经营环境下顺利发展,关键因素在于能否站在消费者的角度考虑产品和 服务,消费者是否满意其提供的产品或服务。 “客户满意”越来越成为众多电信运营商已经意识和正在努力提高的经营指标,成为运 营商工作的重点。下面借某电信运营商在某省的满意度研究案例,介绍如何应用结构方程模 型进行满意度研究。 6.3 研究目标 该电信运营商期望通过客户满意度研究了解:不同品牌客户和集团客户对该公司的整体 服务工作的满意度评价,以及不同品牌客户对本公司各商业流程环节上的服务感受及满意度 水平,并了解不同品牌客户对本公司的忠诚度。同时判断当前业务、服务工作中存在的主要 问题。重点围绕各个商业过程,有针对性地发现问题,从而改善服务短木板。通过满意度指 108 数,比较各地市分公司的服务工作差异,以便为省公司的考核提供依据。进行与竞争对手 CSI 测评的比较分析,确定该省电信运营商客户服务工作中有待改善的地方,并以绩优区域 为标杆,不断提高和推动该省该电信运营商的用户满意度。预测今后的业务、服务竞争趋势, 制定应对竞争的一系列策略和方案。 6.4 研究过程 本研究中的结构方程的满意度模型 在本研究中,各方面满意度的研究(如不同品牌客户和集团客户对整体服务工作的满意 度、不同品牌客户对各商业流程环节上的满意度等等)都是基于图 5.3 所示的满意度框架模 型,只是在不同的满意度分析时具体的观测指标有些变动(如不同品牌相应的商业过程的指 标)。 图 5.3:某省电信运营商的满意度研究的框架模型满意度模型框架示例 6.5 满意度研究的结果分析 根据图 5.3 所示满意度理论模型及潜在变量对应的观测变量,分别建立不同品牌满意度 模型。在不同品牌的客户满意度理论模型得到验证后,就可利用调查数据计算得出客户的总 体满意程度及各分项满意程度。 109 6.6 结论 最终本次满意度研究获得了圆满成功,给电信运营商提出了有建设性和可执行的满意过 改进和提升客户忠诚度的改进计划。具体包括: 6.7 客户总体满意度 1. 图 5.4 给出了基于图 5.3 所示的满意度模型及调查结果得出的该运营商各品牌及其 竞争对手的总体满意度指数。 图 5.4 运营商及其竞争对手各品牌客户的总体满意度指数 2. 图 5.5 给出了基于图 5.3 所示的满意度模型及调查结果得出的该运营商及其竞争对 手各地区各品牌的总体满意度指数。 3. 从图 5.4,可以看在该省电信运营商的各品牌及客户群中,品牌 1-4 客户的满意度 处于高水平并比较接近,与去年相比,该电信运营商各品牌的服务水平比较稳定。只有品牌 5 客户满意度水平显得较低。 4.与竞争对手比较,该运营商继续保持较高的服务领先优势。品牌 3、4 的满意度明显 高于竞争对手的品牌 A、B;客户忠诚度比竞争对手高 15 个左右百分点;但对手品牌 B 对品 牌 2、小灵通对品牌 1 的离网风险比去年有较大增加。小灵通对品牌 1、2 客户的蚕食现象 也显著增加。 5.从图 5.5 可以看出该省部分市区的客户总体满意度仍然较低,个别地区尤其明显。 6.8 各品牌主要商业过程满意度及服务改进策略 ?各品牌主要商业过程总体满意度(以下以品牌 1、2 说明) 110 品牌 1: 品牌 2: 全省服务改进方向 根据研究结果,我们为该运营商提出全省的服务改进建议,如下: 6.9 各品牌主要商业过程的具体满意度及改进策略 研究中主要围绕网络服务、服务厅服务、热线服务、缴费充值服务、梦网服务、优惠活 动、网站服务满意度这些主要商业过程的提出了满意度的具体改进策略,如对于网络服务的 满意度和具体改进策略,有如下结果 网络服务满意度水平及改进策略 总体上,客户网络方面总体满意度较高,其中最高的是品牌 3、品牌 5 相对偏低;与竞 争对手比较,网络服务总体满意度具有明显优势。 在通话质量方面明显高于竞争对手; 111 总体上在绝大部分场合的网络信号都处于中高水平,但在山区的信号满意度较低; 对于不同场合拨打电话无法接通率,总体上室内的无法接通率最高,其中品牌 2 的室内 无法接通率较高,超过 50%;品牌 3-5 的无法接通率相对较低。 竞争对手的无法接通率与品牌 2 较为接近,对手品牌 A 的无法接通率大于对手品牌 B。 对于网内网间通话无法接通率方面,自身各品牌客户打竞争对手品牌的客户手机时无法 接通率较高,品牌 2 尤其较高;而竞争对手客户打市话或该运营商时无法接通率较高。 对于掉话率,品牌 1、2 的掉话率高于品牌 3-5(品牌 2 更高),室内的掉话率高于室 外,室内掉话率较高的有品牌 2(51%),竞争对手的掉话率也达 40%以上。 对于短信故障率方面,短信发送不成功发生率较高(品牌 5 与品牌 1 最为明显),其次 是短信发送成功但对方较长时间才收到;品牌 5 在短信故障率方面发生率最高。 各品牌客户对网络质量不满意的地方主要是信号差,其次是网络覆盖不广; 品牌 2 不满的地方还表现在通话不稳定/易断线,品牌 1 则是难接通/接通率低,品牌 5 则是信息接收不好/慢;竞争对手在各方面的不满的比例更高。 图 5.6 客户对网络方面总体满意度 112 7. 忠诚度 7.1 忠诚度水平与性质 各品牌忠诚度 自身各品牌忠诚度都较高,各品牌中忠诚度最高的是品牌 2 的客户(89.8%),最低的 是品牌 5 的客户(83.7%); 总体上,自身品牌客户的忠诚度高于竞争对手的品牌;竞争对手两品牌的忠诚度都为 75%。 忠诚度细分 模型说明:根据忠诚度和满意度的不同,我们将客户共分成四大类型:安全羊、劝服者、 异动者、流动者。 图 5.7? 忠诚度细分:模型说明 1)安全羊(高满意度高忠诚度): 当前品牌的重要客户群。他们对该品牌产生了服务固化的态度。 2)劝服者(高满意度低忠诚度): 有一定现存风险的客户,对服务有较高的满意程度,但没有强化他们的忠诚度,可能与 113 他们喜欢尝新事物的兴趣、竞争对手的吸引等有关。 3)异动者(低满意度高忠诚度): 有一定潜在风险的客户,对服务不满意,但仍表示将继续使用服务,可能与目前市场环 境如运营商的选择数量有限有关。如果市场环境没有改变,这类客户不会流失。 4)流失者(低满意度低忠诚度): 这类客户属于高现存风险的客户,他们对所属运营商的服务不满意,并表示不想继续使 用服务。 自身品牌的安全羊比例明显高于竞争对手;自身品牌中,品牌 5 客户的流失者与异动者 较高。 与去年相比,今年品牌 3-5 的客户的异动者(无奈的忠诚)比例有明显增加,一旦市场 出现新的运营商或网络品牌,这部分不稳定客户将释放较大的离网风险。 不同忠诚度类型客户的满意度: 将不同忠诚度的四种客户进行分析发现: 各品牌安全羊的满意度都达 85 分以上,满意度较高的是品牌 3、4; 各品牌劝服者的满意度都达 84 分以上; 各品牌异动者与流失者的满意度都低于 60 分;大客户的流失者满意度更低。 图 5.8 各品牌忠诚度类型 114 表 5.1:不同忠诚度类型客户的满意度 7.2 离网与蚕食风险 短期离网风险 品牌 1、2 客户的主要流失方向是竞争对手与小灵通;品牌 3-5 客户的主要流失方向为 内部流动,流向自身的其它品牌;竞争对手客户的主要流失方向是品牌 1、4。 品牌 2,转向竞争对手的比例较高;品牌 1,转向对手品牌 A 与自身品牌 4 的比例较高; 品牌 5,转向品牌 4 的比例最高;品牌 4,主要转向自身的其它品牌;品牌 3,转向品牌 4 的比例最高。 与去年比较离网风险比较 与去年比较,潜在流失客户有变化,转向品牌 1 的客户在减少,转向品牌 4 的客户在增加, 具体如下: ? 品牌 2:转向对手品牌 2 的比例上升; ? 品牌 1:转向小灵通的比例上升; ? 品牌 5:转向品牌 1 的比例上升; ? 品牌 4:转向品牌 1 的下降,转向品牌 3 比例的上升; ? 品牌 3:转向品牌 1 的下降,转向品牌 4 比例的上升; ? 对手品牌:转向品牌 1 的下降,转向品牌 4 比例的上升 ? 蚕食风险 ? 自身及竞争对手的品牌都面临被小灵通蚕食的危险,品牌 1 受小灵通品牌蚕食最大, 品牌 3-5 客户受小灵通蚕食较小;品牌 1、2 主要被竞争品牌蚕食,品牌 3-5 主要表现为“网 内”蚕食。 与去年比较被蚕食的风险比较 自身及竞争对手的品牌被小灵通蚕食的比例都在上升,被小灵通蚕食最为严重的是品牌 115 1、1; 自身品牌中,品牌 4、5 被品牌 3 蚕食的比例上升;品牌 1、5 被品牌 4 蚕食的比例上升。 7.3 提升策略 基于以上的忠诚度分析结果,研究中对各个品牌分别针对不同的忠诚度类型的客户提出 了具体的服务改进策略,以提高忠诚度。下面以品牌 1 为例说明。品牌 1 图 5.9 品牌 1 忠诚度提升策略 116 8. CRISP-DM 简介 在 1996 年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了具有爆炸式增 长的潜力。三个在这方面经验丰富的公司 DaimlerChrysler、SPSS、NCR 发起建立一个社团, 目的建立数据挖掘方法和过程的标准。在获得了 EC(European Commission)的资助后,他 们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了 CRISP-DM Special Interest Group(简称为 SIG)。 大概在 1999 年,SIG(CRISP-DM Special Interest Group)组织开发并提炼出 CRISP-DM (CRoss-Industry Standard Process for Data Mining),同时在 Mercedes-Benz 和 OHRA (保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG 还将 CRISP-DM 和商业数据 挖掘工具集成起来。SIG 组织目前在伦敦、纽约、布鲁塞尔已经发展到 200 多个成员。 SIG 组织已经发布了 CRISP-DM Version 1.0 Process Guide and User Manual 的免费 使用电子版。当前 CRISP-DM 提供了一个数据挖掘生命周期的全面评述。它包括项目的相应 周期,其中各自任务和这些任务之间的关系。当前这个数据挖掘的程序模型,为数据挖掘项 目的生命周期提供了一个综合的描绘。它包括了一个数据挖掘项目所要经历的各个阶段,各 阶段的任务以及这些任务之间的相互关系。从描绘的层面来看,是不可能鉴别出所有这些任 务之间的关系的。但本质上看,这些任务之间是否存在关系,取决于使用者的目的,背景及 其利益所在,与此同时,更重的还在于数据。 数据挖掘项目的生命周期由六个阶段组成。如图展示了这一数据挖掘过程的各个阶段, 这些阶段之间的顺序并不固定,在不同阶段之间来回反复往往是非常有必要的。究竟下一步 要执行哪个阶段或者哪一个特定的任务,都取决于每一个阶段的结果。图中的箭头表明了阶 段之间最重要和最频繁的依赖关系。图中最外层的这个循环表明了数据挖掘本身的循环性 质。经过一个具体的数据挖掘项目得到了某项解决措施或方法并加以展开,并不代表数据挖 掘本身已经结束。从这一数据挖掘过程以及解决措施展开的过程中所吸取的经验、教训,又 引发了新的,通常是更加焦点的商业问题。接下来的数据挖掘过程将会从过去的项目经验中 获利。在接下来的内容中,我们将简要的勾勒一下每个阶段的轮廓: 117 图 6.1:数据挖掘方法论流程示意图 商业理解 这一初始阶段主要集中在对项目目标的理解,以及从商业角度考虑,对客户需求的理解。 进而把这些理解转化为一个数据挖掘的定义和为了达到目标的初步方案。 数据理解 数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据 的质量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假 设。 数据准备 数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象) 的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一 阶段的任务主要包括:制表,记录,数据变量的选择和转换,以及为适应建模工具而进行的 数据清理等等。 建模 在这一阶段,各种各样的建模方法将被加以选择和使用,其参数将被校准为最为理想的 值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。一些建模 方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务 有时是非常必要的。 评估 数据分析的角度考虑,在这一阶段中,您已经建立了一个或多个高质量的模型。但在进 118 行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤, 是非常重要的,这样可以确保这些模型是否达到了企业的目标。一个关键的评价指标就是看, 是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有 关数据挖掘结果的使用应达成一致的决定。 部署 Bank 模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息, 但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处 理某些决策过程中,如在决定有关网页的实时人员或者营销数据库的重复得分时,拥用一个 能够即时更新的模型。然而,根据需求的不同,部署阶段可以是仅仅像写一份报告那样简单, 也可以像在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中,往往是客户而不是 数据分析师来执行部署阶段。然而,尽管数据分析师不需要处理部署阶段的工作,对于客户 而言,预先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。 8.1 数据挖掘经验谈 采用 CRISP-DM 方法论 采用 CRISP-DM 方法论作为数据挖掘的指导能帮助确保获得成功的商业结果。在现实中 对于一个数据挖掘项目来说,最初设定的商业目标很容易淹没在复杂数据挖掘技术和海量数 据中,所以以一个已经被验证方法论为指导是很关键的。 以终为始 为了能在项目终结时得到期望的 ROI(Return On Investment,投资回报率),你应该 在项目启动前已经确定了如何评估最终的结果的标准(例如:使用什么样的商业考核指标, 它们是被如何计算或派生的)。例如你是不是想在 20%的客户中找寻潜在流失者?基于客户 保留计划的消费和营销反应程度,你如何将这些信息转换成商业收入增长期望值?或者你知 不知道如果确定出额外的十件欺诈信息能节约多少开支? 设定期望值 确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术 辅助解决商业问题的一种方法。就像任何商业问题,投资者需要首先提出可解决的问题,然 后找寻方案。例如你计划为公司市场部做客户细分,那么应该与市场部的同事一起明确什么 119 样的结果是最终希望得到的(例如:“我们使用产品信息和人口统计数据,所以希望得到基 于客户的收入、年龄等信息的细分,这样能显示不同层次客户对产品的喜好”)。 限定最初项目范围 以现实可行的目标和日程表为开始,当你获得成功后,再转向更复杂的项目。例如与其 试图立刻提高新客户的获取值,还不是集中精力在小的更实际的目标如对某一区域进行交叉 销售,客户保留项目。 确保团队合作 数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据,也需要 数据分析家提供分析解决方案,以及数据库管理者提供权限。例如,你可能在项目中需要数 据挖掘专家、数据库专家和市场经理。因为他们来自不同的部门,可能在数据挖掘项目合作 中会出现问题,所以找到可行的合作方式是很重要的。 避免陷入数据垃圾 在项目进行中,始终明确需解决的商业问题,确保项目结果的最终完成。如果你只是在 没有项目计划的情况下简单的开始分析一堆数据,你将会很容易迷失在数据里而且浪费时 间。不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的 所有数据,仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解 决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如,使用 最新的信息进行预测客户行为往往比用大量的历史数据准确。 8.2 数据挖掘部署策略 数据挖掘的结果发布可以很简单,例如只是生成一个规则集,对具体某个商业问题给出 一个参考建议;也可能很复杂,如需要实时嵌入到客户的决策支持系统,为决策者提供前瞻 性决定提供依据。以下阐述四种优化策略帮助部署高级分析结果,以及为获得最大投资回报 设定的预测分析解决方案。这些策略是通过概括现实中使用 Clementine 数据挖掘平台的众 多部署案例得到的,具有普遍应用性。 快速更新批处理方式:使用快速高效的批处理功能部署数据挖掘,为数据简单快速的打 分 海量数据批处理方式:策略性应用代码部署,注意代码开销平衡,集中在为海量数据高 速打分 120 实时封装方式:将数据挖掘部署封装应用并将集成风险最小化,应用在用户定制的高速、 实时为数据打分上 实时定制方式:将数据挖掘部署到为客户量身定做的应用产品上,在企业组织结构下实 现不同功能的实时打分或者不能以实时封装方式部署的特殊商业目标 策略 1 --快速更新批处理方式 快速更新批处理打分是应用最广泛的方式之一,适应于不需要实时响应的系统。例如, 许多公司使用这种方式对客户数据库保持更新,通过客户关系管理应用为决策者提供最新预 测分析。这种方式以及相关部署应用为与各式操作系统环境提供灵活集成。 Clementine’s Batch 和 Clementine Solution Publisher 帮助你高效部署数据挖掘结 果和迅速更新数据。在不需要 Clementine 客户端界面情况下,后台部署 Clementine 数据挖 掘流。Clementine 批处理模式在命令行执行,而 Clementine Solution Publisher 是一个 灵活的打分组件,可以嵌入到应用中。这种部署方式可以在数据库内按计划执行,例如一个 预测应用需要每月、每周、每天甚至每小时使用最新数据。因为这些运行方式都是执行整个 数据流,更新打分时只需重新运行 Clementine 挖掘流。而且这种使用 Clementine Batch 或 Clementine Solution Publisher 的运行方式可以完全被 SPSS Predictive Enterprise Service 中的 Predictive Enterprise Manager Module 自动使用。 不象其他的数据挖掘解决方案,Clementine 能够部署整个数据挖掘过程,包括关键的 数据准备,建模以及应用模型打分任务,可以在 IBM? DB2? , Oracle? Database, and Microsoft? SQL Server?内使用。这些 Clementine 部署操作因为使用三层体系架构,利用 数据库的检索、优化和数据库内挖掘功能,确保高效数据库内挖掘。通常,大部分的公司只 使用 Clementine 客户端运行所需要的批处理打分,而使用 Clementine Batch 或 Clementine Solution Publisher 进行周期性打分。Clementine 客户端使用数据流描述语言(Stream Description Language)将需要执行的数据挖掘任务发送到 Clementine 服务器端。 Clementine 服务器分析挖掘任务决定那些可以在数据库端执行,将数据转移量降至最低。 在数据库内运行完这些操作后,将剩余的和已整合的数据传递给 Clementine 服务器。 121 图 8.1:Clementine 三层体系架构 策略 2 --海量数据批处理方式 许多 Clementine 实施应用将 Clementine 挖掘流部署在一个可解释的打分引擎上,这样 就需要评估数据挖掘的实际时间以及所需的最小代码开发量。数据挖掘的过程可以被描述在 一个可以被打分组件或应用程序所解析的文件。而对于海量数据批量打分,其应用在至少部 分数据挖掘过程已经转化成某种编程语言,并且编译成计算机可识别代码的基础上。从定义 上讲,已编译模式比可解释模式要快。 因为在海量数据打分环境下运行瓶颈经常发生在数据准备阶段而不是对新数据打分阶 段,所以 SPSS 高速打分操作经常使用混合模式。Clementine 使用 PMML(Predictive Model Markup Language)将预测模型输出给高速打分引擎,PMML 是一种描述数据挖掘模型的行业 标准的 XML 标识性语言(PMML 标准是一个用于模型交换的中间方式,这个标准是由一个由 主流数据挖掘和数据库厂商组建的独立数据挖掘组织制定的)。PMML 模型部署是在已将数 据准备过程代码化后,将模型描述储存在 PMML 文件里,然后根据打分数据的要求将整个过 程编译。SmartScore? 就是 SPSS 基于以上应用的 PMML 打分软件开发包(SDK)。Clementine PMML 模型也可以实施在 IBM DB2 数据库内挖掘,不需要将数据 DB2 数据库中迁入牵出,提 高了性能。 图 8.2:两种典型部署方式 122 策略 3--实时封装方式 预测型分析应用在特定商业目标上时,通常需要实时、高速的对大数据集打分,SPSS 预测分析应用例如 PredictiveCallCenter? and PredictiveWebSite? 就是为已存在的客户 交互功能软件和CRM系统而设计的实时高速产品。PredictiveCallCenter?与呼叫中心系 统集成,提供如提升销售、交叉销售、客户保留等的即时推荐和决定支持。采用被已证明可 行性商业规则结合实时预测分析技术,PredictiveCallCenter?自动提供推荐内容并结合销 售意见和其他代理需要知道的信息将其推荐内容显示在代办人员的屏幕上。 Clementine 可以将 Clementine 预测模型直接发布到 SPSS 预测分析应用产品上如 PredictiveCallCenter。这样就允许将你自己训练的复杂模型使用 PredictiveCallCenter 实施并精炼成实时推荐应用发布出来。模型可以被开发成于多种类数据如网页、文本以及有 关态度的数据相结合,并且具有特定商业目标的应用如提高交叉销售。多种预测模型可以被 合并,例如,将交叉销售和欺诈检测模型相结合,可以确保销售人员不用将精力放在具有明 显欺诈风险的客户身上。 图 8.3:呼叫中心推荐信息产生流程 策略 4--实时定制方式 对于在企业决策支持系统中决策优化目标需要不同功能的实时打分应用,或者针对某特 定的商业实际需求,客户化的界面是十分关键和必要的。Cleo? 和 SPSS Predictive Analytic Framework? 就是为适应广泛商业应用需求而设计的客户化实时打分产品。 Cleo 是创建基于网页打分应用的软件平台,它能简单快速的创建客户化网络应用。企 业级用户使用 Cleo,基于网络的数据挖掘实施工具,给予同一公司的多用户使用 Clementine 模型和根据特定需求的数据打分的权限。采用 Clementine 创建的预测模型,通过 Cleo d 部署向导就可以很轻松的在线进行模型发布。在 Cleo server 能即时产生网络应用,当决策 123 者需要借助 Clementine 生成的预测流程支持他们的决策时,通过网络应用很轻松的实时为 数据打分。不象其他一些基于网络应用的分析工具需要安装桌面软件或插件,Cleo 应用是 真正的瘦客户端,所有使用者只需使用网页浏览器就可以获得权限。 图 8.4:Cleo 实时打分 当企业需要更多高级功能,特别是通过与 SPSS 系统集成开发出更复杂的网络应用时, 通常会使用 Predictive Analytic Framework.这个平台和 Cleo 很类似,是一个可供多种客 户使用的,网络分布的瘦客户端打分环境。它还加入了一些额外的功能如为了方便商业用户 更新模型的简单易用界面,监控预测分析性能而自动生成的增益曲线等等。通过 Predictive Analytic Framework 向导,模型可以很轻松的发布到网络平台上。 图 8.5:SPSS 定制开发应用示例 124 9. 成功案例 9.1 国外成功案例 9.1.1 Southwestern Bell(西南贝尔) 易于使用和强大的统计分析功能使西南贝尔公司的地区经理和居民质量咨询师 Mike Callagher 对 SPSS for Windows 爱不释手。在 1993 年刚开始接触分析软件的时候, Gallagher 使用的是另一个非 Windows 界面的产品,但很快他听说了 SPSS。如今,Gallagher 和他的同事们都在使用 SPSS 来为高级公司决策者作数据分析工作。 “SPSS 使我可以专注于统计分析,而不必在了解软件的使用上拖延时间。” Gallagher 几乎每天都使用 SPSS 来分析可能会对位于五个州的近一万名员工产生影响 的问题。经过数据分析,Gallagher 提出了各种可以减低费用、增加总体客户满意度、提升 西南贝尔市场地位的工作改进方案。 一个例子是有关“重复维修”的问题:维修人员在第一次维修后十天内必须再次进行维 修。Gallagher 使用 SPSS 做了两个步骤的分析。首先,他分析了以前在西南贝尔的大型机 系统收集和保存的大约 85 万条记录,这使他基本了解了哪些因素对重复维修有最大影响。 然后,他用交叉表和回归技术对大约 12000 条记录进行了分析,以确定在维修过程中需要改 进的地方。最后,重复维修流程的改进显著地减少了成本,增加了客户满意度。西南贝尔每 年减少了大约 15000 次维修派遣。 allagher 在讲到他们成功的关键时说 “关键在于能够快速灵活地处理大量数据。从这 方面来说,SPSS 正是我需要的、能告诉我要在什么地方集中注意力的工具。” 9.1.2 CallCounter 公司简介: CallCounter, Inc., 是英格兰一家有近几年成立的新公司,主要业务是为 电信公司高效地收集和分析用户呼叫数据,从而为电信公司增加收入。 面临问题: 125 要为电信公司采集准确的呼叫数据,并识别出收入损失的地方并进行趋势预测 CallCounter 必须做到: ?每月对数百万消费者的呼叫数据进行分析,避免数据丢失 ?区分电话呼叫类别,避免少计费 ?实施市场研究,帮助电信公司更好地了解他们的客户 解决方案: CallCounter 用 SPSS 快速、方便地对呼叫数据进行分析,发现收入损失的地方,并提出解 决建议。为其客户节约了时间和费用。 结果: 帮助客户减少收入损失 每年为客户节约 15 万美元以上 对任何电信公司来说,保证收 入都是最基本的。由于电信公司的收入来源越来越复杂,保证收入的问题也变得更加严峻。 不幸的是,很多主管人员忽略了它,因为他们认为收入损失并不重要,只不过是简单的业务 成本而已。但是,这方面的专家 Deloitte 和 Touche 最新的研究证明:收入损失超过了业 务成本。根据他的研究,电信公司由于错误的呼叫数据一般损失 11%的收入。这些损失是由 于不正确地采集和标记数据、错误的账单和糟糕的订单录入造成的。 Charlie Seymour 在 1996 年成立 CallCounter 的动机就是防止收入减少。他希望同时 为 Cellular 和 Land-line 电话公司解决他们关心的保证收入和数据分析问题。Seymour 在 电信行业已经工作 25 年,他的主要工作是开发账单系统。他相信天衣无缝的数据收集系统 是不存在的,而且没有明确的方法让电信公司分析他们的呼叫数据来回答严峻的问题,如 “所有的呼叫都记账了吗?”,“客户正在打国内长途或本地电话吗?”。 他的方案是:帮助电信公司更准确地分析数据,使他们了解收入是怎么减少的,如何最 终减少损失。CallCounter 依赖 SPSS 进行这些分析。Seymour 用 SPSS 向电信公司提供可 靠的分析数据,简化并加速了他们的市场研究和数据查询过程。更重要的是,帮助这些电信 公司减少了收入损失。CallCounter 如何做到这些呢?根据 Seymour 的说法,CallCounter 是惟一一个直接从交换机—拨号音的起源地收集数据的公司。一般来说 CallCounter 首先 分析电话公司一个月的数据,在月底用 SPSS 的分析结果协调电话公司的账单。为了让电话 公司图形化地对照比较,CallCounter 用易于理解的饼状图来表示分析结果。 帮助客户减少收入损失 即便是只有几个员工的小型电话公司每月也可能有两百万次电话呼叫。如此大量的数据 126 可能会使电话公司错误地分析数据,导致收入损失。“如果在月底不能对数据进行分析,他 们就不能向长途电话公司和用户提供正确的账单,从而引起收入损失。电话公司无法确定账 单是对还是错。更糟糕的是,很多电话公司不相信他们有这种问题。幸运的是,SPSS 帮助 这些公司有效地分析数据,避免了收入损失。” CallCounter 市场部经理 Andrew Desjardins 说。位于缅因州的 Saco River 电话公司 是 CallCounter 早期的客户之一。为帮助 Saco 避免收入损失,CallCounter 赞助了它的数 据收集软件。这个软件会在异常情况下触发警告,如设定时间内异常的低音量呼叫。 CallCounter 的软件使用 25 个报警器来分析和监控收集的实时数据。通过纠正异常报警, CallCounter 保证了进入记账系统的数据的准确性,从而避免了收入损失。仅在第一年, CallCounter 就发现了 5 个呼叫数据处理错误,为用户避免了 10 万元的潜在收入损失。 “SPSS 使我们只需较少的工作量就能为电话公司增加收入。” Seymour 说。 Land-line 电话公司向运营商支付账单,如 Sprint、AT&T 和 MCI,因为使用了他们的 当地设备。这是一个大额的月度账单,轻易就达到地方电话公司收入的一半。 “市话通讯 公司报告的市内和国内长途电话数量,决定了需要向运营商支付的费用。”Seymour 说,“有 些电话呼叫难以确定是从哪里打出的。这种情况下,你要么听信运营商的,要么进行检查数 据。” 大多数电话公司非常希望量化电话呼叫,但很多公司没有这方面的能力。CallCounter 可以用 SPSS 分析这些呼叫并提供准确的结果。根据 Seymour 的解释,通过更认真准确地分 析市内和国内长途电话呼叫,市话通讯公司不仅避免了收入损失,还节约了 10%的接入成本。 每年为客户节约 15 万美元以上 每一个电话公司都要求进行数据分析。这种要求同时来自公司外部和内部。如,市场部 需要知道什么样的方案才能获得和保持满意的客户,工程部门需要分析一天内不同时间的呼 叫通讯量,以准确地进行需求预测,管理部门需要进行数据分析以确保和运营商签订的合同 最大限度地保护了公司利益。Seymour 发现大多数公司在电话呼叫数据的分析上遇到过问 题。 “在我们的帮助下,仅仅通过准确的数据采集、标定和分类,每年就轻易地为小型电话 公司节约了 15 万美元。” 127 9.1.3 Rural Cellular Corporatio 背景介绍 Rural Cellular Corporation (RCC) 为美国中西部、东北、西北和南部地区提供无线 通讯服务。RCC 服务于邻近大都市的郊区或旅游业、农业和小规模商业盛行的高速公路附近。 自从 1990 年以来 ,RCC 发现在乡村通讯市场存在的机会并逐渐经发展成为主要的区域性无 线通讯提供商。通过提出创新性的解决方案,与运营效果好的公司进行合作和提供优异服务 的承诺,RCC 占领了市场。 面临问题 为了保持公司业务和经济效益的持续增长,RCC 必须提出独特的解决方案以最大程度满足客 户的需求。如果有一个较好的市场研究方法,能够明确客户需求,将有利于做出决策。 解决方案 RCC 公司使用了 SPSS 统计分析软件来进行它的市场研究工作,其中包括客户满意度分析、 品牌研究和其它研究以定位市场和特征等。通过连续的收集和分析市场信息,RCC 能够较好 的决定产品、改善品牌及分配资源。 结果 使用 SPSS 产品后,RCC 公司已经体会到从大量数据中得到支持商业决策信息的重要性。“我 们不能想象如果没有统计数据的支持该如何做生意,” RCC 公司市场研究部项目经理 Noel Roos 说道,“一些公司的决策是来自于领导核心的直观判断,这是非常危险的,因为人总 是趋向于相信你愿意相信的事情。令人惊异的是,市场数据能改变人的思想。” 较好的产品配置和服务方案 大多数 RCC 的研究集中在改善产品特性上。“我们做了大量的研究以理解如何改善产品 和服务或发展哪种类型的新的服务,” Roos 说,“这实际上是告诉我们客户想要什么和我 们需要用什么来满足他们的需求。” 例如,几年以前,公司的一个竞争对手提出了 Single-rate Plan,许多公司也推出了相似 的方案,而这些方案的实施都是非常昂贵的。RCC 则采用 SPSS 估计了客户的需求。 “我们 需要知道我们的客户需要什么而不是盲从于市场,” Roos 说,“根据对竞争对手的方案进 行研究发现,Single-rate Plan 是非常昂贵的。同时,我们也看到方案的某些特性是客户 确实需要的,例如无漫游费和更大的覆盖面积。” 在投资前,RCC 调查了他们的客户想要 什么样的服务,他们想用这些服务来做什么和他们愿意为这些服务付多少钱。为了推出一项 128 新的服务,RCC 请客户讨论关键利益。“理解客户对我们的服务已经了解的程度能帮助我们 决定突出那些明显的或隐蔽的利益,”Roos 解释道。 改进资源分配能力 利用 SPSS,RCC 分析了市场数据以决定如何分配资源。据 Roos 所说,“基于市场数据的决 策对底线有直接的影响。你拥有的信息越多,你的效率越高。利用 SPSS 来做出的决策能够 影响我们做的每一件事情例如,通过分析数据,有可能发现用户拥有电话的数量与用户年龄 等级之间的相关。这样,就可利用这个信息,根据满足不同目标市场的需求来分配资源。 “SPSS 能够帮助我们更好的理解将钱花在什么地方,”Roos 说,“例如,我们是将钱 花在扩大通讯覆盖范围还是推广新的服务如语音拨号上?没有 SPSS 来解答这些问题,我们 可能会在投资上有失误,例如,当客户需要高质量的服务时,我们却将钱花在推广新的服务 内容上。” 增加品牌形象的意识程度 RCC 每年进行品牌调查以评估它们给客户的形象是否就是它想要给客户的形象。调查中,请 客户回忆 RCC 的广告并鉴别他们对品牌的印象。RCC 也收集客户对 RCC 的品牌形象与竞争对 手的品牌形象对比的数据。利用 SPSS,RCC 能够比较满意的评估数据以决定客户是否能将它 的品牌从竞争对手的品牌区分出来。“研究品牌调查的数据能够帮助我们衡量广告的有效性 和评估我们是否走在正确的轨道,”Roos 说,“我们是在建立我们想要的名声吗?我们的 品牌是突出的还是与别的品牌混杂在一起?如果我们的客户难于将我们从竞争对手中分辨 出来,那们这将是一个价格问题而且是我们不想要的结果。” 9.1.4 英国电信公司 面临问题: 为了从市场营销预算中获得最大的价值,英国电信需要建立模型来预测潜在客户的购买倾向 和他们变为用户之后可能的价值。在对客户类别作了准确描述之后,英国电信公司希望针对 某个客户群体设计一种新产品,以期达到以下结果:更高的市场活动回应率,增加产品收入, 更高的市场占有率。 解决方案: 英国电信选用了 SPSS 的数据挖掘产品 Clementine,来为其“Business Highway”活动分析 129 数据和建立探索模型,“Business Highway”是为小型商业客户设计的一款产品。如今,英 国电信公司已经对这些客户及其电信消费行为有了一个更好的理解。在未来,该公司将继续 依赖 Clementine 可视化的快速建模环境为其未来的营销活动指引道路。 结果: 一向太平的电信行业现在已充满了火药味。前垄断者—英国电信公司依然是英国本地电话、 国内长途、国际长途和数据服务提供商的领袖。该公司虽然每年约有 290 亿元的销售额,但 来自英国其它约 160 个电信公司的竞争,使其不得不去了解哪些人会购买它的产品和服务, 以保留现有客户、获取新客户、从每个客户身上获得最大价值。 该公司特地成立了一个 由高级咨询顾问 Stephen O'Brien 带领的客户和市场分析小组,以更好地了解客户。该小组 的首次任务就是为新产品—“Business Highway”的市场活动建立客户特征描述。 “Business Highway”是一款为小商业用户提供一条线三个号码的产品。1998 年 9 月进行 了一次包括大型直邮和国家媒体广告的市场活动。 数据:收集信息 相关的客户、产品、帐单和历史数据分散在公司的各个部门。因此,分析小组首先集中数据, 形成一个新的数据集市,以便于数据库营销。由于必须从各不同系统中抽取数据,并进行匹 配,清洗工作,所以准备工作要花费大量时间。只有在做好这些数据准备工作之后,才能开 始作数据分析工作。数据准备和数据分析均可利用 Clementine 工具进行。 工具包:用数据挖掘发现隐含的模式 为对样本数据进行挖掘并从中发现潜在的模式和趋势,英国电信公司选择了 SPSS 公司的快 速建模环境—Clementine。O'Brien 之所以选择 Clementine 为其数据挖掘工具,是“因为 Clementine 为客户和市场分析小组提供了多种分析方法—包括聚类、神经网络、关联规则 和决策树。它也能容易地处理常规数据问题,如异常值、缺失值和低价值数据。” 分析数据和建模过程 分析小组用 Clementine 作为其主要的数据分析和建模工具。在数据分析过程中,首先,该 部门员工利用 Clementine 进行了数据质量主题分析,熟悉数据及其分布,排除了与购买 “Business Highway”产品不太相关的数据属性。然后,对和客户购买产品的倾向相关的单 个数据属性的预示力度进行测量。例如:两位地区数字代码、地理指示器,与回应和购买属 性明显相关。 在这些分析之后,分析小组利用 Clementine 提供的决策树算法构建并检验了一系列探 索性模型。O'Brien 称该工具的最吸引人的地方是:“你不会在数据挖掘项目中迷惑, 130 Clementine 让你快速试验各种想法并排除一些错误想法,你可以在几天内构建多个探索性 模型,从而降低了数据挖掘项目的失败率。” 向销售人员和营销活动提供了“最佳潜在客 户”清单 “Clementine 的主要输出结果是对数据的洞察力—那是数据挖掘的全部所在—和这些 洞察结果的可视化展示。”O'Brien 说。 “我们提供给销售人员和营销活动的是客户清单和图形,并表明了为什么他们应该向这 些客户推荐 ’Business Highway’ 产品。” 直邮活动回应率提高了 100% “Business Highway 项目的成功说明了如何在商业活动中通过数据挖掘获利。有了 Clementine,先前所 作的探索性数据分析和可视化结果,使我们能够制订出满意的客户选择标准。甚至在完成最 终模型之前,我们就已经可以超越原始目标,并使活动的回应率提高了 100%。”O'Brien 说。 还有更多的事情要做。下一步,分析小组计划使用 Clementine 识别有最大潜在利润的 客户和垃圾客户。未来他们或许会尝试确定客户欺诈模式是否与客户流失模式一致。 建模:投资回报 成功地客户特征描述需要商业知识、合适的数据和合适的产品。英国电信新的建模方案 使之可以在产品和活动的整个生命周期中定位目标客户,确定不断变化的市场的发展趋势并 加强在不同市场领域的渗透。SPSS 的数据挖掘工作平台—Clementine 将为营销活动提供快 速、可靠的统计分析。而回报呢?就像英国电信的”Business Highway”案例所表明的:更 好的客户和更高的销售额。 9.2 国内成功案例 9.2.1 某省级电信公司 面临问题 小灵通用户是某省电信企业利润的主要来源之一,也是市场竞争的焦点。在目前的市场形势 下,发展新客户的成本远远大于留住已有客户的成本。但在其电信经营分析与决策支持系统 中无法做到提前预警,挽留用户。某省级电信公司希望借助 Clementine 数据挖掘技术发现 离网小灵通用户的潜在模式,提前进行预测,从而变被动服务为主动服务。 131 解决方案 选用了 SPSS 的数据挖掘产品 Clementine,使用企业级数据挖掘平台 Clementine,按照 CRISP-DM 数据挖掘标准流程,以全省某特定时间离网的后付费小灵通用户为研究对象,同 时选取同期在网的后付费小灵通用户作为对照研究对象;在用户产品订购数据、用户消费行 为特征数据和用户其他行为特征数据的基础上,分别建立神经网络模型、C5.0 模型和 Logistic 回归模型,最终得到预测的具体离网用户名单以及离网概率和离网用户的特征描 述信息。 结果 通过应用 Clementine 数据挖掘结果,发现了离网小灵通用户的潜在模式特征,为下一 步的客户挽留提供可靠依据 某省级移动公司 面临问题 公司希望借助数据挖掘软件识别客户特征,通过了解客户的概貌指导公司制定合适的营 销策略从而达到保持、拓展现有的客户价值。 解决方案 使用企业级数据挖掘平台 Clementine,按照 CRISP-DM 数据挖掘标准流程,结合客户资 料数据、客户服务数据以及计费帐务数据,使用 Clementine 中的各种聚类算法生成客户分 群模型,分析不同算法得到的分群结果,基于行业应用评估标准对已生成的模型评估,最后 使用决策树算法得到各客户群特征。 结果 Clementine 良好的稳定性和卓越的性能大大提高数据挖掘生产效率,可视化编程模式 让业务人员和行业专家能够参与到数据挖掘项目过程中,业务经验和数据挖掘技术的完美结 合,提高了数据挖掘模型的质量。通过数据挖掘专家和行业专家的合作,对移动客户业务方 面提供了如针对性差异化套餐设计、差异化客户服务以及设计促销活动等多方面建议。 9.2.2 部分国内外电信客户的名单(排名不分先后) AT&T——美国 BPL 移动公司——印度 132 英国电信——英国 西班牙电信——西班牙 Etisalat——阿联酋 KPM——荷兰 NTT——日本 Orange——瑞士 Panafon——希腊 SingTel——新加坡 Telecel——葡萄牙 Telemig Cellular——巴西 Verizon——美国 VIAG Interkom——德国 Vodafone——澳大利亚 Westel——匈牙利 中国电信总公司 武汉电信 新疆电信 中国移动总公司 江苏移动 内蒙古移动 辽宁移动 吉林移动 133 第三部分 制造行业应用 1. 简介 面临的挑战 经济一体化的浪潮席卷全球,社会化生产与地域资源优势的整合,给中国企业成为“世 界制造工厂”提供了前所未有的机遇。自从中国加入 WTO 以来,中国企业将面临着更加激烈 的国际市场竞争。市场竞争是实力的竞争,是品质的竞争,归根结底是企业管理水平和效率 的竞争。 面临的问题 制造业需要从以前的粗放式生产经营模式过度到精细化的生产管理。由于质量是现代企 业核心竞争力最基础、最根本的要素,如何提升质量水平,以达到控制不合格品率,降低生 产成本成为许多企业面临的严峻问题。另外对原材料的供应和产品的销售进行预测,了解产 品质量状况的分布模式并对之进行中长期 的预测分析也是现代企业面临的挑战。 SPSS 与制造业 在美国,85%以上的制造业公司在应用 SPSS 的分析工具。 SPSS 通过评估订货模式、库 存水平和可替换零部件的定价 等的结合,在维持较高客户满意度的同时帮助制造业公司提 高盈利水平。SPSS 预测分析工具可以计算出最优的库存策略,决定某个部件的最优订购时 刻和最优数量。SPSS 简单易用的质量控制图表程序可以对产品质量进行监测和控制。SPSS 的质量控制图模块可以对产品的各个质量指标进行监测和控制,及时扑捉到生产过程中质量 指标的变化,告警质量分析人员,分析或调整生产过程,使生产线正常运行。 SPSS 的方差分析工具主要用于实验数据的分析确定哪些因数位级(水平)或组合影响 产品的质量特性,从而优选出最佳机型、流程或配方等。SPSS 的方差分析工具包括单因素 方差分析(ANOVA)、协方差分析(ANCOVA)、多因素方差分析(MANOVA)。 SPSS 的回归分析主要用于寻找有关质量特性与各个生产因素之间的关系,以作出科学 预测或确定最佳作业条件。回归分析主要包括线性回归、Probit、 Logit、多变量回归、 Logistic 回归、非线性和约束非线性回归(NLR 和 CNLR)等。在生产过程中的抽样数据往 往带有时序性,时间序列技术可以更好地分析数据之间的关系(如自相关性)。时间序列技 134 术包括 ARIMA、EXSMOOTH、SEASON、SPECTRA、AREG 等,它们是分析产品过程的有利利器。 SPSS 提供了从产品设计、生产过程分析到产品质量监控,产品差错分析到质量控制和预测 的各种相关工具。 A)产品设计方法 如果应用正交试验设计方法来进行产品的质量设计,可以用尽可能少的试验次数,确定 哪些因数位级(水平)或组合影响质量特性,从而优选出最佳机型、流程或配方等,找出组 成比较合适的生产条件的各个因素的合适的生产水平。这样可以减少工作量,降低生产误差 和生产费用。应用试验设计可以找出各个因素对考核指标的影响规律,比如,哪些因素是起 主要作用,哪些因素是起次要作用的的?那些因素只起单独作用,哪些因素除了自己单独作 用以外,它们之间还产生综合作用?这种作用的效果有多大? SPSS 提供的实验设计法、多 变量解析法、方法研究、抽样调查方法、功能检查方法等可以实现以上的分析和设计方法。 SPSS 的强大的方差分析工具,如单因素方差分析(NOVA)、协方差分析(ANCOVA)、多因 素方差分析(MANOVA)是高级产品设计分析的最佳选择。 B)质量控制 通过 SPSS 可以实现全面的统计质量控制管理,并且使质量管理过程变得简单、直观、 易于实现。日本著名的质量管理专家石川馨曾说过,企业内 95%的质量管理问题,可通过企 业上上下下全体人员活用质控七工具而得到解决。SPSS 可以实现统计质量控制的七个基本 工具(或叫品管七大手法),它们是控制图、因果图、直方图、帕累托图(Pareto)、统计 分析表、数据分层法、散布图。 运用这些工具,可以从经常变化的生产过程中,系统地收 集与产品质量有关的各种数据,并用统计方法对数据进行整理,加工和分析,进而画出各种 图表,计算某些数据指标,从中找出质量变化的规律,实现对质量的监测和控制。 SPSS-质量控制图表 SPSS 通过菜单和语法的形式,可实现各种控制图的绘制。除了帕累托图、直方图、散 布图等统计分析表外,还包括一些特有的图表,如误差图、规则违反表、时序图等一些质量 管理中常用的图表分析方法。 通过菜单可以方便地绘制以下控制图: X-S 控制图(均值-标准差控制图) X-R 控制图(均值-极差控制图) X-Rs 控制图(单值-移动极差控制图) 不合格品率的控制图-P 图 135 不合格品数的控制图-Pn 图 不合格数的控制图-C 图 单位不合格数控制图-U 图 另外,SPSS 还可以在以上控制图上应用以下控制规则: 如果控制图上的点子同时满足下述两个条件,则认为生产过程处于统计控制状态: 绝大多数点子位于控制界限以内。 连续 25 个点中没有一个点在界外(控制图上界和下界之间)。 连续 35 个点中至多一个点在界外(控制图上界和下界之间)。 连续 100 个点中至多有两个点在界外(控制图上界和下界之间)。 点子排列无下述异常现象。 同侧链。连续 7 点或多于 7 点位于中心线同一侧。 单调链。连续 7 点或多于 7 点单调上升或下降。 间断同侧链。连续 11 点中至少有 10 点位于中心线同一侧;或者连续 14 点中至少有 12 点在中心线同侧;或连续 17 点中至少有 14 点在中心线同侧;或者连续 20 点中至少有 16 点落在中心线同侧. 高位或低位链。连续 3 点中至少有 2 点落在两倍于上界与中心线距离以外;或者连续 7 点中至少有 3 点落在两倍于上界与中心线距离以外 ◆ 均值控制图、np、u 控制图: 136 ◆ 控制图的诊断 SPSS 控制图附带的规则违反表可以用于分析生产过程是否处于统计控制状态,帮助找 到失控的部件或失控的生产时刻。 ◆ 带控制规则的 X-Bar (均值)控制图 137 ◆ 控制图统计量---执行能力和运行能力指标统计 C)Clementine 数据挖掘在制造业中的应用 Clementine 是业界领先的数据挖掘产品,它集成了最先进的数据挖掘模型和算法,例如 K-means, C5.0, Quest, CHAID 等分类算法,Kohonen,K-means,两步法等聚类算法,Apriori, GRI, GARMA 等关联规则算法。制造行业可以利用它来实现以下传统方法所不能完成的预测 分析: 138  需求规划  需求预测  产品定价  产品质量状况模式和预测  生产过程短期监控分析  生产过程长期走势分析  生产过程异常模式分析  产品质量分析  供销预测  原材料需求预测  销售收入预测 o 其他各种财务指标分析、预测  经营分析 o 分析经营中的问题和原因,例如盈利增长或者降低的原因 o 各分公司的情况对比分析 o 预测故障的发生,防患于未然 D) 制造业成功案例 ---POSCO(韩国) 基于 Clementinede 的预测和控制系统 POSCO, 南韩的世界级钢铁公司, 使用 Clementine 作为基础引擎开发了预测和控制系统, 从而有效地稳定了钢的输出质量 Y. 当 Y 的预测偏离了目标值, 系统自动地提示工程师重新 设置指定的关键参数到某一水平. 为了满足预测和控制的项目目标, POSCO 使用了 Clementine‘s C&R Tree 模型在成百上千 的监测变量中确定了关键的驱动因子,建立了一个简洁的预测模型, 并使用回归模型确定控 制型驱动因子的置换. 结果 控制/预测系统成功地见效于 最终产品质量波动性的降低。过去六个月利用生产过程数据的 内部评估,显示出该系统带来 10-20%的改善,预示着在生产线实施部署该系统的美好前景
还剩137页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

华宇军

贡献于2015-07-04

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf