• 1. 12008年3月数据挖掘概念与技术
  • 2. 2第1章 引言本章要点 数据仓库的发展 数据挖掘 数据挖掘的类型 数据挖掘常用技术 数据挖掘解决的典型商业问题
  • 3. 3数据仓库的发展自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库:大都 客户/服务器结构。 近年来:数据仓库体系结构从功能上划分为若干个分布式对象,可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
  • 4. 4数据仓库的发展IBM: 在其DB2UDB发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。 Informix公司: 在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。
  • 5. 5数据仓库的发展微软公司: 在其SQL Server7.0以及SQL Server2000中集成了代号为Plato的OLAP服务器。 Sybase: 提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio 。 PLATINUM: 提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。 ; Oracle公司: 则推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。
  • 6. 6数据仓库的我国的发展现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效不理想 原因: 现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才; 没很好使用数据仓库前端工具(如OLAP工具、数据挖掘工具等)。
  • 7. 7数据仓库的我国的发展前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。
  • 8. 8数据仓库(Data Warehouse)的定义数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
  • 9. 9数据仓库的适用范围信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能 而降低精度要求
  • 10. 10支持管理决策 数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。 OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。 数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。 因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。
  • 11. 11数据仓库的技术要求大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。
  • 12. 12    随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。 如何有效使用数据库中存储的海量数据?
  • 13. 13如何有效使用数据库中存储的海量数据?   数据挖掘就是从大量的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 数据挖掘的主要目的是提高市场决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。 例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高1℃,就会增加230万瓶的啤酒销量;而日本人则发现,夏季30℃以上的天气每增加一天,空调的销量便增加4万台。
  • 14. 14美国沃尔玛超市“啤酒与尿布”的故事    沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。 发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。 分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。 得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。     从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。
  • 15. 15数据挖掘数据挖掘(Data Mining) :又称为数据库中的知识发现,是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。 模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。
  • 16. 16数据挖掘数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。 数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。
  • 17. 17数据挖掘的发展“从数据中发现有用模式”历来有很多称法,如: 数据挖掘(data mining) 知识提取(knowledge extraction) 信息发现(information discovery) 信息收获(information harvesting) 数据考古(data archaeology) 数据模式处理(data pattern processing) “数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。
  • 18. 18数据挖掘的发展70~80年代:知识发现与数据挖掘结合 1989年6月:在美国底特律举行了第一届“从数据库中知识发现”的国际学术会议,在这次会议中第一次使用了KDD 这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。 1995:加拿大召开第一届知识发现与数据挖掘国际学术会议
  • 19. 19历届有关KDD的学术会议 时间 会议名称 会议地点接受论文数提交 论文数Jun.1989Workshop on KDDDetroit,Michigan,USA2969Jul.1991Workshop on KDDAnaheim,California, USA2546Jul.1993Workshop on KDDWashington,USA28401995KDD95Montreal,Canada40135Aug.1996KDD96Portland,Oregon,USA45220Feb.1997PAKDD97Singapore3597Aug.1997KDD97California,USAApr.1998PAKDD98Melbourne,AustraliaAug.1998KDD98New York,USA
  • 20. 20数据挖掘的发展数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix, Oracle, IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。 第一本关于数据挖掘的国际学术杂志《Data Mining and Knowledge Discovery》于1997年3月创刊。 国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。
  • 21. 21DM系统的体系结构 (1)DW 的步骤: 数据准备: 数据集成 数据选择 预分析 挖掘 表述 评价 (2)DW 系统的结构: 用户界面结果输出数据挖掘核心知识库数据仓库数据库文件系统其他 数据源ODBC或其他专用数据库接口
  • 22. 22数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括: 数据的选择:选择相关的数据 数据的净化:消除噪音、冗余数据 数据的推测:推算缺失数据 数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等 数据的缩减:减少数据量数据挖掘的过程
  • 23. 23数据挖掘的过程挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。
  • 24. 24数据挖掘的过程评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。
  • 25. 25数据挖掘的过程巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。 运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。
  • 26. 26数据挖掘的类型数据挖掘的任务: 是从大量的数据中发现模式。 比较典型的有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性挖掘 Web数据挖掘
  • 27. 27预测模型预测模型(Predictive Modeling): 即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布 建立预测模型的常用方法: 回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络
  • 28. 28关联分析关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。 在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。 近几年研究较多。现在,已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。 关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。
  • 29. 29分类分析分类(Classification)分析:根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。 在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 分类分析的常用方法: 约略(Rough)集 决策树 神经网络 统计分析法
  • 30. 30聚类分析聚类(Clustering)分析:聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。 聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。 好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。 聚类分析的常用方法: 随机搜索聚类法 特征聚类 CF树
  • 31. 31序列分析序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。
  • 32. 32偏差检测与模式相似性挖掘偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。
  • 33. 33Web数据挖掘Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。 Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。 Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究
  • 34. 34数据挖掘系统的结构数据挖掘系统可以采用三层的C/S结构: 第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务器端。
  • 35. 35数据挖掘系统的结构-图形用户界面该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。 用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。 此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。
  • 36. 36数据挖掘系统的结构- 数据挖掘引擎数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。 该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。
  • 37. 37数据挖掘系统的结构-数据库与数据仓库该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。 数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。
  • 38. 38数据挖掘常用技术生物学方法 人工神经网络 遗传算法 信息论方法 决策树 集合论方法 约略集 模糊集 最邻近技术 统计学方法 可视化技术
  • 39. 39生物学方法-神经网络方法神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。 在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。
  • 40. 40生物学方法-神经网络方法神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。 以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型: 前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 反馈式网络:以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 自组织网络:以ART模型、Koholon模型为代表,用于聚类。
  • 41. 41生物学方法-遗传算法遗传算法(Genetic Algorithms,简记为GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。 遗传算法的研究历史比较短,是从20世纪60年代末期到70年代初才开始的,当时的一些学者从试图解释自然界中生物的复杂适应过程入手,模拟生物进化的机制来建立人工系统的模型。经过近30的发展,现已取得了理论研究的进展和丰硕的应用成果。 目前,以遗传算法为核心的进化算法已与模糊系统理论、人工神经网络等一起成为人工智能研究中的热点,受到许多学科的共同关注。
  • 42. 42生物学方法-遗传算法遗传算法的研究与生物进化理论和遗传学密切相关。生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。 达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。 生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。
  • 43. 43生物学方法-遗传算法遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似解;在每一代,根据问题域中个体的适应度大小进行选择,并借助遗传算子进行组合交叉和变异,从而产生出代表新的解集的种群;以上过程将导致种群象自然进化一样的后代种群比前代种群更加适用于环境,末代种群中的最优个体经过解码可以作为问题的最优近似解。
  • 44. 44生物学方法-遗传算法遗传算法中的三个基本操作: 选择:即通过适应度的计算确定重组或交叉的个体,并确定被选个体将产生多少个子代个体。 交叉:又称为基因重组,即结合来自父代种群中的信息产生新的个体。 变异:即交叉之后子代的基因按小概率扰动所产生的变化。 遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。 遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,因此可以应用于函数优化、组合优化、生产调度、自动控制、机器人智能控制、图像处理、模式识别、机器学习、数据挖掘等众多领域。
  • 45. 45信息论方法信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般规律的学科分支。其研究内容主要包括:以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特性、信源编码、信道和信息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检测,以及有关理论;以计算机为中心的信息处理技术与理论,例如模式识别、自学习理论、自动机器翻译等。 在数据挖掘中,决策树(decision tree)是一种广泛使用的图解法决策分析工具,它把影响各行动的有关因素(自然状态、概率、损益值等)用树型图表示,可直观形象地表示出各条件和所允许的行动以及各种结果中间的关系。
  • 46. 46决策树方法决策树:用树结构表示决策集,这些决策产生规则,用于对数据集进行分类。 决策树的建立:利用训练集生成一个测试函数,根据不同取值建立树的分支,再在每个分支子集中重复建树的分支的过程,即可建立决策树。然后对决策树进行剪枝处理,即可得到规则。 典型的决策树方法:ID3、分类回归树(CART)、C4.5等。
  • 47. 47集合论方法-约略集约略集(Rough Set)又称为粗糙集和粗集,是由波兰华沙理工大学Z . Pawlak教授等提出的研究不完整数据、不精确知识的表达、学习和归纳的理论与方法。 约略集方法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同,它是以对观察和测量所得数据进行分类的能力为基础的,为智能信息处理提供了有效的理论基础和处理技术。
  • 48. 48集合论方法-约略集约略集理论是Z.Pawlak于1982年在《计算机与信息科学》国际杂志上发表的论文“Rough Sets”中首先提出的一个分析数据的数学理论。在分类的意义下,这个理论定义了模糊性与不确定性的概念,由于最初的研究大多是用波兰文发表的,因此,这项研究在当时并未引起国际计算机学界的重视,研究地域局限在东欧各国。 到了80年代末,这个理论引起了世界各国学者的注意,人们对约略集理论的主要兴趣在于它恰好反映了人们以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。如医学、药学、工业、工程技术、控制系统、社会科学、地球科学、开关电路、图象处理和其他许多方面都已经成功地实现了它的应用。
  • 49. 49集合论方法-约略集国际上关于约略集理论和知识发现的会议: 1993年在Banff, Alberta, Canada举行的The Int’l Workshop on Rough Sets and Knowledge Discovery 1996年在University of Tokyo举行的The Fourth Int’l Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery 研究集中在约略集理论的数学性质、拓广、与其他不确定方法的关系和互补,以及有效算法等方面。 基于Rough集方法的数据挖掘工具:如ProbRough、TRANCE、KDD-R、LERS、DataLogic/R等。
  • 50. 50精确集与约略集令U是全域,XU,若X是任意基本集的并,则X是R(区分关系)可定义的,否则是R不可定义的;R可定义集也称作R精确集(R Exact Sets),它在U的知识库中可以被定义,而R不可定义集不能在该知识库中定义,称为R非精确集(R Inexact Sets)或R约略集(R Rough Sets)。
  • 51. 51约略集-上近似与下近似约略集的基本观点:用一个二元关系来建构集合的近似。信息系统S =(U,T,V,)的不可区分集合RB(x)(在约略集理论中即等价类[x]B)是用来近似任何子集XU的基石。 如果用属性B不能精确地定义集合X,这时可以考虑用等价关系B导出的等价类近似地定义集合X,给出集合X的下近似和上近似的定义。 根据X的上下近似,可以将U分为三个区域:正区域,负区域和边界区域。
  • 52. 52概念X的上下近似图解
  • 53. 53集合论方法-约略集约略集理论用于分类规则挖掘:发现不精确数据或噪声数据的内在结构联系。其基本思想是建立样本数据内部的等价类,而这些等价类是按照下近似和上近似“约略地”定义的。对于每一个等价类可以产生相应的判定规则,对于下近似可建立确定性规则,对于上近似可建立不确定性规则(含可信度),并用判定表表示这些规则。 约略集理论用于特征归约和相关分析:找出描述给定数据集中所有概念的最小属性子集。 约略集理论用于属性化简及其规则筛选:减少数据库系统中的冗余属性,提高数据库中所隐含知识的可理解性。
  • 54. 54集合论方法-模糊集方法模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,也就意味着模糊性越强。 在进行分类规则挖掘时,如果采用精确值作为阈值或边界是比较苛刻的,引入模糊集的隶属函数后可以使分类更加接近于现实。基于模糊集理论的分类方法通常需要将属性值转换为模糊值,然后使用模糊规则对给定样本数据进行分类。 模糊集合理论还可以用于对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析等。
  • 55. 55统计学分析方法在数据挖掘中,统计学可应用于预测、聚类规则挖掘和时序数据的趋势分析等。 预测是数据分析的一种重要形式,通过建立连续值函数模型,可以预测数据的未来变化趋势。连续值的预测可以使用统计学中的回归统计技术建模,如线性回归、多元回归、非线性回归、广义线性回归(对数回归、泊松回归等)。许多问题可以用线性回归方法解决,而更多的问题则可以对变量进行变换,使得非线性的问题转换为线性的问题加以处理。
  • 56. 56统计学分析方法-预测在数据属性之间存在两种关系: 函数关系:能用函数公式表示的确定性关系,可以采用回归分析的方法; 相关关系:不能用函数公式表示,但仍是相关确定的关系,可以采用相关分析和主成分分析等方法。
  • 57. 57统计学分析方法-聚类分析统计学方法还可以应用于基于模型的聚类分析。例如,概念聚类是一种基于模型的聚类方法,它对于一组为标记的对象,产生一个分类模式。这种聚类不仅能够确定相似对象的分组,还可以发现每一个分组的特征描述,即每一个分组代表了一个概念或类。概念聚类的大多数方法采用了统计学的途径,在决定概念或聚类时使用概率度量,用概率描述导出的概念。
  • 58. 58可视化技术可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚、更直观。例如,把数据仓库中的多维数据或者把由数据挖掘获得的模式和规则变成多种图形,这对揭示数据的状况、内在本质及规律性起到了重要的作用。
  • 59. 59数据挖掘解决的典型商业问题数据挖掘技术从一开始就是面向应用的,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。 解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。
  • 60. 60数据挖掘在市场营销的应用是以市场营销学的市场细分原理为基础, 其基本假定是“消费者过去的行为是其今后消费倾向的最好说明” 通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销
  • 61. 61数据挖掘在市场营销的应用与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。 基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义,我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够得到。 如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,卖特效药品的厂商向医院特定门诊就医的病人邮寄广告,肯定会比漫无目的的营销效果要好得多。
  • 62. 62竞技运动中的数据挖掘美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。-- Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。 每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。 例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。