• 1. 统计分析方法建模9.1 统计聚类方法 9.2 统计判别方法9.1 统计聚类方法
  • 2. 分类学主要靠专业知识进行分类 数学工具逐渐被引进了分类模糊统计聚类分析9.1 统计聚类模型统计聚类分析距离分类方法1965模糊数学的出现
  • 3. 利用样本的指标值对样本进行分类的统计方法称为统计聚类分析法聚类分析问题:设有n个样本,每个样本有p个指标值 问如何按这些指标值把n个样本分成k类 ? 9.1 统计聚类模型
  • 4. 例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分3类。
  • 5. 9.1.1 距离和相似系数一种方法是将每个样本看作 p维空间中的一个 点, 在p维空间中定义两点间的距离,并把距离近的点 归成一类; 另一种方法是定义指标间的相似系数,相似系数 接近1或 -1的两个指标相似性最大,把最相似的 归成一类。 衡量两个样本的接近程度的方法常用的有两种
  • 6. 9.1.1 距离和相似系数3.名义尺度:指标度量既不是数量也没有次序关系,如 化学中的催化剂种类,医疗诊断中的“+”、“-”反应等定义距离和定义相似系数都与数据的类型有关。数据按其测量的尺度可分成如下几类1.间隔尺度:指标用连续实变量表示,如长度、重量等2.有序尺度:指标度量没有明确的数量表示,只有次序关系,如对事物的评价分为好、中、差三个等级模糊统计聚类分析
  • 7. 距离的概念为消除各种量量纲的影响以保证各变量在分析中处于同等地位1.利用标准差进行标准化 x的标准差标准化变量为数据标准化方法
  • 8. 2. 利用极差标准化 x的极差标准化变量为 用标准差标准化后和用极差标准化后的变量其均值都为0,相应的标准差和极差均为1。距离的概念数据标准化方法
  • 9. 表示两个样本间的距离 标准化后的数据1. 绝对距离 2.欧几里德(Euclid)距离3.闵可夫斯基(Minkowski)距离常用的距离距离的概念
  • 10. 开始时,由于n个样本各自成一类,故类与类之间的距离就是样本间的距离;他类的距离,再将距离最近的类合并。将距离最小的一对并成一个新类,计算新类与其 9.1.2 系统聚类方法这样每次减少一类,直至满足聚类的要求为止。系统聚类法基本思想先将n个样本各自看成一类,共有 n类;然后规定样本之间的距离和类与类之间的距离一种逐步合并的聚类方法 0.1 0.2 0.5 2 3 56 5 4 3
  • 11. 9.1.2 系统聚类方法从21个工厂各抽一件同类产品,每个产品测两个质量指标,记为x1 , x2 ,要求按产品质量将工厂分成4类(除16、21这两个工厂外). 对产品测得的数据如表 工厂号12345678910x10022445667x26553431210工厂号1112131415161718192021x13-2-3-3-5100-1-1-3x2422021-1-2-1-3-5例9.3
  • 12. 9.1.2 系统聚类方法平面直角坐标系一个点(x1,x2)欧氏距离产品与产品间的距离 如距离为1的点合成一类121513 121434161021205 6 8 7 91819 17x1x21=(0,6)6=(4,3)
  • 13. 9.1.2 系统聚类方法类间的最短距离
  • 14. 9.1.2 系统聚类方法类间的最小距离为2
  • 15. 最长距离法 中间距离法 重心法(centroid method) 类平均法(group average method) 离差平方和法 (瓦尔德方法 )常用的还有聚类方法 9.1.2 系统聚类方法
  • 16. (本页无文本内容)
  • 17. (本页无文本内容)
  • 18. (本页无文本内容)
  • 19. (本页无文本内容)
  • 20. 例9.3的程序实现
  • 21. (本页无文本内容)
  • 22. t = m= 1 16 1 17 1 18 1 19 1 20 1 1 1 1 1 1 3 3 3 3 2 2 2 2 2 4
  • 23. 9.1.2 有序样本聚类方法排序后每一类 费歇最优分割法 在某种误差意义下,有可能求得其最优解适用于样本按一定的要求排列成序分类时不能打乱这种次序如按时间的先后 地层的深浅等n个有序样本相当于在n-1个位置放置k-1个栅栏,共有基本思想不改变其排列次序分为k类每个位置想象为两个样品之间的“间隔”
  • 24. 9.1.2 有序样本聚类方法费歇最优分割法的步骤 Gij 表示类 表示该类的平均值 表示Gij类的直径 (离差平方和 )步骤1求类的平均值,类直径xl为向量形式
  • 25. 9.1.2 有序样本聚类方法 定义目标函数(误差函数)表示将n个样本分成k类的一个分法 (每个类的始点确定) 目标函数步骤2
  • 26. 9.1.2 有序样本聚类方法求精确最优解如果有一种分n个样本为k类的最优分法 设其前k-1类内最后一个样本为xj-1, 则前j-1个样本分成k-1类的最优分法一定是 这就得到步骤3
  • 27. 儿童的生长发育与其吸收营养及生理过程有关.下表列出了1至11岁的儿童每年平均增重年龄 1 2 3 4 5 6 7 8 9 10 11增重(千克) 9.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9 2.3 2.1引例9.4问能否把1岁至11岁分成几个发展阶段?应如何划分阶段? 9.1.2 有序样本聚类方法
  • 28. 9.1.2 有序样本聚类方法计算各种可能类Gij的均值 1 2 3 4 5 6 7 8 9 102 3 4 5 6 7 8 9 10 115.55 4.333 1.85 3.675 1.8 1.8 3.24 1.725 1.7 1.6 2.917 1.64 1.6 1.5 1.4 2.7 1.6 1.56 1.475 1.4 1.35 2.613 1.657 1.633 1.58 1.55 1.567 1.7 2.533 1.688 1.671 1.633 1.62 1.65 1.767 1.95 2.51 1.756 1.75 1.729 1.733 1.78 1.9 2.067 2.1 2.473 1.79 1.789 1.775 1.786 1.833 1.94 2.075 2.1 2.2步骤1模型建立与求解ijxiji=1, j=2: G12={9.3,1.8}i=6, j=8: G68={1.3,1.4,2.0}
  • 29. 9.1.2 有序样本聚类方法1 2 3 4 5 6 7 8 9 102 3 4 5 6 7 8 9 10 1128.125 37.051 0.005 42.207 0.020 0.020 45.992 0.088 0.080 0.020 49.128 0.232 0.200 0.080 0.020 51.000 0.280 0.232 0.088 0.020 0.005 51.529 0.417 0.393 0.308 0.290 0.287 0.180 51.980 0.489 0.454 0.393 0.388 0.370 0.207 0.005 52.029 0.802 0.800 0.774 0.773 0.708 0.420 0.087 0.080 52.182 0.909 0.909 0.895 0.889 0.793 0.452 0.088 0.080 0.020步骤2ijD(i,j)i=1, j=2,
  • 30. 9.1.2 有序样本聚类方法 计算所有可能分类的目标函数 最后一式0.005(2)表示当n=3,即此时 最小值0.005步骤3当j=2时即分法
  • 31. 9.1.2 有序样本聚类方法步骤3此时 最小值0.020最后一式0.020(2)表示当n=4,即当j=2时即分法 计算所有可能分类的目标函数
  • 32. 9.1.2 有序样本聚类方法纵坐标表示最优损失横坐标分类数kk=2 则损失函数值太大k>=5损失函数值几乎差不多k=3或k=4时损失函数已降为0.368和0.128因此取k=3或k=4为宜
  • 33. 9.1.2 有序样本聚类方法求最优分划 (取定k之后) 最优分划 步骤3取定k=3
  • 34. 9.1.2 有序样本聚类方法8岁至11后生活规律化体重稳定增加模型解释儿童从1岁到11岁可分为三个阶段1岁为嗜睡好吃体重增加最快的阶段2岁至7岁儿童入学前或刚入学的阶段, 体重增加有所减缓
  • 35. 分为3类 分为2类 9.1.2 有序样本聚类方法取定k=4
  • 36. 9.2.1 距离判别法 9.2.2 建模与求解9.2 统计判别模型
  • 37. 常见的判别)问题9.2 统计判别模型(1)诊断疾病(2)天气预报(3)在考古方面的应用(4)昆虫分类
  • 38. 9.2.1 距离判别法距离判别法中的数学模型 它们的数学期望和方差分别为表示两个总体 ,是取值于 中的随机变量 假设 今有一个样本 问X属于G1总体还是属于G2总体?问题现在变为:
  • 39. 距离判别法是根据X与G1和G2的距离决定X的归属 距离判别的根据与原则 若X与G1 距离小,则X属于G1 ;距离判别法原则:若X与G2 距离小,则X属于G2 ;这里采用马氏距离
  • 40. 计算X与G1和X与G2的距离平方之差距离判别的根据与原则
  • 41. 距离判别的根据与原则 定义一个函数 距离判别准则 如果 则判断 如果则判断由 确定判别准则为
  • 42. 令称为线性判别函数. a称为判别系数.在判别分析中,实质是利用线性判别函数把当样本 X落入D1时,则判断 ;当样本X落入D2时,则判断 。 距离判别的根据与原则 (X的线性函数)注样本空间划分成两个部分:
  • 43. 例如距离判别法 规定了 的一个分划如图6.6 设图6.6 规定的分划
  • 44. 判别误差误差产生的原因 其线性判别函数为考察当p=1时的情形 不妨假设,则 当 判断当 判断
  • 45. G1的分布密度判别误差误差产生的原因 判别规则符合直观判断的合理性; 判别方法会发生误判的情况. 该错误的情况发生在X当来自G1而落入阴影部分而根据判别法则判为 (如图6.8所示的情形)可见G2的分布密度G1的分布密度G2的分布密度
  • 46. 减小误差概率以改变判断准则 如果 ,判断 判断 如果 如果 则有待进一步判定。 判别准则只能减少误差发生的概率而不能杜绝错判 因为事实上如果X来自G1,而因为事实上如果X来自G2,而
  • 47. 均未知时的判别法则 记 则判别函数: 两样本的协方差阵相同抽取n1和n2个子样:当时,判断 当时, 判断
  • 48. 例9.5 对于下雨天和非雨天两类天气情况收集如下数据雨 天 非 雨 天 湿度差 温度 湿度差 温度 -1.9 3.2 0.2 6.2 -6.9 10.4 -0.1 7.5 5.2 2.0 0.4 14.6 7.3 0.0 2.1 0.8 6.8 12.7 -4.6 4.3 0.9 -15.4 -1.7 10.9 -12.5 -2.5 -2.6 13.1 1.5 1.3 2.6 12.8 3.8 6.8 -2.8 10.0 如果当 时是雨天还是非雨天?
  • 49. 设雨天的数据为 非雨天的数据为以及S都可由表1 2 3 4 5 6 7 8 9 10-1.9 3.2 -6.08 -6.9 10.4 -71.76 5.2 2.0 10.4 5.0 2.5 12.5 7.3 0.0 0 6.8 12.7 86.36 0.9 -15.4 -13.86 -12.5 -2.5 31.25 1.5 1.3 1.95 3.8 6.8 25.840.2 6.2 1.24 -0.1 7.5 -0.75 0.4 14.6 5.84 2.7 8.3 22.41 2.1 0.8 1.68 -4.6 4.3 -19.78 -1.7 10.9 -18.53 -2.6 13.1 -34.06 2.6 12.8 33.28 -2.8 10.0 -289.2 21 76.60-3.8 88.5 -36.67376.54 581.2857.32 950.13例9.5
  • 50. 设例9.5
  • 51. 在此很难假定 ,但仍然可以定义其马氏距离 如果要问当 时是雨天还是非雨天,可解得如下 例9.5 因为X与G1距离小,因此判定 雨天 答:
  • 52. 程序1
  • 53. 相关命令
  • 54. 例9.5 程序实现2运行结果