基本思想是认为研究的样本或变量之间存在着程度不同的相 似性(亲疏关系)。 根据一批样本的多个观测指标,找出一些能够度量样本或变 量之间相似程度的统计量,以这些统计量作为分类的依据, 把一些相似程度较大的样本(或指标)聚合为一类,把另外 一些相似程度较大的样本(或指标)聚合为一类,直到把所 有的样本(或指标)都聚合完毕,形成一个由小到大的分类 系统。 q dij ( xik x jk ) k 1 p 1 q 4. d ij L k 1 p xik x jk xik x jk 1 2 5. 马氏距离 1 dij M xi x j S xi x j 14 1. 绝对距离(Block距离) dij 1 xik x jk k 1 p 2. 欧氏距离(Euclidean distance) 2 d ij 2 ( xik x jk ) k 1 p 1 2 15 3. 明考斯基距离(Minkowski) 兰氏距离 37 主要步骤 1. 选择变量 (1)和聚类分析的目的密切相关 (2)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关 2. 数据变换处理 为了消除各指标量纲的影响,需要对原始数 据进行必要的变换处理。 38 3. 计算聚类统计量 聚类统计量是根据变换以后的数据计算得 到的一个新数据,它用于表明各样本或变量 间的关系密切程度。常用的统计量有距离和 相似系数两大类。 聚类。 系统聚类:又称为层次聚类( hierarchical cluster),是指聚类过程是按照一定层次进 行的。 K均值聚类( K-means Cluster ) 22 层次聚类
聚类分析是根据“物以类聚”的道理,对样本或指 标进行分类的一种多元统计分析方法,它们讨论的 对象是大量的样本,要求能合理地按各自的特性进 行合理的分类,没有任何模式可供参考或依循,即 在没有先验知识的情况下进行的。 2 聚类分析的基本思想 19 二值(Binary)变量的聚类统计量 20 聚类的类型 根据聚类对象的不同,分为Q型聚类和R型聚 类。 Q型聚类:样本之间的聚类即Q型聚类分析, 则常用距离来测度样本之间的亲疏程度。 R型聚类:变量之间的聚类即 R型聚类分析, 常用相似系数来测度变量之间的亲疏程度。 21 聚类的类型 根据聚类方法的不同分为系统聚类和 K 均值 6. 切比雪夫距离(Chebychev) dij () max xik x jk 1 k p 16 17 定比变量的聚类统计量:相似系数统计量 1. 相关系数 rij (x k 1 n k 1 n ki xi )(xkj x j ) 2 2 ( x x ) kj j k 1 n 11 样本或变量间亲疏程度的测度