聚类分析与判别分析ppt

  • 格式:ppt
  • 大小:1.53 MB
  • 文档页数:65

下载文档原格式

  / 65
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

需要明确两个概念:一个是点和点之间 的距离,一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是 欧氏距离,当然还有其他的距离。 由一个点组成的类是最基本的类;如果 每一类都由一个点组成,那么点间的距离 就是类间距离。但是如果某一类包含不止 一个点,那么就要确定类间距离。
类间距离是基于点间距离定义的:比如 两类之间最近点之间的距离可以作为这两 类之间的距离,也可以用两类中最远点之 间的距离作为这两类之间的距离; 另外,也可以用各类的中心之间的距离 来作为类间距离。在计算时,各种点间距 离和类间距离的选择是通过统计软件的选 项实现的。不同的选择的结果会不同,但 一般不会差太多。
设总体 G {X 1 , X 2 ,..., X m }T为m维总体(考察m X i {x1 , x2 ,..., xm }T 。令 个指标),样本 μi=E(Xi)(i=1,2, …,m),则总体均值向 T {1 , 2 , m }。总体G的协方差矩阵为: 量为 T COV (G) E[(G )(G ) ] 设X,Y是从总体G中抽取的两个样本,则X 与Y之间的平方马氏距离为:
• Dendrogram:输出树状图
• Icicle 输出冰状图
• All cluster所有聚类的冰 状图
• Specified range of clusters 某一指定范围的 冰状图
• None 不显示冰状图 • Orientation冰状图的方位
• Between-group linkage:组间连接 • Winthin-group linkage: 组内连接法 • Nearest neighbor:
• Binary 二值变量数 据 • Euclidean distance 二值欧氏距离 • Squared euclidean distance二值欧氏距 离平方等
• Transform values确定标准化的 方法 • None 不进行标准化
• Z scores把数值标准化到Z评分
• Range -1to1把数值标准化到-1 到1范围内
(2)凝聚法 聚类开始把参与聚类的每个个体(观测 量或变量)视为一类,根据两类之间的距 离或相似性逐步合并,直到合并为一个大 类为止。 无论哪种方法其聚类原则都是相近的聚 为一类,即距离最近或最相似的聚为一类。 实际上以上两种方法是方向相反的两种聚 类过程。
1.4 spss的聚类分析过程
• TwoStep Cluster进 行两步聚类过程。 • K-Means Cluster进 行快速聚类的过程。 • Hierarchical Cluster进行样本聚 类和变量聚类的过程。 • Discriminate进行判 别分析的过程。
• Cosine余弦
• Pearson correlation皮尔森 相关系数
• Chebychev 切比雪夫距离
• Block 区组距离
• Minkowski 闵可夫距离
• Counts 计数数据 • Chi-square measure: X2-测度。用卡方值 测试不相似测度; • Phi-square measure 两组之间的φ2测度
首先,系统会根据样本数据的实际情况, 选择k个由代表性的样本数据作为初始类中 心,初始类中心也可以由用户自行指定。 计算所有样本数据点到k个类中心点的距 离(选件中有选项),SPSS按照距k个类中心 点距离最短原则,把所有样本分派到各中心 点所在的类中,形成一个新的k类,完成一 次迭代过程。
SPSS计算每个类中各个变量的变量值均值, 并以均值点作为新的类中心点。 重复上面的两步计算过程,直到达到指定 的迭代次数或终止迭代的判断要求为止。 注意快速聚类只能做Q型聚类,如要做R型 聚类,需要把数据阵进行转臵。
小的分类单位,关系疏远的聚合到一个大 的分类单位,直到把所有的样本都聚合完 毕,把不同类型一一划分出来,形成一个 由小到大的分类。 1.2 距离与相关系数 比如,想要对100个学生进行分类,若 仅仅知道他们的数学成绩,则只好按照数 学成绩来分类;这些成绩在直线上形成100 个点,这样就可以把接近的点放到一类。
聚类分析所使用方法的不同,常常会 得到不同的结论。不同研究者对于同一 组数据进行聚类分析,所得到的聚类数 未必一致。因此说聚类分析是一种探索 性的分析方法。 如果观察值的个数多或文件非常庞 大(通常观察值在200个以上),则宜 采用快速聚类分析方法。因为观察值数 目巨大,层次聚类分析的两种判别图形 会过于分散,不易解释。
2.3 判别分析的方法 常用的判别方法即距离判别法、Fisher 判别法、Bayes判别法。 2.3.1距离判别法 基本思想:首先根据已知分类的数据, 分别计算各类的重心即分组(类)的均值,判 别准则是对任给的一次观测,若它与第i类 的重心距离最近,就认为它来自第 i 类。
下面通过一个具体的例子对其思想进行描述。
聚类分析与判别分析
1.聚类分析
1.1聚类分析的概念与基本思想 聚类分析(cluster analysis)是根 据事物本身的特性研究个体分类的方法。 聚类分析的基本依据是:同一类中的个 体有很大的相似性,不同类的个体之间 差异很大。
在进行聚类分析时,认为研究的样本或指 标之间存在着不同程度的相似性。于是根 据一批样本的多个观测指标,具体找出一 些能够度量样本或指标之间相似程度的统 计量, 以这些统计量为类型划分的依据, 把一些相似程度较大的个体聚合为一类, 把另外一些彼此之间相似程度较大的样本 聚合为一类。关系密切的聚合到一个
以层次聚类为例
• Variable:引入要分 析的变量; • Lable Case by:指 明个案的标识,如果 不选用此项,默认是 按记录号进行分析。
• Cluster • Variable:要进行变量聚 类 • Case:要进行观测量聚类 • Display • Statisyics显示统计量 • Plot显示树状图或冰柱图
试通过一套打分体系来描绘企业的状况。设 臵了企业规模、利润增长等8个指标。 另外,有一些企业(90家)已经被权威机构划 分为上升企业、稳定企业、下降企业。每个企 业的8个方面得分视为8维空间的一个点,共有 90个点,并且已经被划分为3类。这样可以计 算出每一类的中心,
只要定义如何计算距离,就可以得到任意给 定的一个点(企业)到各类中心的三个距离。 显然,最简单的办法就是离哪个中心距离最 近,就属于哪一类。通常使用的距离是所谓 的Mahalanobis距离(考虑总体分布的分散 性信息 )。用来比较到各个中心距离的数 学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理 简单,直观易懂。
1.3.2 层次聚类分析 层次聚类分析是根据观察值或变量之间 的亲疏程度,将距离最近或最相似的对象 以逐次聚合的方式结合在一起,根据聚类 过程不同又分为分解法和凝聚法。 (1)分解法 聚类开始把所有个体(观测量或变量) 都视为属于一大类,然后根据距离和相似 性逐层分解,直到参与聚类的每个个体自 成一类为止。
判别函数的一般形式是:
Y a1 x1 a2 x2 an xn
其中,Y 为判别函数判别值;x1 , x2 ,, xn
为反映研究对象特征的变量; a1 , a2 ,, an 为各变量的系数,即判别系数。
已知分类的 判别分析方法 建立判别准则 判别函数 训练样本
考核
未知样品 判别归类
最近连接法
• Further neighter: 最远连接法 • Median clusting中位数法
• Centroid’clusting:重心聚类法
• Ward‘s method:ward最小方差法
• Euclidean distance 欧几米德距离
百度文库
• Squared euclidean distance 欧氏距离平方
常用的距离和相似系数有: (x y ) 1、欧氏距离; 2、平方欧氏距离; ( x y ) (x y ) 3、 Minkowski距离; 4、Chebychev: Maxi|xi-yi| x y 5、夹角余弦相似系数 C (1) cos x y 6、相关系数相似系数 ( x x )( y y )
常用的聚类方法有: 1、两步聚类法(TwoStep Cluster); 2、快速聚类分析(K-Means Cluster ) ; 3、分层聚类(Hierarchical Cluster) ;
1.3.1 快速聚类分析 (1)快速聚类的概念 快速聚类是根据被观测的对象的各种特 征,即反映被观测对象的特征的各变量进 行分类。只能产生固定类数的聚类解,类 数需要用户事先指定。 (2)快速聚类的原理和过程 如果选择了n个数值型变量进行聚类分 析,指定聚类数为k。
• Agglomeration schedule凝聚顺序表; • Proximity maxtrix输 出距离矩阵 • None 不显示聚类成员 • Single solution显示 出聚为一定类数的各观 测量所属的类 • Range of solution显 示某范围中,每一步各 观测量所属的类
d 2 ( X , Y ) ( X Y )T 1 ( X Y )
2 i i i
2 i i i
q
1 q
i
i
i
i
i
i
xy
xy
2
2
i
i
i
i
Cxy (2) rxy
i
i
(x x ) ( y y)
2 i i i i
i
2
1.3 各种聚类方法介绍 对于一个数据,人们既可以对观测值 (事件,样品)来分类(相当于对数据中的行 分类) ,也可以对变量(指标)进行分类(相 当于对数据中的列分类) 。前者称为Q型聚 类,后者称为R型聚类。
2. 判别分析
2.1 判别分析的概念和基本思想 判别分析,也是一种比较常用的分类 分析方法,是多元统计分析中用于判别样 本所属类型的一种统计方法。它要解决的 问题是在一些已知研究对象用某种方法已 分成若干类的情况下,确定新的观察数据 属于已知类别中的哪一类。
基本思想是:先根据已知类别的事物的性 质(自变量),建立函数式(自变量的线性 组合,即判别函数),然后对未知类别的新 对象进行判断以将之归入已知的类别中。 进行判别分析必须已知观测对象的分类 和若干表明观测对象特征的变量值。判别分 析就是要从中筛选出能提供较多信息的变量 并建立判别函数(也可以不筛选),使得利 用推导出的判别函数对观测量判别其所属类 别时的错判率最小。
• Range 0to1把数值标准化到0到 范围内
• Maxinum magnitude of 1把数值 标准化到最大值为1 • Mean of 1把数值标准化到一个 均值的范围内 • Standard deviation把数值标准 化到单位标准差
• Transform measures选择测 度的转换方法 • Absolute values 把距离值 取绝对值 • Change sign 把相似性值变 为不相似性值或相反 • Rescale to 0-1 range 通 过首先减去最小值然后除以 范围的方法使距离标准化
如果还知道他们的物理成绩,这样数学和 物理成绩就形成二维平面上的100个点,也可 以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过 三维以上的图形无法直观地画出来而已。 样本数据之间的亲疏程度主要通过样本之 间的距离、样本间的相关系数来度量。距离 是将每个样本(m个变量)看成是m维空间中 的一个点,然后在空间中定义距离,距离越 近,则亲密程度越高。相似系数接近于1或-1, 认为样本或指标间的性质比较接近。
• Cluster membership用新 变量将聚类分析的结果保 存到数据库中 • None 不建立新的数据库
• Single solution 生产一 个新变量,表明每个个体 聚类后所属的类 • Range of solution 生产 若干个新变量,表明聚为 若干个类时,每个个体聚 类后所属的类