第十八章 判别分析.ppt
- 格式:ppt
- 大小:2.79 MB
- 文档页数:74
聚类分析(clustering analysis)一、聚类分析与判别分析将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。
已成为发掘海量基因信息的首选工具。
在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。
判别分析聚类分析二者都是研究分类问题的多元统计分析方法二、聚类对象类型聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。
例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。
(2)Q型聚类又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。
无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。
聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。
1.R 型(指标)聚类的相似系数X 1,X 2,…,X m 表示m 个变量,R 型聚类常用简单相关系数的绝对值定义变量间的相似系数:绝对值越大表明两变量间相似程度越高。
同样也可考虑用Spearman 秩相关系数定义非正态变量X i 与X j 间的相似系数。
当变量均为定性变量时,可用列联系数定义类间的相似系数。
22()()(19-1)()()i i j j ij i i j j X X X X r X X X X --=--∑∑∑将n 例(样品)看成是m 维空间的n 个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。
2.Q 型(样品)聚类常用相似系数|| (19-4)ij i j d X X =-∑(2)绝对距离:绝对距离(Manhattan distance )2() (19-3)ij i j d X X =-∑(1)欧氏距离: 欧氏距离(Euclidean distance )2.Q 型(样品)聚类常用相似系数(3)Minkowski 距离:绝对距离是q=1时的Minkowski 距离;欧氏距离是q=2时的Minkowski 距离。