第一节系统聚类分析
- 格式:doc
- 大小:1.21 MB
- 文档页数:32
第一节系统聚类分析第五章聚类分析(一)教学目的通过本章的学习,对聚类分析从总体上有一个清晰地认识,理解聚类分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求了解聚类分析的定义,种类及其应用范围,理解聚类分析的基本思想,掌握各类分析方法的主要步骤。
(三)教学要点1、聚类分析概述;2、系统聚类分析基本思想,主要步骤;3、动态聚类法基本思想,基本原理,主要步骤;4、模糊聚类分析基本思想,基本原理,主要步骤;5、图论聚类分析基本思想,基本原理。
(四)教学时数6课时五)教学内容 (1、聚类分析概述2、系统聚类分析3、动态聚类法4、模糊聚类分析5、图论聚类分析统计分组或分类可以深化人们的认识。
实际应用中,有些情况下进行统计分组比较容易,分组标志确定了,分组也就得到了,但是,有些情况下进行统计分组却比较困难,特别是当客观事物性质变化没有明显标志时,用于确定分组的标志和组别就很难确定。
聚类分析实际上给我们提供了一种对于复杂问题如何分组的统计方法。
第一节聚类分析概述一、聚类分析的定义聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。
聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。
二、聚类分析的种类(一)聚类分析按照分组理论依据的不同,可分为系统聚类法,动态聚类法,模糊聚类、图论聚类、聚类预报等多种聚类方法。
1、系统聚类分析法。
是在样品距离的基础上定义类与类的距离,首先将个样品自成n一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。
这种聚类方法称为系统聚类法。
根据并类过程所做的样品并类过程图称为聚类谱系图。
第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。
这两种聚类在数学上是对称的,没有什么不同。
聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
二、如何度量距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。
3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。
常用的相似系数有夹角余弦、相关系数等。
夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。
第二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。
系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法。
基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。
1. 聚类要素的数据处理假设有m 个聚类的对象,每一个聚类对象都有个要素构成。
它们所对应的要素数据可用表3.4.1给出。
(点击显示该表)在聚类分析中,常用的聚类要素的数据处理方法有如下几种。
①总和标准化②标准差标准化③极大值标准化经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
④极差的标准化经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
2. 距离的计算距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。
①绝对值距离选择不同的距离,聚类结果会有所差异。
在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。
例:表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。
对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:3. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。
▲ 基本步骤:①把各个分类对象单独视为一类;②根据距离最小的原则,依次选出一对分类对象,并成新类;③如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行;④那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
★直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。
因此,直接聚类法并不是最好的系统聚类方法。
[举例说明](点击打开新窗口,显示该内容)例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。
第五章聚类分析(一)教学目的通过本章的学习,对聚类分析从总体上有一个清晰地认识,理解聚类分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求了解聚类分析的定义,种类及其应用范围,理解聚类分析的基本思想,掌握各类分析方法的主要步骤。
(三)教学要点1、聚类分析概述;2、系统聚类分析基本思想,主要步骤;3、动态聚类法基本思想,基本原理,主要步骤;4、模糊聚类分析基本思想,基本原理,主要步骤;5、图论聚类分析基本思想,基本原理。
(四)教学时数6课时(五)教学内容1、聚类分析概述2、系统聚类分析3、动态聚类法4、模糊聚类分析5、图论聚类分析统计分组或分类可以深化人们的认识。
实际应用中,有些情况下进行统计分组比较容易,分组标志确定了,分组也就得到了,但是,有些情况下进行统计分组却比较困难,特别是当客观事物性质变化没有明显标志时,用于确定分组的标志和组别就很难确定。
聚类分析实际上给我们提供了一种对于复杂问题如何分组的统计方法。
第一节聚类分析概述一、聚类分析的定义聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。
聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。
二、聚类分析的种类(一)聚类分析按照分组理论依据的不同,可分为系统聚类法,动态聚类法,模糊聚类、图论聚类、聚类预报等多种聚类方法。
1、系统聚类分析法。
是在样品距离的基础上定义类与类的距离,首先将n个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。
这种聚类方法称为系统聚类法。
根据并类过程所做的样品并类过程图称为聚类谱系图。
2、动态聚类分析法。
是将n个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。
这种分类方法一般称为动态聚类法,也称为调优法。
3、模糊聚类分析法。
是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。
4、图论聚类分析法。
是利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。
5、聚类预报法。
是利用聚类方法处理预报问题的方法。
主要应用于处理一些出现异常数据的情况,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。
(二)按照分析对象不同,可以分为Q型聚类分析和R型聚类分析。
Q型聚类分析法是对样品进行的分类处理,可以揭示样品之间的亲疏程度。
R型聚类分析法是对变量进行的分类处理,可以了解变量之间,以及变量组合之间亲疏程度。
根据R型聚类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。
其中,选择最佳变量的一般方法是,在聚合的每类变量中,各选出一个具有代表性的变量作为典型变量,其中选择的依据是2r。
122-=∑k r r ii2r :表示每个变量与其同类的其它变量的相关系数的平方的均值。
k 为该类中变量的个数。
应用中,挑选2r 值最大的变量i x 作为该类的典型变量。
三、聚类分析中样品或变量亲疏程度的测定 1、变量类型与数据变换通常变量类型按照计量尺度的不同,分为定类尺度,定序尺度,定距尺度,定比尺度变量。
其中,前两者一般又称为定性资料,后两者一般又称为定量资料。
在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大的差异。
另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比较。
常用的数据变换方法有以下几种:(1)中心化变换中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。
即对于一个样本数据,观测p 个指标,n 个样品的数据资料阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211设中心化后的数据为ijx ' 则有 j ij ijx x x -=' n i 2,1= p j 2,1= 其中 p j x n x ni ijj 2,111==∑=进行了中心化变换后的数据特点是,其每列数据之和均为0。
(2)规格化变换(极差规格变换)规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。
规格化后的数据为:{}{}{}ijni ijni ij ni ij ijxx x x x ≤≤≤≤≤≤--='111min max minn i 2,1= p j 2,1=进行了规格化变换后的数据特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。
(3)标准化变换标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即jjij ijS x x x -=' n i 2,1= p j 2,1=其中 p j x n x ni ijj 2,111==∑=()211211⎥⎦⎤⎢⎣⎡--=∑=n i j ij j x x n S进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。
使用标准差处理后,在抽样样本改变时,它仍保持相对稳定性。
(4)对数变换对数变换主要是对原始数据取对数。
即{}ij ijx x log =' 0>ij x n i 2,1= p j 2,1=对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。
此外,还有平方根变换、立方根变换等。
极差标准化变换和规格化变换类似。
它是把每个变量的样本极差皆化为1,排除量纲的干扰。
立方根变换和平方根变换的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。
2、多维空间的距离对于p 个观测指标,n 个样品的样本数据,每个样品有p 个变量,故每个样品都可以看成是p 维空间上的一个点,n 个样品就是p 维空间上的n 个点。
聚类分析中,对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。
因此需定义样品之间的距离,即第i个样品与第j 个样品之间的距离,记为ij d ,所定义的距离一般满足以下四个条件:①0≥ij d 对于一切j i ,; ②0=ij d 当且仅当j i =时 ③ji ij d d = 对于一切j i , ④kj ik ij d d d +≤ 对于一切k j i ,, 对于定量数据资料常用的距离有以下几种: (1)明氏(明科夫斯基,Minkowski )距离 第i 个样品与第j 个样品之间的明氏距离公式为()qqpk jkik ij x x q d 11⎥⎥⎦⎤⎢⎢⎣⎡-=∑=这里q 为某一自然数,明氏距离是一最常用最直观的距离。
当1=q 时, ()∑=-=pi jk ikij x xd 11,则称为绝对值距离。
当2=q 时,()()21212⎥⎥⎦⎤⎢⎢⎣⎡-=∑=pk jk ik ij x x d ,则称为欧氏距离。
欧氏距离是聚类分析中用得最广泛的距离,但该距离与个变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。
当∞=q 时,()jk ik pk ij x x d -=∞≤≤1max ,则称为切比雪夫距离n j i ,2,1,=由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行准化处理,然后再用标准化后的数据计算距离。
(2)兰氏(Lance 和Williams )距离兰氏距离是由Lance 和Williams 最早提出的,故称为兰氏距离。
当全部数据大于零,即0>ij x 时,可以定义第i 个样品与第j 个样品之间的兰氏距离为∑=+-=pi jkik jk ik ij x x x x d 1n j i ,2,1,=可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。
然而兰氏距离没有考虑变量间的相关性。
明氏距离和兰氏距离的共同的特点是,假定变量之间相互独立,即均没有考虑变量之间的相关性,都是在正交空间内讨论距离的,而实际情况并非如此。
但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的这种相关性影响,可以采用马氏距离。
(3)马氏距离(Mahalanobis )第i 个样品与第j 个样品之间的马氏距离记为()()j i j i ij X X S X X d -'-=-12其中j i X X ,分别为第i 个和第j 样品的p 个指标所组成的向量,1-S 为样本协方差的逆矩阵。
()()∑=---=nk j kj i ki x x x x n S 111 p j i ,2,1,=马氏距离的优点是考虑到个变量之间的相关性,并且与个变量的单位无关。
不足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然而若要随聚类过程而不断改变,计算将会很困难。
这样造成聚类效果不是很好的。
比较合理的办法是用各个类的样品来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。
(4)斜交空间距离由于多个变量之间存在着不同程度的相关关系。
在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而使聚类分析时的谱系结构发生改变。
为此,计算斜交空间距离,第i 个样品与第j 个样品之间的斜交空间距离定义为,()()211121⎥⎦⎤⎢⎣⎡--=∑∑==p k pl kl jl il jk ik ij r x x x x m d 其中kl r 是变量k x 与变量l x 之间的相关系数。
以上几种距离的定义均要求变量间是间隔尺度的,如果使用的变量是定性材料,则应有一些其它定义距离的方法,在这里就不一一介绍。
3、相似系数聚类分析方法不仅用来对样品进行分类,而且有时需要对变量进行分类,在对变量进行聚分类析时,则通常采用相似系数来表示变量之间的亲疏程度。
相似系数定义如下:设ij C 表示变量i x 与变量i y 之间的相似系数,则ij C 应满足下列条件: (1),1j i ij ax x C =⇔±= ()为非零常数a (2)1≤ij C 对一切j i ,成立 (3)ji ij C C = 对一切j i ,成立ij C 越接近于1,则表示变量i x 与变量i y 之间关系越密切,ij C 越接近于0,则表示变量i x 与变量i y 之间关系越疏远。