聚类分析-动态聚类讲解
- 格式:ppt
- 大小:724.00 KB
- 文档页数:74
聚类分析聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。
聚类分析内容非常丰富,按照分类对象的不同可分为样品分类(Q-型聚类分析)和指标或变量分类(R-型聚类分析);按照分类方法可分为系统聚类法和快速聚类法。
1. 系统聚类分析先将n 个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。
选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。
这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法直观易懂。
1.1系统聚类法的基本步骤:第一,计算n 个样品两两间的距离 ,记作D= 。
第二,构造n 个类,每个类只包含一个样品。
第三,合并距离最近的两类为一新类。
第四,计算新类与各当前类的距离。
第五,重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
第六,画聚类谱系图。
第七,确定类的个数和类。
1.2 系统聚类方法:1.2.1最短距离法1.2.2最长距离法1.2.3中间距离法1.2.4重心法1.2.5类平均法1.2.6离差平方和法(Ward 法)上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。
最常用的就是最短距离法。
1.3 最短距离法以下用ij d 表示样品i X 与j X 之间距离,用ij D 表示类i G 与j G 之间的距离。
定义类i G 与j G 之间的距离为两类最近样品的距离,即ij G G G G ij d D j J i i ∈∈=,min设类p G 与q G 合并成一个新类记为r G ,则任一类k G 与r G 的距离是:ij G X G X kr d D j j i i ∈∈=,min ⎭⎬⎫⎩⎨⎧=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {}kq kp D D ,min = 最短距离法聚类的步骤如下:ij d {}ij d(1)定义样品之间距离,计算样品两两距离,得一距离阵记为)0(D ,开始每个样品自成一类,显然这时ij ij d D =。
第二章聚类分析2·4 聚类的算法2.4.1 聚类的技术方案⑴简单聚类根据相似性阈值和最小距离原则聚类∀x i∈Ω={ x1,x2,…,x n} = ω1⋃ω2⋃…⋃ωc;if D(x i,m j)≤T, m j=(1/n j)∑x i(j),x i(j)∈ωj,n j是ωj中的样本个数,T是给定的阀值。
Then x i∈ωi类心一旦确定将不会改变。
⑵谱系或层次聚类按最小距离原则不断进行两类合并类心不断地修正,但模式类别一旦指定后就不再改变。
⑶依据准则函数动态聚类影响聚类结果的主要因数:类心、类别个数、模式输入顺序。
所谓动态聚类,是指上述因数在聚类过程中是可变的。
规定一些分类的目标参数,定义一个能刻划聚类过程或结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。
这类方法有—均值法、ISODATA法、近邻函数法以及运用图论理论的最小张树法。
2.4.2 简单聚类方法㈠根据相似性阈值和最小距离原则的简单聚类方法⒈条件及约定设待分类的模式为,选定类内距离门限。
⒉算法思想计算模式特征矢量到聚类中心的距离并和门限比较而决定归属该类或作为新的一类中心。
通常选择欧氏距离。
⒊算法原理步骤⑴取任意的一个模式特征矢量作为第一个聚类中心。
例如,令第一类的中心。
⑵计算下一个模式特征矢量到的距离。
若,则建立新的一类,其中心;若,则。
⑶假设已有聚类中心,计算尚未确定类别的模式特征矢量到各聚类中心的距离,如果,则作为新的一类的中心,;否则,如果( 2-4-1)则指判。
检查是否所有的模式都分划完类别,如都分划完了则结束;否则返到⑶。
⒋性能●计算简单。
●聚类结果很大程度上依赖于距离门限的选取、待分类特征矢量参与分类的次序和聚类中心的选取。
当有特征矢量分布的先验知识来指导门限及初始中心的选取时,可以获得较合理结果。
⒌改进通常采用试探法,选用不同的门限及模式输入次序来试分类,并对聚类结果进行检验,即用聚类准则函数J1。
聚类分析也是一种分类技术。
与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。
与回归分析、判别分析一起被称为多元分析的三大方法。
聚类的目的。
根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。
根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。
聚类分析又叫群分析、点群分析或者簇分析,是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
1、聚类分析聚类分析也称群分析、点群分析。
例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再比较各银行之间不同等级网点数量对比状况。
1、基本思想:我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
R型聚类分析是对变量进行分类处理,Q型聚类分析是对样本进行分类处理。
R型聚类分析的主要作用是:1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的优点是:1、可以综合利用多个变量的信息对样本进行分类;2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
1聚类分析内涵1.1聚类分析定义聚类分析(Cluster Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术. 也叫分类分析(classification analysis)或数值分类(numerical taxonomy),它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止.并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法):首先对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止.(3)最优分割法(有序样品聚类法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止.这种方法适用于有序样品的分类问题,也称为有序样品的聚类法.(4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析和判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。
聚类分析根据分类对象的不同又分为R型和Q型两大类,R型是对变量(指标)进行分类,Q 型是对样品进行分类。
聚类分析方法
俗话说,物以类聚,聚类分析(cluster analysis)就是通过观测数据将对象进行分类的统计方法。
聚类分析的主要思想就是相近(或相似)的样品(或指标)归为一类,该方法最早是由考古学家在对考古分类中研究中发展起来的,如今已经被广泛的应用在天气、地质、生物、金融、保险、图像处理等许多领域。
在食品安全领域,可以通过食品污染物数据对地域进行分类或拓展到更多方面。
聚类方法有很多,不过大致可分为两类:系统聚类(hierachical clustering)方法和动态聚类(dynamic clustering)方法,系统聚类方法中最常用的是层次聚类,动态聚类中最常用的是K-均值聚类。
1层次聚类法
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。
具体又可分为凝聚的,分解的两种方案。
层次聚类法中凝聚法就是先将n个样本各自看成一类,然后规定样品之间的距离和类与类之间的距离,将距离最小的一对并成一个新类,然后,计算新类和其他类的距离,再将距离最近的两类合并,这样每次减少一类,直到所有的样品都成一类为止。
凝聚法是类由多到少的方法,而分解法是类由少到多的算法,是先将所有的样品看成一类,然后将所有的样品分成两类,使得两类之间的样品尽量的远,接着再将各小类继续分类,直到所有的样品各成一类为止。
不管是凝聚法还是分解法,最终都是将根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,即谱系图或树状聚类图。
类间距离等于两类对象之间的最小距离,根据经验,由离差平方和法所得的谱系聚类图的凝聚聚类方法最为清晰。
整个过程就是建立一个树结构,类似于下图。