第九章 地理系统聚类分析模型
- 格式:doc
- 大小:32.50 KB
- 文档页数:10
计量地理学复习资料第⼀章绪论1、计量地理学的概念2、地理学的发展阶段古代地理学(19世纪以前)近代地理学(19世纪-20世纪50年代)现代地理学(20世纪60年代以来)3、现代地理学发展史上的计量运动⾐阿华的经济学派威斯康星的统计学派普林斯顿的社会物理学派其他……4、计量地理学的发展阶段初期:50年代末-60年代末中期:60年代末-70年代末从70年代末期开始⾄今5、计量地理学的研究对象空间与过程的研究(空间分布与演化过程)⽣态研究(PRED系统)区域研究(地域综合体)6、计量地理学与传统地理学的研究对象有什么区别?传统地理学观察、分类、⽐较、综合、描述计量地理学假说-模式化-校验-解释-结论传统地理学的研究⽅法图⽰区域地理问题——对问题的思考——资料的收集——分类和分析——地理解释——关于问题的结论——⽐较计量地理学的研究⽅法图⽰现实世界的分系统——假说——模型——检验——解释——关于现实世界的结论(可以证明假说的正确与否)——理论——模型7、计量地理学研究的主要内容分布型研究相互关系研究类型研究⽹络分析趋势⾯分析8、计量地理学研究的主要内容空间相互作⽤分析:“地理流”系统仿真研究过程模拟与预测研究空间扩散研究空间⾏为研究地理系统优化调控研究9、计量地理学的研究⽅法⽐较A、传统地理学:常⽤归纳法。
概括来⾃观察。
难以避开观察到的是特殊情况或解释者的个⼈好恶。
B、计量地理学:通过假设予以条理化;经过模式化得出数据予以检验;若成功,建⽴法则和理论,否则重新建⽴假说。
10、计量地理学的研究⽅法计量地理学的研究⽅法有:地理系统分析随机数学⽅法的应⽤地理系统模拟电⼦计算机的应⽤11、计量地理学的发展趋势计量地理学和⽣产实践的进⼀步结合建设新的地理学理论地理信息系统的建⽴计量⽅法的发展第⼆章地理数据系统1、地理数据的类型根据地理数据本⾝性质不同:定性数据和定量数据根据地理数据来源及表征系统的特征不同:社会-经济数据和环境与⾃然资源数据;空间数据:仅表⽰某⼀特定⾓度下的世界,它是指单个地段或群体地区以位置为参照的数据⼀般以坐标表⽰。
地理模型知识点总结地理模型是地理科学中的重要工具,它通过数学和计算机模拟的方法,对地理系统进行定量模拟和预测,探索地理现象的内在规律。
地理模型在环境管理、资源利用、城市规划等领域得到广泛应用,对于了解地球系统的运行规律和预测未来的地理变化具有重要意义。
本文将对地理模型的基本概念、分类、建模方法及应用进行总结。
一、地理模型的基本概念1.地理模型的定义地理模型是对地理现象、过程和系统进行定量描述、分析、模拟和预测的数学工具。
它是地理学、环境科学、城市规划等领域跨学科研究的重要方法。
地理模型可以用来模拟气候变化、土地利用变化、城市扩张等地理问题,为科学研究、决策支持、资源管理提供技术支持。
2.地理模型的特点(1)定量性:地理模型是基于数学和计算机模拟的方法,可以量化地理现象、过程和系统,定量分析地理问题。
(2)综合性:地理模型融合了地理学、气象学、地质学、生态学、资源环境科学等多个学科的知识,能够综合考虑不同因素对地理系统的影响。
(3)动态性:地理模型可以模拟地理系统随时间和空间的变化,对地理问题的动态演化提供预测和分析。
(4)交互性:地理模型能够模拟地理系统内部和不同地理要素之间的相互作用,分析它们之间的关联性和影响因素。
(5)不确定性:地理模型建立在多源数据、多因素和多变量的基础上,模拟结果受到多种不确定性因素的影响,需要进行灵敏性分析和蒙特卡洛模拟。
二、地理模型的分类地理模型根据研究对象、研究方法等不同,可以分为多种类型。
按研究对象的不同,地理模型可分为自然地理模型和人文地理模型。
自然地理模型主要用于模拟自然环境的变化,如气候模型、水文模型、地貌模型等;人文地理模型主要用于模拟人类活动对地理环境的影响,如城市模型、交通模型、经济模型等。
3.按研究方法的不同,地理模型可分为定量模型和定性模型。
定量模型是以数学和计算机模拟的方法对地理系统进行定量分析和模拟,如数学模型、统计模型、地理信息系统、神经网络模型等;定性模型是通过描述、分类和比较方法对地理问题进行分析,如图像解译、地理分类方法、地理问卷调查等。
常见的地理分析模型一空间统计模型:相关分析模型: GIS地理数据库中存储的各种自然和人文地理要素(现象)的数据并不是孤立的,它们相互影响、相互制约,彼此之间存在着一定的联系。
相关分析模型就是用来分析研究各种地理要素数据之间相互关系的一种有效手段。
地理数据库中各种地理要素数据之间的相关关系,通常可以分为参数相关和非参数相关两大类。
其中,参数相关又可分为简单(两要素)线性相关,多要素间的相关模型,非参数相关可以分为顺序(等级)相关和二元分类相关。
趋势面分析模型(主要是回归模型):一元回归模型:我们用多项式方程作为一元回归的基本模型:Y=a0+a1x+a2x2+a3x3+……a m x m+ε式中:Y为因变量,X为自变量,a0,a1,…,a m为回归系数,ε为剩余误差多元线性回归模型多元线性回归模型表示一种地理现象与另外多种地理现象的依存关系,这时另外多种地理现象共同对一种地理现象产生影响,作为影响其分布与发展的重要因素。
设变量Y与变量X1,X2,…,X m存在着线性回归关系,它的n个样本观测值为Y j,X j1,X j2,…X jm(j=1,2,n),于是多元线性回归的数学模型可以写为:可采用最小二乘法对上式中的待估回归系数β0,β1,…,βm进行估计,求得β值后,即可利用多元线性回归模型进行预测了。
聚类模型:聚类分析是根据多种地学要素对地理实体进行划分类别的方法,对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。
聚类分析的步骤一般是根据实体间的相似程度,逐步合并若干类别,其相似程度由距离或相似系数定义。
进行类别合并的准则是使得类间差异最大,而类内差异最小。
最短距离聚类模型最短距离聚类模型中,定义两类之间的距离用两类间最近样本的距离来表示。
用d ij 表示样本和样本之间的距离,用G1,G2,…表示类,类G p和类G q的距离用D pq表示,则有:具体步骤如下:1、规定样本间的距离,计算样本两两距离的对称表,记作D0,由于每一个样本自成一类,显然D pq=d pq。
聚类分析方法聚类分析是一种常用的数据分析方法,它可以帮助我们将数据集中的对象按照它们的相似性进行分组。
通过聚类分析,我们可以发现数据中的内在结构和规律,从而更好地理解数据。
在本文中,我们将介绍聚类分析的基本概念、常见的聚类方法以及聚类分析的应用场景。
首先,让我们来了解一下聚类分析的基本概念。
聚类分析是一种无监督学习方法,它不需要预先标记的训练数据,而是根据数据对象之间的相似性来进行分组。
在聚类分析中,我们通常会使用距离或相似度作为衡量对象之间关系的指标。
常见的距离指标包括欧氏距离、曼哈顿距离和余弦相似度等。
通过计算对象之间的距离或相似度,我们可以将它们划分到不同的类别中,从而实现数据的聚类。
接下来,让我们来介绍一些常见的聚类方法。
最常用的聚类方法包括层次聚类、K均值聚类和密度聚类。
层次聚类是一种基于对象之间相似性构建层次结构的方法,它可以分为凝聚式层次聚类和分裂式层次聚类。
K均值聚类是一种迭代的聚类方法,它将数据对象划分为K个类别,并通过迭代优化来找到最优的聚类中心。
密度聚类是一种基于数据密度的聚类方法,它可以发现任意形状的聚类簇,并对噪声数据具有较强的鲁棒性。
最后,让我们来看一些聚类分析的应用场景。
聚类分析可以应用于各个领域,例如市场营销、生物信息学、社交网络分析等。
在市场营销中,我们可以利用聚类分析来识别不同的消费群体,并针对不同群体制定个性化的营销策略。
在生物信息学中,聚类分析可以帮助我们发现基因表达数据中的基因模式,并识别相关的生物过程。
在社交网络分析中,我们可以利用聚类分析来发现社交网络中的社区结构,并识别影响力较大的节点。
总之,聚类分析是一种非常有用的数据分析方法,它可以帮助我们发现数据中的内在结构和规律。
通过本文的介绍,相信大家对聚类分析有了更深入的了解,希望能够在实际应用中发挥其价值,为各行各业的发展提供有力支持。
聚类分析课件聚类分析课件聚类分析是一种常用的数据分析方法,它可以将一组数据分成不同的类别或簇,每个簇内的数据点具有相似的特征,而不同簇之间的数据点具有较大的差异。
聚类分析在各个领域都有广泛的应用,如市场细分、社交网络分析、医学诊断等。
在本文中,我们将介绍聚类分析的基本概念、常用算法和实际应用案例。
一、聚类分析的基本概念聚类分析的目标是通过对数据进行分组,使得每个组内的数据点相似度较高,而不同组之间的相似度较低。
聚类分析的基本概念包括距离度量和聚类算法。
1. 距离度量距离度量是衡量数据点之间相似度或差异度的标准。
常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。
欧氏距离是最常用的距离度量方法,它计算数据点在多维空间中的直线距离。
曼哈顿距离则计算数据点在坐标轴上的绝对距离,而闵可夫斯基距离则是这两种距离的一种泛化形式。
2. 聚类算法常用的聚类算法包括K-means算法、层次聚类算法和DBSCAN算法等。
K-means算法是一种迭代的、基于距离的聚类算法,它将数据点分成K个簇,使得每个簇内的数据点与该簇的中心点的距离最小。
层次聚类算法则是一种自底向上的聚类算法,它通过计算数据点之间的相似度来构建一个层次结构。
DBSCAN算法是一种基于密度的聚类算法,它将数据点分为核心点、边界点和噪声点三类,具有较好的鲁棒性和灵活性。
二、常用的聚类分析算法1. K-means算法K-means算法是一种迭代的、基于距离的聚类算法。
它的基本思想是随机选择K个初始中心点,然后将每个数据点分配到距离其最近的中心点所对应的簇中。
接着,重新计算每个簇的中心点,并重复这个过程直到收敛。
K-means算法的优点是简单易实现,但它对初始中心点的选择敏感,并且需要预先指定簇的个数K。
2. 层次聚类算法层次聚类算法是一种自底向上的聚类算法。
它的基本思想是将每个数据点看作一个独立的簇,然后通过计算数据点之间的相似度来构建一个层次结构。
第九章地理系统聚类分析模型第一节聚类分析的方法及变量模型聚类分析(Cluster Analysis)是数理统计中研究“物以类聚”的一种方法。
一、地理系统分类的意义对地理系统的研究很重要的一个问题就是进行地理分区与分类。
聚类分析法可避免传统分类法的主观性和任意性的特点。
但应特别引起注意的是,对地理数据处理不当,或只要求方法的新颖,有时分类的结果可能与地理实际不符合。
一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。
聚类分析法的基本特点二、聚类分析的方法聚类分析的职能是建立一种分类方法,它是将地理样品或变量,按它们在性质上的亲疏程度进行分类。
描述亲疏程度的两个途径当确定了样品或变量的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,主要的两种是:分类方法分类方法(续)在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性分类,变量的特性有三种类型:变量特性的三种类型1、名义特性(无序多态)2、顺序特性(有序多态)它是由一个有序状态序列所确定,指标量度时没有明确的数量关系,只有次序关系,如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”,又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。
3、数值特性(定量)它是由测量或计数、统计所得的量,如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。
不同类型的变量在定义距离相似性测度时有很大的差异,这里主要研究具有数值特性的变量的聚类分析问题。
聚类分析的分类R型聚类分析的作用选择变量的方法:在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值:r2 = Σr i2/(K-1)式中,K为该类的变量个数。
挑选r2值最大的变量x i作为该类的典型变量。
聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。
系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。
根据分类目的不同,系统聚类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型分析。
系统聚类分析法基本步骤如下(许志友,1988)。
(一)数据的正规化和标准化由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数值差别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。
设原始监测数据为Xij (i=1,2,…,n;j=1,2,…,m;n为样品个数,m为变量个数),正规化或标准化处理后的数据为Zij (i=1,2,…,n;j=1,2,…,m)。
1. 正规化计算公式如下:(7-32)(i=1,2,…,n;j=1,2,…,m)2. 标准化计算公式如下:(7-33)(i=1,2,…,n;j=1,2,…,m)其中:(二)数据分类尺度计算为了对数据Zij进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列出分类尺度计算的四种方法。
1.相关系数R两两变量间简单相关系数定义为:(7-34)(i,j=1,2,…,m)其中一般用于变量的分类(R型)。
有一1≤≤1且愈接近1时,则此两变量愈亲近,愈接近-1,则关系愈疏远。
2.相似系数相似系数的意义是,把每个样品看做m维空间中的一个向量,n个样品相当于m维空间中的n个向量。
第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定义,即:(7-35)(i,j=1,2,…,m)常用于样品间的分类(Q型)。
第九章地理系统聚类分析模型第一节聚类分析的方法及变量模型聚类分析(Cluster Analysis)是数理统计中研究“物以类聚”的一种方法。
一、地理系统分类的意义对地理系统的研究很重要的一个问题就是进行地理分区与分类。
聚类分析法可避免传统分类法的主观性和任意性的特点。
但应特别引起注意的是,对地理数据处理不当,或只要求方法的新颖,有时分类的结果可能与地理实际不符合。
一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。
聚类分析法的基本特点二、聚类分析的方法聚类分析的职能是建立一种分类方法,它是将地理样品或变量,按它们在性质上的亲疏程度进行分类。
描述亲疏程度的两个途径当确定了样品或变量的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,主要的两种是:分类方法分类方法(续)在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性分类,变量的特性有三种类型:变量特性的三种类型1、名义特性(无序多态)2、顺序特性(有序多态)它是由一个有序状态序列所确定,指标量度时没有明确的数量关系,只有次序关系,如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”,又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。
3、数值特性(定量)它是由测量或计数、统计所得的量,如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。
不同类型的变量在定义距离相似性测度时有很大的差异,这里主要研究具有数值特性的变量的聚类分析问题。
聚类分析的分类R型聚类分析的作用选择变量的方法:在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值:r2 = Σr i2/(K-1)式中,K为该类的变量个数。
挑选r2值最大的变量x i作为该类的典型变量。
Q型聚类分析优点第二节系统聚类分析系统聚类分析(Hierachical Cluster Analysis)是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样品都可以采用系统聚类法。
选择不同的距离和聚类方法可获得满意的数值分类效果。
系统聚类法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止。
系统聚类法的分类步骤如下:(1)聚类前先对数据进行变换处理(假定在聚类处理之前,已经对变量进行了筛选,选择了那些相关性不很显著的而且贡献大的指标,而剔除了相关性很强的变量)。
(2)聚类分析处理的开始是各样品自成一类(n个样品一共有n类),计算各样品之间的距离,并将距离最近的两个样品并成一类。
(3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止。
(4)最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
一、数据变换处理在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理。
由于在抽取样本对数据进行量度处理时,不同指标(变量)一般都有不同的量纲,并且有不同的数量级单位,为了使不同量纲、不同数量级的数据能放在一起比较,通常需要对数据进行变换处理。
例1、研究世界各国森林、草原资源的分布规律,并抽取22个国家(即22个样品)数据,每个国家有4项指标,以此作聚类分析处理,原始数据见表表中所列的几个变量:森林面积、森林覆盖率、林木蓄积量、草原面积都分别有不同的量纲,而且数值的数量级也相差很大,为了在一起进行比较,需进行变换处理。
所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。
常用的变换方法1、中心化变换中心化是一种标准化处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。
设原始数据矩阵为:X=式中:m为样本数,n为变量数。
设中心化后的数据为x ij’则有:x ij’ = x ij - x jI=1,2,…,mj=1,2,…,n变换的结果使每列数据之和均为0,而且每列数据的平方和是该列数据方差的(n-1)倍,任何不同两列数据之交叉积是这两列的协方差的(n-1)倍,所以这是一种很方便地计算方差-协方差的变换。
中心化变换数据表2、规格化变换规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量的最小值,再除以极差,就得到规格化数据。
原始数据仍见上表,规格化后的数据为x ij’则有:x ij’ =(x ij–min{x ij})/(max{x ij}-min{x ij})I=1,2,…,mj=1,2,…,n经过变换后,将每列的最大数据变为1,最小数据变为0,其余数据取值在0~1之间。
变换后的数据表3、标准化变换标准化变换方法主要是对变量的属性进行变换处理,首先对列进行中心化,然后用标准差进行标准化。
x ij’ =(x ij– x j)/ S jI=1,2,…,mj=1,2,…,n其中:x j =(1/n)Σx ijS j=[{(1/(n-1)}Σ(x ij– x j)2]1/2经过变换后,每列数据的平均值为0,方差为1,使用标准差标准化处理后,在抽样样本改变时,它仍然保持相对稳定性。
变换后的数据表4、对数变换对数变换可将具有指数特征的数据结构化为线性数据结构。
对数变换数据表此外,还有极差标准化、平方根变换、立方根变换等。
极差标准化变换和规格化类似,它是把每个变量的样本极差皆化为1,排除量纲的干扰。
立方根变换和平方根变换的主要作用是把非线性的数据结构变为线性数据结构,以适应某些统计方法的需要。
二、相似系数和距离目前已经设计了大量的相似系数和距离,据统计约有40多种。
但在数值分类中比较常用的却是少数,这里只介绍在聚类分析中常用的相似系数和距离。
1、距离设有数据矩阵为:x ij表示i个样品的第j个指标;第j个指标的均值和标准差为x j和s j;用d ij表示i个样品和j个样品之间的距离。
距离d ij应满足如下几个条件:(1) d ij≥0(一切i,j)常用的距离上述的各种距离是假定变量之间相互独立,即在正交空间中讨论的距离,但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的相关性影响,可以采用马氏距离。
(6)马氏距离(P.C.Mahalanobis)马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算的均值和协方差阵来计算马氏距离,效果不是很好的。
比较合理的办法是用各个类的样本来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。
而类的形成都要依赖于样品之间的距离,而样品的合理的马氏距离又依赖于类,这样就形成了一个恶性循环。
因此在实际聚类分析处理中,马氏距离也不是理想的距离。
为了克服变量间相关性的影响,我们引入了斜交空间距离。
(7)斜交空间距离在m维空间中,为使具有相关性的变量的谱系结构不发生变形,采用斜交空间距离,公式为:除了上述介绍的距离外,样本之间还可以用图论的方法来定义“链距离”,即有n 个样本,其中任两个样本x i与x j之间用链联接,在所有链中,最大边长中的最小者称为x i与x j之间的“链距离”。
2、相似系数聚类分析方法不仅用来对样本进行分类,而且需要对变量进行分类,在对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。
相似系数定义如下:设C ij表示变量y i与y j之间的相似系数,则C ij 应满足如下关系:C ij应满足的关系常用的相似系数3、距离与相似系数选择原则一般说来,同一批数据采用不同的相似性尺度,会得到不同的分类结果。
产生不同结果的原因,主要是由于不同的指标所衡量的相似程度的物理意义不同,也就是说不同指标代表了不同意义上的相似性。
因此我们在进行数值分类时,应注意相似性尺度的选择,注意遵循下列基本选择原则:(1)所选择的相似性尺度在实际应用中应有明确的意义,如在地理变量分析中,常用相关系数表示地理意义之间的亲疏程度。
(2)根据原始数据的性质,选择适当的变换方法,不同的变换方法涉及到选用不同的相似系数,如标准化变换处理下,相关相似系数和夹角余弦一致;又如原始数据在进行聚类分析处理之前已经对变量的相关性作了处理,则通常可采用欧氏距离,而不必选用斜交空间距离。
所选择的距离,还须和选用的聚类方法一致,如聚类方法选用离差平方和法时,距离只能选用欧氏距离。
(3)适当地考虑计算工作量的大小,如对大样本的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。
一般情况下,相关系数比相似系数具有更强的不变性,但相关系数比相似系数有绞强的分辨力。
距离系数与相似系数所得到的结果对比,相似系数的计算数值由大到小单调地减少,故聚类谱系图反映分群明显;而距离系数的数据呈现非单调增加,谱系图显得不如相似系数那样明显分组。
距离的选择是一个比较复杂、带主观性的问题,我们应根据研究对象,作具体分析,在多次进行聚类分析过程中,逐步总结经验,以选择合适的距离。
在初次进行聚类分析处理时,不妨多试探选择几个距离,进行聚类,作对比、分析,以确定合适的距离系数。
三、聚类方法系统聚类方法的基本算法是将n个样品自成一类,先计算(1/2)n(n-1)个相似性测度,并且把具有最小测度的两个样品合并成两个元素的类;然后按照某种聚类方法计算这个类和其余n-2个样品之间的蹴,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品、样品与类、类与类)都要使测度在系统中保持最小,这样每次减少一类,直至所有样品都归为一类为止。
聚类的基本思想是把样本看成m维(m个指标)空间的点,而把每个变量看成m维空间的坐标轴。
如果我们选择的聚类方法是通过各个类之间所起的界面起作用,但不改变原来空间中的点的位置,这种聚类方法称为空间守恒;如果我们所选择的聚类方法,使得由于一个类的扩张,空间似乎围绕着这个类扩张,因此当这个类扩张时,相应的距离也扩张,就好象它吸收了其它的点,这一类并类方法称为空间扩张,这种方法凝聚速度快;还有另一些聚类方法,它由于一个类增长时,相应的距离比空间守恒距离缩短,空间似乎围绕着它收缩,这叫空间收缩。
在系统聚类法中,设第一次并类的两类的距离为D1,第二次合并的距离为D2,……,如果满足D1≤D2≤……,则称并类距离具有单调性。
并类距离有单调性符合系统聚类法的基本思想,但由于选择的聚类方法不同,因而不一定所有的方法都满足单调性的要求。
常用的系统聚类方法(八种)1、最短距离法最短距离法的计算步骤最短距离法是一个单调的,使空间很快收缩的对策,当两类样品合并后,它与其它类的距离是所有距离的最小者,从而缩小了新合并的类与其它样品的距离。