第11章 聚类分析与判别分析
- 格式:doc
- 大小:848.00 KB
- 文档页数:21
「聚类分析与判别分析」聚类分析和判别分析是数据挖掘和统计学中常用的两种分析方法。
聚类分析是一种无监督学习方法,通过对数据进行聚类,将相似的样本归为一类,不同的样本归入不同的类别。
判别分析是一种有监督学习方法,通过学习已知类别的样本,构建分类模型,然后应用模型对未知样本进行分类预测。
本文将对聚类分析和判别分析进行详细介绍。
聚类分析是一种数据探索技术,其目标是在没有任何先验知识的情况下,将相似的样本聚集在一起,形成互相区别较大的样本群。
聚类算法根据样本的特征,将样本分为若干个簇。
常见的聚类算法有层次聚类、k-means聚类和密度聚类。
层次聚类是一种自下而上或自上而下的层次聚合方法,通过测量样本间的距离或相似性,不断合并或分裂簇,最终形成一个聚类树状结构。
k-means聚类将样本划分为k个簇,通过优化目标函数最小化每个样本点与其所在簇中心点的距离来确定簇中心。
密度聚类基于样本点的密度来判断是否属于同一簇,通过划定一个密度阈值来确定簇的分界。
聚类分析在很多领域中都有广泛的应用,例如市场分割、医学研究和社交网络分析。
在市场分割中,聚类分析可以将消费者按照其购买行为和偏好进行分组,有助于企业制定更精准的营销策略。
在医学研究中,聚类分析可以将不同患者分为不同的亚型,有助于个性化的治疗和药物开发。
在社交网络分析中,聚类分析可以将用户按照其兴趣和行为进行分组,有助于推荐系统和社交媒体分析。
相比之下,判别分析是一种有监督学习方法,其目标是通过学习已知类别的样本,构建分类模型,然后应用模型对未知样本进行分类预测。
判别分析的目标是找到一个决策边界,使得同一类别内的样本尽可能接近,不同类别之间的样本尽可能远离。
常见的判别分析算法有线性判别分析(LDA)和逻辑回归(Logistic Regression)。
LDA是一种经典的线性分类方法,它通过对数据进行投影,使得同类样本在投影空间中的方差最小,不同类样本的中心距离最大。
逻辑回归是一种常用的分类算法,通过构建一个概率模型,将未知样本划分为不同的类别。
判别分析与聚类分析的基本原理数据分析是在如今信息时代中,越来越重要的一项技能。
在数据分析的过程中,判别分析和聚类分析是两个非常重要的方法。
本文将介绍判别分析和聚类分析的基本原理,以及它们在数据分析中的应用。
一、判别分析的基本原理判别分析是一种用于分类问题的统计方法,其目的是通过学习已知类别的样本数据,来构建一个分类器,从而对未知样本进行分类。
判别分析的基本原理可以简单概括为以下几个步骤:1. 数据预处理:首先需要对数据进行预处理,包括数据清洗、缺失值处理、特征选择等,以获得更好的数据质量。
2. 特征提取:在进行判别分析之前,需要将原始数据转化为有效的特征。
特征提取的方法有很多种,常用的包括主成分分析、线性判别分析等。
3. 训练分类器:利用判别分析算法对已知类别的样本数据进行训练,建立分类模型。
常用的判别分析方法有线性判别分析、二次判别分析等。
4. 分类预测:通过训练好的分类器,对未知样本进行分类预测。
分类预测的结果可以是离散的类标签,也可以是概率值。
判别分析广泛应用于医学、金融、市场营销等领域。
例如,在医学领域,可以利用判别分析来预测疾病的状态,辅助医生做出诊断决策。
二、聚类分析的基本原理聚类分析是一种无监督学习方法,其目的是将相似的数据对象分组,使得同一组内的对象相似度较高,不同组间的相似度较低。
聚类分析的基本原理可以概括为以下几个步骤:1. 选择相似性度量:首先需要选择一个合适的相似性度量,用于评估数据对象之间的相似程度。
常用的相似性度量包括欧氏距离、曼哈顿距离等。
2. 选择聚类算法:根据具体的问题需求,选择合适的聚类算法。
常用的聚类算法有K-means、层次聚类等。
3. 确定聚类数目:根据实际问题,确定聚类的数目。
有些情况下,聚类数目事先是已知的,有些情况下需要通过评价指标进行确定。
4. 根据聚类结果进行分析:将数据对象划分到各个聚类中,并对聚类结果进行可视化和解释。
聚类分析被广泛应用于市场分析、图像处理、社交网络等领域。
聚类分析及判别分析文献综述在科学研究中,人们通过划分同种属性的对象而很好的解决问题,即研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。
聚类分析就是将个体或对象分类,其目的在于是类间对象的同质性最大化和类与类间对象的异质性最大化。
首先在林业资源调查中常用到聚类方法,尤其是苗木质量分级。
查阅相关文献得知,该过程以地径为主要指标,主要步骤是先以地径的数值,从最大值向小排序, 使之成为有序样品,再采用最短距离法将样品间绝对距离最小的苗木,首先合并成新类,并计算新类的重心及各类的距离。
然后把距离最小的聚成类,最后把全部样品聚成三大类,再按平均高径比值得出苗高的分级界值, 即得苗高、地径各级苗木分级标准。
以往苗木质量一般按照“概率的正态分布”进行分级,而根据“聚类法”进行苗木分级, 以个体为依据, 逐步归纳成类, 则能较好地反映苗木分级的实际水平。
其次,在以某14个物种性状为指标,对西藏各地(市) 搜集而来的27 份野生芥菜型油菜进行了聚类分析一文中,研究将数据标准化处理,采用卡方距离、离差平方和聚类方法对27份西藏野生芥菜型油菜的14个主要考种性状进行聚类,聚类结果与田间调查情况基本一致,表明该聚类方法对其的综合分类是科学可靠的。
它不仅具有简便易行,结果一目了然的优点,而且可对油菜综合性状作出定量的评价分析,不存在人为的主观分类现象,弥补了常规分析方法的单纯性。
同样广泛应用的判别分析法是多元统计分析的一个重要分枝,当解释变量是属性变量而解释变量是度变量时,判别分析就是合适的度量方法。
判别分析法是在已掌握二组或数组有明确分类(如茶树品种的抗寒、不抗寒;高、中、低产)数据(称为训练样本)的基础上,经计算处理后产生二个或数个判别函数。
经由训练样本的各项指标的观察值回代判别函数中,做出类别归属的判断并求出误判或正确判定的百分率的一种多元分析方法。
实际应用时,可将未知样的观察值代入判别函数中,即可预知其归属。
第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。
这两种聚类在数学上是对称的,没有什么不同。
聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
二、如何度量距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。
3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。
常用的相似系数有夹角余弦、相关系数等。
夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。
第二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。
判别分析与聚类分析判别分析与聚类分析是数据分析领域中常用的两种分析方法。
它们都在大量数据的基础上通过统计方法进行数据分类和归纳,从而帮助分析师或决策者提取有用信息并作出相应决策。
一、判别分析:判别分析是一种有监督学习的方法,常用于分类问题。
它通过寻找最佳的分类边界,将不同类别的样本数据分开。
判别分析可以帮助我们理解和解释不同变量之间的关系,并利用这些关系进行预测和决策。
判别分析的基本原理是根据已知分类的数据样本,建立一个判别函数,用来判断未知样本属于哪个分类。
常见的判别分析方法包括线性判别分析(LDA)和二次判别分析(QDA)。
线性判别分析假设各类别样本的协方差矩阵相同,而二次判别分析则放宽了这个假设。
判别分析的应用广泛,比如在医学领域可以通过患者的各种特征数据(如生理指标、疾病症状等)来预测患者是否患有某种疾病;在金融领域可以用来判断客户是否会违约等。
二、聚类分析:聚类分析是一种无监督学习的方法,常用于对数据进行分类和归纳。
相对于判别分析,聚类分析不需要预先知道样本的分类,而是根据数据之间的相似性进行聚类。
聚类分析的基本思想是将具有相似特征的个体归为一类,不同类别之间的个体则具有明显的差异。
聚类分析可以帮助我们发现数据中的潜在结构,识别相似的群组,并进一步进行深入分析。
常见的聚类分析方法包括层次聚类分析(HCA)和k-means聚类分析等。
层次聚类分析基于样本间的相似性,通过逐步合并或分割样本来构建聚类树。
而k-means聚类分析则是通过设定k个初始聚类中心,迭代更新样本的分类,直至达到最优状态。
聚类分析在市场细分、社交网络分析、图像处理等领域具有广泛应用。
例如,可以将客户按照他们的消费喜好进行分组,以便为不同群体提供有针对性的营销活动。
总结:判别分析和聚类分析是两种常用的数据分析方法。
判别分析适用于已知分类的问题,通过建立判别函数对未知样本进行分类;聚类分析适用于未知分类的问题,通过数据的相似性进行样本聚类。
目录1.聚类分析 (2)1.1问题描述 (2)1.2数据初步分析 (2)1.3层次聚类 (2)1.4结果解释 (3)1.5聚类结果的验证与进一步分析 (5)1.6最终的类别特征描述 (7)2.判别分析 (7)2.1 问题描述 (7)2.2 数据基本分析 (10)2.3判别分析 (10)2.4 结果分析 (10)2.5 判别效果的验证 (14)1.聚类分析1.1问题描述对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析,希望通过聚类分析的方法将相似的饮料找出来,即将16种饮料划分为若干类别,从而更好的指导销售者制定销售计划,具体数据如下表1:表1:饮料数据1.2首先对数据进行初步的考察,对各个指标做简单描述性统计分析。
表2:Descriptive Statistics从表2中可以看出4个指标的量纲基本不同,尤其以热量和价格的差距最为明显,显示了数据量纲间有很强的差异性。
为消除不同变量大小对聚类结果的影响,有必要在聚类分析前对数据进行标准化处理。
1.3层次聚类在SPSS中,实现层次聚类的过程步骤如下:在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用Z Scores方法对数据进行标准化。
1.4结果解释层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。
表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。
第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。
第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一次出现在聚类过程中。
第7列表示在这一步骤中合并的类别,下一次将在第几步中与其他类别再进行合并。
要注意,在聚类过程的描述中,往往一个记录号已经13 2 7 35.262 7 10 1414 2 3 45.703 13 11 1515 1 2 60.000 12 14 0聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。
聚类分析聚类分析和判别分析有相似的作用,都是起到分类的作用。
但是,判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。
所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。
SAS/STAT中提供了谱系聚类、快速聚类、变量聚类等聚类过程。
谱系聚类方法介绍谱系聚类是一种逐次合并类的方法,最后得到一个聚类的二叉树聚类图。
其想法是,对于个观测,先计算其两两的距离得到一个距离矩阵,然后把离得最近的两个观测合并为一类,于是我们现在只剩了个类(每个单独的未合并的观测作为一个类)。
计算这个类两两之间的距离,找到离得最近的两个类将其合并,就只剩下了个类……直到剩下两个类,把它们合并为一个类为止。
当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。
决定聚类个数是一个很复杂的问题。
设观测个数为,变量个数为,为在某一聚类水平上的类的个数,为第个观测,是当前(水平)的第类,为中的观测个数,为均值向量,为类中的均值向量(中心),为欧氏长度,为总离差平方和,为类的类内离差平方和,为聚类水平对应的各类的类内离差平方和的总和。
假设某一步聚类把类和类合并为下一水平的类,则定义为合并导致的类内离差平方和的增量。
用代表两个观测之间的距离或非相似性测度,为第水平的类和类之间的距离或非相似性测度。
进行谱系聚类时,类间距离可以直接计算,也可以从上一聚类水平的距离递推得到。
观测间的距离可以用欧氏距离或欧氏距离的平方,如果用其它距离或非相似性测度得到了一个观测间的距离矩阵也可以作为谱系聚类方法的输入。
根据类间距离的计算方法的不同,有多种不同的聚类方法。
第十一章聚类分析与判别分析聚类分析与判别分析是两类常用多元分析方法。
聚类分析可以将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强;而判别分析则可以根据已掌握的样本信息建立判别函数,当遇到新的样本点时根据判别函数可以判断该样本点所属的类别。
第一节聚类分析一、聚类分析的基本思想“物以类聚,人以群分”。
分类处理,在现实中极为普遍。
在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。
例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类;在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究;在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。
历史上,这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。
为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学,进而产生了聚类分析这一最常用的技巧。
聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
其目的在于:使类内对象的同质性最大化和类间对象的异质性最大化。
聚类分析通常可以分为两种:Q型聚类和R型聚类。
Q型聚类是对观测个体的分类,R 型聚类是对变量的分类。
二者在数学上是对称的,没有本质区别。
二、符号说明多元统计分析中要注意区分样本和变量。
每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量,可以把n 个样品看成p维空间中的n个点。
X表示第k个变量第j次观测值(或称第j个项目的测量值),即:我们用记号jkX=第k个变量第j次观测值jkp个变量的n个观测值可表示如下:11121121222212121212k p k pj j jk jp n n nknpkp X X X X X X X X j X X X X nX X XX 变量变量变量变量观测观测观测观测记为:1112112122221212k p k p j j jk jp n n nknp X X X X X X X X X X X X X X X X ⎛⎫⎪ ⎪⎪=⎪ ⎪⎪ ⎪ ⎪⎝⎭X 记12(,,,)'jp j j jp X X X X R =∈,表示第j 个样品,它表示p 维空间的一个点。
则有:12()()'()'()'n p n X X X ⨯⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭X记12i i n i ni X X X R X ⎛⎫⎪ ⎪=∈ ⎪ ⎪⎝⎭,表示第i 个变量所有n 个观测值,则有: ()()12,,,n p p X X X ⨯=X在不引起混淆的情况下,我们也以12,,,p X X X 表示变量。
三、相似性度量在聚类之前,要首先分析样品间的相似性。
一般说,研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,等等。
因而对相似性的描述成为聚类分析的基础。
相似性度量的工具一般可以采用距离和相似系数。
距离常用来度量样品间相似性,相似系数常用来度量变量间相似性。
1.样品间相似性度量两个样品间相似程度就可用p 维空间中的两点距离公式来度量。
两点距离公式可以从不同角度进行定义,令d ij 表示样品X i 与X j 的距离,常用以下距离公式:(1)绝对距离1(1)pij ik jk k d X X ==-∑ (11-1)(2)平方欧氏距离21/21(2)()pi j i kj kk d X X ==-∑ (11-2)(3)切比雪夫距离1()max ij ik jkk pd X X ≤≤∞=- (11-3)(4)明考夫斯基距离(明氏距离)1/1()()pqq ij ik jk k d q X X ==-∑ (11-4)绝对距离、平方欧氏距离与切比雪夫距离都是明氏距离的特例(1,2,q =∞)。
明氏基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性。
②明氏距离的定义没有考虑各个变量之间的相关性和重要性。
实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。
考虑到明氏距离的缺陷,可以采用兰氏距离和马氏距离。
(5)兰氏距离兰思和威廉姆斯(Lance & Williams)所给定的一种距离,其计算公式为1()pik jk ij k ik jkX X d L X X =-=+∑(11-5)这是一个自身标准化的量,由于它对大的奇异值不敏感,使其特别适合于高度偏倚的数据,有助于克服明氏距离的第一个缺点。
但它也没有考虑指标之间的相关性。
(6)马氏距离印度著名统计学家马哈拉诺比斯(P .C .Mahalanobis)所定义了一种距离,其计算公式为:21()()()i j i j ij d M X X X X -'=--Σ (11-6)其中,i j X X 与j 为第i 个和第j 个样本,列向量,来自均值向量为μ ,协方差为∑(>0)的总体。
马氏距离又称为广义欧氏距离。
显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的方差的倒数作为权数的加权平方欧氏距离。
马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。
将原始数据作线性变换后,马氏距离不变。
马氏距离计算的困难在于协方差矩阵的计算。
通常总体的协方差矩阵未知,可以用样本数据估计。
一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。
通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。
如欧氏距离就有非常明确的空间距离概念,马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。
如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)实际中,聚类分析前不妨试探性地选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
2.变量相似性的度量变量间的相似性有两种度量方法:夹角余弦和相关系数。
(1)夹角余弦两变量X i 与X j 看作p 维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算cos pikjkij XX θ=∑ (11-7)显然,∣cos θ ij ∣ ≤ 1。
(2)相关系数相关系数经常用来度量变量间的相似性。
变量Xi 与Xj 的相关系数定义为()()piki jk j ij XX X X r --=∑ (11-8)显然也有,∣r ij ∣ ≤ 1。
无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似的度量工具,我们把它们统记为c ij 。
当∣c ij ∣=1时,说明变量X i 与X j 完全相似;当∣c ij ∣近似于1时,说明变量X i 与X j 非常密切;当∣c ij ∣= 0时,说明变量X i 与X j 完全不一样;当∣c ij ∣近似于0时,说明变量X i 与X j 差别很大。
据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。
在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作如下变换: d ij = 1 - ∣c ij ∣ (11-9) 或者d ij 2 = 1 - c ij 2 (11-10) 四、系统聚类法1.系统聚类的基本思路系统聚类思路是:假设总共有n 个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n 类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n -1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n -2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
2.类间距离与系统聚类方法 在进行系统聚类之前,我们首先要定义类与类之间的距离,不同的类间距离定义产生了不同的系统聚类法。
常用的类间距离定义有8种,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。
它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。
以下用d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
最短距离法定义类与类之间的距离为两类最近样品的距离,即为p qpq ,mini j ij X G X G D d ∈∈=(11-11)设类G i 与G j 合并成一个新类记为G r ,则k G 与r G 的距离为,mini j k rkr ij X G X G D d ∈∈=,,min{min,min}i j i j k pk qij ij X G X G X G X G d d ∈∈∈∈=min{,}kp kq D D = (11-12)类似的,最长距离法定义类与类之间的距离为两类最远样品的距离;重心法定义类与类之间的距离为两个类的重心之间的距离,等等,我们不再详述。
离差平方和法也称为Ward 法。
按照这种方法,在进行聚类时先计算某两个类各自的类内离差平方和,然后计算把这两个类合并后的类内离差平方和,计算出两个类合并前后类内离差平方和的增加量。
最后,将类内离差平方和增加最小的两个类进行合并,依此类推。
下面我们用最短距离法来说明系统聚类的步骤。
(1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D (0),开始每个样品自成一类,显然这时D ij =d ij 。
(2)找出距离最小元素,设为D pq ,则将G p 和G q 合并成一个新类,记为G r ,即G r = {G p ,G q }。
(3)按(11-12)计算新类与其它类的距离。
(4)重复(2)、(3)两步,直到所有元素。
并成一类为止。
如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。
【例11.1】设有五个样品,每个只测量一个指标,分别是1,2,3,7,9。
试用最短距 离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D (0),见表11-4。
(2)D (0)中最小的元素是D 12=D 23=1,于是将G 1、G 2与G 3合并成G 6,并利用(11-14)式计算新类与其它类的距离阵D (1) ,见表11-5。