模糊聚类分析方法
- 格式:doc
- 大小:343.00 KB
- 文档页数:7
模糊聚类分析模糊聚类分析,也被称为模糊聚类或者软聚类,是一种数据分析的方法。
与传统的硬聚类不同,模糊聚类可以将每个观测对象划分到不同的聚类中心,从而更好地反映对象与聚类中心之间的相似性。
模糊聚类的思想源于模糊集理论,该理论引入了概率的概念,使得划定边界变得模糊化。
在传统的硬聚类方法中,每个对象只能属于一个聚类,而在模糊聚类中,每个对象的隶属度被划分为一个实数,表示对象属于每个聚类的程度。
模糊聚类的基本原理是通过最小化目标函数来优化聚类结果。
常见的目标函数包括模糊熵和模糊轮廓系数。
模糊熵用于衡量聚类的混乱程度,值越小表示聚类更好。
模糊轮廓系数则用于评价每个对象的聚类紧密度和分离度,系数范围为[-1, 1],越接近1表示聚类结果越好。
模糊聚类的算法有多种,其中最常用的是模糊C均值(FCM)算法。
FCM算法首先随机初始化聚类中心,然后迭代更新对象的隶属度和聚类中心,直到满足终止条件。
在更新过程中,对象的隶属度和聚类中心根据距离度量进行调整。
模糊聚类在各个应用领域都有广泛的应用。
例如,在市场细分中,模糊聚类可以根据消费者的购买偏好将其划分为不同的细分市场,有助于制定更准确的营销策略。
在医学影像分析中,模糊聚类可以帮助医生根据患者的病情将其归类为不同的疾病类型,有助于做出更准确的诊断。
当然,模糊聚类也存在一些问题和挑战。
首先,模糊聚类的计算复杂度高,特别是在处理大规模数据时。
其次,模糊聚类对初始参数的敏感性较高,不同的初始化可能导致不同的聚类结果。
此外,模糊聚类的结果通常难以解释和理解,需要结合领域知识进行进一步分析。
为了克服这些问题,研究者们一直在不断改进模糊聚类算法。
例如,一些研究探索了基于深度学习的模糊聚类方法,利用神经网络来提高聚类的准确性和效率。
此外,还有一些研究致力于开发新的目标函数和距离度量方法,以更好地满足实际问题的需求。
综上所述,模糊聚类是一种基于模糊集理论的数据分析方法,可以更好地刻画对象之间的相似性。
模糊聚类分析是一种数学方法,它使用模糊数学语言根据某些要求对事物进行描述和分类。
模糊聚类分析通常是指根据研究对象的属性构造模糊矩阵,并在此基础上根据一定隶属度确定聚类关系,即样本之间的模糊关系由样本的数量来确定。
模糊数学方法,以客观,准确地聚类。
聚类是将数据集划分为多个类或群集,以便每个类之间的数据差异应尽可能大,并且该类内的数据差异应尽可能小基本覆盖当涉及事物之间的模糊边界时,模糊聚类分析是一种根据某些要求对事物进行分类的数学方法。
聚类分析是数学统计中的一种多元分析方法是利用数学方法定量确定样品之间的关系,从而客观地分类类型。
事物之间的某些界限是精确的,而其他界限则是模糊的。
人群中人脸的相似度之间的界限是模糊的,多云和晴天之间的界限也是模糊的。
当聚类涉及事物之间的模糊界限时,应使用模糊聚类分析方法。
模糊聚类分析广泛应用于气象预报,地质,农业,林业等领域。
通常,聚类的事物称为样本,一组事物称为样本集。
模糊聚类分析有两种基本方法:系统聚类和逐步聚类。
基本方法基本流程(1)通过计算样本或变量之间的相似系数,建立模糊相似矩阵;(2)通过对模糊矩阵进行一系列综合变换,生成模糊等效矩阵。
(3)最后,根据不同的截获水平λ对模糊等效矩阵进行分类系统聚类方法系统聚类方法是一种基于模糊等价关系的模糊聚类分析方法。
在经典聚类分析方法中,经典等价关系可用于对样本集X进行聚类。
令R为X上的经典等价关系。
对于X中的两个元素x和Y,如果XRY或(x,y)∈R ,然后x和y,否则X和y不属于同一类。
[3]使用这种方法,分类的结果与α的值有关。
α的值越大,划分的类别越多。
当α小于某个值时,X中的所有样本将被归为一类。
该方法的优点是可以根据实际需要选择α值,以获得正确的分类。
系统聚类的步骤如下:①用数字描述样品的特性。
设要聚类的样本为x = {x1,xn}。
每个样本具有p个特征,记录为Xi =(Xi1,xip);i = 1,2,…,N;XIP是描述样本Xi的第p个特征的编号。
模糊聚类方法1. 引言模糊聚类是一种将相似的数据点分组的无监督学习技术。
与传统的硬聚类方法相比,模糊聚类通过为每个数据点分配属于不同簇的隶属度来提供更灵活的聚类结果。
本文将介绍模糊聚类方法的基本原理、常用算法以及在实际应用中的一些注意事项。
2. 模糊聚类的基本原理模糊聚类方法的核心思想是将每个数据点划分为多个簇的一部分,而不是将其硬性地分配到某个具体的簇中。
每个数据点属于不同簇的隶属度之和为1,隶属度越大表示该数据点属于该簇的可能性越高。
通过使用模糊聚类方法,我们可以更好地处理数据的不确定性和噪音,同时提供更丰富的聚类结果。
相比硬聚类方法,模糊聚类能够提供更多的信息,适用于更广泛的应用。
3. 常用的模糊聚类算法3.1 模糊C均值聚类算法(FCM)模糊C均值聚类算法是最常用的模糊聚类算法之一。
它在每次迭代中通过计算数据点到簇中心的欧氏距离来更新隶属度,并通过最小化目标函数来调整簇中心的位置。
FCM算法的优点在于对于噪音和离群值的处理能力较强,且具有较好的收敛性。
然而,它对于初始聚类中心的选择较为敏感,且对于大数据集的计算效率较低。
3.2 模糊子空间聚类算法(FSCM)模糊子空间聚类算法是一种基于子空间的模糊聚类方法。
它在模糊聚类的基础上考虑了数据的高维性和局部结构,通过将数据点投影到子空间中进行聚类。
FSCM算法的特点在于能够处理高维数据和具有相关性的特征,且对于离群值具有较好的鲁棒性。
然而,由于需要对每个子空间进行聚类,计算复杂度较高。
3.3 模糊谱聚类算法(FSPC)模糊谱聚类算法是一种基于图论的模糊聚类方法。
它通过构建数据点之间的相似度图,并通过计算图的拉普拉斯矩阵的特征向量来进行聚类分析。
FSPC算法的优点在于能够处理非凸数据分布和非线性数据结构,且对于图的建模和谱分解具有较好的效果。
然而,算法的计算复杂度较高,且对于参数的选择较为敏感。
4. 模糊聚类的实际应用模糊聚类方法在多个领域中都有广泛的应用。
三类模糊聚类方法三类模糊聚类方法模糊聚类是一种常用的数据聚类算法,它可以将样本点的分类问题转化为模糊集合的问题来求解。
根据模糊集合的划分方式,模糊聚类算法可以分为三类,即层次模糊聚类算法、基于相似度的模糊聚类算法和基于混合模型的模糊聚类算法。
(1)层次模糊聚类算法层次模糊聚类算法是一种简单好用的聚类算法,它的思想是通过使用不同的层次深度来划分模糊集合。
层次模糊聚类算法的典型算法有均值层次模糊聚类算法(FCM)、均方层次模糊聚类算法(SFCM)、最大化均值差层次模糊聚类算法(EMFCM)和缩放层次模糊聚类算法(SCFCM)等等。
(2)基于相似度的模糊聚类基于相似度的模糊聚类算法是一种聚类算法,它基于样本之间的相似度来划分模糊集合。
基于相似度的模糊聚类算法的常用算法有基于基础距离度量的模糊聚类算法(Fuzzy C-Means,FCM)、改进型模糊C均值算法(Modified FCM,MFCM)和改进型支持向量机算法(Modified SVM,MSVM)等。
(3)基于混合模型的模糊聚类基于混合模型的模糊聚类算法是一种基于混合模型的聚类算法,它引入了混合模型来构建模糊集合,有效地解决了其他模糊聚类算法中存在的缺陷,如局部最优性和忽略数据分布等问题。
基于混合模型的模糊聚类算法的典型算法有基于混合Normal模型的模糊聚类算法(Mixture Normal Fuzzy C-Means,MNFFCM)、基于混合Gausssian模型的模糊聚类算法(Mixture Gaussian Fuzzy C-Means,MGFCM)、基于混合Beta模型的模糊聚类算法(Mixture Beta Fuzzy C-Means,MBFCM)和基于混合Gamma模型的模糊聚类算法(Mixture Gamma Fuzzy C-Means,MGFCM)等。
模糊聚类的分析
模糊聚类是一种聚类分析的算法,它采用模糊的方法将数据点归类到不同的类别中,以减少聚类的误差。
模糊聚类是机器学习领域的一种流行的算法,它利用每个数据点的模糊属性来衡量其分布在不同类别中的相似度,使得它能够更加准确的进行聚类分析。
模糊聚类的基本原理是把数据点归类到不同的类别中,每个类别都有一系列模糊属性,每个数据点在不同类别中的分布由它们在每个属性上的值来决定。
模糊聚类的最终目标是找到类别与数据点之间的最佳拟合,从而得到最佳聚类结果。
模糊聚类的实现是通过计算每个数据点与每个类别的模糊相似
度来完成的,模糊相似度是基于数据点和每个类别的模糊属性,通过计算每个数据点与每个类别的模糊相似度,可以找到一个最佳的类别,把每个数据点归入该类别,这样就可以得到最优聚类结果。
模糊聚类方法可以用来解决多维数据集聚类分析的问题,它能够更准确的表示多维数据的特征,这使得它能够更准确的对数据进行聚类分析。
此外,模糊聚类方法还能够处理非均匀分布的数据,它能够有效的处理因类别数量和混乱的环境而难以聚类的数据。
模糊聚类的缺点主要在于它的计算速度较慢,因为它需要计算每个数据点与每个类别的模糊相似度,而这需要大量的计算,模糊聚类也无法用于对超大型数据集进行聚类分析,因为它的计算效率较低。
因此,模糊聚类是一种聚类分析算法,它利用模糊性来更准确的表示数据的特征,能够有效的处理多维和复杂的数据。
但是它的计算
效率较低,也不能用于对超大型数据集进行聚类分析,因此,在使用模糊聚类进行聚类分析时,需要考虑其效率和应用限制。
试述模糊聚类的思想方法
模糊聚类是一种聚类分析方法,它是在模糊集合论的基础上进行的。
模糊聚类的思想方法主要有以下几点:
对于一个数据点,它不仅属于一个聚类,而且可以同时属于多个聚类。
因此,每个数据点都有一个隶属度,表示它属于每个聚类的程度。
模糊聚类的目标是最小化聚类间的差异,同时最大化聚类内部的相似度。
因此,模糊聚类的结果具有较高的联通性,能够反映数据之间的真实关系。
模糊聚类的过程一般分为两个阶段:聚类中心的初始化和聚类中心的更新。
聚类中心的初始化是指为每个聚类选取一个初始聚类中心;聚类中心的更新是指不断地调整聚类中心的位置,使得聚类内部的相似度最大化。
模糊聚类的结束条件可以是聚类中心的收敛,也可以是聚类结果的不再变化。
当聚类中心的收敛时,模糊聚类算法便结束了;当聚类结果的不再变化时,模糊聚类算法便结束了。
在模糊聚类算法结束后,每个数据点的隶属度就可以用来表示它属于每个聚类的程度。
模糊聚类的结果可以用来发现数据之间的联系,并且能够对数据进行分类。
在实际应用中,模糊聚类常常被用于市场细分、知识发现、数据挖掘等领域。
模糊聚类分析是根据客观事物的特征、亲和度和相似度建立模糊相似关系,对客观事物进行聚类的一种分析方法。
当涉及到事物之间的模糊边界时,根据一定的要求对事物进行分类的一种数学方法。
聚类分析是数理统计中的一种多元分析方法,它利用数学方法定量地确定样本之间的亲和力,从而客观地对类型进行分类。
一些事物之间的界限是精确的,而另一些则是模糊的。
人与人之间脸部相似的界限是模糊的,天气之间的界限也是模糊的。
当聚类涉及到事物之间的模糊边界时,应使用模糊聚类分析方法。
模糊聚类分析在天气预报、地质、农业、林业等领域有着广泛的应用。
通常,聚类物称为样本,一组聚类物称为样本集。
模糊聚类分析的基本方法有两种:系统聚类法和逐步聚类法。
概述。
在数据分类中,常用的分类方法包括多元统计中的系统聚类、模糊聚类分析等;在模糊聚类分析中,首先要计算模糊相似矩阵,不同的模糊相似矩阵会产生不同的分类结果;即使使用相同的模糊相似矩阵,不同的阈值也会产生不同的分类结果。
“如何确定这些分类的有效性”成为模糊聚类的关键点。
这是识别研究中的一个重要问题。
在文献中,不能令人满意的有效性归因于数据集的几何结构不令人满意。
但笔者认为,不同的几何结构反映了实际需要。
我们不能排除实际需要,追求所谓的“理想几何结构”。
分类不理想不能归因于数据集的几何结构。
对于相同的模糊相似矩阵,文献建立了一种判断模糊聚类有效性的方法。
在有固定显著性水平的情况下,在不同分类中选择F统一测量临界值与F检验临界值之间的最大差值是一种有效的分类方法。
但是,当显著性水平发生变化时,该方法的结果也会发生变化。
文献引入模糊划分办公室来评价模糊聚类的有效性,并人为规定当两个类别的办公室大于1时,两个类别可以合并,最终通过逐次合并得到有效的分类。
这种方法有较多的人为干预,当指定的数量不同时,会得到不同的结果。
系统聚类法。
系统聚类法是一种基于模糊等价关系的模糊聚类分析方法。
在经典的聚类分析方法中,样本集可以通过经典的等价关系进行聚类。
模糊聚类的原理和应用1. 简介模糊聚类是一种聚类分析方法,它通过考虑数据点属于不同聚类的程度,使得数据点可以同时属于多个聚类。
与传统的硬聚类方法不同,模糊聚类能够更好地处理实际问题中的复杂性和不确定性。
本文将介绍模糊聚类的原理和应用。
2. 模糊聚类的原理在传统的硬聚类方法中,每个数据点只能隶属于一个聚类,而在模糊聚类中,每个数据点可以属于多个聚类,且属于不同聚类的程度可以从0到1之间的任意值。
这种程度被称为隶属度,用来表示数据点与聚类的关联程度。
模糊聚类的原理可以通过以下步骤来解释:1.初始化聚类中心:首先随机选择一些数据点作为聚类中心。
2.计算隶属度:计算每个数据点与每个聚类中心的隶属度,可以使用模糊C均值(FCM)算法来计算。
3.更新聚类中心:根据隶属度计算出每个聚类的中心点,更新聚类中心。
4.重复步骤2和3,直到聚类中心不再变化或达到预设的迭代次数。
模糊聚类的核心是通过计算隶属度来确定每个数据点对每个聚类的归属程度,从而实现多类别的聚类。
3. 模糊聚类的应用模糊聚类在许多领域中具有广泛的应用,包括数据挖掘、模式识别、图像处理和生物信息学等。
以下是几个常见的应用领域:3.1 数据挖掘在数据挖掘中,模糊聚类可以帮助找到数据集中的隐藏模式和关联规则。
通过将数据点划分到不同的聚类中,可以更好地理解数据的结构和特征。
模糊聚类还可以用作预测分析和聚类分析的基础。
3.2 模式识别在模式识别中,模糊聚类可以帮助将输入数据分类到模式类别中。
通过考虑隶属度,模糊聚类可以更好地处理模糊和不确定性的输入数据。
这在人脸识别、手写体识别等任务中非常有用。
3.3 图像处理在图像处理中,模糊聚类被广泛应用于图像分割和图像压缩等任务。
通过将图像像素划分到不同的聚类中,可以实现图像的分割和压缩。
模糊聚类还可以用于图像特征提取和图像检索等应用。
3.4 生物信息学在生物信息学中,模糊聚类被用于处理基因表达数据和蛋白质序列数据等。
模糊聚类分析方法对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统 计“物以类聚”的一种分类方法。
载科学技术、经济管理中常常要按一定的标准 (相似程度或亲疏关系)进行分类。
例如,根据生物的某些性状可对生物分类, 根据土壤的性质可对土壤分类等。
由于科学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。
一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域U ={X i ,X 2,||l,X n }为被分类对象,每个对象又有m 个指标表示其性状,于是,得到原始数据矩阵为Xm 1X m2bI-Xnm」其中X nm 表示第n 个分类对象的第m 个指标的原始数据(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行 比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在 区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据 压缩到区间[0,1]上。
通常有以下几种变换: ① 平移•标准差变换X i = {x i1, X i2,川,X m }X i 1X2 1X n2 IHxik -(i 一 1,21 n, k_;HL 2mS k其中-1 n1 n_ 2xkxi , 2(xik~'兀)。
n i 4: n i 4经过变换后,每个变量的均值为 0,标准差为1,且消除了量纲的影响。
但是,再用得到的x k 还不一定在区间[0,1]上。
② 平移•极差变换显然有0乞x ik 乞1,而且也消除了量纲的影响 ③ 对数变换xk- lg x ik (i = 1,n , k; l [L 2 m取对数以缩小变量间的数量级。
2、第二步:标定(建立模糊相似矩阵)设论域U ={为公2,川,人} , X i ={为1必2,川,心},依照传统聚类方法确定相似 系数,建立模糊相似矩阵,x i 与X j 的相似程度用=R(X j ,X j )。
模糊聚类分析方法聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。
由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。
一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1) 数据矩阵设论域12{,,,}n U x x x = 为被分类对象,每个对象又有m 个指标表示其性状,即12{,,,}i i i im x x x x = (1,2,,i n = , 于是,得到原始数据矩阵为111212122212m m n n nm x x xx x x x x x ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭。
其中nm x 表示第n 个分类对象的第m 个指标的原始数据。
(2) 数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。
通常有以下几种变换: ① 平移·标准差变换i k kikk x x x s -'= (1,2,,;1,2,i n k m ==其中 11nk i k i x x n==∑,k s =经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。
但是,再用得到的ikx '还不一定在区间[0,1]上。
② 平移·极差变换111m i n {}m a x {}m i n {}i k i ki nikikiki ni nx x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m =显然有01ikx ''≤≤,而且也消除了量纲的影响。
③ 对数变换lg ik ik x x '= (1,2,,;1,2,i n k m ==取对数以缩小变量间的数量级。
2、第二步:标定(建立模糊相似矩阵)设论域12{,,,}n U x x x = ,12{,,,}i i i im x x x x = ,依照传统聚类方法确定相似系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。
确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。
具体用什么方法,可根据问题的性质,选取下列公式之一计算。
(1) 相似系数法① 夹角余弦法mikjkij xx r =∑ 。
② 最大最小法11()()mikjk k ij mikjk k xx r xx ==∧=∨∑∑。
③ 算术平均最小法112()()mik jk k ij mikjk k x x r xx ==∧=+∑∑。
④ 几何平均最小法112()mi k j kk ij mk x xr ==∧=∑∑。
以上3种方法中要求0ij x >,否则也要做适当变换。
⑤ 数量积法11,,1,,mij ik jk k i j r x x i j M ==⎧⎪=⎨≠⎪⎩∑,其中 1m a x ()mi k j ki jk M x x ≠==∑。
⑥ 相关系数法mik i jk jij x x x x r --=∑,其中 11mi i kk x x m==∑,11mj jkk x x m==∑。
⑦ 指数相似系数法221()13exp[]4mik jk ij k kx x r m s =-=-∑ , 其中 211()nk ikik i s x x n==-∑,而 11nk i ki x x n==∑ (1,2,,)k m = 。
(2) 距离法① 直接距离法1(,)i j i j r c d x x =-,其中c 为适当选取的参数,使得01ij r ≤≤,(,)i j d x x 表示他们之间的距离。
经常用的距离有 海明距离1(,)mi j i k j k k d x x x x ==-∑。
欧几里得距离(,))i j d x x =切比雪夫距离1(,)mij i k j k k d x x x x ==∨-。
② 倒数距离法1,,,,(,)ij i j i j M r i j d x x =⎧⎪=⎨≠⎪⎩。
其中M 为适当选取的参数,使得01ij r ≤≤。
③ 指数距离法e x p [(,)i j i j r dx x =-。
3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法① 传递闭包法根据标定所得的模糊矩阵R 还要将其改造称模糊等价矩阵*R 。
用二次方法求R 的传递闭包,即()t R =*R 。
再让λ由大变小,就可形成动态聚类图。
② 布尔矩阵法布尔矩阵法的理论依据是下面的定理:设R 是12{,,,}n U x x x = 上的一个相似的布尔矩阵,则R 具有传递性(当R 是等价布尔矩阵时)⇔矩阵R 在任一排列下的矩阵都没有形如11111001,,,10011111⎛⎫⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭的特殊子矩阵。
布尔矩阵法的具体步骤如下: ① 求模糊相似矩阵的λ-截矩阵R λ.② 若R λ按定理 2.2.1判定为等价的,则由R λ可得U 在λ水平上的分类,若R λ判定为不等价,则R λ在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。
如此得到的*R λ为等价矩阵。
因此,由*R λ可得λ水平上的分类。
(2) 直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包()t R ,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。
其步骤如下: ① 取11λ=(最大值),对每个i x 作相似类[]i R x ,且 []i R x ={|1}j ij x r =,即将满足1ij r =的i x 与j x 放在一类,构成相似类。
相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现[]{,}i R i k x x x =,[]{,}i R j k x x x =,[][]i j x x ⋂≠∅. 此时只要将有公共元素的相似类合并,即可得11λ=水平上的等价分类。
② 取2λ为次大值,从R 中直接找出相似度为2λ的元素对(,)i j x x (即2ij r λ=),将对应于11λ=的等价分类中i x 所在的类与j x 所在的类合并,将所有的这些情况合并后,即得到对应于2λ的等价分类。
③ 取3λ为第三大值,从R 中直接找出相似度为3λ的元素对(,)i j x x (即3ij r λ=),将对应于2λ的等价分类中i x 所在的类与j x 所在的类合并,将所有的这些情况合并后,即得到对应于3λ的等价分类。
④ 以此类推,直到合并到U 成为一类为止。
(3) 最大树法所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵R 的元素ij r 为权重的一颗最大的树,取定[0,1]λ∈,砍断权重低于λ的枝,得到一个不连通的图,各个连通的分支便构成了在λ水平上的分类。
下面介绍求最大树德克鲁克法设12{,,,}n U x x x =⋅⋅⋅,先画出所有顶点(1,2,,)i x i n =⋅⋅⋅,从模糊相似矩阵R 中按ij r 从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为止,这就得到一颗最大树(最大树可以不唯一)。
二、最佳阈值λ的确定在模糊聚类分析中对于各个不同的[0,1]λ∈,可得到不同的分类,许多实际问题需要选择某个阈值λ,确定样本的一个具体分类,这就提出了如何确定阈值λ的问题。
一般有以下两个方法:① 按实际需要,在动态聚类图中,调整λ的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。
当然,也可由具有丰富经验的专家结合专业知识确定阈值λ,从而得出在λ水平上的等价分类 ② 用F 统计量确定λ最佳值。
[11]设论域12{,,,}n U x x x = 为样本空间(样本总数为n ),而每个样本i x 有m 个特征:12{,,,}i i i im x x x x = ,(1,2,,)i n = 。
于是得到原始数据矩阵,如下表所示,其中11(1,2,,)nk iki x x k m n===∑ ,x 称为总体样本的中心向量。
设对应于λ值的分类数为r ,第j 类的样本数为j n ,第j 类的样本记为:()()()12,,,j j j j n x x x ,第j 类的聚类中心为向量()()()()112(,,,)j j j j m x x x x = ,其中()j k x 为第k个特征的平均值,即()()11jn j j k iki jx xn ==∑,(1,2,,)k m= ,作F 统计量()1()()11(1)()jrj j j n rj j ij i n x xr F x x n r ===--=--∑∑∑,其中 ()2j xx -=为()j x 与x 间的距离,()()j j i x x -为第j 类中第i 个样本()j x 与其中心()j x 间的距离。
称为F 统计量,它是遵从自由度为1r -,n r -的F 分布。
它的分子表征类与类之间的距离,分母表征类内样本间的距离。
因此,F 值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。