基于归并聚类中心思想的模糊聚类分析方法研究
- 格式:pdf
- 大小:143.59 KB
- 文档页数:3
模糊聚类方法在图像识别中的应用研究图像识别是计算机视觉领域的重要研究方向,其应用广泛涉及到人脸识别、物体检测、图像分类等领域。
模糊聚类方法是一种有效的图像处理技术,其通过对图像中的数据进行聚类分析,可以实现对图像信息的有效提取和分析。
本文将探讨模糊聚类方法在图像识别中的应用,并通过实验验证其有效性。
1. 引言随着计算机技术和人工智能技术的不断发展,图像识别在现实生活中得到了广泛应用。
然而,由于图像数据具有高维度和复杂性等特点,传统的数据处理方法往往难以满足对大规模复杂数据进行高效分析和处理的需求。
因此,如何有效提取和分析大规模复杂数据中蕴含的信息成为了一个重要问题。
2. 模糊聚类方法2.1 模糊聚类概述模糊聚类是一种基于模糊理论和统计学原理进行数据分类和分析的方法。
与传统聚类方法相比,模糊聚类方法能够更好地处理模糊和不确定性问题,对于处理复杂数据具有较好的适应性和鲁棒性。
2.2 模糊聚类算法模糊聚类算法主要包括模糊C均值算法(FCM)、模糊C均值算法改进版(FCM改进算法)、模糊C均值混合高斯分布算法(FCM-GMM)等。
这些方法通过对数据进行分组,将相似的数据归为一类,不相似的数据归为不同类别。
3. 模糊聚类方法在图像识别中的应用3.1 图像分割图像分割是图像识别中的一个重要步骤,其目标是将图像中的目标物体从背景中分离出来。
传统的图像分割方法往往需要依赖于特定领域知识和手工设计特征,而模糊聚类方法能够通过对图像数据进行聚类分析来实现自动化和智能化。
3.2 物体检测物体检测是指在给定一张包含目标物体和背景信息的图像时,自动地确定出物体在图像中位置和大小等信息。
传统的物体检测方法主要基于特征提取和分类器构建,而模糊聚类方法能够通过对图像数据进行聚类分析来实现对目标物体的检测和定位。
3.3 图像分类图像分类是指将图像按照其内容进行归类的过程。
传统的图像分类方法主要基于特征提取和机器学习算法,而模糊聚类方法能够通过对图像数据进行聚类分析来实现对图像的自动分类。
《基于模糊隶属度优化的密度峰值聚类算法研究》一、引言随着大数据时代的到来,数据挖掘和机器学习技术得到了广泛的应用。
聚类分析作为数据挖掘的重要手段之一,其算法的优化与改进一直是研究的热点。
其中,密度峰值聚类算法因其简单高效的特点,在许多领域得到了广泛的应用。
然而,传统的密度峰值聚类算法在处理复杂数据集时仍存在一些问题,如对噪声的敏感性和对参数设置的依赖性等。
为了解决这些问题,本文提出了一种基于模糊隶属度优化的密度峰值聚类算法,以实现更准确的聚类效果。
二、密度峰值聚类算法概述密度峰值聚类算法是一种基于密度的聚类方法,其基本思想是通过计算数据点的局部密度和距离来识别聚类中心。
该算法首先计算每个数据点的局部密度,然后根据数据点之间的相对距离来确定其所属的聚类中心。
最后,通过迭代优化,将每个数据点分配到最近的聚类中心,从而完成聚类过程。
三、模糊隶属度优化思路在传统的密度峰值聚类算法中,数据点的归属往往被简单地划分为“属于”或“不属于”某个聚类中心。
这种硬划分的方式可能导致部分数据点的归属不够准确,尤其是在处理复杂数据集时。
为了解决这个问题,本文引入了模糊隶属度的概念,对数据点的归属进行软划分。
模糊隶属度是一种描述数据点与聚类中心之间关系的方法。
通过对每个数据点的局部密度和相对距离进行计算,可以确定其与各个聚类中心的关联程度,从而得到模糊隶属度。
通过优化模糊隶属度,可以使算法更好地处理复杂数据集,提高聚类的准确性和鲁棒性。
四、算法实现基于模糊隶属度优化的密度峰值聚类算法实现主要包括以下步骤:1. 计算每个数据点的局部密度和相对距离;2. 根据局部密度和相对距离确定初始的聚类中心;3. 计算每个数据点与各个聚类中心的模糊隶属度;4. 根据模糊隶属度对数据进行迭代优化,更新每个数据点的归属;5. 重复步骤3和4,直到达到收敛条件或达到最大迭代次数。
五、实验结果与分析为了验证基于模糊隶属度优化的密度峰值聚类算法的有效性,我们进行了多组实验。
第二节模糊聚类分析方法模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。
近年来,模糊聚类分析方法在地理分区与地理事物分类研究中得到了广泛地应用。
本节,我们将主要介绍基于模糊等价关系与基于最大模糊支撑树的模糊聚类分析方法在地理分区和地理事物分类中的应用。
一、基于模糊等价关系的模糊聚类分析方法基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关上的一个普通等价关系,也就得到了关于U中被分类对象元素的一种分类。
当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类分析方法中的一个关键性的环节。
(一)建立模糊等价关系各个分类对象之间的相似性统计量,建立分类对象集合U上的模糊相似关系1.模糊相似关系的建立关于各分类对象之间相似性统计量r ij的计算,除了采用夹角余弦公式和相似系数计算公式(分别见第二章第三节中(10)和(11)式)以外,还可以采用如下几个计算公式。
(1)数量积法:在(1)式中,M是一个适当选择之正数,一般而言,它应满足:(2)绝对值差数法:在(2)式中,c为适当选择之正数,使0≤r ij<1(i≠j)。
(3)最大最小值法:(4)算术平均最小法:(5)绝对值指数法:(6)指数相似系数法:在(6)式中,s k是第k个指标的方差,即传递性,也就是说它并不是模糊等价关系。
因此,为了聚类,我们必须采用这样下去,就必然会存在一个自然数K,使得:显然,对于第二章中表2-12所描述的九个农业区域,用夹角余弦公式计算所得的相似系数矩阵就是这九个农业区域所构成的分类对象集合上的一个模糊相似关系,经过自乘计算后可以验证:■R=R4R4=R4(二)在不同的截集水平下进行聚类结果:(1)取λ=1,得:各自成为一类。
(2)取λ=0.99,得:G6,G7归并为一类,而G1,G2,G3,G4,G8,G9各自成为一类。
(3)取λ=0.95,得:行与第3行和其它各行均不相同,故G2与G8聚为一类,G4与G9聚为一类,G5、G6、G7聚为一类,而G1和G3各自成为一类。
试述模糊聚类的思想方法
模糊聚类是一种聚类分析方法,它是在模糊集合论的基础上进行的。
模糊聚类的思想方法主要有以下几点:
对于一个数据点,它不仅属于一个聚类,而且可以同时属于多个聚类。
因此,每个数据点都有一个隶属度,表示它属于每个聚类的程度。
模糊聚类的目标是最小化聚类间的差异,同时最大化聚类内部的相似度。
因此,模糊聚类的结果具有较高的联通性,能够反映数据之间的真实关系。
模糊聚类的过程一般分为两个阶段:聚类中心的初始化和聚类中心的更新。
聚类中心的初始化是指为每个聚类选取一个初始聚类中心;聚类中心的更新是指不断地调整聚类中心的位置,使得聚类内部的相似度最大化。
模糊聚类的结束条件可以是聚类中心的收敛,也可以是聚类结果的不再变化。
当聚类中心的收敛时,模糊聚类算法便结束了;当聚类结果的不再变化时,模糊聚类算法便结束了。
在模糊聚类算法结束后,每个数据点的隶属度就可以用来表示它属于每个聚类的程度。
模糊聚类的结果可以用来发现数据之间的联系,并且能够对数据进行分类。
在实际应用中,模糊聚类常常被用于市场细分、知识发现、数据挖掘等领域。
关于运用模糊聚类分析评价教学质量的研究作者:周世学邓蓓张静来源:《教育与职业·理论版》2007年第09期[摘要]教育现象的许多因素无法划分到绝对明晰的类别中,任何具体的同一性都是相对的,其中包含着差异和变化,因而呈现出一定的不确定性。
依照模糊数学的观点,被人们视为同一的许多事物,都是一个模糊集合。
据此,我们可以借助模糊聚类分析测量教育因素间的指标值或计算它们的相关值,建立教育研究评判指标,对教师教学质量进行科学的量化评价。
[关键词]模糊综合评判教师教学质量教学评价[作者简介]周世学(1957- ),男,辽宁大连人,天津大学在读博士,天津职业大学副教授,主要从事教育经济与管理等方面的研究。
(天津300700)邓蓓(1962- ),女,天津人,天津中德职业技术学院副教授,主要从事信息管理等方面的研究工作。
(天津300191)张静(1979- ),女,山东德州人,天津职业大学硕士研究生,主要从事计算数学、教学管理等方面的研究工作。
(天津300420)[中图分类号]G40-058.1[文献标识码]A[文章编号]1004-3985(2007)14-0125-01客观事物皆具有两重性,即确定性与模糊性。
所谓模糊性,主要是指客观事物在差异的“中介过程”所呈现的“亦此亦彼”性。
而教育作为一种以人为主要研究对象的社会范畴,是一个远比生物学和物理学更复杂的研究领域。
教育诸种特性构成教育状态的复杂性,与这种复杂性紧紧相伴的便是教育现象的模糊性。
正因如此,对教育问题的量化评价要比物理现象的测量和统计困难得多。
教育评价研究的这一难题随着模糊数学的诞生与移植在很大程度上得到了解决。
学校要提高教育质量,首先就要提高教学质量,教学评价就是判断教学质量是否达到一定要求。
因此,客观、公正、科学、有效地对教师教学质量做出正确评价,对学校的生存与发展至关重要。
一、教学评价量化的模糊数学方法1.聚类分析法。
聚类分析是按照一定的标准对事物进行分类的数学方法。
基于模糊聚类算法的文本自动分类技术研究随着信息技术的不断发展,文本数据在我们的日常生活中变得越来越重要。
随之而来的挑战之一是如何对大量的文本数据进行自动分类。
本文将讨论基于模糊聚类算法的文本自动分类技术,探讨其原理、应用和潜在优势。
## 1. 引言文本分类是将文本数据划分为不同的类别或标签的过程。
这一技术在信息检索、情感分析、垃圾邮件过滤和新闻分类等领域具有广泛的应用。
传统的文本分类方法通常依赖于精确的特征提取和监督学习算法。
然而,这些方法对于大规模、高维度的文本数据面临挑战,而模糊聚类算法则提供了一种新的解决方案。
## 2. 模糊聚类算法### 2.1 概述模糊聚类是一种聚类分析技术,它允许一个对象同时属于多个不同的类别,而不是严格划分为某个类别。
这种模糊性在文本分类中具有重要意义,因为一篇文本可能涉及多个主题或类别,而不容易划分到某一个类别中。
### 2.2 模糊c-均值(FCM)模糊c-均值是一种常用的模糊聚类算法,它将每个文本分配到不同类别的隶属度。
这种模糊性的隶属度可以更好地反映文本与不同类别的关系。
FCM的核心思想是最小化目标函数,以确定每个文本与每个类别的隶属度。
### 2.3 模糊聚类的优势与传统的硬聚类方法相比,模糊聚类在文本分类中具有以下优势:- 考虑文本的多主题性。
- 允许文本在不同类别中具有不同的隶属度。
- 对噪声数据有一定的容忍度。
## 3. 文本自动分类的应用文本自动分类技术在多个领域有着广泛的应用,以下是一些典型应用:### 3.1 情感分析情感分析是一种文本分类任务,旨在确定文本中的情感倾向,如正面、负面或中性。
模糊聚类可以更好地处理情感分析中的主题多样性,因为一篇文本可能包含多种情感信息。
### 3.2 新闻分类新闻分类是将新闻文章划分为不同主题或类别的任务。
模糊聚类可以更好地处理新闻文章可能涉及多个主题的情况,而不必强行将其分为一个类别。
### 3.3 信息检索信息检索涉及从大量文档中检索与用户查询相关的文档。
模糊聚类的原理和应用1. 简介模糊聚类是一种聚类分析方法,它通过考虑数据点属于不同聚类的程度,使得数据点可以同时属于多个聚类。
与传统的硬聚类方法不同,模糊聚类能够更好地处理实际问题中的复杂性和不确定性。
本文将介绍模糊聚类的原理和应用。
2. 模糊聚类的原理在传统的硬聚类方法中,每个数据点只能隶属于一个聚类,而在模糊聚类中,每个数据点可以属于多个聚类,且属于不同聚类的程度可以从0到1之间的任意值。
这种程度被称为隶属度,用来表示数据点与聚类的关联程度。
模糊聚类的原理可以通过以下步骤来解释:1.初始化聚类中心:首先随机选择一些数据点作为聚类中心。
2.计算隶属度:计算每个数据点与每个聚类中心的隶属度,可以使用模糊C均值(FCM)算法来计算。
3.更新聚类中心:根据隶属度计算出每个聚类的中心点,更新聚类中心。
4.重复步骤2和3,直到聚类中心不再变化或达到预设的迭代次数。
模糊聚类的核心是通过计算隶属度来确定每个数据点对每个聚类的归属程度,从而实现多类别的聚类。
3. 模糊聚类的应用模糊聚类在许多领域中具有广泛的应用,包括数据挖掘、模式识别、图像处理和生物信息学等。
以下是几个常见的应用领域:3.1 数据挖掘在数据挖掘中,模糊聚类可以帮助找到数据集中的隐藏模式和关联规则。
通过将数据点划分到不同的聚类中,可以更好地理解数据的结构和特征。
模糊聚类还可以用作预测分析和聚类分析的基础。
3.2 模式识别在模式识别中,模糊聚类可以帮助将输入数据分类到模式类别中。
通过考虑隶属度,模糊聚类可以更好地处理模糊和不确定性的输入数据。
这在人脸识别、手写体识别等任务中非常有用。
3.3 图像处理在图像处理中,模糊聚类被广泛应用于图像分割和图像压缩等任务。
通过将图像像素划分到不同的聚类中,可以实现图像的分割和压缩。
模糊聚类还可以用于图像特征提取和图像检索等应用。
3.4 生物信息学在生物信息学中,模糊聚类被用于处理基因表达数据和蛋白质序列数据等。
基于模糊聚类算法的文本分类技术研究随着互联网的普及,我们每天都会接收到大量的文字信息,如何高效地对这些信息进行分类和整理,成为了一个非常重要的问题。
文本分类技术就是解决这个问题的一种方法。
本文将介绍基于模糊聚类算法的文本分类技术的研究。
一、什么是文本分类技术?文本分类技术(Text Classification),也被称为文本挖掘技术(Text Mining),是一种数据挖掘技术,主要应用于对文本数据进行分类和归类。
文本分类技术可以帮助我们快速地过滤出我们需要的信息,并将其按照一定的规则分门别类,方便我们进行查找和分析。
二、文本分类技术的应用领域文本分类技术的应用领域非常广泛,例如:1. 搜索引擎:搜索引擎需要对网页进行分类归纳,使得用户能够快速地找到自己想要的内容。
2. 新闻分类:对新闻进行分类,方便用户快速浏览最新情况。
3. 垃圾邮件过滤:将垃圾邮件识别出来,并阻止其进入用户的邮箱。
4. 情感分析:通过对用户评论的分类和分析,了解用户对产品的评价和需求。
三、基于模糊聚类算法的文本分类在文本分类技术中,最常用的算法是朴素贝叶斯算法、支持向量机算法、最近邻算法等。
而本文要介绍的是一种基于模糊聚类算法的文本分类方法。
1. 模糊聚类算法模糊聚类算法是一种聚类算法,其基本思想是将数据分成若干组,并且同一组内的数据在某种意义下是相似或相近的。
在模糊聚类算法中,每个数据点不再只属于一个类别,而是具有属于每个类别的一定概率。
模糊聚类算法最常用的方法是Fuzzy C-Means(FCM)算法,它是一种针对多维数据的非监督分类算法。
其核心是在数据集中选择一些中心点,然后不断迭代,直到聚类簇的中心点不再变化。
2. 基于模糊聚类算法的文本分类在基于模糊聚类算法的文本分类中,文本首先需要进行预处理,包括去噪、分词、停用词过滤等操作。
然后,将文本转化为向量表示,每篇文章都表示为一个向量。
接着,以Fuzzy C-Means算法为例,将每篇文章作为一个数据点,以词语的出现频率作为特征,进行聚类。
Matlab中的模糊聚类分析方法探究一、引言近年来,随着数据科学和机器学习的迅速发展,模糊聚类分析成为了处理模糊和不确定性数据的一种重要方法。
而在众多的模糊聚类算法中,Matlab中提供的模糊C-均值聚类算法(Fuzzy C-Means clustering)无疑是其中最受瞩目的。
本文旨在探究Matlab中的模糊聚类分析方法,并对其应用进行深入剖析。
二、模糊聚类分析方法概述模糊聚类分析是一种基于模糊数学的聚类方法。
与传统的硬聚类方法不同,模糊聚类允许数据点属于多个聚类中心,以概率形式给出。
这种灵活性使得模糊聚类能够更好地处理存在模糊性和不确定性的数据。
模糊C-均值算法是模糊聚类中的一种经典算法,也是Matlab中常用的模糊聚类算法。
该算法的基本思想是:通过迭代地分配数据点到聚类中心,并更新聚类中心,不断优化聚类结果。
具体而言,算法的步骤包括初始化聚类中心、计算数据点与聚类中心的距离、根据距离更新模糊划分矩阵和聚类中心等。
三、Matlab中的模糊聚类分析方法在Matlab中,模糊C-均值算法可以通过fuzzy方法或fcm方法进行实现。
这两个方法均提供了一系列参数和选项,以满足不同应用场景的需求。
1. fuzzy方法fuzzy方法是Matlab中的基于模糊理论的聚类方法。
通过设置模糊聚类的目标函数和约束条件,可以实现不同的聚类分析。
该方法对应的函数为fcm函数。
在调用fcm函数时,需要指定数据集、聚类数、迭代次数等参数。
同时,还可以通过设置模糊度指数和终止条件等参数控制聚类的具体过程。
值得一提的是,该方法还支持自动确定聚类数的操作,为聚类分析提供了更大的灵活性。
2. fcm方法fcm方法也是Matlab中的模糊C-均值算法的一种实现方式。
与fuzzy方法相比,fcm方法更加灵活,并且在处理大规模数据时速度更快。
该方法对应的函数为fcm函数。
在使用fcm函数时,需要设置与fuzzy方法类似的参数,例如数据集、聚类数和迭代次数等。
第37卷第4期 2007年7月 航空计算技术 Aeronautical Computing Technique Vo1.37 No.4
Ju1.2007
基于归并聚类中心思想的模糊聚类分析方法研究 刘舒野,林和平,杨晨 (东北师范大学计算机学院,吉林长春130117) 摘要:基于归并聚类中心的思想,将全部样本作为初始聚类中心,以离差隶属度作为计算聚类中 心的因素,用最大类间距离作为归并聚类中心的标准,进而确定出聚类的数目和最终聚类中心,得 出聚类结果。通过实验数据的验证表明,本方法得出的聚类结果能够有效的反映出待聚类样本的 真实情况,并且与待聚类样本的初始顺序无关,同时具有一定的抗噪能力。 关键词:聚类分析;模糊统计;模糊聚类;归并聚类中心 中图分类号:O159 文献标识码:A 文章编号:1671-654X(2007)044)064-03
引言 聚类分析的基本目标是发现项目(或变量)的自 然分组方法…。聚类是根据研究对象的某些特性,运 用数学工具,对研究对象进行分类,即把所给的数据集 合分配到几个不同的类中,使在同一类的数据比其他 类中的数据更相似 』。近二三十年来,模糊数学的发 展,使得模糊聚类分析得到了广泛的应用 J。聚类分 析是一种无监督的分析方法。 现有的各类聚类算法在参数输入、停机条件上存 在诸多人为控制 因素 J,这导致了用户在使用聚类方 法时需要拥有大量的数据分析领域知识,尤其是面对 高维复杂的实际数据时,更是无法工作,聚类结果质量 难以得到保证。 广泛应用的 均值聚类方法对输入顺序的不同待 聚类样本得到不同的聚类结果,而聚类结果本应与样 本输入的先后顺序无关。本文针对以上问题,结合模 糊统计学中常用数字特征模糊均值、模糊离差 的定 义,以全部带聚类样本为初始聚类中心点,将离差隶属 度作为计算聚类中心的基础,并采用最大类间距离作 为归并聚类中心的标准,从而确定出聚类的数目和中 心,完成聚类分析。通过实验数据进行验证,本方法能 够客观地反映待聚类样本的实际情况,并且使聚类结 果不受待聚类样本顺序的制约,有效保障了聚类的质 量。 1 基于归并聚类中心思想的模糊聚类分析方法 1.1基本思想 设实测数据 为待聚类样本集合(矩阵), 中有 几个样本p个指标,用记号 ( :1,2,…,n; =1,2, …,P)来表示第 个变量在第 项上或第 次实验中的 观测值,即: X= X11 X12 X21 X22 n1 X22 选取几个待聚类样本数据为几个聚类中心初值,通过 引入离差隶属度,来完成聚类中心的计算,用类与类之 间最大的类间距离作为归并聚类中心的标准,进行归 类得出聚类结果。值得说明的是,选用几个待聚类样 本数据为几个聚类中心初值的思想有效保证了聚类结 果与待聚类样本的顺序无关。同时,离差隶属度的引 入,对于由人为因素造成的待聚类样本的误差的修正 具有十分重要的意义。这还将在验证举例和比较分析 部分作进一步阐述。 1.2具体步骤 基于归并聚类中心思想的模糊聚类分析算法可以 描述为如下几步: 步骤1:设置聚类中心初值 用z ( =1,2,…,n; =1,2,…,P)来表示第 个聚 类中心的第 个变量的值,初始时,几个待聚类样本为 几个聚类中心的初值,即Z=X。 步骤2:计算聚类中心 1)计算离差 用dev (Z)( :1,2,…,n; =1,2,…,P;Z=1,2,
收稿日期:2007-03-07 修订日期:2007-05-28 作者简介:刘舒野(1983一),女,吉林白山人,硕士研究生,研究方向为人工智能、多元统计分析、模糊数学、系统开发方法论。
~
维普资讯 http://www.cqvip.com 2007年7月 刘舒野等:基于归并聚类中心思想的模糊聚类分析方法研究 ・65・ …,
n)来表示第 个样本的第 个变量相对第Z个中心
的离差值,则可用一个n行P列的矩阵来表示这些离 差值数据,称dev ): dev f(z) = 一z ( 1,2,…,n; =1,2,…,P;Z=1,2,…,n) (1) 2)计算离差均值 用meand%(Z)( =1,2,…,P;Z=1,2,…,n)来表 示第 个变量相对第Z个中心的离差均值,则可用一个 1行P列的矩阵来表示这些离差均值数据,称 meanderj(Z): 1 n meandevj= 1∑dev (z),
‘=l ( 1,2,…,I1 =1,2,…,P;Z=1,2,…II) (2)
3)计算离差隶属度 用gmofdev (Z)( =1,2,…,II; =1,2,…,P;Z=1, 2,…II)来表示第 个样本的第 个变量相对第Z个中 心的离差隶属度,则可用一个II行P列的矩阵来表示 这些离差隶属度数据,称gmofdev (Z): 如 z) gmofdev (Z)=e—m ̄nde—oj(1),
( =1,2,…,I1 =1,2,…,P;Z=1,2,…II) (3) 4)计算聚类中心 将聚类中心集合定义为: Z= gmofdev (1)×
,gmofdev (z) 』
( =1,2,…,n =1,2,… ;Z=1,2,・・仉;r=1,2,…,n)(4) 步骤3:计算两个聚类中心之间允许出现的最大 距离 选用欧氏距离进行距离度量,分别计算第i个中 心与第Z个中心的欧氏距离,表示为d (Z): r_ —————————一 dis (z)=^/兰( ) , ( =1,2,…,n; =1,2,…,P;Z=1,2,…n) (5) 将两个聚类中心之间允许出现的最大距离表示 为: 0.5× , dis (Z) _一 threshold=—— 一, n×n ( =1,2,…,/I;Z=1,2,…/I) (6) 步骤4:归并聚类中心 逐个进行归并,计算第Z个中心到第i个中心的距 离 (Z),若如 (Z)<threshold,(i=1,2,…,/I;Z=1, 2,…/I),则将第Z个中心归并到第i个聚类中心上,否 则不予归并。 步骤5:计算归并后聚类中心 设归并后第k类中有m个中心,用z (k)来表示 被归并到第k类中的中心,则归并后的第k类中心可 以表示为: ∑z ( ) =l 可 — 一, ( 1,2,…,n :1,2,…,P; =1,2,…,m) (7) 重复步骤4、步骤5,直至所有的模糊聚类中心都 被归并完毕,模糊聚类分析结束。 2验证举例和比较分析 为了验证基于归并聚类中心思想的模糊聚类分析 方法的有效性,选择1982年我国16个地区农民年支 出情况抽样调查的汇总资料 j,试用经典统计学的k 值聚类方法和本文提出的聚类方法进行聚类分析并比 较聚类结果 数据和结果下表所示。 通过下表可以看出,运用基于归并聚类中心思想 的模糊聚类分析方法将这16个地区分成了7类。通 过对16个地区地域和经济发展状况的综合比较分析, 该结果很符合实际。若运用经典统计学的k均值聚类 方法,首先人为给定k值7,则聚类结果直接将北京、 天津、河北、山西、内蒙、辽宁、吉林分成7类。显然这 样做否定了河北、山西、内蒙成为一类的可能,而实际 上这三个省份无论从地域上还是从经济发展状况都是 十分相似的。所以,k均值聚类方法在此应用有失妥 当。其次,如果人为给定的k是其它的数值,得出的聚 类结果将会随人为因素的干扰,偏离原始数据所反映 出的真实特征。再次,若原始数据中存在噪声数据即 异常数据 j,则本文提出的基于归并聚类中心思想的 模糊聚类分析方法可以通过离差均值的计算来降低噪 声数据的离差隶属度,从而调节其对聚类中心和结果 的影响,来消除噪声。而这样的有效处理是经典统计 学的k均值聚类方法所不能做到的。
3结论与展望 本文将模糊数学的理论与经典统计学的均值聚类 方法相结合,并针对经典统计学的均值聚类方法在实 际应用中所存在的问题,提出了基于归并聚类中心思 想的模糊聚类分析方法。通过验证举例和比较分析, 说明此方法能够反映出原始数据的真实特征,真正达 到了聚类分析的无监督特性。同时也降低了由于人为 因素造成的不确定性影响,增强了聚类结果的准确性 和可信度。以后可以通过对该聚类方法进行聚类有效 性分析 卜 来做进一步的研究,此聚类该方法也可为
工程、经济、管理等应用领域的决策提供支持 。
维普资讯 http://www.cqvip.com ・66・ 航空计算技术 第37卷 第4期 我国16个地区农民生活水平的调查数据(单位:元)及不同聚类分析方法聚类结果对照 地区 食品 衣着燃料住房 生活用品及其他文化生活服务支出 均值法得到的类别结果本文方法得到的类别结果 北京 190.33 43.77 9,73 60.54 49.O1 9.04 第1类 第1类 天津 135,20 36.40 10,47 44.16 36.49 3,94 第2类 第2类 河北 95,21 22.83 9,30 22,4 22.81 2,80 第3类 第3类 山西 104,78 25.11 6.40 9,89 18,17 3,25 第4类 第3类 内蒙 128.41 27.63 8,94 12.58 23,99 3.27 第5类 第3类 辽宁 145.68 32.83 17,79 27.29 39.09 3.47 第6类 第4类 吉林 159,37 33.38 18,37 l1.81 25,29 5.22 第7类 第3类 黑龙江 116.22 29.57 13,24 l3.76 21.75 6.04 第5类 第3类 上海 221.11 38.64 12,53 115.65 50,82 5.89 第1类 第1类 江苏 144.98 29.12 l1,67 42.60 27,30 5,74 第2类 第2类 浙江 169,92 32.75 12.72 47.12 34.35 5.oo 第6类 第5类 安徽 153.11 23,09 15.62 23.54 18.18 6.39 第7类 第3类 福建 144.92 21.26 16,96 19.52 21,75 6.73 第7类 第3类 江西 140,54 21.50 17,64 19,19 15,97 4.94 第7类 第3类 山东 l15.84 30.26 12.20 33.61 33.77 3.85 第2类 第6类 河南 101.18 23.26 8.46 20.20 20.50 4.30 第3类 第7类
参考文献: [1]
[2] [3] [4] [5] Richard A.Johnson,Dean W,Wichern,实用多元统计分析 [M].北京:清华大学出版社,2003,545—597. 方开泰,聚类分析[M].北京:地震出版社,1980. 彭祖赠,孙韫玉.模糊(Fuzzy)数学及其应用[M].湖北: 武汉大学出版社,2004, Jia wei Han.Michehne Kamber.数据挖掘:概念与技术 [M].范明,孟小峰译.北京:机械工业出版社,2002,45— 52. 杨晨,林和平.模糊主成分分析方法的研究与分析[J],航 空计算科学,2006.