一种基于最小张树的属性聚类算法
- 格式:pdf
- 大小:256.41 KB
- 文档页数:6
专利名称:一种基于最小生成树的海量数据聚类处理方法专利类型:发明专利
发明人:程林,贺海磊,刘满君,周勤勇,张彦涛,梁才浩,刘琛,江轶
申请号:CN201710467400.7
申请日:20170620
公开号:CN107506778A
公开日:
20171222
专利内容由知识产权出版社提供
摘要:本发明一种基于最小生成树的海量数据聚类处理方法,属于分类学及数据挖掘算法技术领域。
本方法按照最小生成树的普利姆算法建立全连通的海量数据树状结构;根据海量数据的物理意义确定适用的距离度量,并根据距离度量规则确定海量数据最小生成树的边权值;根据海量数据最小生成树结构生成相应的节点关联矩阵,通过对称处理删除节点关联矩阵中的冗余数据;结合海量数据关联矩阵分别计算高度数节点的权重差异度,并按照大小关系进行排序;根据海量数据的实际物理意义去除节点权重差异度较高点的较长边,从而获取理想数量的样本点簇。
本发明能对海量数据进行数据聚类处理,可以减小后续数据分析的难度。
申请人:清华大学,中国电力科学研究院,国家电网公司,国网江苏省电力公司电力科学研究院地址:100084 北京市海淀区清华园1号
国籍:CN
代理机构:北京清亦华知识产权代理事务所(普通合伙)
代理人:罗文群
更多信息请下载全文后查看。
基于最小生成树的层次K-means聚类算法
贾瑞玉;李振
【期刊名称】《微电子学与计算机》
【年(卷),期】2016(33)3
【摘要】针对K-means算法初始化时需要指定聚类数目,和随机选择初始聚类中心对聚类结果产生不稳定的问题,结合图论中最小生成树和层次算法的分裂、凝聚思想,提出一种基于最小生成树的层次K-means算法.该算法初始时根据数据样本生成一颗最小生成树,然后利用层次分裂思想把数据分成多个较小的簇,通过K-means算法迭代操作得到每次操作的评价函数值来判断是否进行簇的合并,进一步确定聚类簇数目.实验结果证明,该算法能够较准确地判断聚类数目,并且聚类结果的稳定性比基本K-means算法要好.
【总页数】4页(P86-88)
【关键词】K-means算法;聚类簇数;初始聚类中心;层次结构;最小生成树;Prim算法
【作者】贾瑞玉;李振
【作者单位】安徽大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于K-means的最小生成树聚类算法 [J], 欧阳浩;陈波;黄镇谨;王萌;王智文
2.基于K-Means的文本层次聚类算法研究 [J], 尉景辉;何丕廉;孙越恒
3.基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用 [J], 金晓民;张丽萍
4.基于k-means聚类算法和层次分析法的配送中心选址 [J], 王云婷;王巍;李新宁
5.具有层次结构的K-means聚类算法研究 [J], 王吉源;孟祥茂;廖列法
因版权原因,仅展示原文概要,查看原文内容请购买。
最小生成树聚类算法引言:聚类是数据分析的重要方法之一,它通过将相似的对象分组来发现数据集中的隐藏模式和结构。
在聚类算法中,最小生成树聚类算法是一种基于最小生成树(Minimum Spanning Tree,简称MST)的聚类方法。
它通过在数据点之间构建最小生成树来确定聚类结果。
本文将详细介绍最小生成树聚类算法的原理、步骤和应用。
一、最小生成树聚类算法原理1.将数据集中的每个对象看作一个节点,并计算每对节点之间的相似度(如欧氏距离、余弦相似度等)。
将相似度转化为距离度量,如将相似度映射到0-1之间的距离。
2.基于节点之间的距离建立完全图,图的节点集为数据集的节点集。
3. 使用最小生成树算法从完全图中生成最小生成树。
最小生成树是指连接图中所有节点,且总权重最小的树。
常用的最小生成树算法有Prim算法和Kruskal算法。
4.对生成的最小生成树进行剪枝操作,将权重较大的边删除,得到聚类结果。
剪枝操作的依据可以是设定的阈值或者根据聚类结果的评估指标进行评估选择。
二、最小生成树聚类算法步骤1.输入数据集,将每个对象看作一个节点,并计算节点之间的相似度。
2.将相似度转化为距离度量,建立完全图,节点集为数据集的节点集。
3.使用最小生成树算法生成最小生成树。
4.对生成的最小生成树进行剪枝操作,删除权重较大的边。
5.根据剪枝后的最小生成树,将剩余的边分成若干个子图,每个子图表示一个聚类簇。
6.输出聚类结果。
三、最小生成树聚类算法应用1.社交网络分析:对社交网络中的用户进行聚类,可以帮助发现社交网络中的社区结构和关键用户。
2.图像分割:对图像中的像素进行聚类,可以将图像分割成不同的区域,有助于图像分析和处理。
3.数据挖掘:对大规模数据集进行聚类分析,可以帮助发现数据集中的潜在模式和结构。
4.网络流量分析:对网络流量数据进行聚类,可以发现网络中的异常行为和攻击。
总结:最小生成树聚类算法是一种基于最小生成树的聚类方法,通过将数据点之间的相似度转化为距离,并利用最小生成树算法构建聚类结果。
基于最小生成树算法的机器学习分类模型在大数据时代,机器学习已成为人工智能的核心领域。
在众多算法中,最小生成树算法因其灵活性和易于实现而备受关注。
在本文中,将介绍基于最小生成树算法的机器学习分类模型的原理和应用。
一、最小生成树算法简介最小生成树算法是一种用于解决图的连通性问题的经典算法。
其主要思路是找出连接图中所有节点的最短路径,从而生成一颗生成树。
在生成树过程中,选取的路径一定是图中长度最小的路径。
最小生成树算法有多种实现方式,其中最流行的算法包括Prim算法和Kruskal算法。
二、基于最小生成树算法的机器学习分类模型基于最小生成树算法的机器学习分类模型可以在未知数据集上进行分类。
在这种模型中,样本集合是节点,而样本之间的距离是边。
边的权重可以是欧式距离或任何可度量的相似性度量。
模型使用最小生成树算法从样本集合中构建一棵生成树。
然后,使用生成树来进行分类。
3.1 生成树的构建生成树的构建是整个模型的核心。
最小生成树算法会寻找权重最小的边,并将其添加到生成树中。
此时,该边的两个节点就连通了。
然后,算法将在剩余的边中继续查找最小的边,如果该边的两个节点尚未连通,则将其添加到生成树中。
由于每次添加边时只涉及到两个节点,因此算法的时间复杂度为O(n^2)。
3.2 生成树的特性一旦完成生成树的构建,就可以开始对新数据进行分类。
由于生成树将所有样本分成了多个连通分量,因此分类问题就变成了给定任意测试点,找到它在哪个连通分量中的问题。
为了实现这一点,可以将测试点与已知样本进行比较,并使用生成树来确定它属于哪个连通分量。
可以通过比较测试点和最近邻节点之间的距离来确定测试点所属的连通分量。
3.3 分类算法实现分类算法的实现可以通过基于深度优先搜索或广度优先搜索遍历生成树来实现。
当测试点与树上的某个节点进行比较时,分类算法会沿着树的分支向下搜索。
直到找到与测试点最近的节点为止,同时记录已经遍历的路径。
一旦找到节点,分类算法就会返回与测试点属于同一连通分量的所有样本。
专利名称:一种基于密度核心的最小生成树聚类算法及系统专利类型:发明专利
发明人:高强,高琴琴,熊忠阳,张玉芳
申请号:CN202011110208.0
申请日:20201016
公开号:CN112364887A
公开日:
20210212
专利内容由知识产权出版社提供
摘要:本发明提出了一种基于密度核心的最小生成树聚类算法及系统。
该算法为:构建一颗KD 树;采用自然邻居法获取数据点的逆近邻信息和自然特征值,统计每个数据点的逆近邻数目;将逆近邻数目不小于自然特征值的数据点作为核心点,这些核心点组成密度核心点集合;根据密度核心集合建立最小生成树,得到最小生成树中各个边的权值的集合;根据最小生成树中各个边的权值的集合计算切边阈值,并根据该值切除最小生成树中连接不同簇的边,得到各个子簇最小生成子树;根据得到的子簇最小生成子树聚类密度核心;将非密度核心点分配到距离其最近的密度核心的簇中,完成聚类。
该算法能够较好的保留簇的大致形状和结构,使得算法能够适应具有复杂形状的数据集。
申请人:重庆大学
地址:400030 重庆市沙坪坝区沙正街174号
国籍:CN
代理机构:重庆双马智翔专利代理事务所(普通合伙)
代理人:顾晓玲
更多信息请下载全文后查看。
基于最小生成树聚类算法在云计算平台下的设计与实现孔世明
【期刊名称】《科技通报》
【年(卷),期】2013(29)8
【摘要】当今社会随着数据的指数级增加,原有的数据挖掘算法不能有效、快速地完成聚类。
本文针对海量数据,提出了基于云计算平台的最小生成树聚类算法。
该算法是使用MapReduce分布式计算框架设计并实施的。
本文提出的算法能够分布式完成最小生成树聚类算法,并且保证不会影响聚类的结果。
实验表明,本文提出的算法具有很好的高效性,与传统算法相比在运行时间上有着明显得提高。
【总页数】3页(P100-102)
【关键词】最小生成树;聚类算法;MapReduce;分布式;云计算
【作者】孔世明
【作者单位】重庆文理学院软件工程学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于云计算平台Hadoop的HKM聚类算法设计研究 [J], 张淑芬;董岩岩;陈学斌
2.一种基于Hadoop云计算平台大数据聚类算法设计 [J], 司福明;卜天然
3.一种基于 Hadoop云计算平台大数据聚类算法设计 [J], 司福明;卜天然
4.基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J], 赵卫中;马慧芳;傅燕翔;史忠植
5.基于云计算平台Hadoop的并行k-means聚类算法设计研究 [J], 李莉
因版权原因,仅展示原文概要,查看原文内容请购买。
随着数据量的不断增加,传统聚类算法对于大规模数据的处理效率和准确性都存在一定的问题。
密度聚类算法由于其具有良好的可扩展性和鲁棒性,已经成为了当前研究的热点之一。
本文基于最小生成树的思想,提出了一种新的密度聚类算法,该算法可以在保证聚类质量的同时,有效地降低计算复杂度。
首先,我们通过计算数据点之间的距离,构建了一个加权无向图。
然后,我们使用Prim算法构建最小生成树,并将其作为聚类的初始中心。
接着,我们根据密度的大小,将数据点分配到最近的聚类中心。
最后,我们通过迭代优化聚类中心和数据点的分配,得到最终的聚类结果。
我们对该算法进行了实验验证,并与其他密度聚类算法进行了比较。
实验结果表明,该算法在处理大规模数据时具有更高的效率和更好的聚类质量。
同时,该算法还具有较好的可扩展性和鲁棒性,可以应用于各种不同的数据集和实际应用场景中。
基于最小生成树的并行分层聚类算法
李朝健;李朝鹏;李肯立
【期刊名称】《微电子学与计算机》
【年(卷),期】2008(25)9
【摘要】分层聚类技术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一.针对目前基于SIMD模型的并行分层聚类算法存在的无法解决存储冲突问题,提出一种基于最小生成树无存取冲突的并行分层聚类算法.算法使用O(p)个并行处理单元,在O(n2/p)的时间内对n个输入数据点进行聚类,与现有文献结论进行的性能对比分析表明,本算法明显改进了现有文献的研究结果,是一种无存储冲突的并行分层聚类算法.
【总页数】3页(P196-198)
【关键词】分层聚类;并行算法;存储冲突
【作者】李朝健;李朝鹏;李肯立
【作者单位】湖南工程学院;湖南大学计算机与通信学院
【正文语种】中文
【中图分类】TP301
【相关文献】
1.改进的最小生成树自适应分层聚类算法 [J], 徐晨凯;高茂庭
2.基于数据预处理的并行分层聚类算法 [J], 李朝鹏;李肯立;成运;李朝健
3.基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用 [J], 金晓
民;张丽萍
4.基于最小生成树的分割区域密度聚类算法 [J], 李蓟涛; 梁永全
5.基于局部密度的最小生成树聚类算法及其在电力大数据的应用 [J], 靳文星;王电钢;张哲敏
因版权原因,仅展示原文概要,查看原文内容请购买。
聚类算法简介最小生成树聚类K-means聚类密度峰聚类最小生成树聚类•什么是最小生成树?最小生成树定义Minimum Spanning Tree (MST)在一给定的无向图G = (V, E) 中,(u, v) 代表连接顶点u 与顶点v 的边(即(u, v)∈E),而w(u, v) 代表此边的权重,若存在T 为E 的子集(即T⊂E)且为无循环图,使得w(T) = (u,v)∈w(u,v)T的w(T) 最小,则此T 为G 的最小生成树。
最小生成树其实是最小权重生成树的简称。
构造最小生成树的算法•Prim算法(普里姆算法)•Kruskal算法(克鲁斯克尔算法)两者皆为贪婪算法Prim算法•此为原始的加权连通图。
每条边一侧的数字代表其权值。
•顶点D被任意选为起始点。
顶点A、B、E和F通过单条边与D相连。
A是距离D最近的顶点,因此将A及对应边AD以高亮表示。
•下一个顶点为距离D或A最近的顶点。
B距D为9,距A为7,E为15,F为6。
因此,F距D或A最近,因此将顶点F与相应边DF以高亮表示。
•算法继续重复上面的步骤。
距离A为7的顶点B被高亮表示。
•在当前情况下,可以在C、E与G间进行选择。
C距B为8,E距B为7,G距F为11。
E最近,因此将顶点E与相应边BE高亮表示。
•这里,可供选择的顶点只有C和G。
C距E为5,G距E为9,故选取C,并与边EC一同高亮表示。
•顶点G是唯一剩下的顶点,它距F为11,距E为9,E最近,故高亮表示G及相应边EG。
•现在,所有顶点均已被选取,图中绿色部分即为连通图的最小生成树。
在此例中,最小生成树的权值之和为39。
Kruskal算法•首先第一步,我们有一张图Graph,有若干点和边•将所有的边的长度排序,用排序的结果作为我们选择边的依据。
这里再次体现了贪心算法的思想,资源排序,对局部最优的资源进行选择,排序完成后,我们率先选择了边AD。
这样我们的图就变成了下图•在剩下的边中寻找。
最小生成树聚类算法
最小生成树聚类算法是一种基于图论的聚类算法,用于在一个无向加
权图中寻找最小生成树。
该算法的基本思想是将所有数据点作为图的节点,然后通过计算各个节点之间的距离,构建一个无向加权图。
然后对这个图
进行最小生成树算法,将生成的最小生成树作为聚类结果。
最小生成树聚类算法的优点是简单易懂、计算复杂度较低,能够有效
处理大规模数据。
然而该算法也存在一些缺点,例如对于数据分布较为密
集的情况,聚类效果较差;并且该算法不适合处理噪声点。
因此,在实际应用中,最小生成树聚类算法常常需要与其他聚类算法
结合使用,以提高聚类效果和鲁棒性。
2001年2月系统工程理论与实践第2期 文章编号:100026788(2001)022*******一种基于最小张树的属性聚类算法彭春华,程乾生(北京大学数学科学学院信息科学系,北京100871)摘要: 结合图论中的最小张树方法,提出了相似度以及接触度两个概念,并以此为基础建立了一种属性聚类算法Λ文中就几个具体问题,将其与FCM及A K M等方法进行比较,以便分析其聚类效果Λ很明显,我们所介绍的方法弥补了其它方法的一些不足,并能在一定程度上解决实际问题Λ关键词: 最小张树;属性聚类;相似度;接触度中图分类号: O213 αA n A ttribu te C lu stering A lgo rithm Based onM in i m um Spann ing T reePEN G Chun2hua, CH EN G Q ian2sheng(Schoo l of M athem atcal Sciences,Pek ing U n iverity,Beijing100871)Abstract: Com b in ing w ith the m ethod of m in i m um spann ing tree in Graph theo ry,w ep resen t tw o concep ts of si m ilarity and con tact degree in th is paper,and bu ild a newattribu te clu stering algo rithm based on them.W e compare the app roach w ith som eo ther m ethods such as FC M and A K M,in several p rob lem s fo r analyzing it’seffectiveness.It is obvi ou s that the app roach w e in troduced here m akes up a lo ss ofo ther m ethods and cou ld pactically so lve p rob lem s in a certain ex ten t.Keywords: m in i m um spann ing tree;attribu te clu ster;si m ilarity;con tact degree1 引言无监督聚类分析是模式识别领域里的一个重要的研究内容Λ聚类分析的思想是在缺乏先验知识的条件下,将样本集X={x1,x2,…,x N}中的样本依照某一相似度准则分到模式类C1,C2,…,C K中去Ζ将x i分到模式类C k中的要求是x i与C k之间的相似度要明显大于x i与其它模式类之间的相似度Ζ由于研究的问题比较复杂,特别是当模式类的数目不能确切知道以及模式类之间存在覆盖的情况下,聚类的效果就会变得比较差Ζ因此人们一直试图找到一种适用性较强的聚类算法Ζ传统的聚类分析方法有最近邻法、层次聚类法、K均值法以及ISODA TA算法等[1]Λ此外也有文献介绍利用图论中的最小张树进行聚类分析的方法[2]Λ这些传统的聚类分析方法由于采用欧氏距离准则,且在聚类中要求固定模式类的数目(ISODA TA算法也要求事先给定预期的模式类数目),又绝少考虑到模式类之间相互覆盖的情形,因而在应用中受到了很大的限制Λ如图1a、图2a、图3a三种情况就是传统聚类方法难于解决的典型问题Λ近年来,人们不断提出新的思想和方法,将聚类分析扩充到更深更广的领域Λ其中模糊聚类构成了一个十分重要的分支领域Λ模糊聚类的思想是建立在Zadeh的模糊理论基础上的Λ由于计算样本属于某模式类的隶属度取值范围为[0,1],因而利用超平面或超曲面划分目标空间时,自然就考虑了模式类之间重叠的情况Λ结合了模糊理论的传统聚类分析方法有FC M算法、Fuzzy ISODA TA算法等等[3]Λα收稿日期:1999203224资助项目:国家自然科学基金这里我们注意到,不管是传统的聚类分析方法还是结合了模糊理论的聚类方法,都是研究样本点与模式类的类中心的相似度Λ也就是说每个模式类只有一个代表点一类中心Λ依据这样的相似准则(不考虑使用加权欧氏距离的情况),所形成的模式类类边界在空间上看是一个以类中心为球心的超球面Λ为弥补这一缺陷,有文章提出以超椭球面代替超球面并在实际问题中得到应用[4]Λ另外,诸如神经网络[5]、遗传算法[6]等方法也纷纷引入到聚类分析当中Λ而且诸多方法的综合[7]以及提出新的基于概率分布密度的准则函数[8]等都给予我们很大的启发Λ文献[9]介绍的A K M 算法因为采用稳态准则函数的缘故,在聚类是可以较好地避免噪声或野值的影响,所以也能取得良好的效果Λ我们在本文介绍的新属性聚类方法源自传统聚类里的最小张树法(A ttribu te C lu ster of M in i m um Spann ing T ree ,简称A C M ST ),并以相似度和接触度的概念建立了一个新的分类准则Λ正是由于应用了属性集和属性测度理论[10],该方法避免了模糊聚类的一些不足,同时又能对分类给以较清晰的解释Λ为了分析方法的有效性,我们就几个实例将其与FC M 、ISODA TA 算法进行了比较,效果较好Λ2 最小张树与属性聚类211 最小张树(M i n i m u m Spann i ng Tree )[11]定义1 一个无向图G 记作G =(V ,E ),其中V 是一个非空集合,它的元素称为图的结点,E 是V 中的无序偶集合,它的元素称为图的边Ζ定义2 边不重复但结点可以重复的路径称为简单路径Ζ结点不重复的路径称为基本路径Ζ定义3 如果无向图G =(V ,E )任意两点之间至少有一条路径,则称G 是连通图Ζ否则称为非连通图或分离图Ζ定义4 连通不含回路的无向图称为无向树,简称为树Ζ设T =(V ,E )为一棵无向树,v ∈V ,若d (v )=1,则称v 为T 的树叶;若d (v )Ε2,则称v 为分支点Ζ定义5 对图G =(V ,E )的每条边e 附加上一个实数w (e ),称w (e )为边e 上的权ΖG 连同附加在个边上的权称为带权图,记作G =(V ,E ,W )Ζ定义6 设无向连通带权图G =(V ,E ,W ),T 是G 的一棵生成树ΖT 各边的权之和称为T 的权,记作W (T )ΖG 的所有生成树中权最小的生成树称为G 的最小生成树(最小张树)ΖK ru skal 算法:设n 阶无向连通带权图G =(V ,E ,W )有m 条边,将m 条边按权从小到大顺序排列,设为e 1,e 2,…,e m Ζ取e 1在T 中,然后依次检查e 2,e 3,…,e m ,若e j 与T 中的边不构成回路,则取e j 在T 中,否则弃去e j Ζ这样构造的树为最小张树Ζ212 属性聚类(A ttr ibute Cluster )[12]设8为研究对象空间,F 为属性空间,{C 1,C 2,…,C K }为F 的分割,即∪Kk =1C k =F ,C i ∩C j =<(i ≠j ,Πi ,j )ΖC i 与C j 之间的距离为d (C i ,C j )=d ij ,C i 与C j 之间的相似度为S (C i ,C j )=s ij ,则C i 与C j 能明显区别的条件是f (d ij )・s ij ΦΚ,Κ为某阈值Ζ其中f (t )是[0,+∞)上正的非增有界函数Ζ样本x i 与C k 类的相似度由S (x i ,C k )=1 C k ∑x j ∈C kS (x i ,x j ),S (x i ,x j )∈[0,1]Ζ式中x j ∈C k 表示x j 属于C k 类, C k 表示属于C k 类中样本的数目Ζ设样本x i 与C k 类的距离度量为d (x i ,C k ),如果f (d (x i ,C k 3)) S (x i ,C k 3)=m ax k =1,2,…,K f (d (x i ,C k )) S (x i ,C k )>Κ(1)Κ为某阈值,则将x i 划分到C k 3类中,否则拒绝划分x i 样本Ζ结合属性测度,我们可以将式(1)的划分准则改为下式,设Λ(x i ∈C k )=Λik =f (d (x i ,C k )) S (x i ,C k )∑K j =1f (d (x i ,C j )) S (x i ,C j ), i =1,2,…,N(2)如满足Λ(x i ∈C k 3)=m ax k =1,2,…,K Λ(x i ∈C k )>Κ,Κ∈[0,1),则将x i 划分到C k 3类中Ζ可以看出,当x i 与C k 之间的相似度S (x i ,C k )恒等于1,f (t )=f -1时,属性聚类便成为传统聚类中的最小近邻法Ζ13第2期一种基于最小张树的属性聚类算法3 AC M ST 算法(A ttr ibute Cluster of M i n i m u m Spann i ng Tree )311 基本概念我们将模式类C k 表示为C k =(X k ,T k ,L k ,p k ),k =1,2,…,K Ζ其中X k 是属于C k 类的样本的集合;T k 是由X k 构成的最小张树;L k 是T k 的树叶集,有Πv ∈L k ,d (v )=1;p k 是C k 类的边缘密度Ζ规定C K +1为拒绝判别类,则有∪K +1k =1X k =X ={x 1,x 2,…,x N },X i ∩X j =<(i ≠j ),ΠX i ,X j <X Ζ定义7 样本x i ∈X 所处空间位置的平均样本密度p (x i )=m +1V (Εi )(3)V (Εi )是以x i 为中心,Εi 为半径,包容了除x i 以外的m (m =3~5)个样本的最小超球体的容积Ζ对于平面点图的情形,可取V (Εi )=Π(Εi )2,Εi >0Ζ则样本x i 可表示成x i ={X m i ,p (x i )},其中X m i 是离x i 最近的m 个样本的集合,满足m ax x j ∈X m i ‖x i -x j ‖ΦΕi定义C k 类的边缘密度为p k =1L k∑x j ∈L k p (x j )(4)L k 表示L k 中树叶的数目Ζ定义8 类间相似度(Si m ilarity ):设对ΠC k ,C l 类,已知它们的边缘密度分别为p k ,p l Ζ则C k 与C l 两类的相似度为S (C k ,C l )=exp -12(p k -p l )2p k p l(5) 定义9 类间接触度(Con tact D egree ):设对ΠC k ,C l 类,已知它们的树叶集分别为L k ,L l Ζ令s =m in L k , L l ,再不重复地找出s 个最小距离对(a 1,b 1),(a 2,b 2),…,(a s ,b s ),其中{a 1,a 2,…,a s }ΑL k ,{b 1,b 2,…,b s }ΑL l ,并满足‖a 1-b 1‖Φ‖a 2-b 2‖Φ…Φ‖a s -b s ‖Ζ已知两类的平均密度为pθk ,l =(p k +p l ) 2Ζ若满足‖a i -b i ‖ΦV -1(1 pθk ,l ),则称a i 与C l 类完全接触或b i 与C k 类完全接触Ζ可以定义样本a i 与C l 类以及b i 与C k 类的接触度为D c (a i ,C l )=D c (b i ,C k )=exp {1-V (‖a i -b i ‖) pθk ,l },‖a i -b i ‖>V -1(1 p θk ,l )1,‖a i -b i ‖ΦV -1(1 p θk ,l )(6)定义C k 与C l 类之间的接触度为D c (C k ,C l )=1s ∑s i =1Dc (a i ,C l )=1s ∑s i =1Dc (b i ,C k )(7)312 模式类合并准则如果C k ,C l 类同属一类的测度ΛC k ,C l =[D c (C k ,C l ) S (C k ,C l )]1 2∑l ≠k [D c (C k ,C l ) S (C k ,C l )]1 2满足最大属性测度准则[12],即ΛC k ,C l =m ax j ≠k ,j =1,2,…,KΛC k ,C j ,且ΛC k ,C l >Κ,Κ∈[0,1)Ζ则将C k ,C l 类合并为C k 3类,否则拒绝合并C k ,C l 类Ζ设C k 3=(Xk 3,T k 3,L k 3,p k 3),其中X k 3=X k ∪X l ,T k 3是X k 3中样本构成的最小张树,L k 3是T k 3的树叶集,p k 3是C k 3类的边缘密度Ζ313 AC M ST 算法过程Step 1 初始化:令K =N ,即每一个样本集中的样本自成一类,有X k =L k ={x k },p k =p (x k )Ζ规定C K +1是拒绝判别类,在初始的时刻为空集Ζ确定合并阈值ΚΖStep 2 计算X k ,k =1,2,…,K 类中任两个样本点x i ,x j 之间的相似度23系统工程理论与实践2001年2月S =(x i ,x j )=exp -12(p (x i )-p (x j ))2p (x i ) p (x j )以及根据相似度、距离所确定的权(x i ,x j ,x i ≠x j 形成边e (x i ,x j )的权)w (e (x i ,x j ))=S (x i ,x j )‖x i -x j ‖我们以C k 类内各边的权遵照K ru skal 算法构造出最小张树,并得到该最小张树的树叶集,再按照(3)、(4)式计算出每一类的边缘密度ΖStep 3 按照(5)、(6)、(7)式计算出任两类之间的相似度和接触度ΖStep 4 依模式类合并准则,将满足合并准则的同属属性测度最大的两类合并在一起,返回S tep 3,K =K -1Ζ若任两类都不满足模式类合并准则或K 等于期望类别数,终止算法Ζ4 AC M ST 算法与其它几种聚类算法的比较图1(a )图1(b )图1(a )中样本点共1784个,分为两类,类内样本数比例接近1∶2Λ从样本分布可以看出,两类的类中心比较近Λ如果采用传统基于类中心分类的聚类算法将很难把两类分开,而应用A C M ST 算法结果就比较理想,见图1(b )Λ图2(a )图2(b )33第2期一种基于最小张树的属性聚类算法图2(a )中样本总数1788个,两类类内样本数比例约为1∶1Λ由于两不同类之间无法简单地进行线性划分,实验中我们采用了A C M ST 算法对其进行聚类,效果见图2(b )Λ图3(a )图3(b )图3(a )共有样本1793个,分为比例悬殊的两类(数目比约为10∶1)Λ我们知道,采用空间距离判据的模式聚类方法适用于类间距较大,且类内样本数目接近的聚类问题Λ对于象图3(a )这样的问题,再应用仅基于距离判据的传统聚类方法,显然是不合适的Λ图3(b )是应用A C M ST 算法得到的结果Λ三种算法的结果列于表格1中Λ表1方 法A CM ST 算法ISODA TA 算法FCM 算法图1(a )聚类正确率99.38%58.5%51.26%图2(a )聚类正确率99.33%62.1%65.79%图3(a )聚类正确率99.16%74.86%58.56%以上三个例子代表了三种典型聚类问题Λ而A C M ST 算法并没有因为问题的改变降低聚类效果,这多少也反映了该算法的广泛适用性Λ5 结论本文介绍的基于最小张树的属性聚类算法结合了属性聚类以及最小张树方法的特点,能够以较高的精确度进行聚类分析Λ同文中列举的其它几种聚类算法相比,它有较强的适用性Λ只是由于在算法初始化时,要用3~5个点来计算每样本点坐标的平均样本密度,因此A C M ST 算法在处理稀疏点阵图时会遇到一些困难Λ虽然提出一种十全十美的算法是件不容易的事,但是人们一直希望能有种优秀的聚类算法以解决模式识别领域里的大多数问题Λ我们同样抱有相同的想法,并为此进行深入研究进而提出更新更好的算法Λ参考文献:[1] M oh rir P S .Pattern 2R ecogn iti on T ran sfo rm s [M ].John W iley &Son s Inc .,N ew Yo rk ,1992.[2] Sing 2T ze Bow .Pattern R ecogn iti on :A pp licati on to L arge D ata 2set P rob lem s [M ].M arcel D ekker ,Inc .,N ew Yo rk and Basel ,1984.(下转第42页)[10] J iang Changjun,W u Zhehu i.N et operati on s[J].J of Compu t Sci and T echno l,1992,7(4),333~344.[11] J iang Changjun.N et operati on s(2)[J].J of Compu t Sci and T echno l,1995,10(6):509~517.[12] 蒋昌俊.Petri网的动态不变性[J].中国科学(E),1997,27(6):567~573.[13] 蒋昌俊,郑应平,疏松桂.基于行为表达式的任意随机Petri网的品质分析[J].自动化学报,1997,23(3):370~376.[14] Berthelo t G,Rozenger G.Check ing p roperties of nets u sing tran sfo rm ati on s[A].A dvances in Petrinets[C].N ew Yo rk:Sp ringer2V erlag,1985.[15] L ee K H,Favrel J.H ierarch ical reducti on m ethod fo r analysis and decompo siti on of Petri nets[J].IEEE T ran s.on system s,m an and cybernetics,1985,15(2):272~280.[16] L ee K H,Favrel J,Bap tiste P.Generalized Petri net reducti on m ethod[J].IEEE T ran s,onsystem s,m an and cybernetics,1987,17(2):297~303. =(上接第34页)[3] Sankar K Pal,M ajum der D K D.Fuzzy M athem atical A pp roach to Pattern R ecogn iti on[M].W ileyEastern L td.,1986.[4] Isak Gath,D an Hoo ry.Fuzzy clu stering of elli p tic ring2shaped clu sters[J].Pattern R ecogn iti onL etters,1995,16(7):727~741.[5] Srikan th R,Petry F E,Kou tsougeras C.Fuzzy elastic clu stering[A].P roc Second In ternat Conf onFuzzy system(Fuzzy2IEEE)[C].San F rancisco,CA,1993:1179~1182.[6] Srikan th R,et al.A variab le2length genetic algo rithm fo r clu stering and classificati on[J].PatternR ecogn iti on L etters,1995,16(8):789~800.[7] Chen C L P,L u Y.Fuzzy:A fuzz2based concep t fo rm ati on system that in tegrates hum ancatego rizati on and num erical clu stering[J].IEEE tran s.on System s,M an,and Cybernetics,1997, 27(1):79~94.[8] H erb in M,Bounel N,V au tro t P.A clu stering m ethod based on the esti m ati on of the p robab ilityden sity functi on and on the skeleton by influence zones:A pp licati on to i m age p rocessing[J].Pattern R ecogn iti on L etters,1996,17(11):1141~1150.[9] 程乾生1属性均值聚类[J]1系统工程理论与实践,1998,18(9):124~126.[10] 程乾生1属性集理论与模糊数学、模式识别、人工智能[A]1中国工业与应用数学学会第三次大会文集[C].北京:清华大学出版社,1994:6~14.[11] Be’la Bo lloba’s.Graph T heo ry:A n In troducto ry Cou rse[M].Sp ringer2V erlag,N ew Yo rk,1979.[12] 程乾生1属性识别理论模型及其应用[J].北京大学学报(自然科学版),1997,33(1):12~20.。