当前位置:文档之家› 密度蚂蚁思想的K-Means算法的研究

密度蚂蚁思想的K-Means算法的研究

密度蚂蚁思想的K—Means算法的研究

OnK-Meansclusteringanalysiscombinedwithantcolonyalgorithm

何健,张聪

HEJian.ZHANGCong

(武汉工业学院计算机与信息工程系,武汉430023)

摘要:遗传算法具有快速良好的全局搜索能力,而蚁群聚类算法具有良好的分布式并行性和正反馈能力。K—Means、基于密度的聚类是常见的基于分割的聚类方法,它在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点。聚类算法概述聚类分析是数据挖掘领域中的一项重要的研究课题,本文主要研究是将遗传算法,蚂蚁算法、K—Means算法、密度思想结合在一起,提出了一种基于密度蚂蚁思想的K—Means算法,采用密度函数法的多中心聚类并结合小类合并运算的聚类结果明显优于K-means的聚类结果,提高了聚类的质量。再结合密度思想,使蚂蚁有选择地遍历,提高了算法效率,并克服了基于密度的算法不能发现任意形状聚类的问题。

关键词:聚类分析;蚂蚁算法;K—Means;密度;数据

中图分类号:TP391文献标识码:A文章编号:1009-0134(2012)2(下)-0001—03Doi:10.3969/J.issn.1009-0134.2012.2(下).01

0引言

聚类就是将整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。几种典型的聚类方法包括:划分方法k一平均(k-means)和PAM、层次聚类方法AGNES和DIANA、密度聚类方法DBSCAN等等。

聚类分析是数据挖掘研究和应用中一个重要的部分。简单地讲,聚类分析就是将数据对象分组成多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。从机器学习的观点来看,聚类是一种无指导的学习,因为它没有关于分类的先验知识。从实际应用的观点来看,聚类分析在科学数据探测、图像处理、模式识别、医疗诊断、计算生物学、文档检索和Web分析等领域起着非常重要的作用,它已经成为当前数据挖掘研究领域中一个非常活跃的研究课题。

1基于蚂蚁算法的K-means算法蚁群算法(antcolonyalgorithm)是最新发展的一种模拟蚂蚁群体智能行为的仿生优化算法H1,由意大利学者DorigoM于1991年提出。从蚂蚁的这种自然行为上,很自然地联想到聚类,聚类是将数据库中的数据进行分类,同一类中的数据尽可能相似,不同类中的数据尽可能不同。运用基于蚂蚁的聚类算法对数据进行聚类,把数据分割成个小堆1,2,…,然后利用这个堆作为K—Means的输入,把堆=1,2,…的中心作为初始的聚类中心,用K—Means算法进行聚类。

基于蚁群算法的聚类方法从原理上可以分为两种:一种是基于蚁堆形成原理来实现数据聚类,另一种是运用蚁群觅食的原理,利用信息素(pheromone)来实现聚类分析。基于蚂蚁算法的K—Means主要步骤如下:

1)用蚂蚁算法对数据进行聚类,把数据分割成个小堆1,2,…;

2)把第一步中的值作为K—Means的输入,把堆=1,2,…的中心作为初始的聚类中心,用K_]V[eans算法进行聚类;

3)再一次运用基于蚂蚁的聚类算法,但是这次进行聚类的对象不是单个数据对象,而是对上两步形成的堆进行层次聚类;

敢稿日期:2011—09—23

基金项目:2010年湖北省教育厅科研项目:面向3G通信的移动音频关键技术研究(D20101704)

作者简介:何健(1975一),男,湖北武汉人,本科,研究方向为成数据挖掘和信息检索。

第34卷第2期2012—2(下)[11万方数据

相关主题
文本预览
相关文档 最新文档