当前位置:文档之家› 子空间聚类改进算法研究综述

子空间聚类改进算法研究综述

万方数据

万方数据

万方数据

除。该方法通过边界识别得到位于各维的类投影,只存在一个类投影的维对聚类的生成是无贡献的,可以将它修剪掉;

②把不能增加贡献的维排除。在搜索过程中会存在一些维与另一些维或者维的组合对聚类生成的贡献相同。对于与单一维的等贡献维可以采取静态的修剪策略,而对于与维的组合是等贡献的维则可以采取动态的修剪策略。最终目的是要得到较好的计算复杂性并生成可完全描述类的最大子空间。显然,这种修剪技术对聚类结果几乎不会造成任何的信息损失。

文献(15]提出了一种基于双向搜索策略的CAHD算法对频繁项目及进行剪枝。一般发现频繁项目集的算法仅利用定理l来剪枝候选项目集,这决定了它们必须使用单向的自底向上搜索策略,而利用定理2可以对数据空间进行自顶向下的搜索,为了尽快发现频繁项目集,算法CAHD采用了自底向上和自顶向下相结合的双向搜索策略,利用两个方向搜索到的信息对数据进行剪枝。

4总结

目前聚类算法向着处理更高维数据、更大型数据库的方向发展,算法之间的融合更加紧密。随着聚类分析对象数据集规模的急剧增大,改进现有算法以获得满意的效率受到越来越多的重视,对大规模、高维数据库的高效聚类分析依然是个有待研究的开放问题。本文对CUQUE算法的聚类功能的优缺点及各种改进算法进行了重点、详细的阐述和对比,并详细介绍和分析了近年来提出的一些子空间聚类新算法,这些新算法努力把静态的聚类推向动态的、适应性强的、带约束条件的及与生活联系紧密的聚类。根据这些新算法的仿真结果,与CLIQUE算法相比,主要优点在于①聚类结果对输入参数敏感性降低;②聚类的效率提高;③聚类效果改善。深入分析和研究CLIQUE算法及其改进算法,开发效率更高的子空间聚类新算法,对解决大规模高维数据的聚类问题具有指导意义。

参考文献:

[1]JiaweiHen,MichelineI‰m1)er.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[2]TNgRaymond,Jiaweiltan.F-J矗cientandeffectiveclusteringmethodsforspatialdatamining[C].Procofthe20thVLDBCon-

ference.Chile,Santia伊:[s.n.],1994.144—155.[3]T撕,RRamakrishnan,MLivny.BIRCH:Anefficientdata

clusteringmethodforveryla学databases[c].Procofthe1996

ACMSIGMODInt’lCod011ManagementofData[c].Montreal,

ACMe1.ea∞。1996.103—114.[4]MEster,HPKriegel,JSander,xXu.AdensitybasedalSo,4thmfordiscoveringclustersinlargespatialdatabaseswithnoise[C].

Proceedingsofthe2ndInternationalConferenceonKnowledgeDis-coveryandData

Mining.Portland:A从IPress.1996.226—231.[5]RAgmwal,JCohrke,DGunopolus,P[吨havan.Automaticsub-印BccclusteringofhishdimensionaldatafordatamiIIingapplica-tion[C].ProceedingsoftheACMSIGMODInternationalConfer-onceonManagementofData.Seattle:ACMPrtm,1998.94—

105.

[6]BakeshAgrawal,BaruskrishnanSrikant.Fast如rithmformill-ingassociationrulesinla够databases[c].Procofthe20tllInt’l

Conf

OilVeryLargeDataBases?SanFrancisco:Morgan

Kallf-manll,1994?487-499.

[7]Coilsanjay,HarashaNagesh,AlokChoudhary.MAFIA:EfficientandSealableSubspaceClusteringforVery【丑弹DataSets[R].

TechnicalReportNumberCPDC—TR一9906—019。CenterforParallelandDistributodComputing,NorthwesternUniversity,

1999.

[8]MPWand.Data—basedchoiceofhistognunbinwidth[J】.TheAmericanStatistical,1996,51(1):59一“.

[9]BLMilenova,MMCampos.O—Cluster:Scalableclusteringofla孵highdimemionaldatasets[C].Proc0f2002IEEEIntema-tionalConferenceOilDataMining(ICDM’02)[c].MaebashiCit-y,Japan,2002.290一297.

[10]何虎翼,姚莉秀,沈红斌,杨杰.一种新的自空间聚类算法[J].上海交通大学学报,2007,41(5):813-817.

[11]陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005。27

(12):1654—1657.

[12]王生生,刘大有,曹斌,刘杰.一种高维空间数据的子空间聚类算法[J].计算机应用,2005,25(11):2615—2617.

[13]周晓云,孙志挥,张柏礼.一种大规模高维数据集的高校聚类算法[J].应用科学学报,2006,24(4):396一枷.

[14]冯兴杰,黄亚楼.带约束条件的聚类算法研究[J].计算机工程与应用,2005(7):12一15.

[15]谢坤武,毕晓玲,叶斌.基于单元区域的高维数据聚类算法[J].计算机研究与发展,2007,44(9):1618—1623.

【作者简介]

李霞(1974一),女(汉族),河南开封人,副教授,

博士生,主要研究领域为数据挖掘与可视化技术;

徐树维(1969一),男(汉族),河南开封人,讲师,博

士生,主要研究领域为网络信息管理技术与信息系

统o

?-——177?-——

万方数据

相关主题
文本预览
相关文档 最新文档