当前位置：文档之家› 子空间聚类改进算法研究综述

子空间聚类改进算法研究综述

万方数据

除。该方法通过边界识别得到位于各维的类投影，只存在一个类投影的维对聚类的生成是无贡献的，可以将它修剪掉；

②把不能增加贡献的维排除。在搜索过程中会存在一些维与另一些维或者维的组合对聚类生成的贡献相同。对于与单一维的等贡献维可以采取静态的修剪策略，而对于与维的组合是等贡献的维则可以采取动态的修剪策略。最终目的是要得到较好的计算复杂性并生成可完全描述类的最大子空间。显然，这种修剪技术对聚类结果几乎不会造成任何的信息损失。

文献（１５］提出了一种基于双向搜索策略的ＣＡＨＤ算法对频繁项目及进行剪枝。一般发现频繁项目集的算法仅利用定理ｌ来剪枝候选项目集，这决定了它们必须使用单向的自底向上搜索策略，而利用定理２可以对数据空间进行自顶向下的搜索，为了尽快发现频繁项目集，算法ＣＡＨＤ采用了自底向上和自顶向下相结合的双向搜索策略，利用两个方向搜索到的信息对数据进行剪枝。

４总结

目前聚类算法向着处理更高维数据、更大型数据库的方向发展，算法之间的融合更加紧密。随着聚类分析对象数据集规模的急剧增大，改进现有算法以获得满意的效率受到越来越多的重视，对大规模、高维数据库的高效聚类分析依然是个有待研究的开放问题。本文对ＣＵＱＵＥ算法的聚类功能的优缺点及各种改进算法进行了重点、详细的阐述和对比，并详细介绍和分析了近年来提出的一些子空间聚类新算法，这些新算法努力把静态的聚类推向动态的、适应性强的、带约束条件的及与生活联系紧密的聚类。根据这些新算法的仿真结果，与ＣＬＩＱＵＥ算法相比，主要优点在于①聚类结果对输入参数敏感性降低；②聚类的效率提高；③聚类效果改善。深入分析和研究ＣＬＩＱＵＥ算法及其改进算法，开发效率更高的子空间聚类新算法，对解决大规模高维数据的聚类问题具有指导意义。

参考文献：

［１］ＪｉａｗｅｉＨｅｎ，ＭｉｃｈｅｌｉｎｅＩ‰ｍ１）ｅｒ．数据挖掘：概念与技术［Ｍ］．北京：机械工业出版社，２００１．

［２］ＴＮｇＲａｙｍｏｎｄ，Ｊｉａｗｅｉｌｔａｎ．Ｆ－Ｊ矗ｃｉｅｎｔａｎｄｅｆｆｅｃｔｉｖｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓｆｏｒｓｐａｔｉａｌｄａｔａｍｉｎｉｎｇ［Ｃ］．Ｐｒｏｃｏｆｔｈｅ２０ｔｈＶＬＤＢＣｏｎ－

ｆｅｒｅｎｃｅ．Ｃｈｉｌｅ，Ｓａｎｔｉａ伊：［ｓ．ｎ．］，１９９４．１４４—１５５．［３］Ｔ撕，ＲＲａｍａｋｒｉｓｈｎａｎ，ＭＬｉｖｎｙ．ＢＩＲＣＨ：Ａｎｅｆｆｉｃｉｅｎｔｄａｔａ

ｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｆｏｒｖｅｒｙｌａ学ｄａｔａｂａｓｅｓ［ｃ］．Ｐｒｏｃｏｆｔｈｅ１９９６

ＡＣＭＳＩＧＭＯＤＩｎｔ’ｌＣｏｄ０１１ＭａｎａｇｅｍｅｎｔｏｆＤａｔａ［ｃ］．Ｍｏｎｔｒｅａｌ，

ＡＣＭｅ１．ｅａ∞。１９９６．１０３—１１４．［４］ＭＥｓｔｅｒ，ＨＰＫｒｉｅｇｅｌ，ＪＳａｎｄｅｒ，ｘＸｕ．ＡｄｅｎｓｉｔｙｂａｓｅｄａｌＳｏ，４ｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａｂａｓｅｓｗｉｔｈｎｏｉｓｅ［Ｃ］．

Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓ－ｃｏｖｅｒｙａｎｄＤａｔａ

Ｍｉｎｉｎｇ．Ｐｏｒｔｌａｎｄ：Ａ从ＩＰｒｅｓｓ．１９９６．２２６—２３１．［５］ＲＡｇｍｗａｌ，ＪＣｏｈｒｋｅ，ＤＧｕｎｏｐｏｌｕｓ，Ｐ［吨ｈａｖａｎ．Ａｕｔｏｍａｔｉｃｓｕｂ－印ＢｃｃｃｌｕｓｔｅｒｉｎｇｏｆｈｉｓｈｄｉｍｅｎｓｉｏｎａｌｄａｔａｆｏｒｄａｔａｍｉＩＩｉｎｇａｐｐｌｉｃａ－ｔｉｏｎ［Ｃ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ－ｏｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｓｅａｔｔｌｅ：ＡＣＭＰｒｔｍ，１９９８．９４—

１０５．

［６］ＢａｋｅｓｈＡｇｒａｗａｌ，ＢａｒｕｓｋｒｉｓｈｎａｎＳｒｉｋａｎｔ．Ｆａｓｔ如ｒｉｔｈｍｆｏｒｍｉｌｌ－ｉｎｇａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｉｎｌａ够ｄａｔａｂａｓｅｓ［ｃ］．Ｐｒｏｃｏｆｔｈｅ２０ｔｌｌＩｎｔ’ｌ

Ｃｏｎｆ

ＯｉｌＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ?ＳａｎＦｒａｎｃｉｓｃｏ：Ｍｏｒｇａｎ

Ｋａｌｌｆ－ｍａｎｌｌ，１９９４?４８７－４９９．

［７］Ｃｏｉｌｓａｎｊａｙ，ＨａｒａｓｈａＮａｇｅｓｈ，ＡｌｏｋＣｈｏｕｄｈａｒｙ．ＭＡＦＩＡ：ＥｆｆｉｃｉｅｎｔａｎｄＳｅａｌａｂｌｅＳｕｂｓｐａｃｅＣｌｕｓｔｅｒｉｎｇｆｏｒＶｅｒｙ【丑弹ＤａｔａＳｅｔｓ［Ｒ］．

ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＮｕｍｂｅｒＣＰＤＣ—ＴＲ一９９０６—０１９。ＣｅｎｔｅｒｆｏｒＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｏｄＣｏｍｐｕｔｉｎｇ，ＮｏｒｔｈｗｅｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ，

１９９９．

［８］ＭＰＷａｎｄ．Ｄａｔａ—ｂａｓｅｄｃｈｏｉｃｅｏｆｈｉｓｔｏｇｎｕｎｂｉｎｗｉｄｔｈ［Ｊ】．ＴｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌ，１９９６，５１（１）：５９一“．

［９］ＢＬＭｉｌｅｎｏｖａ，ＭＭＣａｍｐｏｓ．Ｏ—Ｃｌｕｓｔｅｒ：Ｓｃａｌａｂｌｅｃｌｕｓｔｅｒｉｎｇｏｆｌａ孵ｈｉｇｈｄｉｍｅｍｉｏｎａｌｄａｔａｓｅｔｓ［Ｃ］．Ｐｒｏｃ０ｆ２００２ＩＥＥＥＩｎｔｅｍａ－ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＯｉｌＤａｔａＭｉｎｉｎｇ（ＩＣＤＭ’０２）［ｃ］．ＭａｅｂａｓｈｉＣｉｔ－ｙ，Ｊａｐａｎ，２００２．２９０一２９７．

［１０］何虎翼，姚莉秀，沈红斌，杨杰．一种新的自空间聚类算法［Ｊ］．上海交通大学学报，２００７，４１（５）：８１３－８１７．

［１１］陈卓，孟庆春，魏振钢，任丽婕，窦金凤．一种基于网格和密度凝聚点的快速聚类算法［Ｊ］．哈尔滨工业大学学报，２００５。２７

（１２）：１６５４—１６５７．

［１２］王生生，刘大有，曹斌，刘杰．一种高维空间数据的子空间聚类算法［Ｊ］．计算机应用，２００５，２５（１１）：２６１５—２６１７．

［１３］周晓云，孙志挥，张柏礼．一种大规模高维数据集的高校聚类算法［Ｊ］．应用科学学报，２００６，２４（４）：３９６一枷．

［１４］冯兴杰，黄亚楼．带约束条件的聚类算法研究［Ｊ］．计算机工程与应用，２００５（７）：１２一１５．

［１５］谢坤武，毕晓玲，叶斌．基于单元区域的高维数据聚类算法［Ｊ］．计算机研究与发展，２００７，４４（９）：１６１８—１６２３．

【作者简介］

李霞（１９７４一），女（汉族），河南开封人，副教授，

博士生，主要研究领域为数据挖掘与可视化技术；

徐树维（１９６９一），男（汉族），河南开封人，讲师，博

士生，主要研究领域为网络信息管理技术与信息系

统ｏ

?－——１７７?－——

万方数据