空间聚类研究
- 格式:pdf
- 大小:178.60 KB
- 文档页数:5
高维空间下的数据分类与聚类模型研究随着科技的进步和互联网的发展,我们正处于一个大数据时代。
大量的数据被不断地生成和积累,这些数据通常是高维的,包含着丰富的信息和潜在的知识。
然而,高维数据的处理与分析带来了许多挑战,其中最重要的挑战之一是高维数据的分类和聚类。
本文将探讨高维空间下的数据分类与聚类模型研究。
一、高维数据的特点与挑战高维数据指的是数据集中包含的特征数目远大于样本数目的数据。
高维数据的处理与分析存在一些特点和挑战:1. 维数灾难:高维数据会导致维数灾难,即当维数增加时,样本的密度变稀疏。
这使得传统的机器学习算法在高维数据上表现不佳,因为它们往往需要更多的样本才能获得准确的分类和聚类结果。
2. 维度相关性:在高维数据中,不同维度之间存在一定的相关性。
这种相关性会影响到数据的分布和特征之间的关系,从而对分类和聚类任务造成困扰。
3. 噪声问题:高维数据往往包含大量的噪声,噪声的引入会干扰数据的分类和聚类结果,增加了模型的错误率。
二、高维数据的分类模型研究高维数据的分类旨在将一组高维数据样本分配到预定义的类别或标签中。
在高维数据的分类模型研究中,一些主要的方法包括:1. 基于特征选择的分类:通过选择最相关的特征子集,以降低维数并提高分类性能。
这些方法通常包括过滤、包装和嵌入等技术,以从高维数据中选择最具有代表性的特征。
2. 基于降维的分类:通过降低维数,将高维数据映射到低维空间,并利用低维空间中的分类模型进行分类。
常用的降维方法有主成分分析(PCA)、线性判别分析(LDA)等。
3. 基于核函数的分类:将高维数据映射到更高维的特征空间,通过构造核函数来进行非线性分类。
支持向量机(SVM)是一个常用的基于核函数的分类方法。
三、高维数据的聚类模型研究高维数据的聚类旨在将一组高维数据样本划分为不同的子集或簇,使得同一簇内的样本相似度较高,而不同簇之间的相似度较低。
在高维数据的聚类模型研究中,一些主要的方法包括:1. 基于密度的聚类:通过估计样本之间的密度来确定聚类结果。
基于空间聚类的物流配送决策研究一、研究背景物流配送是现代经济中不可或缺的一环,其效率和准确度对企业的运营和利润有着重要影响。
而空间聚类作为一种常见的数据挖掘技术,可以在物流配送中发挥重要作用。
因此,本研究旨在探讨基于空间聚类的物流配送决策方法。
二、空间聚类技术简介1. 空间聚类定义空间聚类是指将具有相似属性的对象分组,并将这些分组放在相邻或近邻的区域内,使得同组内对象之间具有高度相似性,而不同组之间则具有明显差异性。
2. 常见空间聚类算法常见的空间聚类算法包括K-means、DBSCAN、层次聚类等。
其中K-means算法是最为常用和简单的一种方法,通过迭代计算来确定数据点所属于哪个簇;DBSCAN算法则是一种基于密度的方法,能够自动识别出任意形状和大小的簇。
三、基于空间聚类的物流配送决策方法1. 数据采集与预处理首先需要采集相关数据,包括物流配送区域的地理信息、客户需求量、配送车辆数量等。
然后需要对数据进行预处理,包括数据清洗、数据转换、缺失值填充等。
2. 空间聚类分析在完成数据预处理后,可以使用空间聚类算法对物流配送区域进行分析,将其划分为若干个簇。
这些簇可以代表不同的配送区域,或者代表具有相似需求量的客户群体。
3. 配送路径优化在完成空间聚类分析后,需要考虑如何优化配送路径。
一种常见的方法是使用遗传算法或模拟退火算法来寻找最优路径。
这些算法可以考虑各种因素,包括起点和终点之间的距离、交通状况、车辆容量等。
4. 配送调度计划制定在确定了最优路径后,需要制定具体的配送调度计划。
这包括确定每个车辆应当负责哪些客户群体或区域、每个车辆出发时间等。
四、案例分析以某物流公司为例,该公司需要为多个客户提供物流配送服务。
首先采集了相关数据,并使用K-means算法将其划分为5个簇。
然后使用遗传算法寻找最优路径,并制定了具体的配送调度计划。
实验结果表明,该方法能够显著提高物流配送效率和准确度。
五、结论与展望本研究探讨了基于空间聚类的物流配送决策方法,并以某物流公司为例进行了案例分析。
空间聚类分析2021土地信息技术1 空间聚类的内涵理解1.1 定义空间聚类作为聚类分析的一个研究方向,是指将空间数据集中的对象分成由相似对象组成的类。
同类中的对象间具有较高的相似度,而不同类中的对象间差异较大[3]。
作为一种无监督的学习方法,空间聚类不需要任何先验知识。
这是聚类的基本思想,因此空间聚类也是要满足这个基本思想。
1.2 对空间数据聚类的要求[2][5][6]① 可伸缩性;许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。
我们需要具有高度可伸缩性的聚类算法。
② 发现任意形状的聚类;许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。
基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。
但是,一个簇可能是任意形状的。
提出能发现任意形状簇的算法是很重要的。
(虽然聚类分析属于非监督学习方法,但在某些情况下一些基本的客观规律也会或多或少指示聚类分析的结果)③ 用于决定输入参数的领域知识最小化;许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。
聚类结果对于输入参数十分敏感。
参数通常很难确定,特别是对于包含高维对象的数据集来说。
这样不仅加重了用户的负担,也使得聚类的质量难以控制。
④ 对噪声数据不敏感;绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。
一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。
⑤ 对于输入记录的顺序不敏感;12021土地信息技术一些聚类算法对于输入数据的顺序是敏感的。
例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。
开发对数据输入顺序不敏感的算法具有重要的意义。
⑥ 处理高维数据;一个数据库或者数据仓库可能包含若干维或者属性。
许多聚类算法擅长处理低维的数据,可能只涉及两到三维。
人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。
空间聚类分析及应用空间聚类分析是一种分析空间数据的方法,其主要目的是将具有相似属性的空间对象聚集到一起。
在空间聚类分析中,通常使用距离度量来衡量空间对象之间的相似性,并基于相似性构建聚类模型。
聚类模型可以将空间数据划分为不同的群集,每个群集内的空间对象具有相似的特征。
空间聚类分析在许多领域中都有广泛的应用。
以下是几个常见的应用领域:1. 城市规划:空间聚类分析可以用于确定城市中心或商业区的位置。
通过分析空间数据,能够找到具有相似特征的区域,从而帮助决策者做出最佳的规划决策。
2. 环境研究:研究人员可以使用空间聚类分析来识别环境热点区域。
例如,在研究环境污染时,可以通过聚类分析找到受污染程度相似的区域,以便采取相应的对策。
3. 交通规划:空间聚类分析可以用于交通规划,例如确定最佳的公共交通线路或站点。
通过聚类分析,可以识别出相对集中的人口区域,从而优化交通设施的布局。
4. 电子商务:在电子商务中,空间聚类分析可以帮助企业确定最佳的销售区域。
通过分析潜在客户的空间分布,可以找到潜在市场的热点区域,以便开展精确的市场推广活动。
在实际的空间聚类分析中,通常使用不同的聚类算法来实现。
以下是几个常用的算法:1. K-means算法:K-means算法是一种常见的聚类算法,也适用于空间聚类分析。
该算法通过迭代计算空间对象与聚类中心之间的距离,并将对象划分到最近的中心点所代表的聚类中。
2. DBSCAN算法:DBSCAN算法是一种密度聚类算法,它能够自动发现具有不同密度的簇。
该算法通过定义邻域半径和最小对象数来确定核心对象,并将其他对象划分到核心对象的簇中。
3. 层次聚类算法:层次聚类算法通过逐步合并或分割聚类来构建聚类层次结构。
该算法可以根据不同的相似性度量和连接方式来实现,例如单链接、完全链接和平均链接。
总之,空间聚类分析是一种有力的数据挖掘工具,可以帮助我们理解和利用空间数据。
通过深入研究和应用空间聚类分析,我们能够更好地理解和管理空间相关的问题,并为决策提供科学依据。
空间聚类分析概念与算法空间聚类算法的目标是使得同一群组内的数据点之间距离尽可能小,而不同群组之间的距离尽可能大。
通过这种方式,可以更好地理解和分析数据,并从数据中获取有关其内在结构的信息。
下面介绍几种常见的空间聚类算法:1. K-means算法:K-means是一种基于距离的空间聚类算法。
它将数据点划分到K个聚类中心,然后根据数据点和聚类中心之间的距离重新计算聚类中心,直到达到收敛。
K-means算法简单且易于实现,但对于非球形分布的数据效果可能不佳。
2.DBSCAN算法:DBSCAN是一种基于密度的空间聚类算法。
它将数据点划分为核心点、边界点和噪声点。
核心点是在一个给定半径内具有足够数量的邻居点的点,边界点是在一个给定半径内具有较少数量的邻居点的点,噪声点是不满足任何条件的点。
DBSCAN算法不需要预先指定聚类的数量,且对于非球形分布的数据效果较好。
3.层次聚类算法:层次聚类是一种通过构建聚类层次结构的方法。
它可以通过自上而下或自下而上两种方式进行聚类。
自上而下的方法将所有数据点划分为一个大的聚类,然后逐步细分为较小的聚类,直到满足一定的聚类准则。
自下而上的方法则从单个数据点开始,逐步合并相似的数据点,直到形成一个大的聚类。
层次聚类算法适用于数据点数量较小且聚类结构具有层次性的情况。
4. 高斯混合模型(Gaussian Mixture Model,GMM)算法:GMM是一种统计模型,用于描述数据点的分布。
它假设数据点是由多个高斯分布组成的混合模型。
GMM算法通过估计高斯分布的参数来确定数据点所属的聚类。
GMM算法适用于特征呈现高斯分布的数据。
总结起来,空间聚类分析是一种重要的数据挖掘技术,通过计算数据点之间的相似度将它们分组。
K-means、DBSCAN、层次聚类和GMM都是常见的空间聚类算法。
根据不同的数据分布和应用场景,我们可以选择合适的算法来进行分析和挖掘。
回归和空间聚类分析一、回归分析回归分析是一种用于研究变量之间关系的统计方法,常用于预测和解释变量之间的依赖关系。
回归分析通过探索因变量和自变量之间的相关性,建立数学模型来预测和解释现象。
回归分析的基本原理是找到一个最佳拟合曲线(直线或曲线),使得拟合曲线与观测数据的残差最小。
回归分析包括以下几个重要概念和方法:1.线性回归分析:线性回归分析假设因变量和自变量之间的关系可以用线性方程表示。
通过最小二乘法来估算回归系数,衡量自变量对因变量的影响。
2.多元回归分析:多元回归分析考虑多个自变量对因变量的影响。
通过分析多元回归系数来确定不同自变量的相对重要性。
3.逻辑回归分析:逻辑回归分析是一种广义线性回归分析方法,用于研究二分类或多分类问题。
逻辑回归分析将线性回归模型的输出通过一个逻辑函数映射到(0,1)区间,表示概率。
4.非线性回归分析:非线性回归分析用于探索非线性的变量关系。
非线性回归分析可以通过添加非线性项、指数项等方式建立非线性模型。
回归分析广泛应用于各个领域,如金融学、经济学、市场营销、医学研究等。
例如,金融学中的资产定价模型使用回归分析来解释资产收益率与市场指数之间的关系;医学研究中的生存分析使用回归分析来研究生存时间与影响因素之间的关系。
空间聚类分析是一种用于研究地理数据的分析方法,旨在发现地理空间中的簇状模式和规律。
空间聚类分析可以帮助我们理解地理空间中事物的分布特征和空间相关性。
空间聚类分析的基本原理是,将相似的地理空间单元(如点、线、面)归为一类,使得同一类内的单元之间的相似性最大,不同类之间的相似性最小。
空间聚类分析包括以下几个重要概念和方法:1. K-means聚类:K-means聚类是一种常用的划分式聚类方法,将空间单位划分为K个不相交的簇。
K-means聚类的目标是最小化簇内的平方误差和。
2.DBSCAN聚类:DBSCAN聚类是一种基于密度的聚类方法,能够发现任意形状的簇。
DBSCAN聚类的目标是找到密度可达的样本和核心样本,并将其划分为簇。
基于切比雪夫距离的高维空间数据聚类方法研究在当前大数据时代,高维数据聚类方法成为了数据挖掘和机器学习领域中的一个重要研究方向。
而切比雪夫距离作为一种常用的距离度量方法,可以在高维空间中更好地处理数据聚类问题。
本文将探讨基于切比雪夫距离的高维空间数据聚类方法,并提出一种新的改进方法。
首先,我们需要了解切比雪夫距离。
切比雪夫距离是指在一个多维空间中,两个点之间坐标数值差的绝对值的最大值。
在高维空间中,使用切比雪夫距离可以更好地度量两个数据点的差异程度,因为它考虑了各个维度上的最大差异。
通过使用切比雪夫距离,我们可以提高高维数据的聚类效果。
在基于切比雪夫距离的高维空间数据聚类方法研究中,一个常见的方法是K-means算法。
K-means算法通过迭代的方式,将数据点分配到k个簇中,使得每个簇内的数据点与该簇的质心之间的切比雪夫距离最小。
在迭代过程中,通过不断更新质心的位置,最终实现数据的聚类。
然而,传统的K-means算法在高维数据聚类中存在一些问题。
首先,高维数据的维度较多,导致计算切比雪夫距离时的复杂度较高。
其次,高维数据的稀疏性问题使得传统的K-means算法难以有效地对数据进行聚类。
因此,为了解决这些问题,我们提出了一种改进的基于切比雪夫距离的高维空间数据聚类方法。
我们的改进方法主要包括两个方面的改进:降维和聚类。
首先,我们采用主成分分析(PCA)方法对高维数据进行降维处理。
PCA可以通过线性变换,将原始数据映射到一个低维空间中,从而降低计算成本和处理稀疏性问题。
在降维过程中,我们保留那些能够保持数据信息且能够解释大部分数据方差的主成分。
在降维之后,我们使用改进的K-means算法对低维数据进行聚类。
首先,我们根据PCA得到的主成分个数确定聚类簇数k。
然后,我们计算样本点之间的切比雪夫距离,并将数据点分配到最近的簇中。
接着,我们更新每个簇的质心,并重复以上步骤,直至达到设定的迭代次数或达到收敛条件。
《L1范数仿射子空间投影聚类算法研究》篇一一、引言随着大数据时代的到来,子空间聚类技术得到了广泛的应用。
子空间聚类算法的目的是将数据集中的点根据其内在的子空间结构进行有效分类。
L1范数仿射子空间投影聚类算法是一种新兴的聚类方法,该算法结合了L1范数的稳健性和仿射子空间的表达能力,可以有效地处理含有噪声和离群点的数据集。
本文将针对L1范数仿射子空间投影聚类算法进行深入研究,探讨其理论基础、算法流程及实验效果。
二、L1范数仿射子空间投影聚类算法理论基础L1范数仿射子空间投影聚类算法是一种基于仿射子空间的聚类方法。
该算法通过最小化每个数据点到其所属子空间的投影距离的L1范数来优化聚类结果。
与传统的L2范数相比,L1范数对噪声和离群点具有更好的稳健性,能够更好地处理含有异常值的数据集。
此外,仿射子空间模型能够更好地描述现实世界中数据的复杂结构。
三、算法流程L1范数仿射子空间投影聚类算法主要包括以下几个步骤:1. 数据预处理:对原始数据进行归一化处理,使其具有相同的尺度。
2. 初始化:随机选择若干个数据点作为初始聚类中心。
3. 仿射子空间投影:将每个数据点投影到其最近的仿射子空间上,计算投影误差。
4. 聚类优化:通过最小化所有数据点到其所属子空间的投影误差的L1范数来优化聚类结果。
这一步需要使用迭代优化算法求解。
5. 迭代更新:根据优化后的聚类结果更新聚类中心和子空间模型,重复步骤3和4,直到达到预设的迭代次数或满足收敛条件。
6. 聚类结果输出:最终得到各数据点的聚类标签及聚类中心等信息。
四、实验效果与分析为验证L1范数仿射子空间投影聚类算法的有效性,本文进行了多组对比实验。
实验结果表明,该算法在处理含有噪声和离群点的数据集时具有较好的稳健性和准确性。
与传统的L2范数聚类方法相比,L1范数在处理异常值时具有更好的效果。
此外,仿射子空间模型能够更好地描述现实世界中数据的复杂结构,使得聚类结果更加准确。
五、结论与展望本文对L1范数仿射子空间投影聚类算法进行了深入研究,探讨了其理论基础、算法流程及实验效果。
收稿日期:2008-07-30基金项目:国家高技术研究发展计划(863)项目(2007AA01Z404)作者简介:马 程(1980-),女,安徽阜阳人,硕士研究生,研究方向为数据挖掘;导师:皮德常,博士,副教授,研究方向为数据挖掘与数据库。
空间聚类研究马 程1,2(1.南京航空航天大学信息科学与技术学院,江苏南京210016;2.蚌埠学院计算机科学与技术系,安徽蚌埠233040)摘 要:聚类算法是数据挖掘中的关键技术,聚类技术在模式识别、图像处理等领域有广泛应用,随着对聚类算法更广泛深入的研究,产生了许多不同的适用于空间数据挖掘的聚类算法。
描述了数据挖掘领域中对聚类分析的典型要求,介绍了空间数据挖掘中近几年常用的聚类方法,并通过基于评价聚类算法好坏的标准,从多个方面对这些算法性能进行比较分析,方便人们较容易找到一种适用于特定问题的聚类算法,最后对未来发展进行了展望。
关键词:数据挖掘;空间聚类算法;数据库中图分类号:T P18 文献标识码:A 文章编号:1673-629X(2009)04-0134-04A Survey of Spatial Clustering ResearchMA Cheng 1,2(1.Coll.of Info.Sci.and T echn.,N anjing University of Aeronautics &Astro nautics,Nanjing 210016,China;2.Co mputer Sci.and T echn.Department of Beng bu College,Bengbu 233040,China)Abstract:Clusteri ng algorithm is the key technology in data mi n i ng.Clustering technology has w ide application in pattern recognition,im age processing and other fields.Along w ith its w ider and deeper research,many different methods applicable to the spatial data mi n i ng have been emerged.S tarts w ith introducti on to typical reques ts w hen using clustering.Then ,i t proposes some commonly used spatial clus tering algorithms in recent years and compares them from various aspects of these algori thms based on some evaluate standards,so a clus tering algorithm for th e particular problem is easy to find out.Fi nally,briefly predicts the development of the spatial data clus tering.Key words:data mining;spati al clustering algorithm ;database0 引 言空间数据库存储了大量与空间有关的数据,例如地图、遥感或医学图像数据、V LSI 芯片设计数据等,空间聚类的任务是运用空间聚类来提取不同领域的分布特征,把空间数据库中的对象分成多个有意义的簇,即根据相似性对数据对象进行分组,使每一个簇中的数据是相似的,而不同簇中的数据尽可能不同。
1 空间聚类算法的要求空间聚类是一个富有挑战性的研究领域,有关每一个应用都提出了各自特殊的要求,以下是数据挖掘中聚类的典型要求:1)可伸缩性:在很多聚类算法中,数据对象小于200的小数据集合上鲁棒性执行多种数据模型;而对于包含几百万个数据对象的大规模数据库进行聚类时,将会导致有不同的偏差结果,这就需要聚类算法具有高度的可伸缩性。
2)处理不同类型属性的能力:对于设计的很多算法用来聚类数值类型的数据,但在实际应用中可能要求聚类其它类型的数据。
如分类标称类型、序数型、元类型数据,或者这些数据类型的混合。
3)发现任意形状的聚类:使用Euclidean 距离或者M anhattan 距离的许多聚类算法来确定聚类,基于这样的距离度量的算法趋向于发现具有相近密度和尺寸的球状簇,所以提出能发现任意形状簇的算法是很重要的。
4)用于决定输入参数的领域知识最小化:在聚类分析中,许多聚类算法要求用户输入一定的参数,如希望簇的数目,聚类结果对于输入参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此,要求用人工输入参数不但加重了用户的负担,第19卷 第4期2009年4月 计算机技术与发展COM PUT ER TECHNOLOGY AND DEVELOPM ENTV ol.19 No.4Apr. 2009而且也使聚类质量难以控制。
5)对于输入记录顺序不敏感:一些聚类算法对于输入数据的顺序是敏感的,如对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果,研究对数据输入顺序不敏感的算法具有重要的意义。
6)高维性:一个数据库可能含有若干维属性。
很多聚类算法擅长处理低维数据,通常最多在三维的情况下能够很好地判断聚类的质量,但是在高维空间,聚类的数据可能高度偏斜,非常稀疏。
7)处理噪声数据的能力:在现实应用中绝大多数的数据都包含了孤立点,未知数据、空缺、未知数据或者错误的数据,有些聚类算法对于这样的数据敏感,将会导致质量较抵的聚类结果。
8)基于约束的聚类:在实际应用中有可能需要在各种约束条件下进行聚类,既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。
9)可解释性和可用性:通常用户希望聚类结果是可解释的、可理解的和可用的。
2 空间聚类的主要方法针对聚类分析,专家们提出了许多聚类算法对同一数据集进行处理以观察可能获得的有关描述。
这些算法大致可分为五类:划分聚类算法、层次聚类算法、基于密度的方法、基于网格的方法和基于模型的聚类方法。
2.1 划分聚类算法给定一个包含n个对象或数据的集合,将数据集划分为k个子集,其中每个子集均代表一个聚类(k n),划分方法首先创建一个初始划分,然后利用循环再定位技术,即通过移动不同划分中的对象来改变划分内容,典型的划分方法包括K-means、K-medoids、PAM、CLARA、K-模、K-原型、EM和CLARAN S等。
Macqueen提出的K-means算法[1]是首先从n个数据对象随机地选择k个对象,每个对象初始地代表了一个簇中心,对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇,然后重新计算每个簇的平均值。
这个过程不断重复,直到准则函数收敛。
K-medoids算法[2]不采用聚类中对象的平均值作为参照点,而选用聚类中位置最中心的对象,即中心点,仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。
PAM算法[3]是最初提出的K-medoids算法之一,它在初始选择k个聚类中心对象之后,不断循环对每两个对象(非中心对象和中心对象)进行分析,以选择出更好的聚类中心代表对象,并根据每组对象分析所获得的聚类质量,该方法可以聚类数值和符号属性,但效率不高。
一种将PAM和采样过程结合起来的改进方法CLARA提高了其效率,CLARA[2]的主要思想是不考虑整个数据集合,只考虑实际数据的一部分。
Huang提出K-modes方法[3],它扩展了K-均值方法,用模代替类的平均值,采用新的相异性度量方法来处理分类对象,并用基于频率的方法来修改聚类的模,K-prot ot ypes方法[4]将K-均值和K-原型综合起来处理有数值类型和分类类型的混合数据。
CLARANS算法[5]改进了CLARA的聚类质量,也拓展了数据处理量的伸缩范围,它与CLARA算法的本质区别在于CLARA在搜索的开始是抽取节点的样本,而CLARAN S在搜索的每一步抽取邻居的样本,与PAM和CLARA相比,ClARAN S算法的聚类效果明显占优,但其时间复杂度仍为O(n2),因此,低效是其缺点。
2.2 层次聚类算法层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的,层次聚类方法又可分为自顶向下的分裂算法和自底向上的凝聚算法两种,分裂聚类算法,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终结条件,而凝聚聚类算法正好相反,首先将每个对象作为一个簇,然后将相互邻近的簇合并为一个大簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
AGNES和DIANA算法是早期的层次聚类方法,前者是一种凝聚聚类方法,后者是一种分裂聚类方法,两者都使用简单的准则即根据各簇间距离度量来合并或分裂簇,由于这两种方法在选择合并或分裂点时有一定困难,并且进行合并或分解后不能被撤销,聚类间对象也不能交换,就会导致发现错误的簇而降低聚类质量。
同时,这种方法没有很好的可伸缩性。
因此,人们在对这两种方法概括和总结的基础上,提出了一些新的层次聚类算法,如BIRCH算法、CU RE算法、ROCK和CHAM ELEON算法。
BIRCH算法[6]是一种综合的层次聚类方法, BIRCH算法包括两个阶段,第一个阶段扫描数据库,动态建立一个初始存放于内存的CF树,它可以被看成是对数据的压缩,试图保留数据内在的聚类结构。
第二个阶段,BIRCH采用某个聚类算法对CF树的叶节点进行聚类,来改善聚类质量。
该算法适用于类的分布呈凸形或球形,它在内存大小、运行时间、聚类质135第4期 马 程:空间聚类研究量、稳定性和伸缩性方面都胜于CLARAN S和K-means,但由于CF树的节点只包含有限的子簇,所以一个CF树的节点并不总对应于用户认为的一个自然簇。
CURE算法[7]解决了偏好球形和相似大小的问题,在处理孤立点上也更加健壮,它选择基于质心和基于代表对象方法之间的中间策略,不用单个质心或对象来代表一个簇,而选择数据空间中固定数目具有代表性的点。
ROCK算法[8]是利用聚类间的连接进行聚类合并,该算法针对布尔和类别数据设计的,采用一种新方法来计算相似形,即基于元组之间的连接数目,如果一元组的相似形超过某一阈值,则称这一对元组为邻居,这种方法不是基于精确的数值计算,而是基于领域专家的直觉,两个元组之间的连接数目由它们共同的邻居数目来定义,其相似性度量采用的是连接数目而不是距离的度量,适用link将数据进行聚类,最后将数据库中的其余数据指派到样本数据完成的簇中,得到最终的聚类结果,ROCK的时间复杂度为O(n2+ nm m m a+n2log n),其中m m为最大邻居数,m a为平均邻居数,n为资料点数;空间复杂度为O(min{n2, nm m m a})。