(完整word版)各种聚类算法介绍及对比
- 格式:doc
- 大小:238.02 KB
- 文档页数:9
各种聚类算法的比较聚类算法是一种将数据按照相似性分组的无监督学习方法。
在数据分析和机器学习中,聚类算法被广泛应用于数据挖掘、模式识别、图像处理等领域。
本文将介绍几种常见的聚类算法,并对它们进行比较。
1. K-means算法K-means算法是最常见的聚类算法之一,它将数据划分为K个集群,每个集群包含最接近其均值的数据点。
该算法迭代地更新集群的均值,直到满足收敛条件。
K-means算法简单、高效,适用于大型数据集。
然而,它对异常值和噪声敏感,并且对初始聚类中心的选择非常敏感。
2.层次聚类算法层次聚类算法是一种自底向上或自顶向下的聚类方法,它通过计算数据点之间的相似性构建一个聚类层次结构。
这种层次结构可以以树状图的形式表示,称为树状图聚类。
层次聚类算法的优点是不需要指定聚类个数,且能够处理任意形状的聚类。
然而,该算法的计算复杂度较高,并且对输入数据的规模和噪声敏感。
3.密度聚类算法密度聚类算法通过计算数据点周围的密度来确定聚类结构。
DBSCAN是最常见的密度聚类算法之一,它通过指定半径和邻域密度来定义聚类。
DBSCAN能够识别任意形状的聚类,并且对噪声和异常值具有较高的鲁棒性。
然而,密度聚类算法对参数的选择非常敏感,并且对高维数据和不同密度的聚类效果较差。
4.基于概率的聚类算法基于概率的聚类算法假设数据服从其中一种概率分布,并通过最大化似然函数来进行聚类。
GMM (Gaussian Mixture Model) 是一种常见的基于概率的聚类算法,它假设数据由多个高斯分布组成。
GMM算法能够分离具有不同协方差的聚类,适用于高维数据和非球状的聚类。
然而,该算法对初始参数的选择敏感,并且计算复杂度较高。
5.划分聚类算法划分聚类算法将数据划分为互斥的聚类,然后通过迭代地重新分配数据点来优化聚类质量。
PAM (Partitioning Around Medoids) 和CLARA (Clustering Large Applications)是常见的划分聚类算法。
常⽤的聚类算法及聚类算法评价指标1. 典型聚类算法1.1 基于划分的⽅法代表:kmeans算法·指定k个聚类中⼼·(计算数据点与初始聚类中⼼的距离)·(对于数据点,找到最近的{i}ci(聚类中⼼),将分配到{i}ci中)·(更新聚类中⼼点,是新类别数值的均值点)·(计算每⼀类的偏差)·返回返回第⼆步1.2 基于层次的⽅法代表:CURE算法·每个样本作为单独的⼀个类别··合并,为·遍历完本次样本,合并成新的类别后,若存在多个类别,则返回第⼆步·遍历完本次样本,合并成新的类别后,若所有样本为同⼀类别,跳出循环,输出每层类别1.3 基于⽹格的⽅法代表:STING算法·将数据集合X划分多层⽹格结构,从某⼀层开始计算·查询该层⽹格间的属性值,计算属性值与阈值的关系,判定⽹格间的相关情况,不相关的⽹格不作考虑·如果⽹格相关,则进⼊下⼀层的相关区域继续第⼆步,直到下⼀层为最底层·返回相关⽹格结果1.4 基于密度的⽅法代表:DBSCAN算法·输⼊数据集合X,随机选取⼀点,并找出这个点的所有⾼密度可达点·遍历此点的所有邻域内的点,并寻找这些密度可达点,判定某点邻域内的点,并寻找这些点密度可达点,判定某点的邻域内的点数是否超过阈值点数,超过则构成核⼼点·扫描数据集,寻找没有被聚类的数据点,重复第⼆步·输出划分的类,并输出异常值点(不和其他密度相连)1.5 神经⽹络的⽅法代表:SOM算法·数据集合,权重向量为,,归⼀化处理·寻找获胜的神经元,找到最⼩距离,对于每⼀个输⼊数据,找到与之最相匹配的节点令为为的距离,更新权重:·更新临近节点,,其中代表学习率1.6 基于图的聚类⽅法代表:谱聚类算法·计算邻接矩阵,度矩阵,·计算拉普拉及矩阵·计算归⼀化拉普拉斯矩阵·计算的特征值和特征向量·对Q矩阵进⾏聚类,得到聚类结果2. 聚类算法的评价指标⼀个好的聚类⽅法可以产⽣⾼品质簇,是的簇内相似度⾼,簇间相似度低。
各种聚类算法的优缺点在机器学习领域中,聚类(cluster)是最基本的无监督学习问题之一。
聚类算法是指把具有相似性质的数据对象分组的算法,被广泛应用于数据挖掘、模式识别等领域。
本文将介绍几种常见的聚类算法、它们的优缺点,并与之间做出比较。
一、K-Means聚类算法K-Means算法又称为K均值算法,是最为普及的一种聚类算法。
该算法通过将 n 个对象分到 k 个类的方法来使每个数据对象都与所属类的均值最为接近。
K-Means聚类算法有以下优缺点:优点:1.简单、易于实现。
2.计算速度快。
缺点:1.需要预先设定数据类别数量,且对初始化比较敏感。
2.数据集分布不均匀或聚类类别的数量差别较大时,聚类效果较差。
二、层次聚类算法层次聚类算法是一种基于树形结构的聚类方法,可以得到不同类别的层次结构。
该算法的核心思想就是通过计算每个数据对象间的距离并逐步将他们聚合成层次结构。
层次聚类算法的优缺点如下:优点:1.可以帮助我们发现数据对象之间的内部关系和层次结构。
2.不需要预先设定聚类类别数量。
缺点:1.计算复杂度较高,不适合大规模数据集。
2.聚类的结果可能会很大,难以在可视化方面得到较好的展示效果。
三、DBSCAN聚类算法DBSCAN是基于密度的聚类算法。
该算法将具有密度连接的数据点视为一组,并且可以在其它密度较低的区域中选择单个数据点。
DBSCAN聚类算法的优缺点如下:优点:1.不需要预设聚类类别数量。
2.能够发现任意形态的聚类。
缺点:1.初始化比较敏感,对参数设置等因素较为敏感。
2.难以解决密度分布不均一、噪音点分布不规律的问题。
四、BIRCH聚类算法BIRCH算法是基于描述的聚类方法,是聚类中的层次算法。
BIRCH的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它采用一种合并聚类方式,通过类的层次结构来简化聚类过程。
BIRCH聚类算法的优缺点如下:优点:1.该算法能够处理海量数据。
各种聚类算法的比较聚类算法是一种无监督学习方法,用于将样本划分为具有相似特征的不同组别。
在机器学习和数据挖掘中被广泛应用。
有许多不同的聚类算法可供选择,每个算法有其独特的优点和适用范围。
在本文中,我们将比较几种常用的聚类算法,以帮助选择最适合特定问题和数据集的算法。
1.K均值聚类算法:K均值算法是一种经典的聚类算法。
它将数据点分为K个不同的簇,使得同一簇内的数据点之间的距离尽可能小,不同簇之间的距离尽可能大。
该算法计算复杂度较低,适用于大数据集。
然而,该算法对初始聚类中心的选择非常敏感,并且只能处理数值型数据。
2.层次聚类算法:层次聚类算法通过计算数据点之间的相似性将它们逐步聚类成树状结构。
该算法不需要事先指定聚类个数,并且可以处理各种数据类型。
然而,该算法在处理大数据集时计算复杂度较高,并且结果的质量受到相似性度量的影响。
3.密度聚类算法:密度聚类算法使用数据点密度来识别簇。
该算法可以处理不规则形状的簇,并且对初始聚类中心的选择不敏感。
DBSCAN是一种常用的密度聚类算法。
然而,该算法对密度参数的选择敏感,并且在处理高维数据时效果可能不好。
4.基于模型的聚类算法:基于模型的聚类算法将数据点建模为一些概率分布的样本。
该算法可以处理不同形状和大小的簇,并且能够进行概率推断。
高斯混合模型(GMM)是一种常用的基于模型的聚类算法。
然而,该算法对模型的选择和参数估计比较困难。
5.谱聚类算法:谱聚类算法通过矩阵分解来对数据进行聚类。
该算法可以处理非线性可分的数据,并且不需要事先指定聚类个数。
然而,该算法在处理大数据集时计算开销较大,并且对相似度矩阵的构建方法敏感。
以上只是一些常见的聚类算法,实际上还有许多其他聚类算法可供选择,如affinity propagation、BIRCH、OPTICS等。
每种算法都有其独特的特点和适用范围。
在选择聚类算法时,需要考虑数据集的规模、维度、特征类型以及问题的特殊需求等因素。
常用聚类算法介绍
聚类算法是一种无监督学习方法,旨在将数据集中的对象分成不同的组或簇,使得同一簇内的对象相似度较高,而不同簇的对象相似度较低。
根据不同的分类标准和应用场景,聚类算法可以分为多种类型。
1、K均值聚类:是最知名的聚类算法之一,通过将数据集划分为K个簇,并为每个簇计算一个中心点(即该簇所有成员的平均值),以此来表示每个簇的特征。
K均值算法简单易懂,但在处理非球形分布的数据集时可能会遇到问题。
2、层次聚类:包括凝聚型和分裂型两种方式。
凝聚型从单个对象开始,逐步合并最近的两个对象形成一个新的簇,直到所有对象都在同一个簇中;分裂型则是从所有对象作为一个大簇开始,逐步将其分割成更小的簇。
层次聚类适用于需要可视化簇结构或探索数据内部关系的场景。
3、基于密度的聚类:如DBSCAN算法,它通过识别数据点的密度连接来发现任意形状的簇。
这种方法不依赖于预先指定的簇数量,能够有效处理噪声和异常值。
4、基于网格的聚类:通过在特征空间中定义一个网格,然后统计每个网格单元内的数据点数量来进行聚类。
这种方法适用于数据分布较为均匀的情况。
5、基于模型的聚类:如高斯混合模型(GMM),它假设数据是由多个高斯分布混合而成的。
通过最大化数据点属于各个高斯分布的概率来估计模型参数,进而实现聚类。
6、谱聚类:利用图论中的概念,将数据点视为图中的顶点,通过构建一个拉普拉斯矩阵来反映顶点间的相似度,从而实现聚类。
7、均值漂移聚类:与K均值类似,但不需要预先指定簇的数量。
它通过迭代地寻找数据点的密度峰值来确定簇中心,适用于发现数据中的自然结构。
各种聚类算法的比较聚类算法是一种无监督学习的方法,用于将相似的数据点归为一类。
它在数据挖掘、图像分析、自然语言处理等领域中被广泛应用。
目前常见的聚类算法包括K-means、层次聚类、DBSCAN、密度聚类以及谱聚类等。
首先,K-means是一种非常经典的聚类算法,其思想是将数据集分为K个簇,使得同一簇内的数据点之间的距离最小。
K-means算法的优点包括:简单易于实现、计算效率高等。
但该算法的不足之处在于需要提前设定簇的数量K,并且对初始质心的选择比较敏感,对密集度不一致的簇效果不佳。
层次聚类是一种自底向上的聚类方法,它通过计算数据点间的相似度或距离,逐渐合并最相似的簇,直到最终得到一颗完整的层次聚类树。
层次聚类的优点是可以根据需要选择最佳的聚类数目,并且不需要提前设定簇的数量。
然而,该算法的计算复杂度较高,对大规模数据的处理效率相对较低。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它通过寻找数据点的密度高的区域来划分聚类。
它的优点是可以有效地处理任意形状的聚类,同时可以识别出离群点。
然而,该算法对初始参数的选择比较敏感,对高维数据和不同密度的数据集效果不佳。
密度聚类算法是DBSCAN的一种改进算法,如OPTICS(Ordering Points To Identify the Clustering Structure)和DENCLUE (DENsity-based CLUstEring)。
这些算法通过在密度空间上寻找高密度的区域来划分聚类,可以更好地处理数据集中的噪声和离群点。
但是,它们仍然对参数的选择敏感,并且在处理高维数据时效果有限。
谱聚类是一种基于图论的聚类算法,它将数据点之间的相似度转化为图的边权重,然后通过图的拉普拉斯矩阵对图进行划分。
谱聚类的优点是可以处理任意形状的聚类,并且对数据集的分布没有假设。
列举常用聚类算法聚类算法是一种将数据集中的相似数据分组的方法。
它是无监督学习的一种应用,可以在没有标签或类别信息的情况下对数据进行分类。
在机器学习和数据挖掘中,聚类算法被广泛应用于数据分析、图像处理、模式识别等领域。
本文将列举常用的聚类算法。
一、K均值聚类算法(K-means Clustering)K均值聚类算法是一种基于距离度量的聚类方法,它将数据集划分为K 个簇,每个簇包含距离其它簇最近的点。
该算法首先随机选择K个点作为初始质心,然后将每个点分配到与其距离最近的质心所在的簇中,并计算每个簇内所有点的平均值作为新的质心。
重复以上过程直到质心不再改变或达到预定迭代次数。
二、层次聚类算法(Hierarchical Clustering)层次聚类算法是一种自下而上或自上而下逐步合并或拆分簇来建立层次结构的方法。
该算法有两种实现方式:凝聚层次聚类和分裂层次聚类。
凝聚层次聚类从每个数据点开始,将它们逐步合并成越来越大的簇,直到所有点都被合并为一个簇。
分裂层次聚类从整个数据集开始,将其逐步拆分成越来越小的簇,直到每个簇只包含一个点。
三、DBSCAN聚类算法(Density-Based Spatial Clustering of Applications with Noise)DBSCAN聚类算法是一种基于密度的聚类方法,它可以识别任意形状的簇,并能够自动排除离群值。
该算法首先选择一个未访问的核心点作为起始点,并找到其可达范围内的所有点,并将它们加入同一簇中。
然后继续寻找未访问的核心点,并重复以上过程直到所有核心点都被访问完毕。
四、谱聚类算法(Spectral Clustering)谱聚类算法是一种基于图论和线性代数的聚类方法,它将数据集看作是一个图,在图上进行划分。
该算法首先构建一个相似度矩阵或邻接矩阵,并通过特征值分解或奇异值分解来获取特征向量和特征值。
然后将特征向量作为新的数据集,使用K均值或层次聚类等方法对其进行聚类。
最新各种聚类算法介绍及对比聚类是一种常用的机器学习算法,它将数据集中的样本分成若干个“类别”或“簇”,使得同一类别内的样本相似度高,而不同类别之间的相似度较低。
聚类算法有很多种,每种算法都有其特点和适用条件。
下面将对几种常见的聚类算法进行介绍和对比。
1.K均值聚类算法K均值聚类是一种迭代算法,它将数据集中的样本划分为K个簇,使得同一簇内样本之间的距离最小。
它首先随机选择K个样本作为簇的中心,然后将每个样本分配到与其距离最近的簇中,再更新各个簇的中心点,重复这一过程直到簇的中心点不再发生变化。
该算法的优点是简单易用,计算效率高,但需要预先设定簇的数量K。
2.层次聚类算法层次聚类是一种自底向上或自顶向下的聚类算法,它通过计算样本之间的相似度来构建一个样本之间的树形结构。
自底向上的层次聚类称为凝聚式层次聚类,它从每个样本作为一个簇开始,不断合并相似度最高的簇,直到达到指定的簇的数目。
自顶向下的层次聚类称为分裂式层次聚类,它从所有样本作为一个簇开始,将簇分割成较小的子簇,不断递归地进行下去。
该算法的优点是不需要预先指定簇的数量,但计算复杂度较高。
3.密度聚类算法密度聚类是一种基于样本之间的密度区域来划分簇的算法,它将样本划分为高密度的核心对象、低密度的边界对象和噪声对象。
其中最著名的密度聚类算法是DBSCAN(Density-Based Spatial Clustering ofApplications with Noise),它以每个样本周围的密度可达距离作为核心对象的判定条件,通过不断扩展核心对象的邻域来确定簇的边界。
4.谱聚类算法谱聚类是一种基于图论的聚类算法,它首先构建数据样本之间的相似度矩阵,然后将其转化为拉普拉斯矩阵,再通过对拉普拉斯矩阵进行特征分解来得到特征向量,最后将特征向量聚类为指定数量的簇。
谱聚类不仅可以处理线性可分的数据,还可以处理非线性可分的数据,且对噪音和异常值具有较好的鲁棒性。
各种聚类算法介绍及对比聚类算法是一种无监督学习的方法,目标是将数据集中的样本分成不同的组或簇,使得同一个簇内的样本相似度高,而不同簇之间的相似度低。
聚类算法主要有层次聚类、K-means、DBSCAN、谱聚类和密度聚类等。
下面将介绍这些聚类算法,并进行一些对比分析。
1. 层次聚类(Hierarchical Clustering)层次聚类算法可分为自上而下的凝聚聚类和自下而上的分裂聚类。
凝聚聚类从所有样本开始,逐步合并相似的样本,形成一个层次树状结构。
分裂聚类从一个单独的样本开始,逐步分裂为更小的簇,形成一个层次树状结构。
层次聚类的优点是可以根据需要选择得到任意数量的簇,但计算复杂度较高。
2. K-meansK-means是一种划分聚类算法,其步骤为:首先随机选择K个簇中心点,然后根据样本与簇中心的距离将样本划分至最近的簇,接着根据划分结果重新计算簇中心,重复上述过程直到算法收敛。
K-means算法简单高效,但对于非球形簇的数据集表现一般。
3. DBSCAN(Density-Based Spatial Clustering of Applications with Noise)DBSCAN是一种基于密度的聚类算法,不需要预先指定簇的数量。
DBSCAN将样本分为核心对象、边界对象和噪声对象,根据样本之间的密度和可达性关系进行聚类。
核心对象周围一定距离内的样本将被划分为同一个簇。
DBSCAN适用于有噪声数据和不规则形状簇的聚类,但对密度差异较大的数据集效果可能较差。
4. 谱聚类(Spectral Clustering)谱聚类算法先通过样本之间的相似度构建相似度矩阵,然后选取相似度矩阵的前k个最大特征值对应的特征向量作为样本的新表示。
接着将新表示的样本集采用K-means等方法进行聚类。
谱聚类算法在处理复杂几何结构、高维数据和大规模数据时表现出色,但需要选择合适的相似度计算方法和簇的数量。
5. 密度聚类(Density-Based Clustering)密度聚类算法通过估计样本的局部密度来发现簇。
数据分析中的聚类算法比较研究引言聚类算法是数据分析中一种重要的方法,它可以将具有相似特征的对象归成一类。
在数据挖掘、模式识别和机器学习等领域,聚类算法被广泛应用于数据分析、分组和预测等任务。
本文将对几种常见的聚类算法进行比较研究,包括K-means、层次聚类、DBSCAN和谱聚类。
一、K-means算法K-means是一种经典的聚类算法,其核心思想是将数据集划分为K个簇,使得每个样本与所属簇中心的距离最小。
算法流程包括初始化聚类中心、样本分配、聚类中心更新和迭代收敛。
K-means算法简单且易于理解,但对噪声和离群点敏感,并且需要提供簇的数量K。
二、层次聚类算法层次聚类是一种基于距离的聚类方法,它通过计算样本间的相似度或距离构建一个层次结构。
层次聚类可以分为凝聚聚类和分裂聚类两种类型。
凝聚聚类从每个样本作为一个初始簇开始,逐步合并最相似的簇,直到得到预定的簇数量。
分裂聚类从所有样本作为一个簇开始,逐步分裂最不相似的簇,直到达到预定的簇数量。
层次聚类算法的优点是不需要事先确定聚类的数量,但其计算复杂度较高且对噪声和离群点敏感。
三、DBSCAN算法DBSCAN全称为密度聚类算法,其核心思想是根据样本的密度来划分簇。
DBSCAN通过设置最小样本数和邻域半径来定义核心样本、密度可达和密度相连样本,并通过连通性生成聚类。
DBSCAN算法能够有效地处理噪声和离群点,且对聚类的形状没有假设,具有较好的鲁棒性。
然而,DBSCAN算法对参数的选择较为敏感,需要事先确定邻域半径和最小样本数。
四、谱聚类算法谱聚类是一种基于图论的聚类方法,将数据集转换为一个图结构,并通过图的特征值分解和特征向量选择来进行聚类。
谱聚类在聚类形状、尺度和噪声方面具有较好的鲁棒性,且对参数选择的敏感度较低。
然而,谱聚类算法的计算复杂度较高,需要进行特征值分解和特征向量选择。
比较与总结从以上对K-means、层次聚类、DBSCAN和谱聚类等四种聚类算法的介绍可以看出,每种算法都有其特点和适用场景。
一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchical methods)先计算样本之间的距离。
每次将距离最近的点合并到同一个类。
然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。
不停的合并,直到合成了一个类。
其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。
比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。
层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。
自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。
自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”。
这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快。
至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中)。
为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。
2)Hierarchical methods中比较新的算法有BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用,而且数据类型是numerical。
首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化;ROCK(A Hierarchical Clustering Algorithm for Categorical Attributes)主要用在categorical的数据类型上;Chameleon(A Hierarchical Clustering Algorithm Using Dynamic Modeling)里用到的linkage是kNN(k-nearest-neighbor)算法,并以此构建一个graph,Chameleon的聚类效果被认为非常强大,比BIRCH好用,但运算复杂度很高,O(n^2)。
2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。
绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。
这里给出采用最小距离的凝聚层次聚类算法流程:(1) 将每个对象看作一类,计算两两之间的最小距离;(2) 将距离最小的两个类合并成一个新类;(3) 重新计算新类与所有类之间的距离;(4) 重复(2)、(3),直到所有类最后合并成一类。
聚类的效果如下图,黑色是噪音点:另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数,没有局部极小问题或是很难选择初始点的问题。
合并的操作往往是最终的,一旦合并两个簇之后就不会撤销。
当然其计算存储的代价是昂贵的。
3、层次聚类的优缺点优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法很可能聚类成链状r语言中使用hclust(d, method = "complete", members=NULL):进行层次聚类。
d为距离矩阵;method表示类的合并方法,single最短距离法,complete最长距离法,median中间距离法,mcquitty 相似法,average 类平均法,centroid重心法,ward离差平方和法;members为NULL或d长度的矢量。
二、划分聚类法k-means基于划分的方法(Partition-based methods):其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足够近,类间的点都足够远”。
首先你要确定这堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法(heuristic algorithms)给数据点做迭代重置(iterative relocation),直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果。
Partition-based methods聚类多适用于中等体量的数据集,但我们也不知道“中等”到底有多“中”,所以不妨理解成,数据集越大,越有可能陷入局部最小。
1、Kmeans算法的原理k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。
k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心,即选择K个初始质心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。
这个过程不断重复,直到准则函数收敛,直到质心不发生明显的变化。
通常,采用平方误差准则,误差的平方和SSE作为全局的目标函数,即最小化每个点到最近质心的欧几里得距离的平方和。
此时,簇的质心就是该簇内所有数据点的平均值。
选择K个点作为初始质心repeat将每个点指派到最近的质心,形成K个簇重新计算每个簇的质心until 簇不发生变化或达到最大迭代次数时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数K-Means 算法的详细过程从上图中,我们可以看到,A, B, C, D, E 是五个在图中点。
而灰色的点是我们的种子点,也就是我们用来找点群的点。
有两个种子点,所以K=2。
然后,K-Means的算法如下:①随机在图中取K(这里K=2)个种子点。
②然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。
(我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点)③接下来,我们要移动种子点到属于他的“点群”的中心。
(见图上的第三步)④然后重复第2)和第3)步,直到,种子点没有移动(我们可以看到图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E)。
聚类的效果如下图,折线是历次循环时3个簇的质心的更新轨迹,黑点是初始质心:我们查看基本K均值算法实现步骤及上面的聚类效果可以发现,该聚类算法将所有数据点都进行了指派,不识别噪音点。
另外选择适当的初试质心是基本K均值过程的关键。
2、k均值的优缺点及分类优点:1,简单,易于理解和实现;2,时间复杂度低缺点:1)kmeans要手工输入类数目,对初始值的设置很敏感;所以有了k-means++、intelligent k-means、genetic k-means;2)k-means对噪声和离群值非常敏感,所以有了k-medoids和k-medians;3)k-means只用于numerical类型数据,不适用于categorical类型数据,所以k-modes;4)k-means不能解决非凸(non-convex)数据,所以有了kernel k-means。
5)k-means主要发现圆形或者球形簇,不能识别非球形的簇。
3、k-means与DBSCAN的区别k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定。
k-means属于动态聚类,往往聚出来的类有点圆形或者椭圆形。
kmeans对于圆形区域聚类效果较好,dbscan基于密度,对于集中区域效果较好。
对于不规则形状,kmeans完全无法用,dbscan可以起到很好的效果。
4、k-means注意问题1)K如何确定kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。
这样做的前提是我们已经知道数据集中包含多少个簇,但很多情况下,我们并不知道数据的分布情况,实际上聚类就是我们发现数据分布的一种手段。
如何有效的确定K值,这里大致提供几种方法:①与层次聚类结合[2]经常会产生较好的聚类结果的一个有趣策略是,首先采用层次凝聚算法决定结果粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类。
②稳定性方法[3]稳定性方法对一个数据集进行2次重采样产生2个数据子集,再用相同的聚类算法对2个数据子集进行聚类,产生2个具有k个聚类的聚类结果,计算2个聚类结果的相似度的分布情况。
2个聚类结果具有高的相似度说明k个聚类反映了稳定的聚类结构,其相似度可以用来估计聚类个数。
采用次方法试探多个k,找到合适的k值。
③系统演化方法[3]系统演化方法将一个数据集视为伪热力学系统,当数据集被划分为K个聚类时称系统处于状态K。
系统由初始状态K=1出发,经过分裂过程和合并过程,系统将演化到它的稳定平衡状态Ki,所对应的聚类结构决定了最优类数Ki。
系统演化方法能提供关于所有聚类之间的相对边界距离或可分程度,适用于明显分离的聚类结构和轻微重叠的聚类结构。
④使用canopy算法进行初始划分[4]基于Canopy Method的聚类算法将聚类过程分为两个阶段Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy ,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看做数据预处理;Stage2、在各个Canopy 内使用传统的聚类方法(如K-means),不属于同一Canopy 的对象之间不进行相似性计算。
从这个方法起码可以看出两点好处:首先,Canopy 不要太大且Canopy 之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数;其次,类似于K-means这样的聚类方法是需要人为指出K的值的,通过Stage1得到的Canopy 个数完全可以作为这个K值,一定程度上减少了选择K的盲目性。
其他方法如贝叶斯信息准则方法(BIC)可参看文献[5]。
2)初始质心的选取选择适当的初始质心是基本kmeans算法的关键步骤。
常见的方法是随机的选取初始质心,但是这样簇的质量常常很差。
处理选取初始质心问题的一种常用技术是:多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE(误差的平方和)的簇集。