具有自适应参数的粗糙k-means聚类算法

格式：pdf
大小：554.46 KB
文档页数：4

下载文档原格式

/ 4

kmeans聚类算法原理与步骤

kmeans聚类算法原理与步骤K-means聚类算法原理与步骤K-means聚类算法是一种常用的无监督学习算法，用于将数据集划分成不同的类别。

该算法的原理和步骤如下：一、算法原理1. 初始化：选择K个初始的聚类中心点，可以是随机选择或者根据领域知识进行选择。

2. 数据分配：根据欧氏距离等度量方式，将每个样本点分配到与其最近的聚类中心点所代表的类别。

3. 聚类中心更新：根据当前分配的聚类结果，重新计算每个类别的聚类中心点。

4. 重复步骤2和步骤3，直到聚类中心点不再发生变化或达到预设的迭代次数。

5. 输出最终的聚类结果。

二、算法步骤1. 选择聚类的数量K：根据问题的具体要求和领域知识，确定聚类的数量K。

2. 初始化聚类中心点：从数据集中随机选择K个样本点作为初始的聚类中心点。

3. 计算样本点到聚类中心点的距离：对于每个样本点，计算其与各个聚类中心点之间的距离，常用的距离度量方式是欧氏距离。

4. 将样本点分配到最近的聚类中心点所代表的类别：将每个样本点分配到与其最近的聚类中心点所代表的类别，形成初始的聚类结果。

5. 更新聚类中心点：根据当前的聚类结果，重新计算每个类别的聚类中心点，通常是计算类别内样本点的均值。

6. 重复步骤3和步骤5，直到聚类中心点不再发生变化或达到预设的迭代次数。

如果聚类中心点不再发生变化，则算法收敛；如果达到预设的迭代次数，但聚类中心点仍在发生变化，则可以考虑增加迭代次数或调整聚类的数量K。

7. 输出聚类结果：将最终的聚类结果输出，每个样本点属于某个类别。

三、算法优缺点1. 优点：- K-means算法简单易实现，计算效率高。

- 对大规模数据集有较好的可扩展性。

- 聚类结果具有较好的可解释性。

2. 缺点：- 对初始聚类中心点的选择敏感，可能会得到不同的聚类结果。

- 对噪声和异常点较为敏感，可能会影响聚类结果的准确性。

- 需要提前确定聚类的数量K，如果选择不当可能会影响聚类结果。

kmeans色彩聚类算法

kmeans色彩聚类算法
K均值（K-means）色彩聚类算法是一种常见的无监督学习算法，用于将图像中的像素分组成具有相似颜色的集群。

该算法基于最小
化集群内部方差的原则，通过迭代寻找最优的集群中心来实现聚类。

首先，算法随机初始化K个集群中心（K为预先设定的参数），然后将每个像素分配到最接近的集群中心。

接下来，更新集群中心
为集群内所有像素的平均值，然后重新分配像素直到达到收敛条件。

最终，得到K个集群，每个集群代表一种颜色，图像中的像素根据
它们与集群中心的距离被归类到不同的集群中。

K均值色彩聚类算法的优点是简单且易于实现，对于大型数据
集也具有较高的效率。

然而，该算法也存在一些缺点，例如对初始
集群中心的选择敏感，可能收敛于局部最优解，对噪声和异常值敏
感等。

在实际应用中，K均值色彩聚类算法常被用于图像压缩、图像
分割以及图像检索等领域。

同时，为了提高算法的鲁棒性和效果，
通常会结合其他技术和方法，如颜色直方图、特征提取等。

此外，
还有一些改进的K均值算法，如加权K均值、谱聚类等，用于解决
K均值算法的局限性。

总之，K均值色彩聚类算法是一种常用的图像处理算法，通过对图像像素进行聚类，实现了图像的颜色分组和压缩，具有广泛的应用前景和研究价值。

kmeans的聚类算法

kmeans的聚类算法K-means是一种常见的聚类算法，它可以将数据集划分为K个簇，每个簇包含相似的数据点。

在本文中，我们将详细介绍K-means算法的原理、步骤和应用。

一、K-means算法原理K-means算法基于以下两个假设：1. 每个簇的中心是该簇内所有点的平均值。

2. 每个点都属于距离其最近的中心所在的簇。

基于这两个假设，K-means算法通过迭代寻找最佳中心来实现聚类。

具体来说，该算法包括以下步骤：二、K-means算法步骤1. 随机选择k个数据点作为初始质心。

2. 将每个数据点分配到距离其最近的质心所在的簇。

3. 计算每个簇内所有数据点的平均值，并将其作为新质心。

4. 重复步骤2和3直到质心不再变化或达到预定迭代次数。

三、K-means算法应用1. 数据挖掘：将大量数据分成几组可以帮助我们发现其中隐含的规律2. 图像分割：将图像分成几个部分，每个部分可以看做是一个簇，从而实现图像的分割。

3. 生物学：通过对生物数据进行聚类可以帮助我们理解生物之间的相似性和差异性。

四、K-means算法优缺点1. 优点：（1）简单易懂，易于实现。

（2）计算效率高，适用于大规模数据集。

（3）结果可解释性强。

2. 缺点：（1）需要预先设定簇数K。

（2）对初始质心的选择敏感，可能会陷入局部最优解。

（3）无法处理非球形簇和噪声数据。

五、K-means算法改进1. K-means++：改进了初始质心的选择方法，能够更好地避免陷入局部最优解。

2. Mini-batch K-means：通过随机抽样来加快计算速度，在保证精度的同时降低了计算复杂度。

K-means算法是一种常见的聚类算法，它通过迭代寻找最佳中心来实现聚类。

该算法应用广泛，但也存在一些缺点。

针对这些缺点，我们可以采用改进方法来提高其效果。

含自适应权重的聚类算法研究

含自适应权重的聚类算法研究聚类算法是一种无监督学习的机器学习方法，它将相似的数据点划分为一组，并将不相似的数据点分为其他组。

聚类算法被广泛应用于各种领域中，比如图像分割、生物信息学、信用评估等。

在聚类算法中，自适应权重被广泛应用，能够提高聚类的准确性和稳定性。

自适应权重是指一个算法在执行过程中会根据数据集的分布来自动调整权重，又称为动态权重。

传统的聚类算法通常假设所有的样本数据点权重是平等的，而自适应权重则允许一些更具代表性的样本数据点拥有更高的权重，从而影响聚类结果。

常用的聚类算法有k-means算法、层次聚类算法等，但这些算法在处理噪声点和不平衡数据集时表现并不理想。

因此，近年来许多研究者提出了一些新的基于自适应权重的聚类算法，如带权重k-means算法、Fuzzy c-means算法、自适应距离权重聚类算法等。

其中，自适应距离权重聚类算法（摘自《基于序列相似度的自适应距离权重聚类算法研究》）是一种新型的聚类算法，它结合了自适应权重和距离权重的思想。

该算法将数据点之间的距离计算与相似性度量分开，并根据数据点之间的相似性计算调整距离的权重，从而使具有更高相似性的数据点之间的距离更小。

该算法在处理与序列相关的问题时表现较优。

除了以上提到的聚类算法，还有一些基于进化算法的自适应权重聚类算法，如遗传算法聚类算法、蚁群算法聚类算法等。

这些算法通常以种群的形式聚类数据集，并通过进化运算来优化聚类结果。

总的来说，自适应权重的聚类算法在处理噪声点和不平衡数据集方面表现较好，并能够提高数据聚类的准确性和稳定性。

然而，这些算法仍存在一些需要改进的方面，如处理高维度数据的问题、处理数据集中特定数据分布的问题等。

未来的研究方向应该是解决这些问题，完善自适应权重聚类算法的理论和应用。

k-means聚类方法

k-means聚类方法1. K-means聚类方法的基本原理K-means聚类方法是一种基于划分的聚类算法，它将数据集划分为K 个簇，每个簇由与其中心距离最近的点组成。

K-means聚类方法的基本原理是：给定一组数据，将它们划分为K个簇，使得每个簇的内部距离最小，而簇之间的距离最大。

K-means算法通过迭代的方式，不断地调整簇的中心，以最小化每个簇内部的距离，从而实现最优的划分。

2. K-means聚类方法的优缺点K-means聚类方法具有计算简单、收敛快等优点，它可以将数据集划分为多个簇，每个簇内的数据点彼此具有较高的相似度，而簇与簇之间的数据点具有较低的相似度，从而有效地实现了数据分类。

但K-means聚类方法也有一些缺点，首先，K-means聚类方法的结果受初始值的影响较大，如果初始值不合理，可能导致聚类结果不理想；其次，K-means聚类方法只适用于线性可分的数据，如果数据不具有线性可分的特征，K-means聚类方法可能不能得到理想的结果；最后，K-means聚类方法没有考虑数据点之间的距离，因此可能会出现噪声数据点的情况，从而影响聚类结果。

3. K-means聚类方法的应用K-means聚类方法可以用于多种应用，如机器学习、数据挖掘、模式识别、图像处理等。

其中，最常见的应用是基于K-means聚类方法的聚类分析，用于将数据分成不同的组，以便更好地理解和分析数据。

此外，K-means聚类方法也可以用于多维数据可视化，以及探索数据中隐藏的模式和趋势。

K-means聚类方法还可以用于客户分类，以及市场细分，以更好地了解客户行为和需求。

此外，K-means聚类方法还可以用于语音识别，文本分类，图像分类等。

4. K-means聚类方法的参数调整K-means聚类方法的参数调整主要有两个：K值和距离度量标准。

K 值决定聚类的数量，距离度量标准决定两个点之间的距离。

参数调整的目的是为了让聚类结果尽可能满足用户的要求。

kmeans 聚类算法

kmeans 聚类算法Kmeans聚类算法Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法最初由J. MacQueen于1967年提出，而后由S. Lloyd和L. Forgy独立提出。

目前，Kmeans算法已经成为了机器学习领域中最常用的聚类算法之一。

Kmeans算法的基本思想是将数据集划分为k个不同的簇，每个簇具有相似的特征。

簇的数量k是由用户指定的，算法会根据数据集的特征自动将数据集分成k个簇。

Kmeans算法通过迭代的方式来更新每个簇的中心点，以此来不断优化簇的划分。

Kmeans算法的步骤Kmeans算法的步骤可以概括为以下几个步骤：1. 随机选择k个点作为中心点；2. 将每个数据点与离它最近的中心点关联，形成k个簇；3. 对于每个簇，重新计算中心点；4. 重复2-3步骤，直到簇不再变化或达到最大迭代次数。

Kmeans算法的优缺点Kmeans算法的优点包括：1. 算法简单易实现；2. 能够处理大规模数据集；3. 可以处理多维数据。

Kmeans算法的缺点包括：1. 需要用户指定簇的数量；2. 对于不规则形状的簇，效果不佳；3. 对于包含噪声的数据集，效果不佳。

Kmeans算法的应用Kmeans算法在机器学习和数据挖掘中有着广泛的应用。

以下是Kmeans算法的一些应用：1. 图像分割：将图像分为多个不同的区域；2. 文本聚类：将文本数据划分为多个主题；3. 市场分析：将消费者分为不同的群体，以便进行更好的市场分析；4. 生物学研究：将生物数据分为不同的分类。

总结Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法的步骤包括随机选择中心点、形成簇、重新计算中心点等。

Kmeans算法的优缺点分别是算法简单易实现、需要用户指定簇的数量、对于不规则形状的簇效果不佳等。

Kmeans算法在图像分割、文本聚类、市场分析和生物学研究等领域有着广泛的应用。

具有自适应参数的粗糙k-means聚类算法

下，高算法的聚类精度。提
定义。聚类问题实质上是一个病态（ｌｏｅ）ｉ— ｓｄ问题，没有关ｌｐ在于潜在数据分布的先验知识的情况下，同的聚类方法得到不
ｉｇｌｏｔｍｗｉｄｐｉｅｐｒｍｅｅｓｓｒｓｎｅ．ｈｓｌｏｉｎａｇｒｈｉｈｔａａｔａａｔｒｉｖｐｅｅｄＴｉｔａｇｒｔａｐｉｚｃｕｔｒｇｅｕｔｏｏｇｋｍｅｎ，ｎｄ — ｍｈｃｎｏｔｍｉｅｌｓｅｎｒｓｌｆｒｕｈ－ａｓａｄｅｉ
１．宁夏医科大学理学院，银川７００５０４２陕西理工学院数学系，．陕西汉中７３０２００
１ＳｃｏｏｏｉｎｃＮｉ．ｈｌｆＳｃｅｅ，ｎｇｘａＭｅｉａＵｎｉｅｓｔＹｉｃｉｄｃｌｖｒｉｙ，ｎｈｕａｎ７００Ｃｈｉａ５０４，ｎ
ＡｂｓｒｔＲｏｕｃｕｓｅｉｉｏｏｖｌｄｃｌｔｒｎｇａｇｉｔｓｉｉｔｒｉａｅｃｕｓｅｉＴｈｒｕｇｔａｃ：ｇｈｌｔｒｎｇｓｎｅｆａｉｕｓｅｉｌｏｒｈｍｎｎｄｅｅｍｎｔｌｔｒｎｇ．ｏｈａｌｉｇｒｇｈｎａｙｚｎｏｕ
ｋｍｅｎｌｏｔｍ，ｓｓｏｔｏｎｂｕｈａａｔｒａｊｓｎｂｕ，Ｗｎｓｐｉｔｕ．ｏｇ－ａｓｃｕｔ－－ａｓａｒｈｉｈｒｍｉｇａｏｔｔｅｐｒｍｅｅｓｄｕｔｔａｏｔＷ，ｇｉｔｃｍｅｄＲｅ

K-Means聚类算法

K-Means聚类算法K-Means聚类算法是一种常用的无监督学习算法，在数据挖掘、图像处理、信号处理等领域有广泛的应用。

聚类算法是将相似的对象归为一类，不同的类之间尽可能的不相似。

K-Means聚类算法是一种基于距离测量的算法，它将数据点分为K个簇，每个簇的中心点与相应的数据点之间的距离最小。

1.初始化K个簇的中心点。

2.将每个数据点分配到离它最近的簇中。

3.计算每个簇的新中心点。

4.重复步骤2和3，直到簇的中心点不再发生变化或达到预定的循环次数。

在算法中，K是指聚类的簇数，每个簇的中心点是从数据点中随机选择的。

在第二个步骤中，每个数据点会被分配到离它最近的簇中，这一步是K-Means聚类算法最重要的一步。

在第三个步骤中，每个簇的新中心点是通过计算该簇中所有数据点的平均值得到的。

1.简单易懂：K-Means聚类算法实现简单，易于理解。

2.计算速度快：该算法的时间复杂度为O(K*n*I)，其中n是数据点的数量，I是迭代次数，因此算法速度较快。

3.可用于大规模数据：K-Means聚类算法可以处理大规模的数据集。

1.对初始值敏感：算法中随机选择簇的中心点，这会影响聚类结果。

如果初始值不理想，聚类结果可能会很糟糕。

2.需要指定簇数：需要事先指定簇的数量K，这对于有些问题来说可能是一个难点。

3.对数据分布的要求较高：K-Means聚类算法对数据分布的要求较高，如果数据分布不太符合预期，聚类结果可能会非常差。

在实际应用中，K-Means聚类算法可以用于数据挖掘、模式识别、图像分割等领域。

例如，在图像处理中，可以使用K-Means聚类算法将像素分为不同的颜色组。

在信号处理中，可以使用K-Means聚类算法将信号分为不同的频段组。

实际应用中，需要根据具体问题来选择聚类算法。

k-means聚类算法研究及应用

k-means聚类算法研究及应用
K-means聚类算法研究及应用
一、简介
K-means聚类算法是一种非监督学习算法，它是一种广泛应用在模式分类和无监督式学习的数据挖掘技术。

它使用了基于距离的聚类算法，以相似性作为衡量子簇类别的标准，任务是将样本(属性)空间中的数据分为K个不同的类，使聚类的误差平方和最小化：通常假设样本由簇中心所处的子空间所构建，每个子空间由一个簇中心控制，因此K-means算法常常被形象地称为“均值聚类”算法。

二、原理
K-means聚类算法是一种迭代算法，它的基本思想是：首先，随机选取若干个“簇中心”，然后将其他的数据点根据其与“簇中心”的距离，归到最近的“簇中心”所代表的簇中。

然后根据新聚集的簇，重新更新这些“簇中心”；如此不断迭代，最终计算得到一组稳定的“簇中心”，这组“簇中心”所代表的簇就是最后的结果了。

三、应用
1、生物信息学：K-means聚类算法用于基因芯片和定量PCR，以及蛋白质表达数据。

2、计算机视觉：K-means用于图像分割,聚类，像素重新分配等。

3、自然语言处理：K-means用于文本聚类，文档分类，文本挖掘等方面。

4、机器学习：K-means用于各种拟合问题，比如参数估计，探索异常
值等等。

四、总结
K-means聚类算法是一种简单高效的聚类算法，它可以有效地将数据空间分割成几个簇，属于非监督学习算法，它的核心在于划分数据空间，对数据的模式分类和无监督式学习有较好的应用，如生物信息学、计
算机视觉、自然语言处理、机器学习等领域。

基于MapReduce自适应参数的粗糙K-modes算法

，，，ＡｂｓｔｒａｃｔＩｎｔｈｅｔｒａｄｉｔｉｏｎａｌｒｏｕｈＫ－ｍｏｄｅｓａｌｏｒｉｔｈｍ，ｔｈｒｅｅｉｍｏｒｔａｎｔｗｗｎｄａｒｅｓｅｔｆｉｘｅｄｌｍａｋｉｎａｒａｍｅｔｅｒｓ ε ｇｇｐｙｇｐｌ，ｋａｔｈｅｃｌｕｓｔｅｒｉｎｒｅｓｕｌｔｕｎｓｔａｂｌｅａｎｄｉｎｔｅｒｆｅｒｅｄｅａｓｉｌｂｎｏｉｓｅ．ＷｅｒｏｏｓｅｄａｒｏｕｈＫ－ｍｏｄｅｓａｌｏｒｉｔｈｍｂａｓｅｄｏｎＭａＲｅ－ｇｙｙｐｐｇｇｐ，，ｄｕｃｅａｄａｔｉｖｅｗｈｉｃｈａｄｕｓｔｓｄｅｅｎｄｉｎｏｎｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｄｉｆｆｅｒｅｎｔｃｌｕｓｔｅｒｉｎｓｔａｅｓｏｔｉａｒａｍｅｔｅｒｓａｒａｍｅｔｅｒｓ－ｐｊｐｇｇｇｐｐｐ，ａｒａｍｅｔｅｒｓｍｉｚｉｎｔｈｅｃｌｕｓｔｅｒｉｎｒｅｓｕｌｔ．ＩｎａｄｄｉｔｉｏｎｗｅｄｅｓｉｎｅｄｔｈｅｒｏｕｈＫ－ｍｏｄｅｓａｌｏｒｉｔｈｍｗｉｔｈａｄａｔｉｖｅｔｈａｔｃａｎｂｅｐｇｇｇｇｇｐ，ｉｎＭａＲｅｄｕｃｅｔｏｉｍｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｏｆｔｈｅａｌｏｒｉｔｈｍａｎｄｅｒｆｏｒｍａｎｃｅｏｆｃｌｕｓｔｅｒｉｎｌａｒｅｓｃａｌｅｄａｔａ．Ｆｉｎａｌｌｕｓｅｄ－ｐｐｙｇｐｇｇｙｔｈｉｓａｌｏｒｉｔｈｍ’ ｓｖａｌｉｄｉｔｉｓｂｅｘｅｒｉｍｅｎｔｓ．ｒｏｖｅｄｇｙｙｐｐ，，ａｒａｍｅｔｅｒｓＫｅｗｏｒｄｓｏｕｈＫ－ｍｏｄｅｓＡｄａｔｉｖｅＭａＲｅｄｕｃｅｖａｌｉｄｉｔＲｐｇｐｐｙｙ学者针对Ｋ－ｍｏｄｅｓ算法的不足进行了优化和改进。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Mean
C
Lower Mean
Upper Approximation Lower Approximation
距离关系如图 1 所示。
Xn
图 2 聚类中心的计算
C1
C2
C3
图1
一个例子
d ( X n C 2)=1.5， d ( X n C3)=1.65， ε = 0.2, （1）如果d ( X n C1)=2， d
基础上提出了粗糙核聚类算法，郑超[7]在类的均值计算过程中对每个对象赋以不同的权重的基础上提出了一种改进的粗糙 k- 均值算法，邵锐等 [8] 提出了一种基于粗糙集的 k-means 聚类算法，并应用到图像分割中。结合粗糙聚类提出了一种新的聚类算法——自适应粗糙 k-means 聚类算法，该算法能都进一步地降低 k-means 算法对噪声和孤立点的敏感程度，同等条件下，提高算法的聚类精度。
w u and ε is pointed out.Rough k-means clusterk-means algorithm， its shortcoming about the parameters adjustment about wl ，
ing algorithm with adaptive parameters is presented.This algorithm can optimize clustering result of rough k-means， and decrease sensitivity about noise.Finally， this algorithm’ s validity is proved by experiments. Key words：rough set； k-means clustering algorithm； adaptive 摘
离 C2 比较近，距离其他的类都比较远，它的隶属关系比较明 X n Î C 2。 X n Î C 2，确，所以它属于 C2 的下近似，即：根据性质 3，对于远离中心的样本点，即离群点，按照上、下近似中样本的划分方法，被划分到某类的上、下近似中，由于算法中聚类中心的调整是由上、下近似中的样本点按照一定的比例组合产生新的聚类中心，其对聚类中心的调整的作用也是比较弱的。所以粗糙聚类算法对离群点敏感程度要比 k-means 低。
2
粗糙 k-means 算法
粗糙 k-means 聚类与 k-means 区别就在于计算样本归属关系的时候，不是简单地用属于和不属于来表示，也不是通过隶属度函数来表达这种不确定性，而是通过引入上、下近似的思想，把确定属于某一类的样本归属到其相应的下近似中，不确定属于该类的样本归属到其相应的上近似中，在聚类中心更新的时候，仍然借鉴了 k-means 中的计算归属该类的样本的算术平均的方法，不同之处在于它的算术平均是由两部分构成：下近似集合中样本的算术平均和上近似集合中样本的算术平均两部分构成，最后线性加权得到最后的结果。具体过程可以参看文献[5]，此处不再叙述，下面就粗糙 k-means 聚类中的粗糙 k-means 聚类算法的性质、粗糙划分等核心进行进一步的讨论。
和 C3 都比较近，该样本的隶属关系不明确，它也就不能属于其中任何一个类的下近似，只能属于两个类别的上近似，即： ˉ 3 X n Î C ˉ 2。 Xn Î C
ε = 0.2, （2）如果d ( X n C1)=2， d ( X n C 2)=1.5， d ( X n C3)=1.95， d nmin d ( X n m k ) ，其中 h=2， k=1， 2， 3。因为 2 = d ( X n m 2) = kmin = 1,2,3
的。Lingras 给出的几个粗糙 k-means 的性质[5]：性质 1 1 个样本只能是一个聚类中心的下近似。性质 2 如果 1 个样本是一个聚类中心的下近似，则也是这个类中心的上近似。性质 3 如果 1 个样本不属于任何聚类中心的下近似，那么该样本至少是两个聚类中心的上近似。 Lingras 指出性质 1~3 可能是不独立的或不完整的，但对理解粗糙 k-means 的理解是有意义的。严格来说， Lingras 的算法不是经典的粗糙集理论的一部分，而是属于粗糙集中上、下近似的一种解释。因此这个算法也可以说是上、下近似之间的区间聚类算法。利用这样的性质可以很容易在粗糙 k-means 算法中找到某一个簇的上近似和下近似。
3 自适应粗糙 k-means 算法 3.1 粗糙 k-means 算法进一步讨论
式（1）指出在粗糙 k-means 聚类中，聚类中心的调整依赖于下近似中的样本和边界域中的样本，即确定属于该类的样本和可能属于该类的样本算术平均的加权组合得到。在粗糙集中上、下近似是核心概念，式（1）还可以通过上、下近似来表达如下：
w u和ε设置要：粗糙聚类是不确定聚类算法中一种有效的聚类算法，这里通过分析粗糙 k-means 算法，指出了其中 3 个参数wl，
时存在的缺点，提出了一种自适应粗糙 k-means 聚类算法，该算法能进一步优化粗糙 k-means 的聚类效果，降低对 “噪声” 的敏感程度，最后通过实验验证了算法的有效性。关键词：粗糙集； k-means 聚类算法；自适应 DOI： 10.3778/j.issn.1002-8331.2010.26.003 文章编号： 1002-8331 （2010） 26-0007-04 文献标识码：Ａ中图分类号： TP301.6
Boundary Area Upper Mean wu
wl
| |
| |
| |
其中参数 wb 和wl 定义了边界域、下近似的重要程度。 C k 表示第 k 个聚类中的样本的数目，C kB = C k - C k 是边界域中的样本数目。如果边界域C kB为空，则等式的第二项就为空，所有
| | |
Computer Engineering and Applications 计算机工程与应用
2010， 46 （26）
7
具有自适应参数的粗糙 k-means 聚类算法
2 周涛 1， 2 ZHOU Tao1，
1.宁夏医科大学理学院，银川 750004 2.陕西理工学院数学系，陕西汉中 723000 1.School of Science， Ningxia Medical University， Yinchuan 750004， China 2.Department of Mathematics， Shaanxi University of Technology， Hanzhong， Shaanxi 723000， China E-mail： zhout123@ ZHOU Tao.Adaptive rough k-means clustering puter Engineering and Applications， 2010， 46 （26）： 7-10. Abstract： Rough clustering is one of valid clustering algorithms in indeterminate clustering.Through analyzing rough
m k = wl .
2.2
粗糙 k-means 聚类算法
粗糙 k-means 算法过程类似于 k-means 算法，最重要的是
聚类中心的更新，由于簇有上、下近似，在计算时增加了上、下近似的阈值，在判断数据归属于哪个簇时需要用到粗糙集的性质。这也是粗糙 k-means 算法最核心部分，具体计算如式（1）： Xn Xn ì + w B. å for C kB ¹ ϕ ïwl . å B B C X n Î |C k | C X n Î |C k | k k ï - mk = í （1） X n ïw . å otherwise ï l Xn Î |Ck | C k î -
min n 2
= d ( X n m 2) = kmin d ( X n m k ) ，其中 h=2， k=1， 2， 3。因为 = 1,2,3
d ( X n C3) - d ( X n C 2) = 0.15 ， d ( X n C1) - d ( X n C 2) = 0.5 ，所以在 T ={k:d ( X n m k )} - d ( X n m h) £ ε Ù h ¹ k }中， T¹ ϕ，这说明 X n离 C2
å n X Î |C | C
n k -
|- |
k
X
+ w u.
Xn - with wl + w u = 1 X n Î |C k | | C k |
å-
（2）
其中参数wl 和w u来说明上、下近似对聚类的重要程度。最后的聚类中心是通过上、下近似中样本算术平均的加权组合得到的。由于上近似由下近似和边界域两部分组成，上近似中仍然包含了不确定样本，所以式（1）和式（2）在这个意义上是等价的。式（2）的具体计算如图 2 所示。
|
| |
的样本都归属于下近似，那么粗糙 k-means 算法就转化为 k-means 算法，可见 k-means 算法是粗糙 k-means 算法的一种特殊情况。如何把样本分配到相应簇的上、下近似中是这里面的关键，为了能更好地说明粗糙划分，这里通过一个例子来说明：
X n是一个样本数据，例 1 设有 3 个聚类中心 C1， C2一就是发现大型数据中的积聚现象，并加以定量化描述[1]。聚类分析是按照某种相似性度量，把具有相似特征的样本归为一类，使得类内差异相似度较小，而类间差异较大。迄今为止，聚类还没有一个学术界公认的定义。聚类问题实质上是一个病态（ill-posed）问题，在没有关于潜在数据分布的先验知识的情况下，不同的聚类方法得到的结果都是合理的。聚类算法一般都需要采用相似性度量和聚类准则，而这当中潜含着对数据中包含的类结构的某种假设，当这些假设与样本数据不相符时，它可能产生错误或没有意义的结果，所以关于数据领域的先验知识对聚类而言是十分重要的，但是这种信息即使从领域专家那里也是很难获得的。这就导致每一种聚类算法都可能在某种特定的模式分布下比其他算法好。目前聚类算法有很多，如基于划分的算法、基于密度的算法、基于层次的算法，以及基于网格和子空间的算法等等[2-3]。不确定聚类是考虑了样本归属关系的不确定性而提出来的一类有效的聚类算法， Ruspini[4]最早提出了模糊划分的概念，并系统地表达和研究模糊聚类问题。Lingras P[5]把粗糙集引入到聚类问题中，提出了粗糙聚类算法，这两种方法是软划分聚类的典型代表。周涛[6]在粗糙 k-means 聚类算法的

具有自适应参数的粗糙k-means聚类算法

合集下载

kmeans聚类算法原理与步骤

kmeans色彩聚类算法

kmeans的聚类算法

含自适应权重的聚类算法研究

k-means聚类方法

kmeans 聚类算法

具有自适应参数的粗糙k-means聚类算法

K-Means聚类算法

k-means聚类算法研究及应用

基于MapReduce自适应参数的粗糙K-modes算法

文档推荐

最新文档