谱聚类中选取特征向量的动态选择性集成方法

格式：pdf
大小：927.65 KB
文档页数：12

下载文档原格式

SpectralClustering（谱聚类

SpectralClustering（谱聚类Spectral ClusteringSpectral Clustering（谱聚类）是一种基于图论的聚类方法，它能够识别任意形状的样本空间且收敛于全局最有解，其基本思想是利用样本数据的相似矩阵进行特征分解后得到的特征向量进行聚类，可见，它与样本feature无关而只与样本个数有关。

一、图的划分图划分的目的是将有权无向图划分为两个或以上子图，使得子图规模差不多而割边权重之和最小。

图的划分可以看做是有约束的最优化问题，它的目的是看怎么把每个点划分到某个子图中，比较不幸的是当你选择各种目标函数后发现该优化问题往往是NP-hard的。

怎么解决这个问题呢？松弛方法往往是一种利器（比如SVM中的松弛变量），对于图的划分可以认为能够将某个点的一部分划分在子图1中，另一部分划分在子图2中，而不是非此即彼，使用松弛方法的目的是将组合优化问题转化为数值优化问题，从而可以在多项式时间内解决之，最后在还原划分时可以通过阈值来还原，或者使用类似K-Means这样的方法，之后会有相关说明。

二、相关定义1、用表示无向图，其中和分别为其顶点集和边集；2、说某条边属于某个子图是指该边的两个顶点都包含在子图中；3、假设边的两个不同端点为和，则该边的权重用表示，对于无向无环图有且，为方便以下的“图”都指无向无环图；4、对于图的某种划分方案的定义为：所有两端点不在同一子图中的边的权重之和，它可以被看成该划分方案的损失函数，希望这种损失越小越好，本文以二分无向图为例，假设原无向图被划分为和，那么有：三、Laplacian矩阵假设无向图被划分为和两个子图，该图的顶点数为：，用表示维指示向量，表明该划分方案，每个分量定义如下：于是有：又因为：其中，为对角矩阵，对角线元素为：为权重矩阵：且。

重新定义一个对称矩阵，它便是Laplacian矩阵：矩阵元素为：进一步观察：如果所有权重值都为非负，那么就有，这说明Laplacian矩阵是半正定矩阵；而当无向图为连通图时有特征值0且对应特征向量为，这反映了，如果将无向图划分成两个子图，一个为其本身，另一个为空时，为0(当然，这种划分是没有意义的)。

matlab 谱聚类

谱聚类是一种基于图论的聚类算法，常用于数据聚类和图像分割等任务。

在Matlab中，可以使用一些函数和工具箱来实现谱聚类。

以下是一种使用Matlab进行谱聚类的常见方法：
1. 构建相似度矩阵：首先，需要计算数据点之间的相似度。

可以使用各种方法来计算相似度，如欧氏距离、高斯核函数等。

根据相似度计算方法，可以得到一个相似度矩阵。

2. 构建拉普拉斯矩阵：将相似度矩阵转换为拉普拉斯矩阵。

拉普拉斯矩阵反映了数据点之间的关系和连接强度。

3. 特征值分解：对拉普拉斯矩阵进行特征值分解，得到其特征值和特征向量。

4. 选择特征向量：根据特征值的大小，选择对应的特征向量。

通常选择特征值较小的几个特征向量。

5. 聚类：使用选定的特征向量作为新的数据表示，使用常规的聚类算法（如k-means）对这些新数据进行聚类。

在Matlab中，可以使用以下函数和工具箱来实现这些步骤：
1. `pdist`：计算数据点之间的距离或相似度。

2. `squareform`：将距离或相似度向量转换为矩阵形式。

3. `spectralcluster`：执行谱聚类。

这个函数可以直接对相似度矩阵进行谱聚类，而无需手动进行矩阵转换和特征值分解等步骤。

4. `kmeans`：执行k-means聚类。

可以使用该函数对选定的特征向量进行聚类。

使用这些函数和工具箱，你可以按照上述步骤来实现谱聚类算法。

具
体的实现方式可能因你的数据和需求而有所不同，你可以根据实际情况进行调整和扩展。

基于聚类的动态集成选择算法

基于聚类的动态集成选择算法李瑞【期刊名称】《计算机应用与软件》【年(卷),期】2014(031)008【摘要】近年来,由于机器学习能够很好地解决恶意软件检测问题,因而受到了广泛的关注.为了进一步提高恶意软件的检测性能,将机器学习中的动态集成选择应用到恶意软件检测中.为了满足检测性能和保证检测的实时性需求,在动态集成选择的基础上,提出一种基于聚类的动态集成选择算法CDES(Cluster based Dynamic Ensemble Selection strategy).该方法首先通过聚类得到多个聚类中心,然后为每一个聚类中心选择一组分类器组成集成分类器.当检测未知样本时,首先找到与该样本最近的聚类中心,那么用于分类该聚类中心的集成分类器就是当前测试样本的集成分类器.最终的检测结果也由这一组分类器通过投票得到.实验中,将所提算法与其他相关算法作比较,实验结果表明所提算法明显优于其他算法.同时,所提算法运行时间远远低于其他算法,可以满足系统的实时性要求.【总页数】7页(P317-323)【作者】李瑞【作者单位】陕西财经职业技术学院信息工程系陕西咸阳712000【正文语种】中文【中图分类】TP301.6【相关文献】1.动态环境下基于聚类的克隆选择算法 [J], 张伟伟;景红蕾2.基于类标签聚类的动态问题分类集成学习算法 [J], 田晶华;李翠平;陈红3.利用聚类改进动态克隆选择算法的自体纯净性问题 [J], 肖军弼;季翠翠4.基于边缘分类能力的动态集成选择算法 [J], 陈睿;黄海军;黄雯;胡劲松5.基于约束得分的动态集成选择算法 [J], CHEN Rui;HUANG Shu-guang;HUANG Wen;ZHANG Liang因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于抽样的谱聚类集成算法

一种基于抽样的谱聚类集成算法
孟娜;梁吉业;庞天杰
【期刊名称】《南京大学学报：自然科学版》
【年(卷),期】2016(52)6
【摘要】谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.
【总页数】7页(P1090-1096)
【关键词】抽样;谱聚类;聚类集成;相似性矩阵;有效性指标
【作者】孟娜;梁吉业;庞天杰
【作者单位】太原师范学院计算机科学与技术系;山西大学计算智能与中文信息处理教育部重点实验室
【正文语种】中文
【中图分类】TP181
【相关文献】
1.一种基于抽样的大规模混合数据聚类集成算法 [J], 庞天杰;梁吉业
2.一种基于抽样与约简的集成学习算法 [J], 江峰;张友强;杜军威;刘国柱;冯云霞
3.基于重采样策略的选择性谱聚类集成学习算法 [J], 柳炳祥;贾建华;汤可宗;徐星
4.基于加权集成Nyström采样的谱聚类算法 [J], 邱云飞;刘畅
5.基于混合型数据的自适应谱聚类集成算法 [J], 刘惠
因版权原因，仅展示原文概要，查看原文内容请购买。

谱聚类算法流程

谱聚类算法流程1. 引言在机器学习领域，谱聚类（Spectral Clustering）算法是一种非常重要的聚类算法。

谱聚类算法最初是由Ng等人提出的，它可以将数据集分解成若干个子集，使得每个子集内的元素相似度高、子集之间的元素相似度低。

谱聚类算法常常应用于图像分割、文本聚类、社交网络分析等领域。

本文将介绍谱聚类算法的流程，以便读者更好地理解和应用该算法。

2. 谱聚类算法概述谱聚类算法最初是一种基于图论的聚类算法，它将数据集看做一张图，数据点之间的相似度通过边权来确定，相似度高的点之间边权较大。

在图的表示中，每个点就是一个向量，我们可以将数据集表示为一个矩阵。

然后，谱聚类算法通过对矩阵进行特征值分解或奇异值分解，将数据集分解成若干个子集，使得每个子集内的元素相似度高、子集之间的元素相似度低。

谱聚类的过程主要分为以下几个步骤：（1）构建相似矩阵谱聚类算法的第一步是构建数据集的相似矩阵。

相似矩阵可以看做是一个对称的、非负的、具有对角元素的矩阵，其中的元素通常表示两个样本之间的相似度，相似度越高的两个样本之间的元素值也越大。

构建相似矩阵的方法有很多种，比如：（a）$\epsilon$-邻域法：先确定一个半径$\epsilon$，然后对于每个数据点$x_i$，找出所有在以$x_i$为圆心，半径为$\epsilon$的圆内的数据点。

然后，通过这些点之间的距离计算相似度。

（b）k-近邻法：对于每个数据点$x_i$，找出与其最近的$k$个点，然后计算这$k$个点之间的相似度。

相似度可以使用高斯核函数来计算。

（c）全连接法：直接计算所有数据点之间的相似度，并构建相似矩阵。

（2）构建拉普拉斯矩阵相似矩阵构建好后，我们需要通过相似矩阵构建拉普拉斯矩阵。

拉普拉斯矩阵是一个对称的、半正定的矩阵，通常用来描述一个图的性质。

拉普拉斯矩阵包括两个部分：度矩阵和邻接矩阵。

度矩阵$D$是一个对角矩阵，其中的元素$D_{ii}$表示第$i$个节点的度数，邻接矩阵$A$的元素$A_{ij}$表示节点$i$和节点$j$之间的边的权重。

谱聚类算法综述

谱聚类算法综述一、本文概述谱聚类算法是一种基于图理论的机器学习技术，它在数据分析和模式识别中发挥着重要作用。

本文旨在对谱聚类算法进行全面的综述，从理论基础、算法流程、应用领域以及最新进展等多个方面进行深入的探讨。

我们将简要介绍谱聚类算法的基本概念和原理，包括图论基础、拉普拉斯矩阵、特征值分解等关键知识点。

然后，我们将详细阐述谱聚类算法的基本流程和主要步骤，包括数据预处理、构建相似度矩阵、计算拉普拉斯矩阵、求解特征向量和聚类等。

接下来，我们将重点分析谱聚类算法在不同领域中的应用，如图像处理、社交网络分析、机器学习等，并探讨其在这些领域中取得的成果和优势。

我们还将对谱聚类算法的性能进行评估，包括其时间复杂度、空间复杂度以及聚类效果等方面。

我们将对谱聚类算法的最新研究进展进行综述，包括新的算法模型、优化方法以及应用领域的拓展等方面。

通过对这些最新进展的梳理和总结，我们可以更好地了解谱聚类算法的发展趋势和未来研究方向。

本文旨在对谱聚类算法进行全面的综述和分析，为读者提供一个清晰、系统的认识框架，同时也为该领域的研究者提供有价值的参考和启示。

二、谱聚类算法的基本原理谱聚类算法是一种基于图理论的聚类方法，它通过将数据点视为图中的节点，数据点之间的相似性视为节点之间的边的权重，从而构建出一个加权无向图。

谱聚类的基本原理在于利用图的拉普拉斯矩阵（Laplacian Matrix）的特征向量来进行聚类。

构建相似度矩阵：需要计算数据点之间的相似度，这通常通过核函数（如高斯核函数）来实现，从而构建出一个相似度矩阵。

构建图的拉普拉斯矩阵：根据相似度矩阵，可以构建出图的度矩阵和邻接矩阵，进而得到图的拉普拉斯矩阵。

拉普拉斯矩阵是相似度矩阵和度矩阵之差，它反映了数据点之间的局部结构信息。

求解拉普拉斯矩阵的特征向量：对拉普拉斯矩阵进行特征分解，得到其特征向量。

这些特征向量构成了一个新的低维空间，在这个空间中，相似的数据点更接近，不相似的数据点更远。

谱聚类算法实现

谱聚类算法实现谱聚类（Spectral Clustering）是一种基于图论的聚类算法。

它的主要思想是将数据集转化为一个邻接矩阵，并基于该矩阵进行谱分析，从而将数据划分成不同的聚类。

谱聚类算法的实现步骤如下：1. 构建相似度矩阵：对于给定的数据集，计算任意两个样本之间的相似度，并构建相似度矩阵。

相似度可以采用不同的度量方式，如欧氏距离、高斯核函数等。

2. 构建拉普拉斯矩阵：将相似度矩阵转化为拉普拉斯矩阵，常用的有标准化拉普拉斯矩阵和非标准化拉普拉斯矩阵。

3. 特征值分解：对拉普拉斯矩阵进行特征值分解，得到特征值和对应的特征向量。

4. 选择特征向量：根据特征值的大小选择前k个特征向量，其中k为聚类的个数。

5. 聚类：将选取的特征向量作为新的数据集，使用传统聚类算法（如k-means）对其进行聚类。

下面是一个简单的Python实现示例：```pythonimport numpy as npfrom sklearn.cluster import KMeansdef spectral_clustering(data, k):# 构建相似度矩阵similarity_matrix = compute_similarity_matrix(data)# 构建拉普拉斯矩阵laplacian_matrix = compute_laplacian_matrix(similarity_matrix)# 特征值分解eigenvalues, eigenvectors = np.linalg.eig(laplacian_matrix)# 选择特征向量indices = np.argsort(eigenvalues)[:k]selected_eigenvectors = eigenvectors[:, indices]# 聚类kmeans = KMeans(n_clusters=k)kmeans.fit(selected_eigenvectors)labels = bels_return labels# 计算相似度矩阵def compute_similarity_matrix(data):# 这里假设使用欧氏距离作为相似度度量方式similarity_matrix = np.zeros((len(data), len(data)))for i in range(len(data)):for j in range(i+1, len(data)):distance = np.sqrt(np.sum((data[i] - data[j]) ** 2))similarity = np.exp(-distance / 2)similarity_matrix[i, j] = similarity_matrix[j, i] = similarity return similarity_matrix# 构建拉普拉斯矩阵def compute_laplacian_matrix(similarity_matrix):degree_matrix = np.diag(np.sum(similarity_matrix, axis=1))laplacian_matrix = degree_matrix - similarity_matrixreturn laplacian_matrix```以上是谱聚类算法的一种简单实现方法，实际应用中还可以根据具体情况进行适当调整和改进。

谱聚类算法研究综述

Survey of Spectral Clustering Algorithms BAI Lu1，2，3, ZHAO Xin1，2，3, KONG Yuting1，2，3, ZHANG Zhenghang1，2，3, SHAO Jinxin1，2，3, QIAN Yurong1，2，3
1.College of Software, Xinjiang University, Urumqi 830046, China 2.Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830046, China 3.Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China
变化而改变，因此 σ 需要经过多次取值实验才能确定[23]。
度矩阵是记为 D 的对角矩阵，度值为对角元素。
计算方式如公式（2）所示：
∑ Dij = Wij j
（2）
规范相似矩阵一般形式定义为：
W nor
=
-
D
12WD-
1 2
Wnor(i,j) =
W (i,j) D(i.j) D(i,j)
（3）（4）
1 谱聚类算法概述
谱聚类算法的思想起源于谱图划分理论[18]，谱聚类通过样本相似度生成无向加权图，样本点可看作图的顶点，样本点间的相似度为两点间边的权重，而对无向加权图进行谱图划分就是将图划分为若干个子图，该过程与聚类算法的聚类过程对应。图论的最优划分准则[14] 与聚类最优准则在思想上具有一致性，为聚类问题转化为图划分问题提供思路与理论支撑。对于谱图划分而言，图划分准则的选取将直接影响划分结果，常用的图划分准则有规范割集、最小割集、平均割集、比例割集等准则[19]。与谱图划分相比，谱聚类算法考虑问题连续放松形式，将图分割问题转换为求相似矩阵的谱分解问题[20]。谱聚类算法依据划分准则的不同，总体分为迭代谱聚算法与多路谱聚类算法。目前多路谱聚类算法因其简单易于理解特性应用更为广泛，NJW 算法是经典多路谱聚类算法。多路谱聚算法实现细节略有差异，但核心思想基本一致，其主要思想如下：

选择性集成算法分类与比较

预测性能和选择速度方面均位居列。其他基于排名法的选择性集成算法还有Ｋａｐｐａ算法、基于ＢＯｏｓｔｉｎｇ的选择性集成法等。排名法的关键是采用何种标准对各基分类器进行评估，即所使用的排序标准。早期的算法大都是基于预测性能以及源于信息论的各种统计量，但是实验证明：个体基分类器预测性能好并不能保证集成分类器也具有较好的预测性能，因此目前许多基于排名的算法都是通过分析分类器之间的相关性，使得所选的基分类器具有互补性，从而避免它们的优势互相抵消。排名法的另一个重要问题是如何确定最终获得的目标集成分类器的大小。最简单的方法是预设目标集成分类器的大小或基分类器数目占总数的百分比；另一种方法是设定基于精度或其他度量的阈值，只有达到该阈值的基分类器才能入选。为
究重点。
Ａｂｓｔｒａｃｔ：Ｅｎｓｅｍｂｌｅｐｒｕｎｉｎｇｉｓ
ａｎ
ａｃｔｉｖｅｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎｉｎｔｈｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｉｅｌｄ．
ｕｓｅ
ＥｎｓｅｍｂｌｅＴｈｅｒｅ
ｏｎ
ｐｒｕｎｉｎｇｉｓａｎＮＰ—ｈａｒｄｐｒｏｂｌｅｍ，ｍｏｓｔｒｅｓｅａｒｃｈｅｒｓ
ｐｒｕｎｉｎｇａｐｐｒｏａｃｈｅｓ
ｂａｓｅｄ，ｉｔｉｓｄｉｆｆｉｃｕｌｔ
ｔｏ
ｕｎｄｅｒｓｔａｎｄｔｈｅｍｃｌｅａｒｌｙ．
ｔｏ
Ｉｎ
ｔｈｉｓ
ｐａｐｅｒ，
ቤተ መጻሕፍቲ ባይዱ
ｔｈｅｅｎｓｅｍｂｌｅｏｐｔｉｍｉｚａｔｉｏｎ—
ａｒｅ
ｄｉｖｉｄｅｄｉｎｔｏｆｏｕｒｃａｔｅｇｏｒｉｅｓａｃｃｏｒｄｉｎｇ
ｔｈｅｉｒｐｒｕｎｉｎｇｓｔｒａｔｅｇｉｅｓ：
赵强利，蒋艳凰，徐明

一种基于谱图理论的选择性文本聚类集成方法[发明专利]

专利名称：一种基于谱图理论的选择性文本聚类集成方法专利类型：发明专利
发明人：徐森,陈明权,徐秀芳,花小朋,皋军,安晶,王江峰,嵇宏伟,姜陈雨,陆湘文
申请号：CN202111619737.8
申请日：20211228
公开号：CN114328922A
公开日：
20220412
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于谱图理论的选择性文本聚类集成方法，将文本数据集采用K均值算法生成聚类成员；采用谱聚类算法从生成的聚类成员中选择出代表性成员；采用层次聚类方法对选择出的代表性成员进行集成；将集成后的代表性成员构成本文聚类结果。

解决了谱聚类方法直接应用于高维、稀疏、海量的文本数据集上时导致的计算量大的问题，因此，采用本方案显著降低文本聚类的计算时间，有效提高了文本聚类的准确性。

另外，本实施例使用K均值算法作为基聚类器随机选取初始质心，算法复杂度低，提升算法的鲁棒性。

申请人：盐城工学院,盐城工学院技术转移中心有限公司
地址：224000 江苏省盐城市盐南高新区新河街道办事处新怡社区新园路20号1幢401室
国籍：CN
代理机构：北京冠和权律师事务所
代理人：田春龙
更多信息请下载全文后查看。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

尺度因子和 Nyström 采样方法构造谱聚类成员, 并
454
模式识别与人工智能
27 卷
2
特征选取方法
特征选择 ( Feature Selection) 是数据挖掘和机
大的特征值对应的特征向量中选取特征向量. 前期实验结果证实前 2 k 个最大的特征向量是有效的 [18] .
文献[4] 对选择性集成学习算法进行较为全面
并提高分类精度. 根据衡量标准不同,将选择性集成分类器,选择结果一旦形成,就用来对所有测试数据此出现针对测试数据的动态分类器选择. 文献 [5] 在选择分类器时,使用测试样本在训练样本集合内择分类试样本所在区域内训练样本的分类情的基础上进行改进, 在评价分类器时对 k- 近邻内的各点按距离进行加权,也属于动态的分类器选择. 文献[7] 中通过计算互补指数, 对候选分类器进行排序,并依据分类器的可信度,使用动态选择与循环集成算法选出最优分类器子集. 文献[8] 对聚类问题进行选择性集成, 提出基况,因此是动态的分类器选择. 文献 [6] 在文献 [5] 分类器的选择性集成算法依据训练数据选择基 .
ABSTRACT
Since the corresponding eigenvectors of k maximum eigenvalues do not always achieve the optimal
clustering results, the clustering performance is improved by selective integrated approach for eigenvector groups involving the selection of base eigenvector group and selective integration strategy. Constraint score is used to evaluate eigenvectors by the pair-wise constraint information of training data, and some preferaneighbors from training dataset are used to dynamically evaluate eigenvector groups, and several accurate carried out on the corresponding eigenvectors of testing dataset. The clustering results are aligned and the final experimental results are obtained. The experimental results on UCI benchmark datasets show that the proposed algorithm improves the clustering performance of testing data. Key Words l-Nearest Neighbor
ble base eigenvector groups are obtained. For each testing data, the clustering accuracy of l-nearest eigenvector groups are selected to vote. To test the obtained eigenvector groups, spectral clustering is
Spectral Clustering, Selective Ensemble, Eigenvector Selection, Constraint Score,
*国家自然科学基金项目( No. 61170224) ㊁山东省自然科学基金项目( No. ZR2012FL07) ㊁烟台大学青年基金项目 ( No. JS11Z8) 资助收稿日期:2013-05-13;修回日期:2013-08-26 作者简介王兴良,男,1988 年生,硕士研究生,主要研究方向为数据挖掘. E-mail:wangxingliang0911@ 163. com. 王立宏 ( 通讯作者) ,女,1970 年生,博士,教授,主要研究方向为数据挖掘. E-mail:wanglh_000@ 163. com. 武栓虎, 男,1965 年生, 博士, 教授,主要研究方向为图像压缩㊁视频编码及其应用㊁人脸动画㊁基因信息处理等.
进行分类. 但这样的集成不一定对测试数据有效,因 k-近邻的分类精度来估计分类器的性能, 并择优选
对应的特征向量中选取满足某一阈值的特征向量, 择算法,使用少量具有真实标签的数据点,利用适应度函数评价特征向量组合, 采用免疫克隆选择算法选取最优特征向量组合, 组合中特征向量的个数并不固定. 向量组合,对各个特征向量进行 Bagging 投票, 组合出一组特征向量,组合中特征向量的个数固定为 k. 根据文献 [1] 对集成有效性分析, 适用于全体数据的一组特征向量不一定存在, 即使存在也不一定能根据提供的少量先验信息得出, 因此本文借助集成技术,将选出的多个特征向量组的结果进行集成,以提高聚类性能. 向量组的选择,在特征向量空间内用测试数据在训练数据中 l- 最近邻的聚类性能评价每个特征向量组,选出参加集成的若干组特征向量. 实验表明, 本文方法能选出较好的特征向量组, 且聚类集成效果较好. 本文将动态的选择性集成方法用于谱聚类特征文献[18] 根据成对约束信息选取较好的特征
5期
王兴良
等:谱聚类中选取特征向量的动态选择性集成方法
453
1 引言
依据多样性原则选择聚类成员,给出聚类结果. 周林将所有聚类成员的聚类结果进行集成, 没有对聚类成员进行挑选. 文献[12] 中采用 NMI 指标构造评估函数,将多样性和精度同时考虑在内,选取聚类成员用于谱聚类的集成. 谱聚类算法选取拉普拉斯矩阵的特征值最大的 k 个特征向量来表示原数据集的结构, 并用 k 个特征向量来聚类数据. 近来研究表明前 k 个特征向量并不能经常有效地发现数据的结构. 文献[13] 认为并不是每个特征向量对聚类都文献[14] 提出一种基于熵排序的特征向量选上述文献研究 [10 -12] 涉及谱聚类的选择性集成.
模式识别与人工智能 Vol. 27 No. 5 PR & AI May 2014 *
于 Bagging 的选择性聚类集成算法. 该算法对不同的 k-means 聚类结果进行配准, 以聚类标记向量间的互信息作为多样性评价指标, 对个体学习机进行选择. 理容易改变状态的实例点, 通过判别式选取个体学习机. Jia 等
[10]
文献[9] 引入当前集成决策的强度, 侧重于处将集成方法用于谱聚类, 利用不同的
等 [11] 采用与文献 [10] 类似的方式构造聚类成员,
立时能显著提高一个分类系统的泛化能力, 典型的算法有 Bagging 和 Adaboost 等. 由于初期的集成学间要求较高,且集成结果并不总是好于单个分类器, Ensemble) ” 的概念,并证明用少数基分类器的集成结果优于由全部基分类器的集成结果. 周志华等 [3] AdaBoost 等使用全部基分类器集成的结果. 以决策树为基分类器进行选择性集成, 通过实验证实选取一些基学习机的集成方法优于 Bagging㊁的综述,主要思想是按照某种衡量准则从所有的基分类器中选出一些分类器, 以降低时间和空间要求算法分为聚类㊁排序㊁选择㊁优化等类别
成学习( Ensemble Learning) 列为机器学习的 4 个主要研究方向之一,在机器学习界引起广泛关注. 集成学习初期较多应用于分类问题, 通过使用多个基分类器解决同一问题, 在各分类器误差较小且相对独习将所有基分类器的结果都进行集成, 对时间和空因此周志华等
[2]
Dietterich [1] 于 1997 年在‘ AI Magazine“ 上将集
n
1 1
1) 无监督方法, 如方差 ( Variance) ㊁拉普拉斯 2) 有监督方法,如 Fisher 分值( Fisher Score) ; 3) 半监督方法, 如约束打分 ( Constraint
1,2,
,x n } ,x i ∈ R d ,其中,i =
息来选取特征,结果可优于某些监督选择的方法,如 Fisher 方法. 对约束 Must-Link( ML) 和 Cannot-Link( CL) , 由于成对约束比类标号更易于获取且具有实用性, 因此针对这两种约束的半监督聚类研究得到了广泛关注. 若两个数据点必须属于同一类,则它们之间存在 Must-Link 关系; 若两个点必须属于不同类, 则它们之间是 Cannot-Link 关系. 打分函数 ( Constraint Score) 用于评价特征. Constraint Score 定义如下 [19] : Cr =
[4]
提出
选择性集成 ( Selective
有益处,使用无信息量或不相干的特征向量会使聚类效果变差,对特征向量进行选择是有必要的. 择算法,计算每个特征向量的熵,按熵值将其排序选出较好的特征向量. 实验证实,存在比最大的 k 个特征向量更好的特征向量组, 且选出的特征向量个数并不一定是 k 个. 多少个对聚类有意义的特征向量, 结果表明较大的特征值对应的特征向量对聚类有帮助. 性特征空间,对核矩阵特征分解,从 K s个最大特征值阈值不同选出的特征向量个数也不同. 文献[17] 提出一种半监督谱聚类特征向量选文献[16] 中用 Kernel PCA 将数据映射到非线文献[15] 提出特征值的差值可用来确定选取
第 27 卷第 5 期 2014 年 5 月