【子空间聚类】Sparse Subspace Clustering(SSC) Algorithm=
- 格式:docx
- 大小:220.03 KB
- 文档页数:4
低秩子空间聚类算法低秩子空间聚类算法序号一、引言在当今大数据时代,数据的规模不断扩大,其中蕴含的信息也变得越来越复杂。
针对这种情况,聚类算法成为了数据分析中一种重要的工具。
传统的聚类算法往往面临着高维数据的挑战,因为高维数据中存在维度灾难问题,数据间的距离计算变得复杂且耗时。
为了解决这一问题,研究者们提出了低秩子空间聚类算法,该算法能够在降低维度的同时保持数据的关键信息。
本文将对低秩子空间聚类算法进行深入探讨,解释其原理和应用,并分析此算法的优势与不足。
序号二、低秩子空间聚类算法原理低秩子空间聚类算法的基本思想是将高维数据投影到一个低秩子空间中进行聚类。
具体来说,该算法首先通过特征选择或特征提取技术获得数据的子集,然后将数据投影到所选子集构成的低秩子空间中。
在低秩子空间中,数据的维度大大减小,并且保留了原始数据的重要信息。
随后,可以使用传统的聚类算法(如K-means算法)对低维数据进行聚类操作,得到最终的聚类结果。
序号三、低秩子空间聚类算法步骤低秩子空间聚类算法的具体步骤如下:1. 数据预处理:对原始数据进行规范化和清洗,确保数据的一致性和可用性。
2. 特征选择或特征提取:选择合适的特征子集或使用特征提取技术(如主成分分析),将数据的维度降低到较低的水平。
3. 数据投影:将降维后的数据投影到所选子空间中。
4. 聚类操作:使用传统的聚类算法对低秩子空间中的数据进行聚类操作。
5. 聚类结果评估:评估聚类结果并进行可视化展示。
序号四、低秩子空间聚类算法应用低秩子空间聚类算法在实际应用中具有广泛的应用价值。
在图像处理领域,该算法可以用于图像聚类、目标识别等任务。
在推荐系统中,该算法可以用于用户的兴趣爱好分析、相似商品的推荐等。
低秩子空间聚类算法还可以应用于文本分类、时间序列分析等多个领域。
序号五、个人观点和理解低秩子空间聚类算法是一种非常有前景的算法,它能够在降低维度的同时保持数据的关键信息,从而提高聚类效果。
基于k最相似聚类的子空间聚类算法
单世民;闫妍;张宪超
【期刊名称】《计算机工程》
【年(卷),期】2009(035)014
【摘要】子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题.提出一种基于k最相似聚类的子空间聚类算法.该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向.将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题.实验结果证明,与CLIQUE和SUBCLU 相比,该算法具有更好的聚类效果.
【总页数】3页(P4-6)
【作者】单世民;闫妍;张宪超
【作者单位】大连理工大学软件学院,大连,116621;大连理工大学软件学院,大连,116621;大连理工大学软件学院,大连,116621
【正文语种】中文
【中图分类】TP311
【相关文献】
1.高维空间基于样式相似性的最大子空间聚类 [J], 卢炎生;胡蓉;邹磊;周翀
2.一种基于相似维的高维子空间聚类算法 [J], 陈铭;吉根林
3.基于k-近邻与局部相似度的稀疏子空间聚类 [J], 郑毅; 马盈仓; 杨小飞; 续秋霞
4.基于稀疏子空间聚类的文本谱聚类算法研究 [J], 原虹
5.基于子空间聚类算法的时空轨迹聚类 [J], 马林兵;李鹏
因版权原因,仅展示原文概要,查看原文内容请购买。
k近邻约束的稀疏子空间聚类LIU Yuxin;HE Guanghui【摘要】稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法.该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项.添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性.在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS 上的聚类实验表明提出的算法具有良好的性能.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)003【总页数】7页(P39-45)【关键词】子空间;聚类;稀疏表示;k近邻;人脸聚类【作者】LIU Yuxin;HE Guanghui【作者单位】【正文语种】中文【中图分类】TP3911 引言聚类是将样本划分为不同的簇,使得相同簇的对象之间相似度高,不同簇的对象相似度低,是数据挖掘与模式识别的重要研究内容之一。
聚类算法已经被应用到许多领域,如图像分割、人脸识别、文本分析。
Kmeans是聚类算法中最简单且非常常用的一种算法,是一种基于距离的聚类算法,然而在实际应用中,高维度的数据挑战了Kmeans的性能。
高维度的数据不仅增加了计算时间和存储需求,且使得数据对噪声更敏感。
为了解决这个问题,一种直接的方法是降维,例如主成分分析[1](PCA),这些方法仅仅考虑到统计信息而忽略了样本的内在结构。
另外一种是基于子空间模型的算法,在很多问题中,一个类的数据分布在一个低维子空间中,例如同一个人在不同光照下的正脸图像[2],不同粗细或者旋转的手写字母[3]。
因此高维空间中的多类数据实际分布于多个低维子空间的并。
子空间聚类已经在图像处理中得到广泛的应用,如图像分割[4]、人脸聚类[5]。
其中,基于谱聚类的方法旨在构造更好的相似矩阵,利用稀疏和低秩恢复算法,稀疏子空间聚类[6-7](SSC),低秩恢复[8-9](LRR),低秩子空间聚类[10](LRSC),通过求解稀疏和低秩自表示来构建相似矩阵。
一种结构化低秩表示的子空间聚类算法
常陈陈;宗群
【期刊名称】《计算机仿真》
【年(卷),期】2016(033)004
【摘要】在聚类算法精度优化中,由于低秩表示的子空间聚类模型在处理特征维度小于所有子空间秩之和的数据集时存在不足,引入结构化概念,提出了一种新的结构化的低秩表示子空间聚类模型,结构化低秩表示(SLRR).上述模型不仅拥有以前低秩模型的特征,还可以增加块对角元素和非块对角元素之间的对比度,有效提高聚类的准确度.另外,还提出了一种基于重加权的高效算法,可以极大地提高提出的子空间聚类模型的计算速度.最后,分别用人造模拟数据和实际的图像数据集进行聚类实验,验证了SLRR的有效性.
【总页数】5页(P278-282)
【作者】常陈陈;宗群
【作者单位】天津大学电气与自动化工程学院,天津300072;天津大学电气与自动化工程学院,天津300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于低秩表示的子空间聚类改进算法 [J], 张涛;唐振民;吕建勇
2.一种新的低秩分块稀疏表示的人脸识别算法 [J], 胡昭华;赵孝磊;徐玉伟;何军
3.基于结构化低秩表示和低秩投影的人脸识别算法 [J], 刘作军;高尚兵
4.基于分布式低秩表示的子空间聚类算法 [J], 许凯;吴小俊;尹贺峰
5.结构约束的对称低秩表示子空间聚类算法 [J], 陶洋;鲍灵浪;胡昊
因版权原因,仅展示原文概要,查看原文内容请购买。
多视角子空间聚类算法优化算法下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!本店铺为大家提供各种类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to know different data formats and writing methods, please pay attention!多视角子空间聚类算法优化算法引言在现实世界的数据分析中,常常遇到多视角数据,即每个样本被描述为多个特征集合的组合。
判别性增强的稀疏子空间聚类
胡慧旗;张维强;徐晨
【期刊名称】《计算机工程》
【年(卷),期】2023(49)2
【摘要】稀疏关系表示(SRR)是一种性能良好的子空间聚类算法,其利用一个数据样本和所有样本间的邻域关系作为新特征来学习自表示系数,由自表示系数矩阵构建相似度矩阵并通过谱聚类得到聚类结果。
同时考虑相似度矩阵的稀疏性和聚集性,在SRR算法基础上提出一个判别性增强的稀疏子空间聚类模型。
对邻域关系矩阵的自表示矩阵采用平方F范数代替SSR中的核范数,降低模型求解难度,并在邻域关系矩阵的自表示矩阵中引入新的正则项,保证自表示矩阵的类间判别性和邻域关系矩阵的类内聚集性,进一步优化聚类性能。
实验结果表明:与SSC、LRR、LSR、BDR-B、SRR等模型相比,该模型具有较好的聚类性能;在MNIST、USPS、ORL数据集上,聚类错误率较SRR模型分别下降9.6、14.1、3.8个百分点;在Extended Yale B数据集上,针对2、3、5、8、10类聚类问题的聚类错误率较SRR模型分别下降0.39、0.72、1.32、2.73、3.28个百分点。
【总页数】7页(P98-104)
【作者】胡慧旗;张维强;徐晨
【作者单位】深圳大学数学与统计学院
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.基于子空间追踪算法的稀疏子空间聚类
2.空间序列低秩稀疏子空间聚类算法
3.基于稀疏子空间聚类的文本谱聚类算法研究
4.空间序列低秩稀疏子空间聚类算法
5.标记判别和局部线性强化的半监督稀疏子空间聚类
因版权原因,仅展示原文概要,查看原文内容请购买。
子空间聚类自表示的方法子空间聚类自表示的方法是一种用于对高维数据进行聚类的方法,它利用了数据在不同子空间上的自表示性质,具有良好的鲁棒性和可解释性,被广泛应用于图像处理、视频分析、生物信息学等领域。
在传统的聚类方法中,常常采用线性或非线性投影将高维数据降至低维空间,然后在低维空间中进行聚类。
但是由于高维数据通常具有较为复杂的结构,这种方法容易受到噪声和异常点的影响,且难以捕捉到数据之间的局部结构。
相比之下,子空间聚类自表示的方法将数据表示为一组基于子空间的线性组合,不仅能够利用不同子空间的局部结构进行聚类,还能够自适应地学习对于噪声和异常点具有更强的鲁棒性的表示。
子空间聚类自表示的方法通常采用$l_1$范数稀疏表示技术来学习数据的子空间表示。
具体来说,给定一个数据矩阵$X \in R^{D \times N}$,其中$D$表示数据的维度,$N$表示数据的样本数。
该方法首先将数据矩阵$X$按列分割成$k$个子矩阵$\{X_1, X_2, ..., X_k\}$,每个子矩阵$X_i \in R^{D \times n_i}$,其中$n_i$表示子空间$i$中的样本数。
然后,对于每个子矩阵$X_i$,该方法通过最小化以下优化问题来学习稀疏表示系数$C_i$:$$\min_{C_i} \|X_i - S_i C_i\|_F^2 + \lambda \|C_i\|_1$$其中$S_i$表示子空间$i$的基矩阵,$\lambda$表示正则化参数。
学习得到每个子空间的稀疏表示系数后,可以定义一个相似度矩阵$W$,其中$w_{ij}$表示样本$i$和样本$j$之间的相似度。
常用的相似度度量包括余弦相似度、欧氏距离、相关系数等。
将每个样本表示为其在不同子空间上的稀疏表示系数拼接而成的向量,即$C=[C_1^T,C_2^T, ..., C_k^T]^T$,则可以采用谱聚类等算法对相似度矩阵$W$进行聚类。
子空间聚类自表示方法的主要优点在于它能够对数据的不同子空间进行建模,能够适应各种类型的数据结构。
Sparse subspace clustering:Algorithm,theory,and Application
稀疏子空间聚类(SSC)的算法,理论和应用
参考文献:
1、E. Elhamifar and R. Vidal. Sparse subspace clustering: Algorithm,theory,and Application. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013
2、E. Elhamifar and R. Vidal. Sparse subspace clustering. In CVPR, 2009
2013年的这篇论文写得比09年那篇容易懂一些,讨论和实验也更详细。
2013年的这篇可以看成是09那篇会议的扩展版。
一、算法
数据没有损坏,求解模型(5)获得矩阵C:
数据有损坏(noise and sparse outlying entries),求解模型(13)获得矩阵C:
仿射子空间模型:
二、理论
1、independent子空间
设rank(Yi)=di,Yi表示从第i个子空间Si抽取的Ni个样本构成的矩阵,di 表示Si的维数。
论文的定理1表明,模型(5)的解C*是一个块对角矩阵,属于同一个子空间的数据间的cij可能非零,不属于同一个子空间的数据间的cij=0.
2、disjoint子空间
对于disjoint子空间,除了满足条件rank(Yi)=di外,还需要满足公式(21):
则可获得与independent子空间下类似的结论:
三、应用
segmenting multiple motionsin videos: Hopkins 155 dataset
clustering images of human faces: Extended Yale B dataset
通过计算每对子空间的最小主角(principal angle)小于一给定值的比例,每对子空间中的数据的k近邻至少有一个在其他子空间的比例,可以帮助我们更好地知道两个数据库子空间聚类的挑战和各个算法的性能差别。
Hopkins 155 dataset:各个子空间间的主角很小;Extended Yale B dataset:不但主角小,而且一个子空间的数据点跟其他的子空间很靠近。
思考:
1、论文提到,SSC算法不需要知道每个子空间的基,事先也不知道每个数据属于哪个子空间,甚至每个子空间的数据个数可以是任意的。
2、对于independent子空间和disjoint子空间,由于模型的最优解是块对角矩阵,可以保证不同子空间没有联系,因此可以通过计算拉普拉斯矩阵的eigenspectrum 来确定子空间的个数。
从实验来看,对于子空间存在噪声等更复杂的实际情况,计算实际数据的非零奇异值个数,也能大概知道子空间的内在低维数。