基于信息熵降维的混合属性数据流聚类算法
- 格式:pdf
- 大小:317.60 KB
- 文档页数:4
基于距离与熵的混合属性数据流聚类算法
基于距离与熵的混合属性数据流聚类算法(MAD-StreamClust)是一种用于处理包含多种属性的数据流的聚类算法。
该算法结合了距离度量和熵的思想,对原始数据进行特征选择,并采用
K-Means算法进行聚类。
该算法的主要思路是,在数据流进入系统之前,通过特征选择方法筛选出最重要的属性,并根据这些属性建立起数据流的描述模型。
描述模型可以用来预测新数据,将其分类到合适的聚类中。
在数据流不断更新的过程中,会运用熵的理论方法对聚类进行更新和合并,保证聚类的稳定性与准确性。
MAD-StreamClust算法的主要步骤包括:
1. 特征选择:利用信息增益或相关性等方法选择出最有区分能力的属性,并建立描述模型来描述数据流。
2. 数据流聚类:在特征选择后获得的描述模型上,利用K-Means算法对数据流进行聚类。
3. 聚类更新与合并:利用熵的理论方法对聚类进行更新和合并,保证聚类的稳定性与准确性。
该算法在处理多种混合属性的数据流时,表现出较高的稳定性和准确性。
特别是在处理高维数据流时,可以有效地减少数据描述的维度,提升算法的效率。
另外,该算法对于数据流的增量更新也具有良好的适应性,可以在不重新处理整个数据流的情况下,直接针对新增的数据进行聚类操作,保证了算法的实时性和效率。
在实际应用中,MAD-StreamClust算法可以用于多领域的数据处理任务,如金融、医疗等领域,可以很好地帮助用户对海量数据进行细粒度的划分和分析。
基于信息熵的FCM聚类算法
邢婷;邢治国;王凤领
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)023
【摘要】针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.
【总页数】4页(P5092-5095)
【作者】邢婷;邢治国;王凤领
【作者单位】哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025;三锐系统株式会社事业统括部,日本,东京,101-0021;哈尔滨德强商务学院计算机与信息工程系,黑龙江,哈尔滨,150025
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于信息熵原理与FCM算法的市场细分方法 [J], 林盛;吕红艳
2.一种基于信息熵约束的快速FCM聚类水下图像分割算法 [J], 王士龙;徐玉如;万
磊;唐旭东
3.基于信息熵加权的FCM交通状态识别研究 [J], 曹洁;张丽君;侯亮;陈作汉;张红
4.基于PSO-TVAC的中心自适应权的FCM聚类算法 [J], 胡建华;尹慧琳
5.基于FCM聚类算法的多分组和分层的协作缓存策略 [J], 胡昌桂;王翊;欧梦添;许耀华;黄林生
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于信息熵的混合数据属性加权聚类算法赵兴旺;梁吉业【期刊名称】《计算机研究与发展》【年(卷),期】2016(053)005【摘要】同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注。
为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果。
工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法。
在10个 UCI 数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性。
%In real applications , mixed data sets with both numerical attributes and categorical attributes at the same time are more common . Recently , clustering analysis for mixed data has attracted more and moreattention .In order to solve the problem of attribute weighting for high-dimensional mixed data ,this paper proposes an attribute weighted clustering algorithm for mixed data based on information entropy .The main work includes :an extended Euclidean distance is defined for mixed data , which can be used to measure the difference between the objectsand clusters more accurately and objectively . And a generalized mechanism is presented to uniformly assess the compactness and separation of clusters based on within-cluster entropy and between-cluster entropy . Then a measure of the importance of attributes is given based on this mechanism .Furthermore ,an attribute weighted clustering algorithm for mixed data based on information entropy is developed .The effectiveness of the proposed algorithm is demonstrated in comparison with the widely used state -of-the-art clustering algorithms for ten real life datasets from UCI .Finally ,statistical test is conducted to show the superiority of the results produced by the proposed algorithm .【总页数】11页(P1018-1028)【作者】赵兴旺;梁吉业【作者单位】山西大学计算机与信息技术学院太原 030006;计算智能与中文信息处理教育部重点实验室山西大学太原 030006【正文语种】中文【中图分类】TP391【相关文献】1.基于信息熵降维的混合属性数据流聚类算法 [J], 谭建建;郑洪源;丁秋林2.一种改进的基于大数据集的混合聚类算法 [J], 张晓;王红3.一种基于划分的混合数据聚类算法 [J], 常茜茜;张月琴4.基于信息熵的混合属性数据谱聚类算法 [J], 姜智涵;朱军;周晓锋;李帅5.一种基于密度峰值的针对模糊混合数据的聚类算法 [J], 陈奕延; 李晔; 李存金因版权原因,仅展示原文概要,查看原文内容请购买。
基于信息熵的模糊聚类新算法研究
苏璇;王晓晔;王卓
【期刊名称】《天津理工大学学报》
【年(卷),期】2010(026)005
【摘要】本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖.
【总页数】4页(P57-60)
【作者】苏璇;王晓晔;王卓
【作者单位】天津理工大学,计算机与通信工程学院,天津,300384;天津理工大学,计算机与通信工程学院,天津,300384;天津理工大学,计算机与通信工程学院,天
津,300384
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于模糊聚类和信息熵的综合评价算法 [J], 张运凯;王方伟;戴敬书;黄文艳;陈艳红
2.基于信息熵模糊聚类和粗糙集理论故障的模糊判据研究 [J], 李俊;孟涛;张立新;易当祥
3.基于信息熵的新的词语相似度算法研究 [J], 王小林;陆骆勇;邰伟鹏
4.基于功率谱信息熵与GK模糊聚类的生物组织变性识别方法 [J], 胡伟鹏;刘备;邹孝;赵新民;钱盛友
5.一种基于信息熵与K均值迭代模型的模糊聚类算法 [J], 吴春旭;吴镝;蒋宁
因版权原因,仅展示原文概要,查看原文内容请购买。
基于相对密度和熵的混合属性聚类融合算法余泽【摘要】Mixed attributes data clustering is a research hotspot in recent years. For mixed attributes data clustering algorithm, it requires handling numeric attributes and categorical attributes simultaneously. However many algorithms have not very good balance with numeric and categorical attributes, and the cluster results are not satisfied. For mixed attributes data set, a new clustering ensemble algorithm based on intersection is proposed. It processes the numeric attributes with a new relative density clustering algorithm, and processes the categorical attributes with a clustering algorithm based on information entropy. Then it fuses these two cluster members with a cluster fusion algorithm based on intersection. Finally, it gets the clustering results. It is validated by taking an experiment on UCI data set Zoo, and compared with the existing k-prototypes algorithm and EM algorithm. The experiment result shows that the new algorithm has higher flexibility and accuracy. The influence of the intersection element ratioand to the result is also discussed.%混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果。
基于网格和MST的混合属性流数据聚类算法作者:俞智君,张凤斌来源:《电脑知识与技术》2010年第19期摘要:现有的流数据聚类算法往往只能处理单一属性类型的流数据,或是不能发现任意形状的聚类。
针对这个问题,该文提出一种混合属性流数据聚类算法GTMS,算法使用了网格及MST(最小生成树)技术,采用基于信息增益和几何相邻的方法来计算混合类型数据相似度。
实验表明该算法能够有效地处理混合属性流数据。
关键词:流数据聚类;混合属性;网格;最小生成树中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)19-5220-03A Heterogeneous Data Stream Clustering Algorithm Based on Grid and MSTYU Zhi-jun, ZHANG Feng-bin(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)Abstract: Most of the exiting streaming clustering algorithms can deal with only single type attributes,or they can't discover clusters with arbitrary shape.To solve the problem,GTMS is proposed for clustering stream data with mixed data types, grid and minimum spanning tree techniques is used in the algorithms,using a kind of geometric adjacency and information gain found on mixing data similarity.Experimental results show that the algorithm can deal with the stream data with mixed data types.Key words: stream data; mixed attributes; grid; minimum spanning tree随着网络技术和通信技术日新月异地发展,一种被称为“流数据”的新型数据仓库得到了快速的发展。
降维聚类算法是一种用于数据分析和机器学习的算法,它可以将高维数据集降维到较低维度,同时保持数据之间的相似性,以便于进一步分析。
降维聚类算法在许多领域都有广泛的应用,如生物信息学、市场分析、社交网络分析等。
降维聚类算法的基本原理是将高维数据集中的样本划分为不同的簇,每个簇中的样本具有相似的特征。
通过降维,可以将高维数据集中的特征数量减少到较低的维度,从而降低计算复杂度,提高算法的效率。
同时,降维算法还需要保留数据之间的相似性,以便于后续的分析和可视化。
常用的降维聚类算法包括K-means聚类、主成分分析(PCA)等。
其中,K-means聚类是一种简单易用的聚类算法,它将数据集中的样本划分为不同的簇,每个簇由一个质心表示。
PCA 是一种常用的主成分分析算法,它可以将高维数据集降维到较低的维度,同时保留数据之间的相关性。
在实际应用中,降维聚类算法通常与其他算法结合使用,如层次聚类、DBSCAN聚类等。
这些算法可以与PCA等降维算法结合使用,进一步提高聚类的精度和效率。
聚类分析的结果可以用于可视化,如使用热图、散点图等可视化工具将聚类结果展示出来。
这些可视化工具可以帮助用户更好地理解数据集中的不同特征和不同样本之间的关系。
此外,降维聚类算法还可以与其他机器学习算法结合使用,如分类、回归等算法,以提高模型的准确性和泛化能力。
总之,降维聚类算法是一种重要的数据分析工具,它可以将高维数据集降维到较低的维度,同时保持数据之间的相似性。
通过与其他算法结合使用,降维聚类算法可以应用于各种领域的数据分析和机器学习任务中,提高模型的准确性和效率。
在实际应用中,用户需要根据具体的数据集和任务选择合适的降维聚类算法,并进行适当的参数调整和优化,以提高模型的性能和准确性。
机器学习中的降维与聚类算法机器学习是一门研究如何让计算机模仿或者实现人类的学习和智能的学科。
在机器学习中,降维和聚类算法是非常重要的两个概念。
降维算法是指通过对数据进行处理,减少数据的维度,以达到简化数据分析和处理的目的。
在现实生活中,我们经常面临的问题是数据维度过高,导致计算量大、存储空间大、处理效率低下的问题。
降维算法就是为了解决这些问题而诞生的。
在机器学习中,常用的降维算法有主成分分析(PCA)和线性判别分析(LDA)等。
主成分分析是一种常用的无监督降维算法,通过线性变换将原始数据变换为低维空间,保留了原始数据的大部分信息。
主成分分析的原理是找到最能解释数据方差的方向,将数据映射到这个方向上,从而达到降维的效果。
线性判别分析也是一种降维算法,它与主成分分析不同的是,线性判别分析是一种有监督的算法,它不仅考虑数据的方差,还考虑了数据的类别信息。
线性判别分析通过寻找一个投影向量,将数据在这个投影向量上的类别间距最大化,同类样本之间距离最小化,从而实现数据的降维。
降维算法一般可以分为线性降维和非线性降维两种。
除了上述的主成分分析和线性判别分析,还有一种非线性降维算法叫做流形学习。
流形学习是一种通过保持数据的局部关系,将高维数据映射到低维空间的方法。
常用的流形学习算法有等距映射(Isomap)、局部线性嵌入(LLE)等。
聚类算法是将相似的数据分为若干组或者簇的方法。
聚类算法在机器学习中具有广泛的应用,它可以帮助我们发现数据中的潜在结构,从而更好地理解和分析数据。
在机器学习中,常用的聚类算法有K-means聚类和层次聚类算法等。
K-means聚类是一种基于距离的聚类算法,它将数据分为K个簇,使得同一簇内的数据距离最小,不同簇之间的数据距离最大。
层次聚类算法是一种自底向上(凝聚型)或自顶向下(分裂型)的聚类算法,它通过构建层次化的聚类树来实现数据的聚类。
除了K-means聚类和层次聚类算法,还有一种常用的聚类算法叫做密度聚类算法。
基于距离与熵的混合属性数据流聚类算法本文研究了一种新型的混合属性数据流聚类算法,名为“基于距离与熵的混合属性数据流聚类算法”(HDTDM)。
数据流聚类算法的主要目的是将复杂的动态数据流快速分类、压缩和消除冗余。
然而,面对混合属性的数据流聚类,传统的聚类方法具有较大的局限性,HDTDM 利用距离函数和熵函数来弥补这一缺陷。
首先,它通过计算每个对象之间的距离函数来衡量它们之间的相似性,以在离散型和连续型属性混合的情况下构建一组更加精确的样本点。
然后,它使用熵函数来减少类间熵,即在给定簇数的情况下最大化类内熵,以实现更加精确和有效的数据流聚类算法。
最后,它进行实验验证,进一步证明HDTDM 比传统算法在聚类精度、聚类稳定性和聚类效率上都有更高的表现。
随着物联网时代来临,物联网数据流的场景越来越多,数据流聚类算法的应用越来越广泛。
物联网数据流的特征是属性类型混合,它的多种属性往往具有离散型和连续型的特点,对于这种复杂的数据流,传统的聚类算法已经力不从心。
针对这一问题,本文提出的混合属性数据流聚类算法(HDTDM),旨在解决上述问题。
HDTDM聚类算法的总体流程如下:首先,构建离散型和连续型属性混合的数据集,并对该数据集进行标准化处理;接着,计算每个对象之间的距离函数,并将该数据集进行聚类聚合;然后,使用熵函数来最大化内部簇variety,最小化簇之间的熵;最后,使用聚类结果作为输出进行数据分析及其相关挖掘。
HDTDM在聚类精度、聚类稳定性和聚类效率方面对传统算法进行了改进。
实验结果表明,HDTDM比传统算法在类内熵、类间熵、聚类精度、聚类稳定性和聚类效率方面都有更高的表现。
实验结果表明,HDTDM是一个有效的数据流聚类算法,具有良好的可扩展性和抗干扰性,能够很好地应对混合属性的数据流聚类问题。
由于HDTDM算法实现了物联网数据流的高效分类、压缩和消除冗余,它大大提高了物联网应用的可用性。
此外,聚类算法在支持向量机(SVM)和朴素贝叶斯(NB)分类器等机器学习算法中也得到了广泛应用,从而提高了模型准确性。