对基于数据流CluStream聚类算法的改进
- 格式:pdf
- 大小:343.98 KB
- 文档页数:3
一种改进的模糊数据流聚类算法廖江陵;管有庆【摘要】提出了一种基于TEDA(典型与偏心数据分析,Typicality and Eccentricity Data Analysis)模型的模糊数据流聚类算法.TEDA模型常用于离群数据样本的检测,以此来获得更好的聚类效果.为能够适应在线模糊数据流聚类、满足实时响应要求,该算法沿用了TEDA算法中离心率与典型性的概念及相关公式,用以判断指定数据样本是否属于特定数据簇或特定数据簇群,以此进行整个簇群的更新.同时对TEDA算法在处理高维度数据流时的不足进行补充.该算法具有完全的自主性,能够自动地创建、更新及合并数据簇,并且无需提前定义参数.不同于传统聚类算法,该算法无需存储已扫描数据样本,内存利用率高,计算成本低,并且利用递归使其更适用于在线实时应用.实验结果表明,该算法可以很好地对实际数据进行聚类分析,相对于传统算法具有一定优势.%A new method of fuzzy data steam clustering,which is based on TEDA,is proposed. TEDA is often used in the detection of outlier data samples for obtainment of better clustering results. In order to adapt to online fuzzy data clustering and meet the requirements of real-time response,the proposed algorithm follows the concept of eccentricity and typicality as well as the related formulas in TEDA, and judges whether a certain data sample belongs to a certain data cluster or several data clusters for updating of the entire cluster. At the same time,it also adds the part when TEDA dealt with the high-dimensional data flow. The proposed algorithm can automatically create, update and merge data clusters with complete autonomy,and not need to define parameters in advance. Different from the traditional clus-teringalgorithm,it does not need to store the scanned data samples,with high memory utilization and low computational cost,and uses re-cursive methods,which make it more suitable for online real-time applications. Experimental results show that the proposed algorithm can carry out clustering analysis of the real data better and has certain advantages over traditional algorithms.【期刊名称】《计算机技术与发展》【年(卷),期】2017(027)011【总页数】5页(P96-100)【关键词】典型与偏心数据分析;离心率;典型性;聚类【作者】廖江陵;管有庆【作者单位】南京邮电大学物联网学院,江苏南京 210003;南京邮电大学物联网学院,江苏南京 210003【正文语种】中文【中图分类】TP301数据流聚类技术[1]已广泛地应用于许多不同的领域,如模式识别[2]、图像处理[3]、数据挖掘[4]等。
基于动态可调衰减滑动窗口的变速数据流聚类算法
周华平;陈顺生
【期刊名称】《计算机应用与软件》
【年(卷),期】2015(032)011
【摘要】在数据流聚类算法中,滑动窗口技术可以及时淘汰历史元组、只关注近期元组,从而改善数据流的聚类效果.如果同时数据流流速无规律地随时间动态变化,原来单纯的滑动窗口技术在解决这类问题时存在缺陷,所以,在充分考虑了滑动窗口大小和数据流流速之间关系的前提下,提出了基于动态可调衰减滑动窗口的变速数据流聚类算法.该算法对历史元组和近期元组分别赋予一定的权重进行处理,然后依据数据流流速的不同函数改变窗口的大小,从而实现数据流的聚类.提出了该数据流聚类算法的数据结构——变异数据流聚类的数据结构.通过真实数据和模拟数据来构造动态变速数据流从而作为验证算法的原始数据.实验结果表明,与CluStream聚类算法相比,该方法具有较高的聚类质量、较小的内存开销和较少的聚类处理时间.【总页数】7页(P255-260,300)
【作者】周华平;陈顺生
【作者单位】安徽理工大学计算机科学与工程学院安徽淮南232001;安徽理工大学计算机科学与工程学院安徽淮南232001
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于动态滑动窗口的改进数据流聚类算法 [J], 许颖梅
2.基于衰减滑动窗口数据流聚类算法研究 [J], 朱琳;刘晓东;朱参世
3.一种基于滑动窗口的一趟数据流聚类算法 [J], 程军锋;王治和;刘佳;潘丽娜
4.滑动窗口内动态数据流聚类算法研究 [J], 许颖梅
5.基于滑动窗口的动态数据流聚类算法研究 [J], 许颖梅
因版权原因,仅展示原文概要,查看原文内容请购买。
一种改进的CLTree算法李卓航【摘要】针对聚类算法CLTree精度低、算法效率低的问题,提出了CLTree-R算法,之后将其应用于UCI数据集进行聚类分析.基于Spark平台的特性对数据进行并行处理,加快了算法运行效率.实验结果也表明,使用该算法对官方数据集进行聚类分析时,可以得到较为合理的顾客划分.【期刊名称】《电信科学》【年(卷),期】2016(032)008【总页数】4页(P124-127)【关键词】聚类;Spark;数据挖掘;并行化【作者】李卓航【作者单位】浙江大学信息与电子工程学院,浙江杭州310058【正文语种】中文【中图分类】TP399聚类算法是数据挖掘十大算法之一[1],聚类定义为将物理或抽象对象的集合分成由类似对象组成的多个类的过程。
聚类需要达成的目标是类间的差别尽量大,而类内的差别尽量小,通常被用于探索性分析。
数据挖掘的精髓在于从海量价值密度低的数据中发现高价值的结论,聚类可以应用于数据分析、图像分割及文件恢复等领域。
本文提出了一种改进的决策树归纳聚类CLTree算法[2],原算法的基本思想是把聚类问题转化为分类问题,在进行决策树生长时采取信息增益的标准生成树的分支,即Quinlan J R[3]提出的著名ID3算法中的度量标准,而之后的C4.5算法论证了采用信息增益比率这一度量标准比信息增益的效果好[4],本文使用改进的算法构造完CLTree之后,再利用预剪枝策略实现聚类分析。
最后基于Spark平台实现并行化处理,提高了算法效率,可以解决GB级以上数据的处理问题。
首先,CLTree算法是一种基于网格划分的典型聚类算法,网格划分有由底向上和自顶向下两种,CLTree算法采用了自顶向下的划分方法,其优点在于无需指定划分参数、适用于高维数据、对噪音不敏感,其划分过程如下所示。
步骤1 将数据空间分成m个区域。
步骤2 对每个区域进行划分。
步骤3 如满足划分停止规则转步骤2,否则转步骤4。
⼀种基于滑动窗⼝的流数据聚类算法第⼀个以流数据为分析对象的聚类算法是由Sudipto Guha 等提出的STREAM 算法。
这种算法根据分治原理,使⽤⼀个不断迭代的过程实现有限空间对数据流进⾏K-means聚类,但该算法⽆法处理演化的数据流。
Aggarwal 在总结上述⽅法本质缺陷的基础上提出了⼀个数据流聚类框架Clustream[5],其核⼼思想是将聚类过程分为在线和离线两个阶段。
在线部分的任务是存储数据流的汇总结果,⽣成⼀种称为微聚类的信息存储结构,并按⾦字塔式时间结构将中间结果进⾏保存。
离线部分既是根据⽤户指定的观察时段及聚类数量,快速⽣成聚类结果的过程。
CluStream 不⾜之处在于需要⽤户指定聚类簇数k,要求强⾏输⼊固定的聚类簇数必然影响真实的聚类形态分布。
同时,算法是以K-means 算法为基础,对⾮凸形状聚类效果不好,⽆法发现任意形状的聚类,且当噪声数据增多时,聚类质量急骤下降。
Aggarwal 等后续提出了专门针对⾼维连续属性数据流的HPStream 算法,该算法引⼊了⼦空间聚类,并提出了具有遗忘特性的聚类结构,使⽤⾼维投影技术和衰减结构来处理⾼维数据流,HPStream 算法对⾼维数据流具有很好的健壮性。
但算法中需要⽤户来指定平均聚类维数,⽤户⼀般并不具备这种领域知识,成为该算法的瓶颈。
Cao 等⼈提出了基于密度的两阶段聚类⽅法,即DenStream 算法,该算法仍然沿⽤CluStream 算法中的双层结构,创造性的引⼊了潜在微聚类簇和孤⽴点微聚类簇结构,具备对孤⽴点的分析能⼒,即随着数据流不断进化,算法可以识别在某⼀时间段有可能演变成聚类簇的孤⽴点或“潜在聚类”,从⽽更加准确的捕获真实的聚类形态。
但由于算法中采⽤全局⼀致的绝对密度作为参数,使得聚类结果对参数⼗分敏感,⽽且它不⽀持指定的时间窗⼝内实时数据流的演化分析。
受到⼴泛关注的3 类⽅法是基于⽹格的数据流聚类技术[6-9]、⼦空间聚类技术[7-9]、混合属性数据流聚类[10],代表了当前数据流聚类研究的主流⽅向。
一种改进的K_means聚类方法胡伟【期刊名称】《计算机与现代化》【年(卷),期】2012(000)001【摘要】针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法.该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行.标准数据集上的实验结果表明,与传统的K_means 聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果.%This paper presents an improved clustering model based on distance measurement, in order to solve the problem of slow convergence rate of traditional K_means clustering method by selecting initial cluster centers randomly. By using effective heuristic information, this method selects better clustering centers and reduces the iteration steps of attaining stable clustering state. Then the speed of algorithm is accelerated. Simulation results on UCI datasets demonstrate that comparing with traditional K_ means clustering means, the improved K_means has fast convergence rate and the better clustering results are obtained by this model after less iterations.【总页数】4页(P22-24,56)【作者】胡伟【作者单位】山西财经大学实验教学中心,山西太原030006【正文语种】中文【中图分类】TP18【相关文献】1.一种改进的K_means算法在旅游客户细分中的应用 [J], 汪永旗2.一种改进型TF-IDF文本聚类方法 [J], 张蕾;姜宇;孙莉3.一种基于改进自编码器的二进制协议聚类方法 [J], 彭博一;张钊;蒋鸿宇4.一种优化的改进k_means算法 [J], 张淑清;黄震坤;冯铭5.一种基于SOM改进的PCM聚类方法 [J], 兰雁宁;郑陈达因版权原因,仅展示原文概要,查看原文内容请购买。
分布式实时流数据聚类算法及其基于Storm的实现马可;李玲娟【期刊名称】《南京邮电大学学报(自然科学版)》【年(卷),期】2016(036)002【摘要】为了提高流数据聚类效率,文中基于经典流聚类算法CluStream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRCluStream).该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇.还设计了DRCluStream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRCluStream 算法进行实现.性能分析及实验结果表明:DRCluStream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升.【总页数】7页(P104-110)【作者】马可;李玲娟【作者单位】南京邮电大学计算机学院,江苏南京210023;南京邮电大学计算机学院,江苏南京210023【正文语种】中文【中图分类】TP391【相关文献】1.分布式实时日志密度数据流聚类算法及其基于Storm的实现 [J], 张辉;王成龙;王伟2.基于Storm的流数据KNN分类算法的研究与实现 [J], 周志阳;冯百明;杨朋霖;温向慧3.基于Storm的分布式实时信号处理系统 [J], 周明阳;闫超;郭良浩;徐鹏;任岁玲4.分布式数据流聚类算法及其基于Storm的实现 [J], 万新贵;李玲娟;马可5.基于Storm的分布式实时数据流密度聚类算法 [J], 牛丽媛;张桂芸因版权原因,仅展示原文概要,查看原文内容请购买。
聚类方面的改进点
聚类方法的改进
1. k-means方法的优缺点
优点:非常快,O(KNt);很多时候局部最优也够用了。
缺点:
=局部最优;
=受异常值点和噪声影响大;
=受到初始值设定的影响,结果不稳定;
=当类内分布差异较大时聚类结果不佳。
2. k值的选取
其实选k的方法就是选取不停地k进行尝试之后选择类内离差平方和最小的k。
主要有碎石图法和gap statistic方法,思想类似。
碎石图法找损失函数最小的k;
gap statistic方法找和期望相差最大的k。
G a p ( K ) = E ( l o g D k ) − l o g D k Gap(K)=E(logD_k)-logD_k
Gap(K)=E(logD
k
)−logD
k
核函数法,低维映射到高维,增加线性可分的可能性。
3.初始值的选择方法改进
k-means ++
k-means的初始值是随机选取的,不好;
改进方法是k-means++方法。
k-means++方法中,第一个种子随机选取,之后的每一个种子,都选择与前面的种子距离比较大的那些。
isodata
k-means聚类过程中k不变化,不好;如果能够动态变化就好了。
isodata就是这个思想。
如果某类过大(方差超过阈值),则将其拆分;
如果某两类距离过近(重心距离小于阈值),则将其合并;
如果某类拆分后的子类过小(内部元素个数小于阈值),则不拆。
基于动态滑动窗口的改进数据流聚类算法许颖梅【摘要】An optimization algorithm DCluStream was proposed which processed data over sliding window. The method adopted online-offline clustering framework of CluStream.The real time of the data object coming and out of sliding window was introduced into the characteristics of the cluster,adjusting the win-dow size reasonably in the limited memory resources ing the time decay mechanism on his-torical data could reduce the impact of new data object,which could get better clustering results.The exper-imental results showed that compared with the algorthm CluStream,data processing efficiency of the algo-rithm was relatively higher with saving memory.%提出一种采用滑动窗口处理数据的优化算法DCluStream.该方法基于CluStream算法双层框架思想,在聚类特征中引入数据流入和流出滑动窗口的实际时间,动态调整窗口大小以适应有限内存;对历史数据通过时间衰减机制来降低它对新数据对象的影响,使聚类效果更好.实验结果表明,与CluStream相比,本算法处理数据的效率更高且相对节约内存.【期刊名称】《郑州轻工业学院学报(自然科学版)》【年(卷),期】2014(000)001【总页数】5页(P98-102)【关键词】滑动窗口;数据流聚类算法;时间衰减机制【作者】许颖梅【作者单位】商丘师范学院计算机与信息技术学院,河南商丘 476000【正文语种】中文【中图分类】TP311数据流就是连续到达的一个序列,具有无限大且不可预知性.对数据流的查询结果往往不是一次性而是持续的,即随着底层数据的到达而不断返回最新的结果.数据流聚类算法作为数据流挖掘的工具,具有很好的研究和应用前景,也是目前应用研究的热点.聚类就是按一定特征将一个对象的集合分成若干个类,每个类内的对象是相似的,但与其他类的对象是不相似的[1].数据流聚类已经有很多算法.S.Guha等[2]提出了Localsearch算法,在有限的空间内对数据流进行聚类,使用一个不断迭代的过程进行k-means聚类.L.O′Callaghan等[3]在Localsearch的基础上又提出了Stream算法,但这种算法是基于静态数据流的,不能反映数据流的变化情况.C.C.Aggarwal等[4]提出了一个解决数据流聚类问题的框架CluStream,将数据流的聚类分成在线微聚类和离线宏聚类2个阶段.周晓云等[5]提出基于Hoeffding界的高维数据流的子空间聚类发现及维护算法SHStream,在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果.杨春宇等[6]基于数据流的连续属性和标称属性提出一种适用于处理混合属性数据流的聚类算法HCluStream,可为混合属性构建新的信息汇总方式及距离度量.吴枫等[7]在数据流聚类形状问题上提出了一种滑动窗口内进化数据流任意形状聚类算法SWASCStream.周傲英等[8]提出了基于滑动窗口的数据流聚类算法CluWin,通过拒伪和纳真解决了滑动窗口中的误差问题.在以后的研究中又出现了新的研究方向,比如基于网格和密度的不确定数据研究,还有支持泛在应用的数据流聚类[9],在滑动窗口中实现对数据流的裁剪和增量更新,提高了数据挖掘的效率.但是,上述算法也都有一定的局限性,如内存占用率高、效率低下等,鉴于此,本文拟提出一种基于动态滑动窗口的改进数据流聚类算法.1.1 问题定义定义1数据流是由数据项组成的无限集合,其中,i表示数据流中的元组表示此元组流入滑动窗口的时刻表示此元组流出滑动窗口的时刻.定义2对数据流中的数据取样本集D={x1,x2,…,xi,…,xn},从中挖掘出具有相似程度的k个数据簇({C1,C2,…,Ck}),其中Cj=φ,i≠j.同一簇中的对象之间是相似的,不同簇中的对象是相异的.定义3给定最小支持度阈值δ和误差因子ε,假设|W|表示滑动窗口W的宽度,即W中包含的事务数,fw(A)表示模式A在滑动窗口中的支持度计数.对于模式A,如果有fw(A)≥δ|W|,则称A为滑动窗口W中的微簇;如果有fw (A)≥ε|W|,则称A为滑动窗口W中的临界微簇;如果有fw(A)<ε|W|,则称A为滑动窗口W中的过期微簇.定义4数据流聚类特征是定义在线聚类阶段的数据集.对于数据项…组成的无限集合,该数据项上的微聚类特征表示为CF={W′,n,F,Q,t1,t2}.其中,W′为此时窗口的实际大小,n为簇中数据的个数,表示元组中的数据在第j维的一阶距,表示元组中的数据在第j维的二阶距,t1表示数据流进滑动窗口的时刻,t2表示数据流出滑动窗口的时刻.1.2 时间衰减机制随着数据源源不断地流入,在数据流聚类过程中,也应该有些过期的数据被淘汰,这就要采用一定的衰减机制对过期元组进行衰减.本文采用时间衰减模型,在这种模型中,数据流中每个项集都有一个权重.权重随时间改变,新到来的项集对该项集的频度影响大于原来的项集.在时刻t,每个元组的衰减因子的大小满足2-λt<ε(λ>0),其中ε表示时间界定阈值,衰减系数λ值越大,过去数据的重要性就越低.数据流总的权重其中,tc表示当前时间,v表示数据流的流速.2.1 算法思想本算法基于CluStream的2层聚类框架思想,在动态调整滑动窗口的基础上将挖掘过程分为在线和离线2个过程.在线过程不断接收数据流摘要信息,利用k-means算法从初始样本集中挖掘出一定数量的微簇更新到内存结构中,其产生的结果作为挖掘的中间结果维护起来,一定时间后将这些中间结果保存到外存中作为离线过程的初始数据.离线过程由用户调用,针对用户的查询,以在线聚类阶段形成的微聚类为基础进行离线聚类,利用衰减因子对微聚类进行动态维护,及时更新和衰减,得到相应时间段内的宏聚类.通过在线和离线2个过程的不同算法,实现动态数据的快速处理.在线聚类过程可以分为微簇初始化、更新及删减3个步骤.假设数据流的流速是均匀的,初始化时滑动窗口大小设定为W,数据流入窗口的时间点为T1,流出窗口的时间点为T2,那么数据匀速流入时在滑动窗口内的驻留时间ΔT=T2-T1.但现实中,数据流的流速是不断变化的,假设t1为数据流入窗口的时刻,t2为数据流出窗口的时刻,数据项在窗口中的实际停留时间为Δt=t2-t1.假设时间界定阈值为ε,Δt-ΔT>ε时,意味着数据传输较慢,此时滑动窗口较大,浪费了内存开销;-ε≤Δt-ΔT≤ε,说明数据流速度接近匀速,此时滑动窗口的大小是适中的;Δt-ΔT<-ε,此时数据流的传输速度很快,而滑动窗口的大小相对较小,需适当增大.因此,适当调整滑动窗口的大小,可以降低算法的复杂度.设ΔW为窗口调整变量的阈值,实际窗口大小W′.在第1种情况下,W′=W-ΔW;第2种情况下,W′=W,不需调整;第3种情况下W′=W+ΔW.经过以上调整,数据流在滑动窗口内基本保持匀速,这样既可以使得算法适应数据流的流速,也使内存得到充分利用.2.2 算法公式在对数据点进行聚类的过程中用到以下几个距离公式.元组之间的距离为式中分别为元组Xa和Xb的第j维.元组到聚类中心点的距离为式中为聚类中心Fbn的第j维.聚类中心之间的距离为2.3 在线层算法该算法在第1个元组进入滑动窗口后,形成1个微聚类特征,随着数据的流入,当判断新到达的元组可以加入已有微聚类时,对该微聚类特征进行更新;若新到达元组是一个新的微聚类时,看此时微聚类是否已饱和,若是,则通过计算合并最近的2个微聚类,否则产生新的微聚类,同时对新建的微簇的概要信息进行更新.而在数据流入时需检测是否要调整滑动窗口的大小,计算后决定对数据在窗口内停留的时间做怎样的调整.图1是在线层算法的执行流程.整个过程包括微聚类初始化、计算元组之间的距离、聚类合并或生成新的微聚类、调整窗口大小、输出微聚类,算法描述如下:Input:数据流DS,窗口大小W,窗口可调整的阈值ΔW,数据项在窗口内停留的时间界定阈值ε,微簇半径阈值R,预定义所容纳的微聚类个数M.Output:微聚类数n.DClu-Online(DS,W,ΔW,ε,R,M)Beginn=0;/*对聚类数目初始化*/对数据流DS中的每个到达的元组Xi;通过上一节公式①计算数据元组Xi与每一聚类特征CF之间的距离D(Xi,CF),从中找出相距最近的那个微聚类;2.4 离线层算法离线层通常分析某时间段的聚类结果,针对用户的查询以在线聚类阶段形成的微聚类为基础进行离线聚类,利用衰减因子对微聚类进行动态维护,及时更新和衰减,得到相应时间段内的宏聚类.算法中t1,t2为2个较近的时间点,时间表阈值为ε.算法实现如下:Begin判断t1,t2为2个合法的时间点;将t1时刻的概要信息作为该时刻的中心微簇;for在内存中存储的每一个微聚类特征CF每一微聚类特征按权重进行衰减;endfor采用k-means算法对内存中的微聚类特征进行聚类,生成k个聚类;End本实验是在配置为Intel Pentium IV 3.0 GHz,内存1 GB的PC机上实现的,操作系统是Windows XP.所有程序采用Visual C++开发环境实现,并与基于界标窗口模型的CluStream算法进行性能比较.实验中所使用的数据是将网络入侵检测数据集KDDCUP99与IBM合成数据发生器产生的数据集T1516D1000K融在一起.KDDCUP99数据集共包含283 490条数据记录,每条数据记录有41维固定特征属性,对其中22个连续型、9个离散型共31个与本实验相关属性进行分析.数据集T1516D1000K共包含305 732条数据记录,每条记录包含50维属性,其中,数值属性44维,分类属性6维.首先比较了在相同最小支持度阈值下2个算法对1 000 K事务的平均处理时间,取最小支持度阈值δ=0.5%,图2给出了DCluStream算法与Clu-Stream算法随事务到达的平均处理时间对比.实验结果表明,DCluStream算法时间效率明显高于CluStream算法.接下来对内存使用情况进行比较.依然选取2个数据集产生的1 000 K个事务,图3是处理KDDCUP99和T1516D1000K数据集的试验比对结果.图3显示,随着数据流量的增多,DCluStream的内存节省率高于CluStream,说明有效的衰减机制能够明显地节约内存开销.本文提出了一种基于动态滑动窗口的数据流聚类算法,它是在CluStream算法双层框架(在线和离线)基础上,在线阶段在聚类特征中引入数据流入和流出滑动窗口的实际时间,并可以动态调整窗口大小,解决了有限内存存储无限数据的可能.离线阶段借助在线层保存的数据流概要信息,根据用户需要,对概要数据通过k-means算法进行宏聚类,并采用时间衰减机制对历史数据进行衰减,使聚类结果更合理.实验结果表明,改进的动态滑动窗口的数据流处理算法在准确度和运行效率上都有所提高,且更节约内存开销.【相关文献】[1]金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172. [2] Guha S,Mishra N,Motwani R,et al.Clustering data streams[C]//Proceedings of41st Annual Symposium on Foundations of Computer Science,Los Alamitos,CA:IEEE Computer Society Press,2000:359.[3]O’Callaghan L,Mishra N,Meyerson A,et al.Streaming data algorithms for high-quality clustering[C]//Proceeding of18th Internationl Conference on Data Engineering. Los Alamitos,CA:IEEE Computer Society Press,2002:685.[4] Aggarwal CC,Han J,Wang J,etal.A framework for clustering evolving datastreams[C]//Proceeding of 29th Internationl Conference on Very Large Data Bases,Berlin:Morgan Kaufmann,2003:81.[5]周晓云,孙志挥,张柏礼,等.高维数据流子空间聚类发现及维护算法[J].计算机研究与发展,2006,43(5):834.[6]杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364. [7]吴枫,仲妍,金鑫,等.滑动窗口内进化数据流任意形状聚类算法[J].小型微型计算机系统,2009,30(5):887.[8]常建龙,曹锋,周傲英.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905.[9]宋宝燕,张衡,于洋,等.基于滑动窗口的支持泛在应用的流聚类挖掘算法[J].小型微型计算机系统,2008,29(12):2262.。
基于改进聚类算法的数据处理技术研究随着科技的飞速发展,数据处理的需求不断增加,并且在很多领域有着广泛应用,例如商业、医疗、金融等等。
而聚类算法则是数据处理当中的一项重要工具。
聚类算法是指将多个数据对象分成几个类别,使得同一个类别下的数据对象之间的相似度高,不同类别下的数据对象之间的相似度低。
在传统聚类算法中,有k-means算法、层次聚类算法、DBSCAN算法等等,这些算法都有着各自的缺点和不足。
因此,改进聚类算法成为了数据处理工作者们的热门研究课题。
一、改进聚类算法的研究背景1、传统聚类算法存在的问题传统聚类算法在处理大规模数据集时效率不高,且容易产生不准确的聚类结果。
传统聚类算法的效果受到传统距离度量方法的影响,当数据集分布比较极端的时候这些算法聚类效果通常较差。
2、现有的改进算法介绍近年来,以基于密度的聚类DBSCAN和层次聚类算法为基础的改进算法,以及基于概率统计方法的EM聚类、高斯混合模型等算法都获得了不错的实验结果。
二、改进聚类算法的研究方向1、基于密度的聚类算法基于密度的聚类算法相对于传统聚类算法更具优势,因为它可以将具有相似密度的数据聚集在一起。
常用的基于密度的聚类算法有DBSCAN算法和OPTICS算法。
而改进DBSCAN算法是研究的一个重要方向,包括对于密度聚类参数的扩展、寻找核心点的方式改进以及优化聚类结果等。
2、基于概率统计的聚类算法EM聚类是基于概率统计的聚类算法之一,它假设了多个多元正态分布的混合体,利用极大似然法从给定数据中估值模型参数,再根据模型得到类别。
三、改进聚类算法的应用场景1、基于密度的聚类算法基于密度的聚类算法的应用非常广泛,例如海量数据的分类、图像分割、异常检测等。
例如,在医疗领域可以使用基于密度的聚类算法对病人的疾病进行分类,以便医生能够更加准确地进行疾病的诊断和治疗。
2、基于概率统计的聚类算法基于概率统计的聚类算法可以直接处理高维度数据集,同时对于数据分布丰富的数据集也有较好的表现。