基于局部马氏距离的加权k近邻故障检测方法
- 格式:pdf
- 大小:404.41 KB
- 文档页数:7
第33卷第6期2021年12月沈阳大学学报(自然科学版)J o u r n a l o f S h e n y a n g U n i v e r s i t y(N a t u r a l S c i e n c e)V o l.33,N o.6D e c.2021文章编号:2095-5456(2021)06-0480-06基于马氏距离k N N的多模态过程故障检测王晓云1,王东琴2,郭金玉2(1.沈阳理工大学机械工程学院,辽宁沈阳110159;2.沈阳化工大学信息工程学院,辽宁沈阳110142)摘要:为了解决同一变量在不同模态下的方差差异很大的情况,提出了一种基于马氏距离k近邻(k-n e a r e s t n e i g h b o u r,k N N)的多模态过程故障检测算法(M D-k N N)㊂该方法首先对各个模态的训练数据分别计算出各样本k个近邻的马氏距离平方和,然后对该距离进行升序排列,最后根据排列后的距离确定控制限㊂对待检测的新样本,计算该新样本和正常样本之间的马氏距离平方和,把该距离和控制限相比,当它比控制限小,说明新样本属于正常样本㊂反之,说明它属于故障样本㊂将该算法用于数值例子和半导体仿真过程,仿真结果表明该算法优于k近邻㊁局部离群因子等方法㊂关键词:马氏距离;k近邻;多模态过程;工业过程;故障检测中图分类号:T P277文献标志码:AF a u l tD e t e c t i o no f M u l t i m o d eP r o c e s sB a s e do n M a h a l a n o b i s D i s t a n c e k N NWA N G X i a o y u n1,WA N G D o n g q i n2,G U OJ i n y u2(1.S c h o o l o fM e c h a n i c a l E n g i n e e r i n g,S h e n y a n g L i g o n g U n i v e r s i t y,S h e n y a n g110159,C h i n a;2.C o l l e g eo fI n f o r m a t i o nE n g i n e e r i n g,S h e n y a n g U n i v e r s i t y o fC h e m i c a lT e c h n o l o g y,S h e n y a n g110142,C h i n a)A b s t r a c t:T o s o l v e t h e p r o b l e mo f l a r g e v a r i a n c e d i f f e r e n c eo f t h e s a m ev a r i a b l e i nd i f f e r e n t m o d e s,a f a u l t d e t e c t i o n a l g o r i t h mo fm u l t i m o d e p r o c e s s b a s e d o nM a h a l a n o b i s d i s t a n c e k N N (M D-k N N)w a s p r o p o s e d.F o r t h e t r a i n i n g d a t a o f e a c h m o d e,t h e s q u a r e s u m o f M a h a l a n o b i s d i s t a n c e o f k-n e a r e s t n e i g h b o r s o f e a c h s a m p l e i s c a l c u l a t e d,a n d t h e d i s t a n c e i s a r r a n g e d i na s c e n d i n g o r d e r.T h ec o n t r o ll i m i ti sd e t e r m i n e da c c o r d i n g t ot h ea r r a n g e d d i s t a n c e.T h e s q u a r e s a mo fM a h a l a n o b i s d i s t a n c e b e t w e e n t h e n e ws a m p l e a n d t h e k-n e a r e s t n e i g h o r s i nn o r m a l s a m p l e i s c a l c u l a t e d.I f t h e d i s t a n c e i s s m a l l e r t h a n t h e c o n t r o l l i m i t,t h e n e ws a m p l eb e l o n g st ot h en o r m a ls a m p l e.O nt h ec o n t r a r y,i ti saf a u l ts a m p l e.T h e s i m u l a t i o n r e s u l t ss h o wt h a t t h e p r o p o s e da l g o r i t h mi ss u p e r i o r t o k-n e a r e s tn e i g h b o ra n d l o c a l o u t l i e r f a c t o r.K e y w o r d s:M a h a l a n o b i s d i s t a n c e;k-n e a r e s t n e i g h b o u r;m u l t i m o d e p r o c e s s;i n d u s t r i a l p r o c e s s;f a u l t d e t e c t i o n随着自动化和智能化技术在工业生产中的广泛应用,生产过程中的监控环节越来越重要,为适应多模态的生产过程,基于多模态间歇过程的故障诊断就显得尤为重要㊂许多学者对基于数据驱动的故障检测技术进行了研究,主元分析(p r i n c i p a l c o m p o n e n t a n a l y s i s,P C A)[1]是一种对数据进行化简的传统多元统计过程监控方法(m u l t i v a r i a t e s t a t i s t i c a l p r o c e s sm o n i t o r i n g,M S P M)方法,也是较为成熟的算法,但是它提取的是线性特征,无法有效地检测非线性和多模态过程,而实际工业生产过程中更多的是非线性和多模态过程,所以它在纷繁复杂的多模态间歇过程当中,难以得到广泛应用㊂收稿日期:20210521基金项目:辽宁省教育厅资助项目(L J2019007)㊂作者简介:王晓云(1971),女,辽宁沈阳人,副教授,博士㊂很多研究人员对多模态工业过程故障检测进行了多角度㊁深层次的研究,并提出了一些新的故障诊断手段㊂文献[2]利用k近邻(k-n e a r e s t n e i g h b o r,k N N)的方式进行故障检测,并在半导体蚀刻工艺过程中得到成功应用㊂该方法能够对非高斯㊁非线性的多模态间歇过程进行故障检测,缺陷在于该算法在处理样本容量大的数据集时,使系统的计算负载和存储负担过大,每次分类都会进行重新计算导致计算量增加㊂除此之外,当多模态样本方差较大时,该算法也无法得到理想的处理结果㊂文献[3]提出的局部离群因子算法,能够利用单个模型对多模态过程进行有效监控,但该方法缺陷在于检测效果容易受参数影响,稳定性差,而且计算量也较大㊂文献[4]运用局部密度估计方法对多模态过程进行监控,能够迅速检测出多工况过程的故障㊂文献[5]研究了一种基于时空近邻标准化和局部离群因子的复杂过程故障检测算法,能够实现具有动态性㊁多模态特性或两者兼具的过程的故障检测㊂当前,就多工况生产而言,数据维数不断上升,存在方差差异明显和中心漂移等特点,文献[6]利用加权k近邻方法进行故障检测㊂由于在k N N方法中,对于多模态过程,数据与其邻域之间的距离计算从不考虑每一个单模态的尺度信息,S o n g等[7]提出一种基于标准化k N N(s t a n d a r d i z e d k n e a r e s tn e i g h b o r,S k N N)的故障检测方法,该方法考虑了模态式内和模态式间的尺度信息,通过标准化距离来表征数据与其邻域之间的距离㊂此外,与基于k N N的故障诊断方法相比,基于S k N N的故障诊断方法通过构造权重来考虑不同邻域的重要性㊂本文研究了一种新的基于马氏距离k N N(M D-k N N)的故障检测方法,通过分析故障数据与正常数据在空间距离关系上的差异,有效消除了模态间的方差差异,进而达到检测故障的目的㊂1基于马氏距离k N N的多模态过程故障检测1.1k N N方法k N N分类算法表示任意样本均选择与它距离最近的k个邻居来代表㊂根据训练样本和近邻样本之间的距离分布,从而确定具有一定置信水平的阈值㊂k N N的故障诊断过程包括建模过程和故障检测过程,具体步骤参见文献[8]㊂下面具体分析本文提出的马氏距离的k N N算法㊂1.2M D-k N N算法k N N适合用于多模态故障检测㊂但当同一变量在不同模态下的方差有显著差异时,k N N规则在检测多模态过程中的微弱故障时就失去其优良性能,下面通过数值例子加以说明㊂图1为全部训练样本和故障样本的散点分布情况㊂其中,圆圈㊁星号以及方块分别表示第1㊁2模态训练样本以及第1模态的故障样本㊂模态1的2个变量x1㊁x2都呈现[0,1]的正态分布;模态2的2个变量x1㊁x2都呈现[15,6]的正态分布㊂将k N N方法中k的近邻数设为1,控制限可通过训练数据确定㊂图2为利用k N N方法对该数值例子的检测结果,圆圈㊁星号以及方块分别表示模态1㊁2训练样本以及第1模态的微弱故障样本㊂图2中有4个星号没有显示,因为它们的值明显高于其他值㊂从图2中可以看出故障样本的距离要大于模图1数值例子散点分布F i g.1S c a t t e r p l o t o f n u m e r i c a l e x a m p l e 图2k N N对训练样本和一个微弱故障的检测结果F i g.2D e t e c t i o n r e s u l t o f k N N f o r t r a i n i n gs a m p l e s a n daw e a k f a u l t184第6期王晓云等:基于马氏距离k N N的多模态过程故障检测态1中训练样本的距离,小于模态2中训练样本的距离㊂传统k N N 算法采用欧式距离来计算样本间的距离,其控制限是根据总体样本的检测指标值确定的,即控制限是由较大方差的模态中的样本决定的,而本例中的故障属于小方差模态的微弱故障,因此无法检测到㊂在上述分析的基础上,设计出一种新型算法,命名为马氏距离k N N (M D -k N N ),马氏距离可以清晰地检测出观察样本与已知样本两者之间的距离,在识别故障和状态分类过程中非常适用[9]㊂马氏距离表示数据的协方差距离,与欧氏距离不同的是它考虑到各种特性之间的联系,可以衡量样本间相似度的距离,因而可以检测在不同模态下同一变量方差显著不同时的微弱故障㊂通过考虑数据之间的相互关系来计算样本之间的距离,样本x i 与x j 的马氏距离为d MD (x i -x j )=(x i -x j )ð-1(x i -x j )T(1)图3 类别表征F i g .3 C a t e g o r y r e pr e s e n t a t i o n 由式(1)可知,为确保协方差矩阵可逆,样本数量应满足i >j ㊂故马氏距离能有效衡量数据变量之间的相互联系,欧氏距离意味着全部类别等概率呈现出来,欧式距离属于马氏距离中的一种特殊类型㊂目前,决策的中心位置是2种距离中心连线后的中点,详情见图3,如果两距离产生的先验概率不一致,此时采取中垂线进行决策判断将会导致结果出现误判,应该向右调整决策线,通过马氏距离获取向右移动位置的大小㊂图4 M D -k N N 对训练样本和一个弱故障的检测结果F i g .4 D e t e c t i o n r e s u l t o fM D -k N N f o r t r a i n i n gs a m pl e s a n daw e a k f a u l t 传统的k N N 算法在计算样本间的欧式距离时不考虑模态间局部差异的情况,对检测指标进行计算,当不同模态的方差差异较大时,对微弱故障的检测性能较差㊂基于M D -k N N 的故障检测,利用马氏距离计算各样本间的距离,不用考虑模态间不同的稀疏程度㊂图4为M D -k N N 方法对数值例子的检测结果,M D -k N N 有效地检测出了模态1的微弱故障,说明了该算法的有效性㊂1.3 建模过程与在线检测采集正常工况下各个模态的数据,计算各模态训练数据的马氏距离,确定k N N 模型,求出训练数据和待测试数据之间的马氏距离,通过将该距离和控制限进行比对,即可检测出多模态过程故障所在㊂M D -k N N 的故障检测过程主要包含2部分,一是离线建模,二是在线检测㊂离线建模的步骤是:第1步对正常的训练数据进行标准化处理;第2步寻找每个训练样本的k 个近邻样本,结合式(1)计算该训练样本与其各个近邻样本的马氏距离平方和,即统计量D 2i ,通过马氏距离剔除多模态数据产生的方差差异;第3步通过核密度估计方法求出D 2i 的阈值D 2α㊂在线监测的步骤是:首先对输入的测试数据做标准化处理;然后在训练数据中寻找测试数据的k 个近邻样本,计算测试样本与其k 个近邻样本的马氏距离平方和D 2n e w ;对比统计数值D 2n e w 和阈值D 2α,可知数据样本有没有发生故障㊂若D 2n e w 大于D 2α,说明此时数据样本发生故障;反之,样本是正常的㊂2 仿真结果与分析2.1 多模态数值例子以人工合成的多模态数值为例,应用本文提出的方法对方差差异较大的多模态过程故障检测进行验证㊂具体如下:284沈阳大学学报(自然科学版) 第33卷x 1=0.5768s 1+0.3766s 2+e 1;x 2=0.7382s 21+0.0566s 2+e 2}㊂(2)图5 多模态数据散点分布F i g.5 S c a t t e r p l o t o fm u l t i m o d a l d a t a 式中,模态1:s 1~Un i f o r m (-10,-7),s 2~N (10,0.01);模态2:s 1~U n i f o r m (2,5),s 2~N (-10,1)㊂其中e 1,e 2是服从[0,0.01]的正态分布的噪声㊂根据以上模型形成2种模态的数据,分别从中挑选200个正常数值作为训练样本和校验样本,再挑选6个非正常数值作为故障样本㊂图5为训练样本㊁校验样本以及故障样本的散点分布,通过图5的散点分布可知,本文研究的数值例子稀疏程度不一致的多模态模拟案例㊂k N N ㊁L O F 和M D -k N N3种方法对上述多模态数值例子的检测结果如图6和表1所示㊂其中k N N 的近邻数k 取3;L O F 的近邻数取23㊂观察图6可以得出,M D -k N N 检测出的故障最多,误报个数最少,M D -k N N 的算法更为可靠㊂(a )k N N (b )L O F (c )M D -k N N图6 3种算法对数值例子检测结果F i g .6 D e t e c t i o n r e s u l t s o f t h r e ea l g o r i t h m s f o r n u m e r i c a l e x a m pl e 表1 多模态数值例子的检测结果对比T a b l e1 C o m pa r i s o no f d e t e c t i o n r e s u l t s o f m u l t i m o d a l n u m e r i c a l e x a m p l e %方法误报率漏报率k N N 3016.7L O F333.3M D -k N N2根据表1可得出,M D -k N N 算法较k N N 和L O F 有显著优势㊂L O F 算法易被离群样本影响的特性导致其漏报个数较多㊂相较于k N N 和L O F2种算法,M D -k N N 较少发生误报和漏报的现象,说明此算法具有更优的特性㊂2.2 半导体生产过程数据半导体的生产过程是实际的工业过程例子,已广泛应用于利用数据驱动进行故障检测的领域中㊂本文结合半导体工业的实际例子,即以A 1堆腐蚀工业过程为例[1012],对前面提及的故障检测方法进行对比㊂该数据是由3个模态的107个正常批次和20个故障批次组成,每个模态分别选取32个批次用于建模,剩下的正常批次作为校验批次用来验证模型的准确性,因此建模批次为96个,正常校验批次为11个,故障批次为20个㊂在21个测量变量中筛选17个作为检测变量数据,选取的变量见表2,关于半导体的数据取自文献[1012]㊂本文采取最短长度的方法获取等长批次㊂消去初始状态的5个不稳定样本,储存85个样本来适应最短的批次㊂把三维建模信息X 根据每一个批次所在的方向进行展开,最终变成二维矩阵X ㊂该方式同样用于数据的校验和故障处理㊂对于二维矩阵,依次采取k N N ㊁L O F 以及M D -k N N3种方法来完成建模,将其应用于11个校验批次,以及20个故障批次,完成故障检测㊂对于k N N 方法,近邻数值k取3;对于L O F 方法,带宽取值为0.01,近邻数值取8㊂k N N ㊁L O F 以及M D -k N N3种检测方法的具384第6期 王晓云等:基于马氏距离k N N 的多模态过程故障检测体检测结果见图7,其中虚线表示各统计量95%的控制限㊂从图7可以得出:k N N 检测出所有校验数据,故障数据只检测出16个;L O F 检测出全部校验数据,而故障数据仅检测出13个;M D -k N N 则检测出所有校验数据和故障数据㊂相较于k N N 和L O F 算法,M D -k N N 算法的检测可靠性最高,证明了M D -k N N 算法对于多模态间歇过程故障检测的优越性㊂表2 半导体生产过程所用变量T a b l e2 V a r i a b l e s u s e d i n s e m i c o n d u c t o r p r o d u c t i o n p r o c e s s序号过程变量1B C 13流量2C 12流量3R F 底部功率4A 检测端点5氦压力序号过程变量6H e l i u m 压强7R F 调谐8R F 负荷9相对误差10R F 功率序号过程变量11R F 阻抗12T C P 调谐13T C P 相位误差14T C P 阻抗15T C P 顶部功率序号过程变量16T C P 负荷17V a t 阀门(a )k N N (b )L O F (c )M D -k N N图7 3种算法对半导体过程检测结果F i g .7 D e t e c t i o n r e s u l t s o f t h r e ea l go r i t h m s f o r s e m i c o n d u c t o r p r o c e s s 表3 半导体过程的检测结果对比T a b l e3 C o m pa r i s o no f d e t e c t i o n r e s u l t s o f s e m i c o n d u c t o r p r o c e s s %方法误报率漏报率k N N 020L O F035M D -k N N在3种算法中,M D -k N N 算法不仅误报率为零,漏报率也最低,具体数据见表3㊂3 结 论本文研究了以k N N 算法为基础的适用于多模态过程故障检测的新算法,该算法采用计算样本间马氏距离的方法消除模态间的方差差异,能够最大程度上分离多模态的正常和故障数据,使得检测的故障数据更准确㊂相较于传统的故障检测算法,本文算法应用在数值例子和实际的半导体工业数据上,可以有效减小误报率和漏报率㊂参考文献:[1]HU A N G JP ,Y A N X F .Q u a l i t y -d r i v e n p r i n c i p a lc o m p o n e n ta n a l y s i sc o m b i n e d w i t h k e r n e ll e a s ts q u a r e sf o r m u l t i v a r i a t e s t a t i s t i c a l p r o c e s sm o n i t o r i n g [J ].I E E ET r a n s a c t i o n s o nC o n t r o l S y s t e m sT e c h n o l o g y,2019,27(6):26882695.[2]H E Q P ,WA N G J .F a u l td e t e c t i o nu s i n g t h e k -n e a r e s tn e i g h b o rr u l ef o rs e m i c o n d u c t o r m a n u f a c t u r i n gp r o c e s s e s [J ].I E E E T r a n s a c t i o n s o nS e m i c o n d u c t o rM a n u f a c t u r i n g,2007,20(4):345354.[3]马贺贺,胡益,侍洪波.基于马氏距离局部离群因子方法的复杂化工过程故障检测[J ].化工学报,2013,64(5):16741682.MA H H ,HU Y ,S H IH B .F a u l t d e t e c t i o no f c o m p l e xc h e m i c a l p r o c e s s e su s i n g M a h a l a n o b i sd i s t a n c e -b a s e d l oc a l o u t l i e r f a c t o r [J ].C I E S CJ o u r n a l ,2013,64(5):16741682.[4]刘帮莉,马玉鑫,侍洪波.基于局部密度估计的多模态过程故障检测[J ].化工学报,2014,65(8):30713081.L I U BL ,MA Y X ,S H IH B .M u l t i m o d e p r o c e s sm o n i t o r i n g b a s e do n l o c a l d e n s i t y es t i m a t i o n [J ].C I E S CJ o u r n a l ,2014,65(8):30713081.[5]冯立伟,李元,张成,等.基于时空近邻标准化和局部离群因子的复杂过程故障检测[J ].控制理论与应用,2020,37(3):651657.484沈阳大学学报(自然科学版) 第33卷F E N GL W ,L IY ,Z H A N GC ,e t a l .T i m e -s p a c e n e i g h b o r h o o d s t a n d a r d i z a t i o n -l o c a l o u t l i e r f a c t o r b a s e d f a u l t d e t e c t i o n f o r c o m p l e x p r o c e s s [J ].C o n t r o lT h e o r y &A p pl i c a t i o n s ,2020,37(3):651657.[6]Z H A N GC ,G A O X W ,L IY ,e t a l .F a u l t d e t e c t i o n s t r a t e g y b a s e do nw e i g h t e dd i s t a n c eo f k n e a r e s t n e i g h b o r s f o r s e m i c o n d u c t o r m a n u f a c t u r i n gp r o c e s s e s [J ].I E E ET r a n s a c t i o n s o nS e m i c o n d u c t o rM a n u f a c t u r i n g,2019,32(1):7581.[7]S O N GB ,T A NS ,S H IH B ,e t a l .F a u l td e t e c t i o na n dd i a g n o s i sv i as t a n d a r d i z e d k n e a r e s tn e i g h b o r f o rm u l t i m o d e p r o c e s s [J ].J o u r n a l o f t h eT a i w a n I n s t i t u t e o fC h e m i c a l E n gi n e e r s ,2020,106:18.[8]郭金玉,刘玉超,李元.基于局部相对概率密度k N N 的多模态过程故障检测?[J ].高校化学工程学报,2019,33(1):159166.G U OJY ,L I U Y C ,L IY.M u l t i m o d a l p r o c e s s f a u l td e t e c t i o nb a s e do nl o c a l r e l a t i v e p r o b a b i l i t y d e n s i t y kN N [J ].J o u r n a lo f C h e m i c a l E n g i n e e r i n g o fC h i n e s eU n i v e r s i t i e s ,2019,33(1):159166.[9]K A L P A N A P ,G U N A V A T H I K.A n o v e l i m p l i c i t p a r a m e t r i cf a u l td e t e c t i o n m e t h o df o ra n a l o g /m i x e ds i g n a lc i r c u i t su s i n g w a v e l e t s [J ].I C G S T -P D C S J o u r n a l ,2007,7(1):4348.[10]W I S E B M ,G A L L A G H E R N B ,B U T L E R S W ,e ta l .A c o m p a r i s o n o f p r i n c i p a lc o m p o n e n ta n a l y s i s ,m u l t i w a y p r i n c i pa l c o m p o n e n t a n a l y s i s ,t r i l i n e a r d e c o m p o s i t i o na n d p a r a l l e l f a c t o ra n a l ys i s f o r f a u l td e t e c t i o n i nas e m i c o n d u c t o re t c h p r o c e s s [J ].J o u r n a l o fC h e m o m e t r i c s ,1999,13(3/4):379396.[11]郭金玉,王东琴,李元.基于二阶差商L P P 的多模态过程故障检测[J ].高校化学工程学报,2020,34(1):182189.G U OJY ,WA N G D Q ,L IY.F a u l t d e t e c t i o no fm u l t i m o d e p r o c e s s e s b a s e do n s e c o n do r d e r d i f f e r e n c e q u o t i e n tL P P [J ].J o u r n a lo fC h e m i c a l E n g i n e e r i n g ofC h i n e s eU n i v e r s i t i e s ,2020,34(1):182189.[12]G U OJY ,WA N GX ,L IY.F a u l t d e t e c t i o n b a s e d o n i m p r o v e d l o c a l e n t r o p y l o c a l i t y p r e s e r v i n g p r o j e c t i o n s i nm u l t i m o d a l pr o c e s s e s [J ].J o u r n a l o fC h e m o m e t r i c s ,2019,33(5):e 3116.D O I :10.1002/c e m.3116.ʌ责任编辑:肖景魁ɔ584第6期 王晓云等:基于马氏距离k N N 的多模态过程故障检测。
基于MapReduce的并行加权k近邻与离群检测郭娟娟;赵旭俊;张继福【摘要】利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基子Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性.【期刊名称】《太原科技大学学报》【年(卷),期】2019(040)004【总页数】9页(P249-257)【关键词】并行计算;加权k近邻;离群检测;Z-order曲线【作者】郭娟娟;赵旭俊;张继福【作者单位】太原科技大学计算机科学与技术学院,太原 030024;太原科技大学计算机科学与技术学院,太原 030024;太原科技大学计算机科学与技术学院,太原030024【正文语种】中文【中图分类】TP311k近邻查询是最简单的机器学习算法之一,用于多维空间中查询与给定对象最近的k个对象[1],其广泛应用于数据挖掘及地理信息系统等多个领域[2]。
同时k近邻查询也存在一些问题:传统方法在查询k近邻时,视所有属性对查询结果同等重要,但是在实际应用场景中,不同属性对查询结果的影响是不同的,若忽略不同属性的差异,将产生大量无意义的近邻数据;并且随着数据量的增大,传统k近邻查询方法处理效率低,不能满足大数据时代下人们对算法性能的要求。
MapReduce是由Google公司提出的一种具有可扩展和高容错的并行编程模型[3],它将数据进行分割并分布到多个工作节点上,利用集群数据节点之间的并行性,分别处理这些数据,然后执行归约操作,形成最终结果。
《多阶段过程k近邻算法的故障检测研究》一、引言随着工业自动化程度的不断提高,生产过程中的故障检测与诊断显得尤为重要。
准确、高效地识别和定位故障,不仅可以提高生产效率,还能有效避免因故障造成的损失。
在众多故障检测方法中,K近邻算法(K-Nearest Neighbors,KNN)因其简单易行、计算效率高等特点,在多阶段过程故障检测中得到了广泛应用。
本文将详细探讨多阶段过程K近邻算法的故障检测研究。
二、K近邻算法概述K近邻算法是一种基于实例的学习,或者说是懒惰学习的方法。
其基本思想是:一个样本的输出值由其最近K个邻居的输出值决定。
在故障检测中,算法通过计算待检测样本与训练集中各样本的距离,找出距离最近的K个邻居,根据这K个邻居的标签信息(正常或故障)来判断待检测样本的类别。
三、多阶段过程的特点多阶段过程通常指的是生产过程中包含多个连续或并行的阶段,每个阶段都有其特定的功能和任务。
在这种过程中,故障的发生往往不是突然出现的,而是随着过程的进行逐渐显现。
因此,对于多阶段过程的故障检测,需要考虑到过程的连续性和阶段性。
四、多阶段过程K近邻算法的应用在多阶段过程的故障检测中,K近邻算法可以通过以下步骤进行应用:1. 数据预处理:对多阶段过程中的数据进行预处理,包括数据清洗、特征提取等。
2. 构建训练集:从正常运行的数据中提取特征,构建训练集。
3. 计算距离:计算待检测样本与训练集中各样本的距离,距离的计算可以采用欧氏距离、曼哈顿距离等。
4. 寻找K近邻:根据距离的大小,找出待检测样本的K个最近邻居。
5. 判断类别:根据这K个邻居的标签信息(正常或故障),判断待检测样本的类别。
在多阶段过程中,由于不同阶段的特征可能有所不同,因此需要根据每个阶段的特点,分别构建训练集和模型。
同时,由于故障的逐渐显现性,可以在每个阶段都进行故障检测,以便及时发现并处理故障。
五、研究方法与实验结果本文采用某化工生产过程的多阶段数据作为实验数据,通过K近邻算法进行故障检测。
基于K近邻算法的异常检测技术研究近年来,随着技术的不断发展,各种新的数据交换方式和技术工具不断涌现。
然而,网络攻击和数据泄露等安全问题也随之不断增多,使得数据安全得不到保障,人们对于数据安全的重视程度也越来越高。
而在这个背景下,异常检测技术就显得尤为重要。
异常检测技术可以帮助我们发现异常行为或异常数据,及时警示,确保数据的安全。
在众多异常检测技术中,基于K近邻算法的异常检测技术具有较高的准确率和应用范围,成为微软、谷歌等公司关注和研究的热点。
一、K近邻算法简介K近邻算法是一种无监督学习算法,其基本思想是通过找到与待测点距离最近的K个邻居,根据邻居的类别进行分类。
K近邻算法是一种概率分类方法,即将待测点分配给各类的概率进行评估,具体步骤如下:(1) 计算欧式距离或曼哈顿距离(2) 选取与待测点最近的K个邻居(3) 统计K个邻居中类别的出现次数(4) 根据邻居的类别将待测点分类二、K近邻算法在异常检测中的应用K近邻算法广泛应用于异常检测中,其基本思想是根据样本数据进行无监督学习,在样本集中寻找K个最近邻居,将新的数据点进行分类,若未能归为任何一个类别,则判定为异常数据。
在这一过程中,K的取值对异常检测的结果有重要影响,通常K的取值越小,异常检测的阈值越高;反之,K的取值越大,则异常检测的阈值越低。
因此,K值的选择需要根据具体业务场景和数据分布进行合理的选择。
针对不同的异常检测场景,K近邻算法有多种变体,例如流式K近邻算法、局部离群点因子(KNN-LOF)、基于密度的局部异常因子(DBSCAN)等。
其中,局部离群点因子(KNN-LOF)算法通过计算每个点与其K个最近邻居的平均密度之比,来判断该点是否为异常点。
KNN-LOF算法在处理高维数据时,相对于其他传统的距离度量方法,拥有更好的时空效率和更精准的结果。
三、基于K近邻算法的异常检测技术的优缺点优点:(1) 简单易懂,可解释性较强(2) 相对于其他异常检测算法,K近邻算法的计算量较小,处理大规模数据时具备较好的效率(3) K值的选择具有一定的灵活性,可根据具体业务场景和数据分布进行调整(4) 对于连续和离散型数据均具有较好的处理能力,具有较高的通用性和适用性缺点:(1) 对于高维数据处理效果不佳,K近邻算法在处理高维数据时,容易产生“维度灾难”问题,导致模型的准确率下降(2) K近邻算法对于异常点的分类存在不确定性,容易受到噪声干扰,影响分类结果的准确性四、结论基于K近邻算法的异常检测技术在实际应用中具备较高的准确性和性能,其简单易懂、处理规模大的数据具有优势。
简述k-nn算法原理,基于应用场景举例佐证K最近邻算法(k-nearest neighbors algorithm,简称k-nn算法)是一种用于分类和回归的非参数统计方法。
其原理是基于欧氏距离或其他距离度量方法,通过检测最近邻的k个样本,来判断待分类样本所属的类别。
k-nn算法的核心思想是通过测量不同特征之间的距离,来确定样本之间的相似度。
在分类问题中,当有一个未分类的样本时,算法会计算它与已知类别的样本的距离,然后根据最近的k个样本的类别进行投票,从而确定待分类样本所属的类别。
而在回归问题中,k个最近邻样本的平均值或加权平均值将被用来预测待回归样本的值。
k-nn算法的执行过程简单但效果不错,因此在许多领域都被广泛应用。
举例来说,假设我们要使用k-nn算法对一组动物的图像进行分类。
我们首先收集了一系列动物的图片,并为每张图片提取了特征,比如颜色、纹理等信息。
接下来,我们需要训练一个k-nn分类器,即在已知动物类别的样本中,通过k-nn算法找到这些动物图片之间的相似性,并用这些相似性信息来进行分类。
当我们要对一张新的动物图片进行分类时,k-nn算法会首先计算这张图片与已知动物图片的距离,然后找到距离最近的k个样本。
最后,根据这k个样本的类别,通过投票的方式来确定待分类动物图片所属的类别。
比如,当k=3时,若这3个最近的样本中有2个是狗的图片,1个是猫的图片,那么这张待分类的图片就可能被判定为狗。
除了动物分类外,k-nn算法还被广泛应用于其他领域,比如医学诊断、金融风险评估、推荐系统等。
在医学方面,可以使用k-nn算法来判断病人的病情类别,比如是否患有某种疾病。
在金融行业,可以利用k-nn算法来预测贷款申请者的信用风险。
在推荐系统中,k-nn算法可以根据用户对商品的喜好程度来进行商品推荐。
当然,k-nn算法也存在一些缺点。
由于需要计算待分类样本与所有已知样本的距离,当样本量较大时,计算成本会变得非常高。
基于KPCA与马氏距离的达林顿管故障预测LIU Qiang;CHENG Jinjun;TAN Yangbo;GUO Wenhao;LI Jianfeng【摘要】为了对达林顿管进行故障预测,提出了基于KPCA与马氏距离的达林顿管故障预测方法.通过对达林顿管进行失效机理分析,设计了加速退化试验,并获取了集电极导通电流与饱和压降性能退化数据,利用小波包分解与核主成分分析进行数据处理,滤除了原始数据中的干扰信号,得到了退化数据的主成分,结合马氏距离对处理后的数据进行特征融合,得到了可以表征达林顿管健康状态变化的健康因子.使用2种故障预测算法对健康因子进行预测,故障预测结果验证了文中方法的有效性,预测值与真实值的误差均在10%以内.【期刊名称】《空军工程大学学报(自然科学版)》【年(卷),期】2018(019)005【总页数】7页(P71-77)【关键词】故障预测;达林顿管;核主成分分析;马氏距离;健康因子【作者】LIU Qiang;CHENG Jinjun;TAN Yangbo;GUO Wenhao;LI Jianfeng 【作者单位】;;;;【正文语种】中文【中图分类】TP211.5达林顿管是一种大功率晶体管,使用达林顿管能够实现微处理器对大功率器件的驱动。
达林顿管作为整个驱动电路的核心器件,其健康状态对整个电路能否正常工作起决定性的作用。
因此,开展对达林顿管故障预测研究有非常重要的意义。
获得能够准确表征研究对象健康状态的特征参数是进行故障预测工作的前提[1]。
由于采集到的原始信号往往表现出非线性的特征,且掺杂噪声等不利因素,导致无法通过直接监测数据了解器件真实的健康状态。
因此,在进行研究之前,要对采集到的数据进行预处理。
一般的数据预处理手段分为特征识别、特征提取、特征融合等。
目前,这些手段已经成功地运用于各类器件的故障诊断和预测研究当中。
文献[2]用主成分分析法(Principal Component Analysis, PCA)对光伏系统的多个特征量进行特征提取,从而对系统的健康状态进行构建;文献[3]用级联神经网络融合多种数据用于完成机械转子不平衡的故障诊断;文献[4]用瞬时混合函数融合频率和时间数据,对齿轮导线的裂纹进行估计;文献[5]用基于模糊推理的特征融合方法,得到一个故障预测指示器,从而通过趋势分析对故障进行预测。