基于加权混合特征的话者识别算法
- 格式:pdf
- 大小:4.35 MB
- 文档页数:6
局部二次加权与多特征融合的行人检测算法何博;全惠敏【摘要】针对复杂背景下采用单一特征进行行人检测时的局限性,提出了一种融合多种特征并运用模板弹性模型与局部二次加权的算法,将梯度直方图(HOG)、肤色、发色与曲率有效融合,建立了适用行人检测的各特征模型.第一级采用改进HOG特征结合模板弹性模型利用SVM分类器初次检测;第二级提取局部模板感兴趣区域(ROI)进行头部肤色、发色与腿部曲率检测.实验表明,该算法弥补了单一特征的不足,有效检测了行人整体与局部关键特征,提高了识别性能.【期刊名称】《计算机工程与应用》【年(卷),期】2016(052)009【总页数】6页(P154-158,189)【关键词】方向梯度直方图;肤色;发色;曲率;弹性模型;局部二次加权【作者】何博;全惠敏【作者单位】湖南大学电气与信息工程学院,长沙410082;中国人民解放军 95039部队;湖南大学电气与信息工程学院,长沙410082【正文语种】中文【中图分类】TP391HE Bo,QUAN Huimin.Computer Engineering and Applications,2016,52(9):154-158.行人检测在安全驾驶、视频监控等领域有着广泛的应用前景,是备受关注的热门研究方向。
由于行人在图像中存在大小不一、颜色各异、姿态万千、位置不定、局部遮挡、光照变化等问题,行人检测的性能还有待不断进步提高。
目前针对行人检测主要有二类方法:一种是形状模板匹配的算法,如头肩部的“Ω”形轮廓有很好的不变性,腿部的竖直形也能较好地描述目标,利用形状的相似性来检测。
此类算法计算简单快速,但缺点也很显著,受背景影响大,鲁棒性不高。
另一种是提取特征向量,基于统计分类学习的方法[1],分为表征待检测目标的描述算子和学习算法二方面。
较早应用的特征描述算子有Haar-Like特征、局部边缘方向直方图EOH、局部纹理特征LBP[2]、Edgelet特征等,学习算法主要有AdaBoost集成学习、神经网络(Neural Network,NN)和支持向量机(Support Vector Machine,SVM)[3]。
一、前言在语音处理领域,说话人识别是一个重要的研究领域,它可以应用在语音识别、语音合成、人机交互等方面。
高斯混合模型(GMM)是一种常用的统计模型,被广泛应用在说话人识别领域。
本文将着重介绍基于高斯混合模型的说话人识别算法的设计与实现。
二、高斯混合模型简介1. 高斯混合模型(GMM)是一种用高斯分布函数表示数据分布的概率模型。
GMM 假设每个说话人的语音信号是由多个高斯分布组合而成,每个高斯分布对应一个声学特征。
2. GMM 是一个参数聚类模型,其中每个高斯分布的参数包括均值向量、协方差矩阵和权重。
在说话人识别中,可以利用 GMM 对声学特征进行建模,进而识别说话人。
三、基于高斯混合模型的说话人识别算法设计1. 语音特征提取在说话人识别中,首先需要对语音信号进行特征提取。
常用的语音特征包括MFCC(Mel频率倒谱系数)、PLP(Perceptual Linear Prediction)等。
2. 使用GMM建模得到语音特征后,可以利用GMM对每个说话人的语音样本进行建模。
对于每个说话人,可以建立一个针对其语音特征的GMM模型。
3. 训练GMM模型在训练阶段,需要使用已知说话人的语音样本来训练GMM模型。
通常可以使用EM算法(Expectation Maximization Algorithm)来求解模型参数,使得GMM能够更好地拟合说话人的语音特征。
4. 说话人识别在识别阶段,当有未知说话人的语音输入时,可以使用已训练好的GMM模型对其语音特征进行匹配,从而识别说话人身份。
四、算法实现基于上述设计,可以使用MATLAB或Python等语言进行算法实现。
首先需要编写语音特征提取的代码,然后利用GMM库对语音特征进行建模和训练。
完成说话人识别的实现,输出识别结果。
五、算法优化与改进1. 特征选择在说话人识别中,语音特征的选择对算法性能有很大影响。
可以考虑使用更高级的特征提取算法,如I-Vector等。
基于深度神经网络的特征加权融合人脸识别方法作者:孙劲光孟凡宇来源:《计算机应用》2016年第02期摘要:针对目前难以提取到适合用于分类的人脸特征以及在非限条件下进行人脸识别准确率低的问题,提出了一种基于深度神经网络的特征加权融合人脸识别方法(DLWF)。
首先,应用主动形状模型(ASM)提取出人脸面部的主要特征点,并根据主要特征点对人脸不同器官区域进行采样;然后,将所得采样块分别输入到对应的深度信念网络(DBN)中进行训练,获得网络最优参数;最后,利用Softmax回归求出各个区域的相似度向量,将多区域的相似度向量加权融合得到综合相似度评分进行人脸识别。
经ORL和WFL人脸库上进行实验验证,DLWF算法的识别准确率分别达到97%和88.76%,与传统算法主成分分析(PCA)、支持向量机(SVM)、DBN及FIP+线性判别式分析(LDA)相比,无论是限制条件还是非限制条件下,识别率均有提高。
实验结果表明,该算法具有高效的人脸识别能力。
关键词:人脸识别;非限制条件;深度信念网络;加权融合;主动形状模型中图分类号: TP391.41文献标志码:AAbstract:It is difficult to extract suitable face feature for classification, and the face recognition accuracy is low under unconstrained condition. To solve the above problems, a new method based on deep neural network and weighted fusion of face features, namely DLWF, was proposed. First, facial feature points were located by using Active Shape Model (ASM), then different organs of face were sampled according to those facial feature points. The corresponding Deep Belief Network (DBN) was trained by the regional samples to get optimal network parameters. Finally, the similarity vector of different organs was obtained by using Softmax regression. The weighted fusion of multiple regions in the similarity vector method was used for face recognition. The recognition accuracy got to 97% and 88.76% respectively on the ORL and LFW face database; compared with the traditional recognition algorithm including Principal Components Analysis (PCA), Support Vector Machine (SVM), DBN, and Face IdentityPreserving (FIP) + Linear Discriminant Analysis (LDA), no matter under the constrained condition or the unconstrained condition, recognition rates were both improved. The experimental results show that the proposed algorithm has high efficiency in face recognition.Key words:face recognition; unconstrained condition; Deep Belief Network (DBN);weighted fusion; Active Shape Model (ASM)0 引言人脸识别一直是计算机视觉与模式识别领域的研究热点。
基于加权多头并行注意力的局部遮挡面部表情识别近年来,面部表情识别技术在人工智能领域中得到了广泛应用。
然而,由于面部遮挡、光照变化等因素的影响,传统的面部表情识别方法在准确性和稳定性方面存在一定的局限性。
为了解决这个问题,基于加权多头并行注意力的局部遮挡面部表情识别方法应运而生。
一、加权多头并行注意力模型加权多头并行注意力模型是一种综合利用多个注意力头进行表情识别的方法。
通过对人脸图像进行分块处理,并对每个块应用注意力机制,可以针对不同的局部区域进行重点关注,提升表情识别的准确性。
在加权多头并行注意力模型中,首先将人脸图像划分为多个小的局部区域。
然后,对每个区域应用独立的注意力机制,使得不同的区域可以获得不同的权重。
最后,将所有区域的特征加权融合,得到最终的表情识别结果。
二、局部遮挡问题的解决在实际应用中,面部遮挡是面部表情识别的一个主要难题。
由于帽子、口罩等遮挡物的存在,传统的面部表情识别方法往往无法准确地获取遮挡区域的特征信息。
而基于加权多头并行注意力的方法可以通过注意力机制对非常规区域进行特别关注,从而提高对遮挡面部表情的识别能力。
针对面部遮挡问题,加权多头并行注意力模型可以通过以下步骤解决:1. 预处理:对图像进行预处理,检测遮挡面部区域,并标记出关键点。
2. 区域划分:将遮挡面部区域划分为更小的局部区域。
3. 注意力机制:对每个局部区域应用注意力机制,产生不同权重的特征向量。
4. 加权融合:将所有局部区域的特征向量按照权重进行加权融合,得到最终的识别结果。
通过以上步骤,基于加权多头并行注意力的局部遮挡面部表情识别方法可以有效地提高对遮挡面部表情的准确性和稳定性。
三、实验结果与讨论为了验证基于加权多头并行注意力的局部遮挡面部表情识别方法的有效性,我们进行了一系列的实验。
实验结果表明,与传统的面部表情识别方法相比,基于加权多头并行注意力的方法在准确性和稳定性上均有显著提升。
尤其是在面部遮挡较为严重的情况下,该方法仍能够准确识别出面部表情,具备更好的鲁棒性。
收稿日期:2011-06-24;修回日期:2011-08-08。
基金项目:国家973计划项目(2007CB311106);国家242信息安全专项((242)2009A82)。
作者简介:刘磊(1983-),男,云南石林人,硕士研究生,主要研究方向:信息安全、计算机网络;陈兴蜀(1968-),女,四川成都人,教授,博士生导师,博士,主要研究方向:信息安全、计算机网络;尹学渊(1988-),男,云南巧家人,博士研究生,主要研究方向:信息安全、计算机网络;段意(1985-),男,四川巴中人,硕士研究生,主要研究方向:信息安全;吕昭(1986-),男,河北石家庄人,硕士研究生,主要研究方向:信息安全。
文章编号:1001-9081(2011)12-3268-03doi :10.3724/SP.J.1087.2011.03268基于特征加权朴素贝叶斯分类算法的网络用户识别刘磊,陈兴蜀,尹学渊,段意,吕昭(四川大学计算机学院,成都610065)(liulei982003@yahoo.com.cn)摘要:基于网络用户的访问记录,提出了采用特征加权的朴素贝叶斯分类算法对用户进行识别。
首先利用基于WinPcap 框架的数据采集系统对用户访问记录进行采集,通过分析记录从5个方面对用户特征进行统计,并经过筛选后对特征进行选取,最后采用特征加权的朴素贝叶斯分类算法对3300个测试样本进行识别,识别率达到了85.73%。
实验结果表明该算法能够有效实现对网络用户身份的识别。
关键词:用户识别;朴素贝叶斯分类器;特征加权;特征选择;数据采集中图分类号:TP391.4文献标志码:ANetwork user identification based featureweighting naive Bayesian classification algorithmLIU Lei,CHEN Xing-shu,YIN Xue-yuan,DUAN Yi,L Zhao(College of Computer Science,Sichuan University,Chengdu Sichuan 610065,China )Abstract:Based on the access logs of network users,Feature Weighting Naive Bayesian Classification (FWNBC)algorithm was used to identify users.Firstly,the data acquisition system based on WinPcap framework was used to collect the access logs of network users,features were counted from five aspects by analyzing these access logs,and then selected after filtering,at last the FWNBC algorithm was used to identify the 3300samples,and the recognition rate reached 85.73%.The experimental results show that this algorithm is effective to identify the network users.Key words:user identification;naive bayesian classifier;feature weighting;feature selection;data acquisition0引言随着我国网民数量的不断增多,与网络应用相关的问题也日益凸显出来,如利用网络发布淫秽、反动信息等等。
基于加权Hu矩和HOG特征的自适应融合人体行为识别新方法梁琛华;常青;胡谋法【摘要】Aiming at the poor recognition performance of the HOG in strong noise condition and weighted Hu moment in weak noise condition,the mapping relation between weighting coefficients and noise parameters is estimated by the least squares fit. Self-adaptation of fused parameters reached the purpose of the feature fusion of weighted Hu moment and HOG. Experiments show that the feature recognition based on Weighted Hu Moment and HOG has good noise tolerance,wide-range application and stable recognition rate.%针对HOG在强噪条件下以及加权Hu矩在弱噪条件下识别性能较差的情况,通过最小二乘拟合估计加权系数与噪声参数之间的映射关系,自适应调整融合参数达到将加权Hu矩和HOG特征融合的目的。
实验证明,基于加权Hu矩和HOG的特征识别对噪声的容忍度更好,适用范围更广,识别率更稳定。
【期刊名称】《现代电子技术》【年(卷),期】2014(000)001【总页数】5页(P14-18)【关键词】加权Hu矩;噪声估计;自适应融合;加权系数【作者】梁琛华;常青;胡谋法【作者单位】国防科学技术大学 ATR重点实验室,湖南长沙 410073;国防科学技术大学ATR重点实验室,湖南长沙410073;国防科学技术大学ATR重点实验室,湖南长沙 410073【正文语种】中文【中图分类】TN911.73-34近年来,随着计算机视觉技术的发展,人体行为识别逐渐成为研究的热点。
基于FVQMM的说话人识别方法杨彦;赵力【摘要】为了进一步提高基于高斯混合模型的与文本无关说话人识别系统的识别性能,本文针对高斯混合模型在建模时需要较多的训练数据的缺陷,提出了一种新的应用于小样本说话人识别系统的与文本无关说话人识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速度。
同时由于模糊集理论起到了“数据整形”的作用,所以增强了目标说话人数据的相似性。
实验结果表明该方法针对小样本数据的说话人识别系统,识别性能优于传统的基于高斯混合模型的说话人识别系统。
%In order to further improve the performance of speaker recognition system based on the GM M independent of text ,a new speaker recognition method is applied tothe speaker recognition system with small samples and textindependent .Aiming at the large quantity demanded of training data during the modeling of the GM M ,the advantages of the fuzzy‐settheory ,vector quantization and the GM M are con‐sidered .Then through replacing the output probability function in the traditional GMM with the error scale of the fuzzy VQ ,the requirements of the training data amount are reduced while improving the ac‐curacy and recognition speed of the model .M eanw hile as a result of the fuzzy‐set theory playing a role of"plastic date",the similarity in the data of the target speakers is enhanced .Experimental results exhibit that the speaker recognition system of the method for the small sample data ,achieves a superior recogni‐tionperformance than the traditional speaker recognition system based on the GMM .【期刊名称】《数据采集与处理》【年(卷),期】2015(000)006【总页数】7页(P1233-1239)【关键词】说话人识别;模糊集理论;矢量量化;高斯混合模型【作者】杨彦;赵力【作者单位】江苏盐城工业职业技术学院汽车工程学院,盐城,224005;东南大学信息科学与工程学院,南京,210096【正文语种】中文【中图分类】TN912.34自动说话人识别(Automatic speaker recognition, ASR)很久以来就是一个既有吸引力又有相当困难的课题。
第45卷第6期 2017年12月浙江工业大学学报JO U R N A L OF ZH EJIAN G U N IVE R SIT Y OF TECH N O LO GYV ol. 45 No. 6Dec. 2017基于加权混合特征的话者识别算法徐志江,赵梦娜,卢为党(浙江工业大学信息工程学院,浙江杭州310023)摘要:用多窗谱估计和伽马通滤波改进经典的梅尔倒谱特征(M F C C)的识别性能,并与d e lt a特征 相结合,提出了一种基于加权参数设置策略的混合特征话者识别算法.该算法解决了梅尔倒谱系数 方差过大、听觉特征不明显及话者识别算法特征单一的问题.仿真结果表明:与M F C C和线性预测 的提取方法相比,该算法鲁棒性能更优,对不同噪声环境的适应性更好.关键词:多窗谱估计;伽马通滤波器组;加权函数;加权混合特征中图分类号:T P391 文献标志码:A文章编号=1006-4303(2017)06-0628-06Speaker recognition algorithm based on weighted mixture featuresX U Z h ijia n g,Z H A O M e n g n a,L U W e id a n g(College of Information. Engineering %Zhejiang University of Technology,Hangzhou 310023,China)A b s tr a c t:M u lti-w in d o w s p e c tru m e s tim a tio n an d g a m m a-p a ss f ilt e r in g are used to im p ro v e th e re c o g n itio n p e rfo rm a n c e o f c la s s ic a l M e l-c e p s tr a l fe a tu re(M F C C).C o m b in e d w it h th e d e lta f e a tu r e,a m ix e d fe a tu re s p e a k e r re c o g n itio n a lg o r ith m based on w e ig h te d p a ra m e te r s e ttin g s tra te g y is p ro p o s e d.T h e a lg o r ith m s o lve s th e p ro b le m th a t th e M e l-c e p s tra l c o e ffic ie n t v a ria n c e is to o la r g e,th e a u d ito r y fe a tu re s are n o t o b v io u s,a n d th e fe a th e r o f sp e a k e r r e c o g n itio n a lg o r ith m is s im p le.T h e s im u la tio n re s u lts s h o w th a t th e p ro p o s e d a lg o r ith m has b e tte r ro b u s t p e rfo rm a n c e a n d b e tte r a d a p ta b ility to d iffe r e n t n o is e e n v iro n m e n ts th a n M F C C a n d lin e a r p re d ic tiv e e x tra c tio n m e th o d s.K e y w o rd s:m u lti-w in d o w s p e c tru m e s tim a tio n;g a m m a-p a ss f ilt e r b a n k;w e ig h te d p a ra m e te r;w e ig h te d m ix e d c h a ra c te ris tic p a ra m e te rs说话人特征提取算法从话者语音中提取能够表 征话者个性特征的参数,是话者识别算法中的核心技术之一.目前,在话者识别算法中应用最为广泛的 特征参数有梅尔倒谱系数(M e l fre q u e n c y c e p s tra lc o e ffic ie n t M F C C),线性预测倒谱系数(L in e a r p red ic tio n ce p s tru m c o e ffic ie n t L P C C),'周等[1].梅尔倒谱系数是基于人耳听觉特征的特征参数,具有较好的区分度,是当前话者识别的主流参数[2].实验表明人耳具有特别优异的语音识别性能收稿日期:2016-12-14基金项目:国家自然科学基金资助项目(61471322,61402416)和抗噪性能.研究结果表明:相对于M e l滤波器组,伽马通滤波器组可以更好地模拟人耳耳蜗听觉模型.因此,笔者采用伽马通滤波器组优化M e l倒谱 提取算法.进一步针对M F C C频谱具有高方差,且 有时延性的缺点(],摒弃传统谱估计,利用多窗谱估 计来提取基于伽马通滤波器组和多窗谱估计的改进 M F C C.改进的梅尔倒谱参数具有实时性,且其谱估 计值具有低方差性,相对于利用特征弯折、R A S T A 滤波等算法提取的M F C C,具有更好的鲁棒性.同作者筒介:徐志江(1973—),男,浙江绍兴人,副教授,研究方向为信道编译码、网络测量与建模、计算机网络及应用等,E-mail: zyfxz®.第#期徐志江,等:基于加权混合特征的话者识别算法• 629 •时,新型MF C C特征也具有缺点,其只反映语音静态特性,缺失动态信息[4],因此笔者提取该特征的二 次特征即D e lt a 特征加入特征向量.在对经典梅尔倒谱系数进行深入研究后,发现 该特征参数的各个分量对语音的表征能力不同.进 一步针对改进的基于伽马通滤波器组和多窗谱估计 的M F C C的参数特性,分析特征的各维系数对语音表征的贡献度,提出一种基于加权函数的改进M > 倒谱混合特征参数.1文献算法概要1.1 经典M F C C 提取人耳听到的声音高低与声音本身的频率并不是 线性成正比关系[5]. —般使用M e l 刻度来描述不同频率的声音对听觉系统的作用.梅尔频率与声音频率的公式[]为M e l (/) $ 2 595l n (l + //700)(1)M F C C的提取流程图如图1所示.图1M F C C 提取过程Fig . 1 MFCC extraction process1.2 多窗谱估计计 一种不的数,用它们频域的平均值来获得语音信号的频谱估 计的算法•设X $ [x (0),…,x (N — 1)为一帧有N 个采样点的语音信号,多窗谱估计[7]的定义为RM -1F/) $ )!() | )%■⑴#()e —2&B //M |2 (2)"$ 1 t $ 0式中:R 为正交窗函数的个数;% ()为正交窗函数; !()为第"个窗函数对应的权值;M 为语音帧个数• 1; 伽马通滤波器马 通 滤一的觉 滤器,其滤波器组的冲激响应的典型模式[8]为() $ 6B -1 exp (— 2&Q t )c 〇s (2&/B / )4)t # 0, " k " 9 (3)式中:A 为滤波器增益;9为滤波器阶数;久为中心 频率;%为相位;Q k 为衰减因子,其决定了滤波器冲 激响应的衰减速度,并与相应滤波器的带宽有关,bk $ 1. 019E R B (/k )•E R B (/k )为等效矩形带宽,即E R B /k ) $24. 7(1/43/4) ⑷这里设定9 $ 24,即由24个滤波器叠加成伽马 通 滤来滤模 •2加权改进特征提取2.1M F C C缺陷分析频谱的估计是M F C C提取过程中的重要步骤.然而,经典的谱估计一般采用单窗对语音进行加窗,这使得到的频谱具有高方差值,引起巨大的M F C C 偏差,降低识别的准确性.笔者采用多窗谱估计来解 决该问题.此外,MF C C是基于人耳听觉特性的特征,具有良好的区分性.但梅尔滤波器组却不能很好 地模拟人耳耳蜗的听觉模型,从而严重影响到梅尔 倒谱特征的识别性能.因此,采用伽马通滤波器替代滤来模觉 模 , 提 一 种 基 于多窗谱和伽马通滤波器组的改进M F C C特征(R M F C C ,R e fo rm a tiv e M F C C ).语音信号具有时变特性,但R M F C C并不能表征帧间相关性.而各人发音的习惯差异主要表现在 语音信号频谱结构的时间变化上,因此应充分利用 语音的动态特征以弥补R M F C C 的缺陷.将R M F C C 的动态特征(D e lta )加入特征向量.实验证明:倒谱特征各维分量的均方差差异十 分明显,参数的各个分量对系统识别率的贡献并不 相同[9].特征参数分量中对语音的表征能力微弱的部分不仅不能提高识别率,反而会降低识别性能.若维 分, 这 一 种 比较粗糙的方法.进一步,加权参数是一种至关重要的 参数,与加入向量的特征特性以及环境有关,对说话 人识别算法具有很大的影响,笔者将根据R M F C C 和D e l t a的特性和噪声环境,提出加权参数设定策略.2.2M F C CR M F C C算法拋弃传统的谱估计,利用多窗谱估计,且将三角滤波器组改为伽马通滤波器组.多窗 谱估计在减小语音频谱方差上的性能优越.而伽马 通滤波器组是基于人耳耳蜗听觉模型建立的,可以 很好地模拟人耳基底膜的分频特性,并可进一步抑 制语音的背景噪声,具有一定的抗噪性.因此,R M F C C既可以减小频谱方差,提高特征的准确性, 又可以更好地模拟人耳特性,还使倒谱特征具有一 定 的能 , 因结新觉征参数.图2为R M F C C特征的提取流程图.)c 变换取对数M滤波器组F F T,变换分帧加窗预加重• 630 •浙江工业大学学报第45卷"部分的前20个说话人(男女各10人)的-进R M F C C 提取.进而深入研究不下R M F C C的特性.R M F C C特征参数图如图4所示. 图5为在信噪比为5 dB的b a b b le ,c a r ,f a c t o r y ,w h it e等四种噪声环境下,最大幅度值的R M F C C 在维数上的分布图.510152025维数图4R M FC C 的参数分布Fig. 4Parameter distribution of RMFCC图5 R M F C C 最大幅值位置分布Fig . 5 Maximum amplitude position distribution of RMFCC分析图4可 :R M F C C 特征参数在第2维和第13维 的参大,而在第10维到第12维 于0.从图5可:在4种噪声中,R MF C C的最大幅值大多分布在第1〜3维,其余基本集中在第12〜15维,还有少部分集中 于第15〜17维.由此可得语音能量主 中在低频.研究表明:幅甚至于0部分的能力较弱,为 参数的区分性突出,力 函数的最大与 参数的最大幅匹,显然,式的数并不理想.因此提出另一种加权函数为:=a / cos (3& m /1"s in (m /57i " (7)式中,为特征参数的维数,设定,$24#为加权函 数的静态分量,根 结果,设定a $ 0.35,目的保 数不会完全衰减,同时保证低维分量的作比高维分大.数分 图 图6,的如图7所示.对比图5,6可以得到:改进加权函数的峰与R M F C C最大幅值的 分布基本一.由于幅值大小与该维 的 能力成比,因此改 数能够提的.分析图7可得:说话人数处理后,在保参数较大幅值的同时,对可能起的图2 RM FCC 提取流程图 Fig. 2RMFCC extraction process2. 3 D e lt a 参数的提取D e lta通过将特征向量在语音帧序列的时序上做一次傅变换了向量的D e lta.笔 R M F C C提的间动态信息.D e lt a 公式[10]定义为)d (c /& ~c ?-&&$1___________2)&(5)式中为第+帧语音的第?维R M F C C系数的D e lt a 特征;c ?为第?维R M F C C谱系数;为第+帧时序变化的语音帧的数量,一般取2或3.2.4参数定各维 参数分量对说话人识别的表征能力是不同的,为増强参数的区分性%向量的 (参数能 突出说话人的 ,识别献较低的三分衰 处理. 在 向维分量与 数相乘%大反映 的个性信息.笔弦数 ,传的弦函数[11]为:$ 0. 5 + 0. 5s in (&(5 — 1)/L )5* [1,L ] (6)式中L 为特征参数的维数.传统的升半正弦 参数分 图3.由图3可知:传弦函数值在第13维左右时最大,但在第2维于0.图3 升半正弦函数加权参数分布 Fig. 3Weighted half-sine functionT I M I T标准语音数据库[12]中d r 1〜 d r 5(其中,d r为T I M I T语音库中的分类文件夹名)C T ,变换取对数a m eL m o n滤波多窗谱估计分帧预加重第6期徐志江,等:基于加权混合特征的话者识别算法•631 •幅值较小的波动进行一定的弱化,从而 1权特征参数能 确地反映不同说话人的区别.0 510 15 20 25维数图6改进的加权函数参数分布Fig. 6 Improved weight function parameter distribution维数图7 加权R M FC C的参数分布Fig. 7 Weighted RMFCC parameter distribution中的语音必然会包含噪声,而去噪也 处理的一 的过程,分析图8可知: R M F C C特征参数的第4〜6维特征以及14,15维大,会一定 降低识别性能.因,为优化识别性能,采用维度筛选,选择 说话人能力良好,且 的.在 :参数组合时,选择1〜3,7〜13,16〜24维特征.将 R M F C C和d e l t a特征相组合得到38维混合特征向量.维数图8受噪的R M FCC参数分布Fig. 8 The parameter distribution of noisy RMFCC3实验结果与分析3.1实验参数的设定本实验采用T I M I T标准语音实验库中的语音数据.语音库中具有多人的纯净 ,时长为3〜6s.语音采样率为16 k H z,采样精度为16 b i t,语音分帧长度为16 m s.N O I Z E X-92是一种标 准的 库,具有多种常用的噪声[13].笔 ^用库中c a r,r e s ta u r a n t,s t r e e t这三种噪声,每种噪 的信噪比分别为15,1〇,5,〇d B.针 识别而,识别结 有正确和 这两种情况,且正确概和 和为1,确识别概作为 算法性能的 .3;特征提取实验一测试R M F C C听觉特征对话者语音的区 别性能.采用随机从纯净T I M I T语音库中d r3,d r5数 中的24个说话人(男女各12 个",说话人语音,随机选择一段作为:音,其作为.R M F C C觉 的噪性能,采用T I M I T语音库中的 ,分别在c a r,s t r e e t,r e s t a u r a n t环境下进行试验.实验三测试在三种 下,测试加权混合特征的改进的有 和 .、分帧,对每帧语音 提取R M F C C,D e lt a两种参数.对两种特征参数进,混向量.采用高斯混合模型——支持向量机混合模型参数 建模和分类[1415].其中高斯混合模型混合阶数为16.3.3结果与分析实验一的话者识别结果如表1所示.表1纯净T IM IT语音下的识别率Table 1 The recognition rate of pure TIMIT speechdr3 0.8610.8810.916dr5 0. 863 0. 904 0. 894分析 1的结 ,R M F C C与M F C C在纯 净下的性能,而L P C C相比这两者较差,R M F C C和M F C C均比L P C C高约3a左右. 这结果表明新型听觉R M F C C有识别能<实验二的话者识别结果见图9〜11.分析图9〜11可以看出:在三种噪声情况下,R M F C C的识别 性能明显比M F C C,L P C C更好.在语音环境恶劣的 情况下(信噪比在0〜5d B时"R M F C C随着信噪 比的 ,识别率増长速大于M F C C和 L P C C,且识别 高于其 种 参数.这说明 R M F C C的抗噪性比M F C C,L P C C更强,在低信噪 比环境下,鲁棒性更为优异.信噪比为10〜15 dB 时,图9〜11中传统M F C C和L P C C的识别性能相 对近似,但同比M F C C性能较好.这是因为M F C C 能 描述元音,而L P C C对辅音的描述效果较优,基于不同的 ,识别 有变化.此外,M F C Co o o oo• 632 •浙江工业大学学报第45卷Recognition results under car noise参数强调低频信息,且参数无任何前提假设,因此抗 噪性比L P C C 参数更强,在0〜5d B环境下性能更优.R M F C C与M F C C ,L P C C 识别率相差不多,这说明在环境优良时,三种参数的性能相差不多,这表示R M F C C同样适合在信噪比良好的情况下作为话者识别算法的特征参数.这个结果证明不同的语音 环境下,RM F C C的鲁棒性都比M F C C ,L P C C.0 5 10 15信噪比/dB图12C a r 噪声下的识别结果Fig . 12 Recognition results under car noise图13 S treet 噪声下的识别结果图Fig . 13 Recognition results under street noise图14 restaurant 噪声下的识别结果图Fig . 14 Recognition results under restaurant noise4结论在研究多窗谱估计和M F C C时,针对传统M F C C方差过大和区分性能不佳的缺陷,采用多窗谱提取特征频谱,并利用伽马通滤波器替代三 角滤波器模拟人耳耳蜗滤波模型,弥补M F C C特征的缺陷.从而得到一种基于多窗谱估计和伽马 通滤波器组的新型听觉特征参数R M F C C .由于R M F C C是静态特征,缺失语音的动态信息,因此为保证说话人特征信息的完整性,提取说话人语 音的动态特征即D e lt a 特征.进一步,分析R M F C C特征参数的幅值位置分布的特性,提出改进的加数.,提 一种 基于新型听觉特征和加权函数的加权混合特征.实 验结果表明'是出的加权混合特征与M F C C ,L P C C 相比,不仅在良好语音环境下具有优良的鲁棒性, 并且在低信噪比环境下具有更好的识别性能和抗.51015信噪比/dB图10S treet 噪声下的识别结果Fig . 10 Recognition results under street noise信噪比/dB图 11 Restaurant 识别 果Fig . 11 Recognition results under restaurant noise 实验三的话者识别结果见图12〜14.对图12〜14的识别结果分析可以得到:加权混合特征的识别 率总体要明显高于R M F C C ,M F C C ,L P C C .这证明 该特征的识别性能比其他三种更优,加权函数对说 话人算法特征的优化是有效的.此外,在低信噪比环 下,混不 在识别 能良 ,且在识别性能的提升速度方面也比其他三种特征更 优异.这表明该特征的抗噪性和对语音环境的适应 性比R M F C C ,M F C C ,L P C C 更好.在语音环境较好 的情况下,虽然加权混合特征的识别率的增长速度 变慢,但识别率明显仍高于其他三种语音特征参数. 这表明加权混合特征的识别性能和抗噪性均优于其 三种<F i g%/slral%/»f l r a 1o oo o oo ooo098765432%/»f l s a1第#期徐志江,等:基于加权混合特征的话者识别算法•633 •参考文献:[1] SAHIDULLAH M,SAHA G. A novel windowing techniquefor efficient computation, of MFCC for speaker recogn.ition.[J].IEEE signal processing letters, 2013,20(2) ; 149-152.[2] ALAM M J,KINNUNEN T,KENNY P,et al. MultitaperMFCC and PLP features for speaker verification, using -vectors[J]. Speech communication,2013,55 (2): 237-251.[]曾祺,甘涛,曾红斌.改进的多窗谱MFCC在说话人确认中的应用[J].计算机系统应用,2014,23(11): 192-195.[]方志刚,胡国兴,吴晓波.基于非语音声音的听觉用户界面研究[J].浙江大学学报(工学版),2003,37(6) : 684-688.[5] TRANGOL J,HERRERA A. Traditional method and multitaper to feature extraction, using Mel frequency cepstral coeffi-cients[J]. International journal of information and electronicsengineering,2015,5(1) :27.[6] ALAM M J,KENNY P,OSHAUGHNESSY D. Low-variance multitaper Mel-frequency cepstral coefficient features forspeech and speaker recognition system U]. Cognitive computation ,2013,5(4);533-544.[7] SANDBERG J,HANSSON-SANDSTEN M,KINNUNEN T,et al. Multitaper estimation of frequency-warped cepstra withapplication to speaker verification[J]. IEEE signal processingletters,2010,17(4) :343-346.[8] LI M,NARAYANAN S. Simplified supervised -vector modeling(上接第609页)[6]徐青,朱:,唐寿洪.分析多类特征和欺诈技术检测JavaScript恶意代码[J].计算机应用与软件,2015(7) '93-296.[]李道丰,黄凡玲,刘水祥,等.基于行为语义分析的W eb恶意代 码检测机制研究[J].计算机科学,2016(8)'10-113.[8] SANTOS I,BREZO F,BRINGAS PG,et al. Opcode sequences as representation of executables for data-min.ing-basedunknown malware detection [J]. Information sciences,2013,231(9) 64-82.[9] SHABTAI A,MOSKOVITCH R,FEHER C,et al. Detecting unknown malicious code by applying classification techniques on OpCode patterns[J]. Security informatics december,2012(1) :1-22.[10] ALAM S,SOGUKPINAR I,TRAORE I,et al. Sliding windowand control flow weight for metamorphic malware detection.[J].with application to robust and efficient language identification andspeaker verification[J]. Computer speech e language,2014,28(4): 940-958.[9] ZHU L,YANG Q. Speaker recognition system based on weightedfeature parameter [J]. Physics procedia,2012,25 :1515-1522.[10] ZHAO X,SHAO Y,WANG D L. CASA-based robust speakeriden.tification.[J]. IEEE transactions on audio,speech,and language processing , 2 012,2 0(5) : 1608-1616.[11] SAHIDULLAH M,SAHA G. Design,analysis and experimental evaluation of block based transformation in MFCCcomputation for speaker recogn.ition.[J]. Speech communication ,2012,54(4):543-565.[12] ZUE V,SENEFFS,GLASS J. Speech database development atMIT:TIMIT andbeyond[J]. Speech communication,1990,9(4)351-356.[13] VARGA A,STEENEKEN H J M. Assessment for automaticspeech recognition:II NOISEX-92:a database and an experimentto study the effect of additive noise on speech recognition systems[J]. Speech communication,1993,12(3) :247-251.[14]姚明海,何通能.一种基于模糊积分的多分类器联合方法[J].浙江工业大学学报,2002,30(2): 156-159.[15]汤一平,严海东.非约束环境下人脸识别技术的研究[J].浙江工业大学学报,2010,38(2): 155-161.(责任编辑:陈石平)Journll of computer virology and hacking techniques,2015,11(2) 75-88.[11]贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016(7) :147-154.[12]卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016(3) 731-734.[13]林冬茂.基于“写”操作的W eb安全防护系统的研究[J].浙江工业大学学报,2012,40(2): 201-204.[14]严萍,史旦旦,钱能.计算机信息安全交换系统的设计[J].-江工业大学学报,2004,32(4): 23-27.[15]周梦麟,张森.一种基于自然语言理解的W eb挖掘模型[J].浙江工业大学学报,2004,32(1) :97-100.(责任编辑:陈石平)。