基于MFCC与GFCC混合特征参数的说话人识别
- 格式:pdf
- 大小:13.19 MB
- 文档页数:9
基于音频特征MFCC的说话人识别摘要本设计利用MATLAB实现了一个完整的基于音频特征MFCC的说话人识别系统,包括前期的语音处理,特征提取以及后期的模型训练,测试。
在前期语音处理和特征提取方面,使用了Mel倒谱系数(MFCC)作为特征参数,与线性预测倒谱系数(LPCC)相比,MFCC参数的突出优点是不依赖全极点语音产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而提高识别系统的性能。
目前,在模式训练中常用的方法有动态时间规整(DTW)方法,高斯混合模型(GMM)方法,VQ矢量量化模型等。
VQ法与其他方法比较,该模型匹配不依赖参数的时间顺序,它是基于这样一种假设前提的:说话人的语音特征在特征空间中分布在一些特定的范围里,形成了一些特定的聚类中心,因此可以用这些聚类中心的位置作为说话信息的描述,又不会对精度造成太大的影响,比较实用并且相对简单,因此在本设计中可以采用VQ模型。
关键词:说话人识别; MFCC参数;VQ模型AbstractThis design uses MATLAB implements a complete audio features based on MFCC's speaker diarization system, including early speech processing, feature extraction, and the late model training and testing. In the early voice processing and feature extraction, the use of the Mel cepstral coefficients (MFCC) as the characteristic parameters, and compared with linear prediction cepstral coefficients (LPCC), , MFCC parameters are not dependent on the outstanding merits of all-pole speech production model assumes that , taking into account the perceptual characteristics of the human ear, the ablity of anti-noise and anti-spectral distortionAt present is strong, it improves the performance of diarization systems. The mode of training methods commonly used in dynamic time warping (DTW) method, Gaussian mixture model (GMM) method, VQ vector quantization model. VQ method compared with other methods, the model matching does not denpend on the time sequence dependent parameters, which is based on the assumption: the speaker's voice characteristics of the distribution in the feature space in some specific areas, the formation of a specific polymer Class center, so you can position the cluster center to speak of information as described, would not significantly affect the precision, more practical and relatively simple, it can be used in the design of VQ model.Key words: speaker identification; MFCC parameters; VQ model目录第一章绪论• 1.1说话人识别概述在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安全技术开始在全球电子商务时代崭露头角。
第31卷 第6期2009年12月三峡大学学报(自然科学版)J of China Three G orges Univ.(Natural Sciences )Vol.31No.6Dec.2009收稿日期:2009206223基金项目:湖北省教育厅科学技术研究计划重大项目“基于真实感知的多方虚拟工作环境关键技术研究”(Z20081301)通讯作者:孙水发(1977-),男,副教授,博士,主要研究领域为多媒体信息处理、数字隐藏.E 2mail :zhujianwei1015@基于MFCC 等组合特征的说话人识别模型朱建伟1 孙水发1,2 刘晓丽1(1.三峡大学电气信息学院,湖北宜昌 443002;2.三峡大学智能视觉与图像信息研究所,湖北宜昌443002)摘要:为了有效提取语音特征,提高说话人识别的准确率,系统采用基于有限状态机的端点检测算法对原始语音做VAD 处理,提出了新的特征组合参数:基于人的听觉特性的MFCC 参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率,并将它们作为说话人识别系统的特征参数,建立了基于VQ 的识别模型.实验表明:本文系统使用VAD ,使系统的识别率提高了5%~8%,较单独使用M FCC 参数的说话人识别系统的识别率提高了2%~3%.关键词:说话人识别; Mel 倒谱系数; 基音轮廓特征; 语音活性检测中图分类号:TN912 文献标识码:A 文章编号:16722948X (2009)0620077203Speaker R ecognition Model B ased on MFCC and Combined FeaturesZhu Jianwei 1 Sun Shuifa 1,2 Liu Xiaoli 1(1.College of Elect rical Engineering &Information Science ,China Three G orges Univ.,Y ichang 443002,China ;2.Instit ute of Intelligent Vision and Image Information ,China Three G orges U niv.,Y ichang 443002,China )Abstract In order to effectively ext ract t he speech feat ures and improve t he speaker recognition accuracy ,a VAD algorit hm based on t he finite state machine (FSM )is applied on t he original voice firstly.The following four feat ures are selected :t he Mel frequency cep st ral coefficient (M FCC )parameters based on t he character 2istics of human hearing ,t he pitch contour based on t he p hysiological characteristics of pronunciation feat ures ,t he pitch first 2order difference and t he pitch changed rate.Vector quantization (VQ )based speaker recogni 2tion model is established.The experimental result s show t hat t he recognition rate of t he propo sed system is imp roved 2%-3%t han t he speaker recognition system using t he M FCC parameters only ,and 5%-8%t han t he system wit hout using t he VAD.K eyw ords speaker recognition ; M FCC ; pitch contour feat ures ; VAD 说话人识别可以分为说话人辨认(Speaker Iden 2tification )和说话人确认(Speaker Verification ).前者是把待识别的一段语音判定为属于若干个参考说话人中的哪一个所说的,是一个“多选一”问题.而后者则是判定一段语音是否是所声明的某个参考人所说的,这只有两种选择:肯定(接受)或者否定(拒绝),是一个“二选一”的问题[1].论文所要研究的是与文本无关的说话人辨认系统.特征提取和模式匹配(模式识别)是说话人识别的两个关键问题.目前常用的特征参数有线性预测倒谱系数(Linear Predictive Cep st rum Coefficient ,L PCC )、Mel 频率倒谱系数(Mel 2Frequency Cep s 2t rum Coefficient ,M FCC )和感知线性预测(Percep 2t ual Linear Predictive ,PL P )参数[2]等.M FCC 比L PCC 和PL P 具有更优越的识别性能,是目前应用最广的特征参数[324].模式匹配方法主要有基于模板匹配的矢量量化法(Vector Quantization,VQ)[4]和基于概率模型的高斯混合模型法(Gaussian Mixt ure Model,GMM).我国学者在模式匹配方法上做了大量研究工作,文献[5]将集成神经网络算法应用于说话人识别中,使识别精度高于单一神经网络,文献[6]将基于树的核心挑选算法应用于Gauss混合模型,大大提高了系统的运算速度.基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数.不同说话人的平均基音周期特征往往差别不大,但是基音轮廓,即约在一个句子的时段内音调随时间变化的曲线形状(基音2时间的函数)的变化却非常明显.本文采用基于人耳听觉特性的MFCC参数和基音轮廓特征以及衍生出的基音周期一阶差分、基音周期变化率相结合,使用基于矢量量化法(Vector Quantization,VQ)的说话人识别模型,实验证明本文提出的说话人识别系统比基于M FCC系统的识别率有明显提高.1 系统描述本文说话人识别系统在对原始语音VAD检测的基础上,采用20维的M FCC参数,加上基音轮廓特征、基音周期一阶差分、基音周期变化率,共23维特征参数进行基于矢量量化法的学习、判别.1.1 VAD检测语音活性检测(Voice Activity Detection, VAD),即端点检测,是对语音信号中的有声片段和无声片段进行分割.语音信号的特征选取是对有声段而言的,所以在特征参数选取前先对语音信号进行活性检测是提高说话人识别系统性能的关键.目前端点检测方法可以分为两大类:一类是基于特征的方法,第二类是基于模型的方法.本文选取一种基于有限状态机的语音活性检测方法[7],该检测方法根据语音的短时能量和过零率特征把语音信号分为静音态、起始预备态、有效数据态、结束预备态4个状态和7个主要事件,如图1所示.图1 VAD检测状态转换图基于有限状态机的语音活性检测方法具有计算量小,检测准确等优点,尤其对一些特殊的以清音开头的语音以及在语音信号中含有一些突发性的噪声,如门窗的开关,物体的碰撞引起的噪声等有良好的检测效果,具体检测过程参考文献[7].1.2 特征参数选取1.2.1 M FCC参数特征M FCC参数特征是在Mel标度频率域中提出来的倒谱参数,先将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上.M FCC的提出基于下列事实:人类对单个音调的感知强度近似地正比于该音调频率的对数.Mel频率表达了这种语音频率与“感知频率”的对应关系.在Mel频率域内,人对音调的感知度为线性关系,举例来说,如果两段语音的Mel频率相差两倍,则人耳听起来两者的音调也相差两倍.Mel频率与实际频率的关系近似如下式:B(f)=1125ln(1+f/700)(1) M FCC参数提取过程参考文献[3].1.2.2 基音轮廓特征基音的提取和估计是语音信号处理中一个十分重要的问题,尤其是对汉语更是如此,因为汉语是一种有调语言,基音的变化模式称为音调,它携带着非常重要的具有识别作用的信息,有区别意义的功能.基音周期检测方法大致可分为时域方法(如自相关法)和频域方法(如倒谱法)两种.本文采用基于时域的循环平均幅度差函数法(CAMDF)提取基音周期,此方法是对平均幅度差函数法的改进,无需乘法运算,算法复杂度小,在信噪比不是太低的说话人识别的语音中能够较准确地提取基音轮廓.基音轮廓特征的提取过程参考文献[8],由于一段语音基音轮廓特征在说话人数量增多时,区分度减小,本文系统使用基音周期、基音周期一阶差分、基音周期变化率三者的结合.基音周期一阶差分定义为:D T(m)=T(m+1)-T(m-1)2,m>1(2)基音周期变化率定义为R T(m)=|T(m)-T M|+εT M(3)式中,m为一段语音的当前帧数;T(m)为按文献[8]检测出的基音周期;T M为基音周期的均值;ε为一个任意小的数.1.3 建立VQ识别模型矢量量化(Vector Quantization,VQ)是一种很重要的数字信号处理方法.每个说话人具有不同的说87三峡大学学报(自然科学版) 2009年12月话特征,可以用特定说话人语音信号的特征参数在空间的分布来描述.用VQ建立识别模型,可以大大减少数据存储量和计算量.基于VQ的说话人识别系统,矢量量化起着双重作用.在训练阶段,把每一个说话者所提取的特征参数进行聚类,采用由Linde、Buzo和Gray提出的LB G算法产生不同码字所组成的码本,使矢量量化码本与说话人一一对应.在识别(匹配)阶段,用同样的方法从待识别的语音中提取矢量序列,计算失真测度,然后进行比较,以最小失真的参考模式作为判决对象,从而判断说话人是谁.系统采用前文所述的20维MFCC参数和3维的基音轮廓参数作为特征矢量,然后通过聚类形成码本.设X={x1,x2,…,x T}是未知的说话人的特征矢量,共有T帧.在训练阶段所形成的码书为:{B1,B2,…,B N}(N表示说话人的个数).则对于说话人辨认的具体步骤如下:(1)设i=1,根据第i个码书B i依据最小距离准则对X进行聚类,即求出minm∈M[d(x j,B i m)],其中x j表示X中第j(j=1,2,…,T)帧的特征向量,m表示第i 个说话人的第m个码字,共有M个码字,d为欧氏距离测度.(2)按照平均失真测度D i=1T∑Tj=1min1≤m≤M[d(x j,B i m)](4)计算X到第i个码书的平均失真距离D i.(3)i=i+1,计算D i+1,直到i=N,求出所有的D1,D2,…,D N.(4)求出{D1,D2,…,D N}中最小者对应的那个i,即是所求的那个人.2 实验及结果分析系统结构框图如图2所示.实验语音库是在实验室环境下录制的200个男性的语音,采样频率为8 k Hz,精度16bit s.语音内容为日常生活语句,录音时间为每人2min.实验随机对每人截取的20s语音进行训练,截取3秒进行测试,均与文本无关.实验首先用基于有限状态机的方法对语音信号进行VAD检测[7],再以帧长为300个采样点、帧移为200个采样点进行分帧,加窗(汉明窗)处理.提取20维的M FCC 参数和基音周期、基音周期一阶差分、基音周期变化率,共23维矢量进行矢量量化.通过3次实验比较:实验1,不经过VAD,直接选取MFCC作特征参数;实验2,经过VAD后,选取图2 本文说话人识别系统M FCC作特征参数;实验3,经过VAD后,选用M F2 CC特征和基音轮廓特征作特征参数.结果如图3所示,人数为10人时,实验2、3识别率均为100%;人数小于50人时,实验2、3的识别率均在90%以上,实验1的识别率小于90%;随着人数的增加3者的识别率均下降,显然没有经过VAD检测的系统下降得更快.图3 3种情况下识别率比较系统经过VAD,使系统平均识别率提高了5%~8%;M FCC和基音轮廓特征相结合作为特征参数比单独使用M FCC作为特征参数的平均识别率有2%~3%的提高.经过VAD系统的识别率有明显提高,说明话音中的语音段含有丰富的识别作用的信息,静音段不含这种信息,所以在提取特征参数前必须先对语音进行端点检测,祛除静音部分.M FCC和基音轮廓特征相结合的识别率要高于M FCC单独作为参数时的识别率,表明M FCC和基音轮廓特征相结合作为特征参数能够很好地反映说话人的个体特征,同时也说明联合特征的识别性能要高于单独特征的性能.3 结 论本文研究表明选择基音轮廓特征辅助M FCC参数作为说话人识别系统的特征参数使识别率有一定的提高,VAD的使用证实了在说话人识别中VAD 的重要作用.本文提出的特征参数较单独的M FCC 参数识别率有所提高,在人数少于50人时有较高的识别率,但是在说话人数增大到200时,识别率降低到70%左右,如何让系统适合大规模(人数在千人以上)的说话人识别是下一阶段研究的重点.(下转第93页)97第31卷 第6期 朱建伟等 基于MFCC等组合特征的说话人识别模型它们先于或伴随着膜上肽的聚集;Nisin与磷脂双层膜作用后不仅仅是简单的镶嵌在磷脂膜上,而且能够使磷脂膜形成孔洞或缺陷.Nisin能够与磷脂双层膜相互作用,是由于Nisin分子中的硫醚键形成的分子内环结构具有亲油性,使它能够很容易地嵌入到磷脂双层膜烃基链形成的疏水区中,破坏磷脂双层膜原有的有序结构,并使磷脂分子的有序性降低,从而磷脂双层膜形成孔洞或缺陷,这些孔洞或缺陷对不同电荷的探针没有选择性,随着作用时间的增加或Nisin溶液浓度的增大,越来越多的Nisin嵌入膜中,磷脂双层膜的孔洞或缺陷的面积也逐渐增大,从而更多的探针分子到达电极表面产生响应.参考文献:[1] 还连栋,陈秀珠,贾士芳等.乳酸菌肽应用的新进展[J].中国食品添加剂,2000(3):25229.[2] 姜英辉,李光友.乳酸菌肽及其应用研究综述[J].海洋科学,2002,26(4):32236.[3] 宋连花,王彦文.乳酸菌肽(Nisin)研究进展[J].食品研究与开发,2004,25(4):18221.[4] Akintonwa D A.Theoretical Mechanistic Basis of theToxic Effects and Efficacy of AZT in HIV:A IDS[J].Med.Hypotheses,2002,59(6):6222625.[5] 聂丽华,赵慧春,王学斌等.荧光法研究氟罗沙星与牛血清白蛋白的相互作用[J].北京师范大学学报:自然科学版,2001,37(1):87291.[6] Pirttijrvi T S M,Wahlstrm G,Rainey F A,et al.Inhi2bition of Bacilli in Industrial Starches by Nisin[J].Jour2 nal of Industrial Microbiology&Biotechnology,2001,26:1072114.[7] 刘永明,李桂芝,孙希芬.荧光法研究秋水仙碱和牛血清白蛋白的相互结合作用[J].分析化学,2004,32(5):6152 618.[8] 马 勇,王建国,惠 飞等.杂多酸K7[P Ti2W10O40]・6H2O对磷脂双层膜通透性的影响[A].第九届全国电分析化学学术会议[C].2005:10.[9] 高 宏,罗国安,冯 军等.硫醇2磷脂混合双层膜的电化学性质及其与蜂毒素的相互作用研究[J].化学学报,2001,59:2202223.[10]马 勇,王建国,惠 飞等.表面活性剂对硫醇单层膜修饰金电极电化学行为的影响[J].化学学报,2006,64:130921313.[11]杨昌英,刘 义,李强国等.三种非甾体类抗炎药与脂质体的相互作用[J].物理化学学报,2007,23(5):6352640.[责任编辑 周文凯](上接第79页)参考文献:[1] Joseph P,Campbell.Speaker Recognition:A Tutorial[J].Proceedings of the IEEE,1997,85(9):143721462.[2] Hermansky H.Perceptual Linear Prediction(PL P)A2nalysis for Speech[J].J ASA,1990,173821752.[3] Wu Zunjing,Cao Zhigang.Improved MFCC2Based Fea2ture for Robust Speaker Identification[J].TsinghuaScience&Technology(S100720214),2005,10(2):1582161.[4] 但志平,胡 刚,刘 勇.基于L PC倒谱参数分析的说话人识别系统[J].三峡大学学报:自然科学版,2007,29(1):60263.[5] 钱 博,李燕萍,唐振民等.基于神经网络集成的说话人识别算法仿真研究[J].系统仿真学报,2008,20(5):128521288.[6] 熊振宇,郑 方,宋战江等.基于树形通用背景模型的高效说话人辨认[J].清华大学学报:自然科学版,2006,46(7):603128031.[7] 黄秋安,姜 波,汪秉文.基于有限状态机的汉语数字语音端点检测[J].湖北大学学报:自然科学版,2004,26(1):35238.[8] 张文耀,许 刚,王裕国.循环AMDF及其语音周期估计算法[J].电子学报,2003,31(6):8862890.[责任编辑 张 莉]39第31卷 第6期 李 昕等 乳酸菌肽与模拟生物膜脂质体的相互作用。
基于MFCC的说话人识别系统
郭春霞;裘雪红
【期刊名称】《电子科技》
【年(卷),期】2005(000)011
【摘要】说话人识别可以被看作语音识别的一种,是当前的研究热点之一.本文实现的说话人辨认系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-Frequency Ceptral Coefficients ,MFCC)作为特征参数.试验比较了MFCC、差分MFCC组合MFCC分别与VQ、DTW相结合的识别率.得出差分MFCC组合MFCC优于MFCC.
【总页数】4页(P53-56)
【作者】郭春霞;裘雪红
【作者单位】西安电子科技大学,计算机学院,陕西,西安,710071;西安电子科技大学,计算机学院,陕西,西安,710071
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于快速MFCC计算的说话人识别系统的设计 [J], 毕灶荣;童东兵;陈巧玉
2.基于MFCC和加权矢量量化的说话人识别系统 [J], 邵央;刘丙哲;李宗葛
3.基于MFCC和最小距离分类器的说话人识别系统 [J], 张颖;张友纯
4.基于元音MFCC的说话人识别系统研究 [J], 应武
5.基于MFCC参数和VQ的说话人识别系统 [J], 王伟;邓辉文
因版权原因,仅展示原文概要,查看原文内容请购买。
面向语音识别的MFCC特征提取技术研究近年来,随着人工智能技术的飞速发展,语音识别技术也越来越成熟。
而在语音识别中,MFCC特征提取技术被广泛应用。
本文将就面向语音识别的MFCC特征提取技术进行探讨。
一、MFCC特征提取技术的原理MFCC,即Mel频率倒谱系数,是一种频域特征提取技术。
其提取原理主要分为以下几个步骤:1. 预处理预处理包括去除直流分量、加窗和傅里叶变换。
去除直流分量是为了保留语音信号中的高频成分。
加窗是为了抑制边缘效应,常用的窗函数有汉明窗、海宁窗等。
傅里叶变换用于将时域信号转换为频域信号。
2. Mel滤波器组Mel滤波器组是MFCC特征提取技术的核心。
Mel滤波器组的作用是将频率轴分为若干个Mel频率带,并对每个Mel频率带内的功率谱进行积分。
Mel频率带的宽度是根据人耳感知音高的特性得到的。
3. 对数Mel滤波器组输出的功率谱是一种非线性的单位——Bel。
为了将其转换为线性单位,需要取其对数。
4. DCTDCT,即离散余弦变换,将对数输出的矩阵进行线性变换,将信号转换到低维度空间上。
5. 归一化归一化是将MFCC特征向量的值转换为标准正态分布。
这一步骤可以增强模型的鲁棒性。
二、MFCC特征提取技术的应用MFCC特征提取技术是语音信号处理中一个重要的环节,其应用范围非常广泛。
下面介绍其中的几个方面:1. 语音识别MFCC特征提取技术是目前语音识别中应用最广泛的特征提取技术之一。
通过MFCC提取的特征向量可以用来训练分类器,从而实现语音识别。
2. 说话人识别MFCC特征提取技术也可以用于说话人识别。
在此过程中,提取的MFCC特征向量可以作为说话人的特征进行匹配。
3. 语音合成在语音合成中,MFCC特征提取技术可以用来提取声学特征,从而实现对语音信号的合成。
三、MFCC特征提取技术的优缺点MFCC特征提取技术具有下面的优点:1. 对人耳感知相似的声音有更好的判别效果MFCC技术中的Mel滤波器组的设计是根据人耳感知音高的特性得到的,因此对于人耳感知相似的声音,MFCC技术有更好的判别效果。
一种基于MFCC和LPCC的文本相关说话人识别方法
于明;袁玉倩;董浩;王哲
【期刊名称】《计算机应用》
【年(卷),期】2006(26)4
【摘要】在说话人识别的建模过程中,为传统矢量量化模型的码字增加了方差分量,形成了一种新的连续码字分布的矢量量化模型.同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数,来进行与文本有关的说话人识别.通过与动态时间规整算法和传统的矢量量化方法进行比较表明,在系统响应时间并未明显增加的基础上,该模型识别率有一定提高.
【总页数】3页(P883-885)
【作者】于明;袁玉倩;董浩;王哲
【作者单位】河北工业大学,信息工程学院,天津,300130;河北工业大学,信息工程学院,天津,300130;河北工业大学,信息工程学院,天津,300130;河北工业大学,信息工程学院,天津,300130
【正文语种】中文
【中图分类】TP18;TP391.42
【相关文献】
1.基于修正MFCC的耳语说话人识别方法 [J], 丁国梁
2.文本无关说话人识别中一种改进的模型PCA变换方法 [J], 姚志强;周曦;戴蓓蒨
3.基于MFCC和LPCC的说话人识别 [J], 余建潮;张瑞林
4.一种新型的与文本相关的说话人识别方法研究 [J], 周雷;龙艳花;魏浩然
5.文本无关说话人识别的一种多尺度特征提取方法 [J], 陈志高;李鹏;肖润秋;黎塔;王文超
因版权原因,仅展示原文概要,查看原文内容请购买。
基于MFCC与GFCC混合特征的先心病心音分类研究
陈成;潘家华;孙静;杨宏波
【期刊名称】《计算机仿真》
【年(卷),期】2022(39)7
【摘要】为提高心音信号的分类准确率,提出一种基于梅尔频率倒谱系数与Gammatone频率倒谱系数的混合特征(MFCC与GFCC混合特征)的先心病心音信号分类算法。
首先用db6小波双参数可调阈值函数对心音信号降噪,再用基于逻辑回归的隐半马尔可夫模型自动分段以提取单个心动周期;然后对信号加汉宁自卷积窗并提取心音的MFCC与GFCC混合特征,再用主成分分析法进行降维,以减少计算量;最后采用深度学习模型Inception v4进行分类识别,并与其它传统识别方法做了分类比较研究。
用所提出的方法对1600例心音样本进行了分类测试,实验结果表明,上述方法对先心病心音的分类准确率比传统识别方法有明显提高,分类准确率达91.25%。
【总页数】7页(P263-269)
【作者】陈成;潘家华;孙静;杨宏波
【作者单位】云南大学信息学院;云南省阜外心血管病医院;昆明医科大学
【正文语种】中文
【中图分类】TN912.3;TP183
【相关文献】
1.基于MFCC与GFCC混合特征参数的说话人识别
2.卷积神经网络应用于先心病心音信号分类研究
3.基于MFCC和GFCC混合特征的语音情感识别研究
4.基于高斯混合模型的心音分类研究
5.基于VMD分解的MFCC+GFCC无人机噪音混合特征提取方法
因版权原因,仅展示原文概要,查看原文内容请购买。
收稿日期:2009-09-01;修回日期:2009-11-09。
基金项目:国家自然科学基金资助项目(60702025)。
作者简介:吕霄云(1985-),女,陕西宝鸡人,硕士研究生,主要研究方向:音频监控、模式识别、数字水印; 王宏霞(1973-),女,河北石家庄人,教授,主要研究方向:多媒体信息安全、跳/扩频通信、智能信息处理。
文章编号:1001-9081(2010)03-0796-03基于MFCC 和短时能量混合的异常声音识别算法吕霄云,王宏霞(西南交通大学信息科学与技术学院,成都610031)(79516296@qq .com )摘 要:针对现行异常声音识别算法复杂度高和特征识别率低的问题,将梅尔频率倒谱系数(M FCC )与短时能量混合特征应用到异常声音识别系统中。
该混合特征使得高斯混合模型(GMM )分类器可获得比使用M FCC 特征及其差分M FCC 更好的分类性能。
给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性,分类器的平均识别率可达到90%以上,并且计算复杂度小。
关键词:异常声音识别;梅尔倒谱系数;短时能量;高斯混合模型中图分类号:T P18;TN 912 文献标志码:AAbnor m al audio recogniti on algorith m based on M FCC and short -ter m energyL X iao -yun ,WANG H ong -x ia(School o f Infor m ation Science and Technol ogy,S outhw est Ji a otong Universit y,Chengdu S ic huan 610031,Ch i na )Abstract :Concern i ng the h i gh comp l ex ity and l ow ra te i n abno r m al audio recogn iti on ,the abnor m a l aud i o recogn iti on syste m based on the M e-l F requency Cepstru m Coe fficien ts (M FCC )and sho rt -te r m energy w as proposed .T h i s fea t ure vecto r m ade the G aussian M i x t ure M ode l (GMM )classifier outperfor m M FCC and D ifferen tia lM FCC features i n c l assifi cation .T he c l assifi er can achieve an average recogn iti on ra te o fm ore than 90%,and s m all co m puta ti ona l comp lex ity .T he steps of syste m i m p l em enta tion w ere elaborated .T he si m u l a ti on res u lts prove the effec tiveness of the proposed algorith m.K ey w ords :abnor m a l aud i o recogn iti on ;M e-l F requency Cepstru m Coeffic i ent (M FCC);short -ter m energy ;G auss i an M i xture M ode l (GMM )0 引言在过去的十几年中,视频监控系统已广泛应用在人们的生活中。
图1MFCC 的提取过程预加重加窗分帧FFTMel 频率滤波器组log 对数能量DCT 求倒谱s (n )x (n )X (k )c (n )S (m )文章编号:1002-8684(2009)09-0061-04基于MFCC 参数的说话人特征提取算法的改进张晶,范明,冯文全,董金明(北京航空航天大学电子信息工程学院,北京100191)【摘要】在说话人识别系统中,特征参数的提取对语音训练和识别有着重要的影响。
对于特征参数提取模块,提出了一种新的特征参数提取算法MFCC_E (Efficient MFCC )。
相对于标准算法MFCC_S (Standard MFCC ),MFCC_E 在特征提取模块部分减少了53%的计算量。
最终实验结果说明MFCC_E 的识别率为90.3%,仅比标准MFCC 算法92.0%的识别率降低1.7%。
因为MFCC_E 算法的这种特点,使其能够更有效的适用于硬件实现。
【关键词】特征提取;MFCC_S ;MFCC_E 【中图分类号】TP311【文献标识码】AAn Efficient Speaker Feature Extraction Method Based on MFCCZHANG Jing ,FAN Ming ,FENG Wen-quan ,DONG Jin-ming(School of Electronic and Information Engineering ,Beihang University ,Beijing 100191,China )【Abstract 】Feature extraction is a significant module for speech training and recognition in speech recognitionsystem.A new algorithm of feature extraction MFCC_E (Efficient MFCC )is pared to the standard algorithm MFCC_S (Standard MFCC ),the new algorithm reduces the computation power by 53%.The simulationresults indicate MFCC_E has a recognition accuracy of 90.3%,and there is only an 1.7%reduction compared toMFCC_S which has 92.0%recognition accuracy.The new algorithm is acceptable for hardware implement for itsadvantage.【Key words 】feature extraction ;MFCC_S ;MFCC_E1引言真正意义上的“自动”说话人识别的研究始于20世纪60年代,此后40多年间人们提出了多种语音参数模型,其中Mel 频率倒谱系数(Mel-Frequency Cep-strum Coeffients ,MFCC )应用最为广泛,尤其是在如何提高其识别率方面,人们对MFCC 参数进行了很多的研究[1-2]。
第37卷第1期2019年1月应用科学学报JOURNAL OF APPLIED SCIENCES—Electronics and Information EngineeringVol.37No.1Jan.2019DOI:10.3969/j.issn.0255-8297.2019.01.003基于MFCC与GFCC混合特征参数的说话人识别周萍,沈昊,郑凯鹏桂林电子科技大学电子工程与自动化学院,广西桂林541004摘要:针对说话人识别中单一参数表征不够全面的特点,将抗噪性能一般的传统MFCC参数与鲁棒性更强的GFCC参数相互融合,并结合它们的动态特性构成一种新的混合参数.针对特征参数维数过高造成的冗余,研究了每种特征参数各分量与识别结果的关系,舍弃其中贡献较低的分量以实现特征参数降维的目的,并将混合参数应用于基于高斯混合模型的说话人识别系统.仿真实验表明,该混合特征参数具有更好的识别性能和抗噪性.关键词:说话人识别;混合特征参数;Mel频率倒谱系数;Gammatone滤波器中图分类号:TN912.34文章编号:0255-8297(2019)01-0024-09Speaker Recognition Based on Combination ofMFCC and GFCC Feature ParametersZHOU Ping,SHEN Hao,ZHENG Kai-pengCollege of Electric Engineering and Automation,Guilin University of ElectronicTechnology,Guilin541004,Guangxi Province,ChinaAbstract:Aiming at the issue that single feature parameter of speaker recognition has the shortcoming of low representation ability,a set of mixture feature parameters is formed by combining the single poor anti-noise Mel frequency cepstral coefficients(MFCC)with more robust Gammatone frequency cepstral coefficients(GFCC)and their dynamic differential in this paper.Since the high dimension of the mixture feature parameters,the relationships of each dimension of different feature parameters and recognition results is studied,where dimensionality reduction on high dimensional features is implemented by discarding the dimensions with low contribution ratio.After that,the combination of feature parameters was applied to the speaker recognition system based on Gaussian mixture model.Experi-mental results show that the combination of parameters can better describe the speakers’feature and have better anti-noise capability.Keywords:speaker recognition,combination of feature parameters,Mel frequency cep-stral coefficients(MFCC),Gammatone filter说话人识别技术作为多种生物认证技术之一已经广泛应用于社会生活中的多个领域,相收稿日期:2018-02-01;修订日期:2018-04-25基金项目:国家自然科学基金(No.61462017);广西自然科学基金(No.2014GXNSFAA118353);广西自动检测技术与仪器重点实验室基金(No.YQ15110)资助作者简介:周萍,教授,研究方向:语音识别与智能控制,E-mail:940809266@第1期周萍,等:基于MFCC与GFCC混合特征参数的说话人识别25比于其他识别技术,该技术有着语音信息采集方便且不易遗失的优点.说话人识别本质上是一个模式识别的问题,因此识别之前如何提取出具有表征说话人唯一特性的参数就成了这一研究的热门话题,也随之涌现了许多提取特征参数的方法.目前,最常见的特征参数有基音周期、共振峰、线性预测倒谱系数(linear prediction cepstral coefficient,LPCC)、Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)等[1],但这些方法所提取的特征参数有一定缺陷,且单一特征参数无法完全表征说话人的所有特点,于是出现了将不同特征相互融合的改进算法,在一定程度上提高了特征的有效性和识别率[2-4].最常用的Mel倒谱系数是根据人耳结构设计的三角滤波器组进行特征提取的,但在噪声情况下的识别效果急剧下降. Gammatone函数最早由Johannesma提出,能够精确模拟人耳的听觉响应,且具有较强的噪声鲁棒性[5-7].文献[8]考虑到不同特征参数的各个特征分量对识别结果的贡献不同,将所有特征参数进行简单混合,但维数过高以致影响识别效率.为了获取更完善的特征参数,滤除干扰因素,本文采用增减分量法剔除贡献度较低的维度,然后将Mel频率倒谱系数和Gamma频率倒谱系数以及它们的差分倒谱系数进行有效的混合,以替代单一的倒谱系数作为说话人声纹识别的特征参数,最后采用高斯混合模型(Gaussian mixture model,GMM)识别混合倒谱参数.实验表明,本文方法提取的混合特征参数MFCC+∆MFCC+GFCC+∆GFCC更能体现说话人的特征,有效提高了识别率.1MFCC和GFCC及其一阶差分特征参数提取人类能够正确地分辨出说话人声音的不同,是因为人耳的听觉系统具有很高的复杂度.要使机器正确区分说话人,必须对说话人的声纹进行特征提取,使之成为机器可以区分的特征参数.MFCC和GFCC都是根据人耳的特征结构而提出的特征参数,因此在特征提取方面具有优势.1.1Mel特征参数提取人耳的听觉与频率成非线性关系,频率与Mel频率之间的关系可以近似表示为Mel(f)=2595lg1+f700(1)MFCC以人耳特性设计的一系列非线性的Mel三角滤波器对语谱信号进行滤波,然后进行离散余弦变换,最后进行倒谱变换就可以得到MFCC特征参数.MFCC特征参数的提取过程如图1所示.图1MFCC的提取过程Figure1Extraction process for MFCC语音信号预处理阶段主要包括预加重、分帧、加窗、端点检测、去噪处理等过程.经预处理得到信号x i,再通过快速傅里叶变换使数据从时域转换到频域,得到频谱上的能量分26应用科学学报第37卷布X (i,k ),取其模的平方得到谱线能量E (i,k );然后送入26维(本文算法取26维时效果最佳)的Mel 滤波器组,计算出在Mel 滤波器的能量,并取每个滤波器输出的对数能量S (m );最后根据式(2)进行DCT 变换,得到MFCC 特征参数C n =m m =1S (m )cos πn (m −0.5)M (2)式中,C n 为特征参数,M 为滤波器的数目.MFCC 主要提取的是语音的静态特征.为了满足人耳的构造特征,凸显语音信号的动态变化,通常对特征参数进行二次提取.本文选用∆MFCC ,即MFCC 的一阶差分,差分之后得到特征参数表达式如下:∆C t (n )=1ki =−k i 2k i =−kiC t +i (n )(3)式中,k 取2,即以第t 帧的前后各2帧MFCC 参数变化来反映当前帧的动态特性.1.2GFCC 特征参数提取Gammatone 滤波器是一种基于标准耳蜗结构的滤波器,其时域表达式如下:g i (t )=At n −1e −2πb i t cos (2πf i +φi )U (t ),t 0,1 i N (4)式中,A 为滤波器的增益;f i 为滤波器的中心频率;U (t )为阶跃函数;φi 为偏移相位,而人耳对相位偏移不敏感,因此为了简化模型,本文取为0;n 为滤波器的阶数;N 为滤波器数目;b i 为滤波器的衰减因子,它将决定当前滤波器对脉冲响应的衰减速度,与中心频率的对应关系如下:b i =1.019b EBR (f i )(5)式中,b EBR (f i )为等效矩形带宽,与中心频率f i 的关系如式(6)所示.GFCC 参数提取的步骤如图2所示.b EBR (f i )=24.7 4.37f i 1000+1 (6)图2GFCC 的提取过程Figure 2Extraction process for GFCCGFCC 特征参数的提取过程与MFCC 基本相似,本文根据以往实验的经验值选用滤波阶数n =4,滤波器数目N =64,经过上面的提取过程得到特征参数G n .同样地,为了显示语音的动态特性,本文对GFCC 的一阶差分∆GFCC 进行二次特征提取.∆GFCC 的计算方式同式(3),通过计算当前帧前后两帧变化得到特征参数∆G n .第1期周萍,等:基于MFCC与GFCC混合特征参数的说话人识别27 1.3混合特征参数Mel滤波器是根据人耳听觉特征设计的,Gammatone滤波器主要是根据基底膜上的频率感应而设计的.只要少量的几个参数就能拟合出抗干扰性强的特征参数,因此为了提高特征参数的抗噪性,本文将MFCC、MFCC的一阶差分参数∆MFCC、GFCC和GFCC的一阶差分参数∆GFCC作为混合特征参数,如式(7)所示:M mix=[(C1,C2,···,C m),(∆C1,∆C2,···,∆C m),(G1,G2,···,G n),(∆G1,∆G2,···,∆G n)](7)式中,m和n分别为MFCC、GFCC的特征参数阶数.2增减分量法对混合特征参数降维由式(7)直接拼接起来的混合参数过于冗余,且GFCC参数在大于30维以后基本为0,对于识别而言并没有作用[9].此外,语音中的噪声主要体现在低维数的特征矩阵中,这些受影响的维数可能降低声纹识别率[10],因此在实验中必须降低特征参数的维度,去掉受噪声影响大的维度.本文通过增减分量法评价特征参数的贡献度,根据贡献度的不同去除不必要的维数成分.增减分量法的平均贡献度函数如下:R(i)=1K[j>i(p(i,j)−p(i+1,j))+j<i(p(i,j)−p(i−1,j))](8)式中,R(i)为贡献度,p(i,j)表示第i阶到第j阶作为语音特征参数应用于识别系统时的识别率.在实际应用增减分量法时,首先检测特征参数每个维数C i∼C j组合的识别率,然后由式(8)计算每个维数C i的贡献度.3高斯混合模型GMM是一种应用较广泛的说话人识别模型,具有运算速度快、训练复杂度低、鲁棒性好的优点.使用GMM进行识别就是根据说话人的特征参数分布为每一个说话对象建立一个GMM模型库,这个库可用来确定说话人的身份.M阶高斯混合模型的表达式如下:p(x|λ)=Mi=1p i b i(x)(9)式中,x表示1个D维的随机向量;b i(x)为高斯概率密度函数,共有M个;p i为第i个分量的权重,通过多个高斯分量拟合成说话人的GMM模型λ.在模型训练阶段,根据最大期望算法将模型进行多次迭代,计算每个说话人的GMM模型.在识别阶段,对待识别语音进行特征提取,将特征矩阵与训练过的各个说话人模型一一进行匹配,计算特征矩阵属于每个说话人模型的概率,则最大概率的说话人即为最终识别结果.4实验仿真实验在MATLAB2015b上实现,实验用的语音库容量为100人,其中男女各50人,每人录制10段6s的语音,其中7段用来训练,剩下3段进行识别.对语音的预处理设置如下:预加重系数为0.94,采样率为16kHz;加窗类型为汉明窗,帧长为16ms,帧移为8ms.建立16阶高斯混合模型进行说话人声纹识别,其最大迭代次数为100.28应用科学学报第37卷首先分别采用单一MFCC、∆MFCC、GFCC、∆GFCC作为特征参数,通过不同维度的组合进行说话人识别实验,以验证各分量对识别结果的影响.MFCC、∆MFCC、GFCC、∆GFCC 的实验结果分别如图3∼6所示.图中右侧线段表示不同维数组合的起始分量,各数据点横坐标代表终止分量.在图3中,“×”线段第1个数据点代表以MFCC第1维C1作为特征的识别率,第2个数据点代表C1和C2作为特征的识别率.以此类推并由图3可知:将MFCC参数C1和C15维组合作为特征参数达到了全局最高的识别率,之后随着维数的增加,识别率并未上升,而是稳定在80%左右.根据式(8)可以计算出MFCC参数每个维度的贡献度如图7(a)所示,大于C16维的贡献度快速下降.∆MFCC可以作为表征语音动态变化的特性,但作为单一特征参数进行识别的效果并不理想,于是可以根据实验计算出各维度对识别结果的影响.由图7(b)可知,MFCC参数C1和C13的贡献度较高.同样由图4、图5、图8可知:GFCC在大于21维的贡献度下降迅速,∆GFCC在大于23维的贡献度较低.图3MFCC的各维度组合识别率Figure3Recognition rate of different combination of MFCC dimension经过上述实验可知:到达一定维数之后,增加维数并不会提高识别率.为了精简参数不产生冗余又能保留说话人的声纹特征,本文选择MFCC的前15维、∆MFCC的前13维、GFCC的前21维、∆GFCC的前23维构成最终的特征参数,如式(10)所示:M min=[(C1,C2,···,C15),(∆C1,∆C2,···,∆C13),(G1,G2,···,G21),(∆G1,∆G2,···,∆G23)](10)对于组合后的特征参数,为验证它在不同噪声环境不同信噪比下的识别率,分别采用NoiseX-92噪声库中的白噪声(white)、汽车噪声(volvo)、粉红噪声(pink)、工厂噪声(factory)进行说话人识别实验,并与无噪声情况下的识别率进行比较,所得实验结果如图9所示.可以看出:对于纯净的语音,以MFCC为特征进行识别的识别率高于以GFCC为特征进行识别的识别率.然而在低信噪比条件下,MFCC的识别率大幅度下降,抗噪性能较差;而GFCC的识别率下降比较缓慢,抗噪性能较好.本文综合两种倒谱参数的优点,提出将MFCC+∆MFCC+GFCC+∆GFCC混合特征参数用于说话人识别.从图9的数据中可以看出:本文提出的混合倒谱特征参数识别方法在不同噪声环境下的识别率均明显高于其他特征提取方法,且受信噪比的影响程度也小于其他方法.第1期周萍,等:基于MFCC与GFCC混合特征参数的说话人识别29图4∆MFCC的各维度组合识别率Figure4Recognition rate of different combination of∆MFCC dimension图5GFCC的各维度组合识别率Figure5Recognition rate of different combination of GFCC dimension图6∆GFCC的各维度组合识别率Figure6Recognition rate of different combination of∆GFCC dimension30应用科学学报第37卷图7MFCC及其差分参数各维度贡献度Figure7Contribution of each dimension of MFCC and its differential parameter图8GFCC及其差分参数各维度贡献度Figure8Contribution of each dimension of GFCC and its differential parameter第1期周萍,等:基于MFCC与GFCC混合特征参数的说话人识别31图9不同环境下的识别率Figure9Recognition rate under different environments5结语本文针对常见的语音特征参数有效维数不足以及抗噪性能差等问题,根据各维度的贡献度大小将MFCC、∆MFCC、GFCC、∆GFCC这4种混合倒谱特征参数中贡献度较大的维度组合成新的混合特征参数;然后将混合倒谱特征参数送入16阶高斯混合模型进行说话人识别. MATLAB仿真实验表明:以不同噪声和不同信噪比情况下的识别率来衡量,本文所使用的混合倒谱特征参数方法相对于其他特征参数方法均有所提高,因此具有良好的抗噪性能.参考文献:[1]王伟,邓辉文.基于MFCC参数和VQ的说话人识别系统[J].仪器仪表学报,2006,27(S):2253-2255.Wang W,Deng H W.Speaker recognition system using MFCC features and vector quantiza-tion[J].Chinese Journal of Scientific Instruments,2006,27(S):2253-2255.(in Chinese)[2]黄羿博,张秋余,袁占亭,杨仲平.融合MFCC和LPCC的语音感知哈希算法[J].华中科技大学学报(自然科学版),2015,43(2):124-128.Huang Y B,Zhang Q Y,Yuan Z T,Yang Z P.The hash algorithm of speech perception based on the integration of adaptive MFCC and LPCC[J].Journal of Huazhong University of Science and Technology(Natural Science Edition),2015,43(2):124-128.(in Chinese)[3]Yuan Y,Zhao P,Zhou Q.Research of speaker recognition based on combination of LPCC andMFCC[C]//IEEE International Conference on Intelligent Computing and Intelligent Systems, 2010:765-767.[4]吕霄云,王宏霞.基于MFCC和短时能量混合的异常声音识别算法[J].计算机应用,2010,30(3):796-798.LüX Y,W ang H X.Abnormal audio recognition algorithm based on MFCC and short-term energy[J].Journal of Computer Applications,2010,30(3):796-798.(in Chinese)[5]王玥,钱志鸿,王雪,程光明.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528.Wang Y,Qian Z H,W ang X,Cheng G M.An auditory feature extraction algorithm based onγ-Tone filter-banks[J].Acta Electronica Sinica,2010,38(3):525-528.(in Chinese)[6]Shi X,Yang H,Zhou P.Robust speaker recognition based on improved GFCC[C]//IEEEInternational Conference on Computer and Communications,2017:1927-1931.[7]Qi J,Wang D,Jing Y,Liu R S.Auditory features based on Gammatone filters for robustspeech recognition[C]//IEEE International Symposium on Circuits and Systems,2013:305-308.32应用科学学报第37卷[8]柯晶晶,周萍,景新幸,杨青.差分和加权Mel倒谱混合参数应用于说话人识别[J].微电子学与计算机,2014,31(9):89-91.Ke J J,Zhou P,Jing X X,Yang Q.Mixed parameters of differential and weighted Mel Cepstrum used in speaker recognition[J].Microelectronics&Computer,2014,31(9):89-91.(in Chinese)[9]茅正冲,王正创,黄芳.基于GFCC与RLS的说话人识别抗噪系统研究[J].计算机工程与应用,2015,51(10):215-218.Mao Z C,W ang Z C,Huang F.Speaker recognition anti-noise system research based on RLS and GFCC[J].Computer Engineering and Applications,2015,51(10):215-218.(in Chinese) [10]甄斌,吴玺宏,刘志敏,迟惠生.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报(自然科学版),2001,37(3):371-378.Zhen B,Wu X H,Liu Z M,Chi H S.On the importance of components of the MFCC in speech and speaker recognition[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2001, 37(3):371-378.(in Chinese)(编辑:秦巍)。