当前位置:文档之家› 音周期与清浊音信息的梅尔倒谱参数

音周期与清浊音信息的梅尔倒谱参数

第22卷第2期2007年6月数据采集与处理

JournalofDataAcquisition8LProcessing

V01.22No.2

Jun.2007

文章编号:1004—9037(2007)02一0229一05

基于基音周期与清浊音信息的梅尔倒谱参数

郭武王仁华戴礼荣

(中国科技大学电子工程与信息科学系,合肥,23。027)

摘要:提出一种在浊音部分不固定帧长的梅尔倒谱参数(Mel—c印strum)提取的方法。针对浊音和清音所包含信息量不同,对浊音进行双倍的加权,从而将基音与清浊音信息融合进梅尔倒谱参数。将这种动态的梅尔倒谱参数应用在说话人确认中,在混合高斯模型(Gaussianmixturemodels,GMM)的情况下,取得了比常用的梅尔刻度式倒频谱参数(Mel—frequencycepstralcoefficient,MFCC)更高的识别率,在NIST2002年测试数据库中,512个混合高斯下能够将等错误率(EER)由9.4%降低到8.3%,2048个混合高斯下能够将等错误率由7.8%降低到6.9%。

关键词:说话人确认;梅尔倒谱参数;基音频率;清浊音信息

中图分类号:TN912.34文献标识码:A

Mel—CepstrumIntegratedwithPitchandInformationofVoiced/UnVoiced

G甜DI矿“,阢,盘,zgRP,z^“口,D盘iLi7’D,zg

(DepartmentofElectronicEngineeringandInformationScience,

UniversityofScienceandTechnologyofChina,Hefei,230027,China)

Abstract:Analg。rithmthatextractstheMel—cepstrumusingvariableframe1engthduringvoicedspeechisproposed.Furthermore,thevoicedpartⅣ【el—cepstrumiscopiedtwicebecausemoreinformationisheldinvoicedspeechthaninunvoicedspeech.Theinformationofpitchandvoiced/unvoicedisfusedintotheMel—cepstrumthr。ughtheabovetw。methods.WhentheGaussianmixturemodels(GMM)isadoptedintext—independentspeakerverification,thesys—tembasedonthedynamicMel—cepstrum(DMCEP)hasbetterperformancethanthesystembasedonstandardMel—frequencycepstralcoefficient(MFCC).SpeakerVerificationexperi—mentsarecarriedonthe2002NISTsinglespeakerverificationevaluationcorpus.ComparedwithstandardMFCC,theequalerrorrate(EER)isreducedto8.3%from9.4%andto6.9%from7.8%in512GMMand2048GMMwithDMCEP.

Keywords:speakerverification;Mel—cepstrum;pitchfrequency;informationofVoiced/un—vojced

在与文本无关说话人确认系统中,基于GMM—

UBM[11的模型是当前的主流技术,而特征参数一般采用基于人的听觉模型的梅尔刻度式倒频谱参数(Mel—frequencycepstralcoefficient,MFCC)。MFCC参数的核心思想是建立在听觉模型基础之上的,该参数比其他的常用参数具有更高的识别率以及抗噪能力。但是,MFCC的抽取完全是一个静态的过程,没有考虑人发音的过程。一般而言,语音中至少包含浊音、清音、过渡部分,另外还有无声段;无声段不能提供信息,而浊音包含有更多的信息。在MFCC提取的过程中,一般会通过寂静音检测去除部分无音段,但是对于其他所有语音都是同等对待的。.本文采用梅尔倒谱参数(Mel—cepstrum)[21作为说话人识别系统的前端特征,梅尔倒谱参数也是

基金项目:中国科技大学青年教师基金和国家863(2006AA010104)资助项目。收稿日期:2006一03—23;修订日期:2006—10一20

 万方数据

230数据采集与处理第22卷

一种模拟人耳听力曲线的一种参数,但是与MFCC的三角滤波器组不同,该参数主要是从能量最佳逼近的角度去逼近原信号的频谱。浊音部分一般有相对固定频率,这个频率就是基音频率^或者叫Pitch。厂。一般与发音人以及具体所发的音有很大的关系,如果帧长固定的话,在浊音部分就会把语音信号截断,会造成频谱的混叠以及所谓的栅栏效应,因此帧长最好尽量包含所有周期的数据。另外,考虑到浊音部分含有更多语音信息,应该对浊音部分的参数比清音部分的参数加以更重的权重。

1GMM—UBM模型

说话人确认系统目前使用的主流技术是混合高斯模型[1],其中背景模型(UBM)用EM算法可以得到,而说话人模型(Speakermodel)是通过自适应技术(MAP[1])由UBM模型自适应得到。判决时,将输入语音特征矢量通过Speaker和UBM两个模型,计算两个模型的对数似然度得分的差值,如果大于预先设定的门限则认为语音是从假定说话人发出的语音段。

在这个模型中,如何在提取的语音特征矢量中包含尽量多的说话人信息,去除噪声、寂静音,甚至去除语义信息,降低特征矢量的维度一直是人们研究的问题。在基于电话语音数据的与文本无关的说话人确认系统中用得比较多的特征是帧长为25ms、帧移10ms的MFCC[1],最常用的是第。到12维MFCC,另外再加上MFCC的一阶差分、二阶差分总计构成39阶用于模型的训练、测试,一般而言得到的特征矢量会减去倒谱的均值(Cepstralmeansubstraction,CMSLlJ)后通过RASTALlo算法进行倒谱域的滤波以去除信道卷积性质的噪声。

2梅尔倒谱参数

定义一个对数函数

S(叫)一log硼(1)假定语音信号吐胛]的频谱为x(e…),那么梅尔倒谱参数C。(m)与X(e“)的关系为

5(x(e?“))一yc。(m)e—m’(2)式中偏转的频率萄(叫)可以通过以下一个全通系统函数定义一一篙b—e一扣(3)

1一口2—1’22“

。、。7式中口为一个与人耳对频率的相位响应有关的参数,在8K采样率下,一般a—O.31。通过式(3)可以得到m)一rctan叫未专篙(4)

如果只用M+1个倒谱参数C。(m)来参与计算,式(2)从理论上来说就不是等式,就会出现舍入误差。这个分析过程就是M+1个倒谱参数C。(m)从一个频率翘转的角度去逼近语音信号的对数谱X(e”),使得误差最小,如图1所示。其中让,z]代表残差。

图1MCEP分析过程

其中,D(2)与吐咒]的z变换X(z)关系为

x(z)一K?D(z)(5)

D(2)一e童。。扣圹”(6)式中K为一个增益归一化的系数。具体求解C。(优)可以采用Newton—Raphson方法。

3动态的特征参数提取

3.1固定帧长的特征参数抽取对谱的影响一般的特征抽取过程是采用固定帧长的方式,如图2所示。从图中可以看出,对于所有的帧都不区分地以固定的帧长(一般20~25ms)、帧移(一般10~15ms)进行处理。但是浊音部分是一种准周期性的信号,具有一定的基音频率^,^主要集中在50~400Hz,对应周期是2.5~20ms,如果按照固定长度帧长,就有可能造成相邻帧之间的语音谱间的距离相差很大。针对浊音部分情况,大致分析如下。

图2固定帧移的特征抽取过程

对于第咒帧S。和第,z+1帧5。+。,假设帧长为Ⅳ点,那么5。和S。+。包含有M个周期为P的完整周期S一以及一部分不完整的信号S4,假设用S一表示周期信号部分,用S4表示非周期部分,S。,s计。可表示为趾小甓i篙姜著三~㈩

 万方数据

第2期郭武,等:基于基音周期与清浊音信息的梅尔倒谱参数231

踮。,一戤:濡g三~㈦

?信号的频谱采用傅里叶变换式(9)可以求得,为简单起见,采用离散时间傅里叶变换而没有用离散傅里叶变换表示。

5(叫)一ys[咒]e,nu(9)‘5f[,z]和50。[,z]虽然不同,但是都是相同周期的周期信号,因此傅里叶变换的幅度谱是相同的,仅仅相差一个相位;相邻帧S。和S什,之间谱的差异主要是由S:■],s:+,[,z]导致。S:[,z],5:+。[,z]都是一个周期的某一部分,但是由于采用固定帧长从而导致

语音数据相邻帧之间幅度谱出现了不连续;而且这种差异在厂0数值比较小时会更加的严重。这就与浊音部分的假设不一致,一般认为浊音部分是一种短时平稳的过程,语音谱应该帧问平稳。

3.2基于基音周期和清浊音信息的梅尔倒谱参数

动态MCEP参数抽取的过程如图3所示。总体思路就是分清音和浊音两种情况对特征进行提取,Pitch的提取是应用Praat4.o程序[3q],具体过程如下。

(1)针对清音采用标准帧长25ms,帧移10ms

图3动态梅尔倒谱参数求解过程

提取13维的MCEP。

(2)针对浊音部分采取Pitch判决的方法,如果下一帧的Pitch与以前储存的所有帧的Pitch的平均值之差小于门限值,那么认为这些帧具有相同周期,就把下一帧数据也保存起来,同时再重新计算保存帧的Pitch,一直到这个Pitch值与移动中下一帧的Pitch值之差大于门限值为止;将所有这些帧当作一帧处理,计算MCEP,得到13阶的MCEP,在实验中这个门限值定为1.o。移动过程如图4所示。

(3)为了在后面的CMS,RASTA算法中保持数据的平衡,又将浊音部分超过一帧数据长度计算得到的MCEP的数据按照相应的10ms一帧进行复制,也就是所有这些帧都有相同的MCEP。如图4,假设5卧,是由65ms时间长度的语音构成,一般一帧长是25ms,那么在求出MCEP特征参数之后,将其扩展到5帧,也就是S计,~5计。,这5帧都具有相同的MCEP。

(4)按照时间的先后顺序分别将清音和浊音的McEP排列,同时采用cMs和RAsTA算法分别

最+,(具有相同Pitch)

图4浊音部分的不固定帧长的特征抽取过程

 万方数据

232数据采集与处理第22卷

进行倒谱域的滤波。对滤波后的参数进行一阶和二阶的差分,得到39阶的参数。考虑到特征参数的高斯化能够提高识别率,最后再分别进行参数的高斯化‘引。

(5)将清音和浊音部分的特征参数保存,其中浊音部分保存两次,这相当于浊音部分特征加倍的情况。这样做是为了与说话人识别后端的EM算法、MAP算法和测试程序相匹配,这也利用了GMM—UBM模型与时间无关性的特点。

4基于动态梅尔倒谱参数的说话人确认系统

本文采用NIST2002年的测试数据中的单人说话人确认数据库作为实验,该数据库中有男声139人,女声191人,录音是在日常通话的GSM和CDMA移动电话录音数据,8K采样率,8比特肛率量化。一般训练用数据是2min左右,测试数据从2s到1min左右不等,总计有3500段左右的语音进行测试,每段语音通过11个假定说话人的测试,总计大约38000次测试。

4.1前端特征的抽取

对于语音信号先去直流,预加重(因子为o.97),窗函数采用汉明窗。在抽取特征参数的同时,采用基于能量聚类的VAD程序[61进行寂静帧去除,对其中的参数进行适当调整以优化性能,每一段语音大概能够滤除25%~30%的无声段。

为了进行比较,抽取了3种特征参数:(1)MFCC作为基线系统;(2)动态梅尔倒谱参数;(3)用Praat得到信号的^。对于MFCC参数,固定帧长为25ms,帧移为10ms,抽取0~12维MFCCs,总计为13维,通过一阶差分、二阶差分总计构成39维用于模型的训练、数据的测试。对于动态梅尔参数,又分为固定帧长(25ms)、不固定帧长、浊音部分加倍3种情况。对于动态梅尔倒谱参数分别采用a—O.31,选取前13维的一阶差分和二阶差分,总计构成39维。

4.2实验及结果

对于不采用基频^作为特征参数的系统(系统1,3,4,5,见表1),首先针对不同性别采用标准的Kmeans和EM算法得到一个与性别相关的背景模型(uBM),然后将这两个分性别的UBM合并成一个与性别无关的UBM模型[13;通过简化的MAP算法分别得到说话人模型,测试中得分采用对数似然度计算。

系统2采用基频^和MFCC共同作为特征参数,采用文献[7]中介绍的方法,也就是将浊音和清音单独进行说话人确认。清音部分系统采用39维MFCC,浊音部分在39维MFCC的基础上再增加^的对数log(^)构成40维矢量,系统的其他部分与系统1一样。这样在计算得分的时候,清音部分可以得到一个对数似然度得分以…。。,浊音部分可以得到一个对数似然度得分以。。ice,最终将这两个得分进行融合得到总得分

A一口以,。。+(1一a)以。。。。.ce(10)采用等错误率(Equalerrorrate,EER)来衡量说话人确认的效果,即错误拒绝概率FR和错误接受概率FA相等的情况;EER的结果与检测代价函数,DET(Detectionerrortrade—off)图等评价手段一致。在不同情况下的EER如表1所示。

表l各种特征参数情况下的EER%

5结论和讨论

由实验中EER数据可以看出,采用动态梅尔倒谱参数并且对浊音进行双倍的加权(系统5)能够取得最好的识别效果,比基线的MFCC参数性能提高12%。这是由于MFCC在通过滤波器组时,将低频和高频同等对待,事实上,说话人信息应该更多地包含在低频信息中,在这个过程中失去了一些说话人个性的东西。相对而言,梅尔倒谱参数是从翘转的频谱的角度达到预测能量最小化的过程,所以能够更加精确地保留说话人的个人信息,这也从上面的实验中得到了验证。

在说话人识别研究中,Pitch对说话人识别(确认)的性能有帮助[7{],但都是把Pitch作为单独的一维特征处理后与MFCC特征融合,一般认为Pitch值的对数呈高斯分布。在实验中,由于Pitch不稳定,很难取得好的效果。事实上,在实验的系统

 万方数据

第2期郭武,等:基于基音周期与清浊音信息的梅尔倒谱参数233

2中,如果将a设为o.5,也就是将浊音和清音同等对待,相当于系统1加上一个Pitch值来考虑,在识别性能上没有列表的效果好,EER值甚至比系统1还要高。当a大于o.5,即浊音部分的得分加更多的权,也就相当于系统5部分的功能时,系统2才表现出性能的提升。因此,实验2的性能提高并不能肯定说是Pitch的作用引起。从各种文献上来看,各种实验中对于直接采用Pitch进行说话人确认,一般结果都是在测试人比较少的情况下能够取得满意的结果,对于测试人增加的情况下,性能会急剧恶化。而将Pitch融人到短时参数中,避免了Pitch不稳定的特点,从而提高了识别率。本文提出的方法为了能够采用CMS,RASTA以及特征高斯化等过程匹配,对于帧长以及帧的起始还作了一些折衷。

清音是一种伪随机噪声,而浊音由于有一定的周期性,更加反应说话人的个性特征,但是在应用中一直没有加以重视,采用复制浊音段参数的方式就是一种对浊音段的加权。但是,这种方式的加权到底权值是多大,应该可以比本文中简单加倍的方式更加优化。按照理论上分析,这种加权的方法也可以最后在得分域针对清音和浊音进行处理。

参考文献:

[1]DouglasAR,ThomasFQ,RobertBD.SpeakerverificationusingadaptedGaussianmixturemodels

[J].DigitalSignalProcessing,2000,(10):19—41.[2]TokudaK,KobayashiT,ImaiS.Generalizedcep—stralanalysisofspeech—unifiedapproachtoLPCand

cepstralmethod[C]//ProcICSLP一90.Kobe,

jap8n:[s.n.],1990:37—40.

[3]BoersmaP,weeninkD.www.praat.org[EB/0L].[4]BoersmaP.Accurateshort—termanalysisofthefun—damentalfrequencyandtheharmonics—to—noiseratio

ofasampledsound[c]//InstituteofPhoneticsci—

ences.UniversityofAmsterdam:IFAProceedings.

Amsterdam,Holland:[s.n.],1993,17:97—110.[5]XiangBing,UpendraVC.short—timeGaussianiza—tionforrobustspeakerverification[c]//ProcIEEE

ICASSP’02.0rlando,Florida:[s.n.],2002,1:

681—684.

[6]LoriFL,LawrenceRR.Animprovedendpointde—tectorforisolatedwordrecognition[J].IEEETrans

onAcoustics,Speech,andSignalProcessing,1981,

29(4):777—785.

[7]ZhangXuefeng,DongYuan.Insightintotheroleofpitchinformationintext—independentspeakerrecog—

nition[c]//第八届全国人机语音通讯学术会议.北

京.[s.n.],2005:214—217.

[8]GeorgeRD,MarkAP.TheNISTspeakerrecogni—tionevaluation—overview,methodology,systems,re一

8ults,perspective[J].speechcommunication,2000,

(31):225—2S4.

作者简介:郭武(1973一),男,讲师,研究方向:语音信号处理、说话人与语种识别、确认,E—mail:guowu@mail.ustc.edu.cn;王仁华(1943一),男,教授,研究方向:语音信号处理;戴礼荣(1962一),男,教授,研究方向:语音信号处理、多媒体信号处理、多媒体通信。

 万方数据

基于基音周期与清浊音信息的梅尔倒谱参数

作者:郭武, 王仁华, 戴礼荣, Guo Wu, Wang Renhua, Dai Lirong

作者单位:中国科技大学电子工程与信息科学系,合肥,230027

刊名:

数据采集与处理

英文刊名:JOURNAL OF DATA ACQUISITION & PROCESSING

年,卷(期):2007,22(2)

引用次数:1次

参考文献(8条)

1.Douglas A R.Thomas F Q.Robert B D Speaker verification using adapted Gaussian mixture models

2000(10)

2.Tokuda K.Kobayashi T.Imai S Generalized cepstral analysis of speech-unified approach to LPC and cepstral method 1990

3.Boersma P.Weenink D查看详情

4.Boersma P Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise

ratio of a sampled sound 1993

5.Xiang Bing.Upendra V C Short-time Gaussianization for robust speaker verification 2002

6.Lori F https://www.doczj.com/doc/1413617731.html,wrence R R An improved endpoint detector for isolated word recognition 1981(4)

7.Zhang Xuefeng.Dong Yuan Insight into the role of pitch information in text-independent speaker recognition 2005

8.George R D.Mark A P The NIST speaker recognition evaluation-

overview,methodology,systems,results,perspective 2000(31)

相似文献(0条)

引证文献(1条)

1.陆伟.戴蓓蒨.李辉.刘青松MFCC中的基音频率信息对说话人识别系统性能的影响[期刊论文]-中国科学技术大学学报 2009(8)

本文链接:https://www.doczj.com/doc/1413617731.html,/Periodical_sjcjycl200702019.aspx

下载时间:2010年3月15日

相关主题
文本预览
相关文档 最新文档