当前位置:文档之家› 第08章 语音信号特征参数

第08章 语音信号特征参数

第08章 语音信号特征参数
第08章 语音信号特征参数

第八章语音信号特征参数

8.1 概述

语音信号是十分复杂的非平稳信号,它不仅包含语义信息,还有个人特征信息,对其特征参数的研究是语音识别的基础。换句话说,特征参数应能完全、准确地表达语音信号。那么特征参数也应能完全、准确地表达语音信号所携带的全部信息。实验语音学的研究从语音信号本质上给出的特征参数是科学的、合理的,但是不完全的。在元音的特征研究较深入,对辅音的研究相对较弱,对辅音、元音之间的过渡就更弱,而这一部分恰好是含信息量最大、最难处理的。

本章介绍语音信号的九种特征参数及其提取算法,是从不同的角度对语音信号研究的结果,是可行的、有效的,但不是万能的。值得提请读者注意的是,某些算法对一些应用表现很好,但对另一些应用可能表现不佳。应该说我们对语音信号的本质认识还不够深入,也就是我们对语音信号的发音机理、心理,听觉机理、心理,语义的社会性等方面缺乏深入研究,更谈不上多学科综合研究。尽管如此,现有的这些特征参数在语音识别中起着重要作用。

8.2基音周期Equation Chapter 8 Section 2

基音周期(Pitch)(或基音频率)是指发浊音时声带震动所引起的周期性,基音周期也F的倒数,它不仅是语音信号分析的一个重要参数,也是语音产生的数字是声带振动频率

模型中激励源的一个重要参数,它携带着非常重要的具有辨意信息,因此它的检测和估计是语音处理中一个十分重要的问题[1]。

基音检测的主要困难在于:(1)语音信号变化十分复杂,声门激励波形并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清浊音的过渡帧是很难判断它应属于周期性还是非周期性,从而也就无法估计出基音周期。(2)要从语音信号中去除声道影响,或者直接去除仅和声带振动有关的音源信息并非容易的事,例如声道共振峰有时会严重影响音源的谐波结构。(3)在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的(即音调是有变化的),而且因为波形的峰或过零受共振峰结构、噪声等影响。(4)基音周期变化范围较大,从低音男生的70Hz直到女孩的500Hz,也给基音周期检测带来了一定的困难。

基音周期的检测方法大致可分成三类:(1)时域估计法,直接由语音波形来估计基音周期。其中,最著名的有:变形自相关法[2]、并行处理法[3]、平均幅度差法(AMDF)[4]、数据减少法[5]等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期。例如:倒谱法(CEP)[6]等。虽然倒谱分析算法比较复杂,但基音周期估计效果较好。(3)混合法,先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF法求得基音周期。例如:简化逆滤波法(SIFT)[7]、逆滤波简化平均幅度差法(IFAMDF)[8]等。本节介绍几种有效且实用的方法。

8.2.1 自相关法及其改进

前面曾经指出过,浊音语音信号的短时自相关函数有很明显的周期性,窗越宽这种周期性越明显,其周期就是基音周期,而清音的短时自相关函数没有这种周期性。因此,计算短时自相关函数是区分清音和浊音并估计出基音周期的一种有效方法。其理论依据是,如果信号是周期的,那么它的自相关函数也是周期的,且周期与信号周期相同。自相关算法把周期点的峰值突现出来,而其它谐波成分较弱,便于周期提取,而且噪声在自相关运算中向零点集中,因此本算法有一定的抗噪性能。

一种最简单的处理方法是先对语音信号进行低通滤波,然后再计算短时自相关函数。依据是,语音信号的基音频率一般都在500Hz 以下,即使女高音升C 调最高也不超过1kHz 。因此,从只保留基音频率的角度出发,用一个带宽为1kHz 的低通滤波器事先对语音信号滤波是有好处的。然后以2kHz 取样频率进行采样。最后以2~20ms 的滞后时间逐帧计算短时自相关函数,每帧长度为10~20ms 。这样便可得到基音频率的轨迹(基音频率是随着时间变化的)。

第二种处理方法是采用中心削波技术。如前所述,在发浊音时,基音周期不仅有时变性,而且复合在复杂信号中,用短时自相关函数将其周期性的峰值突现出来。对于估计基音周期真正有用的只是出现在基音周期处的自相关峰,其余较低的峰都是多余的;有用的自相关峰是由于语音信号中的一些最高峰形成的,这些最高峰是由于准周期激励脉冲产生的;无关的峰是声道对激励脉冲产生的响应。基于这种认识,完全有理由采用中心削波器去掉语音信号中所有低振幅部分而保留高振幅的峰值。另外,当音调周期性和共振峰(声道响应)周期性混在一起时,使检测出来的峰点位置可能是f p N N ±(p N 是基音周期,f N 是第一共振峰的周期)。但为了避免这种情况,有必要对语音信号作预处理,以去掉声道响应的影响,“中心削波”是有效的方法之一。

语音时域处理的三电平中心削波法是一个十分巧妙的算法,在此介绍其原理,不仅在于它简化了特定目标的自相关函数的计算,更重要的是它的思路发展对研究人员有借鉴意义。 中心削波语音信号实质上是对语音信号作非线性处理:

[])()(n x C n y = (8.2.1) 处理[]C ?如图8.2.1所示,中心削波过程如图8.2.2所示。

图8.2.1 中心削波函数 图8.2.2 中心削波工作过程

由图8.2.2所示的中心削波后的波形,作自相关运算,只有剩余的峰值部分参与运算,其它都是零,为了保证表征音调周期的峰值不被削掉,电平L C 的选择是很重要的。在语音信号持续时间内,语音信号的电平变化是很大的,显然固定的电平是不适宜的。有效的办法是找到语音帧的前三分之一和最后三分之一内的最大幅度,选取削波电平在这二值中较小的幅值,然后取其60%到80%即可,常定为68%。

用自相关函数提取音调周期,关心的是时间,也就是自相关函数峰值出现的位置,而峰值本身的大小无关紧要。如果将削波后的波形无论大小,都定义为±1,被削去的部分都定义为零,那么+1,-1,0这三个电平做起自相关运算来可简捷快速。削波函数如图8.2.3所示,三电平削波过程如图8.2.4所示。

三电平中心削波后,自相关函数计算非常简单。如果以)(n y 表示三电平中心削波后的输出,那么自相关函数为:

∑--=+++=

k

N m n k m n y m n y k R 10)()()( (8.2.2)

其中乘积)()(k m n y m n y +++有三种不同的值:

??

???++≠+-++=++=++=+=+++)()(,1)()(,10)(0)(,0)()(k m n y m n y k m n y m n y k m n y m n y k m n y m n y 若若或若 (8.2.3)

因此,无论在软件或硬件实现时,计算每个k 值的自相关函数无需乘法,只需要简单的组合逻辑即可(即所谓的极性相关)。实验表明,采用三电平中心削波使自相关函数计算大大简化,却基本上不降低音调检测性能。

第三种处理方法就是用短时幅度差函数来代替短时自相关函数,这样也可以省去乘法运算从而节约运算时间。

以上几种方法也可以组合应用,其效果会更好。例如,可以将中心削波后的信号进行短时平均幅度差计算。

图8.2.3 三电平削波函数 图8.2.4 三电平削波工作过程

8.2.2 并行处理法

一个较为成功的基音周期检测的时域方法是并行处理法。图8.2.5给出了实现框图。

预处理器六个独立的基音周期估值器后处理器

图8.2.5 并行处理法基音周期检测图

在这个方案中,语音信号经过预处理后形成一系列脉冲,这一串脉冲保留了信号的周期性特征,而略去与基音周期无关的信息;然后由平行的一些简单的检测器估计基音周期。最后,在后处理部分,对这几个基音周期检测器的估值作逻辑组合,输出估计的正确周期。如语音信号的采样率为10KHz ,那么,基音周期估计精度可达到1/10000s 。预处理器部分是截至频率为900Hz 的低通滤波器,其目的是滤除信号谱中高频共振峰的影响,同时保留足够强的谐波结构,使得峰值检测更加容易。这个滤波器可以放在A/D 变换前采用模拟滤波,也可以放在A/D 变换后用数字滤波来完成。从滤波后的信号找出峰点和谷点(局部最大和最小),根据它们的位置和幅值,产生几个冲激序列,图8.2.5中为6个,均由正冲激组成。

1

- 1

各基音周期估计器的输出见图8.2.6,这六个基音周期估计器的输出为:

(1) 1()m n :在每一个峰点处产生一个等于峰值的冲激。

(2) 2()m n :在每一个峰点处产生一个等于峰值减去前一个谷点值的冲激。

(3) 3()m n :在每一个峰点处产生一个等于峰值减

去前一个峰点值的冲激。(差值如果为负,输出为零)。 (4) 4()m n :在每一个谷点处产生一个等于谷值的

冲激。

(5) 5()m n :在每一个谷点处产生一个等于谷值减去前一个峰点值的冲激。

(6) 6()m n :在每一个谷点处产生一个等于谷值减去前一个谷点值的冲激。(差值如果为负,输出为零)。

尽管图8.2.6中输入是一个弱基波加上较强的二次谐波,但除了5()m n 外,各个冲激序列均具有与输入相同的周期,5()m n 的输出周期等于输入周期的一半。

这六个基音周期的估值,分别和其对应的基音周期检测器前两次估计合起来,然后比较这些估值,出现次数最多的值就是该时刻的基音周期,这个方法对浊音周期可以做出很好的估计;遇到清音,各个估值就不一致

了,由此可判断为清音。通常,按10ms 一帧来估计基音周期,同时得到“浊音/清音”判决。

时域估计方法的优点是算法比较简单,硬件实现容易;此外,它不仅能估计出基音周期,而且还可以定出峰点位置,这在一些按基音周期操作的处理中是很有用的。

8.2.3 倒谱法

具有周期性的浊音语音信号的倒谱特征如本章后面几节的介绍,这里,主要举例说明利用倒谱特征进行基音周期检测。如图8.2.7所示。

哈明窗()w n j

图8.2.7 基音周期检测的倒谱法 其工作原理简要说明如下:(1)采样率为10KHz ,帧长51.2ms ,用哈明窗平滑,然后求出倒谱()c n 。(2)求出通过高时窗后的倒谱峰值pk I 及其位置POS I 。如果第一峰值超过某门限值,则判为有声段;且基音周期就等于峰值位置。(3)如果峰值未超过某门限值,则进行过零计算,若其数量超过某门限值,则为无声语音帧。反之,则为有声,且基音周期仍等于该峰值的位置。(4)框图中的无声检测器是时域信号峰值检测器。若低于某门限值,则认为是无声,勿需进行上述倒谱检测基音的计算。

8.2.4 简化逆滤波法

这个方法先将语音信号降低采样率并提取其模型参数,然后用这些参数对原信号进行逆滤波得到音源序列,最后求出该序列的峰值位置以求得基音周期。原理框图如8.2.8所示。

其工作情况说明如下:(1)输入语音信号先经过0~900Hz 的低通滤波,然后降低采样率五倍(因为音源序列的带宽小于1kHz ,所以用2kHz 采样就足够了)。当然,由此在后面

(x 1(m 2(m 3(m 4(m 5(m 6(m 8.2.6 输入的弱基波和二次谐波 及其产生的峰谷冲激序列

要进行内插。(2)提取模型参数(LPC 参数,见本章下一节),然后进行逆滤波,得出声门激励序列。(3)进行自相关运算,检测出峰值及其位置,就得到基音周期值(所谓IFS-AMDFT 法,就是用AMDF 的谷点来求得基音周期)。(4)最后进行有/无声判决。另外,与上面方法相似,有一个无声检测器,以减少运算量。

图8.2.8 基音周期检测的简化逆滤波法 8.3 线性预测参数Equation Section (Next)

8.3.1线性预测信号模型

在随机信号谱分析中,常把一个时间序列模型化为白噪声序列通过一个数字滤波器()H z 的输出[9-10]。在一般情况下,()H z 可写成有理分式的形式:

111()1q l

l l p i

i i b z H z G a z -=-=+=-∑∑ (8.3.1)

式中,系数i a 、l b 以及增益因子G 就是模型参数,因而信号可以用有限数目的参数构成的信号模型来表示,如图8.3.1所示。假设被模型化的信号为()s n ,模型输入为()u n ,它的Z 变换分别为()S z 和()U z ,那么有:

)()()(z U z H z S ?= (8.3.2)

从时间域上看,信号模型的输出与输入满足下面差分方程

10()()(),p q

i l i l s n a s n i G b u n l ===-+-∑∑ )1(0=b (8.3.3)

上式表明,()s n 可以模型化为它的p 个过去值)(i n s -和输入)(n u 及其q 个过去值()u n l -的线性组合;从物理意义上讲就是()s n 可由其过去值及输入信号值的线性组合来预测得到,所以信号模型化和线性预测有内在的联系。

当输入)(n u 是零均值的随机信号时,系统的输出与输入关系可用相关函数或功率谱关系来表征[11]:

)z (R )z (H )z (H )z (R uu ss 1-= (8.3.4)

u )

(n 图8.3.1 信号()s n 的模型化

式中,)(z R ss 和)(z R uu 分别为信号)(n s 和输入)(n u 自相关序列的Z 变换。在信号模

型中,)n (u 是零均值、方差为2u σ的白噪声序列,其自相关2()()uu u R n n σδ=,所以

2u uu )z (R σ=,因而式(8.3.4)变换为12()()()ss u

R z H z H z σ-=,写成功率谱形式即有: 22

()()j j S e H e ωω= (8.3.5)

上式假设21u σ=。这表明,信号s(n)的功率谱2

()j S e ω完全由滤波器的幅度频率响应

来决定。从这个意义上讲系统()H z 确实可以用来模型化信号()s n ,式(8.3.5)也是用模型参数分析法来进行随机信号谱估计的依据。

按数字滤波器()H z 的有理式的不同,可有如下三种信号模型: (1)自回归信号模型(Autoregressive Model ,简称AR 模型),此时()H z 是只含递归结构的全极点模型,由它产生的序列称为AR 过程序列。

(2)滑动平均模型(Moving Average Model ,简称MA 模型),此时()H z 是只有非递归结构的全零点模型,由它产生的序列称为MA 过程序列。

(3)自回归滑动平均模型(Autoregressive Moving Average Model 简称ARMA 模型),此时()H z 含有极点和零点,是上述二种模型的混合结构,相应产生的序列称为ARMA 过程序列。

理论上讲,ARMA 模型和MA 模型可以用无限高阶的AR 模型来表达。对AR 模型作参数估计时遇到的是线性方程组的求解问题,相对来说容易处理,而且实际语音信号中,全极点模型又占了多数,因此主要讨论AR 模型。

求解模型参数i a 、l b 、G 的过程通常是一个逼近过程,逼近的方法是:先假定p 和q

的值,然后将)(n u 送入该系统,得到的输出将是)(?n s

而不是)(n s ,不过可以采用某种逼近准则,使)(?n s

逼近)(n s 。然而,这种直接逼近的方法将遇到难以解决的一组非线性方程的求解问题,所以实际上常用“逆逼近法”也就是下面要介绍的线性预测误差滤波的方法。

8.3.2线性预测误差滤波

信号模型的逼近过程本质上是个线性预测误差滤波问题,线性预测误差滤波是一种特殊的数字滤波[12],它的传递函数)(z A 由下式确定:

∑=--=p

i i i z a z A 11)( (8.3.6)

如图8.3.2所示,它的输出)(n e 与输入)(n s 满足关系:

1?()()()()()p

i i e n s n s

n s n a s n i ==-=--∑ (8.3.7) 式中, ∑-=i

i

i n s a n s )()(?称作)(n s 的预测值或估计值。因为)(?n s 由一组过去的样本值(1),(2),...,()s n s n s n p ---线性组合而得,它可看成从)(n s 过去的样本值来预测或估计当前值)(n s 的结果,故又称之为线性预测值;i a 则称为线性预测系数,

输出()e n 是真值)(n s 和线性预测值)(?n s

之差,称作为线性预测误差。设计一个预测误差滤波器,就是求解预测系数i a 使得预测误差)(n e 在某个预定的准则下最小,这个过程称之为线性预测分析。理论上常用的是均方误差)]([2

n e E 最小的准则,][?E 表示对误差的平方求数学期望或平均值。下面简单讨论如何在这一准则下求解预测系数i a 。为了得到使)]([2n e E 最小的i a ,可将)]([2n e E 对各个系数求偏导,并令其结果为零:

0)]([2=??j

a n e E , p j ≤≤1 (8.3.8) 即

图8.3.2 线性预测误差滤波

0)]()([2)]([2=--=??j n s n e E a n e E j

(8.3.9) 将()e n 按式(8.3.7)代入得:

11[()()()()]()()0p p

i i i i E s n s n j a s n i s n j r j a r j i ==----=--=∑∑,p j ≤≤1 (8.3.10) 式中,[])()()(n-j s n s E j r =是()s n 的自相关序列。(为了公式推导简洁,这里定义的()r j 和一般自相关序列相差一个负号,因为()r j 具有偶对称性 ,故两种定义是一致的。)上式可写成矩阵形式,设 12(0)(1)(1)(1)(1)(0)(2)(2),,(1)(2)(0)()a p p p p a r r r p r a r r r p r a r p r p r r p -????????????-??????===????????????--????

??

A R r 那么,式(8.3.10)的矩阵形式为: 0=-p p a p A R r 或者 a p p p r R A 1-

= (8.3.11)

式中,1-p R 是p 阶自相关阵p R 的逆矩阵。式(8.3.11)称为尤勒-沃尔克(Yule-Walker )方程,p 个预测系数i a 可通过求解方程式(8.3.11)得到,由此求得的i a 将使得预测误差滤波器的输出均方值或者说输出功率最小。令这一最小均方误差为正向预测误差功率p E ,即:

∑=--==p

i i p i n s a n s n e E n e E E 1min 2

)}]()(){([)]([ (8.3.12) 因为从式(8.3.9)有

[]p j j n s n e E ≤≤=-1,

0)()( (8.3.13)

所以 ∑=-=p i i

p i r a r E 1

)()0( (8.3.14) 组合式(8.3.14)和式(8.3.11)可得:

?????????

???????=????????????????---????????????????----0:00:1:)0()2()1()(::::)2(:)1()2()1(:)0()1()(:)1()0(21p p E a a a r p r p r p r p r r r p r r r p r r r (8.3.15)

或简写成矩阵形式:

110p p p +????=????-??

??E R A (8.3.16) 式(8.3.15)是完整的,针对平稳信号的线性预测误差滤波器求解方程式。

一个重要的特殊情况是信号)(n s 恰为一个p 阶的AR 过程序列。即设信号模型为

∑=--=p i i

i z a G

z H 11)( (8.3.17)

式中,G 为增益常数。而s(n)是以零均值、单位方差的白噪声序列u(n)去激励H(z)的输出

∑=-+?=p

i i i n s a n u G n s 1)()()(

或满足

∑=--=?p

i i i n s a n s n u G 1)()()( (8.3.18)

可对上式再作些推导,先将式(8.3.18)两边乘以)(n-j s ,p j ≤≤1,再求均值

∑=---=-?p

i i j n s i n s a n s E j n s n u E G 1)]()}()([{)]()([ (8.3.19)

由于输入()u n 和()s n j -不相关,{}()()0E u n s n j -= ,得:

0)()(1

=--∑=p i i

i j r a j r , p j ≤≤1 (8.3.20) 再对式(8.3.18)两边乘以()s n 求均值,等式左边:

21

[()()][(){()()}]p i i E G u n s n E G u n G u n a s n i G =?=??+-=∑ (8.3.21)

等式右边

∑∑==-=--

p i i p i i i r a r n s i n s a n s E 11)()0()]()}()([{ (8.3.22) 故得

∑=-=p

i i

i r a r G 12)()0( (8.3.23) 比较式(8.3.20)、(8.3.23)和式(8.3.10)、(8.3.14),我们发现,预测系数和信号模型参数满足相同的方程组,增益常数G 的平方等于正向预测误差功率E 。

事实上,比较图8.3.1和图8.3.2可以看到,线性预测误差滤波相当于一个逆滤波过程或逆逼近过程,当调整滤波器)(z A 的参数使输出)(n e 逼近一个白噪声序列)(n u 时,那么,)(z A 和)(/1z H 是等效的;而按最小均方误差准则调整滤波器参数时,正是使输出)(n e 白化的过程。根据式(8.3.9),假设p 可取任意大,因为)(n e 只是)(n s 及其过去样本值的线性组合,所以不难推出:

[]1,0)()(≥=-j j n e n e E , (8.3.24)

即预测误差序列确为一白噪声序列。

最后要指出,当预测系数个数p 是有限整数时,)(z A 为FIR 型,只有零点,按上面的分析,它和信号模型中的AR 过程对应;若p 值为无穷大时,则预测滤波器)(z A 具有下面形式

1

()1i i i A z a z ∞-==-

也可以表示为: ∑∑=-=-+-=L l l

l m i i

i z b z a z A 1111)( (8.3.25)

这种情况相应于信号模型中的ARMA 过程。

8.3.3 语音信号的线性预测分析

语音信号序列是一个随机序列,它也可以用上述信号模型化来进行分析。图8.3.3显示基于信号模型化思想的语音信号产生框图。

图8.3.3给出的模型是发音机理模型的一种特殊形式,它把该图中的辐射、声道以及声

门激励的全部谱效应简化为一个时变的数字滤波器来表示,其稳态系统函数为:

∑=--==p i i

i z a G z U z S z H 11)()()( (8.3.26)

从而把)(n s 模型成一个p 阶的AR 过程序列。对于浊音语音,这个系统受冲激序列的激励,各冲激之间的间隔为音调周期;对于清音语音,则受白噪声序列激励,它可简单地由一个随机数发生器完成。因为图8.3.3的模型常用来产生合成语音,故滤波器()H z 亦称作为合成滤波器。这个模型的参数有:浊音/清音判决、浊音语音的音调周期、增益常数G 及数字滤波器参数i a 。当然,这些参数都是随时间在缓慢变化的。

)n

图8.3.3 语音信号产生模型

使用图8.3.3的模型进行语音信号线性预测分析的主要缺点有两个:

(1) 根据语音信号的产生机理,很多语音特别是清音和鼻音的场合,声道响应都含有零点的影响,因此,理论上应该采用极零点模型,而不是简单的全极点模型。

(2) 图8.3.3模型中,合成浊音语音时激励源是一组冲激序列,而线性预测分析求解滤波器参数i a 时却仍沿用白噪声源假设,这一分析与合成过程中的不一致性,也是它的一个主要缺陷。针对这些问题,近年来不少学者正在进行研究,以期克服这些弊病[12,13,9]。

8.3.4 线性预测分析的解法

为了解得预测器系数,必须首先算出)(j r ,p j ≤≤0,一旦算出)(j r ,则只要解方程组(8.3.16)即可求得i a 和p E ,并得到增益常数p E G =

。定义自相关序列)(j r 的估计值为∑-=n

j n s n s j r )()()(。

经典的解法有两种:一是自相关法,该方法假定语音信号序列)(n s 在间隔10-≤≤N n 以外等于零,如莱文逊-德宾(Levinson-Durbin )算法;二是协方差法,该方法不规定语音信号)(n s 的长度范围,而定义自相关序列()r j 中n 的范围为10-≤≤N n ,在此范围内认为估算)(j r 所需要的)(n s 值存在,即)(n s 的长度范围应该为1p n N -≤≤-,如乔里斯基(Choleskey )算法。这两种方法中的精度和稳定性之间都存在着矛盾,因而导致了斜格法的逐渐形成。

8.3.5 斜格法(Lattice Method )及其改进

无论是自相关法还是协方差法,它们都是分成两步,先计算相关矩阵,再解一组线性方程。这两种线性预测算法各有其优缺点:自相关法由于使用了窗函数来截取,人为地平滑了)(n s ,从而引入了误差,所以自相关法求得的预测系数精确度不高;另一方面,协方差法由于没有限制)(n s 的长度,又不采用窗口函数,所以精度高,但不如自相关法稳定。虽然,可以采用判根和最小相位化的方法来纠正极点位置,但终究很麻烦。20世纪70年代初,日

本学者Itakura 在分析自相关法的基础上,引入了“正向预测”和“反向预测”的概念,阐述了参数k 的物理意义,首先提出了预测逆滤波器)(z A 的斜格结构形式,这种斜格法在运算中不需要用窗口函数对信号进行加权,同时又保证解的稳定性,因而较好地解决了精度和稳定性的矛盾。稍后,Burg 从最大熵谱分析的观点也得到了相似和等价的结果,接着,Makhoul 又提出了改进的斜格法:协方差斜格法(Covariance Lattice Method )。这个方法是针对斜格法的缺点进行改进的,因为一般的斜格法运算量要比自相关法及协方差法大四倍左右,协方差斜格法可使运算量恢复到自相关法或协方差法的水平上,而同时保持较高精度和解的稳定。

一、斜格法基本原理

首先引入正向预测和反向预测概念。在自相关法的莱文逊-德宾(Levinson-Durbin )递推算法中,当递推进行到第i 阶时,可得到i 阶的预测系数(

),(1,2,...,)i j a j i =因而可以定义

一个i 阶的线性预测误差滤波器,它的传输函数)(z A 按式(8.3.6)为:

∑=--=i

j j i j i z a z A 1)()(1)( (8.3.27)

这个滤波器的输入信号是)(n s ,输出信号为预测误差)()(n e i ,它们之间的关系为:

∑=--

=i j i j i j n s a n s n e 1)()()()()( (8.3.28)

写成Z 变换形式:

)()()()()(z A z S z E i i = (8.3.29)

利用德宾算法中递推公式:

i i i k a =)(及1)()1(

)(

----=i j i i i j i j a k a a ,11-≤≤i j (8.3.30) 代入式(8.3.27),即可得到:

)()()(1)1()1()(-----=z A z k z A z A i i i i i (8.3.31)

将上式代入式(8.3.29)

)()()()()()()()1(1)1(1)1()1()(z B z k z E z S z A z k z S z A z E i i i i i i i i --------=-= (8.3.32) 式中

)()()(1)1()1()1(z S z A z z B i i i -----= (8.3.33)

式(8.3.32)表明,i 阶线性预测误差滤波输出)()

(n e i 可分解为两个部分,第一部分是)1(-i 阶

滤波器的输出)1(-i e (n ),第二部分是与)1(-i 阶有关的输出信号)()1(n b i -,

经过单位移序和i k 加权后的信号。下面讨论这两个部分信号的物理意义。将这两部分信号定义为正向预测误差

信号)()(n e i 和反向预测误差信号)()(n b i : ∑=--=i

j i j i j n s a n s n e 1)(

)

()()()(

(8.3.34) 用于正向预测的i 个样本用于反向预测的i 个样本s

… 图8.3.4 i 阶线性预测的分解

∑=+---=i

j i j i j i n s a i n s n b 1

)(

)

()()()( (8.3.35) 式(8.3.34)中)()(n e i 即是通常的线性预测误差,它是用i 个过去的样本值((1)s n ,- (2)()s n ,,s n i -- )来预测)(n s 时的误差,而式(8.3.35)中的)()(n b i 可以看成是用时间上较迟时刻的样本值)()2()1(n ,s ,i n ,s i n s +-+-预测)(i n s -样本时的误差,所以这个误差称为反向预测误差,这个预测过程则称为反向预测过程。图8.3.4显示为这两种预测情况。在建立了正向预测和反向预测的概念后,就可以推出线性预测分析用的斜格滤波器结构。

对于正向预测,取式(8.3.32)的反变换,可以写出:

)1()()()1()1()(--=--n b k n e n e i i i i (8.3.36)

对于反向预测,首先从公式(8.3.31)写出:

)()()()1(1)1(1)(z A z k z A z A i i i i i -----= (8.3.37)

按式(8.3.33)有)()()(1)()(z S z A z z B i i i --=,将式(8.3.37)代入得:

)

()()]()([)]()([)

()()()()]

()()[()()1()1(1)1(1)1()1(1)1(1)1()1(1)1()(z E k z B z z S z A k z S z A z z z S z A k z S z A z z A z k z A z S z z B i i i i i i i i i i i i i i i i i ------------------=-=-=-= (8.3.38)

取)()(z B i 的反变换后,得到:

)()1()()1()1()(n e k n b n b i i i i ----= (8.3.39)

根据式(8.3.34)和式(8.3.35),当0=i 时有:

)()()()0()0(n s n b n e == (8.3.40)

而p i =时

)()()(n e n e p = (8.3.41)

这里)(n e 是p 阶线性预测误差滤波器所输出的预测误差信号。如果改用符号(n))(i f 表示正

向预测误差)()(n e i ,则式(8.3.36)和式(8.3.39)可改写成如下递推形式:

??

???==--=--=----)()()()()1()()1()()()0()0()1()1()()1()1()(n s n b n f n f k n b

n b n b k n f n f i i i i i i i i (8.3.42) 并由此导出适合于线性预测分析的斜格滤波器结构形式,如图8.3.5所示。

这个滤波器输入为)(n s ,输出为正向预测误差)()(n f p ,亦即预测误差)(n e 。另一方

面,图8.3.3语音信号产生框图中的合成滤波器)(z H 亦可以采用斜格型结构。如前所述,该滤波器输入是)(n Gu ,输出是合成的语音信号)(n s ,通过线性预测分析求得的)(z A 是)(z H 的逆滤波器,)(n Gu 则由)(n e 来逼近,因此合成滤波器)(z H 的结构形式应该满足输

入)(n e 时输出为语音信号?()s

n ,这只要将(8.3.42)式稍作整理,即得 ...

s 211p -p )(n p 图8.3.5 斜格型分析滤波器结构

?

??--=-+=----)()1()()1()()()1()1()()1()()1(n f k n b n b n b k n f n f i i i i i i i i (8.3.43) 立即可导出图8.3.6所示的斜格型合成滤波器结构。

由图8.3.5和图8.3.6可见,p 阶滤波器可以表示成由p 节斜格构成,其中关键的参数就是i k (p i ,,2,1 =),它是反射系数的相反数,在这里叫部分相关系数(PARCOR )。

二、斜格法的求解

由于斜格滤波器中出现了正向预测误差)()(n f i 和反向预测误差)()(n b i ,因而可以设计出好几种最优准则或规则来求解反射系数,从而派生出多种斜格法求解算法。人们可以从中选择一种能保证解的稳定、精度较高、运算量最小的算法。根据斜格滤波器的结构形式,定义三个均方误差:

正向均方误差

]))([()(2)()(n f E n F i i = (8.3.44)

反向均方误差

]))([()(2)()(n b E n B i i = (8.3.45) 交叉均方误差

)]1()([()()()()(-=n b n f E n C i i i (8.3.46)

上面式中符号[]E ?表示求平均。由于有三种均方误差,可以派生出好几种方法,下面介绍 常用的几种:

(1) 正向斜格法

正向斜格法的逼近准则是:使斜格滤波器的第i 节正向均方误差最小来求出i k 值,即令

0)()(=??i

i k n F 简单推导得

])}1([{)]1()([)1()(2)1()1()1()1()1(--=-=-----n b E n b n f E n B n C k i i i i i f

i (8.3.47) 式中f i k 的上标f 表示这个部分相关系数是用正向(Forward )误差最小准则求得的,它等于正向反向预测误差的互相关和反向预测误差能量之比。在实际运算时总是用时间平均近似代替集合平均,如果为了提高精度,采用上一节的协方差法中那样不限制信号)(n s 的长度范围,则上式变为:

∑∑-=--=----=

102)1(10)1()1()]1([)1()(N n i N n i i f i n b n b n f k ,p i ,...,2,1= (8.3.48) 式中假定了)()1(n f i -和)()1(n b

i -的长度范围为10-≤≤N n 。

(2) 反向斜格法

)(n u )1p -)

(n b )(2n b )

图8.3.6 斜格型合成滤波器结构

同理可得:

]

))([()]1()([)()(2)1()1()1()1()1(n f E n b n f E n F n C k i i i i i b i

------== (8.3.49) 注意到)()(n F i 和)()(n B i 的值都是非负的,因为它们分别是)()(n f i 和)()(n b i 的平方的平均,所以, f i k 和b i k 的符号总是相同的。 在以上两种方法中,由于不能保证

)()()1()1(n F n C i i --<和(1)(1)()()i i C n B n --< 所以它们都不能保证

(3) 几何平均斜格法

在此法中不采用逼近准则,而采用逼近规则。定义i k 值是正向斜格法和反向斜格法中f i k 和b i k 的几何平均值,即

b i f i I i k k S k = (8.3.50)

式中S 是f i k 或b i k 的符号,I i k 中的上标I 表示按式(4.62)求得的i k ,就是Itakura 当年导出的反射系数。

将f i k 和b i k 代入(8.3.50)可得到:

])}1([{])}([{)]1()([2)1(2)1()1()1(--=

----n b E n f E n b n f E k i i i i I i (8.3.51)

或者 ∑∑∑-=-=---=----101

02

)1(2)1(10)1()1()]1([)]([)1()(N n N n i i N n i i I i n b n f n b n f k (8.3.52) 这个表达式具有归一化互相关函数的形式,它表示了正向和反向预测误差之间的相关程度,按数理统计中术语,参数I i k 称为部分相关系数,或PARCOR 系数(Partial Correlation

Coefficients ),运用柯西-许瓦兹(Cauchy-Schwarz )不等式很容易证明,1

方法确定的反射系数将保证合成系统是稳定的。此外,根据几何平均的性质有:

),max(),min(b i f i I i b i f i

k K k k k ≤≤ (8.3.53) 由于1I i k <,可以推出 如果1>f i k ,那么1b i k ,那么1

(4)伯格(Burg )法[9]

伯格法的逼近准则是:使斜格滤波器第i 节正向和反向均方误差之和最小来求出i k 值,即令

0)]()([)()(=?+?i

i i k n B n F 简单地推导得到:

)1()()(2)1()1()1(-+=---n B n F n C k i i i B

i

(8.3.55) 或者

∑∑∑-=-=---=---+-=10102)1(2)1(1

0)1()1()]1([)]([)

1()(2N n N n i i N n i i B i n b n f

n b n f k (8.3.56)

B i k 的上标B 表示此结果是按伯格法求出的。同样可以证明,1

从上面讨论的几种求解方法可以看到,斜格法因其结构上的特点,可以从语音样本直接求得反射系数i k ,而无需经过计算自相关矩阵这一中间步骤,这正是斜格法区别于自相关法和协方差法的主要特点。

三、协方差斜格法

斜格法在求解时,先计算)()(n f i 和)1()(-n b i ,然后才求得i k 或i a ,在此过程中要多次调用相同的语音样本,所以运算量是很大的,大致为自相关法或协方差法的4倍以上。协方差斜格法就是为了减少运算量,在斜格法基础上进行的改进。所谓改进,实际上只是改写C B F ,,的表达式,使它们成为协方差)(k,j c 的函数形式,构造成递推公式,再利用协方差矩阵的对称性使运算量降到自相关法水平,推导可参考文献[9]。

根据求得的F ,B ,C ,仍可选用上面所提的不同准则求解k ,这样保持了斜格法的灵活性、解的稳定和精确性。因此,协方差斜格法是很有吸引力的一种线性预测分析算法。

8.4 线谱对(LSP )参数Equation Section (Next)

8.4.1线谱对分析原理

线谱对分析是在线性预测分析基础上频域求解的方法,它求解的模型参数是“线谱对”(Line Spectrum Pair ,简称LSP ),线谱对是线性预测参数的另一种表示形式,用线谱对参数构成合成滤波器)( z H 时和i k 参数一样容易保证稳定性,而且这种参数的量化特性和内插特性均优于反射系数。LSP 分析的主要缺点是运算量较大,下面讨论这一分析方法。LSP 分析的基础仍是图8.3.3中的全极点模型。在《语音编码》(西安电子科技大学出版社)分析斜格法原理时,曾导出了第i 阶线性预测误差滤波器传递函数的递推关系式[9]:

)()()(1)1()1()(-----=z A z k z A z A i i i i i (8.4.1)

式中∑=--=i j j i j i z a

z A 1)()(1)(, ,,,i 321=

设p 阶的线性预测误差滤波器传递函数为)(z A ,即)()()(z A z A p =,可以定义两个1+p 阶的多项式:

)()()(1)1(-+-+=z A z z A z P p (8.4.2)

)()()(1)1(-+--=z A z z A z Q p (8.4.3)

不难看出,P (z )相当于k 1+p =-1时的)()1(z A p +,而Q (z )相当于k 1+p =1时的)()1(z A p +,并

且由上面二式可直接推出:

)]()([2

1)(z Q z P z A += (8.4.4) 它和合成滤波器)(z H 之间满足关系()1/()H z A z =,可以证明[14],当A (z )的零点在Z 平面单位圆内时,)(z P 和)(z Q 的零点都在单位圆上,并且)(z P 和)(z Q 的零点沿着单位圆

上随ω的增加交替出现。式(8.4.2)中的)(z A 和)(1)1(-+-z A z p 可分别写成:

1121)1(1)1(2211...)(...1)(----+--+--------=----=z a z

a z a z z A z z a z a z a z A p p p p p p

p

)1(121211)(...)()(1)(+-----++-+-+-=p p p p p z z a a z a a z a a z P (8.4.5) )1(121211)(...)()(1)(+------------=p p p p p z z a a z a a z a a z Q (8.4.6) 可见)(z P 是一个对称实系数的1+p 阶多项式,而)(z Q 是一个反对称实系数的1+p 阶多项式,因此它们有共轭的复根。并且从式(8.4.5)和式(8.4.6)看到它们还有±1的实根,即

0)(,0)(11==+=-=z z z Q z P (8.4.7)

共轭复根的形式为i j i e z ω=,这是因为知道)(z P 和)(z Q 的零点都在单位圆上,所以这类零点构成的基本因式应该具有形式:

2111cos 21)1)(1(-----+-=--z z e z e z i j j i i ωωω (8.4.8)

若阶数p 是偶数, )(z P 的零点为i j e ω±,)(z Q 的零点为i j e θ±,那么)(z P 和)(z Q 可写成

下列因式分解形式:

/2

1121/2

1121()(1)(1cos )()(1)(1cos )p i i p i i P z z z z Q z z z z ωθ---=---=?=+-+????=--+??∏∏ (8.4.9) i ω,i θ按下式关系排列:

πθωθω<<<<<<2/2/11...0p p (8.4.10) 参数i ω,i θ成对出现,反映了谱的特性,称之为“线谱对”,它们就是线谱对分析所要求解的参数。)(z P 和)(z Q 的零点互相分离,是保证合成滤波器()1/()H z A z =稳定的充分必要条件,事实上它保证了在单位圆上,亦即任意值下)(z P 和)(z Q 不可能同时为零。当p 为奇数时,可以同样求得线谱对参数的表达式。

从上面的分析可以看到,线谱对分析的基本出发点是通过两个Z 变换)(z P 和)(z Q ,将)(z A 的p 个零点映射到单位圆上,这样使得这些零点可以直接用频率ω来反映,而)(z P 和)(z Q 各提供了2/p 个零点频率。从物理意义上说,按照无损声管模型,斜格滤波器)(z A 中的反射系数1+p k 的值表示了声门处边界条件不连续引起的反射,如果声门全开或全闭,均对应着全反射的情况,即1+p k =±1,这正是我们定义的)(z P 和)(z Q 的情况。而从斜格滤波器A (z )的结构图可以看到,那儿口唇处假定是全开的,亦即处于全反射的情况,即10-=k ,结果对于这样一个多级无损声管,其两端的反射系数绝对值均为1,能量被封闭起来没有损耗。在这种理想条件下,声管内谐振点的Q 值可以近似认为无穷大,也就是说,对应声门这两个不同边界条件的)(z P 和)(z Q 多项式的根应该位于z 平面的单位圆上,这就是线谱对分析的出发点。

线谱对参数和语音信号谱特性有密切的联系,按照线性预测分析原理,语音信号的谱特性可以由LPC 模型谱来估计,使用式(8.4.4)LPC 功率谱可以写成:

222/2

/222221111

()4()()

()2[sin (/2)(cos cos )cos (/2)(cos cos )]j j j j p p p i i i i H e P e Q e A e ωωωωωωθωωω---====+=-+-∏∏(8.4.11)

式中括号中第一项,当ω接近0或i θ(12/2)i =,,, p 时接近于零,括号中第二项当ω接近π或i ω(12/2)i =,,, p 时接近于零。如果i θ和i ω很靠近,那么当ω接近这些频率时,2()j A e ω变小, 2

()j H e ω显示出强谐振特性,相应地语音信号谱包络在这些频率处出现峰值。因此可以说,LSP 分析是用p 个离散频率i θ和i ω的分布密度来表示语音信号谱特性的

8.4.2线谱对分析的求解

求解线谱对参数即求解多项式)(z P 和)(z Q 关于z 的根。当)(z A 的系数即线性预测系数i a 求出后,可以用下面两种方法来求)(z P 和)(z Q 的零点:

一、代数方程式求根

因为

∏∏=--=---+=+-m

j j m m j j z z z z z 11

1121]cos 2[)2()cos 21(ωω (8.4.12) 令

x z z j e z ==+=-ωω

cos 2

)

(1 那么下面两个式子 0)

1()(1=+-z z P , 0)1()(1=--z z Q 是关于x 的一对/2p 次代数方程式,可以用牛顿叠代法来求解。

二、DFT 法

对)(z P 和)(z Q 的系数求离散傅里叶变换,得到()exp jk k N z π

=-,(011)

k ,,,N =- 各点的值,搜索最小值的位置,即是零点所在。利用关系式(8.4.10),搜索零点的运算量可以大大减少,N 的值一般取64~128就够了。

8.5 LPCC 参数Equation Section (Next)

线性预测倒谱参数(Linear Prediction Cepstrum Coefficient, LPCC)是线性预测系数(Linear Prediction Coefficient, LPC )在倒谱域中的表示。 该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。 LPCC 参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

由于通过自相关法求得的LPC 系数保证了系统的稳定性,使得式(8.3.17)所对应的声道模型传输函数具有最小相位。利用这一特性,可以推导出语音信号的倒谱()c n 与LPC 系数之间的递推关系:

1111

(1)()(1)(),1()(1)(),n n k k P k k c a k c n a a c n k n p n k c n a c n k n p n -==??=??=+--<≤??

?=-->??∑∑ (8.5.1) 或是由LPC 得到:

1

1

n n n n k k k n k LPCC LPC LPCC LPC n --=-=+∑

(8.5.2) 根据同态处理的概念和语音信号产生的模型,语音信号的倒谱()c n 等于激励信号的倒谱?()e n 与声道传输函数的倒谱?()h n 之和。通过分析激励信号的语音特点以及声道传输函数的零极点分布情况,可知?()e n 的分布范围很宽,()c n 从低时域延伸到高时域,而?()h n 主要分布于低时域中。我们知道,语音信号所携带的语义信息主要体现在声道传输函数上,因而

在语音识别中通常取语音信号倒谱的低时域构成LPC 倒谱特征c ,即:

[(1),(2),...,()]c c c q =c ,1610≤≤q (8.5.3)

其中,q 为LPC 倒谱特征的阶数。

然而LPCC 同时也继承了LPC 的缺陷,其中主要的一点就是LPC 在所有的频率上都是线性逼近语音的,而这与人的听觉的特性是不一致的;而且LPC 包含了语音高频部分的大部分噪声细节, 这些都会影响系统的性能。针对以上的问题提出了MFCC 参数。

8.6 MFCC 参数Equation Section (Next)

美尔频标倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)考虑了人耳的听觉特性, 将频谱转化为基于Mel 频标的非线性频谱, 然后转换到倒谱域上. 由于充分考虑了人的听觉特性,而且没有任何前提假设, MFCC 参数具有良好的识别性能和抗噪能力,但其计算量和计算精度要求高。

MFCC 不同于LPCC 。实验证明,在汉语数码语音识别中MFCC 参数的性能明显优于LPCC 参数。MFCC 是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔(Mel)坐标上是等带宽的。这是因为人类在对约1000Hz 以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。式(8.6.1)是美尔刻度与频率的关系式,图8.6.1给出了二者的关系图。

1000

200030004000101001000

10000

频率(Hz )美尔刻度(M e l ) 图 8.6.1 美尔刻度与频率的关系

图8.6.2 MFCC 计算过程示意图

MFCC 计算过程如图8.6.2所示,具体计算步骤如下:

(1) 语音信号在经过加窗处理后变为短时信号,用FFT 将这些时域信号()x n 转化为频域信号()X m ,并由此可以计算它的短时能量谱()P f

(2) 将()P f 由在频率(Hz)(Mel)坐标上的()P M ,其中M 表示美尔频率,式(8.6.1)可以完成该变换

3322.23log(10.001)Mel Hz F f =+

(8.6.1) (3) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组()m H k ,如图8.6.3所示。然后计算美尔(Mel)坐标上的能量谱()P M 经过此滤波器组的输出:

21()ln ()()K k m k M X k H K θ=??=????

∑ , 1,2,...,k K = (8.6.2) 其中k 表示第k 个滤波器,K 表示滤波器个数。

(4) 通过一个具有40个滤波器(40)K =的滤波器组。前13个滤波器在1000Hz 以下是线性划分的,后27个滤波器在1000Hz 以上是在美尔坐标上线性划分的。

(5) 如果()k M θ表示第k 个滤波器的输出能量,则美尔频率倒谱()mel C n 在美尔刻度谱

上可以采用修改的离散余弦反变换(IDCT )求得:

1()()cos((0.5)

)K mel k k C n M n k K πθ==-∑, 1,2,...,n p = (8.6.3)

其中,p 为MFCC 参数的阶数。

该美尔倒谱系数受到滤波器组中滤波器个数、形状、分布及能量谱等各因素的影响。

00.2

0.4

0.6

0.8

1.0

1.2

05001000150020002500300035004000Hz

图8.6.3 MFCC 的滤波器组

8.7 ASCC 参数Equation Section (Next)

外语口音语音的频率分析研究表明,中频段1500Hz-2500Hz 对口音分类的影响最大,并提出了一种新的口音敏感刻度,在这种标度下计算的参数就是口音敏感参数ASCC (Accent Sensitive Cepstrum coefficient )[15]。与MFCC 相同,它是采用滤波器组的方法计算出来的。信号的能量谱,经过16个滤波器组成的滤波器组,但滤波器在频率上的划分是按照口音敏感刻度划分的。口音敏感刻度及三角滤波器的中心频率如图8.7.1所示。由于中频段对口音分类和语言辨识的影响最大,最为敏感,因此对中频段的刻画更为详尽,中频段的滤波器密一些。同样,相应的倒谱参数()as C n 也是用修改的离散余弦反变换求得,如式(8.7.1)所示,其中如果k s ~表示第k 个三角滤波器的输出能量,P 为ASCC 的阶数。

1()log()cos((0.5))K as k k C n s

n k K π==-∑ , 1,2,...,n P = (8.7.1)

8.8感觉加权的线性预测(PLP )特征Equation Section (Next)

8.8.1 PLP 参数

PLP(Perceptual Linear Predictive 感觉加权线性预测)参数是一种基于听觉模型的特征参数[16]。该特征参数是全极点模型预测多项式的一组系数,等效于一种LPC 特征。它们的不同是用输入的语音信号经听觉模型处理后所得到的信号替代传统的LPC

分析所用的时域信

频率(k Hz )91011121314151612345678250469688906112513441563171918131906350029062725243822502063中心频率(Hz)

图8.7.1 口音敏感频率标度及其三角滤波器的中心频率

号。

语音信号经过8kHz 采样16bit 量化,得到数字语音信号,每512点为一帧(64ms),加Hamming 窗。先用FFT 求得512点能量谱,再计算临界带听觉谱,一个临界带宽单位用Bark 来表示。临界带宽编号Z (Bark)与频率f (Hz)之间的关系式为:

???

? ??+??? ??+?=1600600ln 6)(2f f Bark Z (8.8.1) 其中)40(6.210kHz f Bark Z <≤≤≤,临界带k 的中心频率k Z 则位于0.98k Bark (1,2,...,22) k =处。也就是说,4kHz 所对应的256点的能量谱被划分为22个频带,去掉第一个和最后一个频带,只用中间20个频带。这20个频带中每个频带内的能量谱与如下的加权重函数相乘,求和后得到临界带听觉谱。加权重公式为:

(0.5)2.5(0.5)10,()1,10,k k Z Z k Z Z C Z -+---??=???

5.05.05.05.0+≥+≤≤--≤k k k k Z Z Z Z Z Z Z (8.8.2)

在相同的声强下,人耳对不同的频率所感到的响度并不相同,为了模拟人耳的特点,对上一步各输出取反对数(指数函数)后,作log40dB 等响度曲线函数变换。等响度曲线函数公式如下:

)

1061.9()106.1()1044.1()(6252622?+??+?+?=ωωωωωe (8.8.3) 经过20点的离散傅里叶反变换(IDFT)之后,用德宾(Durbin)算法计算M 阶全极点模型(M 可取5~15),得到的系数再计算倒谱系数,最后的结果即为PLP 参数系数。

R ASTA 滤波

图8.8.1 RASTA-PLP 流程图

整个的PLP 处理过程见图8.8.1。图中去掉RASTA (Relative SpecTrAl )滤波部分即为PLP 特征提取框图。 但基于短时谱的PLP 技术受通信信道频率响应的影响较大,使用如下的RASTA —PLP 比PLP 、LPC 等常规谱估计技术在误码率方面有大幅度的改善。 8.8.2 RASTA-PLP 参数 很多语音参数估计技术很容易被通信信道的频率响应干扰。感觉加权线性预测(PLP)语音分析是基于语音的短时谱的,在计算语音短时谱之后又进行了数种基于听觉的变换,PLP 参数(正如其它的许多基于短时谱的参数),当短时谱被通信信道频率影响后变得很脆弱。使用RelAtive SpecTrAl (RASTA)方法使得PLP 和其它的一些基于短时谱的技术对线性谱失真更具鲁棒性[16,17]。 将传统的短时绝对值谱替代为如下的谱估计方法,即在每个频率通道中加一个在零频率点具有尖锐零点的带通滤波器。在每个频率通道,常数快慢变化成分被该项操作所抑制。新的谱估计对短时谱的慢变化不敏感。当滤波作用在对数谱域中时,被抑制的常数谱成分反映的是输入信号的卷积因素,它是由通信媒体的频率特性引入的。

在通常情况下,整个的RASTA 滤波等同于在每个频率通道里使用一个IIR 滤波器,它的传输函数为:

)

98.01(221.0)(144

31------?--+?=z z z z z z H (8.8.4) 整个处理过程相当于一个带通滤波器,它的高低截止频率决定了所保留和去除的谱的变化。

由电话信道或使用不同的话筒所造成的线性失真在对数谱中表现为加性常量。等价带通滤波器的高通部分将会减少由信道带来的卷积性噪声。滤波器的低通部分将有助于平滑短时谱分析帧与帧之间的快速谱变化。在公式(8.8.4)中,低截止频率为:0.26Hz ,该滤波器从12.8Hz 以6dB/oct 的斜率下降,在28.9Hz 及在约50Hz 处具有尖锐的零点。

由于PLP 考虑了听觉感知特性,并加入了RASTA 消除干扰噪声技术,RASTA-PLP 语音特征参数在语音识别方面是有效的,并且具有较高的鲁棒性。

8.9 动态差分参数Equation Section (Next)

我们知道,通常语音信号的动态参数能较好地反映语音信号的时变特征,因此在获得每帧信号的特征参数,还要计算相应的差分参数,假设当前所获得的特征倒谱参数是P 维,那么一阶差分特征的计算如式(8.9.1)所示[18]:当i 从1到1P -(分析阶数),

()()()

()1K n n k n k k d C e p i k C e p i C e p i α-+==??-∑ (8.9.1) 上式中,dCep 表示动态特征,Cep 表示倒谱,K 是求差分的帧的范围,α为因子用来换算这些特征,(8.9.1)式也可写成:

()()K

n n k

k K dCep i k Cep i α-=-=??∑ (8.9.2) 类似地,二阶差分特征可由下式获得:

()()()()()

2

1

K t t k t k k K t k k K d Cep i k dCep i dCep i k dCep i αα-+=-==??-=?

?∑∑- (8.9.3)

8.10高阶信号谱类特征Equation Section (Next)

在进行语音信号处理时先将信号分帧(每帧大约10~30ms ),一帧期间内的信号视为平稳过程,将整帧信号作DFT 等处理得到该帧信号的频谱或功率谱特征。这种处理方法遇到的问题是帧长的合宜选取。若选得太长,在语音信号的特性时变较大的情况下,帧会将不同时刻具有相当特性差别的特征彼此混淆,或将一些短时出现的重要特征冲淡、掩没。反之,将帧长取短则又会因帧内样值少而不足以表征低频成分,这事实上相当于加上了使信号畸变的低通滤波。解决上述问题之一的途径为:将帧长取得较长,但采用高阶信号谱类来代替付氏谱作为每帧的特征,使之能较好地表征时变(非平稳)信号的特性。有一种高阶信号谱称为WV (Wigner_Ville )谱,非平稳信号的Wigner-Ville 分布称为WV 谱。

8.10.1 WV 谱的定义及其主要性质

离散WV 谱的定义是

应用Matlab对含噪声语音信号进行频谱分析及滤波

应用Matlab对含噪声的语音信号进行频谱分析及滤波 一、实验内容 录制一段个人自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;在语音信号中增加正弦噪声信号(自己设置几个频率的正弦信号),对加入噪声信号后的语音信号进行频谱分析;给定滤波器的性能指标,采用窗函数法和双线性变换设计数字滤波器,并画出滤波器的频率响应;然后用自己设计的滤波器对采集的信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比试听,分析信号的变化。 二、实现步骤 1.语音信号的采集 利用Windows下的录音机,录制一段自己的话音,时间在1 s内。然后在Matlab软件平台下,利用函数wavread对语音信号进行采样,(可用默认的采样频率或者自己设定采样频率)。 2.语音信号的频谱分析 要求首先画出语音信号的时域波形;然后对语音号进行快速傅里叶变换,得到信号的频谱特性。 在采集得到的语音信号中加入正弦噪声信号,然后对加入噪声信号后的语音号进行快速傅里叶变换,得到信号的频谱特性。并利用sound试听前后语音信号的不同。

分别设计IIR和FIR滤波器,对加入噪声信号的语音信号进行去噪,画出并分析去噪后的语音信号的频谱,并进行前后试听对比。 3.数字滤波器设计 给出数字低通滤波器性能指标:如,通带截止频率fp=10000 Hz,阻带截止频率fs=12000 Hz(可根据自己所加入噪声信号的频率进行阻带截止频率设置),阻带最小衰减Rs=50 dB,通带最大衰减Rp=3 dB(也可自己设置),采样频率根据自己语音信号采样频率设定。

报告内容 一、实验原理 含噪声语音信号通过低通滤波器,高频的噪声信号会被过滤掉,得到清晰的无噪声语音信号。 二、实验内容 录制一段个人自己的语音信号,并对录制的信号进行采样;画出采样后语音信号的时域波形和频谱图;在语音信号中增加正弦噪声信号(自己设置几个频率的正弦信号),对加入噪声信号后的语音信号进行频谱分析;给定滤波器的性能指标,采用窗函数法和双线性变换设计数字滤波器,并画出滤波器的频率响应;然后用自己设计的滤波器对采集的信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比试听,分析信号的变化。给出数字低通滤波器性能指标:如,通带截止频率fp=10000 Hz,阻带截止频率fs=12000 Hz (可根据自己所加入噪声信号的频率进行阻带截止频率设置),阻带最小衰减Rs=50 dB,通带最大衰减Rp=3 dB(也可自己设置),采样频率根据自己语音信号采样频率设定。 三、实验程序 1、原始信号采集和分析 clc;clear;close all; fs=10000; %语音信号采样频率为10000 x1=wavread('C:\Users\acer\Desktop\voice.wav'); %读取语音信号的数据,赋给x1 sound(x1,40000); %播放语音信号 y1=fft(x1,10240); %对信号做1024点FFT变换 f=fs*(0:1999)/1024; figure(1); plot(x1) %做原始语音信号的时域图形 title('原始语音信号'); xlabel('time n'); ylabel('fuzhi n'); figure(2); plot(f,abs(y1(1:2000))); %做原始语音信号的频谱图形 title('原始语音信号频谱') xlabel('Hz'); ylabel('fuzhi');

基于Matlab的语音信号的特征提取与分类

基于Matlab的语音信号的特征提取与分类语音信号处理是研究数字信号处理技术和语音学知识对语音信号进行处理的新兴学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。本文采用Matlab7.0综合运用GUI界面设计,各种函数调用等对语音信号进行采集、提取、变频、变幅,傅里叶变换、滤波等简单处理。程序界面简练,操作简便,具有一定的实际应用意义。 关键词:语音信号Matlab 信号处理GUI 1、语音信号的低通滤波 本文中设计了一个截止频率为200Hz切比雪夫—Ⅰ型低通滤波器,它的性能指标为:wp=0.075pi, ws=0.125pi, Rp=0.25;Rs=50dB。低通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.075;ws=0.125;Rp=0.25;Rs=50; [N,Wn]=cheb1ord(wp,ws,Rp,Rs); [b,a]=cheby1(N,Rp,Wn); [b,a]=cheby1(N,Rp,Wn); X=fft(x); subplot(221);plot(x);title('滤波前信号的波形'); subplot(222);plot(X);title('滤波前信号的频谱'); y=filter(b,a,x); %IIR低通滤波 sound(y,fs,bits);%听取滤波后的语音信号

wavwrite(y,fs,bits,’低通’);%将滤波后的信号保存为“低通.wav” Y=fft(y); subplot(223);plot(y);title(' IIR滤波后信号的波形'); subplot(224);plot(Y);title(' IIR滤波后信号的频谱'); 经过低通滤波器处理后,比较滤波前后的波形图的变化 低通滤波后,听到声音稍微有些发闷,低沉,原因是高频分量被低通滤波器衰减。但是很接近原来的声音。 2、语音信号的高通滤波 运用切比雪夫—Ⅱ型数字高通滤波器,对语音信号进行滤波处理。高通滤波器性能指标:wp=0.6, ws=0.975 ,Rp=0.25;Rs=50dB。高通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.6;ws=0.975;Rp=0.25;Rs=50;

第08章 语音信号特征参数

第八章语音信号特征参数 8.1 概述 语音信号是十分复杂的非平稳信号,它不仅包含语义信息,还有个人特征信息,对其特征参数的研究是语音识别的基础。换句话说,特征参数应能完全、准确地表达语音信号。那么特征参数也应能完全、准确地表达语音信号所携带的全部信息。实验语音学的研究从语音信号本质上给出的特征参数是科学的、合理的,但是不完全的。在元音的特征研究较深入,对辅音的研究相对较弱,对辅音、元音之间的过渡就更弱,而这一部分恰好是含信息量最大、最难处理的。 本章介绍语音信号的九种特征参数及其提取算法,是从不同的角度对语音信号研究的结果,是可行的、有效的,但不是万能的。值得提请读者注意的是,某些算法对一些应用表现很好,但对另一些应用可能表现不佳。应该说我们对语音信号的本质认识还不够深入,也就是我们对语音信号的发音机理、心理,听觉机理、心理,语义的社会性等方面缺乏深入研究,更谈不上多学科综合研究。尽管如此,现有的这些特征参数在语音识别中起着重要作用。 8.2基音周期Equation Chapter 8 Section 2 基音周期(Pitch)(或基音频率)是指发浊音时声带震动所引起的周期性,基音周期也F的倒数,它不仅是语音信号分析的一个重要参数,也是语音产生的数字是声带振动频率 模型中激励源的一个重要参数,它携带着非常重要的具有辨意信息,因此它的检测和估计是语音处理中一个十分重要的问题[1]。 基音检测的主要困难在于:(1)语音信号变化十分复杂,声门激励波形并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清浊音的过渡帧是很难判断它应属于周期性还是非周期性,从而也就无法估计出基音周期。(2)要从语音信号中去除声道影响,或者直接去除仅和声带振动有关的音源信息并非容易的事,例如声道共振峰有时会严重影响音源的谐波结构。(3)在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的(即音调是有变化的),而且因为波形的峰或过零受共振峰结构、噪声等影响。(4)基音周期变化范围较大,从低音男生的70Hz直到女孩的500Hz,也给基音周期检测带来了一定的困难。 基音周期的检测方法大致可分成三类:(1)时域估计法,直接由语音波形来估计基音周期。其中,最著名的有:变形自相关法[2]、并行处理法[3]、平均幅度差法(AMDF)[4]、数据减少法[5]等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期。例如:倒谱法(CEP)[6]等。虽然倒谱分析算法比较复杂,但基音周期估计效果较好。(3)混合法,先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF法求得基音周期。例如:简化逆滤波法(SIFT)[7]、逆滤波简化平均幅度差法(IFAMDF)[8]等。本节介绍几种有效且实用的方法。 8.2.1 自相关法及其改进 前面曾经指出过,浊音语音信号的短时自相关函数有很明显的周期性,窗越宽这种周期性越明显,其周期就是基音周期,而清音的短时自相关函数没有这种周期性。因此,计算短时自相关函数是区分清音和浊音并估计出基音周期的一种有效方法。其理论依据是,如果信号是周期的,那么它的自相关函数也是周期的,且周期与信号周期相同。自相关算法把周期点的峰值突现出来,而其它谐波成分较弱,便于周期提取,而且噪声在自相关运算中向零点集中,因此本算法有一定的抗噪性能。

语音信号分析与处理2011

数字信号处理实验二:语音信号分析与处理 学号 姓名 注:1)此次实验作为《数字信号处理》课程实验成绩的重要依据,请同学们认真、独立完成,不得抄袭。 2)请在授课教师规定的时间内完成; 3)完成作业后,请以word 格式保存,文件名为:学号+姓名 4)请通读全文,依据第2及第3 两部分内容,认真填写第4部分所需的实验数据,并给出程序内容。 1. 实验目的 (1) 学会MATLAB 的使用,掌握MATLAB 的程序设计方法 (2) 掌握在windows 环境下语音信号采集的方法 (3) 掌握MATLAB 设计FIR 和IIR 滤波器的方法及应用 (4) 学会用MATLAB 对语音信号的分析与处理方法 2. 实验内容 录制一段自己的语音信号,对录制的语音信号进行采样,画出采样后语音信号的时域波形和频谱图,确定语音信号的频带范围;使用MATLAB 产生白噪声信号模拟语音信号在处理过程中的加性噪声并与语音信号进行叠加,画出受污染语音信号的时域波形和频谱图;采用双线性法设计出IIR 滤波器和窗函数法设计出FIR 滤波器,画出滤波器的频响特性图;用自己设计的这两种滤波器分别对受污染的语音信号进行滤波,画出滤波后语音信号的时域波形和频谱图;对滤波前后的语音信号进行时域波形和频谱图的对比,分析信号的变化;回放语音信号,感觉与原始语音的不同。 3. 实验步骤 1)语音信号的采集与回放 利用windows 下的录音机或其他软件录制一段自己的语音(规定:语音内容为自己的名字,以wav 格式保存,如wql.wav ),时间控制在2秒之内,利用MATLAB 提供的函数wavread 对语音信号进行采样,提供sound 函数对语音信号进行回放。 [y,fs,nbits]=wavread(file), 采样值放在向量y 中,fs 表示采样频率nbits 表示采样位数。Wavread 的更多用法请使用help 命令自行查询。 2)语音信号的频谱分析 利用fft 函数对信号进行频谱分析 3)受白噪声干扰的语音信号的产生与频谱分析 ①白噪声的产生: N1=sqrt (方差值)×randn(语音数据长度,2)(其中2表示2列,是由于双声道的原因) 然后根据语音信号的频谱范围让白噪声信号通过一个带通滤波器得到一个带限的白噪声信号 N2; 带通滤波器的冲激响应为: h B (n )= ))((sin ))((sin 1122απ ωπωαπωπω---n c n c c c c c

语音信号的时域特征分析

中北大学 课程设计说明书 学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 学院:信息商务学院 专业:电子信息工程 题目:信息处理实践:语音信号的时域特征分析指导教师:徐美芳职称: 讲师 2013 年 6 月 28 日

中北大学 课程设计任务书 2012-2013 学年第二学期 学院:信息商务学院 专业:电子信息工程 学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 课程设计题目:信息处理实践:语音信号的时域特征分析起迄日期: 2013年6 月7日~2013年6月 28 日 课程设计地点:学院楼201实验室、510实验室、608实验室指导教师:徐美芳 系主任:王浩全 下达任务书日期: 2013 年 6 月 7 日

语音信号的采集与分析 摘要 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。 关键词:语音信号,采集与分析, Matlab 0 引言 通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。 语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数字

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

语音信号特征的提取

语音信号特征的提取 摘要 随着计算机技术的发展,语音交互已经成为人机交互的必要手段,语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 本文采用Matlab软件提取语音信号特征参数,首先对语音信号进行数字化处理,其次,进行预处理,包括预加重、加窗和分帧,本文讨论了预处理中各种参数的选择,以使信号特征提取更加准确。第三,讨论了各种时域特征参数的算法,包括短时能量、短时过零率等。 关键词:语音信号, 特征参数, 提取, Matlab 目录 第一章绪论 1.1语音信号特征提取概况 1.1.1研究意义 语音处理技术广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等领域,带有语音功能的计算机也将很快成为大众化产品,语音将可能取代键盘和鼠标成为计算机的主要输入手段,为用户界面带来一次飞跃。 语音信号特征的提取是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信和准确的语音识别,才能建立语音合成的语音库。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 1.1.2 发展现状 语音信号处理是一门综合性的学科,包括计算机科学、语音学、语言学、声学和数学等诸多领域的内容。它的发展过程中,有过两次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现,电子管放大器使很微弱的声

音也可以放大和定量测量,从而使电声学和语言声学的一些研究成果扩展到通信和广播部门;第二次飞跃是在20世纪70年代初,电子计算机和数字信号处理的发展使声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化转换为数字信号,这样就可以用数字计算方法对语音信号进行处理和加工,提高了语音信号处理的准确性和高效性。 语音信号处理在现代信息科学中的地位举足轻重,但它仍有些基础的理论问题和技术问题有待解决,这些难题如听觉器官的物理模型和数学表示及语音增强的技术理论等,目前还有待发展。 1.2 本课题研究内容 本文主要介绍语音信号处理的理论及Matlab的相关内容,然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数,主要讨论了预处理中各种参数的选择,以使信号特征提取更加准确。再次讨论了各种时域特征参数的算法,包括短时能量、短时过零率等,介绍了各环节的不同软件实现方法。最后对基于Matlab的语音信号特征参数提取进行总结。 第二章Matlab简介 MATLAB是国际上仿真领域最权威、最实用的计算机工具。它是MathWork 公司于1984年推出,它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境,特别是所附带的30多种面向不同领域的工具箱支持,使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。 2.1 发展概况 Matlab是Matrix Laboratory(矩阵实验室的缩写),最初由美国Cleve Moler 博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成,旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。1984年成立的Math Works公司正式把Matlab推向市场,并从事Matlab的研究和开发。1990年,该公司推出了以框图为基础的控制系统仿真工具Simulink,它方便了系统的研究与开发,使控制工程师可以直接构造系统框图进行仿真,并提供了控制系统中常用的各种环节的模块库。1993年,Math Works 公司推出的Matlab4.0版在原来的基础上又作了较大改进,并推出了Windows版,

时域信号特征参数

设离散振动信号为{}(1~,)i x i N N =为采样点数 常用特征参数如下: 1、有量纲特征参数 1. 峰值p X 把{}i x 的N 个采样点分成n 段,在每一段中找出n 个峰值{} (1~)pj X j n =,则{}i x 的峰值指标为: 1 1n p pj j X X n ==∑ 峰值p X 反映的是某时刻振幅的最大值,因而适用于表面点蚀损伤之类的具有瞬时冲击的故障诊断。另外,对转速较低的情况(如300r/min 以下),也常采用峰值经行诊断。 2. 均值X 对于简谐振动为半个周期内的平均值,对于轴承冲击振动为经绝对值处理后的平均值。 1 1n i i X x n ==∑ 用于诊断的效果与峰值基本一样,其优点是检测值较峰值稳定,但一般用于转速较高的情况(如300r/min 以上)。 3. 均方根值(有效值)rms X rms X = 均方根值是对时间平均的,用来反映信号的能量大小,适用于象磨损之类的振幅值随时间缓慢变化的故障诊断。轴承制造精度愈低或轴承磨损程度愈大,则rms X 值愈高。 对早期故障不敏感,但稳定性很好。 4. 方差 Matlab 中有直接求离散数据方差的函数var ()。 2、无量纲特征参数 1. 峰值因子(波峰因素)f C p f rms X C X = 轴承元件上的局部剥落、擦伤、刻痕、和凹痕等一类离散型缺陷,产生的脉冲波形总能量

并不大,但是波形的尖峰度明显,因此,峰值因子适用于这类故障的诊断。 (波峰因数f C ,能恰当的反映尖峰的相对大小。评判轴承合不合格的f C 界限值约为1.5, f C 值大于1.5,则认为轴承元件上存在局部缺陷。——设备故障诊断 沈庆根) 正常轴承的振动波峰因子约为4~5,因剥落等局部缺陷引起的振动峰值因子往往超过10,缺陷愈大,f C 值也愈大。 轴承发生剥落等局部缺陷时,f C 值相对较大;当发生润滑不良和磨损等异常情况时,f C 值相对较小。 需要指出的是在轴承出现故障的整个过程波峰因数值并不是一直增加,而是先增加再减小。这是因为故障初期,振动幅值会明显增加,而均方根值变化尚不明显,随故障不断扩展,峰值达到极限值,均方根值开始明显增大。 波峰因子是一个相对值的比率,它不受振动信号绝对电平值大小的影响,与传感器的灵敏度和放大器的放大率无关,同时也不受轴承尺寸大小和转速不同的影响,因而测定数据很方便。 2. 峭度指标K (Kurtosisvalue ) 离散序列的峭度指标定义为归一化的4阶中心矩: 441 1 41,N N i i i i rms x x K N X N β=== ∑ ∑其中= 称为峭度值。 振幅满足正态分布的无故障轴承其峭度值约为3,轴承振动信号的峭度值一般在3—45, 当值大于4时,即预示着轴承有一定程度的损伤。采用该特征参数的优点在于与轴承的转速、尺寸和载荷无关,主要适用于点蚀类故障的诊断。 峭度值具有与波峰因子类似的变化趋势,轴承良好状态和严重故障状态下的裕度指标几乎是相同的。(参考:P287,设备故障诊断,沈庆根) 对早期故障由较高的敏感性,但稳定性不好,可同时与有效值进行故障监测。 3. 波形因子(波形指标)Ws 波形因数定义为均方根值与绝对均值之比: rms X Ws X = 当/p X X 值过大时,表明滚动轴承可能有点蚀;/p X X 值过小时,有可能发生了磨损。 4. 脉冲指标I p X I X = =峰值平均幅值 5. 裕度系数L

数字信号处理 语音信号分析与处理及其MATLAB实现..

摘要 (2) 1 设计目的与要求 (3) 2 设计步骤 (4) 3 设计原理及内容 (5) 3.1 理论依据 (5) 3.2 信号采集 (6) 3.3 构造受干扰信号并对其FFT频谱分析 (8) 3.4 数字滤波器设计 (9) 3.5 信号处理 (10) 总结 (12) 致谢 (13) 参考文献 (14)

用MATLAB对语音信号进行分析与处理,采集语音信号后,在MATLAB软件平台进行频谱分析;并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器滤除噪声,恢复原信号。 数字滤波器是数字信号处理的基础,用来对信号进行过滤、检测和参数估计等处理。IIR数字滤波器最大的优点是给定一组指标时,它的阶数要比相同组的FIR滤波器的低的多。信号处理中和频谱分析最为密切的理论基础是傅立叶变换(FT)。离散傅立叶变换(DFT)和数字滤波是数字信号处理的最基本内容。 关键词:MATLAB;语音信号;加入噪声;滤波器;滤波

1. 设计目的与要求 (1)待处理的语音信号是一个在20Hz~20kHz频段的低频信号 (2)要求MATLAB对语音信号进行分析和处理,采集语音信号后,在MATLAB平台进行频谱分析;并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器进行滤除噪声,恢复原信号。

2. 设计步骤 (1)选择一个语音信号或者自己录制一段语音文件作为分析对象; (2)对语音信号进行采样,并对语音信号进行FFT频谱分析,画出信号的时域波形图和频谱图; (3)利用MATLAB自带的随机函数产生噪声加入到语音信号中,对语音信号进行回放,对其进行FFT频谱分析; (4)设计合适滤波器,对带有噪声的语音信号进行滤波,画出滤波前后的时域波形图和频谱图,比较加噪前后的语音信号,分析发生的变化; (5)对语音信号进行回放,感觉声音变化。

10实验十:随机信号分析应用在语音信号分析中

实验十:随机信号分析应用在语音信号分析中 ——音频信号时域特征和频域特征分析【实验目的】 ⑴ 了解随机信号分析的应用领域。 ⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。【实验原理】 我们在这里主要研究语音信号检索的部分内容。在语音信号研究中,一般对音频信号需要进行三方面的研究: 1)音频信号的产生,这方面的研究集中在为音频信号建立产生模型,通过产生模型提取音频特征。 2)音频的传播,音频信号如何通过另外介质传播到人的耳朵里。 3)音频的接收,音频信号如何被人所感知。 在这里,我们只涉及到音频信号的产生,而其它方面不涉及。 音频是一种重要媒体。人耳能够听到的音频频率范围是60Hz- 20KHz,其中语音大约分布在300Hz-4KHz之内。人耳听到的音频是连续模拟信号,而计算机只能处理数字化信息。所以要将连续音频信号数字化后才能在计算机上进行处理。音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。 在音频处理中,一般假定音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变化区间内所提取的音频特征保持稳定。这样,对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理,将离散的音频采样点分成一个个音频帧,也就是音频信 号“短时”处理方法。一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。可以从音频信号中提取三类基本特征:时域特征、频域特征和时频特征。 1 时域特征提取 连续音频信号x经过采样后,得到k个采样点x(n)(1≤n≤k)。在音

频时域提取中,认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息,所以可以直接从x(n)(1≤n≤k)提取信息。可以提取的信息有:短时平均能量、过零率、线性预测系数。 对于采样得到的x(n)(1≤n≤k)音频信号,考虑到信号在段时间内的连贯性,首先把音频信号的K个采样点分割成前后迭代的音频帧,相邻帧之间的迭加率一般为30%-50%,音频处理中的“短时帧”均是这样得到的。 ① 短时平均能量 短时平均能量指在一个短时音频帧内采样点所聚集的能量。它能够方便的表示整个时间段内幅度的变化。其定义如下: 短时平均能量特征可以直接应用到有声/静音检测中,短时平均能量某一短时帧平均能量低于一个事先设定的阀值,则短时帧为静音,否则为非静音。如果静音的短时祯数超过了一定比例,则将这个例子判为静音音频例子。 2 过零率 过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。它可以有效的刻画不同的音频信号。其定义如下: 其中, 对于语音信号,辅音信号过零率低,而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以在语言信号中,开始和结束部分得过零率会有明显身高,所以利用过零率可以判断语音是否开始和结束。 3 频率中心(FC):它是量度声音亮度的指标。即: ,其中是f t(n)的Fourier变换,,STE是短时平均能量。一般的,一段音乐的频率中心变化比较单一,语音的频率中心会出现连续的变化。 4 带宽(BW):它是衡量频率范围的指标。其定义为:

语音信号时域特征参数提取

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩: 实验二、语音信号时域特征参数提取 一、实验目的 1.掌握利用matlab程序进行语音信号的录制与回放。 2.理解语音信号的时域特征参数的概念,如短时能量、短时过零率等。 3.掌握matlab的开发环境。 4.掌握对语音信号进行时域特征参数提取的方法。 二、实验原理 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果。 1.窗口的选择 通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩: 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w (n ) 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w (n ) 图1.1 矩形窗和Hamming 窗的时域波形 矩形窗的定义:一个N 点的矩形窗函数定义为如下 {1,00,()n N w n ≤<=其他 hamming 窗的定义:一个N 点的hamming 窗函数定义为如下 0.540.46cos(2),010,()n n N N w n π-≤<-??? 其他 = 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

连续时间信号和系统时域分析报告及MATLAB实现.docx

实用标准文案 MATLAB课程设计任务书 姓名:王 **学号:2010******010 题目 : 连续时间信号和系统时域分析及MATLAB实现 初始条件: MATLAB 7.5.0 , Windows XP系统 实验任务: 一、用 MATLAB实现常用连续时间信号的时域波形(通过改变参数,分析其时域特性)。 1、单位阶跃信号, 2、单位冲激信号, 3、正弦信号, 4、实指数信号, 5、虚指数信号, 6、复指数信号。 二、用 MATLAB实现信号的时域运算 1、相加, 2、相乘, 3、数乘, 4、微分, 5、积分 三、用 MATLAB实现信号的时域变换(参数变化,分析波形变化) 1、反转, 2、使移(超时,延时), 3、展缩, 4、倒相, 5、综合变化 四、用 MATLAB实现信号简单的时域分解 1、信号的交直流分解, 2、信号的奇偶分解 五、用 MATLAB实现连续时间系统的卷积积分的仿真波形 给出几个典型例子,对每个例子,要求画出对应波形。 六、用MATLAB实现连续时间系统的冲激响应、阶跃响应的仿真波形。 给出几个典型例子,四种调用格式。 七、利用 MATLAB实现连续时间系统对正弦信号、实指数信号的零状态响应的仿真波形。

目录 1 MATLAB简介 (1) 1.1 MATLAB 设计目的 (1) 1.2 MATLAB 语言特点 (1) 2 常用连续时间信号的时域波形 (1) 2.1单位阶跃信号 (1) 2.2单位冲激信号 (2) 2.3正弦信号 (3) 2.4实指数信号 (4) 2.5虚指数信号 (5) 2.6复指数信号 (6) 3 连续时间信号的时域运算 (7) 3.1相加 (7) 3.2相乘 (8) 3.3数乘 (9) 3.4微分 (10) 3.5积分 (11) 4.1反转 (12) 4.2时移 (13) 4.3展缩 (14) 4.4倒相 (15)

新语音信号处理实验指导2015年秋

《语音信号处理》 实验指导书 哈尔滨理工大学 自动化学院 电子信息科学与技术系 2014.10

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。

《语音信号处理》实验3-LPC特征提取

华南理工大学《语音信号处理》实验报告 实验名称:LPC特征提取 姓名: 学号: 班级:10级电信5班 日期:2013年5 月24日

1. 实验目的 1、熟练运用MATLAB 软件进行语音信号实验; 2、熟悉短时分析原理、LPC 的原理; 3、学习运用MATLAB 编程进行LPC 的提取; 4、学会利用短时分析原理提取LPC 特征序列。 2. 实验原理 1、LPC 分析基本原理 LPC 分析为线性时不变因果稳定系统V (z )建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。 如果利用P 个取样值来进行预测,则称为P 阶线性预测。假P 个 取样值()()(){ } 1,2,S n S n S n p --- 的加权之和来预测信号当前取样值()S n ,则预测 信号()S n ∧ 为: ()() 1 p k k S n a n k ∧==-∑ (1) 其中加权系数用k a 表示,称为预测系数,则预测误差为: ()()()()() 1 p k k e n s n S n s n a n k ∧ ==-=--∑ (2) 要使预测最佳,则要使短时平均预测误差最小有: ()2 min E e n ε??==?? (3) ()20,(1) k e n k p a ????? =≤≤? (4) 令 ()()(),,i k E s n i S n k φ=--???? (5) 最小的ε可表示成: ()() min 10,00,p k k a k εφφ==-∑ (6) 显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。 通过LPC 分析,由若干帧语音可以得到若干组LPC 参数,每组参数形成一个

语音信号特征参数研究

语音信号特征参数研究 石海燕 (浙江工业大学信息工程学院,浙江杭州310032) 摘要:在语音技术的发展过程中使用了大量的语音信号特征参数,好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数、语音信号特征参数的选择进行了介绍,并介绍了语音信号的短时能量、短时平均幅度的提取。 关键词:语音信号;特征参数;短时能量 中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)04-10754-04 StudyonSpeechSignalFeatureParameter SHIHai-yan (CollegeofInformationEngineering,ZhejiangUniversityofTechnology,Hangzhou310032,China) Abstract:Intheprocessofdevelopingspeechtechnologyusedinalargenumberofspeechsignalfeatureparameters,agoodspeechsignalfeatureparametersplayedacriticalroleinspeechrecognition.Inthispaperweintroducedthespeechsignalfeatureparameters,thespeechsignalfeatureparametersselection,andintroducedshort-termenergy、short-termaveragerangeextraction. Keywords:speechsignal;featureparameter;short-termenergy 1引言 在语音识别的发展过程中使用了大量的语音信号特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术,其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的特征参数抽出来。接下去所要作的识别处理都是建立在特征参数之上的,如果特征参数不能很好地反映语音信号的本质,识别就不能成功。 语音信号特征参数是分帧提取的,每帧特征参数一般构成一个矢量,所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧,每帧大小大约是20 ̄30ms。帧太大就不能得到语音信号随时间变化的特性,帧太小就不能提取出语音信号的特征,每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大,帧之间就要有重叠,帧叠往往是帧长的1/2或1/3。帧叠大,相应的计算量也大。 常用的语音特征参数有平均能量、平价跨零数或跨零率、共振峰、LPC参数、倒谱参数、临界带倒谱等。下一节介绍一些常用的语音特征。 2语音信号特征参数介绍 (1)基音周期(Pitch) 人的语音基本上由两类构成,一类是浊音(voice),另一类是清音(unvoice)。浊音的语音信号具有较强的周期性,不同的浊音波形是不同的。浊音的这种周期叫基音周期,其倒数叫做基音频率,它主要和声带的特性有关。一般来说,成年男性的语音的基音频率在60Hz ̄200Hz,而成年女性和儿童语音的基音频率在200Hz ̄450Hz。清音的语音信号具有随机噪声的特点,一般来说清音的幅度小于浊音的幅度。基音周期(Pitch)是指发浊音时声带震动所引起的周期运动时间间隔,代表声带震动的快慢,震动越快音高会越高,基音周期是声带振动频率F0的倒数,它是语音信号分析的一个重要参数。 (2)短时频谱 语音信号特征在较短的时间间隔中保持基本不变,即语音信号具有时变特性,因而可以将语音信号看作是一个短时平稳过程。语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。可以用下列公式计算: (1) 收稿日期:2008-01-12 个人简介:石海燕(1977-),女,浙江诸暨人,实验师,主要研究方向:语音处理、模式识别。

文本预览