数字语音处理(精华版)

  • 格式:docx
  • 大小:41.61 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。

3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。

为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。

4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。

掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。

5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。

6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。

7·语音生成系统的传递函数:

)

(

)z(

)

(

)

(z

R

V

z

G

z

H=

8·模型局限性及解决办法:

声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为:

z1

1

H(z)-

-

=α的一阶FIR高通数字滤波器来实现预加重。

12·短时平均能量主要用途:

1)可以作为区分浊音和清音的特征参

数2)在信噪比较高的情况下短时能量

还可以作为区分有声和无声的依据3)

可以作为辅助的特征参数用于语音识

别中。

13常用的窗有两种:一种是矩形窗,

窗函数如下:

⎧-

=

其他

,0

1

,1

)

(

N

n

n

ω

可简化为:

-

-

=

-

-

=

n

N

n

m

n

m

x

m

x

z

)1

(

|)]

1

(

sgn[

)]

(

sgn[

|

2

1

π

另一种是汉明窗,窗函数:

⎧≤

-

-

=

其他

,0

)]

1

/(

2[

cos

46

.0

54

.0N

n

N

ω

14·过零率:单位时间内过零的次数。

浊音:过零率低能量高,清音:过零率

高能量高。

15·端点检测目的:从包含语音的一段

信号中确定出语音的起点及结束点。

16·自相关函数:

时域离散确定信号:

∑+∞

-∞

=

+

=

m

k

m

x

M

x)

(

)

(

)

R(k

时域离散随机信号:

-

=

+

+

=

N

N

m

k

m

x

m

x

N

)

(

)

(

1

2

1

)

R(k

自相关函数性质:1)对称性:

R(K)=R(-K)2)在K=0处为最大值,

即对于所有K来说

)0(

|)

(

|R

K

R≤3)对于确定信

号,R(0)对应于能量对于随机信号R

(0)对应于平均功率。

17·浊音和清音的短时自相关函数有以

下特点:1)短时自相关函数可以很明显

的反映出浊音信号的周期性

2)清音的短时自相关函数没有周期性,

也不具有明显突出的峰值,其性质类似

于噪声。3)不同的窗对短时自相关函

数结果有一定影响。

18·短时自相关函数(求峰值)两个峰

值之间的距离为周期。短时平均幅度差

函数(求谷值)两个谷值之间的距离为

周期。

19·采用双限门比较的两极判决法:第

一级判决:1)先根据语音短时能量的轮

廓选取一个较高的门限T1进行一次粗

判:语音起止点位于该门限与短时能量

包络交点所对应的时间间隔之外。

2)根据背景噪声的平均能量确定一个

较低的门限T2,并从A点往左、从B

点往右搜索,分别找到短时能量包络与

门限T2相交的两个点C和D,于是CD

段就是双门限方法根据短时能量所判

定的语音段。第二级判决:

以短时平均过零率为标准,从C点往左

和D点往右搜索,找到短时平均过零

率低于某个门限T3的两点E和F,这

便是语音段的起止点。门限T3是由背

景噪声的平均过零率所确定的。

20·当n固定时,它们就是序列

(m

x(

m

-

n

ω的傅里叶变

换或离散傅里叶变换。当ω或K固定

时,它们就是一个卷积,相当于滤波器

的运算。

21·基音周期估值的两种方法:第一种

方法:先对语音信号进行低通滤波,在

进行自相关计算。第二种方法,先对语

音信号进行中心削波处理,在进行自相

关计算。

判别基音周期的方法:1·短时自相关

函数法。2·短时平均幅度差函数。

22·线性预测编码就是利用过去的样值

对新样值进行预测,然后将样值的实际

值与预测值相减,得到一个误差信号,

显然误差信号的动态范围远小于原始

语音信号的动态范围,对误差信号的进

行量化编码,可大大减少量化所需的比

特数,使编码速率降低。