当前位置:文档之家› 数字语音处理(精华版)

数字语音处理(精华版)

数字语音处理(精华版)
数字语音处理(精华版)

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。

3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。

为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。

4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。

掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。

5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。

6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。

7·语音生成系统的传递函数:

)

(

)z(

)

(

)

(z

R

V

z

G

z

H=

8·模型局限性及解决办法:

声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为:

z1

1

H(z)-

-

=α的一阶FIR高通数字滤波器来实现预加重。

12·短时平均能量主要用途:

1)可以作为区分浊音和清音的特征参

数2)在信噪比较高的情况下短时能量

还可以作为区分有声和无声的依据3)

可以作为辅助的特征参数用于语音识

别中。

13常用的窗有两种:一种是矩形窗,

窗函数如下:

?

?

?-

=

其他

,0

1

,1

)

(

N

n

n

ω

可简化为:

-

-

=

-

-

=

n

N

n

m

n

m

x

m

x

z

)1

(

|)]

1

(

sgn[

)]

(

sgn[

|

2

1

π

另一种是汉明窗,窗函数:

?

?

?≤

-

-

=

其他

,0

)]

1

/(

2[

cos

46

.0

54

.0N

n

N

ω

14·过零率:单位时间内过零的次数。

浊音:过零率低能量高,清音:过零率

高能量高。

15·端点检测目的:从包含语音的一段

信号中确定出语音的起点及结束点。

16·自相关函数:

时域离散确定信号:

∑+∞

-∞

=

+

=

m

k

m

x

M

x)

(

)

(

)

R(k

时域离散随机信号:

-

=

+

+

=

N

N

m

k

m

x

m

x

N

)

(

)

(

1

2

1

)

R(k

自相关函数性质:1)对称性:

R(K)=R(-K)2)在K=0处为最大值,

即对于所有K来说

)0(

|)

(

|R

K

R≤3)对于确定信

号,R(0)对应于能量对于随机信号R

(0)对应于平均功率。

17·浊音和清音的短时自相关函数有以

下特点:1)短时自相关函数可以很明显

的反映出浊音信号的周期性

2)清音的短时自相关函数没有周期性,

也不具有明显突出的峰值,其性质类似

于噪声。3)不同的窗对短时自相关函

数结果有一定影响。

18·短时自相关函数(求峰值)两个峰

值之间的距离为周期。短时平均幅度差

函数(求谷值)两个谷值之间的距离为

周期。

19·采用双限门比较的两极判决法:第

一级判决:1)先根据语音短时能量的轮

廓选取一个较高的门限T1进行一次粗

判:语音起止点位于该门限与短时能量

包络交点所对应的时间间隔之外。

2)根据背景噪声的平均能量确定一个

较低的门限T2,并从A点往左、从B

点往右搜索,分别找到短时能量包络与

门限T2相交的两个点C和D,于是CD

段就是双门限方法根据短时能量所判

定的语音段。第二级判决:

以短时平均过零率为标准,从C点往左

和D点往右搜索,找到短时平均过零

率低于某个门限T3的两点E和F,这

便是语音段的起止点。门限T3是由背

景噪声的平均过零率所确定的。

20·当n固定时,它们就是序列

(m

x(

m

-

n

ω的傅里叶变

换或离散傅里叶变换。当ω或K固定

时,它们就是一个卷积,相当于滤波器

的运算。

21·基音周期估值的两种方法:第一种

方法:先对语音信号进行低通滤波,在

进行自相关计算。第二种方法,先对语

音信号进行中心削波处理,在进行自相

关计算。

判别基音周期的方法:1·短时自相关

函数法。2·短时平均幅度差函数。

22·线性预测编码就是利用过去的样值

对新样值进行预测,然后将样值的实际

值与预测值相减,得到一个误差信号,

显然误差信号的动态范围远小于原始

语音信号的动态范围,对误差信号的进

行量化编码,可大大减少量化所需的比

特数,使编码速率降低。

1))()

(^s p

1

i n s n i i a -=∑=

P 阶线性预测器传递函数

z

a i

p

i i z -=∑=1

)P (

2)Z 域:

)

()()Gu 1

i n s n s n F

i i a --=∑=(线性预测分析条件:

?

?

?==)()(i n e n Gu a i

α 系统表达式: Gu(n)*h(n)=s(n) 3)线性预测误差e(n) e(n)=s(n)-s^(n)

???

????-==-=∑∑=-=-p

i i

i p i i i z a z a z s z E z A z s z s n E 111)()()()()()(线性预测方程:

0)(-R(k p

1

=-∑=i k R i i a )

23·模型增益G,增益常数G^2=Ep. 24·量化分为标量量化和矢量量化。标量量化:把抽样后的信号值逐个进行量化。

矢量量化:先把信号序列的每K 个连续样点分成一组,形成k 维欧氏空间中的一个矢量,然后对此矢量进行量化。 25·矢量量化能降低信码率,传输的是角标。

码书:最小失真值所对应的量化矢量Yi,把所有N 个量化矢量构成集合{Yi},. 码字:码书中的矢量称为码字。 26·失真测度:是以什么方法来反映用码字Yi 代替信源矢量X 时所付出的代价,

统计平均值:D=E[d(x,Q(x))]

27·最佳矢量量化器:在给定条件下,失真最小的矢量量化器,称为这个条件下的最佳矢量量化器。

(2)设计最佳矢量量化器的两个必要条件:1)在给定码书的条件下,寻找

信源空间的最佳划分,使平均失真最小。2)在给定划分的条件下,寻找最佳码书,使平均失真最小。

28·LBG 算法:设置矢量量化器的主任务:设计码书Yn,对于给定码字数目N 的情况下,由两个必要条件可推导出一个矢量量化器的设计算法。1)算法一:已知信源分布特性设计算法, 2)算法二:已知训练序列的设计算法。 29·初始码书的选取方法:1)随机法:从训练序列中随机选取N 个矢量作为初始码字,构成初始码书Yn={Y1,Y2...Yn].

2)分裂法:计算所训练序列 Ts 形心,将之作为第一个码字Y1. 30·降低复杂度的矢量量化系统是树形搜索。

31.设计树形结构方法:1)

1)从树叶开始设计:根据码字距离最近配对,并找出码字对中心,(Y000.Y001)--Y00...........(Y00.Y01)---Y0..............且树叶数N=8,

2)从树根开始设计:利用分裂法得Y0与Y1,逐次求得Y00 (11)

32.在存储量上,二叉树多于全搜索,2)树形搜索矢量量化器的特点:以适当提高空间复杂度来降低时间复杂度。 33.语音编码分类:1)波形编码:重建后波形与原始波形保持一致。特点:语音质量好,适应能力强,算法简单,易于实现,抗噪声性能强,缺点:所需的编码速率高,一般在16~64kbit/s 。 2)参数编码:以语音信号产生数字模型为基础,对数字语音进行分析,提出一组特征参数,这些参数携带有语音信号主要信息编码,它们只需较少的比特数,在解码后可由这些参数,重新合成语音信号。特点:可实现低速率语音编码,其编码速率可低至2.4bit/s 以下。

缺点:语音质量差,自然度较低。 3)混合编码:在保留参数编码技术上,引用波形编码准则去优化激励源信号,克服原有波形和参数编码的弱点,汲取所长。

34·语音信号存在大量冗余:样点值之间相关性。

35·信源:PCM 有效性 信道:奇偶性 可靠性

36·语音编码设计指标:1)编码速率2)质量:主观MOS 与客观SNR.3)延时 4)复杂度

37.语音信号常用方法:分段信噪比。 38.均匀量化PCM 的信噪比:SNR(dB)=6.02--7.2B 。

信噪比与信号方差无关,它仅取决于量化间隔。

39.自适应量化PCM

自适应方案分为前馈自适应和反馈自适应。

调整幅度分为量化间隔可变和量化台阶可变。

自适应量化是指量化器特征自适应于输入信号幅度变化。

40.自适应预测编码:如果对残差序列e(n)做量化和编码,在同样信号量化噪声比条件下,所需的量化比特数就可以减少,从而达到压缩编码的目的,给予这一原理方法称为预测编码,当预测系数是适应的随语音信号变化时,又称自适应预测编码

41.斜率过载:在译码器中,所恢复的阶梯波的上升或下降有可能跟不上信号的变化,因而产生滞后,这就造成失真。称为斜率过载

2)如何克服斜率过载失真,只要增加量化电平。

42.颗粒噪声:在译码器中所得到的将是峰--峰值等于2的等幅脉冲序列,这便形成一种噪声,称为颗粒噪声。 43.短时傅里叶变换:

∑+∞

-∞

=--=

m jwn jw

e

e m n w m x Xn )()()(

傅里

换:

∑+∞

-∞

=-→=

m jwn

jw

m f m x x e

e )

()()(44自定义预测如何提高信噪比,量化

噪比定义:

)]

([)]([2

2

n E n E SNR q s =

=Gp ·SNRq

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名: 实验一基于MATLAB的语音信号时域特征分析(2学时)

1)短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) ,legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128'); elseif(i==5) ,legend('N=256'); elseif(i==6) ,legend('N=512'); end end

00.51 1.52 2.5 3 x 10 4 -1 1 x 10 4 024 x 10 4 05 x 10 4 0510 x 10 4 01020 x 10 4 02040 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2), legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128');

数字语音处理(精华版)

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。 3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。 为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。 4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。 掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。 5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。 6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。 7·语音生成系统的传递函数: ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法: 声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为: z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途: 1)可以作为区分浊音和清音的特征参 数2)在信噪比较高的情况下短时能量 还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识 别中。 13常用的窗有两种:一种是矩形窗, 窗函数如下: ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为: ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗,窗函数: ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率:单位时间内过零的次数。 浊音:过零率低能量高,清音:过零率 高能量高。 15·端点检测目的:从包含语音的一段 信号中确定出语音的起点及结束点。 16·自相关函数: 时域离散确定信号: ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号: ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质:1)对称性: R(K)=R(-K)2)在K=0处为最大值, 即对于所有K来说 )0( |) ( |R K R≤3)对于确定信 号,R(0)对应于能量对于随机信号R (0)对应于平均功率。 17·浊音和清音的短时自相关函数有以 下特点:1)短时自相关函数可以很明显 的反映出浊音信号的周期性 2)清音的短时自相关函数没有周期性, 也不具有明显突出的峰值,其性质类似 于噪声。3)不同的窗对短时自相关函 数结果有一定影响。 18·短时自相关函数(求峰值)两个峰 值之间的距离为周期。短时平均幅度差 函数(求谷值)两个谷值之间的距离为 周期。 19·采用双限门比较的两极判决法:第 一级判决:1)先根据语音短时能量的轮 廓选取一个较高的门限T1进行一次粗 判:语音起止点位于该门限与短时能量 包络交点所对应的时间间隔之外。 2)根据背景噪声的平均能量确定一个 较低的门限T2,并从A点往左、从B 点往右搜索,分别找到短时能量包络与 门限T2相交的两个点C和D,于是CD 段就是双门限方法根据短时能量所判 定的语音段。第二级判决: 以短时平均过零率为标准,从C点往左 和D点往右搜索,找到短时平均过零 率低于某个门限T3的两点E和F,这 便是语音段的起止点。门限T3是由背 景噪声的平均过零率所确定的。 20·当n固定时,它们就是序列 ) ) (m x( m - n ω的傅里叶变 换或离散傅里叶变换。当ω或K固定 时,它们就是一个卷积,相当于滤波器 的运算。 21·基音周期估值的两种方法:第一种 方法:先对语音信号进行低通滤波,在 进行自相关计算。第二种方法,先对语 音信号进行中心削波处理,在进行自相 关计算。 判别基音周期的方法:1·短时自相关 函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值 对新样值进行预测,然后将样值的实际 值与预测值相减,得到一个误差信号, 显然误差信号的动态范围远小于原始 语音信号的动态范围,对误差信号的进 行量化编码,可大大减少量化所需的比 特数,使编码速率降低。

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

数字语音处理_作业

说明:平时作业写在作业本上,注意每次作业之间保持一定空白间距。期末随堂考试写在打印纸上。记得抄题目。最后成绩按作业质量与出勤率评定。谢谢合作! 第1次作业(第1章) 1.语音信号处理的目的是什么? 2.语音信息的交换大致可以分为哪三类? 3.语音信号处理的三个主要分支是什么? 4.画出语音处理过程的结构框图。 第2次作业(第2章) 1.人的发声器官由哪3部分组成? 2.浊音和清音的发声机理是什么? 3.画出语音信号产生的二元激励模型。 第3次作业(第3章) 1.语音信号时域分析提取的特征参数主要有哪些? 2.对语音信号进行预加重的目的是什么?实现预加重的数字滤波器的传递函数是什么? 3.什么是语音信号的短时平稳性?用图和公式说明语音信号的分帧加窗过程。 4.短时平均能量的定义式?窗长对短时平均能量计算的影响?短时平均能量的主要用 途? 5.短时平均过零率的定义式?短时平均过零率的用途? 第4次作业(第3章) 1.短时自相关函数及其修正型的定义式?对比浊音和清音的短时自相关函数特点。 2.什么叫端点检测?阐述利用能量和过零率进行语音端点检测的两级判决法的实现步骤。 3.基于短时自相关法的基音周期估值中,常用的两种削波函数公式是什么?

第5次作业(第4章) 1.写出一帧语音信号的短时傅里叶变换公式()j X eω。观察矩形窗和汉明窗两种窗函数下 n 的短时频谱图有哪些特点?关于短时谱和移动窗可以得出哪些结论? 2.画出滤波器组相加法实现短时综合的程序流程图。画出短时综合叠接相加法实现流程图。 第6次作业(第5章) 1.什么叫卷积同态系统?写出信号() x n复倒谱和倒谱的定义式。 2.给出倒谱法求基音周期的实现框图。 第7次作业 1.语音编码的目的是什么?按编码方式可分为三种,它们各自特点是什么?(第8章) 2.阐述语音合成的三种方法,并予以比较。(第9章) 3.语音识别系统的分类?语音识别系统的典型组成框图。(第10章) 期末随堂考试 1.语音信号处理主要研究哪几方面的内容? 2.语音信号的清/浊音有什么区别?清/浊音的AMDF有什么区别? 3.解释端点检测、基音、共振峰、语谱图 4.短时分析如何“分帧”?画图表示帧长、帧移。 5.简述时间窗长与频率分辨率的关系。 6.简述中心削波自相关法基音检测的原理及优点。为什么要进行后处理?如何后处理? 7.论述共振峰合成的原理及其在语音合成中的应用。 8.简述同态信号处理在共振峰估计中的作用。 9.语音识别的目的是什么?如何分类?有哪些方法? 10.列举5 种语音信号处理应用技术或产品。简述其工作原理?

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

数字语音处理课程实验报告

数字语音处理课程报告

语音信号的采集与分析 摘要 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。 关键词:语音信号,采集与分析,时域,频域 0 引言 通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。 语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数字

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

广州大学 数字语音处理复习题

第一章绪论 1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3 2.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d3 3.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3 第二章语音信号处理基础知识 1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d2 2.语音的基本声学特性包括音色,音调,音强、音长。p7d2 音色:也叫音质,是一种声音区别于另一种声音的基本特征。 音调:是指声音的高低,它取决于声波的频率。 音强:声音的强弱,它由声波的振动幅度决定。 音长:声音的长短,它取决于发音时间的长短。 3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d3 4.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。p7d3 8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d3 9.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3 7.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d3 8.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d3 9.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d5 10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d6 10. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。 11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d11 14. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。 15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-26 16.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d6 17.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d2

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

数字信号处理教语音信号处理课程设计心得

这次课程设计虽然遇到了很多问题,很多困难,但是也学到了很多东西。不仅学到了书本上的东西,而且学到了很多课本上没有的东西,很多程序里的东西,特别是程序语法,总是有错误,但是总是不知道错在哪里,在细心的检查下,终于找出了错误和警告,排除困难后,程序编译就通过了,心里终于舒了一口气。还有各种各样问题,通过查网络和请教同学来弄明白,这个过程是痛苦的,有时候有些问题不能马上解决,感到很头痛,真想放弃这个问题,但是坚持下来,并且解决这些问题的时候,真的有种苦尽甘来的感觉。 应用MATLAB进行语音信号的处理是与我们所学课程及专业紧密相连的,有着很强的实践性。做这个课程设计的时候,并不是非常的顺利,我也有遇到很多困难。刚开始,我用自己的mp3录制的一个wav文件做语音信号处理,程序始终现实如下错误提示: ??? Error using ==> wavread Error using ==> wavread Data compression format (IMA ADPCM) is not supported. 我在查阅了很多资料,在网上也查阅相关信息,花费了大量时间也没找出结果,最后发现在WAV格式的语音文件有两种格式,即PCM格式和IMA ADPCM格式,而在MATLAB中用wavread函数进行语音处理时,并不能直接处理IMA ADPCM格式的语音信号,经

过格式转换之后(选择PCM格式),我运行出了正确的结果。刚开始由于对滤波器的滤波原理并不是很了解,于是我又翻出学过的数字信号处理课本,认真研究起各种滤波器了,这才使我明白了大多数滤波器是如何工作地,不再单单只是懂理论,理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论。实验过程中,我感觉到初始语音信号和滤波输出后的语音信号在音色上有一定的差别,这说明了信号在处理、传输过程中有损耗。不管对于什么样的课题,其实也是有很多东西可以发掘的,这需要我们在平时多积累,多思考,只有这样,才能取得更大的进步,才能学有所用,学有所长。 通过这次设计,进一步加深了对数字信号处理的了解,让我对它有了更加浓厚的兴趣。通过这次课程设计使我懂得了,平时的理论知识只有通过自己动手做一个课题,从做这个课题的过程中发现问题,解决问题,这个学习的过程,会比我们平时只通过课堂上听讲得到的知识更加生动立体,跟让人记忆深刻。在设计的过程中,我发现同学间的互帮互助真的很重要。当我们有问题的时候,大家一起讨论,将自己的观点表达出来,当发现别人的观点与自己的不同的时候,我们通过查阅资料找到最终正确的答案,这个过程是互利互惠的。这也培养了我们以后走上工作岗位后的团队精神,对我们以后的为人处世都有很大帮助。同时我们在设计的过程中发现了自己的不足之处,对以前所学过的知识理

哈尔滨工程大学 语音信号处理实验报告

实 验 报 告 实验课程名称: 语音信号处理实验 姓名: 班级: 20120811 学号: 指导教师 张磊 实验教室 21B#293 实验时间 2015年4月12日 实验成绩 实验序号 实验名称 实验过程 实验结果 实验成绩 实验一 语音信号的端点检测 实验二 语音信号的特征提取 实验三 语音信号的基频提取

实验一 语音信号的端点检测 一、实验目的 1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法 3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。 二、实验设备 HP 计算机、Matlab 软件 三、实验原理 1、短时能量 语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号)}({n x ,短时能量的定义如下: ∑ ∑∞ -∞ =∞ -∞ =*=-= -= m m n n h n x m n h m x m n w m x E )()()()()]()([222 2、短时平均过零率 短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。过零率在一定程度上可以反映出频率的信息。短时平均过零率的公式为: ∑∑-+=∞ -∞=--= ---=1)] 1(sgn[)](sgn[2 1 ) ()]1(sgn[)](sgn[21N n n m w w m n m x m x m n w m x m x Z 其中,sgn[.]是符号函数,即 ? ? ?<-≥=0)(10)(1 )](sgn[n x n x n x

数字语音信号处理的应用价值及发展趋势

数字语音信号处理的应用价值及发展趋势 姓名:宁闯 学号: 201005107 众所周知, 语音在人类社会中起了非常重要的作用。 在现代信息社会中, 小至人们的日 常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、 移动电话和互联网已经普及到家庭。在这些先进的工具中, 语音信号处理中 的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机 ( 又称听写机, 它能把语音转换为文字 ) 、 语音翻译机 ( 例如输入为汉语,输出为英语, 或者相反 ) ,已经不是 梦想而是提到日程上的研究工作了。 20 世纪 60 年代中期形成的一系列数字信号处理方法和算法 , 如数字滤波器、快速傅 里叶变换 (FFT) 是语音数字信号处理的理论和技术基础。而 70

年代初期产生的线性预测编. 码 (LPC) 算法 , 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、 语音识别与合成、自然语言理解、多媒体 数据库以及互联网等多个领域有广泛的应用 , 同时它对于理解音频类等一般的声音媒体的 特点也有很大的帮助。对于移动通信来说 , 最多的信息是语音信号 , 语音编码的技术在数字 移动通信中具有相当关键的作用 , 高质量低速率的语音编码技术是数字移动网的永远的追 求。所谓语音编码是信源编码 , 它是将模拟语音信号变成数字信号以便在信道中传输。除了 通信带宽的要求外 , 计算机存储容量的限制也要求对语音信号进行压缩 , 以满足海量数据情 况下进行实时或准实时计算机处理的目的。 1 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论 , 它的主要研究内容是语音编 码和语音压缩技术。 考虑到人对听觉媒体的感应特点 , 研究语音信号处理必须与声音心理学 联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1) 声音心理学

数字语音处理技术

题目:数字语音处理技术 学生姓名:张耀公 学生学号: 1008040326 系别:电气信息工程学院 专业:通信工程 年级: 10(级) 任课教师:陈帅 电气信息工程学院制 2012年12月 数字语音处理技术

学生:张耀公 指导教师:朱士永 电气信息工程学院通信工程专业 摘要 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在智能家电、工业现场控制等其他应用场合,语音识别技术则有更为广阔的发展前景。 在语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法。 一、语音识别系统概述语音识别系统概述语音识别系统概述语音识别系统概述一个完整特定人语音识别系统的方案框图如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等,然后是参数特征量的提取。提取的特征参数满足如下要求: (1)特征参数能有效地代表语音特征,具有很好的区分性; (2)参数间有良好的独立性; (3)特征参数要计算方便,要考虑到语音识别的实时实现。 图1 语音识别系统方案框图 语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。 二、语音信号的分析与处理 1、语音信号采集

相关主题
文本预览
相关文档 最新文档