当前位置:文档之家› 第2章_语音信号处理基础.

第2章_语音信号处理基础.

第2章_语音信号处理基础.
第2章_语音信号处理基础.

第2章语音信号处理基础 (2)

2.1数字信号处理基础 (2)

2.1.1离散时间信号与系统 (2)

2.1.2离散Fourier变换(DFT) (4)

2.1.3Z变换 (6)

2.1.4离散余弦变换(DCT) (8)

2.1.5卷积和滤波 (9)

2.2语音信号产生模型 (11)

2.2.1语音的产生机理 (12)

2.2.2级联声管模型 (14)

2.2.3语音生成模型 (19)

2.3语音信号的时域处理 (21)

2.3.1语音信号的抽样和量化 (21)

2.3.2语音信号的短时分析和预处理 (22)

2.3.3短时能量、短时平均幅度和短时平均过零率 (23)

2.3.3.1短时能量和短时平均幅度 (24)

2.3.3.2短时过零率 (24)

2.3.4语音的端点检测 (25)

2.3.5短时自相关函数 (26)

2.3.6短时基音周期估计 (27)

2.3.6.1预处理 (28)

2.3.6.2基于求短时自相关函数的估计算法 (28)

2.3.6.3后处理 (29)

2.4语音信号的频谱分析 (29)

2.4.1短时傅里叶变换和语谱图 (30)

2.4.2同态信号处理的基本原理 (32)

2.4.3复倒谱和倒谱 (33)

2.4.3.1复倒谱和倒谱的定义 (33)

2.4.3.2复倒谱的性质 (34)

2.5语音信号的线性预测编码分析 (35)

2.5.1线性预测的基本原理 (36)

2.5.1.1全极点模型 (36)

2.5.1.2线性预测方程的推导 (37)

2.5.2线性预测方程组的解法 (39)

2.5.2.1自相关法 (39)

2.5.2.2协方差法 (41)

2.5.2.3格型法(Lattice) (42)

2.5.3线谱对参数(LSP) (44)

2.5.3.1线谱对分析的基本原理 (44)

2.5.3.2线谱对参数的求解 (46)

2.6语音信号的矢量量化 (46)

2.6.1矢量量化的基本原理 (46)

2.6.2失真测度 (48)

2.6.2.1基于欧氏距离的失真测度 (48)

2.6.2.2基于非欧氏距离的失真测度 (49)

2.6.3量化器和码本的设计 (50)

2.6.4量化系统的复杂度控制 (52)

2.6.4.1无记忆的矢量量化系统 (52)

2.6.4.2有记忆的矢量量化系统 (54)

2.7听觉特性和语音感知 (54)

2.7.1听阈与听域 (54)

2.7.2音调(Pitch) (55)

2.7.3响度级、响度与遮掩效应 (56)

第2章语音信号处理基础

语音信号数字处理是研究用数字信号处理的技术对语音信号进行处理的学科。20世纪中叶以来,语音的研究与应用取得了一系列重大的进步,例如语音识别、语音合成、语音的压缩编码、语音的远距离传输等等都是建立在语音信号数字处理的基础上的。语音信号数字处理是一门综合性的学科,包括计算机科学、语音学、语言学、声学、生理学、心理学、数学等诸多领域的内容。本章作为全书的基础章节,将简要的介绍以下内容:语音的生成机理及其相应的产生模型;用数字信号处理技术对语音信号进行处理的基本方法;语音信号中常见的时域处理方法和频谱分析方法;线性预测分析方法的基本原理和方法;矢量量化技术的原理和基本算法;听觉系统特性和语音感知。此外,本章的第二小节简要的介绍了部分数字信号处理的基础供参考,有这方面知识的读者可以跳过这一小节。限于篇幅所限,本章介绍的内容均较为浅显,有需要的读者请自行查阅相应的参考书籍。

2.1 数字信号处理基础

随着计算机技术的飞速发展,数字信号处理的技术广泛应用于信号处理领域。本节将简要介绍数字信号处理的一些基础知识,包括:离散时间信号与系统、离散傅立叶变换、Z变换、离散余弦变换以及卷积和滤波的概念、计算方法和特性。由于篇幅所限,不详尽之处请读者查阅相关资料。

2.1.1离散时间信号与系统

按照时间函数取值的连续性与离散性可将信号划分为连续时间信号与离散时间信号。离散信号在时间上是离散的,只在某些不连续的规定瞬间给出函数值,在其它时间没有定义。如果离散时间信号的幅值是连续的,则离散信号又叫抽样信号;如果幅值也是离散的,这样的信号又成为数字信号,如图2.1。

图2.1 离散信号(a.抽样信号 b.数字信号) 通常,给出函数值得离散时刻之间的间隔是均匀的,一般以),2,1,0(),( ±±=n n x 来表示此序列,这里n 表示各函数值在序列中出现的序号。也可以说,一个离散信号就是一组序列值的集合)}({n x 。在离散信号的分析中,常会遇到一些基本运算,比如加、乘和时延。离散信号序列)}({n x 和)}({n y 相加是指两序列同序号的数值逐项对应相加而构成一个新序列)}({n z

),2,1,0( )()()( ±±=+=n n y n x n z

(2-1)

类似的有相乘的定义 ),2,1,0( )()()( ±±=?=n n y n x n z

(2-2)

序列时延是指原序列逐项依次延时m 位而生成一个新的序列 ),2,1,0( )()( ±±=-=n m n x n z (2-3)

如果0>m 意味着序列后移,反之,如果0

∑∞-∞==

n n x E 2|)(| (2-4)

一个离散时间系统的示意图如图 2.2

,其激励信号是离散信号序列)(n x ,响应序列为)

(n y ,系统完成了两者之间的转换运算。

图2.2 离散时间系统 按离散时间系统的性能可以划分成许多种类型,包括线性/非线性、时变/时不变等。最常见的系统是线性时不变系统,其最大特点就是均匀性和叠加性,即:若)(1n y 和)(2n y 分别是激励)(1n x 和)(2n x 的输出,那么激励)()(21n x n x βα+(βα,为常数)的响应为)()(21n y n y βα+,如图2.3。而时不变系统指的是系统响应与激励作用于系统的时间无关,即激励)(t n x -将产生响应)(t n y -,如图2.4。

图2.3 线性系统的均匀性和叠加性

图2.4 系统的时不变性

在连续时间系统里,信号是时间变量的连续函数,系统可以用微积分方程来描述;在离散时间系统里,信号的变量是离散的整型值,因此系统的行为和性能需要用差分方程来表示。在差分方程中,构成方程的各项包含离散变量的函数)(n x ,以及此函数产生位移后得到的)1(+n x 、)1(-n x 等等。求解差分方程的方法有很多,包括迭代法、时域经典法、卷积方法和变换域法等等,限于篇幅,请读者自行查阅相应的参考书籍。

2.1.2 离散Fourier 变换(DFT )

法国数学家和物理学家J.B.J.Fourier (1769~1830)于1807提出,任何一个连续周期信号可以分解为一族正弦曲线和余弦曲线。后来这个定理被扩充,也适用于离散信号和非周期信号,统称为傅里叶分析。如图2.5,信号被分解为9个正弦信号和9个余弦信号共18个信号的和。

图2.5 信号的傅里叶分解

根据被分解信号类型的不同,相应的傅里叶分析也有着不同的定义,如图2.6。

图2.6 四种傅里叶分析 (1) 傅里叶变换(Fourier Transform ):

连续非周期信号 (2) 傅里叶级数(Fourier Series ):

连续周期信号 (3) 离散时间傅里叶变换(Discrete Time Fourier Transform ): 离散非周期信号 (4) 离散傅里叶变换(Discrete Fourier Transform ):

离散周期信号 限于篇幅所限,这里我们着重于介绍离散傅里叶变换(DFT ),因为它在数字信号处理领域应用最为广泛,图2.5中的傅里叶分解就是DFT 。

由于DFT 的作用对象是离散周期信号,对于一个有限长序列)10( )(-≤≤N n n x ,我们必须进行延拓来将其扩展成周期信号,如图2.7。

图2.7 有限长序列)(n x 延拓成周期序列)(n x p

离散傅里叶变换[]DFT 及其反变换[]IDFT 的定义为

???????-≤≤==-≤≤==∑∑-=-=-)10( )(1)]([)()10( )()]([)(102102N n e k X N k X IDFT n x N k e n x n x DFT k X N k N nk j N n N nk j ππ (2-5)

在语音信号数字处理领域中,离散傅里叶变换扮演了重要的角色,完成了信号序列从时域到频域的转化,为语音的频域分析奠定了基础。为了提高DFT 的计算速度,J.W.Cooley 和J.W.Tukey 于1965年提出了著名的快速傅里叶算法(FFT Fast Fourier Transform ),极大的提高了傅里叶变换的速度,使傅里叶算法得以真正的应用于实用场合,如今,大量的硬件已经集成了进行FFT 计算的功能,而且对该算法的改进也在不断进行,如Winograd 算法和Mason 算法。

2.1.3 Z 变换

在离散信号与系统的理论研究之中,Z 变换是一种重要的数学工具,它把离散系统的数学模型——差分方程,转化为简单的代数方程大大简化了求解过程。尤其是随着计算机技术的普及和使用,Z 变换得到了越来越广泛的应用。(注:本节提及的Z 变换为双边Z 变换,单边Z 变换的定义请读者自行查阅相应书籍)

信号序列)(n x 的Z 变换定义为

∑∞-∞=-=

n n z n x z X )()( (2-6) 其中z 是复变量,如果我们选择k N j e z )/2(π=这些特定点的样值,即可得到)(n x 的离散傅里叶变换。因此可以说DFT 是一种特殊的Z 变换。具体讲,在z 平面的单位圆上,取幅角为N k /2πω=的等间距第k 个点,计算其Z 变换,就得到)]([n x DFT 的第k 个样值)(k X 。因此,有限长序列的DFT 可以解释为它的Z 变换在单位圆上的均匀抽样。

我们还必须注意到,要使Z 变换有意义,所定义的级数必须收敛。保证收敛的一个充

分条件是

∞<∑∞-∞=-n n z n x |||)(| (2-7)

对应于复平面内的收敛域(Region of Convergence )为21||R z R <<时该条件成立,如图2.8。

图2.8

Z 变换的收敛域

相应的,Z 变换的逆变换被记为 )]([)(1z X Z n x -= (2-8)

求逆Z 变换的方法通常有三种:围线积分法(留数法)、幂级数展开法(长除法)和部分分式展开法,读者可以查阅相应的参考书。

同时,Z 变换具有许多很好的性质,下面做一简要地介绍。

(1) 线性

Z 变换的线性特性表现在它的叠加性与均匀性,若

?

??<<=<<=)||( )()]([)||( )()]([2121y y x x R z R z Y n y Z R z R z X n x Z 则

)||( )()()]()([21R z R z bY z aX n by n ax Z <<+=+

(2-9)

相加后的序列的收敛域一般为两个收敛域的重叠部分,即 ),max(111y x R R R =且),min(222y x R R R =

(2-10)

当然,如果这些线性组合中某些零极点相抵消,收敛域就可能扩大。

(2) 位移性 若序列)(n x 的Z 变换为)()]([z X n x Z =,则序列右移后,其Z 变换为

)()]([z X z m n x Z m -=-

(2-11)

(3) 序列线性加权(z 域微分)

若序列)(n x 的Z 变换为)()]([z X n x Z =,则 dz z dX z

n nx Z )()]([-= (2-12)

(4) 序列指数加权(z 域尺度变换) 若序列)(n x 的Z 变换为)||( )()]([21R z R z X n x Z <<=,则

)||( )()]([21R z R z X n x Z n <<=ααα (2-13)

α为常数。

(5) 时域卷积定理

???<<=<<=)||(

)()]([)||( )()]([2121y y x x R z R z Y n y Z R z R z X n x Z 则

)||( )()()]()([21R z R z Y z X n y n x Z <<=*

(2-14)

收敛域的定义如(2-10)。

(6) z 域卷积定理

若 ?

??<<=<<=)||( )()]([)||( )()]([2121y y x x R z R z Y n y Z R z R z X n x Z 则

)()(21)]()([1C 1?-=

dv v v Y v z X j n y n x Z π (2-15)

或 )()(21)]()([2C 1?-=dv v v z Y v X j n y n x Z π (2-16)

21,C C 分别为)/(v z X 与)(v Y 或)/(v z Y 与)(v X 收敛域重叠部分内逆时针旋转的围线。而)]()([n y n x Z 的收敛域一般为2211||y x y x R R z R R <<

2.1.4 离散余弦变换(DCT )

离散余弦变换(Discrete Cosine Transform )也是一种在语音信号处理中广泛应用的变换方法,它有好几种不同的定义方法来进行周期延拓,如图2.9所示。

图2.9 (a)DCT-I (b)DCT-II (c)DCT-III (d)DCT-IV 的周期延拓方法

常用的一种是DCT-II ,实信号序列)(n x 的DCT-II 变换)(k C 定义为

∑-=-≤≤+=1010 ))2/1(cos(

)()(N n N k N n k n x k C π (2-17)

其反变换为

10 )

)2/1(cos()(2)0()(11-≤≤++=∑-=N n N

N n k k C C n x N k π (2-18) DCT-II 可以从离散傅里叶(DFT )推导得到。假设)(n x 是一个周期为N 2的偶对称时序列,满足)12()(n N x n x --=。可以证明,信号序列)(n x 的离散傅里叶变换)(k X 和DCT-II 变换)(k C 的关系为

10 )(2)2( )(2)(2/2/-≤≤???=-=-N k k C e

k N X k C e k X N k j N k j ππ (2-19) DCT-II 的优点在于其能量的集中,相比于DFT ,其系数主要集中在低维,这就使我们能用

更少的系数来逼近原来的信号,这也是DCT-II 被广泛应用的原因。 2.1.5 卷积和滤波

由于离散信号本身就是一个不连续的序列,因此离散信号很容易分解为脉冲序列。对应每个样值激励,系统得到对此样值的响应,把这些响应叠加,便能得到此时系统的响应。因此,如果能知道系统的单位冲激响应,就能很好的刻画该系统的响应特性,并利用该单位冲激响应通过卷积运算来求得系统对任意离散信号序列的响应,如图2.10所示。图中,首先得到线性系统对单位冲激函数)(n δ的响应)(n h ,)(n h 刻画了该系统的响应特性,然后,对任意输入信号序列)(n x ,就可以通过)(n x 与)(n h 的卷积求得输出序列)(n y 。

图2.10 离散信号系统的冲激响应

图2.11给出了卷积过程的一种解释。如图,信号)(n x 与)(n h 进行卷积得得到输出序列)(n y 。运算可以看作是这样进行的:)(n x 可以分解为9个冲激函数的线性组合,在已知系统的单位冲激响应的基础上,由线性系统的均匀性和时不变性,可以求得每个脉冲信号通过该系统的响应,如图2.11中的九个小图,最后,由线性系统的可加性,这些响应叠加就得到系统对输入)(n x 的响应)(n y 。

图2.11 通过卷积求系统响应

从上述过程我们可以推导出卷积的表达式。首先,我们对输入信号进行分解。由于

)(

0)( )()()( )( 0)( 1)( ???≠==-????≠==-n m n m n x m n m x n m n m m n δδ (2-20)

故输入信号可以表示为 ∑∞-∞=-=

m m n m x n x )()()(δ (2-21)

由系统的时不变特性和均匀可加性,)()(m n m x -δ的系统响应为)()(m n h m x -,因此系统对)(n x 的响应为

∑∞-∞=-?=

m m n h m x n y )()()( (2-22)

如果)(n x 仅在]1,0[-N 这N 个点的区间取值,那么上式进一步改写为

∑-=-?=10)()()(N m m n h m x n y

(2-23)

因此,两个序列)(n x 和)(n h 的卷积运算就定义为

∑∑-=∞-∞=-?=*-?=

*1

0)()()()( )()()()(N m m m n h m x n h n x m n h m x n h n x 或 (2-24) 卷积运算是数字信号处理的最基本运算之一,应该熟练掌握。

卷积运算有着许多良好的性质,简要的列举在下面,证明留给读者完成。

(1) 交换率

)()()()(n a n b n b n a *=*

(2-25)

(2) 结合律 )]()([)()()]()([n c n b n a n c n b n a **=**

(2-26)

(3) 分配律 )()()()()()]()([n c n b n c n a n c n b n a *+*=*+ (2-27)

(4) 转移特性:如图 2.12,如果)()()(n h n x n y *=,)(n x 经过某一线性变化得到新的

信号序列)(n x ',那么)()(n h n x *'的结果就应该是)(n y 经过同一线性变化得到的信号序列)(n y '。

图2.12 卷积的转移特性

卷积的一个重要用途就是滤波,所谓滤波,就是通过一定的运算去掉信号中某些不需要的部分,比如高频部分或者是低频部分。滤波的过程就是原始信号和滤波器的单位冲激响应的卷积过程,如图2.13,高通滤波器和低通滤波器有着各自自身的单位冲激响应,输入信号通过与单位冲激响应的卷积运算,达到了去掉信号中高频部分或者低频部分的目的。

图2.13 低通滤波和高通滤波

2.2 语音信号产生模型

共振频率是什么概念,如何产生?短时分析的根据是什么?语音是怎么生成的?连续过程是如何变成离散过程的?线性预测方法为什么能用在语音分析中?等等问题无不与产生机理及数学模型有关。如何建立数学模型?用到的知识:空气动力学、力学、声学、电学、类比、拉 普拉斯变换、傅里叶变换、Z 变换等等。重点学习思路与方法,科学思维。

2.2.1 语音的产生机理

我们可以有条件地将人的发声看作是两个过程:1)产生声源(准周期气流脉冲或白噪声)去激励声道;2)声道对声源的调制作用。本小节中,我们将把重点放在研究:声道是怎样对声源调制的,为什么不同的声道形状会产生不同的声音。

。当然这是理想化了的,但这样简化会有助于问题的求解,也便于以后修正。

x = 0 x =l

图2.14 截面均匀无损耗管道示意图

考虑到管道右端开口处只有空气体积速度的变化,而没有压强的变化,这时,可以写出管道内声波的运动方程

()()()()?????????=??-??=??-t t x p C A x t x u t t x u A x t x p ,,,,2ρρ

(2-28)

其中,p 为在点时刻的声压,u 为在点时刻的体积速度,ρ为空气密度,C 为声速,A 为管道截面积。解该偏微分方程,得如下形式

()()()()()?????+--=++-=C x t u C x t u t x u C x t u C x t u A c t x p b f b f //,)]/(/[,ρ (2-29)

其中,我们称为)/(C x t u b +正向行波,称()C x t u f /-为反向行波。假定在0=x 处以空气体积速度的形式施加激励,而体积速度总可以分解成傅立叶级数。对某一个频率分量Ω,其体积速度激励为

()()t j G e U t u Ω?Ω=,0 (2-30)

可以得出管道内各处空气体积速度的变化情况。由公式(2-29)可知,在以(2-30)式作为边界条件的情况下,解也必定是复指数形式。令

()()

()()???=+=-+Ω-ΩC x t j b b C x t j f f e

U C x t u e U C x t u //// (2-31)

将(2-31)代入到(2-29)中,得到 ()()()[]()()()?????-=+=+Ω-Ω+Ω-ΩC x t j b C x t j f C x t j b C x t j f e U e U t x U e U e U A C t x p ////, ,ρ (2-32)

将两个边界条件()()t j G e U t u ΩΩ=,0和()0,=t l p 代入上式,解得

()()()()[]()()()()[]()()???

????ΩΩ-Ω=ΩΩ-Ω=?????+Ω-=+Ω=ΩΩΩΩ-t

j G t j G C l j G b C l j G f e U C l C x l t x u e U C l C x l jZ t x p e U U e U U /cos /cos ,/cos /sin ,1 10/2/2 (2-33) 其中,0Z 为管道声特性阻抗,A C Z /0ρ=。

这样,我们可以利用上式来研究一下管道始端与末端空气体积速度的情况。

在末端l x =处,有

()()()t j G e C l U t l u ΩΩΩ=

/cos , (2-34)

在始端0=x 处,有 ()()t j G e U t u ΩΩ=,0

(2-35)

令 ()()()()()?????Ω=ΩΩΩ=ΩG G U U C l U l U ,0/cos , (2-36)

()Ω,l U 的物理意义为:在 l x =处,空气体积速度的幅值(是频率Ω的函数)

。相当于在l x =处空气体积速度的傅立叶变换。同理,()Ω,0U 是0=x 处空气体积速度的傅立叶变换。从(2-36)可解出系统的频率响应公式:

()()()()C l V l U j V a /cos 1,0,Ω=ΩΩ=Ω (2-37)

考虑到成年男子平均声道长5.17=l 厘米,空气在一个大气压,C 31时的声速为

s cm C /35000=,那么上式中的量

k f f f C l ?=??=?=Ω-πππ31035000

5.172 (2-38) 其中310-?=f f k ,如f 的单位为Hz ,则k f 的单位为KHz 。将(2-38)代入(2-37)式得

()()k a f j V πcos 1=Ω (2-39)

可以看出当(),...2,1,0,2/12=+=n n f k ππ时,(2-39)式有极大值,相应的共振频率为

() ,...2,1,0,2

12=+=n n f k ππ (2-40)

可见,在... 5.1 15.00;时,;时,KHz f n KHz f n k k ====每间隔KHz 1出现一个共振频率。如图

v K

(dB)

40

20

0 1 2 3 4 5 k KHz

图2.15 均匀无损声管频率响应

上图表明截面均匀的无损管道用于模拟人的声道时,嘴唇处空气体积速度相对声门处的增益是随频率变化的,第一个共振点出现在0.5KHz 处,每隔1KHz 出现一个共振点。尽管上述的声管是理想化的,但这个结果在以后的讨论中有参考意义。考虑到管壁的振动,穿过管壁的热传导,空气与管壁间的粘滞摩擦,以及嘴唇辐射声波时的种种影响,均匀管道的一个声学系统,其幅频特性画在图2.16。

k f KHz

v K dB

图2.16 具有屈服性壁、粘滞和热损耗的均匀无损声管频率响应

图2.16与图2.15比较,可以看出这些因素的影响造成的变化有:1)共振峰的频率降低;2)尖峰变低宽,即共振峰降低,带宽增加。

2.2.2 级联声管模型

前一小节中,我们介绍了均匀管道的声学特性,而在人类发音时,声道截面积不是均匀的,截面沿轴向是不断变化的。为了简化计算,需要用一些无损耗声学短管级联来逼近声道截面积函数)(x A 。图2.17是用14节短管(每个短管自己的截面积是均匀的),来逼近原来声道的形状。

图2.17 用级联声学短管逼近声道形状

为使问题简化,令每个短管的长度i l 都是相同的。短管的编号从1开始,自左至右编号递增,相应截面积分别为N k k A A A A A ,...,,...,121+,,,N 为短管总数。下面我们研究级联无损耗管道中声波的传播,先来分析每个短管中的声压和体积速度。对第k 个短管,由(2-32)式,

()()()()()()k k b k f k k b k f k k l x C x t u C x t u t x u C x t u C x t u A C t x p ≤≤?????+--=++-=0//,]//[,,,,,ρ (2-41)

考虑到在两个短管交接处声压和体积速度不能突变,要满足连续性约束条件。图2.18画出了第k 节短管与第1+k 节短管交接处的情况。设第k 节短管左端为0,右端为k l ;第1+k 节短管左端为0,右端为1+k l 。

图2.18 两个短管及其连接处的情况

在两管连接处连续性约束条件为

()()()()???==++t u t l u t p t l p k k

k k k k ,0,,0,11 (2-42) 前面已设1+=k k l l ,则声波通过每一个短管的时间是相同的,都是τ,其中C l k /=τ。将

k l x =代入公式(2-41),得到 ()()()()()()?????+--=++-=ττττρt u t u t l u t u t u A C t l p k b k f k k k b k f k k k ,,,,,][, (2-43)

将公式(2-41)中的k 换成1+k ,且令0=x ,得到第1+k 节短管的左端情况

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理复习华南理工

语音信号处理复习 第二章语音信号处理基础知识 1,定义: (1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此语音是语言和声音的组合体。 (2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。 ①音色:是一种声音区别于另一种声音的基本特征 ②音调:指声音的高低,取决于声波的频率 ③音强:指声音的强弱,取决于声波的振幅 ④音长:指声音的长短,取决于发音时间的长短 (3)任何语言都有语言的元音和辅音两种音素: 元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。一个重要的声学特性是共振峰。 辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。包括清音和浊音。 ①浊音:声带振动 ②清音:声带不振动 (4)人的听觉系统有两个重要的特性: ①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。 ②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。 2,语言信号生成的数学模型: ①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统 ②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统 ③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统 3,语音信号的特性分析: (1)语音信号的时域波形和频谱特性: ①时域波形:周期性,周期对应声带振动的频率,即基音频率。 ②频谱特性:共振峰特性。元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。清辅音频谱 峰点之间的间隔是随机的,没有周期分量。 (2)语谱图: 语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。 语谱图中的花纹有横杠、竖直条和乱纹等。 ①横杠:与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸点,也就是共振峰。 ②竖直条:与时间轴垂直的一条窄黑带,每个竖直条相当于一个基音,条纹间的距离表示基音周期。 ③乱纹:清擦音从语谱图上看表现为乱纹,乱纹的深浅和上下限反映了噪声能量在频域中的分布。 4,语音信号的统计特性: 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量(如均值和自相关函数)来描述。 第三章语音信号分析

DSP语音信号处理课程设计(精)

DSP语音信号处理课程设计报告书 语音信号处理GUI工具箱设计 指导老师:专业:电子信息工程 班级: 姓名:学号: 设计时间: 2011年10月12日至 地点: 摘要 语音信号处理是研究数字信号处理技术和语音信号进行处理的一门学科,是一门新型的学科,是在多门学科基础上发展起来的综合性技术,它涉及到数字信号处理、模式识别、语言学。语音信号处理是研究用数字信号处理技术对语音信号处理的一门学科。处理的目的是要得到一些语音参数以便高效的传输或存储;或者是通过处理的某种运算以达到某种用途的要求。语音信号处理又是一门边缘学科。如上所诉,它是“语言语音学”与“数字信号处理”两个学科相结合的产物。 语音信号处理属于信息科学的一个重要分支,大规模集成技术的高度发展和计算机技术的飞速前进,推动了这一技术的发展。在数字音频技术和多媒体技术迅速发展的今天,传统的磁带语音录放系统因体积大、使用不便、放音不清晰而受到了巨大挑战。本次课程设计提出的体积小巧,功耗低的数字化语音存储与回放系统,可以有效的解决传统的语音录放系统在电子与信息处理的使用中受到的限制。 本文提出了语音信号处理课程建设的实验环节中的一些考虑,作为专业课程的学习,实验内容不能仅仅停留在验证性实验上,还应增加实验延伸的设计要求,是学生加深对理论分析认识的同时,强调培养学生的实际动手能力和知识综合运用能力。从而提高语音信号的教学和实验的质量。实验内容采用MATLAB编程实现,不仅易于语音信号处理的实现,更易引导学生完成实验延伸的设计。 目录 第一章绪论 (1) 1.1课程设计的目的及意义 (1) 1.2设计要求 (1) 1.3 研究内容 (1) 第二章语音信号处理理论基础 (3) 第三章系统方案论证 (4) 2.1 设计方案 (4) 2.2 GUI界面功能介绍 (4) 2.3 GUI界面的具体操作 (5)

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

DSP语音信号处理课程设计最新版(精)

目录 第一章绪论 (1) 1.1 MATLAB简介 (1) 1.2 数字信号处理简介 (1) 1.3语音信号处理简介 (2) 1.4 GUI简介 (2) 第二章方案论证 (4) 2.1 论证方案 (4) 2.2语音的录入与打开 (4) 第三章系统的总体设计 (5) 3.1 FFT的MATLAB实现 (5) 3.2设计原理 (6) 3.2.1 运用自相关方法估计语音信号的声道参数原理 (6) 3.2.2解决噪声污染的原理 (6) 3.2.3 自相关检测原理 (8) 3.2.4 中心消波法检测的原理 (8) 3.2.5 三电平中心消波法原理 (8) 第四章模块实现过程 (10) 4.1 DFT和DTFT设计 (10) 4.1.1 DFT定点分析 (10) 4.1.2 DTFT设计 (11) 4.2 滤波器设计 (13) 4.2.1原理 (13) 4.2.2简介IIR数字滤波器和FIR数字滤波器 (13) 4.2.3设计内容 (14) 4.3 分离观察 (19) 第五章总结与展望 (21) 参考文献 (22) 附录 (23) 吉林工程技术师范学院课程设计论文 第一章绪论 1.1 MATLAB简介 MATLAB的名称源自 Matrix Laboratory,它是一种科学计算软件,专门以矩阵的形式处理数据。MATLAB 将高性能的数值计算和可视化集成在一起,并提供了大量的内置函数,从而被广泛地应用于科学计算、控制系统、信息处理等领域的

分析、仿真和设计工作,而且利用 MATLAB 产品的开放式结构,可以非常容易地对 MATLAB 的功能进行扩充,从而在不断深化对问题认识的同时,不断完善MATLAB 产品以提高产品自身的竞争能力Matlab的数据分析和处理功能十分强大,运用它来进行语音信号的分析、处理和可视化相当便捷。MATLAB是一种 科学计算软件,主要适用于矩阵运算和信息处理领域的分析设计,它使用方便,输入简捷,运算高效,内容丰富,并且很容易由用户自行扩展。MATLAB当前已成为美国和其他发达国家在大学教学和教学研究中最常用而必不可少的工具。其主要有信号处理(signal processing)、系统控制(control system)、神经网络(neural network)、图形处理(image processing)、鲁棒控制(robust control)、非线形系统控制设计(nonlinear control)、系统辨识(system identification)、最优化(optimisation)、µ分析与综合(µ analysis and synthesis)、模糊逻辑(fuzzy logic)、小波(wavlet)、样条(spline)等工具箱,而且工具箱还在不断增加。这些工具箱给各个领域的研究和工具应用提了有利的工具。借助于这些“巨人肩上的工具”,各个层次研究人员可直观、方便地进行分析计算及设计工作,从而大大地节省时间。 1.2 数字信号处理简介 数字信号处理的主要研究对象是数字信号,且是采用运算的方法达到处理的目的。因此,其实现方法,基本上分成两种实现方法,即软件和硬件实现方法。软件实现方法指的是按照原理和算法,自己编写程序或者采用现成的程序在通用计算机上实现,硬件实现指的是按照具体的要求和算法,设计硬件结构图,用乘法器加法器延时器、控制器、存储器以及输入输出接口部件实现的一种方法。显然前者灵活,只要改变程序中的有关参数,但是运算速度慢,一般达不到实时处理,因此,这种方法适合于科研和教学。后者运算速度快,可以达到实时处理要求,但是不灵活。目前DSP芯片已进入市场,且正在高速发展,速度高,体积小,性能优良,价格也在不断下降。可以说,用DSP芯片实现数字信号处理,正在变成工程技术领域的主要方法。用合适的DSP芯片,配有合适的芯片语言及任务要求的软件,来实现信号处理功能是一种最佳的数字信号处理系统。 1 吉林工程技术师范学院课程设计论文 1.3语音信号处理简介 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、自动化系统等建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化和自动化程度。 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用

第一章 思考题

第一章思考题 1、语音信号处理是如何定义的?主要解决什么问题?有哪些应用? 2、语音信号处理主要从哪几方面开展研究? 3、数字语音编码的目的是什么?请列举一些主要应用。 4、语音编码有哪几个属性? 5、语音编码分为几类? 6、波形编码、参数编码和混合编码后的语音波形形状是否和原始语音波形类似?那种方法质量最高?那种方法的压缩比最高?混合编码方法有何特点? 7、目前4kb/s以下的窄带语音编码方法有哪些?带宽是多少?采样率是多少? 8、8~64kb/s的宽带语音编码主要采用何种方法?带宽是多少?采样率是多少? 9、制定语音编码的国际组织有哪些? 10、IUT-T窄带语音编码标准有哪些?各自的编码速率是多少?A/u律PCM编码的速率是如何计算的? 11、用于GSM移动通信的ETSI窄带语音编码标准有哪些?各自的编码速率是多少?采用自适应多速率编码有何好处? 12、用于北美CDMA/TDMA移动通信的TIA/EIA语音编码标准有哪些?各自的编码速率是多少? 13、日本数字蜂窝(JDC-Japanese Digital Cellular )语音编码标准有哪些?各自的编码速率是多少? 14、保密电话的语音编码标准有哪些?主要速率有几种? 15、目前的卫星电话语音编码算法有几种?编码速率各是多少? 16、ITU-T宽带语音编码标准G.7xx有哪些?各自的算法、速率、延时和复杂度如何? 17、语音识别的目的是什么?目前的研究重点是什么?有哪些主要应用? 18、说话人识别和语音识别有何区别? 19、说话人识别有几类?各自解决什么问题? 20、语音合成(TTS)的目的是什么?TTS的核心模块是哪几个?各模块的功能是什么?韵律控制需要哪几个参数? 21、语音的合成方法有几种?各自的合成机理是什么? 22、请列举目前语音合成研究的热点课题。

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

信号系统与语音信号处理实验平台 RZ8664型

产品详细技术方案 信号系统与语音信号处理实验平台 RZ8664 型 简述:RZ8664根据《信号与系统》和《数字信号处理》两门课相互关联的特点,在总结信号与系统实验教学经验,并结合数字信号处理技术、DDS技术、虚拟仪器技术、语音处理技术,开发出的新型“信号与系统”实验箱。它既可完成传统实验箱的实验内容,又能完成原有实验箱难以完成或结果不理想的任意信号分解、信号与系统卷积、数字滤波器、任意信号时域频域分析、语音信号分析等实验;同时也能做“数字信号处理”、“DSP应用”、“虚拟仪器技术”、“语音处理”实验;实验箱采用了正面贴膜工艺,增加了USB通信接口和语音接口。系统既美观又稳定可靠,方便管理。适合专科、本科、研究生和研发人员使用。 一、产品图片 注:产品以实物为准!

RZ-VSlab虚拟实体仿真软件 二、技术指标 1.基于STM32的DDS信号源,可产生:正弦波、三角波、占空比可变的脉冲信号、扫频信号、半波、全波、AM、DSB、SSB、FM等信号,便于学生对不同信号进行时域频域分析; 2.内置数字频率计:0HZ~250KHZ;数字豪伏表:0V~10V; 3.能完成各种卷积实验,输入信号和系统函数可由PC机设定; 4.各种无源、有源模拟滤波器设计、仿真、验证;复杂信号的抽样与恢复,恢复滤波器可开发; 5.能完成数字滤波器的在线设计、冲激与频响仿真、实现(提供整套在线设计、下载软件),学生可基于该功能研究复杂信号中谐波分量的位置与大小; 6.基于数字信号处理技术,能完成:任意信号的卷积、任意信号的分解与合成;(三角波、正弦波、半波、全波等信号、各种调制信号),可研究谐波幅度、谐波相位对信号合成的影响; 7.内置USB接口和高速数据采集模块,可实现基于LABVIEW虚拟示波器、虚拟频谱仪、虚拟选频表功能。在PC机上进行实时的信号时域频域分析;演示实时信号合成原理及吉布斯效应。采集数据可以存贮,在PC机后台分析处理各种信号:如带宽分析、频谱分析、能量分析等。 8.实验平台内置语音接口,专用语音采集芯片,采用“过采样”和“抽取滤波”技术确保语音在8KHZ 采样时也有很好的恢复效果,采样率从8KHZ到96KHZ可编程; 9.能进行DSP、数字信号处理、语音处理、虚拟仪器的二次开发,DSP和数字信号处理的二次开发软件能通过USB接口直接下载,不需仿真器;提供基于LABVIEW的虚拟仪器开发VI函数; 10.能完成信号系统的实验类型:阶跃响应与冲激响应、抽样定理与信号恢复、连续时间系统的模拟、零输入与零状态响应、二阶电路暂态响应、二阶电路传输特性、信号卷积、任意信号分解与合成、谐波幅度与相位对合成信号的影响、模拟滤波器与数字滤波器、虚拟仪器、数字滤波器在线设计及任意信号谐波分析、信号时域频域分析等实验。 11.能完成语音处理实验类型:语音信号的数字化(可以听原声,看波形图);语音基语提取,傅里叶变换(幅频特性与相频特性),语音信号尺度变换(分析变换前后语音及其频谱变化)、语音带限处理频谱分析(语音信号分别通过低通、高通和带通滤波器); 三、实验项目

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

数字信号处理教语音信号处理课程设计心得

这次课程设计虽然遇到了很多问题,很多困难,但是也学到了很多东西。不仅学到了书本上的东西,而且学到了很多课本上没有的东西,很多程序里的东西,特别是程序语法,总是有错误,但是总是不知道错在哪里,在细心的检查下,终于找出了错误和警告,排除困难后,程序编译就通过了,心里终于舒了一口气。还有各种各样问题,通过查网络和请教同学来弄明白,这个过程是痛苦的,有时候有些问题不能马上解决,感到很头痛,真想放弃这个问题,但是坚持下来,并且解决这些问题的时候,真的有种苦尽甘来的感觉。 应用MATLAB进行语音信号的处理是与我们所学课程及专业紧密相连的,有着很强的实践性。做这个课程设计的时候,并不是非常的顺利,我也有遇到很多困难。刚开始,我用自己的mp3录制的一个wav文件做语音信号处理,程序始终现实如下错误提示: ??? Error using ==> wavread Error using ==> wavread Data compression format (IMA ADPCM) is not supported. 我在查阅了很多资料,在网上也查阅相关信息,花费了大量时间也没找出结果,最后发现在WAV格式的语音文件有两种格式,即PCM格式和IMA ADPCM格式,而在MATLAB中用wavread函数进行语音处理时,并不能直接处理IMA ADPCM格式的语音信号,经

过格式转换之后(选择PCM格式),我运行出了正确的结果。刚开始由于对滤波器的滤波原理并不是很了解,于是我又翻出学过的数字信号处理课本,认真研究起各种滤波器了,这才使我明白了大多数滤波器是如何工作地,不再单单只是懂理论,理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论。实验过程中,我感觉到初始语音信号和滤波输出后的语音信号在音色上有一定的差别,这说明了信号在处理、传输过程中有损耗。不管对于什么样的课题,其实也是有很多东西可以发掘的,这需要我们在平时多积累,多思考,只有这样,才能取得更大的进步,才能学有所用,学有所长。 通过这次设计,进一步加深了对数字信号处理的了解,让我对它有了更加浓厚的兴趣。通过这次课程设计使我懂得了,平时的理论知识只有通过自己动手做一个课题,从做这个课题的过程中发现问题,解决问题,这个学习的过程,会比我们平时只通过课堂上听讲得到的知识更加生动立体,跟让人记忆深刻。在设计的过程中,我发现同学间的互帮互助真的很重要。当我们有问题的时候,大家一起讨论,将自己的观点表达出来,当发现别人的观点与自己的不同的时候,我们通过查阅资料找到最终正确的答案,这个过程是互利互惠的。这也培养了我们以后走上工作岗位后的团队精神,对我们以后的为人处世都有很大帮助。同时我们在设计的过程中发现了自己的不足之处,对以前所学过的知识理

语音信号数字处理教学大纲_572002761

《语音信号数字处理》 Digital Processing of Speech Signals 课程类别 本科生/研究生专业基础课 课程编号 课程对象 电子信息工程高年级本科生 信号与信息处理专业研究生 学时/学分32/2 课程目标 《语音信号数字处理》内容包括介绍语音信号的基本特征和语音的产生模型,重点讲授如何利用数字信号处理技术进行语音特征的分析提取。在此基 础上讲授常用的语音编码技术和语音识别技术。通过本课程的学习,学生应 (1)了解语音信号的基本特征和产生原理 (2)掌握语音信号分析技术 (3)了解掌握语音信号编码技术 (4)了解掌握语音识别技术 主要章节构成及学时分配 第一章:语音信号的时域及频域特征(2学时) 第二章:语音信号的产生模型—声管模型(2学时) 第三章:语音信号的同态处理技术(3学时) 第四章:语音信号的线性预测编码技术(4学时) 第五章:人耳的听觉系统(2学时) 第六章:语音信号的波形编码(4学时) 第七章:语音信号的参数编码(4学时) 第八章:语音识别技术(8学时) 第九章:总结(3学时) 要求先修课程及主要知识点 (1) 数字信号处理 信号的短时分析技术;取样Z变换; (2) 随机过程 马尔可夫过程; 教材或主要 参考书 (1) 杨行峻,迟惠生等,《语音信号数字处理》 ,电子工业出版社,1995年 (2) [美] Thomas F. Quatieri 著,赵胜辉等译,离散时间语音信号处理-原理与应用,电子工业出版社,2004,8 (3) L.R.Rabiner, ”Fundamentals of Speech Recognition”Prentic-Hall,Inc. (影印版,清华大学出版社,1999,8) (4) J.D. Markel and Jr A.H.Gray,”Linear Prediction of Speech”,Springer-Verlag,1976 (5) 姚天任,“数字语音处理”,华中理工大学出版社,1992,4

相关主题
文本预览
相关文档 最新文档