当前位置:文档之家› 数字语音处理复习题..

数字语音处理复习题..

数字语音处理复习题..
数字语音处理复习题..

第一章绪论

1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3

2.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d3

3.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3

第二章语音信号处理基础知识

1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d2

2.语音的基本声学特性包括音色,音调,音强、音长。p7d2

音色:也叫音质,是一种声音区别于另一种声音的基本特征。

音调:是指声音的高低,它取决于声波的频率。

音强:声音的强弱,它由声波的振动幅度决定。

音长:声音的长短,它取决于发音时间的长短。

3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d3

4.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。p7d3

8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d3

9.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3

7.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d3

8.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d3

9.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d5

10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d6

10. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。

11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d11

14. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。

15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-26

16.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d6

17.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d2

16.语音信号生成模型的辐射模型是一阶类高通滤波器。 p25d2

17.设截取的一段语音共有160个样本,而采样频率为8kHz ,则该段语音持续时间为20ms 。 18.设采样频率为8kHz ,则25ms 长的语音共有200个采样值。

18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram ,或者Spectrogram )p29d1

19.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d1

20.传输函数形式为1

2

1

()1M

i

i i

i a V z b z

c z

--==--∏的共振峰模型为(2)数学模型;

1.全零点;

2.全极点;

3.极零点;

4.以上都不是;

21.传输函数形式为1

2

1

()1M

i

i i

i a V z b z

c z --==--∏的共振峰模型在结构上为(1 )模型;

1.级联型

2.并联型;

3.混合型;

4.以上都不是;

22.传输函数形式为12

1()1M

i

i i i

A V z

B z

C z --==--∑的共振峰模型为(3)数学模型; 1.全零点; 2.全极点; 3.极零点; 4.以上都不是;

23.传输函数形式为12

1()1M

i

i i i A V z B z

C z --==

--∑的共振峰模型在结构上为(2)模型; 1.级联型

2.并联型;

3.混合型;

4.以上都不是;

24.简述语音产生过程的三个模型:

25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。

发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周

期就称为基音周期(pitch ),其倒数成为基音频率。一般来说,男性说话的基音频率大致分布在50-200Hz 范围内,女性和小孩的基因频率在200-450Hz 之间。

人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。。。,相应的频率用F1、F2、F3。。。。表示。一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。

语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。

26.汉语中的四种声调与基音频率的关系是什么?

无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。

29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。音调与声音的频率并不成正比,还与声音的强度及波形有关。描述音调的单位是美(mel )。一个高于听阈40dB 、频率为1KHz 的纯音所产生的音调定位1000mel ,如果一个纯音听起来比1000mel 的声音调子高一倍,则其音调为2000mel 。音调与频率的关系近似表示为:

3323.23lg(10.001)mel Hz T f ≈+

27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。

第三章 语音信号分析

21.语音信号分析采用短时分析技术。p32d2

20. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同,分为模型分析方法和非模型分析方法两种。p32d3

22.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。

23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等

23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。 25.对于频率分布为0~3400Hz 的语音信号,最低无失真采样频率应为6800Hz

25.若信号波形的变化足够大,或量化间隔Δ足够小时,以下有关量化噪声描述错误的是(4)p33d2

1.是平稳的白噪声过程

2.量化噪声与输入信号不相关

3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布

4.是服从高斯分布的随机过程

26.以下那种分析不属于语音信号时域分析?(4) 1.短时过零率分析; 2.短时相关分析;

3.短时平均幅度差函数;

4.同态分析;

短时能量的主要用途不包括以下那一项(4)p38d5 1.可以区分浊音段和清音段;

2.可以用来查找声母和韵母的分界;

3.可以用来查找无声和有声的分界;

4.可以区分高频和低频分量;

24.采用自相关函数法对基音周期进行估计时,先用60~900Hz 的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d2 1.可减少共振峰的影响; 2.可抑制50Hz 的电源干扰;

3.可保留基音频率的一、二次谐波;

4.为了防止8kHz 采样时发生混叠干扰; 定

音信号

()

n x m 的短时自相关函数

()

n R k 为:

10

()

()(),0

N k

n n n m R k x m x m k

k K --==+<≤∑

,则以下表述错误的是(2):p40d3 (1) 如果()n x m 是周期的,则()n R k 是同周期的周期函数; (2) ()n R k 是奇函数; (3) (0)()n n R R k ≥

7.设序列x(n)的短时能量定义为:

[]2

()().n m E x m w n m ∞

=-∞

=

-∑

其中窗函数表示为:

,0

()0,0

m a m w m m ?≥=?

8.设序列x(n)的短时能量定义为:

[]2

()().n m E x m w n m ∞

=-∞

=

-∑

其中窗函数表示为:

,()0,m a m N

w m others

?≤?=???

试求E n 的一个递推公式

9.设短时平均过零率的定义为:

[][]1

1sgn ()sgn (1)2n

n n N Z x m x m N

-+=

--∑

证明{}11

sgn[()]sgn[(1)]sgn[()sgn[(1)]2n n Z Z x n x n x n N x n N N

-=+

-------

1.语音的时变性与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。但在较短时间内(10-30ms )语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。

11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么? 自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的

自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。 短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音

周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。利用短时平均幅度差函数的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。

12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么? 相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。这是因为浊音是由声带振动引起的脉冲波激励声道产生的,能量较大,频率较低,具有与激励波相同的周期性结构,而清音是由白噪声激励而产生,能量较低,频率较高,不具有周期性。

13.若用信号的短时傅立叶变换来定义其短时能量谱密度:

()()

2

j j n n

S e

X e ω

ω=

同时定义信号的短时自相关函数为:

()()()()()n m R k w n m x m w n k m x m k ∞

=-∞

=

---+∑

证明当()()()j j m

n m X e x m w n m e

ω

ω∞

-=-∞

=-∑时,()n R k 与()j n S e ω互为傅立叶变换对。

15.设p 阶线性预测器表达式为1

?()()p

i i s

n a s n i ==-∑,证明在最小均方预测误差准则下,预

测系数1,,p a a 满足方程组:1

(0,)(,),1,2,,p

i i j a i j j p

=Φ=

Φ=∑ ,其中

(,){()()}i j E s m i s m j Φ=--。

解:预测误差为1

?()()()()()p

i i n s n s

n s n a s n i ε==-=--∑,

均方误差为{}2

21()[()()]p

i i E n E s n a s n i ε=??

=--????

∑,为使E{ε2(n)}最小,对a j 求偏导,并

令其为零,有:1[()()]()0,1,...,p

i i E s n a s n i s n j j p =??

---==????

∑,即

1{()()}()(),1,,p i i E s n s n j E a s n i s n j j p =??

-=--=????

又因为(,){()()}i j E s n i s n j Φ=--,代入上式有1

.(0,)(,),1,2,,p

i i j a i j j p =Φ=Φ=∑

设语音信号的线性预测模型为()0.9(1)0.4(2)0.1(3)

s n s n s n s n =-+-+-

,模型增益1G =,求该语音信号的线性预测谱表达式。p59

解:

1()

()()

()

1p

i

i i S z G G

H z E z A z a z -==

==

-∑ 2311

()10.90.40.11j p

j j j j i

i i G H e e e e a e

ωω

ωω

ω----==

=

----∑

第四章 矢量量化技术

1.根据量化的值的维数的不同,量化可分为标量量化和矢量量化。

2.矢量量化常用的失真测度有:欧式距离测度、加权欧式距离测度、Itakura-Saito 距离、似然比测度和识别失真测度。

3. 训练矢量量化码本时,初始码本的生成可采用随机选取法、分裂法、链映射法等。

3.矢量量化LBG 算法每次迭代时将训练集分割为若干个子集所依据的是(1): 1.最邻近准则;

2. Centroid 质心条件;

3.收敛准则;

4.熵极大化准则;

3.矢量量化LBG 算法每次迭代时计算新码字所依据的是(2): 1.最邻近准则;

2. Centroid 质心条件;

3.收敛准则;

4.熵极大化准则;

第五章 隐马尔可夫模型

1.HMM 是一个双内嵌式随机过程。

2.HMM 的输出符号序列可见,而状态序列不可见。

3.下图是一个三状态HMM ,S 1是起始状态,S 3是终了状态,该HMM 只能输出a 和b 两种符号,由下图的Viterbi 算法可知输出aab 的最佳路径为S 1->S 1->S 2->S 3

3.对于语音识别用HMM ,可用六个参数{},,,,,M S O A B F π=来定义,这六个参数分别表示什么?

S 是模型中状态的有限集合;O 是输出的观测值序号的集合;A 是状态转移概率的集合;B 是输出观测值概率的集合;pai 是系统初始状态概率的集合;F 是终了状态的集合。

1.从左到右型HMM (即状态的转移只能从左到右或者停留在原状态,不能返回到以前的状态)的状态转移矩阵具有何种形式?(1) 1.上三角矩阵;

2.下三角矩阵;

3.对称矩阵;

4.非奇异矩阵;

2.针对给定的HMM 模型,寻找与给定观察字符序列对应的最佳状态序列可采用(3) 1.前向算法; 2.后向算法;

3.Viterbi 算法;

4.Baum-Welch 算法

训练HMM 模型采用(4) 1.前向算法; 2.后向算法; 3.Viterbi 算法;

4.Baum-Welch 算法;

下图是一个三状态HMM ,S 1是起始状态,S 3是终了状态,该HMM 只能输出a 和b 两种符号,试求解:(参考P98)

1.该HMM 的转移概率矩阵A ;

2.从S 1出发到S 3截止,输出符号序列abb 的概率;

3.最大可能的状态序列;

第七章语音编码

1.语音编码(Speech Coding)的目的是在保证语音质量和可懂度的条件下,采用尽可能少的比特数来表示语音。即降低数码率。

2.信源编码主要解决有效性问题;信道编码主要解决可靠性问题。

3.语音编码通常分为三类:波形编码、参数编码与混合编码。

4.波形编码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点,缺点是编码速率高。

5.参数编码又称声码器技术,从听觉感知的角度注重语音的重现,通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配。优点是编码速率低;缺点是语音质量差,自然度低,对环境噪声敏感。

6.若普通电话通信中采用8kHz采样,并进行12bit量化,则数码率为96Kbit/s。

7.对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。

8.人的听觉生理和心理特性对于语音感知的影响主要表现在:1)人类听觉系统具有掩蔽效应;2)人耳对不同频段声音的敏感程度不同;3)人耳对语音信号的相位变化不敏感。

9.感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d1

10.均匀量化的特点是:大信号时量化信噪比大,小信号时量化信噪比小。

10.在增量调制(DM)中,语音信号波形发生急剧变化时,容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象,称为斜率过载。p150d3

11.利用参数编码实现语音通信的设备通常称为声码器。p161d3

12.LPC声码器采用的编码方式为参数编码(波形编码/参数编码)。

7语音信号中存在多种冗余度是语音信号可进行压缩的重要依据,下列选项中(4 )属于频域冗余度

(1)语音信号幅度非均匀分布性

(2)语音信号样本间的强相关性

(3)浊音语音段具有的准周期性

(4)非均匀的长时功率谱密度

9.下列选项中,()不属于波形编码方式

(1)PCM

(2)APCM

(3)DM

(4)LPC声码器

8.语音中最基本的元素是音素,设语音的音素共有128个,并假设通常的说话速度为每秒平均发出10个音素,请从信息论角度计算语音信号压缩编码的极限码率。p136

11.一帧典型的LPC参数包括1bit清浊音信息、5bit增益常数、6bit基因周期、每个LPC系数6bit,共8个LPC系数,如果一帧时长20ms,请计算该LPC声码器的码率。p162

解:(1+5+6+6*8)/0.02=3000bit/s

第八章语音合成

共振峰合成法属于(3 )

1.波形合成法;

2.LPC合成法;

3.参数合成法;

4.规则合成法;

第九章语音识别

1.语音识别从所识别的对象来分,可分为:(1)孤立词语音识别系统:(2)连接词语音识别系统;(3)连续语音识别系统;(4)语音理解;(5)会话识别。

2.语音识别按词汇量来分,可分为:小词汇量、中词汇量、大词汇量语音识别系统。

3.语音识别从讲话人范围来分,可分为单个特定讲话人识别系统、多讲话人、与讲话者无关。

4.以下是一个矢量序列与模板的距离参数,输入适量长度为4,模板长度为5,利用DTW原理计算最佳路径

数字音频作业及其答案精品资料

数字音频作业及其答 案

第一次作业: 1:、声音可分为两种:纯音和复合音,平常人们说话的声音属于哪一种?语音的频率范围是多少?音频通常包括哪几种声音信号?其频率范围是多少? 2、请说明音频信号数字化的三个步骤? 3、如何理解“量化是信号数字化过程中重要的一步,而这一过程又是引入噪声的主要根源”这句话的含义?通过哪些途径可以减小量化误差? 4对双极性信号若采用均匀量化,则量化信噪比SNR与量化比特数之间的关系为:SNR=6.02xN+1.76dB,试分析此式对实际量化与编码的指导意义? 5:、A/D、D/A转换器的技术指标有哪些? 答:1:人们说话的声音为复合音,语言的频率范围为300HZ-3000HZ。音频暴多语音、音乐、效果声等声音信号,频率范围为20HZ-20KHZ。 2:1取样:对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。2量化:取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信号的电平,可以有256种,但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等,此时只能用最接近的数字代码表

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

数字音频技术期末考试试卷

《数字音视频技术》期末考试试卷 一.选择(每题2分,共20分) 1.可闻声的频率范围() A.20~2000Hz B.200~20000Hz C.20~20000Hz D.200~2000Hz 2.下面哪一种相加混色产生的色彩是错误的() A.红色+绿色=黄色 B.红色+蓝色=橙色 C.蓝色+绿色=青色 D.红色+绿色+蓝色=白色。 3.不是数字图像的格式的是() A.JPG B. GIF C. TIFF D. WAVE 4.在音频数字化的过程中,对模拟语音信号处理的步骤依次为()A.抽样编码量化 B. 量化抽样编码 C. 抽样量化编码 D. 量化编码抽样 5.将声音转变为数字化信息,又将数字化信息变换为声音的设备是() A.声卡B.音响 C. 音箱D.PCI卡 6.不属于国际上常用的视频制式的是() A.PAL制 B.NTSC制C.SECAM制D.MPEG 7.数字音频采样和量化过程所用的主要硬件是() A.数字编码器 B.数字解码器 C.模拟到数字的转换器(A/D转换器) D.数字到模拟的转换器(D/A转换器) 8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫() A.多媒体技术B.流媒体技术 C.云技术D.动态处理技术

9.影响声音质量的因素不包括() A.声道数目B.采样频率 C.量化位数D.存储介质 10.我们常用的VCD,DVD采用的视频压缩编码国际标准是()A.MPEG B.PLA C.NTSC D.JPEG 二.填空(每空2分,共30分) 1.音质三要素:、和。 2.色彩三要素:、和。 3.混色的方法有:和。 4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。 5.色彩模型中的三基色原理是指利用、和三种色光混合,可以产生各种色彩。 三.简答题(每题10分,共50分) 1.常见数字音频文件格式有哪些? 2. 常见数字视频文件格式有哪些? 3.什么是5.1声道环绕立体声?

数字图像处理试题集29435

第一章引言 一.填空题 1. 数字图像是用一个数字阵列来表示的图像。数字阵列中的每个数字,表示数字图像的一个最小单位,称为___________________ 。 2. 数字图像处理可以理解为两个方面的操作:一是从图像到图像的处理,如图像增强等; 二是____________________ ,如图像测量等。 3. 数字图像处理可以理解为两个方面的操作:一是 ______________________ ,如图像增强等; 二是从图像到非图像的一种表示,如图像测量等。 4. 图像可以分为物理图像和虚拟图像两种。其中,采用数学的方法,将由概念形成的物体进行表示的图像是__________________________ 。 5. 数字图像处理包含很多方面的研究内容。其中, ____________________ 的目的是根据二维平面图像数据构造出三维物体的图像。 解答: 1. 像素 2. 从图像到非图像的一种表示 3. 从图像到图像的处理 4. 虚拟图像 5. 图像重建 四.简答题 1. 数字图像处理的主要研究内容包含很多方面,请列出并简述其中的4 种。 2. 什么是图像识别与理解? 3. 简述数字图像处理的至少3 种主要研究内容。 4. 简述数字图像处理的至少4 种应用。 5. 简述图像几何变换与图像变换的区别。 解答: 1. ①图像数字化:将一幅图像以数字的形式表示。主要包括采样和量化两个过程。②图像增强:将一幅图像中的有用信息进行增强,同时对其无用信息进行抑制,提高图 像的可观察性。③图像的几何变换:改变图像的大小或形状。④图像变换:通过数学映射的方法,将空域的图像信息转换到频域、时频域等空间上进行分析。⑤图像识别与理解:通过对图像中各种不同的物体特征进行定量化描述后,将其所期望获得的目标物进行提取,并且对所提取的目标物进行一定的定量分析。 2. 图像识别与理解是指通过对图像中各种不同的物体特征进行定量化描述后,将其所期望获得的目标物进行提取,并且对所提取的目标物进行一定的定量分析。比如要从一幅照片上确定是否包含某个犯罪分子的人脸信息,就需要先将照片上的人脸检测出来,进而将检测出来的人脸区域进行分析,确定其是否是该犯罪分子。 3. ①图像数字化:将一幅图像以数字的形式表示。主要包括采样和量化两个过程。②图像增强:将一幅图像中的有用信息进行增强,同时对其无用信息进行抑制,提高图 像的可观察性。③图像的几何变换:改变图像的大小或形状。④图像变换:通过数学映射的方法,将空域的图像信息转换到频域、时频域等空间上进行分析。 4. ①在遥感中,比如土地测绘、气象监测、资源调查、环境污染监测等方面。 ②在医学中,比如B超、CT机等方面。 ③在通信中,比如可视电话、会议电视、传真等方面。 ④在工业生产的质量检测中,比如对食品包装出厂前的质量检查、对机械制品质量的监控和筛选等方面。⑤在安全保障、公安方面,比如出入口控制、指纹档案、交通管理等。 5. ①图像的几何变换:改变图像的大小或形状。比如图像的平移、旋转、放大、缩小等,这些方法在图像配准中使用较多。 ②图像变换:通过数学映射的方法,将空域的图像信息转换到频域、时频域等空间上进行分析。比如傅里叶变换、小波变换等。

数字音视频处理

实验报告 课程名称数字音视频原理 实验题目MATLAB音频文件处理 专业电子信息工程 班级3班 学号09080323 学生姓名王志愿 实验成绩 指导教师吴娱 2012年3月 一、实验目的 1、掌握录制语音信号的基本过程; 2、掌握MATLAB编程对语音信号进行简单处理的方法并分析结果。 二、实验要求

上机完成实验题目,独立完成实验报告。 三、实验内容 1、问题的提出:数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢? 信号是传递信息的函数。离散时间信号(序列)——可以用图形来表示。 按信号特点的不同,信号可表示成一个或几个独立变量的函数。例如,图像信号就是空间位置(二元变量)的亮度函数。一维变量可以是时间,也可以是其他参量,习惯上将其看成时间。信号有以下几种: (1)连续时间信号:在连续时间范围内定义的信号,但信号的幅值可以是连续数值,也可以是离散数值。当幅值为连续这一特点情况下又常称为模拟信号。实际上连续时间信号与模拟信号常常通用,用以说明同一信号。 (2)离散时间信号:时间为离散变量的信号,即独立变量时间被量化了。而幅度仍是连续变化的。 (3)数字信号:时间离散而幅度量化的信号。 语音信号是基于时间轴上的一维数字信号,在这里主要是对语音信号进行频域上的分析。在信号分析中,频域往往包含了更多的信息。对于频域来说,大概有8种波形可以让我们分析:矩形方波,锯齿波,梯形波,临界阻尼指数脉冲波形,三角波,余弦波,余弦平方波,高斯波。对于各种波形,我们都可以用一种方法来分析,就是傅立叶变换:将时域的波形转化到频域来分析。 2、设计方案: 首先要对声音信号进行采集,Windows自带的录音机程序可驱动声卡来采集语音信号,并能保存成.WAV格式文件,供MATLAB相关函数直接读取、写入或播放。 利用MATLAB中的wavread命令来读入(采集)语音信号,将它赋值给某一向量。再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波。对于波形图与频谱图(包括滤波前后的对比图)都可以用MATLAB画出。我们还可以通过sound/wavplay命令来对语音信号进行回放,以便在听觉上来感受声音的变化。 3、主体部分: (1)语音的录入与打开: [x,fs,bits]=wavread('d:\1.wav');%用于读取语音,采样值放在向量x中,fs 表示采样频率(Hz),bits表示量化位数。

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

数字语音处理思考题

《数字语音处理》复习思考题 电信0904-06 1.什么叫做语音?什么叫做语言? 2.语音的声学特征中包括的物理属性有哪些? 3.数字语音处理的概念?数字语音处理的学科基础是什么?数字语音处理研究涉及哪些相 关学科? 4.语音信号的数字表示方法有哪两种? 5.数字语音处理应用包括哪些技术? 6.常用语音文件格式有哪些?语音文件的参数主要包括哪些?简要分析取样精度的高低的 影响。 7.常用语音编辑软件有哪些?怎样制作你自己演唱的MP3歌曲? 8.基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种?各种模型的特点? 9.语音的构成包括哪些?语音发音的最小单位是什么? 10.人说话的过程可分为哪五个阶段? 11.人的言语过程与哪些因素有关? 12.人类的发音器官包括哪些部分?在发音时各部分都起什么作用?音调频率由什么因素决 定?发声时声道是如何活动的? 13.汉语语音的特点有哪些? 14.声道由哪几个部分组成? 15.掌握发声机理框图,简要解释语音的形成过程。 16.什么是听觉掩蔽效应?简述人类听觉功能的掩蔽效应。 17.人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么 启示? 18.什么是共振峰频率? 19.舌位的前后高低与元音共振特性有哪些联系? 20.什么是音调周期(或基音周期)?什么是基音频率(或基频)? 21.理解语音信号产生的数字模型及模型组成。 22.语音信号的数字模型包含哪些子模型?激励模型与辐射模型分别属于什么性质滤波器? 23.语音产生的数字模型中的声道子模型有两种建模方法,它们是哪些? 24.根据分析参数(分析域)的不同,语音信号分析可分为哪些方法?

数字信号处理作业DOC

成绩: 《数字信号处理》作业与上机实验 (第三四章) 班级: 13-电信 学号: 姓名: 任课老师:李宏民 完成时间: 15.11.08 信息与通信工程学院 2015—2016学年第1学期

第3-4章 离散傅里叶变换及快速算法与应用 一、实验内容及要求: 1、对信号在x(n)={1,2,3,4,5,6,7,8},n=0,1,2....7,求其N=8点的DFT 。要求采用基于时间抽取算法编写FFT 实现程序,画出DFT 幅度谱与相位谱,并将计算结果与用MATLAB 自带的FFT 函数计算结果进行比较。 2、一个由40Hz 和100 Hz 正弦信号构成的信号,受零均值随机噪声的干扰(噪声服从标准正态分布,由randn 函数产生,n(t)= randn(m,n) 返回一个m*n 的随机矩阵),即()sin(2100)sin(240)()s t t t n t ππ=++g g 。数据 采样率为500Hz ,试用FFT 函数来分析其信号频率成分。 ① 求其幅度频谱,从频谱图(横坐标以HZ 为单位,用plot 函数画图)中能否观察出信号的2个频率分量? ② 提高采样点数,再求该信号的幅度频谱图,此时幅度频谱发生了什么变化?信号的2个模拟频率和数字频率各为多少?FFT 频谱分析结果与理论上是否一致? 3、研究高密度频谱与高分辨率频谱。频率分辨率是指所用的算法能将信号中两个靠得很近的谱峰分开的能力。信号末尾补零由于没有对原信号增加任何新的信息,因此不能提高频率分辨率,但可以减小栅栏效应,所得到的频谱称为高密度频谱。在维持采样频率不变的情况下,为提高分辨率只能增加采样点数N ,此时所得到的频谱称为高分辨率频谱。设有连续信号 ) 1092cos()1072cos()105.62cos()(333t t t t x a ??π+??π+??π=

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

数字语音处理(精华版)

1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。 3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。 为周期性斜三角脉冲。清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。 4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。 掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。 5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。 6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。 7·语音生成系统的传递函数: ) ( )z( ) ( ) (z R V z G z H= 8·模型局限性及解决办法: 声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。9·预加重含义:加入一阶高通滤波器。10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为: z1 1 H(z)- - =α的一阶FIR高通数字滤波器来实现预加重。 12·短时平均能量主要用途: 1)可以作为区分浊音和清音的特征参 数2)在信噪比较高的情况下短时能量 还可以作为区分有声和无声的依据3) 可以作为辅助的特征参数用于语音识 别中。 13常用的窗有两种:一种是矩形窗, 窗函数如下: ? ? ?- ≤ ≤ = 其他 ,0 1 ,1 ) ( N n n ω 可简化为: ∑ - - = - - = n N n m n m x m x z )1 ( |)] 1 ( sgn[ )] ( sgn[ | 2 1 π 另一种是汉明窗,窗函数: ? ? ?≤ ≤ - - = 其他 ,0 )] 1 /( 2[ cos 46 .0 54 .0N n N nπ ω 14·过零率:单位时间内过零的次数。 浊音:过零率低能量高,清音:过零率 高能量高。 15·端点检测目的:从包含语音的一段 信号中确定出语音的起点及结束点。 16·自相关函数: 时域离散确定信号: ∑+∞ -∞ = + = m k m x M x) ( ) ( ) R(k 时域离散随机信号: ∑ - = + + = N N m k m x m x N ) ( ) ( 1 2 1 ) R(k 自相关函数性质:1)对称性: R(K)=R(-K)2)在K=0处为最大值, 即对于所有K来说 )0( |) ( |R K R≤3)对于确定信 号,R(0)对应于能量对于随机信号R (0)对应于平均功率。 17·浊音和清音的短时自相关函数有以 下特点:1)短时自相关函数可以很明显 的反映出浊音信号的周期性 2)清音的短时自相关函数没有周期性, 也不具有明显突出的峰值,其性质类似 于噪声。3)不同的窗对短时自相关函 数结果有一定影响。 18·短时自相关函数(求峰值)两个峰 值之间的距离为周期。短时平均幅度差 函数(求谷值)两个谷值之间的距离为 周期。 19·采用双限门比较的两极判决法:第 一级判决:1)先根据语音短时能量的轮 廓选取一个较高的门限T1进行一次粗 判:语音起止点位于该门限与短时能量 包络交点所对应的时间间隔之外。 2)根据背景噪声的平均能量确定一个 较低的门限T2,并从A点往左、从B 点往右搜索,分别找到短时能量包络与 门限T2相交的两个点C和D,于是CD 段就是双门限方法根据短时能量所判 定的语音段。第二级判决: 以短时平均过零率为标准,从C点往左 和D点往右搜索,找到短时平均过零 率低于某个门限T3的两点E和F,这 便是语音段的起止点。门限T3是由背 景噪声的平均过零率所确定的。 20·当n固定时,它们就是序列 ) ) (m x( m - n ω的傅里叶变 换或离散傅里叶变换。当ω或K固定 时,它们就是一个卷积,相当于滤波器 的运算。 21·基音周期估值的两种方法:第一种 方法:先对语音信号进行低通滤波,在 进行自相关计算。第二种方法,先对语 音信号进行中心削波处理,在进行自相 关计算。 判别基音周期的方法:1·短时自相关 函数法。2·短时平均幅度差函数。 22·线性预测编码就是利用过去的样值 对新样值进行预测,然后将样值的实际 值与预测值相减,得到一个误差信号, 显然误差信号的动态范围远小于原始 语音信号的动态范围,对误差信号的进 行量化编码,可大大减少量化所需的比 特数,使编码速率降低。

多媒体音频视频处理大作业范文

实验三:音频处理技术 实验目的:学会使用“超级解霸”的音频播放器实现简单的音频处理。 学会使用“超级解霸”的音频格式转换功能,完成几个文件的转换工作 实验内容:一、用音频解霸将影碟中的伴音单独分离出来存为W A VE格式文件 二、实现声音片段的任意截取并保存为MP3格式 三、将W A VE格式文件转换为MP3格式、将MP3格式转换为W A VE格式 四、将CD碟中的歌曲转换成MP3格式 实验要求:完成一个声音片段的转换 实验步骤: 一、将影碟中的伴音单独分离出 打开“超级解霸”中的声音播放器“音频解霸”其界面如下: 通过下拉菜单:文件/打开一个(多个)文件可以进入“打开文件”窗口在这里找到要打开的影音文件。

点击“打开”按钮后返回播放界面,这时只要点击播放按钮就可以实现当前影音文件的声音播放。由于在VCD影碟上的歌曲和音乐都是采用MPEG格式压缩当我们要使用 WA VE格式的时候就要进行转换,能实现这种功能的软件很多,如果是要转换的文件不多的情况下用直接用“音频解霸”来转换还是很方便的。 操作过程是这样的先找到要转换的开始点然后点击“波形录音”按钮就可以进入到保存波形文件对话框,选择好保存路径、输入保存文件名,点击“保存”按钮就可以开始转换 保存。当声音播放到需要结束的位置时点击“停止”按钮就完成了文件转换工作。二、实现声音片段的任意截取并保存为MP3格式 点击播放模式转换钮将“音频解霸”播放模式转换为“循环/选择录取区域”模式,此时该按钮旁边的设定“开始点”、“结束点”、“压缩录音”按钮变 为有效。移动播放器在时间轴上的滑块分别设定开始点和结束点然后点击“压 缩录音”按钮,进入保存对话框输入保存的文件名,就可以按照设定将选取的区域转换为MP3格式的声音文件。 三将W AVE格式文件转换成MP3格式 将W A VE格式文件转换成MP3格式或者将MP3转换成W A VE格式的软件有很多,我们这里用“超级解霸”中的附带功能就可以很方便的实现。 实验步骤: 少量的文件转换时可以采用实验二中介绍的方法,但是如果要转换的文件很多再用这种方法就太慢了,我们可以使用“超级解霸”软件包内里的音频工具“MP3格式转换器“来实现,其界面如下:

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题 一、填空题:(共7小题,每空2分,共20分) A卷 1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。 二、判断题:(共3小题,每小题2分,共6分) 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么? 2、隐马尔可夫模型的特点是什么? 3、矢量量化器的所谓最佳码本设计是指什么? 4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。 5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。 六、计算题:(共1小题,每小题6分,共6分) 1、已知一个简单的三状态HMM模型的图形,如图一所示。求该HMM模型输出aab的概率为多少?(要有求解过程,无计算过程不得分)

数字语音处理_作业

说明:平时作业写在作业本上,注意每次作业之间保持一定空白间距。期末随堂考试写在打印纸上。记得抄题目。最后成绩按作业质量与出勤率评定。谢谢合作! 第1次作业(第1章) 1.语音信号处理的目的是什么? 2.语音信息的交换大致可以分为哪三类? 3.语音信号处理的三个主要分支是什么? 4.画出语音处理过程的结构框图。 第2次作业(第2章) 1.人的发声器官由哪3部分组成? 2.浊音和清音的发声机理是什么? 3.画出语音信号产生的二元激励模型。 第3次作业(第3章) 1.语音信号时域分析提取的特征参数主要有哪些? 2.对语音信号进行预加重的目的是什么?实现预加重的数字滤波器的传递函数是什么? 3.什么是语音信号的短时平稳性?用图和公式说明语音信号的分帧加窗过程。 4.短时平均能量的定义式?窗长对短时平均能量计算的影响?短时平均能量的主要用 途? 5.短时平均过零率的定义式?短时平均过零率的用途? 第4次作业(第3章) 1.短时自相关函数及其修正型的定义式?对比浊音和清音的短时自相关函数特点。 2.什么叫端点检测?阐述利用能量和过零率进行语音端点检测的两级判决法的实现步骤。 3.基于短时自相关法的基音周期估值中,常用的两种削波函数公式是什么?

第5次作业(第4章) 1.写出一帧语音信号的短时傅里叶变换公式()j X eω。观察矩形窗和汉明窗两种窗函数下 n 的短时频谱图有哪些特点?关于短时谱和移动窗可以得出哪些结论? 2.画出滤波器组相加法实现短时综合的程序流程图。画出短时综合叠接相加法实现流程图。 第6次作业(第5章) 1.什么叫卷积同态系统?写出信号() x n复倒谱和倒谱的定义式。 2.给出倒谱法求基音周期的实现框图。 第7次作业 1.语音编码的目的是什么?按编码方式可分为三种,它们各自特点是什么?(第8章) 2.阐述语音合成的三种方法,并予以比较。(第9章) 3.语音识别系统的分类?语音识别系统的典型组成框图。(第10章) 期末随堂考试 1.语音信号处理主要研究哪几方面的内容? 2.语音信号的清/浊音有什么区别?清/浊音的AMDF有什么区别? 3.解释端点检测、基音、共振峰、语谱图 4.短时分析如何“分帧”?画图表示帧长、帧移。 5.简述时间窗长与频率分辨率的关系。 6.简述中心削波自相关法基音检测的原理及优点。为什么要进行后处理?如何后处理? 7.论述共振峰合成的原理及其在语音合成中的应用。 8.简述同态信号处理在共振峰估计中的作用。 9.语音识别的目的是什么?如何分类?有哪些方法? 10.列举5 种语音信号处理应用技术或产品。简述其工作原理?

通信中的语音信号处理复习大纲

《通信中的语音信号处理》复习大纲 北科大版 1、了解语音信号处理的目的、实质和发展历史; 实质:是研究用数字信号处理技术对语音信号进行处理的一门学科 目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算以达到某种要求。 发展历史:1876年电话的发明,贝尔(Bell); 1939年声码器的研制成功—声源+声道; 1947年贝尔实验室发明语谱图仪—语音识别研究的开始; 50年代第一台口授打字机和英语单词语音识别器; 60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器; 70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别; 80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。 CMU语音组研制成功SPHINX系统(997,95.8%); 国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。 (除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。) 2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率; 1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容, 有用信息更易于被提取; 2. 语音信号数字表示的优点: 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。 3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章) 语音信号的特点—短时平稳性 4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算 短时频域分析—短时傅立叶分析 线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数 倒谱和同态分析、矢量量化和隐马尔可夫模型 5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps ADPCM:采样率:8khz速率:32kbps 3、理解语音信号的产生过程、发生机理和语音信号的声学特性; 产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应 发生机理: 声学特性:频率:与音高有关;振幅:与响度有关。 4、理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法; 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。 共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

数字语音处理课程实验报告

数字语音处理课程报告

语音信号的采集与分析 摘要 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。 关键词:语音信号,采集与分析,时域,频域 0 引言 通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。 语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数字

语音信号处理复习纲要

Ch1 绪论 §1.1 语音信号处理概述 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。 二、语音处理技术的应用领域 语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。 三、语音信号采用数字处理的原因(数字语音的优点) 语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点: 1、数字技术能够完成许多很复杂的信号处理工作; 2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理; 3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务; 4、数字语音适合在强干扰信道中传输,也易于加密传输。 四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §1.2 语音信号处理的发展概况 一、语音信号处理的发展史 1、1874年:电话的发明时现代语音通信的开端; 2、1939年:通道声码器技术; 3、40年代后期:语谱仪; 4、50年代初:第一台口授打字机和英语单词语音识别器; 5、60年代:Fant发表《语音产生的声学理论》; 6、70年代初:Flanagan著作《语音分析、合成和感知》; 7、90年代以来:语音识别的研究由实验室走向实用化。 二、语音编码、语音合成、语音识别名词解释 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。 3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。 为了实现人机语音通信,必须具备语音识别和语音理解两种功能 Ch2 基础知识 §2.2 语音产生的过程 一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。 二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课) 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。 2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。 3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

相关主题
文本预览
相关文档 最新文档