当前位置：文档之家› 语音信号处理复习资料

语音信号处理复习资料

盛年不重来，一日难再晨。及时宜自勉，岁月不待人。

8 预加重和去加重的理解

7 线性预测编码特点和定义

5 隐马尔可夫差数特点计算

以上三题没有

老师画的其他的重点为红色标记的（注意：仅供参考）

一、语音、语音信号处理的名词解释

1、语音：是语言的声学表现，是声音和意义的结合体，是相互传递信息的重要手段，是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理：是研究用数字信号处理技术对语音信号进行处理的一门学科，它是一门新兴的学科，同时又是综合性的多学科领域和涉及很广的交叉学科。它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。

二、语音学的名词解释

语音学：是研究言语过程的一门科学，它包括三个研究内容：发音器官在发音过程中的运动和语音的音位特性；语音的物理特性；以及听觉和语言感知。

§1.2 语音信号处理的发展概况

1、语音编码：语音编码技术是伴随着语音信号的数字化而产生的，目前主要应用在数字语音通信领域。

2、语音合成：语音合成的目的是使计算机能像人一样说话。

3、语音识别：语音识别是使计算机判断出所说的话得内容。

§2.2 语音产生的过程

一、语音、清音、浊音

1、语音：声音是一种波，能被人耳听到，振动频率在20Hz-20kHz之间。语音是声音的一种，它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。

2、浊音、清音：语音由声带振动或不经声带振动来产生，其中由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音，清音包括另一部分辅音。

二、语音的产生过程：空气从肺部排出形成气流。空气通过声带时，如果声带是紧绷的，则声带将产生张弛振动，即声带周期性地开启和闭合。声带开启时，空气流从声门喷射出来，形成一个脉冲；声带闭合时相应于脉冲序列的间歇期。

语言交际：通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。这个过程包括：发音-传递-感知。因此现代语音的三个分支：发音语言学、声学语言学、听觉语言学。

三、基音周期、基音频率

基音周期：声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率：基音周期的倒数称为基音频率，简称为基频。

四、浊音、清音、爆破音的激励源

对于浊音、清音和爆破音来说，激励源是不同的，浊音语音是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流，而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

五、共振峰的概念（参见大纲）

1、共振峰名词解释：声道是一个分布参数系统，它是一个谐振腔，有许多谐振频率，

称为共振峰，它是声道的重要声学特征。

2、共振峰的公式：Fn=(2n-1)c/4L（会运用公式进行计算，填空、选择）

3、谐振点间的间隔不同，但平均仍然大约为每1KHz有一个谐振点。

4、声道的共振峰特性决定所发声音的频谱特性（音色）。

5、头三个共振峰最重要。

§2.3 语音信号的特性

一、语音的物理属性（集中备课）

语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波，具有声音的物理属性。音质是一种声音区别于其他声音的基本特征；音调指声音的高低，取决于声波的频率：频率高则音调高，频率低则音调低；响度是指声音的强弱，又称音量，它是由声波震动幅度决定的；声音的长短也称音长，它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系（集中备课）

（1）音素是语音的最小、最基本的组成单位，音素都有其独立的各不相同的发音方法和发音部位，它是使听者能区别一个单词和另一个单词的声音的基础。

（2）音节是最小的语言片段，一个音节由一个或几个音素组成。

（3）单词是由音节结合而成的更大单位，是有意义的语言的最小单位。

（4）句子是单词的进一步组合。

三、汉语的特点是：音素少、音节少。

汉语中的音节即字音由声母、韵母和声调按一定方式构成，即声、韵、调三个因素构成。

四、语音频谱特性其中虚线称为谱包络，其形状是由H(f)和G(f)的包络乘积得到的。

五、清音和浊音的频谱特性

清音和浊音的波形有很大的不同。清音的波形类似于白噪声，具有很弱的振幅；元音（浊音）具有明显的准周期性，并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期，还可以大致看出其频谱特性。

§2.4 语音信号产生的数学模型

一、语音信号的数字模型（集中备课）

1、语音信号数字模型的概念：语音信号被看成是线性时不变系统（声道）在随机噪声或准调周期脉冲序列激励下的输出。

2、语音信号的产生模型P16（重点注意）

二、发不同性质的音时，激励的情况是不同的，大致分为两类：（1）发浊音时，此时气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串。声带绷紧的程度不同时，振动频率也不同，这个频率就是音调频率，其倒数为音调周期。不同人的音调周期是不同的，男子大，女子小，老人大，小孩低。（2）发清音时，此时声带松弛而不振动，气流通过声门直接进入声道。

三、语音信号数字模型的组成等（集中备课）

1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

四、语音信号数字模型的框图：P21 图2-18

图中，清/浊音开关模拟了加在声道上的激励的改变情况：当开关接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定；当开关接在清音位置时，激励源是随机噪声发生器。

§2.5 语音感知

一、人耳能听到的声音，频率范围在16Hz-16kHz之间，年轻人的上限可以延伸至20kHz，老年人则衰退到10kHz。

声音的三要素：响度、音调和音色。任何声音的都可以用声强的三个物理量表示：幅度、频率、相位。

1、响度：响度是人耳对声音强弱程度的主观反应，响度取决于声音的幅度，主要是声压的函数，但和频率和波形也有关，单位是宋（sone）。人耳对3000－4000Hz的声音感觉最灵敏。

2、音调：也称音高，是一种主观心理量，是人耳对声音频率高低的感受，即与声音的频率有关。音调与声音频率是近似的对数关系，单位是美（mel）。

3、音色：也叫音质，反映了声音属性。人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

三、听觉掩蔽：人类听觉中存在一种现象，即两个音同时存在时，一个声音有可能受到另一个声音的干扰或压制，即一个音被另一音掩盖，这称为听觉掩蔽。

Ch3 时域分析

§3.1 概述

一、为什么时域分析要采用短时分析技术

1、短时分析技术的基本概念：语音信号是一种随时间而变化的信号，可能是浊音激励也可能是清音激励，浊音的基音周期以及信号幅度等语音特性也都随时间变化，但这种变化是缓慢的，在一小段短时间内10-30ms，语音信号近似不变。于是，我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性，这种方法称为“短时”处理方法。