语音信号处理复习资料要点
- 格式:ppt
- 大小:931.50 KB
- 文档页数:75
语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。
它的倒数称为基频。
2 、音色:也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。
基频值越大,反映出的音高越高。
4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
5、音长:声音的长短,取决于发音持续时间的长短。
6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。
一样的音强,不一样的频率,则响度也会有所不同。
7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。
可以分为同时掩蔽和异外时掩蔽。
8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。
频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。
掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理期末复习题语音信号处理期末复习题语音信号处理是一门研究语音信号的产生、传输、处理和识别的学科。
它广泛应用于语音识别、语音合成、语音增强等领域。
在本文中,我们将回顾一些与语音信号处理相关的重要概念和技术。
一、语音信号的产生和特征提取语音信号是由人的声带振动引起的空气压力变化所产生的。
在语音信号处理中,我们通常使用基频、共振峰和声强等特征来描述语音信号。
1. 基频是指声音中最低频率的周期性振动。
它与人的声带振动频率相关,可以用来区分不同的语音音调。
2. 共振峰是指声音中频率响应最大的频率。
它与声道的共振特性相关,可以用来区分不同的语音音色。
3. 声强是指声音的能量大小。
它与声音的响度相关,可以用来区分不同的语音强度。
为了提取语音信号的特征,我们可以使用时域分析和频域分析等方法。
时域分析可以通过计算语音信号的短时能量和过零率等参数来描述语音信号的时域特征。
频域分析可以通过计算语音信号的功率谱和倒谱等参数来描述语音信号的频域特征。
二、语音信号的传输和编码在语音信号处理中,为了实现语音信号的传输和存储,我们需要对语音信号进行编码。
编码可以将连续的语音信号转换为离散的数字信号,以便于传输和处理。
1. 量化是指将连续的语音信号转换为离散的数字信号。
在量化过程中,我们需要选择合适的量化步长和量化级数,以平衡信号的保真度和数据的压缩率。
2. 编码是指将离散的数字信号表示为二进制码。
在编码过程中,我们可以使用不同的编码算法,如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等。
为了提高语音信号的传输效率,我们还可以使用压缩算法对语音信号进行压缩。
压缩算法可以分为有损压缩和无损压缩两种。
有损压缩可以通过去除语音信号中的冗余信息来减少数据量,但会引入一定的失真。
无损压缩可以通过使用编码算法来减少数据量,但不会引入失真。
三、语音信号的处理和识别在语音信号处理中,我们可以使用滤波器、时域变换和频域变换等技术来对语音信号进行处理和分析。
语音信号处理复习纲要一、引言语音信号处理是一门研究如何对语音信号进行分析、合成、增强和识别的学科。
它在语音通信、语音识别和语音合成等领域有着广泛的应用。
本文将对语音信号处理的基本概念、技术和方法进行复习总结,以帮助读者加深对该领域的理解和掌握。
二、语音信号的基本特性1. 语音信号的产生机制:人类通过声带、喉咙、口腔和鼻腔等器官产生声音,形成语音信号。
2. 语音信号的基本特性:语音信号是一种时变信号,具有频率、幅度和相位等特性。
3. 语音信号的时域和频域表示:语音信号可以通过时域波形和频域谱图来表示。
三、语音信号的预处理1. 语音信号的采样和量化:将连续的语音信号转换为离散的数字信号。
2. 语音信号的预加重:通过预加重滤波器强调高频成分,提高语音信号的信噪比。
3. 语音信号的分帧:将语音信号分成若干帧,以便对每一帧进行进一步处理。
四、语音信号的特征提取1. 短时能量和过零率:用于表示语音信号的能量和过零点的数量。
2. 基频和共振峰:用于表示语音信号的基频和共振峰的频率和幅度。
3. 线性预测编码(LPC):通过线性预测模型来提取语音信号的特征。
4. 倒谱系数:通过倒谱分析来提取语音信号的特征。
五、语音信号的增强和降噪1. 语音增强的方法:包括谱减法、频率平滑法和Wiener滤波法等。
2. 语音降噪的方法:包括时域滤波法、频域滤波法和小波变换法等。
六、语音信号的合成1. 线性预测编码(LPC)合成:通过LPC模型来合成语音信号。
2. 基频和共振峰合成:通过基频和共振峰来合成语音信号。
七、语音信号的识别1. 语音特征匹配:将语音信号的特征与已知模板进行匹配,以实现语音识别。
2. 隐马尔可夫模型(HMM):通过HMM来建模语音信号,实现更准确的语音识别。
八、语音信号处理的应用1. 语音通信:包括语音编码、语音解码和语音传输等。
2. 语音识别:包括语音指令识别、语音转文字等。
3. 语音合成:包括文本转语音、语音合成等。
考试时间:6月21日下午1:30-3:20考试地点:七(1、3、5班)、六阶(2、4及重修)《数字语音处理及Matlab仿真》1.语音信号短时分析的帧长一般取多长?10-30ms2.男性和女性的基音频率分别在什么范围?*P41 男50-250Hz 女100-500Hz3.语音信号的频率范围是多少?*300-3400Hz4.语音信号处理中,经济实用的采样率是多少?*8000Hz5.从能量和过零率两方面说明清音和浊音的区别。
*P 30:浊音能量明显高于清音 P 30:清音过零率高于浊音6.给出基音周期检测的两种方法。
*P 45:基于短时自相关法的基音周期估值和基于短时平均幅度差函数法的基音周期估值。
7.给出语音倒谱的两种应用。
*P 88、90:基因检测与共振峰检测8.语音信号典型的时域特征有哪些?*P190 :平均能量、短时平均过零率、基音周期。
9.在语音识别和说话人识别中主流的频域特征是什么?*P191 :MFCC10.在只考虑身高的矢量量化中,如果量化码本中只包含“姚明(2.26米)”和“潘长江(1.58米)”两个码字,你本人应该用哪个码字量化?*1.92以上姚明;1.92以下潘长江11.名词解释(写出缩写的英文缩写的全称、中文名称、简单含义,下同):MFCC*P24312.什么是基音频率?*P45:浊音声带振动基频称之为及音频率13.名词解释:LPC*P24214.线性预测分析的基本思想是什么?*P95:基本思想:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近,在线性组合中的加权系数称为预感器系数。
通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。
15.语音编码从采用的编码方法的角度可以分为哪三类?*P138:波形编码、参数编码、混合编码。
16.名词解释:PCM*P24317.8k采样率、8位量化的编码速率是多少?*64kbit/s18.ADPCM中“D”和“A”分别是什么含义?*P240:A自适应 D差分19.LPC-10的编码速率是多少?它采用的哪类编码方法?*P163:2.4kbit/s 参数编码20.语音合成的方法分为哪三类?*P172:波形合成法、参数合成法、规则合成法。