语音信号处理复习
- 格式:ppt
- 大小:704.37 KB
- 文档页数:37
语音信号处理(电技重点)第二章1、语音产生的机制、清音浊音(p7倒数第三段);2、语音的特点:浊音,准周期信号,短时能量大,过零率小;清音,随即自噪声,………….小,………大;声道,谐振腔,谐振频率,共振峰频率;音调,音强,音长,音质;频谱特征:清音谐波不明显;浊音谐波结构(精细频谱)谱包络(共振峰机构);3、统计分布,幅度分布(伽马分布修正);4、数字模型:激励模型(清音随即自噪声,浊音周期脉冲序列)声道模型(级联型、并联型、混合型)5、响度、音调、音色;6、语音感知:16hz---16Khz频谱分析,色彩感知,屏蔽效应;第三章1、取样率8khz(数字域)2、预处理(放大及增益控制,反混叠,预加重)3、短时能量分析短时能量随时间变化规律,区分清/浊音、声/韵母;4、短时过零率表现短时频谱特征,预测清/浊音、有/无声;5、短时相关求浊音周期及缺点6、短时平均幅度差:极小值——>求基音周期第四章1、语音时变谱2种解释;2、取样率(时间分辨率、频率分辨率);第五章1、同态分析了解;2、复倒谱倒谱意义准周期信号倒谱仍是准周期,T不变,幅度随f下降,page60,提取T依据;声道冲击响应倒谱——最小相位序列的为因果序列,衰减快page61能量集中在低频;——最大…………….为反因果序列…;3、最小相位法递推法掌握;4、给段语音倒谱求声门激励序列声道冲击序列;第六章1、线性预测基本原理:建立在全极点模型下用过去式测值预测现在以及将来时;2、预测滤波器F(z),线性预测误差滤波器A(z),语音合成全极点滤波器H(z)——三者关系;3、优化原则:均方误差最小,求偏导求A(z), H(z)系数;4、自相关法、均方差法,格型法优缺点;5、LPC谱估计:6~10阶,逼近谱包络6、LPC复倒谱了解7、线谱对:定义特点(掌握);第九章1、基音检测——自相关法,简化逆滤波法;2、相关处理法——表9-1,掌握SIFT,AMDF;3、共振峰估计:LPC第十一章1->声码器的基本结构图;2->LPC声码器与APC编码器区别与联系;3->LPC参数种类及量化特征page162;4->5种预测系数,线谱对,哪些适合在信道传输(编码)及原因,自己总结;5->混合编码与LPC声码器和APC的区别和联系;。
语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。
它的倒数称为基频。
2 、音色:也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。
基频值越大,反映出的音高越高。
4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
5、音长:声音的长短,取决于发音持续时间的长短。
6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。
一样的音强,不一样的频率,则响度也会有所不同。
7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。
可以分为同时掩蔽和异外时掩蔽。
8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。
频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。
掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。
辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。
同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。
短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。
可以把清音模拟成随机白噪声。
完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1)) 把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。
分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。
《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。
所有权归属成都信息工程大学。
在此衷心感谢薛老师平时悉心地教育指导。
整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。
第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。
同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。
当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽分为前向掩蔽和后向掩蔽。
语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。
浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。
最后形成一个以基音周期为周期的斜三角波形。
清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。
在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。
预处理过程:预加重、加窗和分帧。
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。
辅音包括浊音(声带振动)和清音共振xx:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。
同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。
短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,xx,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。
可以把清音模拟成随机白噪声。
完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1))把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。
分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。
语音信号处理期末复习题语音信号处理期末复习题语音信号处理是一门研究语音信号的产生、传输、处理和识别的学科。
它广泛应用于语音识别、语音合成、语音增强等领域。
在本文中,我们将回顾一些与语音信号处理相关的重要概念和技术。
一、语音信号的产生和特征提取语音信号是由人的声带振动引起的空气压力变化所产生的。
在语音信号处理中,我们通常使用基频、共振峰和声强等特征来描述语音信号。
1. 基频是指声音中最低频率的周期性振动。
它与人的声带振动频率相关,可以用来区分不同的语音音调。
2. 共振峰是指声音中频率响应最大的频率。
它与声道的共振特性相关,可以用来区分不同的语音音色。
3. 声强是指声音的能量大小。
它与声音的响度相关,可以用来区分不同的语音强度。
为了提取语音信号的特征,我们可以使用时域分析和频域分析等方法。
时域分析可以通过计算语音信号的短时能量和过零率等参数来描述语音信号的时域特征。
频域分析可以通过计算语音信号的功率谱和倒谱等参数来描述语音信号的频域特征。
二、语音信号的传输和编码在语音信号处理中,为了实现语音信号的传输和存储,我们需要对语音信号进行编码。
编码可以将连续的语音信号转换为离散的数字信号,以便于传输和处理。
1. 量化是指将连续的语音信号转换为离散的数字信号。
在量化过程中,我们需要选择合适的量化步长和量化级数,以平衡信号的保真度和数据的压缩率。
2. 编码是指将离散的数字信号表示为二进制码。
在编码过程中,我们可以使用不同的编码算法,如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等。
为了提高语音信号的传输效率,我们还可以使用压缩算法对语音信号进行压缩。
压缩算法可以分为有损压缩和无损压缩两种。
有损压缩可以通过去除语音信号中的冗余信息来减少数据量,但会引入一定的失真。
无损压缩可以通过使用编码算法来减少数据量,但不会引入失真。
三、语音信号的处理和识别在语音信号处理中,我们可以使用滤波器、时域变换和频域变换等技术来对语音信号进行处理和分析。
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。
它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。
2. 请列举一些常见的语音信号处理应用。
常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。
3. 请简要描述语音信号处理系统的基本框架。
语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。
首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。
然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。
接下来,使用这些特征进行模型的训练,以建立语音信号的模型。
最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。
4. 请列举一些常用的语音信号处理算法或技术。
常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。
5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。
Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。
它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。
MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。
二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。
然后,对x'(n)进行DFT计算,得到频谱X(k)。
X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。
《语音信号处理》中期复习要点[0].什么是语音?解释音质、音量、音调[1].解释元音、辅音[2].解释音素、音节[3].语音信号的最大特点是什么?[4].解释基音、共振峰的概念[5].列于几种语音预处理的方法[6].语音预处理中的预加重,加重的是哪部份?[7].相同条件下,时间分辨率、频率分辨率、时宽、带宽相互之间成什么关系?[8].讨论窗口大小对短时能量分析的影响。
[9].讨论窗口大小对短时幅度分析的影响。
[10].已知某音频信号的采样率为10kHz,量化精度为16位,均匀量化,则该信号的编码率为?(单位bps)[11].短时能量分析和短时平均幅度分析的本质是相同的,都是以对语音信号的什么为研究对象的。
[12].短时相关分析和短时平均幅度差分析出发点相同,以语音的什么为考察对象的?[13].过零率和什么密切相关?[14].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)的短时过零概率分布,在图中标注对应位置。
[15].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)短时幅度概率分布,在图中标注对应位置。
[16].E n、Mn的作用是什么?[17].解释短时自相关分析为什么能够提取基音。
[18].估计该图语音的基音周期[19].经过修正和没有经过修正的短时自相关分析有何区别?为什么要进行修正?[20].经过修正和没有经过修正的短时平均幅度差分析有何区别?为什么要进行修正?[21].人耳对语音的高频还是低频部分更加敏感?[22].利用语音信号(浊音)的准周期性,来提取基音信息或区分清浊音的时域方法有哪些?[23].E n(k)=21)]()([1∑-=++-+NmkmnxmnxN可以用来提取什么?两个窗口的大小关系是?[24].什么是短时自相关分析的“谱平整”[25].比较短时自相关和AMDF的算法优缺点[26].语音信号的STFT,是一个关于和的二元函数,分别固定它们时,可以得到两种解释,一种是,一种是。
《通信中的语音信号处理》复习大纲1、了解语音信号处理的目的、实质和发展历史;实质:是研究用数字信号处理技术对语音信号进行处理的一门学科目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。
通过对语音信号进行某种运算以达到某种要求。
发展历史:1876年电话的发明,贝尔(Bell);1939年声码器的研制成功—声源+声道;1947年贝尔实验室发明语谱图仪—语音识别研究的开始;50年代第一台口授打字机和英语单词语音识别器;60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。
CMU语音组研制成功SPHINX系统(997,95.8%);国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。
(除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。
到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。
)2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点:数字技术能完成许多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。