语音信号处理复习资料
- 格式:docx
- 大小:34.83 KB
- 文档页数:26
语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。
它的倒数称为基频。
2 、音色:也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。
基频值越大,反映出的音高越高。
4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
5、音长:声音的长短,取决于发音持续时间的长短。
6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。
一样的音强,不一样的频率,则响度也会有所不同。
7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。
可以分为同时掩蔽和异外时掩蔽。
8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。
频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。
掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。
所有权归属成都信息工程大学。
在此衷心感谢薛老师平时悉心地教育指导。
整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。
第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。
同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。
当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽分为前向掩蔽和后向掩蔽。
语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。
浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。
最后形成一个以基音周期为周期的斜三角波形。
清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。
在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。
预处理过程:预加重、加窗和分帧。
《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
语音信号处理复习资料8预加重和去加重的理解7线性预测编码特点和定义5隐马尔可夫差数特点计算以上三题没有老师画的其他的重点为红色标记的(注意:仅供参考)一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。
它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
二、语音学的名词解释语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。
§.2语音信号处理的发展概况1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话得内容。
§.2语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。
语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。
语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程:空气从肺部排出形成气流。
空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。
声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。
语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。
这个过程包括:发音-传递-感知。
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
8预加重和去加重的理解7线性预测编码特点和定义5隐马尔可夫差数特点计算以上三题没有老师画的其他的重点为红色标记的(注意:仅供参考)一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。
它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
二、语音学的名词解释语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。
§.2语音信号处理的发展概况1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话得内容。
§.2语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。
语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。
语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程:空气从肺部排出形成气流。
空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。
声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。
语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。
这个过程包括:发音-传递-感知。
因此现代语音的三个分支:发音语言学、声学语言学、听觉语言学。
三、基音周期、基音频率基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。
基音频率:基音周期的倒数称为基音频率,简称为基频。
四、浊音、清音、爆破音的激励源对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。
五、共振峰的概念(参见大纲)1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率, 称为共振峰,它是声道的重要声学特征。
2、共振峰的公式:Fn=(2 n-1)c/4L (会运用公式进行计算,填空、选择)3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。
4、声道的共振峰特性决定所发声音的频谱特性(音色)。
5、头三个共振峰最重要。
§.3语音信号的特性一、语音的物理属性(集中备课)语音的物理性质包括音质、音调、音强、音长等特性。
语音是人的发音器官发出的一种声波,具有声音的物理属性。
音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。
二、音素、音节、单词、句子的基本概念以及它们之间的关系(集中备课)(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。
(2)音节是最小的语言片段,一个音节由一个或几个音素组成。
(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。
(4)句子是单词的进一步组合。
三、汉语的特点是:音素少、音节少。
汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。
四、语音频谱特性其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。
五、清音和浊音的频谱特性清音和浊音的波形有很大的不同。
清音的波形类似于白噪声,具有很弱的振幅;元音(浊音)具有明显的准周期性,并具有较强的振幅。
它们的周期对应的频率就是基音频率。
如果考察其中一个周期,还可以大致看出其频谱特性。
§.4语音信号产生的数学模型一、语音信号的数字模型(集中备课)1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。
2、语音信号的产生模型P16 (重点注意)二、发不同性质的音时,激励的情况是不同的,大致分为两类:(1 )发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。
声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。
不同人的音调周期是不同的,男子大,女子小,老人大,』、孩低。
_ (2)发清音时,此时声带松弛而不振动,气流通过声门直接进入声道。
三、语音信号数字模型的组成等(集中备课)1、语音信号数字模型由激励模型、声道模型和辐射模型组成。
2、声道模型包括声管模型和共振峰模型。
3、共振峰模型又可分为级联型、并联型和混合型。
四、语音信号数字模型的框图:P21图2-18图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。
§.5语音感知一、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz , 老年人则衰退到10kHz。
声音的三要素:响度、音调和音色。
任何声音的都可以用声强的三个物理量表示:幅度、频率、相位。
1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度」要是声压的函数,但和频率和波形也有关,单位是宋(sone ))人耳对3000 —4000Hz的声音感觉最灵敏。
2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音 _______ 的频率有关。
音调与声音频率是近似的对数关系,单位是美(mel )。
3、音色:也叫音质,反映了声音属性。
人根据音色在主观感觉上区别具有相同响度和音调的两个声音。
三、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。
Ch3时域分析§.1概述一、为什么时域分析要采用短时分析技术1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。
2、语音信号特点:(1 )表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可以得到语音的一些重要参数。
§.2数字化和预处理一、取样和量化(集中备课)1、为了将原始的模拟信号转换为数字信号,必须经过取样和量化两个步骤。
2、取样是将时间上连续的语音信号离散化为一个样本序列。
根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。
3、量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。
二、量化噪声的概念及特点(集中备课)1、量化噪声:量化后信号值与原信号之间的差值称为量化误差,即量化噪声。
2、量化信噪比的计算公式:SNR(dB)=6.02B-7.2三、语音信号系统框图(为什么要进行预处理)(集中备课)1、系统框图:P26图3-42、反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混叠失真和噪声干扰。
§.3短时能量分析一、语音信号的能量分析:语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。
能量分析包括能量和幅度两个方面。
二、直角窗和海明窗(集中备课)1、不同的窗口选择将决定短时能量特性,即窗口的形状和长度。
2、直角窗和海明窗的比较(大纲)(1)从窗口形状上:海明窗的带宽大约是同等宽度矩形窗带宽的2倍。
此外,海明窗在通带外的衰减比矩形窗小得多,而且通带与阻带的起伏比较小。
(2)从窗口长度上(窗口选择原则):N选择太大,则短时能量E随时间变化就很小,不能充分反映语音信号的幅度变化;而N选择得小,即选择N等于或小于一个基音周期时,E将按照信号波形的细微变化而起伏不定,以致短时能量E不够匀化和平滑。
因此,折衷考虑N的值,在通常情况下,当取样频率为10KHZ时,N =100-200 被认为是合适的。
三、短时平均能量反映了语音能量随着时间缓慢变化的规律。
它的主要用途有:1、可以区分清音段和浊音段;2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。
3、作为一种超音段信息,用于语音识别中。
§.4短时过零分析一、过零分析、过零率和平均过零数的名词解释(大纲)1、过零分析是语音时域分析中最简单的一种,对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。
单位时间过零的次数叫作“过零率”。
2、平均过零数Z:单位时间内的过零数(Z=2f0/fs过零/样本)。
二、短时平均过零数的实现(集中备课)1、实现框图:P32 图3-122、文字描述:首先对语音信号序列x(n)进行成对的查对采样以确定是否发生过零,若发生符号变化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行低通滤波。
三、短时过零分析的用途(包含清音、浊音的各自特点,集中备课)1、短时平均过零数可以用来区分清音和浊音。
发浊音时,语音能量约集中于3kHz以下。
而发清音时,多数能量集中在较高的频谱上。
浊音具有较低的平均过零数,而清音时具有较高的平均过零数。
可见P33 的图3-132、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语音和有语音的起点和终点位置。
四、图3-14 说明的问题是什么(集中备课)由图可见,这三句话的平均过零数变换都很大,高平均过零数对应于清音,低平均过零数对应于浊音;但是清音和浊音的变化非常明显。
因而,短时平均过零数可用于清音和浊音的大分类上。
§3.5 短时相关分析一、短时自相关分析得到语音信号有何特点和用途(大纲)1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。