语音信号处理复习纲要
- 格式:doc
- 大小:120.00 KB
- 文档页数:13
27483语音信号处理大纲南京理工大学编(高纲号0553)Ⅰ、课程性质与设置目的要求“语音与图象信号处理”是江苏省高等教育自学考试电子工程专业的必修课,是为了培养和检验自学应考者信号处理的基本知识和基本技能而设置的一门专业课程,本课程分为两大部分,第一部分是语音信号处理,第二部分是数字图象处理。
语音信号处理是一门比较实用的电子工程的专业课程,语音是人类获取信息的重要来源和利用信息的重要手段。
通过语言相互传递信息是人类最重要的基本功能之一。
语言是人类特有的功能,它是创造和记载几千年人类文明史的根本手段,没有语言就没有今天的人类文明。
语音是语言的声学表现,是相互传递信息的最重要的手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
语音中除包含实际发音内容的语言信息外,还包括发音者是谁及喜怒哀乐等各种信息。
在人类已构成的通信系统中,语音通信方式早已成为主要的信息传递途径之一,具有最方便和最快捷的特点。
语言和语音也是人类进行思维的一种依托,它与人的智力活动密切相关,与文化和社会的进步紧密相连,具有最大的信息容量和最高的智力水平。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
除了语音之外,图像是人类获取信息的另外一个重要来源,大约70%的信息是通过人眼获得的图像信息。
图像信号是指将图像作为一种二维信号,采用数字信号处理的方法来对图像进行描述。
今后为了表示方便,图像信号就称为图像。
在近代科学研究、军事技术、工农业生产、气象、医学等领域中,人们越来越多地利用图像来认识和判断事物,解决实际问题。
例如:人们利用人造卫星所拍摄的地面照片,来分析获取地球资源、全球气象和污染情况,利用“和平号”宇宙飞船所拍摄的月球表面照片,分析月球的形成。
在医学上,通过CT断层扫描,医生可以观察和诊断人体内部是否有病变组织。
在公安侦破中,采用指纹提取并处理进行破案。
语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。
它的倒数称为基频。
2 、音色:也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。
基频值越大,反映出的音高越高。
4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
5、音长:声音的长短,取决于发音持续时间的长短。
6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。
一样的音强,不一样的频率,则响度也会有所不同。
7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。
可以分为同时掩蔽和异外时掩蔽。
8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。
频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。
掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。
辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。
同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。
短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。
可以把清音模拟成随机白噪声。
完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1)) 把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。
分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。
语音信号处理期末复习题语音信号处理期末复习题语音信号处理是一门研究语音信号的产生、传输、处理和识别的学科。
它广泛应用于语音识别、语音合成、语音增强等领域。
在本文中,我们将回顾一些与语音信号处理相关的重要概念和技术。
一、语音信号的产生和特征提取语音信号是由人的声带振动引起的空气压力变化所产生的。
在语音信号处理中,我们通常使用基频、共振峰和声强等特征来描述语音信号。
1. 基频是指声音中最低频率的周期性振动。
它与人的声带振动频率相关,可以用来区分不同的语音音调。
2. 共振峰是指声音中频率响应最大的频率。
它与声道的共振特性相关,可以用来区分不同的语音音色。
3. 声强是指声音的能量大小。
它与声音的响度相关,可以用来区分不同的语音强度。
为了提取语音信号的特征,我们可以使用时域分析和频域分析等方法。
时域分析可以通过计算语音信号的短时能量和过零率等参数来描述语音信号的时域特征。
频域分析可以通过计算语音信号的功率谱和倒谱等参数来描述语音信号的频域特征。
二、语音信号的传输和编码在语音信号处理中,为了实现语音信号的传输和存储,我们需要对语音信号进行编码。
编码可以将连续的语音信号转换为离散的数字信号,以便于传输和处理。
1. 量化是指将连续的语音信号转换为离散的数字信号。
在量化过程中,我们需要选择合适的量化步长和量化级数,以平衡信号的保真度和数据的压缩率。
2. 编码是指将离散的数字信号表示为二进制码。
在编码过程中,我们可以使用不同的编码算法,如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等。
为了提高语音信号的传输效率,我们还可以使用压缩算法对语音信号进行压缩。
压缩算法可以分为有损压缩和无损压缩两种。
有损压缩可以通过去除语音信号中的冗余信息来减少数据量,但会引入一定的失真。
无损压缩可以通过使用编码算法来减少数据量,但不会引入失真。
三、语音信号的处理和识别在语音信号处理中,我们可以使用滤波器、时域变换和频域变换等技术来对语音信号进行处理和分析。
语音信号处理复习纲要一、引言语音信号处理是一门研究如何对语音信号进行分析、合成、增强和识别的学科。
它在语音通信、语音识别和语音合成等领域有着广泛的应用。
本文将对语音信号处理的基本概念、技术和方法进行复习总结,以帮助读者加深对该领域的理解和掌握。
二、语音信号的基本特性1. 语音信号的产生机制:人类通过声带、喉咙、口腔和鼻腔等器官产生声音,形成语音信号。
2. 语音信号的基本特性:语音信号是一种时变信号,具有频率、幅度和相位等特性。
3. 语音信号的时域和频域表示:语音信号可以通过时域波形和频域谱图来表示。
三、语音信号的预处理1. 语音信号的采样和量化:将连续的语音信号转换为离散的数字信号。
2. 语音信号的预加重:通过预加重滤波器强调高频成分,提高语音信号的信噪比。
3. 语音信号的分帧:将语音信号分成若干帧,以便对每一帧进行进一步处理。
四、语音信号的特征提取1. 短时能量和过零率:用于表示语音信号的能量和过零点的数量。
2. 基频和共振峰:用于表示语音信号的基频和共振峰的频率和幅度。
3. 线性预测编码(LPC):通过线性预测模型来提取语音信号的特征。
4. 倒谱系数:通过倒谱分析来提取语音信号的特征。
五、语音信号的增强和降噪1. 语音增强的方法:包括谱减法、频率平滑法和Wiener滤波法等。
2. 语音降噪的方法:包括时域滤波法、频域滤波法和小波变换法等。
六、语音信号的合成1. 线性预测编码(LPC)合成:通过LPC模型来合成语音信号。
2. 基频和共振峰合成:通过基频和共振峰来合成语音信号。
七、语音信号的识别1. 语音特征匹配:将语音信号的特征与已知模板进行匹配,以实现语音识别。
2. 隐马尔可夫模型(HMM):通过HMM来建模语音信号,实现更准确的语音识别。
八、语音信号处理的应用1. 语音通信:包括语音编码、语音解码和语音传输等。
2. 语音识别:包括语音指令识别、语音转文字等。
3. 语音合成:包括文本转语音、语音合成等。
《语言学纲要》第三章语音和音系一、名词解释语音四要素——音高、音重(强)、音长、音质。
音素——是从音质的角度划分出来的最小的线性的语音单位音位——具体语言中有区别词的语音形式的作用的最小的语音单位。
也是按语音的辨义作用归纳出来的音类,从语言的社会属性划分出来的语言单位音位变体——处在互补关系中的相似的音素彼此不对立,即不起区别词的语音形式的作用,我们可以把它们归并为一个音位。
如果它们被归并为一个音位,则处于互补关系中的各个音素就被看成为同一音位在不同位置上的代表,是同一个音位的不同的变异形式,所以我们把它们叫做音位变体。
非音质音位——非音质音位指具有区别词的语音形式的作用的音高、音重、音长等。
例如汉语普通话声调中的阴平、阳平、上声、去声,是由音高的变化形成的而不是音质变化形成的,就是非音质音位。
区别特征——具体语言中有区别音位的作用的发音特征,叫做该语言的区别特征。
每一个音位都可以分解为几个不同的区别特征。
运用区别特征比较容易说清楚音位在具体语言中的特点和具体语言语音系统的组织方式。
音节——由音位组成的语音中最小的结构单位,也是从听觉上感受到的最自然的单位。
语流音变——音位和音位组合的时候,由于受说话时快慢,高低、强弱的不同和邻音的影响,可能发生不同的临时性的变化。
这种变化,我们叫做语流音变。
音步——语言的一种节奏中,语流是大致每隔两个音节就有一次小的轻重、高低、长短或松紧的交替,形成语流中大致等距离出现的两音节的节奏单元。
这种节奏单元叫做音步。
二、填空或简答1、画一张元音舌位图,用国际音标标出八个基本元音。
八个基本元音[i][e][ ][a][u][o][ɔ][ɑ]2、按音位特征用国际音标注出相应的音素。
(1)双唇浊鼻音m(2)舌尖前浊擦音z(3)舌面前送气清塞擦音ʨ‘(4)后低不圆唇元音ɑ(5)前半高不圆唇元音e(6)后半高圆唇元音o3、列出现代汉语普通话辅音音位的至少四对区别特征并各举一对儿对立音位。
一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。
它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
二、语音学的名词解释语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。
§1.2 语音信号处理的发展概况1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话得内容。
§2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。
语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。
语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程:空气从肺部排出形成气流。
空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。
声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。
语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。
这个过程包括:发音-传递-感知。
因此现代语音的三个分支:发音语言学、声学语言学、听觉语言学。
三、基音周期、基音频率基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。
基音频率:基音周期的倒数称为基音频率,简称为基频。
四、浊音、清音、爆破音的激励源对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。
五、共振峰的概念(参见大纲)1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。
2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。
4、声道的共振峰特性决定所发声音的频谱特性(音色)。
5、头三个共振峰最重要。
§2.3 语音信号的特性一、语音的物理属性(集中备课)语音的物理性质包括音质、音调、音强、音长等特性。
语音是人的发音器官发出的一种声波,具有声音的物理属性。
音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。
二、音素、音节、单词、句子的基本概念以及它们之间的关系(集中备课)(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。
(2)音节是最小的语言片段,一个音节由一个或几个音素组成。
(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。
(4)句子是单词的进一步组合。
三、汉语的特点是:音素少、音节少。
汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。
四、语音频谱特性其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。
五、清音和浊音的频谱特性清音和浊音的波形有很大的不同。
清音的波形类似于白噪声,具有很弱的振幅;元音(浊音)具有明显的准周期性,并具有较强的振幅。
它们的周期对应的频率就是基音频率。
如果考察其中一个周期,还可以大致看出其频谱特性。
§2.4 语音信号产生的数学模型一、语音信号的数字模型(集中备课)1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。
2、语音信号的产生模型P16(重点注意)二、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。
声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。
不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。
(2)发清音时,此时声带松弛而不振动,气流通过声门直接进入声道。
三、语音信号数字模型的组成等(集中备课)1、语音信号数字模型有激励模型、声道模型和辐射模型组成。
2、声道模型包括声管模型和共振峰模型。
3、共振峰模型又可分为级联型、并联型和混合型。
四、语音信号数字模型的框图:P21 图2-18图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。
§2.5 语音感知一、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz,老年人则衰退到10kHz。
声音的三要素:响度、音调和音色。
任何声音的都可以用声强的三个物理量表示:幅度、频率、相位。
1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。
人耳对3000-4000Hz的声音感觉最灵敏。
2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。
音调与声音频率是近似的对数关系,单位是美(mel)。
3、音色:也叫音质,反映了声音属性。
人根据音色在主观感觉上区别具有相同响度和音调的两个声音。
三、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。
Ch3 时域分析§3.1 概述一、为什么时域分析要采用短时分析技术1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。
2、语音信号特点:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可以得到语音的一些重要参数。
§3.2 数字化和预处理一、取样和量化(集中备课)1、为了将原始的模拟信号转换为数字信号,必须经过取样和量化两个步骤。
2、取样是将时间上连续的语音信号离散化为一个样本序列。
根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。
3、量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。
二、量化噪声的概念及特点(集中备课)1、量化噪声:量化后信号值与原信号之间的差值称为量化误差,即量化噪声。
2、量化信噪比的计算公式:SNR(dB)=6.02B-7.2三、语音信号系统框图(为什么要进行预处理)(集中备课)1、系统框图:P26 图3-42、反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混叠失真和噪声干扰。
§3.3 短时能量分析一、语音信号的能量分析:语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。
能量分析包括能量和幅度两个方面。
二、直角窗和海明窗(集中备课)1、不同的窗口选择将决定短时能量特性,即窗口的形状和长度。
2、直角窗和海明窗的比较(大纲)(1)从窗口形状上:海明窗的带宽大约是同等宽度矩形窗带宽的2倍。
此外,海明窗在通带外的衰减比矩形窗小得多,而且通带与阻带的起伏比较小。
(2)从窗口长度上(窗口选择原则):N选择太大,则短时能量E随时间变化就很小,不能充分反映语音信号的幅度变化;而N选择得小,即选择N等于或小于一个基音周期时,E将按照信号波形的细微变化而起伏不定,以致短时能量E不够匀化和平滑。
因此,折衷考虑N的值,在通常情况下,当取样频率为10KHz时,N =100-200被认为是合适的。
三、短时平均能量反映了语音能量随着时间缓慢变化的规律。
它的主要用途有:1、可以区分清音段和浊音段;2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。
3、作为一种超音段信息,用于语音识别中。
§3.4 短时过零分析一、过零分析、过零率和平均过零数的名词解释(大纲)1、过零分析是语音时域分析中最简单的一种,对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。
单位时间过零的次数叫作“过零率”。
2、平均过零数Z:单位时间内的过零数(Z=2f0/fs过零/样本)。
二、短时平均过零数的实现(集中备课)1、实现框图:P32 图3-122、文字描述:首先对语音信号序列x(n)进行成对的查对采样以确定是否发生过零,若发生符号变化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行低通滤波。
三、短时过零分析的用途(包含清音、浊音的各自特点,集中备课)1、短时平均过零数可以用来区分清音和浊音。
发浊音时,语音能量约集中于3kHz以下。
而发清音时,多数能量集中在较高的频谱上。
浊音具有较低的平均过零数,而清音时具有较高的平均过零数。
可见P33的图3-132、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语音和有语音的起点和终点位置。
四、图3-14说明的问题是什么(集中备课)由图可见,这三句话的平均过零数变换都很大,高平均过零数对应于清音,低平均过零数对应于浊音;但是清音和浊音的变化非常明显。
因而,短时平均过零数可用于清音和浊音的大分类上。
§3.5 短时相关分析一、短时自相关分析得到语音信号有何特点和用途(大纲)1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。
2、短时自相关函数是语音信号时域分析的重要参量。
它有两个用途,一是判断清/浊音,并估计浊音的基音周期;二是它的傅里叶变换是短时谱。