当前位置:文档之家› 语音信号处理复习华南理工.

语音信号处理复习华南理工.

语音信号处理复习华南理工.
语音信号处理复习华南理工.

语音信号处理复习

第二章语音信号处理基础知识

1,定义:

(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此语音是语言和声音的组合体。

(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。

①音色:是一种声音区别于另一种声音的基本特征

②音调:指声音的高低,取决于声波的频率

③音强:指声音的强弱,取决于声波的振幅

④音长:指声音的长短,取决于发音时间的长短

(3)任何语言都有语言的元音和辅音两种音素:

元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。一个重要的声学特性是共振峰。

辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。包括清音和浊音。

①浊音:声带振动

②清音:声带不振动

(4)人的听觉系统有两个重要的特性:

①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。

②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。

掩蔽效应分为同时掩蔽和短时掩蔽。

2,语言信号生成的数学模型:

①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统

②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统

③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统

3,语音信号的特性分析:

(1)语音信号的时域波形和频谱特性:

①时域波形:周期性,周期对应声带振动的频率,即基音频率。

②频谱特性:共振峰特性。元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。清辅音频谱

峰点之间的间隔是随机的,没有周期分量。

(2)语谱图:

语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。

语谱图中的花纹有横杠、竖直条和乱纹等。

①横杠:与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸点,也就是共振峰。

②竖直条:与时间轴垂直的一条窄黑带,每个竖直条相当于一个基音,条纹间的距离表示基音周期。

③乱纹:清擦音从语谱图上看表现为乱纹,乱纹的深浅和上下限反映了噪声能量在频域中的分布。

4,语音信号的统计特性:

语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量(如均值和自相关函数)来描述。

第三章语音信号分析

1,概述:

语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳过程。虽然它具有时变特性,但是从一个短时间范围(10~30ms)内,其特性基本保持不变,即相对稳定,可以将其看作一个准稳态过程,也就是短时平稳过程。

2,语音信号的预处理:

①预加重:通常语音信号的高频分量很小,预加重目的是提升高频部分,使信号频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。

②加窗分帧:分帧通过可移动的有限长度窗口进行加权的方法实现。

3,语音信号的时域分析:

(1)语音信号的时域分析就是分析和提取语音信号的时域参数:短时能量、短时过零率、短时自相关函数和短时平均幅度差函数。

①短时能量:

②短时过零率:表示一帧语音中语音信号波形穿过横轴(零电平)的次数。浊音具有较低的过零率,而清

音具有较高的过零率。

③短时自相关函数:

④短时平均幅度差函数:

4,语音信号的频域分析:

分析语音信号的频域特征,使用短时傅立叶变换对语音信号的频谱进行分析。

5,语音信号的倒谱分析:

(1)同态信号处理:指将非线性问题转换成线性问题的处理方法。由于语音信号可以视为声门激励信号和声道冲激响应的卷积,因此可以通过卷积——乘积——加法的方法来处理。

(2)倒谱与复倒谱:倒谱是语音信号的对数幅度谱的傅里叶逆变换,得到的是频域信息。复倒谱是语音信号对数频谱的傅立叶逆变换,得到的是时域信息。

6,MFCC特征提取流程:

①对输入语音进行预加重、加窗、分帧处理

②FFT变换

③取绝对值或者平方

④Mel滤波:

⑤取对数

⑥离散余弦变换DCT:

⑦动态特征MFCC,输出特征向量

7,语音信号的线性预测:

线性预测的基本思想是用过去的p个样点值来预测现在或未来的样点值。

8,基音周期的估计:

基音是指发浊音时声带振动所引起的周期性,而基因周期是指声带振动频率的倒数。主要包括以下三种方法:①自相关法②平均幅度差法③倒谱法。

9,共振峰估计:

声道可以看成一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰。共振峰参数包括共振峰频率和频带宽度。共振峰信息包含在语音频谱包络中,因此共振峰频率提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。主要包括倒谱法和LPC法。

第四章矢量量化技术

1,矢量量化基本原理:

将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。2,矢量量化参数:

3,矢量量化的两个基本问题:

(1)设计一个好的码本

(2)未知矢量的量化

4,矢量量化的失真测度:

失真测度是将输入矢量X用码本重构矢量Y来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。失真测度的选择好坏将直接影响到聚类效果和量化精度,进而影响到语音信号矢量量化处理系统的性能。主要包括欧氏距离测度、线性预测失真测度、识别失真测度。

5,矢量量化器的最佳码本设计:最近邻准则、LBG算法

第五章隐马尔可夫模型

1,概述:

(1)隐马尔可夫模型(HMM)是语音信号的一种统计模型。HMM是一个输出符号序列的统计模型,具有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能直接观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径无法得知),所以称为隐藏的马尔可夫模型。

(2)HMM用于语音信号建模时,是对语音信号的时间序列结构建立的统计模型,它是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链每一个状态相关联的观测序列的随机过程。

2,HMM的基本元素:M={S、O、A、B、π、F}

①S——模型中状态的有限集合③A——状态转移概率的集合⑤π——系统初始状态概率的集合

②O——输出的观测值符号的集合④B——输出观测值概率的集合⑥F——系统终了状态的集合

3,隐马尔可夫模型的基本算法:

(1)识别问题:

给定观察符号序列O和模型M={A,B,π},如何快速有效地计算观察符号序列的输出概率P(O/M)?。可通过前向-后向(F-B)算法解决。

(2)状态转移估计(路径选择)问题:

给定观察字符序列和输出该序列的模型后,如何有效地确定与之对应的最佳的状态序列,即估计出模型产生观察字符序列时最可能经过的路径。可通过维特比算法解决。

(3)模型训练问题:

实际上是一个模型参数估计问题,即对于初始模型和给定用于训练的观察符号序列,如何调整模型M 的参数,使得输出概率P最大?。可通过Baum-Welch算法解决。

第七章语音编码

1,概述:

(1)语音编码主要针对信源编码,解决有效性问题,通过对信源的压缩、扰乱、加密等一系类处理,力求

用最少的数码率传递最大的信息量,使信号更适宜传输和存储。

(2)语音编码通常分为三类:波形编码、参数编码和混合编码。波形编码和参数编码的主要区别在于重建的语音信号时域信号是否在波形上与原信号一致。

①波形编码:力图使重建后的语音时域信号波形与原语音信号波形保持一致,具有适应能力强、话音质量

好的特点,但需要用到的编码速率高。

②参数编码:根据对声音形成机理的分析,在以重建语音信号具有足够的可懂性的原则上,通过建立语音

信号的产生模型,提取代表语音信号特征的参数来编码,而不一定在波形上与原信号匹配。

优点是编码速率较低,缺点是语音质量差,特别是自然度低,对说话环境的噪声敏感。利用

参数编码实现语音通信的设备称为声码器,包括通道声码器、共振峰声码器、同态声码器和

线性预测声码器。

③混合编码:基于语音产生模型的假定并采用了分析合成技术,同时又利用了语音时域波形信息,增强了

重建语音的自然度,使得语音质量有明显的提高。

2,语音压缩:

对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。语音压缩编码极限速率就80~100bit/s。

3,语音编码的关键技术:①线性预测②合成分析法③感觉加权滤波器

4,波形编码:

①脉冲编码调制PCM②自适应预测编码③自适应变换编码④子带编码(频带分割编码):先使用带通滤波器将语音信号分割成若干个频带(子带),然后用调制的方法将滤波后的子带信号进行频谱平移成低通信号,以利于降低取样率进行抽取,然后再用奈奎斯特率进行取样,最后再分别进行编码处理。而信号的恢复则是完全相反的过程。

5,参数编码:①LPC线性预测声码器②LPC-10编码器

6,混合编码:

码激励线性预测编码CELP。语音生成模型把语音的生成看作一些激励信号激励一个模拟声道的滤波器得到的响应。CELP采用矢量量化技术对激励信号编码,将事先经过训练的一组码矢量组成一个码本,然后对每一帧语音信号从这组码本中选出一个在感知加权误差最小意义上的最佳码矢量作为激励源。

第八章语音合成

1,定义:

解决如何让机器说话的问题,其目的是将任意文本实时地转换成自然语音输出,并且输出的语音清晰可懂。语音合成系统是一个单向系统,从机器到人。

2,合成方法:

(1)波形合成法:直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。

(2)参数合成法:为了节约存储容量,必须先对语音信号进行分析,提取语音的参数,,以压缩存储量,然后由人工控制这些参数的合成。包括发音器官参数合成和声道模型参数合成。包括共

振峰合成法和LPC线性预测法。

(3)规则合成法:通过语音学规则产生语音。

3,文语转换系统:

指把文本文件通过一定的硬软件转换后由计算机或电话语音系统等输出语音的过程,并尽量使合成的语音具有良好的自然度和可懂度。包括三个模块:文本分析、韵律控制和语音合成。

(1)文本分析:使计算机能够识别文字,并根据文本的上下关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,让计算机知道文本中哪些是词,哪

些是短语、句子。

(2)韵律控制:任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同。(3)语音合成:文语转换系统中一般采用波形拼接来合成语音。基音同步叠加法PSOLA,其核心思想是直接对存储于音库的语音运用PSOLA算法来进行拼接,从而合成完整的语音。

第九章语音识别

1,定义:

语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。

2,语音模型:HMM模型

3,语音识别的类型:①孤立词识别②连接词识别③连续语音识别和理解(自然说话方式)④会话语音识别3,语音识别方法:

(1)HMM法:主要用于大词汇量语音识别系统,需要较多的模型训练数据,较长的训练时间和识别时间,较大的存储空间。

(2)VQ法:所需模型训练数据小,训练时间短,识别时间短,存储空间小,但是识别性能不够好。(3)DTW法:主要用于小词汇量、孤立字词识别系统。

4,动态时间规整DTW:

(1)目的:提高识别率,克服发同一音而发音长短不同的问题。

(2)基本思想:把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这个过程中未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。

5,孤立字(词)识别系统:

指识别孤立发音的字或词的系统。利用模式匹配方法,把单词整个作为识别单元。在训练阶段,用户将词汇表中每一个词依次说一遍,并且将其特征矢量时间序列作为模板存入模板库。在识别阶段,将输入语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

第十章说话人识别与语种辨识

1,定义:

(1)自动说话人识别是一种自动识别说话人的过程。它与语音识别的区别在于,它不注重语音信号中的文字符号和语义内容等信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。

(2)语种辨识是通过分析处理一个语言片段以判别其所属语言的语种,本质上属于语音识别的一个方面2,任务:

本质上它们都是根据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的信息,再与存储的参考模型进行比较,做出正确的判断。

(1)自动说话人确认:确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只做出“是”与“否”的二元判决。

(2)自动说话人辨认:多元问题,从一群人的语音中辨认出是哪一个。系统必须辨认出待识别语音是来自待考察的个人中的哪一个。

3,说话人识别系统:

预处理、特征提取、模式匹配和判决四个步骤。包括基于HMM、基于VQ、基于GMM的说话人识别系统,和基于DTW的说话人确认系统。

4,语种辨识系统:

特征提取、模板匹配、分类判决三个步骤。

类型记忆性模型

离散无记忆VQ

有记忆离散HMM

连续无记忆GMM

有记忆连续HMM

5,语种辨识的应用领域:①多语种信息服务②机器自动翻译的前端处理③军事上说话人身份和国籍判别

第十四章语音增强

1,定义:

指当语音信号被各种各样的噪声干扰,甚至淹没后,从噪声背景中提取有用语音信号,抑制、降低噪声干扰的技术。

实际应用中噪声的来源及种类各不相同,从而造成处理方法的多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。

2,语音特性:

语音信号是一种非平稳的随机信号,语音的生成过程与发音器官的运动过程密切相关,考虑到人类发声器官在发声过程中的变化速度具有一定的限度而且远小于语音信号的变化速率,因此可以假定语音信号是短时平稳的,即在10~30ms的时间段内某些物理特性和频谱特性可以近似地看作不变,从而可以应用平稳随机过程的分析方法来处理语音信号,在语音增强中利用短时频谱的平稳特性。

3,人耳感知特性:

人耳对于声波频率的高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系。人耳对声强的感觉很灵敏,并且具有很大的动态范围,人耳对于频率的分辨能力受声强的影响,过强或过弱的声音都会导致对频率的分辨力降低。人耳对语音信号的幅度谱较为敏感,而对相位谱不敏感。人耳具有掩蔽效应,即会产生一个声音对另一个声音的出现而导致该声音能被感知的阈值提高的现象。

4,噪声特性:

主要分为加性噪声和非加性噪声。

①冲激噪声:例如放电,打火、爆炸等都会引起冲激噪声。可通过对带噪语音信号幅度求均值消除

②周期噪声:最常见的有电动机、风扇之类的周期运转的机械所发出的周期噪声,以及50Hz交流电噪声,

可采用陷波器消除。

③宽带噪声:说话时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等。其显著特点是噪

声频谱遍布于语音信号频谱中,导致消除噪声较为困难,一般采用非线性处理方法。

④语音干扰:干扰语音信号和待传语音信号同时在同一个信道中传输所造成的语音干扰。可通过梳状滤波

器提取基音和各次谐波,再恢复出有用语音信号。

⑤传输噪声:传输系统的电路噪声,与背景噪声不同,它是时域中的语音和噪声的卷积。可通过同态处理,

把此非加性噪声转换成加性噪声来处理。

5,语音增强技术:

(1)频域语音增强:减谱法,其基本思想是,假定加性噪声与短时平稳语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。

(2)时域语音增强:自适应语音降噪技术,在消除噪声过程中,需要两个以上的话筒,采用自适应滤波算法。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理复习华南理工

语音信号处理复习 第二章语音信号处理基础知识 1,定义: (1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此语音是语言和声音的组合体。 (2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。 ①音色:是一种声音区别于另一种声音的基本特征 ②音调:指声音的高低,取决于声波的频率 ③音强:指声音的强弱,取决于声波的振幅 ④音长:指声音的长短,取决于发音时间的长短 (3)任何语言都有语言的元音和辅音两种音素: 元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。一个重要的声学特性是共振峰。 辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。包括清音和浊音。 ①浊音:声带振动 ②清音:声带不振动 (4)人的听觉系统有两个重要的特性: ①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。 ②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。 2,语言信号生成的数学模型: ①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统 ②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统 ③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统 3,语音信号的特性分析: (1)语音信号的时域波形和频谱特性: ①时域波形:周期性,周期对应声带振动的频率,即基音频率。 ②频谱特性:共振峰特性。元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。清辅音频谱 峰点之间的间隔是随机的,没有周期分量。 (2)语谱图: 语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。 语谱图中的花纹有横杠、竖直条和乱纹等。 ①横杠:与时间轴平行的几条深黑色带纹,它们相应于短时谱中的几个凸点,也就是共振峰。 ②竖直条:与时间轴垂直的一条窄黑带,每个竖直条相当于一个基音,条纹间的距离表示基音周期。 ③乱纹:清擦音从语谱图上看表现为乱纹,乱纹的深浅和上下限反映了噪声能量在频域中的分布。 4,语音信号的统计特性: 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量(如均值和自相关函数)来描述。 第三章语音信号分析

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名: 实验一基于MATLAB的语音信号时域特征分析(2学时)

1)短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) ,legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128'); elseif(i==5) ,legend('N=256'); elseif(i==6) ,legend('N=512'); end end

00.51 1.52 2.5 3 x 10 4 -1 1 x 10 4 024 x 10 4 05 x 10 4 0510 x 10 4 01020 x 10 4 02040 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2), legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128');

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题 一、填空题:(共7小题,每空2分,共20分) A卷 1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。 二、判断题:(共3小题,每小题2分,共6分) 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么? 2、隐马尔可夫模型的特点是什么? 3、矢量量化器的所谓最佳码本设计是指什么? 4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。 5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。 六、计算题:(共1小题,每小题6分,共6分) 1、已知一个简单的三状态HMM模型的图形,如图一所示。求该HMM模型输出aab的概率为多少?(要有求解过程,无计算过程不得分)

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

通信中的语音信号处理复习大纲

《通信中的语音信号处理》复习大纲 北科大版 1、了解语音信号处理的目的、实质和发展历史; 实质:是研究用数字信号处理技术对语音信号进行处理的一门学科 目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算以达到某种要求。 发展历史:1876年电话的发明,贝尔(Bell); 1939年声码器的研制成功—声源+声道; 1947年贝尔实验室发明语谱图仪—语音识别研究的开始; 50年代第一台口授打字机和英语单词语音识别器; 60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器; 70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别; 80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。 CMU语音组研制成功SPHINX系统(997,95.8%); 国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。 (除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。) 2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率; 1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容, 有用信息更易于被提取; 2. 语音信号数字表示的优点: 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。 3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章) 语音信号的特点—短时平稳性 4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算 短时频域分析—短时傅立叶分析 线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数 倒谱和同态分析、矢量量化和隐马尔可夫模型 5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps ADPCM:采样率:8khz速率:32kbps 3、理解语音信号的产生过程、发生机理和语音信号的声学特性; 产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应 发生机理: 声学特性:频率:与音高有关;振幅:与响度有关。 4、理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法; 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。 共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。

语音信号处理复习纲要

Ch1 绪论 §1.1 语音信号处理概述 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。 二、语音处理技术的应用领域 语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。 三、语音信号采用数字处理的原因(数字语音的优点) 语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点: 1、数字技术能够完成许多很复杂的信号处理工作; 2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理; 3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务; 4、数字语音适合在强干扰信道中传输,也易于加密传输。 四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §1.2 语音信号处理的发展概况 一、语音信号处理的发展史 1、1874年:电话的发明时现代语音通信的开端; 2、1939年:通道声码器技术; 3、40年代后期:语谱仪; 4、50年代初:第一台口授打字机和英语单词语音识别器; 5、60年代:Fant发表《语音产生的声学理论》; 6、70年代初:Flanagan著作《语音分析、合成和感知》; 7、90年代以来:语音识别的研究由实验室走向实用化。 二、语音编码、语音合成、语音识别名词解释 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。 3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。 为了实现人机语音通信,必须具备语音识别和语音理解两种功能 Ch2 基础知识 §2.2 语音产生的过程 一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。 二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课) 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。 2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。 3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

语音信号处理知识点总结

语音信号处理(电技重点) 第二章 1、语音产生的机制、清音浊音(p7倒数第三段); 2、语音的特点:浊音,准周期信号,短时能量大,过零率小; 清音,随即自噪声,………….小,………大; 声道,谐振腔,谐振频率,共振峰频率; 音调,音强,音长,音质; 频谱特征:清音谐波不明显; 浊音谐波结构(精细频谱) 谱包络(共振峰机构); 3、统计分布,幅度分布(伽马分布修正); 4、数字模型:激励模型(清音随即自噪声,浊音周期脉冲序列) 声道模型(级联型、并联型、混合型) 5、响度、音调、音色; 6、语音感知:16hz---16Khz 频谱分析,色彩感知,屏蔽效应; 第三章 1、取样率8khz(数字域) 2、预处理(放大及增益控制,反混叠,预加重) 3、短时能量分析短时能量随时间变化规律,区分清/浊音、声/韵母; 4、短时过零率表现短时频谱特征,预测清/浊音、有/无声; 5、短时相关求浊音周期及缺点 6、短时平均幅度差:极小值——>求基音周期 第四章 1、语音时变谱2种解释; 2、取样率(时间分辨率、频率分辨率); 第五章 1、同态分析了解; 2、复倒谱倒谱意义 准周期信号倒谱仍是准周期,T不变,幅度随f下降,page60,提取T依据; 声道冲击响应倒谱——最小相位序列的为因果序列,衰减快page61能量集中在低频; ——最大…………….为反因果序列…; 3、最小相位法递推法掌握; 4、给段语音倒谱求声门激励序列声道冲击序列; 第六章 1、线性预测基本原理:建立在全极点模型下 用过去式测值预测现在以及将来时; 2、预测滤波器F(z),线性预测误差滤波器A(z),语音合成全极点滤波器H(z)——三者关系; 3、优化原则:均方误差最小,求偏导求A(z), H(z)系数; 4、自相关法、均方差法,格型法优缺点; 5、LPC谱估计:6~10阶,逼近谱包络 6、LPC复倒谱了解 7、线谱对:定义特点(掌握);

语音信号处理复习资料

8预加重和去加重的理解7线性预测编码特点和定义 5隐马尔可夫差数特点计算 以上三题没有 老师画的其他的重点为红色标记的(注意:仅供参考) 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。 二、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程 中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §.2语音信号处理的发展概况 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话。 3、语音识别:语音识别是使计算机判断出所说的话得内容。 §.2语音产生的过程 一、语音、清音、浊音 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。

2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。 二、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。 语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。这个过程包括:发音-传递-感知。因此现代语音的三个分支:发音语言学、声学语言学、听觉语言学。 三、基音周期、基音频率 基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。基音频率:基音周期的倒数称为基音频率,简称为基频。 四、浊音、清音、爆破音的激励源 对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。 五、共振峰的概念(参见大纲) 1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率, 称为共振峰,它是声道的重要声学特征。 2、共振峰的公式:Fn=(2 n-1)c/4L (会运用公式进行计算,填空、选择) 3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。 4、声道的共振峰特性决定所发声音的频谱特性(音色)。 5、头三个共振峰最重要。 §.3语音信号的特性 一、语音的物理属性(集中备课) 语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

《多媒体技术基础》复习试题(有答案)

一、多媒体概述 ●什么是媒体?媒体如何分类的? ●什么是多媒体?它有哪些关键特性?有哪些关键技术? ●多媒体计算机系统组成 ●多媒体个人计算机MPC ●媒体素材分成文字、声音、图形、图像、动画、视频等类型。 ●各类素材的文件格式 ●图像的属性 ●图像的大小及压缩标准 ●图像的色彩模式 ●图形与图像的文件存储格式 ●视频的基本概念 ●帧频(动画:12帧/S,视频:24帧/S) ●动画与视频的文件格式 ●声音的三个重要特性:振幅,周期,频率 ●声音效果的三要素:音调、音强、音色 ●声音的文件存储格式 ●文本文件的格式 ●图像采集途径及常用的软件 ●多媒体素材采集的软件及多媒体素材制作软件 二、音频技术 ●声音的数字化——采样、量化及编码 ●数字化后声音文件的大小如何计算 ●声音文件的存储格式 ●Adobe Audition3.0的基本操作 ●声音的高级处理 1、声道变换 2、改变声音文件的固有音量 3、淡入、淡出效果 4、回声原理及其制作 5、延迟效果 6、消除环境噪声 7、声音混响 8、调整时间和音调

9、直接从视频提取声音 三、 视频技术 ● 视频的基本概念 ● 视频的制式——NTSC ,PAL ,SECAM ● 视频素材的获取 ● 常见的视频文件格式 ● 三种MPEG 视频压缩格式的比较 ● 常用的视频播放器 ● 网络视频格式 ● 视频编辑处理软件—会声会影的基本使用 四、 Photoshop 五、 FLASH 单项选择题部分 1.多媒体当中的媒体指的是以下哪种媒体( )。 A .表现媒体 B .表示媒体 C .感觉媒体 D .存储媒体 2.以下的采样频率中哪个是目前音频卡所支持的( )。 A .20KHz B .11.025KHz C .10KHz D .50KHz 3.下面文件格式属于声音文件的是( )。 (1).MIDI 文件 (2).WA V 文件 (3).A VI 文件 (4).PCX 文件 A .(1)(3) B .(2)(3)(4) 保存接近于一部一部交互式、多媒体、DIVX(.AVI) WMV ASF PAL PAL DVD 画质的 小体积视频文件 120分钟长的电影压缩为4~8GB 的大小 120分钟长的电 影压缩为1.2GB 左右的大小 压缩情况 1998年 1994年1992年时间低码率视频 数字电视CD-ROM 上的交互式 视频 目标RMVB MOV MPG MPG 常见后缀网络视频 DVD VCD 应用可调4~8Mbps 1~1.5Mbps 带宽可调:720×576NTSC :720×480 :352×288NTSC :320×240画面尺寸MPEG-4MPEG-2(DVD )MPEG-1类型

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

相关主题
文本预览
相关文档 最新文档