语音信号处理考试题(综合)
- 格式:doc
- 大小:1.36 MB
- 文档页数:8
语音信号处理重点、考点、考试题一、填空题:(共7小题,每空2分,共20分)A卷1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。
2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。
3、语音编码按传统的分类方法可以分为、和混合编码。
4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。
5、汉语音节一般由声母、韵母和三部分组成。
6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。
7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。
二、判断题:(共3小题,每小题2分,共6分)1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。
()2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。
()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。
()三、单项选择题:(共3小题,每小题3分,共9分)1、下列不属于衡量语音编码性能的主要指标是()。
(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。
(A)词语(B)句子(C)音节(D)因素四、简答题:(共2小题,每小题12分,共24分)1、画出矢量量化器的基本结构,并说明其各部分的作用。
2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。
五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分)1、线性预测分析的基本思想是什么?2、隐马尔可夫模型的特点是什么?3、矢量量化器的所谓最佳码本设计是指什么?4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。
一、分析题
1、语谱图的定义以及对其进行解读,答出横杠、竖直条、乱纹的物理意义(7分)
2、隐马尔科夫模型的三个基本问题,其中哪一个最难解决,并说出主要原因(7分)
二、简答题
1、同态信号处理的基本原理,以语音信号为例。
(5分)
2、MFCC特征提取的流程。
(5分)
3、波形编码与参数编码的区别。
(5分)
4、DTW算法的目的以及其基本思想(5分)
5、矢量编码的基本原理(4分)
6、HMM的两个随机过程(4分)
三、填空题(每空2分)
1、预处理一般包括预加重、加窗、分帧。
2、说话人识别系统包括预处理、特征提取、模式匹配、判决。
3、语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。
4、一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。
5、。
(实在是记不起啦)
四、选择题
五.判断题
(后面的选择、判断题自求多福吧)。
《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。
所有权归属成都信息工程大学。
在此衷心感谢薛老师平时悉心地教育指导。
整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。
第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。
同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。
当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽分为前向掩蔽和后向掩蔽。
语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。
浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。
最后形成一个以基音周期为周期的斜三角波形。
清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。
在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。
预处理过程:预加重、加窗和分帧。
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................176,40004 004Block align =(0004) 16= 410 0016Bits/sample = (0010) 16= 16编码(Code)内容(Contents)批注(Notes)数据子区块(datasub_chunk)64 61 74 61d a t a80 9A 7B0124,877,696Size:(017B9A80) 16 = 24,877,69642 FF 35 FC L= 65,346,R=64,565(FF42) 16= 65,346(FC35) 16= 64,565E2 FE 07 00L= 65,250,R= 7(FEE2) 16= 65,250 (0007) 16=7E7 FE AF 03L= 65,255,R=943(FEE7) 16= 65,255 (03AF) 16=9435F FF 65 01L= 65,375,R= 357(FF5F) 16= 65,375 (0165 ) 16=3572 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时”分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。
第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。
p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。
p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。
p5d22.语音的基本声学特性包括音色,音调,音强、音长。
p7d2➢音色:也叫音质,是一种声音区别于另一种声音的基本特征。
➢音调:是指声音的高低,它取决于声波的频率。
➢音强:声音的强弱,它由声波的振动幅度决定。
➢音长:声音的长短,它取决于发音时间的长短。
3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
p7d34.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。
p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。
p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。
)p7d39.元音的一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
语音考试题及答案一、选择题(每题2分,共20分)1. 语音学中,音素是指:A. 语言中最小的意义单位B. 语言中最小的语音单位C. 语言中最小的语法单位D. 语言中最小的书写单位答案:B2. 下列哪个选项中的词语发音完全相同?A. 鱼、雨、语B. 吃、尺、迟C. 书、梳、舒D. 知、支、织答案:A3. 汉语普通话中,声母“j”的发音特点是:A. 舌尖前音B. 舌面音C. 舌尖后音D. 舌根音答案:C4. 汉语拼音中,“ü”的发音与下列哪个元音相似?A. [i]B. [u]C. [e]D. [o]答案:B5. 汉语普通话中,下列哪个声母是浊音?A. bB. pC. mD. f答案:C6. 下列哪个词语的声调标注不正确?A. 妈(mā)B. 麻(má)C. 马(mǎ)D. 骂(mà)答案:B7. 汉语普通话中,轻声的特点是:A. 声调不明显B. 声调与第四声相同C. 声调与第一声相同D. 声调与第二声相同答案:A8. 汉语拼音中,“ng”是:A. 声母B. 韵母C. 声调D. 隔音符号答案:A9. 下列哪个词语的声母是“n”?A. 你B. 了C. 来D. 了答案:A10. 汉语普通话中,下列哪个词语的韵母是“iao”?A. 脚B. 叫C. 教D. 桥答案:C二、填空题(每题2分,共20分)1. 汉语普通话中,声母“z”的发音部位是_________。
答案:舌尖前音2. 汉语拼音中,“ai”的发音与英语中的_________相似。
答案:eye3. 汉语普通话中,声母“f”的发音特点是_________。
答案:唇齿音4. 汉语普通话中,韵母“ie”的发音特点是_________。
答案:前高不圆唇元音5. 汉语普通话中,声母“g”的发音特点是_________。
答案:舌根音6. 汉语拼音中,“ü”的发音与英语中的_________相似。
答案:book7. 汉语普通话中,轻声的调值是_________。
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。
它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。
2. 请列举一些常见的语音信号处理应用。
常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。
3. 请简要描述语音信号处理系统的基本框架。
语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。
首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。
然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。
接下来,使用这些特征进行模型的训练,以建立语音信号的模型。
最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。
4. 请列举一些常用的语音信号处理算法或技术。
常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。
5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。
Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。
它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。
MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。
二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。
然后,对x'(n)进行DFT计算,得到频谱X(k)。
X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。
数字语音处理复习题数字语音处理复习题数字语音处理是一门研究如何通过计算机技术来处理和分析语音信号的学科。
在现代通信和人机交互领域,数字语音处理发挥着重要的作用。
下面我们来复习一些数字语音处理的基本概念和技术。
一、语音信号的采样和量化语音信号是连续的模拟信号,为了方便计算机处理,需要对其进行采样和量化。
采样是指在时间上对语音信号进行离散化处理,常用的采样频率为8kHz或16kHz。
量化是指对采样后的信号进行幅度的离散化处理,常用的量化位数为8位或16位。
二、离散傅里叶变换(DFT)离散傅里叶变换是一种将时域信号转换为频域信号的方法。
在数字语音处理中,DFT常用于对语音信号进行频谱分析。
通过DFT,我们可以得到语音信号的频谱图,从而可以分析语音信号的频率特征。
三、线性预测编码(LPC)线性预测编码是一种用于语音信号压缩的技术。
LPC假设语音信号是由前一段时间的语音信号线性预测得到的,通过计算预测系数,可以将语音信号压缩为较低的比特率。
LPC在语音通信和语音识别中得到广泛应用。
四、语音识别语音识别是将语音信号转换为文本的过程。
在数字语音处理中,语音识别是一个重要的研究方向。
常用的语音识别方法包括基于隐马尔可夫模型(HMM)的方法和基于深度学习的方法。
语音识别的应用包括语音助手、语音翻译和语音命令等。
五、语音合成语音合成是将文本转换为语音信号的过程。
在数字语音处理中,语音合成可以通过拼接已有的语音片段或者通过合成参数来实现。
语音合成的应用包括语音导航、语音广播和语音播报等。
六、语音增强语音增强是指通过信号处理技术提高语音信号的质量。
在实际通信中,语音信号可能会受到噪声、回声等干扰,语音增强可以帮助提高语音的清晰度和可懂度。
常用的语音增强技术包括降噪、回声消除和语音增益等。
七、语音情感识别语音情感识别是指通过语音信号分析判断说话人的情感状态。
语音情感识别可以应用于情感智能交互、情感监测和情感诊断等领域。
常用的语音情感识别方法包括基于声学特征的方法和基于深度学习的方法。
二、问答题(每题5分,共20 分)1、语音信号处理主要研究哪几方面的内容?语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
2、语音识别的研究目标和计算机自动语音识别的任务是什么?语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
3、语音合成模型关键技术有哪些?语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。
1.如何取样以精确地抽取人类发信的主要特征,2.寻求什么样的网络特征以综合声道的频率响应,3.输出合成声音的质量如何保证。
4、语音压缩技术有哪些国际标准?二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题6分,共30分)1、简述如何利用听觉掩蔽效应。
语音信号处理重点、考点、考试题一、填空题:(共7小题,每空2分,共20分) A卷1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。
2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。
3、语音编码按传统的分类方法可以分为、和混合编码。
4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。
5、汉语音节一般由声母、韵母和三部分组成。
6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。
7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。
二、判断题:(共3小题,每小题2分,共6分)1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。
()2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。
()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。
()三、单项选择题:(共3小题,每小题3分,共9分)1、下列不属于衡量语音编码性能的主要指标是()。
(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。
(A)词语(B)句子(C)音节(D)因素四、简答题:(共2小题,每小题12分,共24分)1、画出矢量量化器的基本结构,并说明其各部分的作用。
2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。
五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分)1、线性预测分析的基本思想是什么?2、隐马尔可夫模型的特点是什么?3、矢量量化器的所谓最佳码本设计是指什么?4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。
5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。
六、计算题:(共1小题,每小题6分,共6分)1、已知一个简单的三状态HMM模型的图形,如图一所示。
求该HMM模型输出aab的概率为多少?(要有求解过程,无计算过程不得分)一、填空题:(共9小题,每空2分,共28分)1、语音编码按传统的分类方法可以分为、和混合编码。
2、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。
3、句法的最小单位是,词法的最小单位是音节,音节可以由构成。
4、汉语音节一般由声母、韵母和三部分组成。
5、复倒谱分析中避免相位卷绕的算法,常用的有和最小相位信号法。
6、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。
7、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。
8、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、、、说话人识别和等五大分支。
9、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。
二、判断题:(共3小题,每小题2分,共6分)1、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。
2、波形编码是依赖模型假定的语音编码方法。
()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。
()三、单项选择题:(共3小题,每小题2分,共6分)1、下列波形编码中属于频域编码的是()。
(A)PCM (B)ADM(C)SBC(D)APC2、标量量化和矢量量化在概念上是相互对应的,那么标量量化中的量化值对应着矢量量化中的()(A)胞腔(B)量化矢量(C)码书(D)量化区间3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。
(A)词语(B)句子(C)音节(D)因素四、画图分析题:(共2小题,每小题12分,共24分)1、画出矢量量化器的基本结构,并说明其各部分的作用。
2、试画出一卷积同态系统的模型,并把它分解为三个子系统进行分析,要有相应的表达式说明。
五、简答题:(共5小题,每小题6分,共30分)1、复倒谱和倒谱的特点和关系是什么?2、线性预测分析的基本思想是什么?3、隐马尔可夫模型的特点是什么?4、矢量量化器的所谓最佳码本设计是指什么?5、预加重和去加重的思想和作用是什么?一、填空题1、语音编码按传统的分类方法可以分为、和混合编码。
2、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。
3、语音信号处理也可以简称为语音处理,它是以和为基础而形成的一个综合新的学科,包括、、和等四大分支。
4、语音的四大要素:、、和。
5、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即、和。
6、句法的最小单位是,词法的最小单位是音节,音节可以由构成。
7、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和。
8、汉语音节一般由声母、韵母和三部分组成。
9、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。
10、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过处理来实现。
二、判断题1、线性预测法是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。
()2、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。
()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。
()4、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫掩蔽声,B叫被掩蔽。
()5、参数编码是依赖模型假定的语音编码方法。
()三、单项选择题1、矢量量化器大致可以分为无记忆矢量量化器和有记忆矢量量化器两类,下列不属于无记忆矢量量化器的为()。
(A)全搜索矢量量化器(B)树搜索矢量量化器(C)多极矢量量化器(D)自适应矢量量化器2、下列波形编码中属于频域编码的是()(A)PCM (B)ADM(C)SBC(D)APC四、画图分析题1、画出矢量量化器的基本结构,并说明其各部分的作用。
2、试画出语音合成模型(语音生成模型)的原理框图,并说明各部分的作用。
3、针对于短时傅里叶变换的时间分辨率和频率分辨率的矛盾性请给予分析说明。
五、简答题1、复倒谱和倒谱的特点和关系是什么?2、线性预测分析的基本思想是什么?3、隐马尔可夫模型的特点是什么?4、矢量量化器的所谓最佳码本设计是指什么?六、计算题1、已知一码本尺寸J=8的二叉树,它的码本中共包含有14个码字,见图一所示。
现采用全搜索法和二叉树搜索法来进行分析,计算它们的失真运算量、比较运算量和存储容量各为多少?(要有求解过程,无过程不得分)2、已知一简单的三状态HMM的图形,见图二所示。
求该HMM输出的aab的总概率为多少?第一判决①先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络焦点所对应的时间间隔之外即AB 段之外。
②根据背景噪声的平均能量确定一个较低的门限T2,并从A 点往左、从B 点往右搜索,分别找到短时能量包络与门限T2相交的两个点C 和D ,于是CD 段就是用双门限方法根据短时能量所判定的语音段。
第二判决以短时平均过零率为标准,从C 点往左和从D 点往右搜索,找到短时平均过零率低于某个门限T3的两点E 和F ,这便是语音段的起止点。
门限T3是由背景噪声的平均过零率所确定的。
矢量量化器:在编码端,输入矢量X 与码本中的每一个或部分码字进行比较,分别计算出它们的失真。
搜索到失真最小的码字Yj 的序号(或此码字在码本中的地址),并将j 的编码信号通过信道传送到译码端;在译码端,先把信道传送来的编码信号译成序号j ,再根据序号(或码字Yj 所在地址),从码本中查出相应的码字Yj 。
Yj 是输入矢量X 的重构矢量。
初始码书的选取方法:⑴随机法;⑵分裂法:步骤: 计算所有训练序列TS 的形心,将此形心作为第一个码字()Y 01; 用一个合适的参数A ,乘以码字()Y 01,形成第二个码字()Y 02; 以码字()Y 01、()Y 02为简单的初始码书;④将码书()y n 2中的2个码字()Y n 1、()Y n 2分别乘以合适的参数B ,得到4个码字;⑤以这4个码矢为基础,按步骤 去构成含4个码字的码书,再乘以合适的参数以扩大码字的数目。
树形搜索原理:一个连通的且无环路的有向图,以树根第一层为起点,第二层有两个节点(Y0,Y1);第三层有四个节点(Y00,Y01,Y10,Y11),第四层有八个节点,具体量化步骤:第一步:分别计算输入矢量X与Y0、Y1的失真d(X,Y0)和d(X,Y1)并且比较他们的大小,若d(X,Y0)>d(X,Y1),则走下支路,到了节点Y1处送出1码至信道;若d(X,Y0)<d(X,Y1)则走上支路,到了节点Y0处,就送出0码至信道。
第二步:若上一步走的是下支路,那么在节点Y1处,在计算输出矢量X与节点Y10、Y11的失真d(X,Y10)和d(X,Y11),并且比较他们的大小。
若d(X,Y10)<d(X,Y11),则走上支路,到Y10处送出0码至信道;反之就走下支路,到了Y11处,送出1码至信道。
第三步:若刚才走的是上支路,那么在节点Y10处分别计算失真d(X,Y100)和d(X,Y101),并比较他们的大小,若d(X,Y100)>d(X,Y101)则走下支路,到了树叶Y101处,送出1码到信道。
Y101便是输入矢量X的量化矢量,在信道中传输的符号是101.反之则走上支路,到了树叶Y100处,送出0码到信道。
Y100便是X的量化矢量,在信道中传输的符号是100.从树叶开始设计的办法:1.假定第四层的八个码字已由LBG设计码书的方法得到了。
将这些码字,按码字距离最近的配对的原则(因为是二叉树型),得到:{Y000,Y001},{Y010,Y011},{Y100,Y101},{Y110,Y111},并把他们放在相应的树叶位置上。
2.求出这些码字对的中心,如{Y000,Y001},的中心为Y00。
总共得到四个中心:Y00,Y01,Y10,Y11,并把他们放在第三层上。
3.将第三层上的码字仍按最近距离原则配对,得到{Y00,Y01},{Y10,Y11}。
再求出码字对中心Y0与Y1并将他们放在第二层上。
以四层二叉树为例,具体设计步骤如下:求出整个训练序列的形心,作为初始码书。
用一个合适的参数A去乘,得到另一个再计算出两个胞2. 再用上述分裂法,。