广州大学 数字语音处理复习题
- 格式:doc
- 大小:203.00 KB
- 文档页数:10
1.声音数字化的三个环节是:采样、量化、编码2.采样定理的内容是什么?采样定理是对时间变化的信号波形用该信号最高频率成分f max的2倍作为采样频率f s进行采样,当将采样值通过截止频率等于1/2f s的低通滤波器后,可得到原连续变化的信号波形3.误码矫正的思想是什么?是在声音数字化形成的数码(信息码)内增加一定数目的监督码元,与信息码之间建立某种检验关系,一旦这种关系被破坏,可以发现并给予纠正。
4.奇偶监督码如何产生?偶监督码只要校正1的个数不为偶数,判断为误码。
因此仅能校验出奇数个码元发生错误。
奇监督码只要校验1的个数不为奇数,判断为误码。
5.交织与去交织是什么意思?交织是对编码后的数码流改变其顺序,恢复时再按原来的顺序重排。
前者称为交织或交错而后者为去交织或去交错。
6.EFM调制的含义?EFM又称为8-14码型变换,用语CD激光数字唱片系统。
7.声音压缩编码的方式有哪些?时域编码,频域编码和统计编码8.声音的频率范围如何?20Hz—20kHz9.人耳对哪段频率更敏感?3kHz—5kHz10.等响度曲线的含义是什么?描述响度、声音声压级一集声源频率之间的关系的曲线称为等响度曲线11.什么是掩蔽效应,其有何规律?掩蔽效应分为频域掩蔽效应和时域掩蔽效应。
规律:强音压低音;低频率声音压高频率声音12.描述声音的常见物理量有哪些?声压,声强,声压级,声强级,响度,响度级13.什么是信源编码,什么是信道编码?①信源编码:一种以提高通信有效性为目的而对信源符号进行的变换;为了减少或消除信源剩余度而进行的信源符号变换。
②信道编码:为了与信道的统计特性相匹配,并区分通路和提高通信的可靠性,而在信源编码的基础上,按一定规律加入一些新的监督码元,以实现纠错的编码。
14.MPEG标准有哪些?目前MPEG已经完成了MPEG-1,MPEG-2,MPEG-4第一版的音频编码等方面的技术标准。
正在制定MPEG-4的第二版,MPEG-7及MPEG-21的音频编码技术标准。
《数字音视频技术》考试复习题库(附答案)一、单选题1.关于量化位数的说法,错误的是()。
A、在相同的采样频率下,量化位数越高,声音的质量越好。
B、量化位数又称作量化精度、采样位数。
C、在相同的采样频率下,量化位数越低,声音的质量越好。
D、简单地说就是描述声音波形的数据是多少位的二进制数据。
参考答案:C2.我国电视标准规定,图像信号采用()。
A、正负极性调幅B、负极性调幅C、以上都不对D、正极性调幅参考答案:B3.彩色的色饱和度指的是彩色的()。
A、种类B、亮度C、以上都不对D、深浅参考答案:D4.屏幕上出现图像向上缓慢移动是由于电视机()。
A、场频稍低B、行频、场频稍高C、行频稍低D、行频、场频稍低参考答案:A5.目前,我国采用的电视制式为()。
A、NTSC30帧/sB、PAL30帧/sC、PAL20帧/sD、PAL25帧/s参考答案:D6.关于音量包络线,下列()说法是错误的。
A、包络线能够让您直接观察到特定时间的设置。
B、如果线条处于最底部,则表示音量最大。
C、如果线条处于最顶端,则表示音量最大。
D、您可以通过拖拽包络线上的关键帧来编辑包络设置。
参考答案:B7.()是音频编辑软件。
A、WindowsMediaPlayerB、AdobeAuditionC、WinampD、QvodPlayer参考答案:B8.黑白电视信号能量只集中在()及其谐波附近很窄的范围内,随谐波次数的升高,能量逐渐下降。
A、行频B、行同步C、场同步D、场频参考答案:A9.基于视听对象的多媒体编码标准是()。
A、MPEG-1B、MPEG-21C、MPEG-4D、MPEG-7参考答案:C10.视频图像的编码方法的基本思想是:第一帧和关键帧采用()方法进行压缩。
A、帧内编码B、运动估计C、运动补偿D、帧间编码参考答案:C11.高清晰度电视或大屏幕高质量电视要求幅型比定为()。
B、16∶9C、9∶16D、3∶4参考答案:B12.不能选取全部波形的方法()。
第二章数字音频处理习题2-1填空题1.计算机产生声音的方法有两种:一是,二是,波形音频产生声音。
2.MIDI泛指。
MIDI标准规定的不同MIDI设备相互传送的MIDI 数据事实上是。
MIDI给出了在计算机中得到音乐声音的另外一种方法,在计算机中实现包括和两个过程。
3.CD音频属于的一种,采用组织音频数据,而没有采用组织。
4.依照MCI接口的规定,波形音频、MIDI音频和CD音频,属于多媒体设备。
waveaudio为的多媒体设备名称;MIDI音频的多媒体设备名称为,CD音频的多媒体设备名称为。
2-2简答题1.请说出数字音质、AM音质、FM音质、CD音质的数字化采样频率?2.请说出计算机中产生声音的两种方法及其区别?3.请解释MIDI的涵义?2-3分析题1.以下为Windows操作系统的MEDIA子目录下chimes.WA V文件的头数十字节内容,请分析该文件的制作格式?00000000h: 52 49 46 46 D8 D9 00 00 57 41 56 45 66 6D 74 2000000010h: 10 00 00 00 01 00 02 00 22 56 00 00 88 58 01 0000000020h: 04 00 10 00 64 61 74 61 84 D9 00 00 02 00 03 0000000030h: 09 00 06 00 07 00 02 00 05 00 00 00 03 00 03 002-4 计算题1.请计算存储5分钟的44.1k采样频率下16位立体声音频数据至少需要多少K字节?2.某一样本值量化后的值为+1925,求μ=255的μ律PCM码?2-5上机应用题1.请用UltraEdit-32文字/HEX编辑软件对照【例】分析光盘N2目录下的“Windows XP 登录音.wav”文件2.请用GoldWave编辑“Windows XP 登录音.wav”声音文件,具体要求如下:(1)将其音频波形平坦处音量加大到与非平坦处可以比拟(2)只保留左声道音频数据,右声道复制一些背景音乐(3)适当剪裁第二章数字音频处理习题解答2-1填空题1.计算机产生声音的方法有两种:一是录音/重放,二是声音合成,波形音频采用第一种方法产生声音。
第3章数字音频处理习题一、判断题1.人耳对声音的听觉频率范围为20Hz~20kHz。
( )2.语音的频率范围主要集中为300Hz~3.4kHz。
( )3.人耳对频率在200~2000Hz的声音最敏感。
( )4.音色由声音的基音频率决定,频率越低音色越浑厚。
( )5.在音频数字化过程中,需要考虑采样频率、量化位数和编码方法。
( )6.音频数字化过程中,量化过程实质上是一个有损压缩编码过程,必然带来信息的损失。
( )7.多媒体作品中,采集的音频素材质量越高越好。
( )8.音乐合成功能和性能依赖于合成器,合成器技术有FM合成和波表合成两类。
( )9.MIDI具有生成文件较小、容易编辑、音乐效果良好等优点。
( )10.就合成乐曲的音质而言,FM合成器比波表合成器合成的音质好。
( )11.MIDI文件保存的是MIDI设备演奏的乐曲波形数据。
( )12.MP3文件的数据压缩比一般可以达到1:18。
( )13.WMA文件格式比MP3格式具有更高的数据压缩比。
( )14.FLAC格式和APE格式一样,都采用无损压缩算法压缩数据。
( )15.手机通信的压缩编码与数字家庭影院系统的压缩编码采用的算法截然不同。
( )16.同一个数字音频用ARM格式保存的音质肯定高于用MP3格式保存的音质。
( )17.OGG格式在游戏音效、便携播放器、音乐软件中得到广泛应用。
( )18.Cakewalk sonar和Logic Audio都具备音序器和音源器的功能,可以实现MIDI文件的编辑和演奏。
( )19.在Audition CS6的单轨编辑窗口中按快捷键Ctrl+A可以选中整个波形。
( )20.在Audition CS6中,如果对录音降噪后,录音音量较低,一般选择“效果→振幅与压限→增幅”命令来调高音量。
( )21.Audition CS6编辑波形时,选取波形后执行“裁剪”命令将删除未选取的波形,保留选取的波形。
( )22.Audition CS6中复制的波形存放到Windows的剪贴板中,可以在Windows的其他应用程序中粘贴,实现数字音频共享。
数字音频技术期末考试试卷《数字音视频技术》期末考试试卷一.选择(每题2分,共20分)1.可闻声的频率范围()a.20~2000hzb.200~20000hzc.20~20000hzd.200~2000hz2.下面哪一种相加混色产生的色彩是错误的()a.红色+绿色=黄色b.红色+蓝色=橙色c.蓝色+绿色=青色d.红色+绿色+蓝色=白色。
3.不是数字图像的格式的是()a.jpgb.gifc.tiffd.wave4.在音频数字化的过程中,对演示语音信号处理的步骤依次为()a.样本编码定量b.定量样本编码c.抽样量化编码d.量化编码抽样5.将声音转型为数字化信息,又将数字化信息转换为声音的设备就是()a.声卡b.音响c.音箱d.pci卡6.不属于国际上常用的视频制式的就是()a.pal制b.ntsc制c.secam制d.mpeg7.数字音频采样和量化过程所用的主要硬件是()a.数字编码器b.数字解码器c.演示至数字的转换器(a/d转换器)d.数字至演示的转换器(d/a转换器)8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫()a.多媒体技术b.流媒体技术c.云技术d.动态处理技术9.影响声音质量的因素不包含()a.声道数目b.取样频率c.定量位数d.存储介质10.我们常用的vcd,dvd采用的视频压缩编码国际标准是()a.mpegb.plac.ntscd.jpeg二.填空(每空2分,共30分)1.音质三要素:、和。
2.色彩三要素:、和。
3.混色的方法存有:和。
4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。
5.色彩模型中的三基色原理就是指利用、和三种色光混合,可以产生各种色彩。
三.简答题(每题10分,共50分)1.常见数字音频文件格式有哪些?2.常用数字视频文件格式存有哪些?3.什么是5.1声道环绕立体声?4.数字音视频信号的传输方式主要存有哪几种?5.简述声卡的主要功能答案一.选择(每题2分,共20分)1.c2.b3.d4.c5.a6.d7.c8.b9.d10.a二.填空(每空2分,共30分)1.音调响度音色。
试卷八一、单项选择题1、SXM指的是(分数:3分;难度:较易)A、符号位扩展方式控制位B、精度等级设置位C、数据类型设置位D、溢出处理标志答错了参考答案:A你的解答:2、EXP AST T,EXPONENTNORM A这段程序的功能是(分数:3分;难度:较难)A、对A取整数B、对A取余数C、对A做归一化处理D、对A做指数处理答错了参考答案:C你的解答:3、中断指令属于(分数:3分;难度:中等)A、程序控制指令B、数据传送指令C、算术运算指令D、特殊运算指令答错了参考答案:A你的解答:4、链接器命令文件中,填加注释的方法是:(分数:3分;难度:较易)A、//B、;C、/* */D、*答错了参考答案:C你的解答:5、设外部时钟频率为10MHz,CLKMD=9007H,则DSP的工作频率为(分数:3分;难度:较难)A、10MB、20MC、100MD、1000M答错了参考答案:C你的解答:6、软件PLL处理倍频模式时,系数的取值范围是(分数:3分;难度:中等)A、1~2B、0.0~0.99C、0.25~15D、0.5~100答错了参考答案:C你的解答:7、为了察看C源程序与汇编程序的混合代码,可以选择(分数:3分;难度:较易)A、Mixed source/ASM选项B、Dis-Assembly Style 选项C、Memory选项D、Quick watch选项答错了参考答案:A你的解答:二、填空题1、按数据格式分,DSP(分数:2分;难度:较易)参考答案:[1]定点浮点2(分数:2分;难度:中等)参考答案:[1]FRCT=13FFT(分数:2分; 难度:较易)参考答案:[1]位倒序4、COFF(分数:2分; 难度:较易)参考答案:[1]35、为避免FFT(分数:2分; 难度:较难)参考答案:[1]右移一位6、设f=4MHz, T=250ns,(分数:2分; 难度:较难)参考答案:[1]262.144ms7、为DSP(分数:2分;难度:中等)参考答案:[1]外部时钟源DSP芯片内部8、程序存储器ROM(分数:2分;难度:较易)参考答案:[1]维持操作编程操作9、CCS软件安装成功后,在桌面上会出现两个图标, 一个对应CCS, 另一个对应CCS.(分数:2分;难度:较易)参考答案:[1]应用配置10(分数:2分;难度:中等)参考答案:[1]刷新图形文件输入/输出三、判断题1、当乘法运算时数据溢出后,DSP系统会报警。
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
《数字语音处理》复习思考题1. 数字语音处理的概念?数字语音处理的学科基础是什么?数字语音处理研究涉及哪些相关学科?2. 数字语音处理应用包括哪些技术?数字语音处理的应用主要包括哪些方面?3. 常用语音编辑软件有哪些?怎样制作你自己演唱的MP3歌曲?4. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种?各种模型的特点?5. 语音的构成包括哪些?语音发音的最小单位是什么?6. 人说话的过程可分为哪五个阶段?7. 人的言语过程与哪些因素有关?8. 声道由哪几个部分组成?9. 掌握发声机理框图,简要解释语音的形成过程。
10. 什么是听觉掩蔽效应?简述人类听觉功能的掩蔽效应。
11. 人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?12. 什么是共振峰频率?13. 舌位的前后高低与元音共振特性有哪些联系?14. 什么是音调周期(或基音周期)?什么是基音频率(或基频)?15. 语音信号的数字表示方法有哪两种?16. 理解语音信号产生的数字模型及模型组成。
17. 语音信号的数字模型包含哪些子模型?激励模型与辐射模型分别属于什么性质滤波器?18. 语音产生的数字模型中的声道子模型有两种建模方法,它们是哪些?19. 基于各种音素发音不同的谐振特点可建立起的共振峰模型有哪三种?各种模型的特点?20. 根据分析参数(分析域)的不同,语音信号分析可分为哪些方法?21. 语音信号是时变信号,处理语音信号最基本的技术是什么?22. 什么是语音信号的短时加窗处理?23. 对语音信号进行处理前为什么要进行分帧?分帧的常用方法是什么?一个语音帧的长度一般取多少?请简要解释。
24. 基本短时参数——短时能量、短时平均幅度、短时过零率、短时自相关、互相关、短时平均幅度差函数等,作用?25. 实验中怎样判断浊音和清音?26. 短时平均过零率指的是什么?声带振动、声带不振动、或没有声音时若有噪声存在时,过零率有何特点?27. 请说明对语音信号进行短时傅里叶分析时,移动窗宽与短时频谱的关系。
1、语音的四大要素。
响度。
音强。
音色,音调,音强、音长2、从肺部开始,语音的过程。
轻音和浊音的形成过程。
声带振动的是浊音,声带不振动的是清音3 、语音信号的短时平稳性,短时谱。
语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。
但在较短时间内(10-30ms)语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。
5、平均过零率就是一个估计正弦波频率的适当方法。
过=F*2/Fs6 掩蔽效应。
当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。
7、矢量量化系统组成。
矢量量化器的工作过程。
矢量量化器最佳设计。
矢量量化LBG 算法。
矢量量化在语音通信中的作用。
8、完整的语音信号数字模型的表示。
各模块的表示。
预加重处理(提升高频)。
9、语音编码分类按。
压缩编码的基本依据(冗余度、人类听觉感知机理)。
语音编码性能的主要指标(编码速率、语音质量评价、编解码延时、算法复杂度)10 汉语音节组成。
11 端点检测(两级判决法)。
共振峰(声道管谐振),共振峰合成的原理及应用,共振峰模型;基音周期,基音周期检测的方法。
分帧. ?12 时间窗长与频率分辨率的关系。
窗函数和窗宽对短时傅里叶谱。
13、倒谱分析(短时看做线性系统)。
同态信号处理(非线性转为线性,解卷积)。
?14、语音按识别系统分类(孤立词、连接词、连续)。
15 语音信号时域分析技术。
短时自相关函数和短时平均幅度差函数。
16 语音的功率谱。
Y频率X时间17、LPC 系数与语音模型?18 动态时间规整DTW 的原理及其在语音识别中的作用.匹配模板的序列时长不一的问题解决。
考试复习题目(一、二章)一. 名词解释1. 声压:当有声波存在时,局部空间产生压缩或膨胀,在压缩的地方压力增加,在膨胀的地方,压力减小,于是就在原来的静态气压上附加了一个压力的起伏变化.这个由声波引起的交变压强称为声压2. 声压级:在声学中还用声压级来描述声波的强弱,声压定义如下:SPL=20lg P/pr3. 分贝:声源功率与基准声功率比值的对数乘以10的数值,用于形容声音的响度。
4. 声强:单位时间内通过与指定方向垂直的媒质单位面积的能量称为声强5. 声强级:声强级是声强相对于参考声强的分贝值,用LI表示6. 响度:音量响度俗称是指人耳对声音强弱的主观感受响度不仅正比于声音强度的对数值,而且与声音的频率有关。
7. 音调:音调又称音高,是指人耳对声音调子高低的主观感受。
音调取决于声音的基波频率,基频越高,音调越高,音调与频率呈对数关系。
8. 倍频程:两个声音的频率或音调之比的对数9. 音色:音色是指人耳对声音特色的主观感受10. 声像:人耳根据声音来源所确认的位置就叫声像11. 混响时间:当声源连续发生至声场达到稳定状态后,从声源停止发声开始,声压级衰减60dB所需的时间,记T6012. 赛宾公式:用于计算混响时间的赛宾sabine公式:T60=KV/A=0.161V/A (T60….混响时间K……与空间湿度有关的常数,一般取0.161s/m v……闭室的容积A…..总吸声量、赛宾值)13. 自由声场:①可忽略边界影响的均匀的各向同性的媒质中的声场。
②如果声场是各向一致,且没有边界限定和其它声源的干扰,这样的声场就成为自由声场。
14. 混响声场:声能量密度(声强)均匀在各个传播方向为无规律分布的声场,成为混响声场15. 音响系统定义:用传声器把原发声场声音的声波信号转换为电信号,并按一定的要求将电信号通过一些电子设备的处理,最终用扬声器将电信号再转换为声波信号重放,这一从传声器到扬声器的整个构成就是音响系统的最基本的概念16. 信噪比:是指有用信号电压与噪声之比17. 话筒的灵敏度:在自由声场中,当向传声器施加一个声压为1Pa 的声信号时,传声器的开路输出电压(mv) 即为传声器的灵敏度。
语音信号处理期末复习题语音信号处理期末复习题语音信号处理是一门研究语音信号的产生、传输、处理和识别的学科。
它广泛应用于语音识别、语音合成、语音增强等领域。
在本文中,我们将回顾一些与语音信号处理相关的重要概念和技术。
一、语音信号的产生和特征提取语音信号是由人的声带振动引起的空气压力变化所产生的。
在语音信号处理中,我们通常使用基频、共振峰和声强等特征来描述语音信号。
1. 基频是指声音中最低频率的周期性振动。
它与人的声带振动频率相关,可以用来区分不同的语音音调。
2. 共振峰是指声音中频率响应最大的频率。
它与声道的共振特性相关,可以用来区分不同的语音音色。
3. 声强是指声音的能量大小。
它与声音的响度相关,可以用来区分不同的语音强度。
为了提取语音信号的特征,我们可以使用时域分析和频域分析等方法。
时域分析可以通过计算语音信号的短时能量和过零率等参数来描述语音信号的时域特征。
频域分析可以通过计算语音信号的功率谱和倒谱等参数来描述语音信号的频域特征。
二、语音信号的传输和编码在语音信号处理中,为了实现语音信号的传输和存储,我们需要对语音信号进行编码。
编码可以将连续的语音信号转换为离散的数字信号,以便于传输和处理。
1. 量化是指将连续的语音信号转换为离散的数字信号。
在量化过程中,我们需要选择合适的量化步长和量化级数,以平衡信号的保真度和数据的压缩率。
2. 编码是指将离散的数字信号表示为二进制码。
在编码过程中,我们可以使用不同的编码算法,如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等。
为了提高语音信号的传输效率,我们还可以使用压缩算法对语音信号进行压缩。
压缩算法可以分为有损压缩和无损压缩两种。
有损压缩可以通过去除语音信号中的冗余信息来减少数据量,但会引入一定的失真。
无损压缩可以通过使用编码算法来减少数据量,但不会引入失真。
三、语音信号的处理和识别在语音信号处理中,我们可以使用滤波器、时域变换和频域变换等技术来对语音信号进行处理和分析。
第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。
p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。
p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。
p5d22.语音的基本声学特性包括音色,音调,音强、音长。
p7d2➢音色:也叫音质,是一种声音区别于另一种声音的基本特征。
➢音调:是指声音的高低,它取决于声波的频率。
➢音强:声音的强弱,它由声波的振动幅度决定。
➢音长:声音的长短,它取决于发音时间的长短。
3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
p7d34.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。
p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。
p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。
)p7d39.元音的一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
一、填空题1.产生声波的两个基本条件声源和介质。
产生声波物质称为声源,声音所波及的空间称为介质。
(必考)2.振动物体完全振动一次所需的时间叫做周期,常用字母T来表示用语描述振动快慢的另一个物理量是频率,常用字母f来表示;数值上这两个量的关系是f=1/T (必考)3.强声暴露对听觉的危害主要有:声创伤、暂时性听阈提高、永久性听阈提高4.脉冲编码调制方式的三个基本环节是取样,量化,及编码5.传声器是一种把声音信号转变成电信号的器件;扬声器是把音频电信号转变成声信号的一种器件6.传声器的维护包括防潮,防震,防风,防尘7.耳机的类型按声道可分为:单声道和立体声8.耳机的类型按放声方式可分为:密封式、开放式、和半开放式9.扬声器系统的分类按结构可分为:封闭式音箱和倒相式音箱10.扬声器系统的分类按与公放的连接类型可分为:定阻音箱和定压音箱11.扬声器系统的分类按有无内置放大器(功放)可分为:无源音箱和有源音箱12.扬声器系统中分频的方法可分为电子分频和功率分频13.音调控制电路的幅频特性有4种情形:低音提升、低音衰减、高音提升及高音衰减14.频率响应又称频率特性,它又可细分为增益—频率响应和失真—频率响应15.功率放大器达到额定输出功率时,输入信号所需的电平值称为输入灵敏度。
16.音频放大器的分类按所用电子元器件,可分为晶体管放大器、电子管放大器、集成电路放大器、厚膜功效及混合式放大器等。
17.音频放大器的分类按其结构类型,可分为合并式放大器、前后级分体式放大器、AV功效。
18.模拟录音的基本方法有(机械录音,如电唱机;)(光学录音,如电影拷贝中还音;)(磁性录音如磁带录音机)(不考)19.调频器又叫做收音头,是用来接收调频振幅和调频广播信号的设备,常分为调幅、调频20.MD系统中的实用技术有防振动技术、调制与纠错、节目搜索。
(不考)21.调音台主要有:传声器/线路输入模式、输出模块、监听模块、仪表显示模块等几大模块构成。
语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。
它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。
2. 请列举一些常见的语音信号处理应用。
常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。
3. 请简要描述语音信号处理系统的基本框架。
语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。
首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。
然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。
接下来,使用这些特征进行模型的训练,以建立语音信号的模型。
最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。
4. 请列举一些常用的语音信号处理算法或技术。
常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。
5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。
Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。
它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。
MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。
二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。
然后,对x'(n)进行DFT计算,得到频谱X(k)。
X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。
数字语音处理复习题数字语音处理复习题数字语音处理是一门研究如何通过计算机技术来处理和分析语音信号的学科。
在现代通信和人机交互领域,数字语音处理发挥着重要的作用。
下面我们来复习一些数字语音处理的基本概念和技术。
一、语音信号的采样和量化语音信号是连续的模拟信号,为了方便计算机处理,需要对其进行采样和量化。
采样是指在时间上对语音信号进行离散化处理,常用的采样频率为8kHz或16kHz。
量化是指对采样后的信号进行幅度的离散化处理,常用的量化位数为8位或16位。
二、离散傅里叶变换(DFT)离散傅里叶变换是一种将时域信号转换为频域信号的方法。
在数字语音处理中,DFT常用于对语音信号进行频谱分析。
通过DFT,我们可以得到语音信号的频谱图,从而可以分析语音信号的频率特征。
三、线性预测编码(LPC)线性预测编码是一种用于语音信号压缩的技术。
LPC假设语音信号是由前一段时间的语音信号线性预测得到的,通过计算预测系数,可以将语音信号压缩为较低的比特率。
LPC在语音通信和语音识别中得到广泛应用。
四、语音识别语音识别是将语音信号转换为文本的过程。
在数字语音处理中,语音识别是一个重要的研究方向。
常用的语音识别方法包括基于隐马尔可夫模型(HMM)的方法和基于深度学习的方法。
语音识别的应用包括语音助手、语音翻译和语音命令等。
五、语音合成语音合成是将文本转换为语音信号的过程。
在数字语音处理中,语音合成可以通过拼接已有的语音片段或者通过合成参数来实现。
语音合成的应用包括语音导航、语音广播和语音播报等。
六、语音增强语音增强是指通过信号处理技术提高语音信号的质量。
在实际通信中,语音信号可能会受到噪声、回声等干扰,语音增强可以帮助提高语音的清晰度和可懂度。
常用的语音增强技术包括降噪、回声消除和语音增益等。
七、语音情感识别语音情感识别是指通过语音信号分析判断说话人的情感状态。
语音情感识别可以应用于情感智能交互、情感监测和情感诊断等领域。
常用的语音情感识别方法包括基于声学特征的方法和基于深度学习的方法。
第一次作业:1:、声音可分为两种:纯音和复合音,平常人们说话的声音属于哪一种?语音的频率范围是多少?音频通常包括哪几种声音信号?其频率范围是多少?2、请说明音频信号数字化的三个步骤?3、如何理解“量化是信号数字化过程中重要的一步,而这一过程又是引入噪声的主要根源”这句话的含义?通过哪些途径可以减小量化误差?4对双极性信号若采用均匀量化,则量化信噪比SNR与量化比特数之间的关系为:SNR=6.02xN+1.76dB,试分析此式对实际量化与编码的指导意义?5:、A/D、D/A转换器的技术指标有哪些?答:1:人们说话的声音为复合音,语言的频率范围为300HZ-3000HZ。
音频暴多语音、音乐、效果声等声音信号,频率范围为20HZ-20KHZ。
2:1取样:对连续信号按一定的时间间隔取样。
奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。
但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。
2量化:取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。
量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。
一般有8位,12位或16位。
量化精度越高,声音的保真度越高。
以8位的举例稍微说明一下其中的原理。
若一台计算机能够接收八位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信号的电平,可以有256种,但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等,此时只能用最接近的数字代码表示取样信号电平。
3编码:对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。
波形声音的主要参数包括:取样频率.量化位数.声道数.压缩编码方案和数码率等,未压缩前,波形声音的码率计算公式为:波形声音的码率=取样频率*量化位数*声道数/8。
第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。
p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。
p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。
p5d22.语音的基本声学特性包括音色,音调,音强、音长。
p7d2音色:也叫音质,是一种声音区别于另一种声音的基本特征。
音调:是指声音的高低,它取决于声波的频率。
音强:声音的强弱,它由声波的振动幅度决定。
音长:声音的长短,它取决于发音时间的长短。
3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
p7d34.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。
p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。
p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。
)p7d39.元音的一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。
p7d510.汉语音节一般由声母、韵母和声调三部分组成。
汉语普通话中有6000多个常用字,每个汉字是一个音节。
p10d610. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。
11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。
p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。
p9d1114. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。
15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。
p21-2616.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。
p21d617.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。
p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。
p25d217.设截取的一段语音共有160个样本,而采样频率为8kHz ,则该段语音持续时间为20ms 。
18.设采样频率为8kHz ,则25ms 长的语音共有200个采样值。
18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram ,或者Spectrogram )p29d119.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
p29d120.传输函数形式为121()1Mii ii a V z b zc z--==--∏的共振峰模型为(2)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;21.传输函数形式为121()1Mii ii a V z b zc z --==--∏的共振峰模型在结构上为(1 )模型;1.级联型2.并联型;3.混合型;4.以上都不是;22.传输函数形式为121()1Mii i iA V zB zC z --==--∑的共振峰模型为(3)数学模型; 1.全零点; 2.全极点; 3.极零点; 4.以上都不是;23.传输函数形式为121()1Mii i i A V z B zC z --==--∑的共振峰模型在结构上为(2)模型; 1.级联型2.并联型;3.混合型;4.以上都不是;24.简述语音产生过程的三个模型:25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。
发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch ),其倒数成为基音频率。
一般来说,男性说话的基音频率大致分布在50-200Hz 范围内,女性和小孩的基因频率在200-450Hz 之间。
人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。
共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。
,相应的频率用F1、F2、F3。
表示。
一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。
语谱图描述了语音信号随时间而变化的频谱特性。
纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。
26.汉语中的四种声调与基音频率的关系是什么?无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。
29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。
音调与声音的频率并不成正比,还与声音的强度及波形有关。
描述音调的单位是美(mel )。
一个高于听阈40dB 、频率为1KHz 的纯音所产生的音调定位1000mel ,如果一个纯音听起来比1000mel 的声音调子高一倍,则其音调为2000mel 。
音调与频率的关系近似表示为:3323.23lg(10.001)mel Hz T f ≈+27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。
第三章 语音信号分析21.语音信号分析采用短时分析技术。
p32d220. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。
根据分析方法的不同,分为模型分析方法和非模型分析方法两种。
p32d322.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。
23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。
25.对于频率分布为0~3400Hz 的语音信号,最低无失真采样频率应为6800Hz (2倍采样)25.若信号波形的变化足够大,或量化间隔Δ足够小时,以下有关量化噪声描述错误的是(4)p33d21.是平稳的白噪声过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布4.是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析?(4) 1.短时过零率分析; 2.短时相关分析;3.短时平均幅度差函数;4.同态分析;短时能量的主要用途不包括以下那一项(4)p38d5 1.可以区分浊音段和清音段;2.可以用来查找声母和韵母的分界;3.可以用来查找无声和有声的分界;4.可以区分高频和低频分量;24.采用自相关函数法对基音周期进行估计时,先用60~900Hz 的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d2 1.可减少共振峰的影响; 2.可抑制50Hz 的电源干扰;3.可保留基音频率的一、二次谐波;4.为了防止8kHz 采样时发生混叠干扰; 定义语音信号()n x m 的短时自相关函数()n R k 为:10()()(),0N kn n n m R k x m x m kk K --==+<≤∑,则以下表述错误的是(2):p40d3 (1) 如果()n x m 是周期的,则()n R k 是同周期的周期函数; (2) ()n R k 是奇函数; (3) (0)()n n R R k ≥7.设序列x(n)的短时能量定义为:[]2()().n m E x m w n m ∞=-∞=-∑其中窗函数表示为:,0()0,0m a m w m m ⎧≥=⎨<⎩ 试求E n 的一个递推公式,用E n-1和输入x (n )表示E n8.设序列x(n)的短时能量定义为:[]2()().n m E x m w n m ∞=-∞=-∑其中窗函数表示为:,()0,m a m Nw m others⎧≤⎪=⎨⎪⎩试求E n 的一个递推公式9.设短时平均过零率的定义为:[][]11sgn ()sgn (1)2nn n N Z x m x m N-+=--∑证明{}11sgn[()]sgn[(1)]sgn[()sgn[(1)]2n n Z Z x n x n x n N x n N N-=+-------1.语音的时变性与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。
但在较短时间内(10-30ms )语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。
11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么? 自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。
因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。
利用短时平均幅度差函数的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。
12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么? 相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。