当前位置:文档之家› 语音信号处理论文

语音信号处理论文

《语音信号处理》

姓名

学号

院系信息工程学院

专业信息与通信工程班级信研1203班

提交时间:2013年4月

一基于频谱包络的语音转换技术研究

摘要:本文给出了语音转换的定义,介绍了语音转换的用途,分析了表征说话人个性特征的语音参数,研究了语音转换的系统结构,对语音转换的实现主要从频谱包络的转换进行了研究讨论,分析并介绍了语音转换现在的发展水平及存在的问题。

关键词:语音处理;语音转换;频谱包络:高斯混合模型

1 引言

1.1语音转换的概念

语音转换(VC, voice conversion 或VT, voice transformation)是指改变一个说话人(源说话人,source speaker)的语音个性特征,使之具有另外一个说话人(目标说话人,target speaker)的语音个性特征。语音包含很多信息,其中最主要的是语义信息,另外一个很重要的信息为语音的个性化信息。语音转换就是要保留原有语义信息不变,而改变语音的个性化信息,使一个人的语音经语音转换后听起来象是另外一个人说的语音。

语音转换可以分为两类:一类是非特定人语音转换,只需将原话者的声音变掉即可;另一类为源-目标说话人声音转换,是将原话者的声音转换为特定目标者的声音。

这两类语音转换在本质上是相同的,都要实现语音特征参数的转换,但两种转换的要求程度又是不同的。非特定人语音转换只是使语音的说话人个人特征发生改变,而不像源-目标说话人声音转换确定为由源语音转换为目标语音。应该说,前者较后者要求宽松,可以讲源-目标说话人声音转换看做是一种目的性更强,要求更加严格的声音转换,其实现起来也更难。

1.2语音转换的应用

语音转换的用途是很广泛的,下面列举几个应用例子。

(1)在文语转换(TTS, text-to-speech)系统中的应用。将合成的语音再通过一个VC系统,或者将合成单元先通过VC转换,再进行TTS合成,将其转换为特定人的声音特征,使单调的合成语音具有更多的个性特征。

(2)在电影配音中的应用。在电影配音中,配音演员使配音与原演员的个性特征相差很大,但如果将配音再进行VC转换,使之重新具有演员本人的个性特征,那么配音效果就会理想的多。

(3)语音转换思想可以用于恢复受损语音,帮助声道受损的说话人的语音提高可懂度。

(4)语音转换可用于单个说话人的语音质量的控制,可以纠正在TTS中录音人长时间的录音而导致录音质量发生的变化。

(5)可用于保密通信中进行语音个性化的伪装。

(6)可以用于语音识别的前端预处理,以减少说话人差异的影响。

2 语音转换的原理

2.1 语音的个性化特征描述

表征语音个性化的语音特征可以分为以下三类:

(1)音段特征:描述的是语音的音色特征。特征参数主要包括共振峰的位置、共振峰的带宽、频谱倾斜(spectral tilt)、基音频率、能量等。音段特征主要与发音器官的生理学和物理学特征有关,也与说话人的情绪状态有关。

(2)超音段特征:描述的是语音的韵律特征。特征参数主要包括音素的时长、基音频率的变化(音调)、能量等。

(3)语言特征(linguistic cues):包括习惯用语、方言、口音等。

现在的语音转换系统,主要是对音段特征进行控制和转换;对于超音段特征如基音频率轮廓、能量轮廓、和说话人速率等特征一般都是进行平均值转换以与目标语音的平均特征值相匹配,之所以没有对超音段特征进行详细的建模、控制和转换,主要是由于在现在语音技术水平下,很难对高层的语音特征进行提取和操作。现在的语音转换系统中,用于转换的语音特征可以分为包含共振峰频率、共振峰带宽、频谱倾斜的表征声道滤波特性的频谱包络特征和包含基音频率、时长、能量的韵律特征两大类。

2.2 语音转换系统结构

一个完整的语音转换系统包括提取说话人个性信息的声学特征,建立两话者间声学特征的映射规则,以及将转化后的语音特征合成语音信号3个部分。说话人语音转换是首先提取说话人身份相关的声学特征参数,然后再用改变后的声学特征参数合成出新的接近目标语音的语音。语音转换的实现在总体上分为训练和转换两个阶段。

在训练阶段都要先进行源语音和目标语音的分析和特征提取,提取语音的模型参数,源语音和目标语音对应于相同语音内容的语音特征要进行对齐,采用的方法有动态时间规整、非监督HMM法等。通过这些对齐的参数来估计转换规则,转换规则就是要捕捉源语音和目标语音特征之间的对应关系。

在转换阶段,利用训练阶段获得的匹配函数,对源说话人的个性特征参数进行转换,最后利用转换后的特征参数合成出接近目标说话人的语音。说话人语音转换的核心问题就是找出源说话人和目标说话人之间的匹配函数。目前已经形成了很多比较经典的转换算法,尽管思路不同,但是一个完整的说话人语音转换系统一般会考虑以下两个因素:

(1)选择一个理想的分析合成模型,为了获得良好的语音转换效果,必须要建立一个有效的分析合成语音的数学模型。

(2)选择一种较为理想的转换算法,在源说话人和目标说话人的个性特征参数之间建立一个有效的匹配函数,这也是说话人语音转换的核心所在。图1所示,为语音转换系统结构图。

图1 语音转换系统结构图

2.3 语音模型

选择的语音模型要能够准确提取语音频谱包络特征和韵律特征,能够准确有效的实现频谱包络和韵律特征的控制和转换,现在语音转换的研究大都采用声源-滤波(source-filter)的语音模型,将语音分解为声源激励部分和声道滤波部分,具体的说,所采用的语音模型主要有LPC语音模型和基于倒谱包络的语音模型。LPC语音模型是应用较多的语音模型,LPC模型符合语音产生原理,它可以将语音有效的分解为谱包络部分(由LPC系数表示)和激励部分(由LPC的残差表示)。

3 频谱包络转换

频谱特征参数的转换和韵律信息的转换是语音转换的最基本的内容,在语音转换方法的选择上,现在国内外的研究主要集中在频谱参数的转换方法上,因此提出了许多关于频谱参数的转换方法,而韵律信息的转换研究则相对弱一点。因此,下面语音特征的转换只介绍频谱包络所采用的方法。

频谱包络的语音转换是语音转换中最重要的一个方面,因为与频谱包络相关的共振峰位置、共振峰带宽和频谱倾斜对语音的个性特征贡献很大。对于基于LPC语音模型的转换,LPC系数都要先等效的转换为其推演参数LSF、伪对数面积比、对数面积比、PARCOR系数、LPC倒谱等,然后再对这些LPC的推演参数进行转换,来实现频谱包络的转换。而对于基于倒谱包络语音模型的转换,则先要通过对语音进行频谱分析,得到倒谱系数或者MFCC系数,再进行转换。

3.1 向量量化法

首先对源说话人和目标说话人的语音频谱参数空间进行量化,使源语音和目标语音的码向量一一对应,分别得到M 个源语音的码向量u s k(k=1,2,?M)和M 个

目标语音的码向量u t k (k =1,2,?M )。

然后在训练阶段通过训练得到由每一个源语音码向量u s k 到M 个目标语音码向量u t k (k =1,2,?M )的映射码书H ,H 为M ×M 的矩阵。映射码书的建立过程如下:

(1)由源和目标说话人产生学习单词集,然后所有的单词逐帧进行向量量化。

(2)用动态时间规整技术(DTW )对两个说话人的相同的单词向量进行对齐。

(3)两说话人之间的向量对应关系累积成柱状图。应用柱状图作为加权系数,映射码书就为目标语音向量的线性合成时的加权系数。

在转换阶段,先将源语音的谱包络系数量化为源语音向量空间的第l 个向量。

则转换的码向量y

?由式(1)得到 ∑==M

k tk lk u h

y 1? (1)

其中,h lk 为映射码书H 的元素,满足∑

==M

k lk h 11,u t k 为目标语音码向量。

3.2 说话人插值法

采用基于事先存储的多个说话人频谱包络进行插值的方法得到转换语音的频谱包络。频谱包络通过慢变化的插值率来进行平滑的转换。对于这种方法,少数几个说话人的语音频谱包络参数首先预存在合成系统中,多个说话人的相同语音的频谱序列首先进行动态时间规整(DTW ),用式(2)进行插值实现转换

∑==M

k i k k i x w

y 1? (2)

其中,

11=∑=M

k k w i k x 表示第k 个说话人的第i 帧的频谱包络参数向量;M 表示预先存储的说

话人数;k w 表示第k 个说话人插值率;i y

?表示插值后得到的第i 帧的频谱包络参数向量。最佳插值率w 1,w 2…w M 由式(3)函数的最小化来得到

221)?(),...,(∑-=i i i M y y

w w w F (3)

其中, y i 表示目标说话人的第i 帧频谱包络参数向量。

3.3 动态频率规整(DFW )

用DFW (dynamic frequency warping )法来实现频谱包络的转换的实现过程为:首先应用标准的DTW 法将源语音和目标语音中提取的频谱包络特征参数进行对齐;然后应用标准的非监督分类技术将源说话人和目标说话人的声学空间分成非叠加的类;然后在每一类内计算源语音和目标语音的对数幅度谱,去掉频谱倾斜,记录幅度值;根据源语音和目标语音频谱得到频率规整函数,它满足公式

(4)中的频率归一化距离最小

}])())][()(),(({[min ),(111.-==∑∑=p

k p k s t c s t k w k w k j k i d

s s D (4)

其中,C 为频率规整路径)

()));((),((),,...2,1}({k w k i w k i C p k C C k k ===为加权系数,用来对距离进行归一化;)()(),(.j s i s j i d s t s t -=为频谱距离。

规整路径可以用规整曲线表示。规整函数的数目等于类中的频谱向量对的数目。对于每一类得到一个平均的规整函数,它可用一个三阶多项式来表示。

在转换阶段,首先将频谱包络参数归类,确定采用的转换函数;然后计算对数幅度谱包络,去掉频谱倾斜,进行转换,最后将目标语音的频谱倾斜加上,即得转换的频谱包络。

3.4 高斯混合模型法(GMM )

高斯混合模型法(Gaussian Mixture Model, GMM )可以看做是一种状态数为1的连续分布马尔科夫模型。一个M 阶混合高斯模型的概率密度函数是由M 个高概率密度函数加权求和得到的,所以如下

==M

i i i X b w X P 1)()/(λ (5)

其中X 是一个D 维随机向量,M i X b i i ,...,1),(=是子分布,M i w i ,...,1,=是混合权重。

每个子分布是D 维的混合概率分布,可表示为

})()(21e x p {)2(1)(1

21

2∑∑----=

i i i

i i

D i X X X b μμπ (6)

其中i μ是均值向量,∑i 是协方差矩阵,混合权重值满足条件∑==M

i i w 1

1。完整的混合高

斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为M i w i i i ,...,1},,,{==∑μλ

对于给定的时间序列X={X t },t=1,2,..,T ,利用GMM 模型求得的对数似然度可定义如下

∑==T i t X P T X L 1)/(log

1

)/(λλ (7)

当用高斯模型对数据进行训练时,常用最大似然估计,对于长度为T 的训练矢量序列X={X 1,X 2,…X T }的似然度可表示为

==T

t t X P X P 1)/()/(λλ (8)

4 总结

上面列出了目前语音转换中主要的频谱包络转换方法,除此之外还有神经网络法和线性多变量回归法等。向量量化法是将转换规则根据源语音的特征空间首先进行分类,再对每一类通过训练建立相应的转换关系,是符合实际的,这种方法取得了较好的效果,但由于这种方法是将语音的频谱特征空间进行量化“硬”归类,则必然使转换的语音特征存在不连续性,从而使转换的语音质量下降;高斯混合模型法则对语音的频谱特征空间采用概率的方法进行“软”分类,就有效的克服向量量化法的不连续性,但同时也使频谱包络进行了平滑处理,使共振峰特性下降。说话人插值法的转换性能要受到所选的参考说话人的影响,其优点是当训练语料很少时仍能得到较好的语音转换效果;DFW 法能改变语音频谱包络的共振峰的位置和带宽,但对频谱幅度却无能为力;上面提到的转换方法都对语音频谱包络转换起到积极的作用,但转换的频谱包络与目标语音频谱包络仍有一定的差别,高效的频谱包络转换法仍需要进一步研究。

现在的语音转换主要是基于音段的转换,对于超音段的转换研究的还比较少,对于语言特征的转换就更少,这样得到的转换效果是“粗”的,不能反映说话人的长时间动态特性。由于语音特征的修改,常常使转换后的语音质量下降,引入许多噪音和声音的失真等。

对于语音转换效果的提高,一方面要进一步研究语音产生的原理;另一方面要研究更加精确有效的语音模型,以便于更加方便和有效的对语音的个性特征进行控制和转换;语音转换得到的语音质量还有待提高。

参考文献

[1]赵力.语音信号处理[M].北京:机械工业出版社,2009.

[2]李波.语音转换及相关技术综述[J].通信学报,2005.

[3]李波.语音转换的关键技术研究[D].国防科技大学博士学位论文,2005.

[4]左国玉.声音转换技术的研究与进展[J].电子学报,2005.

[5]张照坤.语音转换关键技术研究[J].南京邮电大学学报,2008.

二语音信号高斯混合模型(GMM)技术的MTLAB实现摘要:利用Windows平台与MATLAB软件,设计了一种基于GMM的与文本无关的说话人识别系统,系统包括端点检测,特征提取,参数训练,说话人识别四部分。该系统性能稳定,使用方便,可用于语音信号的频谱分析,实时处理。

关键词:说话人识别;MATLAB;GMM

1 引言

说话人识别是从说话人发出的语音信号中自动提取说话人的信息,并对说话人进行识别的研究领域。它是一类特殊的语音识别,其目的不是识别说话人讲的内容,而是识别说话人是谁。根据识别的对象不同,说话人识别可分为与文本有关,与文本无关,文本提示型三大系统。其中,与文本无关的识别方法是当前说话人识别技术的研究重点。从现有的文献来看,针对与文本无关的说话人识别,GMM能取得比较好的性能,本文的工作就是设计一个用MATLAB软件编程的基于GMM的说话人识别系统。

2 说话人识别系统结构

说话人识别系统包括预处理阶段,特征提取,参数训练,说话人识别四部分。

2.1 语音信号的采集

调用waverecord函数可以实现录音功能:调用x=waverecord(n,fs,ch,dtype),这里n为采样的点数,它决定了录音的长度。Fs为采样频率,默认值为11025,ch为通道数,默认为1,如果制定为2,则采样为双声道立体声数据,该参数可以省略。Dtype为采样数据的存储格式。并且用函数wavread读入录好的语音。

2.2 预处理阶段

主要包括:语音信号分帧,端点检测。

经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音信号进行分析,应假设语音信号在10m s-30m s短时间内是平稳的。为了得到短时的语音信号,要对语音信号进行加窗操作。窗函数平滑地在语音信号上滑动,就将语音信号分成帧。分帧时可以采用交叠分段的方法,交叠部分称为帧移,一般

为窗长的一半。本系统采用了voice box 工具箱中的函数enframe对语音信号进行分帧。

通常情况下,由于清音段信号随机性较强,频频穿过零点,所以短时过零率较高,而在浊音段,信号短时过零率要低一些,但能量要比清音的能量大得多。

所以在本系统中,利用过零率检测清音,用短时能量检测浊音,两者配合实现可靠的端点检测。

图1 端点检测

2.3 MFCC参数提取

MFCC:Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。

2.4 识别算法实现

GMM算法在上一文中已经提到。GMM模型中的参数估计采用最大似然估计,即EM算法,是通过迭代过程来完成的。GMM模型的训练流程图如图2所示。

图2 GMM 模型的训练流程图

3 MATLAB 的仿真

本实验中用MATLAB 对说话人辨认系统进行了仿真,该实验共录制了10个说话人的话音作为训练样本,运行程序里的主函数untitled.m 。本次试验采用GUI 形式的仿真界面,如图3所示。

图3 语音识别GUI 界面

这种界面友好、方便,很直观的、简单的就可以进行语音识别并且显示语音特征的提取。

根据上图先进行录音,然后进行码本训练。当录音“你好你好”后,界面显示此语音的特征参数如图4所示。

图4 训练样本的特征参数

接下来对识别框架里的录音进行操作,同样输入“你好你好”,然后进行特

征提取显示如画5所示。

接着按下识别按钮界面会显示下图6。

由上述可以看到识别时的语音与训练时的第1个训练者匹配符合事实。实验

结果达到预期效果。基于GMM模型的说话人识别其简单方便,高效准确的特点越来越受到关注。由于此系统的MTALB程序较长,在此就不与列出,程序,语音及结果都放到了文件夹中。

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

电子信息工程专业考研学校排名

电子信息工程考研方向解读 电子信息工程考研的方向其实很多的,不过大家所知道甚少,笔者就搜集整理一些有关该专业的考研方向,希望对大家有所帮助。考研方向中不同的学科是不同的,分为一级学科是学科大类,二级学科是其下的学科小类;对于学校而言,二级学科无法申请成为一级学科,但是可以申请成为硕士和博士学位授予点,而一级学科一旦申请成功,其下的所有二级学科都可申请成为博士学位授予点。 例如: 0809 一级学科:电子科学与技术 080901 物理电子学080902 电路与系统 080903 微电子学与固体电子学080904电磁场与微波技术 0810 一级学科:信息与通信工程 081001通信与信息系统☆081002信号与信息处理☆ 0811 一级学科:控制科学与工程 081103 系统工程081104模式识别与智能系统 我找了以下专业方向以供大家参考,共十二大类。其中有些是与物理、机械、光电、电气、自动化、计算机等交叉的学科,但电信专业的学生可以报考。 1电路与系统 2集成电路工程 3自动控制工程 4模式识别与智能系统 5通信与信息系统 6信号与信息处理 7电子与通信工程 8电力电子与电力传动 9光电信息工程 10物理电子学 11精密仪器及机械简介 12测试计量技术及仪器 01.电路与系统 电路与系统学科研究电路与系统的理论、分析、测试、设计和物理实现。它是信息与通信工程和电子科学与技术这两个学科之间的桥梁,又是信号与信息处理、通信、控制、计算机乃至电力、电子等诸方面研究和开发的理论与技术基础。因为电路与系统学科的有力支持,才使得利用现代电子科学技术和最新元器件实现复杂、高性能的各种信息和通信网络与系统成为现实。 学科概况 信息与通讯产业的高速发展以及微电子器件集成规模的迅速增大,使得电子电路与系统走向数字化、集成化、多维化。电路与系统学科理论逐步由经典向现代过渡,同时和信息与通讯工程、计算机科学与技术、生物电子学等学科交叠,相互渗透,形成一系列的边缘、交叉学科,如新的微处理器设计、各种软、硬件数字信号处理系统设计、人工神经网络及其硬件实现等。 电路与系统专业排名是

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

数字音频技术期末考试试卷

《数字音视频技术》期末考试试卷 一.选择(每题2分,共20分) 1.可闻声的频率范围() A.20~2000Hz B.200~20000Hz C.20~20000Hz D.200~2000Hz 2.下面哪一种相加混色产生的色彩是错误的() A.红色+绿色=黄色 B.红色+蓝色=橙色 C.蓝色+绿色=青色 D.红色+绿色+蓝色=白色。 3.不是数字图像的格式的是() A.JPG B. GIF C. TIFF D. WAVE 4.在音频数字化的过程中,对模拟语音信号处理的步骤依次为()A.抽样编码量化 B. 量化抽样编码 C. 抽样量化编码 D. 量化编码抽样 5.将声音转变为数字化信息,又将数字化信息变换为声音的设备是() A.声卡B.音响 C. 音箱D.PCI卡 6.不属于国际上常用的视频制式的是() A.PAL制 B.NTSC制C.SECAM制D.MPEG 7.数字音频采样和量化过程所用的主要硬件是() A.数字编码器 B.数字解码器 C.模拟到数字的转换器(A/D转换器) D.数字到模拟的转换器(D/A转换器) 8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫() A.多媒体技术B.流媒体技术 C.云技术D.动态处理技术

9.影响声音质量的因素不包括() A.声道数目B.采样频率 C.量化位数D.存储介质 10.我们常用的VCD,DVD采用的视频压缩编码国际标准是()A.MPEG B.PLA C.NTSC D.JPEG 二.填空(每空2分,共30分) 1.音质三要素:、和。 2.色彩三要素:、和。 3.混色的方法有:和。 4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。 5.色彩模型中的三基色原理是指利用、和三种色光混合,可以产生各种色彩。 三.简答题(每题10分,共50分) 1.常见数字音频文件格式有哪些? 2. 常见数字视频文件格式有哪些? 3.什么是5.1声道环绕立体声?

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

《语音信号处理》期末试题总结

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

通信中的语音信号处理复习大纲

《通信中的语音信号处理》复习大纲 北科大版 1、了解语音信号处理的目的、实质和发展历史; 实质:是研究用数字信号处理技术对语音信号进行处理的一门学科 目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算以达到某种要求。 发展历史:1876年电话的发明,贝尔(Bell); 1939年声码器的研制成功—声源+声道; 1947年贝尔实验室发明语谱图仪—语音识别研究的开始; 50年代第一台口授打字机和英语单词语音识别器; 60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器; 70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别; 80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。 CMU语音组研制成功SPHINX系统(997,95.8%); 国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。 (除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。) 2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率; 1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容, 有用信息更易于被提取; 2. 语音信号数字表示的优点: 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。 3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章) 语音信号的特点—短时平稳性 4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算 短时频域分析—短时傅立叶分析 线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数 倒谱和同态分析、矢量量化和隐马尔可夫模型 5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps ADPCM:采样率:8khz速率:32kbps 3、理解语音信号的产生过程、发生机理和语音信号的声学特性; 产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应 发生机理: 声学特性:频率:与音高有关;振幅:与响度有关。 4、理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法; 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。 共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。

语音信号处理复习纲要

Ch1 绪论 §1.1 语音信号处理概述 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。 二、语音处理技术的应用领域 语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。 三、语音信号采用数字处理的原因(数字语音的优点) 语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点: 1、数字技术能够完成许多很复杂的信号处理工作; 2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理; 3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务; 4、数字语音适合在强干扰信道中传输,也易于加密传输。 四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §1.2 语音信号处理的发展概况 一、语音信号处理的发展史 1、1874年:电话的发明时现代语音通信的开端; 2、1939年:通道声码器技术; 3、40年代后期:语谱仪; 4、50年代初:第一台口授打字机和英语单词语音识别器; 5、60年代:Fant发表《语音产生的声学理论》; 6、70年代初:Flanagan著作《语音分析、合成和感知》; 7、90年代以来:语音识别的研究由实验室走向实用化。 二、语音编码、语音合成、语音识别名词解释 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。 3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。 为了实现人机语音通信,必须具备语音识别和语音理解两种功能 Ch2 基础知识 §2.2 语音产生的过程 一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。 二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课) 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。 2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。 3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

数字语音信号处理的应用价值及发展趋势

数字语音信号处理的应用价值及发展趋势 姓名:宁闯 学号: 201005107 众所周知, 语音在人类社会中起了非常重要的作用。 在现代信息社会中, 小至人们的日 常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、 移动电话和互联网已经普及到家庭。在这些先进的工具中, 语音信号处理中 的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机 ( 又称听写机, 它能把语音转换为文字 ) 、 语音翻译机 ( 例如输入为汉语,输出为英语, 或者相反 ) ,已经不是 梦想而是提到日程上的研究工作了。 20 世纪 60 年代中期形成的一系列数字信号处理方法和算法 , 如数字滤波器、快速傅 里叶变换 (FFT) 是语音数字信号处理的理论和技术基础。而 70

年代初期产生的线性预测编. 码 (LPC) 算法 , 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、 语音识别与合成、自然语言理解、多媒体 数据库以及互联网等多个领域有广泛的应用 , 同时它对于理解音频类等一般的声音媒体的 特点也有很大的帮助。对于移动通信来说 , 最多的信息是语音信号 , 语音编码的技术在数字 移动通信中具有相当关键的作用 , 高质量低速率的语音编码技术是数字移动网的永远的追 求。所谓语音编码是信源编码 , 它是将模拟语音信号变成数字信号以便在信道中传输。除了 通信带宽的要求外 , 计算机存储容量的限制也要求对语音信号进行压缩 , 以满足海量数据情 况下进行实时或准实时计算机处理的目的。 1 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论 , 它的主要研究内容是语音编 码和语音压缩技术。 考虑到人对听觉媒体的感应特点 , 研究语音信号处理必须与声音心理学 联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1) 声音心理学

2003《多媒体技术基础》试题

通信2003《多媒体技术基础》试题(90分钟) 一、填空(每空1分,共27分) 1.等信息的载体中的两个或多个的组合成为多媒体。 2.对于音频,常用的三种采样频率是;; 3.在多媒体技术中,存储声音的常用文件格式有文件、文件、文件、文件。 4.样本精度为8位的信噪比等于分贝 5.大多数光盘驱动器所采用的控制接口可分为:。 6.多媒体数据数据压缩编码方法可分为两大类:一类是、另一类是。 7. 多媒体计算机处理图象和视频,首先必须将连续的图象函数f(x,y)进行空间和幅值的离散化处理,空间连续坐标(x,y)的离散化,叫做:f(x,y)颜色的离散化称之;为两种离散化结合在一起叫做。 8.MPEG编码的原理简化框图如下则①;②;③; 9、数码相机中的感光器件不是传统相机中的胶卷,而是, 10、两种典型的软件开发模型;。多媒体系统开发一般用模型 11、从统计学的角度来看,消息出现的可能性越大,信息越,反之,消息出现的可能性越小,信息越。 12 、MPEG-1标准的视频压缩算法中的两个技术基础是基于DCT变换的ADCT技术和基于块的。 13、JPEG压缩编码算法的主要计算步骤是:①DCT变换,②量化,③Z字形编码,④使用DPCM对直流系数(DC)进行编码,⑤使用RLE对交流系数(AC)进行编码,⑥熵编码。假设计算机的精度足够高,问在上述计算方法中,计算对图像的质量是有损的。 14、如果有一幅256色的图像,问该图的颜色深度是 二、判断题,请给正确的打上“√”,错误的打上“╳”。(每小题2分,共8分) 1.在音频数字处理技术中,要考虑采样、量化和编码问题。() 2.对音频数字化来说,在相同条件下,立体声比单声道占的空间大,分辨率越高则占的空间越小,采样频率越高则占的空间越大。() 3.根据采样定理,采样的频率至少高于信号最高频率的1倍。采样的频率越高,声音“回放”出来的质量也越高,但是要求的存储容量也越大。() 4.位图可以用画图程序获得() 三、单项选择(每小题1分,共20分) 1.超文本是一个()结构。 A、顺序的树形B、非线性的网状 C、线性的层次D、随机的链式 2.多媒体数据具有()特点。 A、数据量大和数据类型多 B、数据类型间区别大和数据类型少 C、数据量大、数据类型多、数据类型间区别小、输入和输出不复杂 D、数据量大、数据类型多、数据类型间区别大、输入和输出复杂

贵大语音信号处理试卷2012-2013

一、填空 1、物理声学认为声波具有音调、音强、音长和音色四种要素。P7 2、频率低于20Hz的信号称为次声。 3、元音频谱有明确的共振峰结构。P28 4、宽带语谱图的带宽约为300 Hz。P29 5、语谱图中冲直条代表基音或赛擦音。P29 6、语音信号的频率越低,相应的能量越高。 7、矩形窗的主瓣宽度最小,旁瓣高度最大,会导致泄漏现象。P45 8、语谱图中垂直条纹的基音条纹间隔是基音的周期。P29 9、清音时能量集中于较高频率段内,具有高的过零率。P38 10、对数功率谱的逆傅里叶变换是一个空间域。 二、选择题: 1、窄带语谱图具有良好的(a)分辨率。P29 A、频率 B、时间 C、视觉 D、感觉 2、窄带语谱图的带宽约为(a)Hz。P29 A、45 B、90 C、180 D、300 3、标准量化是将取样后的信号值( b )地进行量化。P86 A、全部 B、逐个 C、局部 D、同时 4、人工神经网络由( d )三者构成。P117 A、神经元 B、网络拓扑 C、学习算法 D、神经元,网络拓扑,学习算法 5、短时自相关函数可以很明显的反映(d )信号的周期性。P40 A、清音 B、摩擦音 C、爆破音 D、浊音 6、一个脉冲序列信号可以用(d )表示。 A、ejω B、sinωi C、u(t) D、δ(t) 7、周期信号在频域里有(b)结构特点。 A、连续 B、谐波 C、周期 D、单值 8、语音信号是一种典型的( b )信号。P286 A、确定 B、随机 C、模糊性 D、混沌性 9、脉冲编码制PCM编码速率(c)。P144 A、16kbit/s B、32kbit/s C、64kbit/s D、126kbit/s 10、语音信号预滤波的目的是(c)。P33 A、防止混叠干扰 B、抑制50Hz的电源干扰 C、防止混叠干扰和抑制50Hz的电源干扰 D、防止清音干扰 三、判断题 1、辅音发声时的阻碍的位置叫调音点(r)。P9 2、窄带语谱具有良好的时间(频率)分辨率,但频率(时间)分辨率较差(x )。P29 3、不能直接对语音信号进行傅里叶变换(r )。P65 4、语音信号预加重的目的是为了提升高频,使信号的频谱平坦(r)。P34 5、语音信号处理窗口的长度一般为126点(X )。P37 6、矩形窗频率分辨率最低(高),频率泄漏最小(x )。P45 7、过零率就是每秒内信号值通过最大值的(信号波形穿过横轴)次数(x)。p38 8、浊音时能量集中于较高频率段内,具有较高(较低)的过零率(x)。P38 9、矢量量化是一种信号(信号压缩和编码的)处理方法(x)。貌似对的p86 10、HMM是一种随机过程(r)。P100 1、论述发音器官产生元音的条件。P7 a、声道受到声带振动的激励引起共振; b、在语音流的持续过程中,声道不发生极端的狭窄并维持较稳定的形状; c、和鼻腔不发生耦合,声音只从口腔辐射出去。这三个条件需同时满足,否则该语言就是辅音。

广州大学 数字语音处理复习题

第一章绪论 1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3 2.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d3 3.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3 第二章语音信号处理基础知识 1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d2 2.语音的基本声学特性包括音色,音调,音强、音长。p7d2 音色:也叫音质,是一种声音区别于另一种声音的基本特征。 音调:是指声音的高低,它取决于声波的频率。 音强:声音的强弱,它由声波的振动幅度决定。 音长:声音的长短,它取决于发音时间的长短。 3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d3 4.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。p7d3 8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d3 9.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3 7.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d3 8.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d3 9.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d5 10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d6 10. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。 11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d11 14. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。 15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-26 16.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d6 17.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d2

基于MATLAB的语音信号处理系统设计(程序+仿真图)--毕业设计

语音信号处理系统设计 摘要:语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。语音信号处理的目的是得到某些参数以便高效传输或存储,或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。本文简要介绍了语音信号采集与分析以及语音信号的特征、采集与分析方法,并在采集语音信号后,在MATLAB 软件平台上进行频谱分析,并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器滤除噪声,恢复原信号。利用MATLAB来读入(采集)语音信号,将它赋值给某一向量,再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波,然后我们还可以通过sound命令来对语音信号进行回放,以便在听觉上来感受声音的变化。 关键词:Matlab,语音信号,傅里叶变换,滤波器 1课程设计的目的和意义 本设计课题主要研究语音信号初步分析的软件实现方法、滤波器的设计及应用。通过完成本课题的设计,拟主要达到以下几个目的: 1.1.了解Matlab软件的特点和使用方法。 1.2.掌握利用Matlab分析信号和系统的时域、频域特性的方法; 1.3.掌握数字滤波器的设计方法及应用。 1.4.了解语音信号的特性及分析方法。 1.5.通过本课题的设计,培养学生运用所学知识分析和解决实际问题的能力。 2 设计任务及技术指标 设计一个简单的语音信号分析系统,实现对语音信号时域波形显示、进行频谱分析,

利用滤波器滤除噪声、对语音信号的参数进行提取分析等功能。采用Matlab设计语言信号分析相关程序,并且利用GUI设计图形用户界面。具体任务是: 2.1.采集语音信号。 2.2.对原始语音信号加入干扰噪声,对原始语音信号及带噪语音信号进行时频域分析。 2.3.针对语音信号频谱及噪声频率,设计合适的数字滤波器滤除噪声。 2.4.对噪声滤除前后的语音进行时频域分析。 2.5.对语音信号进行重采样,回放并与原始信号进行比较。 2.6.对语音信号部分时域参数进行提取。 2.7.设计图形用户界面(包含以上功能)。 3 设计方案论证 3.1语音信号的采集 使用电脑的声卡设备采集一段语音信号,并将其保存在电脑中。 3.2语音信号的处理 语音信号的处理主要包括信号的提取播放、信号的重采样、信号加入噪声、信号的傅里叶变换和滤波等,以及GUI图形用户界面设计。 Ⅰ.语音信号的时域分析 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法。 Ⅱ.语音信号的频域分析 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更

相关主题
文本预览
相关文档 最新文档