基音周期估计-共振峰估计-小结
- 格式:pdf
- 大小:558.12 KB
- 文档页数:21
华南理工大学《语音信号处理》实验报告实验名称:基音周期估计姓名:学号:班级:10级电信5班日期:2013年5 月15日1.实验目的本次试验的目的是通过matlab编程,验证课本中基音周期估计的方法,本实验采用的方法是自相关法。
2. 实验原理1、基音周期基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。
因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。
由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。
基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。
②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。
③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。
④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。
由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。
尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。
语音信号处理实验报告实验二:语音信号的基音周期估计学院:电子与信息学院专业:信息工程姓名学号:提交日期:2014.4.29实验二:语音信号基音周期估计1、 实验内容从一段语音信号中估计出其基音周期。
基音是指法浊音是声带振动所引起的周期性,而基因周期是指声带振动频率的倒数。
2、 实验方法尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。
2.1、短时自相关法对于离散的语音信号x(n),它的自相关函数定义为:R(k)=Σx(n)x(n-k), 如果信号x(n))具有周期性,那么它的自相关函数也具有周期性,而且周期与信号x(n)的周期性相同。
自相关函数提供了一种获取周期信号周期的方法。
在周期信号周期的整数倍上,它的自相关函数可以达到最大值,因此可以不考虑起始时间,而从自相关函数的第一个最大值的位置估计出信号的基音周期,这使自相关函数成为信号基音周期估计的一种工具。
语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。
短时自相关函数是在信号的第N 个样本点附近用短时窗截取一段信号,做自相关计算。
短时自相关运算定义为下式:1()()()N k n nnm R k S m S m k --==+∑2.2、平均幅度差函数法语音信号的短时平均幅度差函数Fn (k )定义为1()|()()|N k n nnm F k S m k S m --==+-∑与短时自相关函数一样,对周期性的浊音一样,Fn (k )也呈现与浊音语音周期一致的周期特性,不过不同的是Fn (k )在周期的各个整数倍点上具有是谷值特性而不是峰值特性,因而通过Fn (k )的计算同样可以确定基音周期。
线性加权短时平均幅度差(W-AMDF )的定义:11()|()()|1N k nw n n m F k S m k S m N k --==+--+∑2.3、实验过程2.3.1自相关法(ACF )1、录取一段录音,采样率8K ,单声道2、用MATLAB 的wavread 函数把录音都进来并进行归一化处理3、对语音信号进行预加重4、对语音信号进行截止频率为1000Hz 的低通滤波,然后进行分帧处理5、对每帧语音进行三电平削波处理6、对每帧分别计算短时自相关运算,去除每帧前十个点后再求最大值7、利用最大值对应的序号N 来确定基音的周期2.3.2短时平均幅度差法(W-ADMF ) 1、录取一段录音,采样率8K ,单声道2、用MATLAB 的wavread 函数把录音都进来并进行归一化处理3、对语音信号进行预加重4、对语音信号进行截止频率为1000Hz 的低通滤波,然后进行分帧处理5、对每帧语音进行三电平削波处理6、对每帧分别计算线性加权短时平均幅度差运算,去除每帧前、后5个点后再求最小值M1和第二最小值M27、利用abs (M2-M1)来确定基音的周期短时自相关法(W-ADMF)短时平均幅度差法4.1结果分析根据自相关法和平均幅度差两种方法的结果对比,提取出来的基音周期大小有点差异,但是基本都相同。
基于共振峰增强的语音信号共振峰频率估计
语音信号共振峰频率(Pitch)的估计一直是语音处理技术中的一个关键问题。
基于共振峰增强的语音信号共振峰频率估计是最近几年出现的一种新的估计方法。
它利用共振峰增强技术,即改变语音信号的频谱,从而提高自身对语音输入信号频率解码能力。
首先,基于共振峰增强的语音信号共振峰频率估计中采用的是一种端系统向量
自相关(SSCA)算法。
通过这种算法,可以扩大分析滤波器的小带宽,从而提高信号共振峰频率估计的精度。
其次,基于共振峰增强的语音信号共振峰频率估计中还采用了阈值处理技术和信息检测方法。
通过使用阈值处理技术,可以减少误差,提高准确性,而信息检测方法则可以有效地处理噪声等干扰。
最后,基于共振峰增强的语音信号共振峰频率估计中还采用了统计参数估计和多项式拟合等方法。
它们可以有效地帮助估计语音信号共振峰频率。
由此可见,基于共振峰增强的语音信号共振峰频率估计是一种有效的语音处理
技术。
它通过综合不同的技术,成功地提高了估计语音信号共振峰频率的精度,为语音处理技术的进一步发展提供了可靠的依据。
可以预期,随着语音处理技术的进一步发展,基于共振峰增强的语音信号共振峰频率估计将会得到更大的应用。
语⾳基⾳周期估计基础先说下为什么要检测语⾳基⾳周期(1)基⾳决定了语⾳的⾳调。
汉语是⼀种有调的语⾳,同⼀句话,语调不同,意义差别⾮常⼤,准确的检测语⾳的基⾳周期,有利于“理解”话语中的意思。
(2)语⾳合成、声调控制等⾳效果制作的需要。
再说下什么是基⾳周期按照经典的语⾳激励模型,声带周期性的张开和闭合所需要的时间,就是指基⾳的周期(假如声带某次从开启到闭合的时间为4ms,那么,它的基⾳频率为250Hz)。
很显然,要准确的检测基⾳周期,需要尽可能的先去掉声道模型和辐射模型的⼲扰。
⼀般来说,男性的基⾳频率约为50Hz~250Hz,⼥性的基⾳频率约为:100Hz~500Hz,所以我们通常把基⾳频率的上限限制为500Hz,同时,⼜由于50Hz对应的是交流电的⼯频频率,难以去掉它的噪声⼲扰,所以这个频率检测时也不予考虑。
综上,基⾳频率的检测范围在60Hz~500Hz或者70Hz~500Hz⽐较好。
基⾳周期检测的困难(1)有些⾳的发⾳不具有声带的震动,通常这些⾳为过渡⾳。
(2)基波的分量往往不是最强的分量,容易把⼀些浊⾳的谐波当做基波(这是因为经过声道激励后,⼀些谐波分量变的⽐较强)(3)基⾳周期变化范围⼤,从⽼年男⼈的50Hz到⼉童和⼥性的500Hz,给检测带来了⼀定的困难。
基⾳周期检测预处理(1)端点检测(多媒体核⼼技术群中在2015-04-18⽇已经讲过了)(2)带通滤波(60Hz~500Hz),尽可能去掉声道模型和辐射模型的⼲扰(去掉50Hz是为了避免⼯频噪声的⼲扰)基⾳周期估计的⽅法(1)平均幅度差法 语⾳的浊⾳,通常会呈现出⼀定的周期性,这个周期性与基⾳的周期⼀致,通过计算平均幅度差,来找到这个周期,就可以得到基⾳的周期。
(2)相关法 同样的道理,通过计算语⾳信号的⾃相关特性,并寻找相应的周期性,也可以得到语⾳的基⾳周期(3)倒谱法 使⽤倒谱处理,使得脉冲激励与声道响应进⾏分离,再查找最⼤值,就可以得到语⾳的基⾳周期(4)线性预测法 这类⽅法是先利⽤线性预测法,得到预测系数,再⽤这些系数去重建信号,这样就弱化了声道响应的影响。
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。
辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。
同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。
短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。
可以把清音模拟成随机白噪声。
完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1)) 把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。
分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。