基音周期检测算法比较
- 格式:doc
- 大小:1.31 MB
- 文档页数:31
项目总结报告—基音周期的检测1.项目整体框架1.1目标了解语音基音周期估计方法,掌握自相关法估计基音周期的原理。
1.2主要容本次基音周期的估算,我们选用的是短时自相关函数法,包括四个模块。
第一个模块为基音的端点检测,主要为了区分浊音和清音。
第二个模块为基音检测中的带通滤波器,主要为了减少共振峰的干扰。
第三个模块为短时自相关函数法做基音检测,主要为了计算出基音周期。
第四个模块为平滑处理,主要为了消除偏离值点。
2.模块一(端点检测)2.1主要负责工作利用能熵比法进行语音端点检测,区分语音帧的起点以与终点。
2.2具体实现方法2.2.1实验步骤1)取一段语音“tone4.wav”,该语音容是“妈妈,好吗,上马,骂人”,语音长度为3.5秒,采样率Fs=8000. 进行简单的去除直流分量,然后幅值归一化,时域波形如图1所示。
2)设置好分帧参数,帧长wlen=320,帧移inc=80,调用函数y=enframe(x,wlen,inc)';对语音信号x分帧处理。
最后帧数Fn=337。
3)设置端点检测门限值T1=0.05,使用能熵比法进行端点检测。
对分帧后的语音y 每一帧进行FFT运算,然后计算每一帧的能熵比值。
从而计算出语音y中的语音端点。
结果如图2所示。
2.2.2能熵比法设语音信号时域波形为,加窗分帧处理后得到的第i帧语音信号为,则FFT后表示为,其中下标i表示为第i帧,而k表示为第k条谱线。
该语音帧在频域中的短时能量为式中,N为FFT的长度,只去正频率部分。
而对于某一谱线k的能量谱为,则每个频率分量的归一化谱概率密度函数定义为该语音帧的短时谱熵定义为其中,只取正频率部分的谱熵,对应的能熵比表示为2.2.3代码编写在主程序中,执行的是[voiceseg,vosl,SF,Ef]=pitch_vad1(y,fn,T1);而调用了以下函数function [voiceseg,vosl,SF,Ef]=pitch_vad1(y,fn,T1,miniL)if nargin<4, miniL=10; endif size(y,2)~=fn, y=y'; end % 把y转换为每列数据表示一帧语音信号wlen=size(y,1); % 取得帧长for i=1:fnSp = abs(fft(y(:,i))); % FFT取幅值(:表示所有y(:,1)表示第一列)Sp = Sp(1:wlen/2+1); % 只取正频率部分Esum(i) = sum(Sp.*Sp); % 计算能量值(能量放入Esum 里)prob = Sp/(sum(Sp)); % 计算概率H(i) = -sum(prob.*log(prob+eps)); % 求谱熵值(eps表示很小的数,避免为零)(谱熵放入H里)endhindex=find(H<0.1);%(find返回非零元素,hindex放入,即谱熵值小于0.1的索引)H(hindex)=max(H);%(除去元音)Ef=sqrt(1 + abs(Esum./H)); % 计算能熵比(将每一帧的能熵比放入Ef里)Ef=Ef/max(Ef); % 归一化zindex=find(Ef>=T1); % 寻找Ef于T1的部分zseg=findSegment(zindex); % 给出端点检测各段的信息zsl=length(zseg); % 给出段数j=0;SF=zeros(1,fn);for k=1 : zsl % 在大于T1中剔除小于miniL 的部分if zseg(k).duration>=miniLj=j+1;in1=zseg(k).begin;in2=zseg(k).end;voiceseg(j).begin=in1;voiceseg(j).end=in2;voiceseg(j).duration=zseg(k).duration;SF(in1:in2)=1; % 设置SF(有话段的SF帧为1)endendvosl=length(voiceseg); % 有话段的段数2.2.4实验结果图1 “妈妈,好吗,上马,骂人”语音的时域波形图2 图中实线代表语音起始点,虚线代表语音终点2.2.5结果分析基音周期是语音信号的重要参数之一,它描述了语音激励源的一个重要特征。
残差域加权ACF 基音周期检测算法X肖 强1,王 亚1,陈 亮2(1.解放军理工大学通信工程学院研究生4队,江苏南京210007;2.解放军理工大学通信工程学院电子信息工程系)摘 要:针对传统自相关(A CF )基音周期检测算法存在较多的倍频和半频错误,文章提出一种基于线性预测残差域加权A CF 基音周期检测方法。
首先对语音信号中心削波,减小共振峰的影响;而后进行线性预测分析获得残差信号,对其求自相关值和循环幅度差(CA M DF )值,以CAM DF 的倒数值为权重加权A CF 进行基音周期检测;最后通过基音平滑算法对提取的基音轨迹进行后处理。
仿真实验表明,该算法可降低基音提取的倍频和半频错误,提高估计精度。
关键词:基音周期检测;自相关函数;线性预测误差;语音信号处理中图分类号:T N 912.3文献标识码:A 文章编号:CN 32-1289(2011)01-0033-04Weighted ACF Pitch Detection Algorithm Based onLinear Prediction ResidualX I AO Qiang 1,W AN G Ya 1,CH E N L iang 2(1.P ostg raduate T ea m 4ICE,P L A U ST ,Nanjing 210007,China ;2.Depar tment o f Electr onic Info rmat ion Engineer ing ICE ,P LA U ST )Abstract :A modified v ersion of the ACF pitch detectio n alg orithm is proposed in this paper .Firstly ,linear predictiv e coding analysis is performed o n the clipped speech sig nal .Then the seg-mented speech is filtered by the inverse filter to get the linear predictio n error ,the ACF and CAMDF value of the err or signal are calculated.Finally,as the CAMDF has similar characteris-tics w ith the ACF,the ACF is w eighted by the reciprocal of the CAMDF.Simulatio n results show that the pr opo sed algor ithm leads to hig her accuracy o f the estimated pitch than traditional ACF method .Key words :pitch detection ;ACF ;linear prediction error ;speech signal processing 基音周期是语音的一个非常重要的特征参数,广泛应用于低速语音编码、说话人识别、语音识别等领域。
基于自相关函数法的语音基音周期的检测
方臻成
【期刊名称】《科学与财富》
【年(卷),期】2014(000)009
【摘要】语音的基音周期是指人说话时声带振动的周期,它是语音信号的一个重
要参数,广泛运用在语音识别、说话人识别、发音系统诊断、语言指导等多个领域。
因此,准确的提取语音信号的基音周期显得尤为重要。
本文针对基音周期检测,介绍了一种较为简单的方法---自相关函数法。
【总页数】1页(P203-203)
【作者】方臻成
【作者单位】华南理工大学电子与信息学院,广州市,510641
【正文语种】中文
【相关文献】
1.基于改进小波变换的语音基音周期检测 [J], 吴兴铨;周金治
2.一种基于线性预测与自相关函数法的语音基音周期检测新算法 [J], 柏静;韦岗
3.基于LPC的藏语语音基音周期的检测分析 [J], 马英;陈超;贾国庆
4.基于自相关函数的藏语语音基音周期检测 [J], 李积逊;余玲梅
5.基于倒谱分析法的藏语语音基音周期检测 [J], 李积逊;范武英
因版权原因,仅展示原文概要,查看原文内容请购买。
语音信号基音检测算法研究摘要:本文对倒谱法做了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在相同噪声环境下能更加精确地检测出语音信号的基音周期。
关键词:语音信号基音检测倒谱法二次谱减法1、引言近年来,基于线性预测和分析频谱的Mel倒谱系数在处理包含情感的语音识别中取得了很大的进步,能否把此种方法应用到相应状态下的基音检测中去,值得广大学者研究。
国外很多学者采用实时监控情感变化,并把影响修正基音的轨迹加以平滑或者动态改变窗的宽度,可以明显降低上述影响。
基音检测一直是语音信号处理的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等传统的经典基音检测方法,都有各自的用场,但同时也有其相应的不足。
其中任一种方法都不能作为通用的方法,但若在基音检测过程中,对预处理和后处理上进行一些改进,且突破传统的语音模型,并适当考虑说话人的个体特征及发音时的情感力度对基音检频带内谱包络测的影响,定能提高基音检测的准确性及健壮性。
本文以语音信号的基音检测为研究对象,着重分析自相关函数法p倒谱法的定义为,时间序列的z变换的模的对数的逆z变换,该序列的倒谱的傅里叶变换形式为。
落实到具体实现时,采用DFT来近似傅里叶变换,根据传统语音产生的模型及语音信号的短时性。
在其频域内,语音信号短时谱等于激励源的频谱与滤波器的频谱的乘积,浊音信号短时谱中包含的快变化周期性细致结构,则必会对应着周期性脉冲激励的基频以及各次谐波。
语音的倒谱是将语音的短时谱取对数后再进行IDFT来得到,所以浊音信号的周期性激励如果反映在倒谱上,便是同样周期的冲激。
藉此,我们可从得到的倒谱波形中估计出基音周期。
一般我们把倒谱波形中第二个冲激,认为是对应激励源的基频,即基音周期。
下面列举出一种倒谱法求基音周期的框图(见图1) 。
3、改进算法的基音检测当用无噪声的语音信号时,采用倒谱法进行基音检测还是很理想的。
语⾳信号处理_考试参考题(修订版)(1)⼀、填空题:(每空1 分,共60分)1、语⾳信号的频率范围为(300-3400kHz),⼀般情况下采样率为(8kHz )。
书上22页2、语⾳的形成是空⽓由(肺部)排⼊(喉部),经过(声带)进⼊声道,最后由()辐射出声波,这就形成了语⾳。
书上11页。
肺中的通过(稳定)的⽓流或声道中的⽓流激励(喉头⾄嘴唇的器官的各种作⽤)⽽产⽣。
当肺中的⽓流通过声门时,声门由于其间⽓体压⼒的变化⽽开闭,使得⽓流时⽽通过,时⽽被阻断,从⽽形成⼀串周期性脉冲送⼊声道,由此产⽣的语⾳是(浊⾳)。
如果声带不振动,声门完全封闭,⽽声道在某处收缩,迫使⽓流⾼速通过这⼀收缩部位⽽发⾳,由此产⽣的语⾳是(清⾳)。
3、语⾳信号从总体上是⾮平稳信号。
但是,在短时段(10~30)ms中语⾳信号⼜可以认为是平稳的,或缓变的。
书上24页4、语⾳的四要素是⾳长,⾳强,⾳⾼和⾳质,它们可从时域波形上反映出来。
其中⾳长特性:⾳长(长),说话速度必然慢;⾳长(短),说话速度必然快。
⾳强的⼤⼩是由于声源的(震动幅度)⼤⼩来决定。
5、声⾳的响度是⼀个和(振幅)有密切联系的物理量,但并不就是⾳强。
6、⼈类发⾳过程有三类不同的激励⽅式,因⽽能产⽣三类不同的声⾳,即(浊⾳)、(清⾳)和(爆破⾳)。
7、当⽓流通过声门时声带的张⼒刚好使声带发⽣较低频率的张弛振荡,形成准周期性的空⽓脉冲,这些空⽓脉冲激励声道便产⽣浊⾳如果声道中某处⾯积很⼩,⽓流⾼速冲过此处时⽽产⽣湍流,当⽓流速度与横截⾯积之⽐⼤于某个门限时(临界速度)便产⽣摩擦⾳,即(清⾳)。
8、如果声道某处完全闭合建⽴起⽓压,然后突然释放⽽产⽣的声⾳就是(爆破⾳)。
9、在⼤多数语⾳处理⽅案中,基本的假定为语⾳信号特性随时间的变化是(平稳随机)的。
这个假定导出各种(线性时不变)处理⽅法,在这⾥语⾳信号被分隔为⼀些短段再加以处理。
10、⼀个频率为F。
的正弦形信号以Fs速率抽样,正弦波的⼀周内就有(Fs/F0)个抽样。
语音识别技术中的声纹特征提取方法声纹识别技术是一种基于人声信号的生物识别技术,通过分析声音中独特的声纹特征,实现对个体身份的准确识别。
声纹特征提取方法是声纹识别技术中的核心环节,决定了识别性能的优劣。
本文将介绍几种常用的声纹特征提取方法,并对其原理和优缺点进行分析。
一、时域特征提取方法时域特征提取方法主要基于声音信号的时序特点,常用的特征包括基音周期、语调、能量等。
1. 基音周期:基音周期是指声音波形中基音振动周期的长度,具有很强的个体差异性。
基于基音周期的特征提取方法主要包括自相关法和互相关法。
自相关法通过计算信号与其自身在不同时间偏移下的互相关系数,来提取基音周期信息。
互相关法则是通过计算两个不同信号之间的互相关系数,来提取基音周期信息。
2. 语调:语调是指声音信号的音高。
不同个体的音高存在一定差异,可以用于声纹特征提取。
语调特征提取方法主要基于基频和基频变化率的计算。
3. 能量:能量是指声音信号的强度。
不同个体的声音在能量上也存在差异,因此能量特征可以用于声纹识别。
能量特征提取方法一般通过计算声音幅度的均方差或绝对值来得到。
二、频域特征提取方法频域特征提取方法基于声音信号在频域上的表现,常用的特征包括音谱、倒谱、Mel频谱等。
1. 音谱:音谱是指声音信号在频域上的幅度谱。
音谱特征提取方法通过对声音信号进行傅里叶变换,将其转换为频域表示,然后提取幅度谱信息。
2. 倒谱:倒谱是将音频信号的频域表示转换为倒谱表示的方法。
倒谱特征提取方法先将声音信号进行傅里叶变换得到音谱,然后进行对数变换和逆傅里叶变换得到倒谱。
3. Mel频谱:Mel频谱是一种对音频信号频域表示进行处理的方法。
Mel频谱特征提取方法通过将频谱映射到Mel频率刻度上,再进行对数变换。
三、时频域特征提取方法时频域特征提取方法是将时域特征和频域特征结合起来,综合考虑声音信号的时序和频率特征。
1. 小波变换:小波变换是一种时频分析方法,可以将声音信号分解为不同尺度和频带的子信号。
本科毕业论文题目语音基音周期检测算法比较学院管理科学与工程学院专业电子信息工程班级 081信工(1)班学号 *********姓名周刚指导老师段凯宇讲师二〇一二年六月语音基音周期检测算法比较摘要基音周期作为语音信号处理中描述激励源的重要参数之一,广泛的应用于语音合成、语音编码和语音识别等语音信号处理等技术领域。
准确可靠的对基音周期进行检测将直接影响整个语音处理系统的性能。
常用的基音检测算法对于纯净语音信号都能达到较好的检测效果。
然而,实际当中的语音信号不可避免的会受到外界背景噪音的影响,使得这些检测算法的检测效果都不是很理想,为此本文用两种基本算法对语音信号滤波前后进行基音周期检测,在进行比较。
论文首先介绍了语音基音检测算法的研究背景极其重要意义。
其次对现有的基音检测算法进行了归纳和总结,并详细的介绍本文将用的两种基本基音检测算法的基本原理及实现。
最后在Matlab上对语音信号进行基音周期检测。
论文还完成了算法的程序设计,在Matlab7.0仿真环境下,对上诉算法进行仿真验证,并且在滤波前后做了对比实验。
实验结果表明,经过滤波的语音信号基音周期检测的更加准确。
关键词:基音检测;自相关函数法;平均幅度差函数法;基音轨迹AbstractPitch as in speech signal processing is one of the important parameters to describe the excitation source, widely used in speech synthesis, speech coding and speech recognition speech signal processing technology. Accurate pitch period detection will directly affect the performance of the speech processing system.Commonly used algorithm for pitch detection for clean speech signal to achieve good detection effect. However, the actual speech signal will be inevitably influenced by external effects of background noise, so the detection algorithm to detect the effect is not very ideal, the paper use two basic algorithms before and after filtering the speech signal pitch detection, in comparison.The thesis first introduces the research background of speech pitch detection algorithm is very important. Next to the existing algorithm for pitch detection are summarized, and a detailed introduction to this article will use the two kinds of basic pitch detection algorithm is the basic principle and realization. Finally in Matlab on speech signal pitch period detection.The paper also finished programming algorithm, in the Matlab7.0 simulation environment, the algorithm is validated by simulation, and the contrast experiments were done before and after filtering. The experimental results show that, after the filtering of the speech signal pitch period detection is more accurate.Keywords: pitch detection; autocorrelation function; the average magnitude difference function method; pitch contrail目录第1章绪论 (1)1.1 引言 (1)1.2 基音检测的定义和意义 (1)1.3 基音检测的研究现状 (2)1.4 论文的结构安排 (3)第2章基音检测的常用算法 (4)2.1 引言 (4)2.1常用的基音检测算法及原理 (4)2.2.1 自相关函数法 (4)2.2.2 平均幅度差函数法 (6)2.3本章小结 (7)第3章基于Matlab基因周期的检测 (9)3.1 语音文件的录制与读入 (9)3.2 语音信号的采样与分帧 (9)3.3 语音信号基音周期的检测 (11)3.3.1 短时自相关函数法检测基音周期 (11)3.3.2 短时平均幅度差函数法检测基音周期 (12)3.4 基音周期检测的后处理 (14)3.5 滤波后的基音周期检测 (15)3.6 本章小结 (18)第4章总结与展望 (19)参考文献 (20)致谢 (21)附录 (22)第1章绪论1.1引言语音是语言的声学表现是人类相互之间进行信息交流时所用的重要载体和基本手段,随着现代信息科学技术的飞速发展,尤其是计算机网络技术的日益普及和完善,是的语音信号处理技术发挥着越来越重要的作用。
目前,语音信号处理的一系列技术及其应用已经成为信息社会中不可或缺的重要组成部分,对促进信息社会的发转具有重要意义。
语音信号处理是语音学的数字信号处理相结合而形成的一门综合性学科,包括语音合成、语音识别、语音编码和说话人识别等四大分支[1]。
语音信号处理和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密。
语音信号处理技术的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些学科的发展[2]。
在语音信号处理中,语音信号参数提取的准确性非常重要。
只有获得准确的可表征语音信号本质特征的参数,才有可能利用这些参数进行高效的语音合成,语音识别以及语音压缩编码解码处理,其中基音周期的提取在语音信号众多参数提取中尤为重要,其提取的准确与否直接影响到合成语音是否真实再现原始语音信号的频谱[3]。
1.2 基音检测的定义和意义人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。
浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。
发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。
这种声带振动的频率称为基音频率,相应的周期就成为基音周期[4]。
通常,基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。
此外,基音频率还跟随着人的性别、年龄不同而有所不同。
一般来说,男性说话者的基音频率较低,大部分在70~200Hz的范围内,而女性说话者和小孩的基音频率相对较高,在200~450Hz之间。
基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
基因周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题,尤其对汉语更是如此。
汉语是一种有调语言,而基因周期的变化称为声调,声调对于汉语语音的理解极为重要。
因为在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字词的意义,还需要从不同的声调来区别它,也就是说声调具有辨义作用;另外,汉语中存在着多音字现象,同一个字的不同的语气或不同的词义下具有不同的声调。
因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要。
1.3 基音检测的研究现状自进行语音信号分析研究以来,基音检测一直是一个重点研究的课题。
尽管目前基音检测的方法有很多种,然而这些方法都有其局限性。
迄今为止仍然没有一种检测方法能够适用不同的说话人、不同的要求和环境、究其原因,可归纳为如下几个方面[5]。
1.语音信号变化十分复杂,声门激励的波形并不是完全的周期脉冲串,在语音的头、尾部并不具有声带振动那样的周期性,对于有些清浊音的过度帧很难判定其应属于周期性或非周期性,从而也就无法估计出基音周期。
2.声道共振峰有时会严重影响激励信号的谐波结构,使得想要从语音信号中去除声道影响,直接取出仅和声带振动有关的声源信息并不容易。
3.在浊音语音段很难对每个基因周期的开始和结束位置进行精确的判断,一方面因为语音信号本身是准周期的。
另一方面因为语音信号的波形受共振峰、噪音等因素的影响。
4.在实际应用中,语音信号常常混有噪声,而噪声的存在对于基音检测算法的性能产生强烈影响。
5.基音频率变化范围大,从低音男声的70Hz到儿童女性的450Hz,接近3个倍频程,给基因检测带来了一定的困难。
尽管语音检测面临着很多困难,然而由于基因周期在语音信号处理领域的重要性,使得语音基因周期检测一直是不断研究改进的重要课题之一。
数十年来,国内外众多学者对如何准确地从语音波形中提取出基因周期作出了不懈的努力,提出了多种有效的基音周期检测方法。
我国基因检测方面的研究起步要比国外发达国家晚一点,但是进步很大,特别是对汉语的基音检测取得成果尤为突出。
目前的基因检测算法大致可分为两大类:非基于事件检测方法和基于事件检测方法[6],这里的事件是指声门闭合。
非基于事件的检测方法主要有:自相关函数法[7-10]、平均幅度查函数法[11],倒谱法[12][13],以及在以上算法基础上的一些改进算法[14-17]。
语音信号是一种典型的时变、非平稳信号,但是,由于语音的形成过程是发音器官的运动密切相关的,而这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在短时间内,其频谱特性和某些物理特征参量可近似地看作是不变的,非基于事件的检测方法正是利用语音信号短时平稳性这一特点,先将语音信号分为长度一定的语音帧,然而对每一帧语音求基音周期。