当前位置:文档之家› 基于快速提升小波变换的语音特征提取方法

基于快速提升小波变换的语音特征提取方法

基于快速提升小波变换的语音特征提取方法
基于快速提升小波变换的语音特征提取方法

第15卷第3期2006年9月

计算机辅助工程

COMP UTER A I D ED ENGI N EER I N G

Vol .15No .3

Sep.2006

文章编号:100620871(2006)0320102204

基于快速提升小波变换的语音特征提取方法

欧瑞清a

, 徐 晨b

, 卢少平b

, 宋广为

c

(深圳大学a .智能计算科学研究所;b .经济学院;c .信息与系统管理系,广东深圳 518060)

摘 要:为提高语音识别系统对环境噪声的鲁棒性,在快速提升小波的基础上,结合感知频域上的

滤波与倒谱均值归一化技术,提出一种语音特征参数提取方法.仿真实验表明,与传统方法相比,噪声鲁棒性显著提高;在语音信号的信噪比相近情况下,与传统小波方法相比,该方法计算简便、易于编程、计算速度快.

关键词:快速提升小波;语音识别;倒谱均值归一化;美尔倒谱中图分类号:T N912.34;T N911.25 文献标志码:A

Speech fea ture extracti on m ethod ba sed on

fa st li fti n g wavelet tran sfor m

OU Ruiqing a

,XU Chen b

,LU Shaop ing b

,S ONG Guang wei

c

(a .I nstitute of I ntelligent Computing Sci .;b .Business School;

c .Dep t .of I nfo .&Syste m M anage ment,Shenzhen Univ .,Shenzhen Guangdong 518060,China )

Abstract:To i m p r ove the noise r obustness of s peech recogniti on syste m ,a s peech feature extracti on method is p r oposed based on fast lifting wavelet transfor m ,which combines Mel 2frequency filtering and cep stru m mean nor malizati on and has good noise resistance .The si m ulati on experi m ent shows that it can greatly i m p r ove the noise r obustness than most other existing methods,and has the features such as con 2venient computati on,si m p le i m p le mentati on f or p r ogra mm ing,and fast computing s peed compared with traditi onal wavelet methods .

Key words:fast lifting wavelet;s peech recogniti on;cep stru m mean nor malizati on;Mel 2cep strum

收稿日期:2006206206

基金项目:广东省科技计划项目(2005B10101060);深圳市科技计划项目(200511)

作者简介:欧瑞清(19812),男,广东佛山人,在读硕士,研究方向为小波分析在信息科学中的应用,(E 2mail )ouruiqing1981@https://www.doczj.com/doc/a314751480.html,

0 引 言

让计算机具有“听”和“说”的人类语音能力一

直是人类追求的目标,语音识别正是解决计算机“听”懂人类语音的一项关键研究,其中开发鲁棒性强的语音识别系统是语音识别技术走向实用的关键所在,而开发耐噪的语音特征参数是关键之关键.从以往的研究发现,采用Mel 倒谱参数和线性预测方法提取的特征参数在强噪声环境下其识别性能不尽

如人意.

[1]

提升小波方法是近年来提出的关于小波构造的一种新方法.提升小波不同于传统小波,它直接在时域上分析问题,使问题变得更简单,并且可以将所有传统小波都通过提升方法构造出来.用提升小波实现滤波还有运算速度快、无须额外内存、可实现整数小波变换的优点.本文就快速提升小波应用于语音识别以及构建特征参数问题进行深入探讨,利用快速提升小波构建的DT W 语音识别系统即尝试使用

提升小波对语音信号中的噪声进行抑制,构造出新特征参数.仿真实验证明,采用新特征参数的语音识别系统在信噪比较低的情况下,能保持较高的识别率,并且用提升小波抑制噪声所用的时间远远小于其对应的传统小波抑制噪声所用的时间.

1 基于提升方案的小波变换原理

DAUBECH I ES 证明,第一代小波变换都可以找

到等效的提升方案.[2]

提升方案把第一代小波变换过程分为分裂(s p lit ),预测(p redict )和更新(up 2date )3个阶段,从而逐步构建出一个具有更加良好性质的新小波.其流程见图1

.

图1 提升方法的前向和逆向变换的实现步骤

第一阶段分裂(s p lit ):

将语音信号分为两不相交的部分.分裂过程也叫惰性小波变换过程.一般采用奇偶分裂:将语音信号S 分裂成偶数部分的数据集S e 和奇数部分的数据集S o ,如果S [n ]是一个由平滑渐变函数采样构成的集合,那么奇数部分和偶数部分高度相关.而语音信号正是这一采样集

.

第二阶段预测(p redict ):其本质是用偶部的数据预测奇部,用S o [n ]的值与预测值之间的误差表示信号的细节信息,这一步在提升小波中被称为对偶提升,即:d (n )=S o (n )-P [S e (n )],其中,P 是构造的用偶数序列S e [n ]去预测奇数序列S o [n ]的算子.这个得出的误差就是小波系数(高频信息).

第三阶段更新(update ):以上得到的小波系数可能会丢失信号的某此特征,而这些特征又是人们所期望的有用信息,如信号均值.为了恢复这些特征,在提升方法中又引入另一种操作U 去更新S e ,使之能保持原始数据集S e 的尺度特性.结果用c (n )表示,c (n )=S e (n )+U [d (n )].这一修正结果就是原信号的近似,即尺度系数.实现提升小波算法的关键就是求得预测算子与修正算子.

2 基于提升小波算法的语音处理

在语音识别系统中,往往所录语音都要受到环

境的影响.本系统用的是DAUBECH I ES (9/7)的提升小波对所录的语音信号进行处理,需要用到两次预测和两次更新串联.其小波变换结构见图2. 实现算法如下(推导过程从略):

第1步:c (2n +1)=s (2n +1)+α×[s (2n )+

图2 D9/7小波提升变换结构

s (2n +2)]

第2步:d (2n )=s (2n )+β×[c (2n -1)+

c (2n +1)]

第3步:c (2n +1)=c (2n +1)+γ×[d (2n )+d

(2n +2)]

第4步:d (2n )=d (2n )+δ×[c (2n -1)+

c (2n +1)]

第5步:c (2n +1)=h ×c (2n +1);

d (2n )=(1/h )×d (2n )

其中前4步为小波提升,为便于计算,最后一步进行系数规范化.上面5步用到的参数值是:

α=-1.586134342β=-0.052980118γ=0.882911075δ=0.443506852

h =1.230174105

语音信号可以认为是局部平稳或短时平稳,因此在进行提升小波处理前需对语音信号进行分帧处理.本文采用短时平均幅度与短时过零率的分析方法进行有声帧的端点检测.之后采用D9/7小波的提升算法对语音信号作进一步处理,取第一级的尺度系数作为后继提取特征参数的语音信息.这样做既可抑制噪声也能减小样本点的处理.对开发的语音系统具有耐噪性起了关键作用.具体过程见图3.

图3 提升小波变换流程

3 倒谱均值归一化算法(C MN )

C MN 是一个非常简单有效的抗噪算法,主要用

来消除乘法信道噪声在倒谱域造成的偏差和时域的

卷积噪声,如信道失真,对应着倒谱域的加性偏差.而由于强制训练和测试的所有语流的倒谱均值为零,C MN 可以补偿由于训练和测试时说话人和信道差异可能带来的卷积畸变.C MN 有两个处理步骤:首先,用一个基于能量的有声/无声检测算法遍历整个语流,计算有声帧的倒谱均值;然后,将该语流的

3

01第3期欧瑞清,等:基于快速提升小波变换的语音特征提取方法

所有帧参数都减去倒谱均值,得到新的参数.假设

X

(t )是提升小波变换处理后的语音倒谱,m 是倒谱均值,则归一化后的倒谱X (t )为:X (t )=X (t )-m

C MN 算法的关键在于倒谱均值m 的计算,这里

采用递归的求解方式

[3]

 m (t )=λ?6N i =1

(C (i )/N )+(1-λ)?C (t +N ))

 当t =1

λ?m (t -1)+(1-λ)?C (t +N )

 当2≤t ≤T -N m (T -N )

 当T -N

(1)

其中N 是计算倒谱均值m 的窗宽,λ是更新步长,两者满足:

1-λN

=1/2

(2)

4 基于提升小波与Mel 倒谱系数的新

特征参数

特征提取是从语音信号中提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息.在本系统中,语音信号经过小波变换之后,主要能量集中在低频尺度系数中.经过倒谱均值归一化处理的目的只在于补偿由于训练和测试时说话人和信道差异带来的卷积畸变,以及减弱录音时带来的环境噪声.

自然产生的想法就是将每一帧经过归一的倒谱值还原为相应的小波信号.然后再将其拼接成完整的小波信号用感知频域滤波的方法提取语音特征参数.流程见图4.

图4 提取特征参数的流程

这种新的参数提取过程与传统的只用Mel 倒谱

特征参数(MFCC )的提取过程相比,不同之处在于预处理阶段,使用提升小波技术以及倒谱均值归一化正是新特征参数的特色所在.通过小波变换将语音信号中不同尺度上的变化趋势提取和分离出来,根据小波变换的压缩特性,语音信号的小波系数将是稀疏的,也就是在大多数点系数的值相对很小,在少数点系数值相对很大.[2]

而经过小波变换以后(本系统采用第1层的尺度系数),信号能量保持在90%的基础上,使得所需要处理的采样点只是原来

的1/2,

[4]

大大提高动态时间规整(DT W )语音识别

系统的运算效率.

另一方面,高斯噪声的各级小波系数的方差均等于原信号的方差.使用小波变换将语音信号进行压缩处理,使得语音信号的小波系数在小数点的幅值出现极大值,由此平均幅度小,通过量化,可以去除一部分噪声谱,从而间接提高分析的信噪比.假设语音信号在倒谱域的均值接近于零,则含噪语音倒谱特征均值将主要为信道卷积噪声造成偏差,因此通过减去倒谱特征均值的归一化过程将在一定程度上消除信道造成的特征空间的失配.[5]

这也可间接

提高分析的信噪比.

5 实验结果和分析

本文的实验是在基于动态时间规整(DT W )的识别系统上完成的.

实验采用8kHz 采样率,量化精度为8bit,帧长20m s,帧移10m s (用大约80个采样点来分帧),采用D9/7小波及其提升小波对语音进行处理,特征矢量取12维MFCC .录音语料包含0~10共11个汉语数字发音,共用10个人在实验室里进行录音.不同的噪音背景(包括办公室噪音、汽车噪音、超市噪音及突发性噪音)以不同的幅度加入原始的干净语音以得到不同信噪比下的含噪语料,这比较符合现实情况.参加实验的10人分别朗读字表(0~10)5次,共采集550个发音数据(10×5×11个).每人第1遍朗读字表的录音作为特定人的净音参考模板,

其他所读数据以及它们的加噪语音用来作为测试数据.实验采用加性高斯平稳噪声模拟.带噪语音信噪比分别为从S NR =25dB 到0dB 的6种情况.

实验过程中,通过调整系统特征参数的计算方法,采用动态时间规整作为语音识别方法测试不同特征参数的识别率的差异,进行下面的测试实验.

(1)对传统12阶MFCC 作特征参数、加入D9/

401计 算 机 辅 助 工 程 2006年 

7小波作处理和D9/7的提升算法作处理的新特征

参数3种情况的识别鲁棒性进行实验.实验结果见

表1.

表1 12阶M FCC 和D9/7提升小波的识别率比较

特征参数

净音

25dB 20dB 15dB 10dB 5dB 0dB MFCC (12)0.9530.9080.8030.6530.4080.2440.175D9/7小波

0.9650.9320.9010.8200.6010.4530.305提升小波

0.975

0.956

0.928

0.854

0.753

0.605

0.503

(2)对提升小波及其对应的小波用作处理的新特征参数在DT W 系统中所消耗时间进行对比.实

验结果见表2.

表2 提升小波与对应的D9/7小波所用识别时间对比

t/s

特征参数

净音

25dB 20dB 15dB 10dB 5dB 0dB D9/7小波

4.96

5.02 5.12 5.38 5.66 5.91

6.23提升小波

2.45

2.62

2.87

2.95

3.15

3.37

3.43

实验表明:

(1)从噪声的鲁棒性来看,传统的MFCC 特征参数在净音情况下效果良好,但随着S NR 的降低,这一特征参数的识别性能急剧下降,说明这一特征

参数对应用环境的要求比较高.[6]

另一方面,这一参数运算量很大,所需的内存空间也很大.

(2)分别使用传统小波以及对应的提升小波用作处理,加上倒谱均值归一化的新特征参数方法.在净音情况下,这两种方法与传统方法不相上下.在S NR 降低的情况下,新的特征参数表现出良好的鲁棒性,而提升小波的方法表现出更高的识别率.当然在0dB 信噪比情况下,识别率还是不能让人满意,但使用提升算法的新特征参数得出的结果已具有实用价值.

(3)基于提升小波提取的特征参数,所用的识别时间远远小于其对应的传统小波.在相同的分解级数上来看,提升算法识别所需时间只是原Mallat 算法的1/2左右.

6 总 结

在提升小波变换的基础上,以DT W 语音识别系统作为实验平台,提出一种强耐噪性的新型语音特征参数.这一特征参数与MFCC 相比,具有更强的噪声鲁棒性.另一方面,在近似相同的信噪比情况下,提升小波处理语音信号所用时间只是对应传统小波的1/2左右,并且计算量及编程的复杂度也要小得多.因此,本文给出的基于提升小波的新特征参数在处理强噪声的语音识别系统中具有较好的实用性.

参考文献:

[1] T UFEKC I Z,G OWDY J N.Feature extracti on using discrete wavelet transfor m for s peech recogniti on [J ].I EEE,2000.

[2] DAUBECH I ES I,S W ELDENS W.Fact oring wavelet transfor m s int o lifting step s [J ].J Fourier Analysis and App licati on,1998,4(3):2452267.[3] 丁沛,曹志刚.基于语音增强失真补偿的抗噪声语音识别技术[J ].中文信息学报,2003,18(5).

[4] AG B I N Y A J I .D iscete wavelet transfor m techniques in s peech p r ocessing [C ]//I EEE TENCON 2D igital Signal Pr ocessing App licati ons .1996.[5] CVETK OV I C Z,VETTERL IM.D iscrete 2ti m e wavelet extrema rep resentati on design and consistent reconstructi on [J ].

I EEE,1995,143:6812

693.

[6] G UPT A M ,GI L BERT A.Robust s peech recogniti on using wavelet coefficient features [J ].I EEE,2002.

(编辑 廖粤新)

5

01第3期欧瑞清,等:基于快速提升小波变换的语音特征提取方法

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

基于Matlab的语音信号的特征提取与分类

基于Matlab的语音信号的特征提取与分类语音信号处理是研究数字信号处理技术和语音学知识对语音信号进行处理的新兴学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。本文采用Matlab7.0综合运用GUI界面设计,各种函数调用等对语音信号进行采集、提取、变频、变幅,傅里叶变换、滤波等简单处理。程序界面简练,操作简便,具有一定的实际应用意义。 关键词:语音信号Matlab 信号处理GUI 1、语音信号的低通滤波 本文中设计了一个截止频率为200Hz切比雪夫—Ⅰ型低通滤波器,它的性能指标为:wp=0.075pi, ws=0.125pi, Rp=0.25;Rs=50dB。低通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.075;ws=0.125;Rp=0.25;Rs=50; [N,Wn]=cheb1ord(wp,ws,Rp,Rs); [b,a]=cheby1(N,Rp,Wn); [b,a]=cheby1(N,Rp,Wn); X=fft(x); subplot(221);plot(x);title('滤波前信号的波形'); subplot(222);plot(X);title('滤波前信号的频谱'); y=filter(b,a,x); %IIR低通滤波 sound(y,fs,bits);%听取滤波后的语音信号

wavwrite(y,fs,bits,’低通’);%将滤波后的信号保存为“低通.wav” Y=fft(y); subplot(223);plot(y);title(' IIR滤波后信号的波形'); subplot(224);plot(Y);title(' IIR滤波后信号的频谱'); 经过低通滤波器处理后,比较滤波前后的波形图的变化 低通滤波后,听到声音稍微有些发闷,低沉,原因是高频分量被低通滤波器衰减。但是很接近原来的声音。 2、语音信号的高通滤波 运用切比雪夫—Ⅱ型数字高通滤波器,对语音信号进行滤波处理。高通滤波器性能指标:wp=0.6, ws=0.975 ,Rp=0.25;Rs=50dB。高通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.6;ws=0.975;Rp=0.25;Rs=50;

语音信号特征的提取

语音信号特征的提取 摘要 随着计算机技术的发展,语音交互已经成为人机交互的必要手段,语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 本文采用Matlab软件提取语音信号特征参数,首先对语音信号进行数字化处理,其次,进行预处理,包括预加重、加窗和分帧,本文讨论了预处理中各种参数的选择,以使信号特征提取更加准确。第三,讨论了各种时域特征参数的算法,包括短时能量、短时过零率等。 关键词:语音信号, 特征参数, 提取, Matlab 目录 第一章绪论 1.1语音信号特征提取概况 1.1.1研究意义 语音处理技术广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等领域,带有语音功能的计算机也将很快成为大众化产品,语音将可能取代键盘和鼠标成为计算机的主要输入手段,为用户界面带来一次飞跃。 语音信号特征的提取是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信和准确的语音识别,才能建立语音合成的语音库。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 1.1.2 发展现状 语音信号处理是一门综合性的学科,包括计算机科学、语音学、语言学、声学和数学等诸多领域的内容。它的发展过程中,有过两次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现,电子管放大器使很微弱的声

音也可以放大和定量测量,从而使电声学和语言声学的一些研究成果扩展到通信和广播部门;第二次飞跃是在20世纪70年代初,电子计算机和数字信号处理的发展使声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化转换为数字信号,这样就可以用数字计算方法对语音信号进行处理和加工,提高了语音信号处理的准确性和高效性。 语音信号处理在现代信息科学中的地位举足轻重,但它仍有些基础的理论问题和技术问题有待解决,这些难题如听觉器官的物理模型和数学表示及语音增强的技术理论等,目前还有待发展。 1.2 本课题研究内容 本文主要介绍语音信号处理的理论及Matlab的相关内容,然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数,主要讨论了预处理中各种参数的选择,以使信号特征提取更加准确。再次讨论了各种时域特征参数的算法,包括短时能量、短时过零率等,介绍了各环节的不同软件实现方法。最后对基于Matlab的语音信号特征参数提取进行总结。 第二章Matlab简介 MATLAB是国际上仿真领域最权威、最实用的计算机工具。它是MathWork 公司于1984年推出,它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境,特别是所附带的30多种面向不同领域的工具箱支持,使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。 2.1 发展概况 Matlab是Matrix Laboratory(矩阵实验室的缩写),最初由美国Cleve Moler 博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成,旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。1984年成立的Math Works公司正式把Matlab推向市场,并从事Matlab的研究和开发。1990年,该公司推出了以框图为基础的控制系统仿真工具Simulink,它方便了系统的研究与开发,使控制工程师可以直接构造系统框图进行仿真,并提供了控制系统中常用的各种环节的模块库。1993年,Math Works 公司推出的Matlab4.0版在原来的基础上又作了较大改进,并推出了Windows版,

语音识别报告

“启动”的时域波形 1、 语音预加重: 由于语音信号在高频部分衰减,在进行频谱分析时,频率越高,所占的成分越小,进行语音预加重,可以提升语音高频部分,使频谱变得平坦,以方便进行频谱的分析和处理。通常的措施是采用数字滤波器进行预加重,传递函数是:11)(--=z z H α,其中α一般去0.92-0.98之间,所以在计算的时候取0.9375。 预加重后的波形 2、 分帧 加窗 语音信号具有较强的时变特性,其特性是随时间变化的,但是语音的形成过程与发音器官的运动有关,这种物理运动比起声音振动的速度十分缓慢,在较短的时间内,语音信号的特征可以被认为是保持不变的,通常对语音处理是通过截取语音中的一段进行处理的,并且短段之间彼此经常有一些叠加,这一段语音成为一帧语音,语音段的长度称为帧长,对每一帧处理的结果可用一组数来表示。一般取帧长为10—30ms 。采样频率是8000Hz ,所以取的帧长是256,帧移是178。分帧之后加汉明窗。 3、 端点检测 端点检测从背景噪声中找出语音的开始和终止点。 短时能量就是每帧语音信号振幅的平方和。 ∑-==1 0)]([N m n m s E ;

短时能量曲线 短时过零率是每帧内信号通过零点的次数,是信号采样点符号的变化次数。 ∑-=+-=1 )]1(sgn[)](sgn[21N m n m x m x Z ; “启动”的过零率曲线 在实验室的安静的环境下,依靠短时能量和短时过零率就可进行语音信号的起止点判断。当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了一定数值,可以区分语音信号的开始点和终止点。当背景噪声较大时,可以用短时平均过零率和短时能量结合来判断。 基于能量一过零率的端点检测一般使用两级判决法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束时的静音段, (1)如果能量或过零率超越了低门限,就应该开始标记起点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了,并标记起始点。 (2)如果当前状态之前处于语音段,而此时两个参数的数值降低到底门限以下,并且持续时间大于设定的最长时间门限,那么就认为语音结束了,返回到参数值降低到底门限以下的时刻,标记结束点。 端点检测波形

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

10实验十:随机信号分析应用在语音信号分析中

实验十:随机信号分析应用在语音信号分析中 ——音频信号时域特征和频域特征分析【实验目的】 ⑴ 了解随机信号分析的应用领域。 ⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。【实验原理】 我们在这里主要研究语音信号检索的部分内容。在语音信号研究中,一般对音频信号需要进行三方面的研究: 1)音频信号的产生,这方面的研究集中在为音频信号建立产生模型,通过产生模型提取音频特征。 2)音频的传播,音频信号如何通过另外介质传播到人的耳朵里。 3)音频的接收,音频信号如何被人所感知。 在这里,我们只涉及到音频信号的产生,而其它方面不涉及。 音频是一种重要媒体。人耳能够听到的音频频率范围是60Hz- 20KHz,其中语音大约分布在300Hz-4KHz之内。人耳听到的音频是连续模拟信号,而计算机只能处理数字化信息。所以要将连续音频信号数字化后才能在计算机上进行处理。音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。 在音频处理中,一般假定音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变化区间内所提取的音频特征保持稳定。这样,对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理,将离散的音频采样点分成一个个音频帧,也就是音频信 号“短时”处理方法。一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。可以从音频信号中提取三类基本特征:时域特征、频域特征和时频特征。 1 时域特征提取 连续音频信号x经过采样后,得到k个采样点x(n)(1≤n≤k)。在音

频时域提取中,认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息,所以可以直接从x(n)(1≤n≤k)提取信息。可以提取的信息有:短时平均能量、过零率、线性预测系数。 对于采样得到的x(n)(1≤n≤k)音频信号,考虑到信号在段时间内的连贯性,首先把音频信号的K个采样点分割成前后迭代的音频帧,相邻帧之间的迭加率一般为30%-50%,音频处理中的“短时帧”均是这样得到的。 ① 短时平均能量 短时平均能量指在一个短时音频帧内采样点所聚集的能量。它能够方便的表示整个时间段内幅度的变化。其定义如下: 短时平均能量特征可以直接应用到有声/静音检测中,短时平均能量某一短时帧平均能量低于一个事先设定的阀值,则短时帧为静音,否则为非静音。如果静音的短时祯数超过了一定比例,则将这个例子判为静音音频例子。 2 过零率 过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。它可以有效的刻画不同的音频信号。其定义如下: 其中, 对于语音信号,辅音信号过零率低,而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以在语言信号中,开始和结束部分得过零率会有明显身高,所以利用过零率可以判断语音是否开始和结束。 3 频率中心(FC):它是量度声音亮度的指标。即: ,其中是f t(n)的Fourier变换,,STE是短时平均能量。一般的,一段音乐的频率中心变化比较单一,语音的频率中心会出现连续的变化。 4 带宽(BW):它是衡量频率范围的指标。其定义为:

语音信号时域特征参数提取

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩: 实验二、语音信号时域特征参数提取 一、实验目的 1.掌握利用matlab程序进行语音信号的录制与回放。 2.理解语音信号的时域特征参数的概念,如短时能量、短时过零率等。 3.掌握matlab的开发环境。 4.掌握对语音信号进行时域特征参数提取的方法。 二、实验原理 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果。 1.窗口的选择 通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩: 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w (n ) 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w (n ) 图1.1 矩形窗和Hamming 窗的时域波形 矩形窗的定义:一个N 点的矩形窗函数定义为如下 {1,00,()n N w n ≤<=其他 hamming 窗的定义:一个N 点的hamming 窗函数定义为如下 0.540.46cos(2),010,()n n N N w n π-≤<-??? 其他 = 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

小波变换详解

基于小波变换的人脸识别 近年来,小波变换在科技界备受重视,不仅形成了一个新的数学分支,而且被广泛地应用于模式识别、信号处理、语音识别与合成、图像处理、计算机视觉等工程技术领域。小波变换具有良好的时频域局部化特性,且其可通过对高频成分采取逐步精细的时域取样步长,从而达到聚焦对象任意细节的目的,这一特性被称为小波变换的“变聚焦”特性,小波变换也因此被人们冠以“数学显微镜”的美誉。 具体到人脸识别方面,小波变换能够将人脸图像分解成具有不同分辨率、频率特征以及不同方向特性的一系列子带信号,从而更好地实现不同分辨率的人脸图像特征提取。 4.1 小波变换的研究背景 法国数学家傅立叶于1807年提出了著名的傅立叶变换,第一次引入“频率”的概念。傅立叶变换用信号的频谱特性来研究和表示信号的时频特性,通过将复杂的时间信号转换到频率域中,使很多在时域中模糊不清的问题,在频域中一目了然。在早期的信号处理领域,傅立叶变换具有重要的影响和地位。定义信号(t)f 为在(-∞,+∞)内绝对可积的一个连续函数,则(t)f 的傅立叶变换定义如下: ()()dt e t f F t j ωω-? ∞ -∞ += (4-1) 傅立叶变换的逆变换为: ()()ωωπ ωd e F t f t j ? +∞ ∞ -= 21 (4-2) 从上面两个式子可以看出,式(4-1)通过无限的时间量来实现对单个频率

的频谱计算,该式表明()F ω这一频域过程的任一频率的值都是由整个时间域上的量所决定的。可见,式(4-1)和(4-2)只是同一能量信号的两种不同表现形式。 尽管傅立叶变换可以关联信号的时频特征,从而分别从时域和频域对信号进行分析,但却无法将两者有效地结合起来,因此傅立叶变换在信号的局部化分析方面存在严重不足。但在许多实际应用中,如地震信号分析、核医学图像信号分析等,研究者们往往需要了解某个局部时段上出现了哪个频率,或是某个频率出现在哪个时段上,即信号的时频局部化特征,傅立叶变换对于此类分析无能为力。 因此需要一种如下的数学工具:可以将信号的时域和频域结合起来构成信号的时频谱,描述和分析其时频联合特征,这就是所谓的时频局部化分析方法,即时频分析法。1964年,Gabor 等人在傅立叶变换的基础上引入了一个时间局部化“窗函数”g(t),改进了傅立叶变换的不足,形成窗口化傅立叶变换,又称“Gabor 变换”。 定义“窗函数”(t)g 在有限的区间外恒等于零或很快地趋于零,用函数(t )g -τ乘以(t)f ,其效果等同于在t =τ附近打开一个窗口,即: ()()()dt e t g t f G t j f ωττω-+∞ ∞--=?, (4-3) 式(4-3)即为函数f(t)关于g(t)的Gabor 变换。由定义可知,信号(t)f 的Gabor 变换可以反映该信号在t =τ附近的频谱特性。其逆变换公式为: ()()()ττωτωπ ωd G t g e d t f f t j ,21 ? ?+∞ ∞ --- = (4-4) 可见()τω,f G 的确包含了信号(t)f 的全部信息,且Gabor 窗口位置可以随着 τ的变化而平移,符合信号时频局部化分析的要求。 虽然Gabor 变换一定程度上克服了傅立叶变换缺乏时频局部分析能力的不

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

《语音信号处理》实验3-LPC特征提取

华南理工大学《语音信号处理》实验报告 实验名称:LPC特征提取 姓名: 学号: 班级:10级电信5班 日期:2013年5 月24日

1. 实验目的 1、熟练运用MATLAB 软件进行语音信号实验; 2、熟悉短时分析原理、LPC 的原理; 3、学习运用MATLAB 编程进行LPC 的提取; 4、学会利用短时分析原理提取LPC 特征序列。 2. 实验原理 1、LPC 分析基本原理 LPC 分析为线性时不变因果稳定系统V (z )建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。 如果利用P 个取样值来进行预测,则称为P 阶线性预测。假P 个 取样值()()(){ } 1,2,S n S n S n p --- 的加权之和来预测信号当前取样值()S n ,则预测 信号()S n ∧ 为: ()() 1 p k k S n a n k ∧==-∑ (1) 其中加权系数用k a 表示,称为预测系数,则预测误差为: ()()()()() 1 p k k e n s n S n s n a n k ∧ ==-=--∑ (2) 要使预测最佳,则要使短时平均预测误差最小有: ()2 min E e n ε??==?? (3) ()20,(1) k e n k p a ????? =≤≤? (4) 令 ()()(),,i k E s n i S n k φ=--???? (5) 最小的ε可表示成: ()() min 10,00,p k k a k εφφ==-∑ (6) 显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。 通过LPC 分析,由若干帧语音可以得到若干组LPC 参数,每组参数形成一个

语音信号特征参数提取方法

语音信号特征参数提取方法 阮雄飞微电子学与固体电子学 摘要:在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。 关键词:语音技术特征提取HHT 1 引言 语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。 上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。帧叠大, 相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。 2 语音信号特征参数提取方法

语音特征参数MFCC的提取及识别

语音特征参数MFCC的提取及识别 耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000HZ下,人耳的感知能力与频率成线性关系;而在1000HZ以上,人耳的感知能力与频率不构成线性关系,而更偏向于对数关系,这就使得人耳对低频信号比高频信号更敏感。Mel频率的提出是为了方便人耳对不同频率语音的感知特性的研究。频率与Mel频率的转换公式为: MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。 MFCC参数的提取1、 预加重处理 预加重处理其实是一个高通滤波器,该高通滤波顺的传递函数为:

其中的取值为0.97,该高通滤波器作用是滤去低频,使语音信号的高频特性更加突现。 2、 分帧及加窗处理 由于语音信号只在较短的时间内呈现平稳性(一般认为 10-30ms),因此将语音信号划分为一个一个的短时段即一帧。同时为避免丢失语音信号的动态信息,相邻帧之间要有一段重叠区域,重叠区域一段为帧长的1/2或1/3。然后再将每帧乘上窗函数,以增加每帧左端和右端的连续性。 3、 各帧信号的FFT变换 对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

4、 三角滤波器系数的求取 定义若干个带通三角滤波器(k),0<=m<=M,M为滤波器个数,其中心频率为f(m),每个带通三角滤波器的频率响应为 且满足Mel(f(m))-Mel(f(m-1))=Mel(f(m+1))-Mel(f(m)) 求得滤波系数为m(i),i=1,…,p,p为滤波器阶数 5、 三角滤波并进行离散余弦变换DCT

基于Gabor小波变换的人脸表情特征提取

—172 — 基于Gabor 小波变换的人脸表情特征提取 叶敬福,詹永照 (江苏大学计算机科学与通信工程学院,镇江 212013) 摘 要:提出了一种基于Gabor 小波变换的人脸表情特征提取算法。针对包含表情信息的静态灰度图像,首先对其预处理,然后对表情子区域执行Gabor 小波变换,提取表情特征矢量,进而构建表情弹性图。最后分析比较了在不同光照条件下不同测试者做出6种基本表情时所提取的表情特征,结果表明Gabor 小波变换能够有效地提取与表情变化有关的特征,并能有效地屏蔽光照变化及个人特征差异的影响。关键词:模式识别;表情特征提取;Gabor 小波变换 Facial Expression Features Extraction Based on Gabor Wavelet Transformation YE Jingfu, ZHAN Yongzhao (School of Computer Science and Communications Engineering, Jiangsu University, Zhenjiang 212013) 【Abstract 】This paper introduces a facial expression features extraction algorithm. Given a still image containing facial expression information,preprocessors are executed firstly. Secondly, expression feature vectors of the expression sub-regions are extracted by Gabor wavelet transformation to form expression elastic graph. Different expression features are extracted and compared while different subjects display six basic expressions with illumination variety. Experiment shows that expression features can be extracted effectively based on Gabor wavelet transformation, which is insensitive to illumination variety and individual difference. 【Key words 】Pattern recognition; Expression feature extraction; Gabor wavelet transformation 计 算 机 工 程Computer Engineering 第31卷 第15期 Vol.31 № 15 2005年8月 August 2005 ·人工智能及识别技术·文章编号:1000—3428(2005)15—0172—03 文献标识码:A 中图分类号:TP37 人脸表情识别是指从给定的表情图像或者视频序列中分析检测出特定的表情状态,进而确定被识别对象的心理情绪。人脸表情识别技术在许多领域有着潜在的应用价值,这些领域包括心理学研究、图像理解、合成脸部动画、视频检索、机器人技术、虚拟现实技术以及新型人机交互环境等[1]。 典型的人脸表情识别系统包括人脸检测、表情特征提取、表情特征分类识别3个阶段。人脸检测要能够从复杂的背景中检测出人脸的存在并确定其位置,对于图像序列,还要能精确跟踪人脸区域,国内外在人脸检测方面已做了大量的研究,且已有相关的有效方法及成果报道。而对于表情特征的提取和分类识别算法的研究目前还处于探索之中,国外学者已做了一定的研究工作,国内关于这方面的研究则相对较少。 针对处理图像的性质,可将表情特征提取方法分为两类:基于静态图像的表情特征提取和基于视频序列的动态表情特征提取。前者处理的是单帧静态表情图像,一般要求该图像反映的表情处于夸张或极大状态,使得提取的表情特征更为典型,这类方法主要包括主成份分析、奇异值分解以及基于小波变换的方法等。后者处理的是表情图像序列,目标是提取表情特征的变化过程。光流模型(Optical Flow Models)是提取动态表情特征的典型方法。比较而言,静态方法处理的数据量少,方法简单可靠,且提取的特征较为典型,能获得较高的识别率,但待处理的图像所包含的表情信息需处于夸张状态。而动态方法处理视频序列中的每一帧图像,因此计算量较大,难以满足实时性要求。 1表情图像的预处理 表情图像的预处理包括表情图像子区域的分割以及表情图像的归一化处理。前者指从表情图像中分割出与表情最相关的子区域,而后者包括图像的灰度均衡和尺度归一。图像预处理的好坏直接影响表情特征提取的效果和计算量。 (a) (b) 图1 分割人脸表情图像以提取特征区域 人脸表情特征可分为两类:持久性表情特征和瞬态表情特征,前者包括嘴巴、眼睛和眉毛,决定了基本表情状态,后者包括脸颊和额角皱纹的瞬间变化,能在一定程度上揭示表情状态。实验表明[3],嘴角形状对表情的影响最大,其次是眼睛和眉毛,而皱纹变化属于动态特征,且受年龄等因素影响较大,对表情的贡献不大,甚至会对表情识别产生不利影响。因此表情识别应重点提取嘴巴、眼睛和眉毛等局部表情特征,并忽略皱纹的变化。图像分割算法的目标就是要精确定位和分离出持久表情特征子区域。对于样本图像,可以人工框出这些区域,也可以根据眼睛的灰度特征并结合先验知识采用特定的定位算法实现特征区域的自动分割。分割结 基金项目:国家自然科学基金资助项目(60273040);江苏省高校自然科学基金资助项目(02KJB520003) 作者简介:叶敬福(1980—),男,硕士生,研究方向:多媒体技术,CSCW ;詹永照,教授、博导 定稿日期:2004-06-26 E-mail :yejingfu@https://www.doczj.com/doc/a314751480.html,

基于小波变换的语音特征参数提取

基于小波变换的语音特征参数提取 【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中,给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分,使频谱分辨率提高了一倍。试验证明,小波MFCC特征参数在较大词汇量情况下,其识别率优于MFCC特征参数的结果。 【关键词】小波分析;语音识别;MFCC Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary. Key words:wavelet transformation;speech recognition;MFCC 1.引言 在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。 近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。 2.MFCC特征参数 图1所示为MFCC特征参数的计算流程图。 图1 MFCC特征参数的提取 人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公

基于MATLAB的语音信号的处理

第一章语音信号的特点与采集 第一节语音信号采集的介绍 在Matlab环境中,主要可以通过以下几种方法驱动声卡,采集语音信号: 1.将声卡作为对象处理采集语音信号Matlab将声卡作为对象处理,其后的一切操作都不与硬件直接相关,而是通过对该对象的操作来作用于硬件设备(声卡)。操作时首先要对声卡产生一个模拟输入对象(ai),给ai对象添加一个通道设置采样频率后,就可以启动设备对象,开始采集数据,采集完成后停止对象并删除对象。 2.调用wavrecord功能函数采集语音信号。wavrecord功能函数只适用于windows95/98/N平台,它使用windows声音输入设备录制声音。函数调用方式:wavrecord(N,fs,ch,nbits); N:采集的样本数据量; fs:样本采集频率,为8000Hz、11025Hz、22050Hz和44100Hz之一,默认值为11025Hz; ch:样本采集通道,1为单声道,2为双声道,默认值为1(单声道); nbits:每个样本的位数(或称解析度),‘double’、‘single’或‘int16’为16位,‘uint8’为8位; 3.运用audiorecorder对象采集语音信号audiorecorder(fs,nbits,ch)可以创设一个audiorecorder对象。fs:样本采集频率,为8000Hz、11025Hz、22050Hz和44100Hz之一,默认值为8000Hz; nbits:每个样本的位数,8位或16位,默认值为8位; ch:样本采集通道,1为单声道,2为双声道,默认值为1(单声道); audiorecorder对象创设后,就可以进行相应的录音、暂停、停止、播放以及数据读取等操作。第二节语音信号的特点 通过对大量语音信号的观察和分析发现,语音信号主要有下面两个

实验三语音信号的特征提取最终实验报告

实验三语音信号的特征提取 一、实验目的 1、熟练运用MATLAB软件进行语音信号实验。 2、熟悉短时分析原理、MFCC、LPC的原理。 3、学习运用MATLAB编程进行MFCC、LPC的提取。 4、学会利用短时分析原理提取MFCC、LPC特征序列。 二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 1、MFCC 语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。 Mel频率可以用如下公式表示: ) 700 / 1 log( 2595f f Mel+ ? = 在实际应用中,MFCC倒谱系数计算过程如下; ①将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。 ②求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中 分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠加,这时第k 个滤波器输出功率谱) ('k x。 ③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换, 得到L个MFCC系数,一般L取12~16个左右。MFCC系数为 ∑=- = M k M n k k x Cn 1 '] / )5.0 ( cos[ ) ( logπ,n=1,2,...,L ④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。 2、LPC 由于频率响应) (jw e H反映声道的频率响应和被分析信号的谱包络,因此用

|)(|log jw e H 做反傅里叶变换求出的LPC 倒谱系数。 通过线性预测分析得到的合成滤波器的系统函数为)1/(1)(1 ∑=--=p i i i z a z H ,其冲激响 应为h(n)。h(n)的倒谱为)(^ n h ,∑+∞ =-= 1 ^ ^ )()(n n z n h z H 就是说)(^z H 的逆变换)(^ n h 是存在的。 设0)0(^=h ,将式 ∑+∞ =-= 1 ^ ^ )()(n n z n h z H 两边同时对1 -z 求导,得 ∑∑+∞ =--=--??= -??1 ^ 1 1 1 1 )(]11 log[ n n p i i z n h z z a z 得到∑∑∑∞ +==-=+-+--= 1 1 1 1 1 ^ 1)(n p i i i p i i i n z a z ia z n h n ,于是有 ∑∑ ∑+∞ =+∞ =+-+-=-= -1 1 1 1 ^ 1 1 )()1(n n i i n p i i z ia z n h n z a 令其左右两边z 的各次幂前系数分别相等,得 到)(^ n h 和i a 间的递推关系 ?? ? ? ??? ?? >--=≤≤--+==∑∑=-=p i i n i i n p n n h a n i n h p n k n h a n i a n h a h 1^ ^11^ ^ 1 ^ ),1()1()(1),()1()()1( ,按其可直接从预测系数{i a }求得倒谱)(^ n h 。这个倒谱是根据线性预测模型得到的,又称为LPC 倒谱。LPC 倒谱由于利用线性预 测中声道系统函数H (z )的最小相位特性,因此避免了一般同态处理中求复对数的麻烦。 四、实验步骤及程序 1、MFCC (1)、实验步骤 ① 输入样本音频 ② 给样本音频预加重、分帧、加窗 ③ 将处理好的样本音频做傅里叶变换 ④ 进行Mel 频率滤波 ⑤ 进行Log 对数能量

相关主题
文本预览
相关文档 最新文档