信号分析与处理论文

  • 格式:doc
  • 大小:247.00 KB
  • 文档页数:17

下载文档原格式

  / 17
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

武汉工程大学(硕、博士)研究生试卷本

考试课程名称信号分析与处理

考试

考查

学科专业检测技术及自动化装置

学号 *********

姓名金璐

基于DTW的孤立词语音识别方法研究

1 绪论

随着计算机技术的飞速发展,电脑己经走入千家万户,给人类带来了无穷的便捷。与此同时,人们对计算机的智能化要求也越来越高,当然最突出的需求体现在人机接口上。如果能实现人机之间的直接对话,让“机器”听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。

1.1 研究背景及意义

语言在人类的的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。

1.2 语音识别的国内外研究现状

通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,从而根据其信息,执行人的各种意图。

广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别,是指内容识别方面。采用计算机进行语音识别到现在已经发展了50年。

从特征参数上改进,采用各种办法进行语音增强是一个研究方向,但是到目前为止,还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景,主要可以分为通用场合和专用场合两个方面。

1.3研究内容

本文研究的主要内容是结合模式识别的基本理论,研究DTW孤立词语音识别的问题,实现0-9共10个数字的模式匹配及识别。分析了语音信号的预处理,特征提取及DTW算法实现。

2 语音识别技术

2.1 语音识别系统结构

孤立词语音识别是对特定的不连续的词语作为处理单元。语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。如图2.1所示为语音识别系统结构框图。

图2.1 语音识别系统结构框图

从图2.1的系统整体架构可以看到,建立基于DTW的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理包括预加重,加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分不同的说话人。

在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储,在此基础上建立了参考模板和说话人模型。在识别阶段,待测信号与参考模板中进行模式匹配, 经过一定的相似性准则得出识别结果。

2.2 语音信号预处理

图2.2是语音信号的预处理的流程图。从图2.2可以看到预处理模块包括预加重,加窗分帧和端点检测。前级预加重、加窗分帧及端点检测是语音识别的准备工作,每一个环节对整个识别系统的性能有着重要的影响。前级预处理主要是对信号进行一定的滤波和分帧;加窗分帧就是将语音信号进行分段处理,使语音信号连续并保持一定的重叠率:端点检测是确定语音有用信号的起始点与终止点,并通过一定的手段处理,将没有意义的语音信号去除,从而减少语音匹配识别模块的运算量,同时也可以提高系统的识别率。预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响,甚至达不到语音识别的效果,因此预处理工作作为语音识别的第一步工作,必须达到所需的要求,为下一步的特征参数提取做好铺垫。

图2.2 语音信号预处理流程图

2.2.1 语音信号的采样

Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制,也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。为了进行批量的的训练和识别处理,本系统的训练语音和识别语音全部使用“录音机”程序预先录制。在本实验中,将录取0-9共10段语音。如图2.3所示为数字0的训练语音00.wav的信号波形图,第(I)幅图为完整的语音波形,第(II)、(III)幅图分别为语音的起始部分和结束部分的放大波形图。

(I) “00.wav”语音信号波形

Time:s

A m p l i t u d e (n o r m a l i z e d )

(II) “00.wav”语音起始处放大波形图Time:s

A m p l i t u d e (n o r m a l i z e d )

(III) “00.wav”语音结束处放大波形图

Time:s

A m p l i t u d e (n o r m a l i z e d )

图2.3 语音00.wav 的信号波形图

2.2.2语音信号的分帧

语音信号是一种典型的非平稳信号,它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。但研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。因此,在实际处理时可以将语音信号分成很小的时间段(约10~30ms),称之为“帧”,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。分帧小能清楚地描绘语音信号的时变特征但计算量大;分帧大能减少计算量但相邻帧间变化不大,容易丢失信号特征。一般取帧长20ms ,帧移为帧长的1/3~1/2。

2.2.3语音信号的预加重

预加重是指在A /D 转换后加一个6dB /倍频程的高频提升滤波器,语音信号的平均功率谱由于受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按6dB /Oct(倍频程)跌落。所以求语音信号频谱时,频率越高相应的成份越小,高频部分的频率比低频部分的难求。因此,预加重的目的是加强语音中的高频共振峰,使语音信号的短时频谱变得更为平坦,还可以起到消除直流漂移、抑制随机噪声和提高清音部分能量的效果,便于进行频谱分析和声道参数分析。此外,通常的方法是使用一阶零点数字滤波器实现预加重,其形式为:

()()()

1y n x n x n α=-- (2-1)

频域相对应的形式为:

()11,[0.90,0.98]H

z z αα-=-=

(2-2) 其中,a 为预加重系数。

2.2.4 语音信号加汉明窗

设原始语音信号采样序列为x (n),将其分成短段等效于乘幅度为1的移动窗w(n 一m)。当移动窗幅