当前位置：文档之家› 基于DTW算法的语音识别原理与实现

基于DTW算法的语音识别原理与实现

广州大学机械与电气工程学院

数字语音信号处理

基于DTW算法的语音识别原理与实现

院系: 机电学院电子与通信工程

姓名: 张翔

学号: 2111307030 指导老师: 王杰

完成日期: 2014-06-11

基于DTW算法的语音识别原理与实现

[摘要]以一个能识别数字0～9的语音识别系统的实现过程为例，阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论，最后给出了在Matlab下的编程方法和实验结果，结果显示该算法可以很好的显示特定人所报出的电话号码。

[关键字]语音识别；端点检测；MFCC系数；DTW算法

Principle and Realization of Speech Recognition Based on DTW Algorithm

Abstract With an example of the realization of a 0~9 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm, including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm. Programming method under Matlab and experimental results are given at the end of the paper.，and the results show that the algorithm can well display the phone number of the person reported.

Keyword speech recognition; endpoint detection; MFCC parameter; DTW algorithm

一、引言

自计算机诞生以来，通过语音与计算机交互一直是人类的梦想，随着计算机软硬件和信息技术的飞速发展，人们对语音识别功能的需求也更加明显和迫切。语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术，属于多维模式识别和智能计算机接口的范畴。传统的键盘、鼠标等输入设备的存在大大妨碍了系统的小型化，而成熟的语音识别技术可以辅助甚至取代这些设备。在PDA、智能手机、智能家电、工业现场、智能机器人等方面语音识别技术都有着广阔的前景。

语音识别技术起源于20世纪50年代，以贝尔实验室的Audry系统为标志。先后取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等一系列关键技术的突破和以IBM的ViaVoice、Microsoft的V oiceExpress为代表的一批显著成果。国内的语音识别起步较晚，1987年开始执行国家863计划后语音识别技术才得到广泛关注。具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室，中科院声学所等。其中中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统，其准确率和系统响应率均可达90%以上。

常见的语音识别方法有动态时间归整技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划的思想成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。虽然HMM模型和ANN在连续语音大词汇量语音识别系统优于DTW，但由于DTW算法计算量较少、无需前期的长期训练，也很容易将DTW算法移植到单片机、DSP上实现语音识别且能满足实时性要求，故其在孤立词语音识别系统中仍然得到了广泛的应用。本文将通过能识别数字0～9的语音识别系统的实现过程详细阐述基于DTW算法的特定人孤立词识别的相关原理和关键技术。

二、语音识别系统概述

语音识别系统的典型原理框图如图1-1所示。从图中可以看出语音识别系统的本质就是一种模式识别系统，它也包括特征提取、模式匹配、参考模式库等基本单元。由于语音信号是一种典型的非平稳信号，加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征，而要进行前期的预处理。预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据就可以进行特征参数提取。在训练阶段，将特征参数进行一定的处理之后，为每个词条得到一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。后续的处理过程还可能包括更高层次的词法、句法和文法处理等，从而最终将输入的语音信号转变成文本或命令。

图1-1 语音识别系统原理框图

本文所描述的语音识别系统将对数字0~9共10段参考语音进行训练并建立模板库，之后将对多段测试语音进行识别测试。系统实现了上图中的语音输入、预处理、特征提取、训练建立模板库和识别等模块，最终建立了一个比较完整的语音识别系统。

三、具体实现过程

3.1、语音信号预处理

语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。在不同的系统中对各子模块会有不同的要求，如在嵌入式语音识别系统中一般要求有防混叠滤波电路、A/D转换电路和采样滤波电路等，而在计算机上实验时则可由音频采集卡完成，无需实验者亲自动手。

3.1.1、分帧

语音信号是一种典型的非平稳信号，它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。因此，在实际处理时可以将语音信号分成很小的时间段(约10~30ms)，称之为“帧”，作为语音信号处理的最小单位，帧与帧的非重叠部分称为帧移，而将语音信号分成若干帧的过程称为分帧。分帧小能清楚地描绘语音信号的时变特征但计算量大；分帧大能减少计算量但相邻帧间变化不大，容易丢失信号特征。

3.1.2、预加重

对于语音信号的频谱，通常是频率越高幅值越小，在语音信号的频率增加两倍时，其功率谱的幅度下降6dB。因此必须对高频进行加重处理，一般是将语音信号通过一个一阶高通滤波器1-0.9375z-1，即为预加重滤波器。其目的是滤除低频干扰，特别是50Hz到60Hz的工频干扰，将对语音识别更为有用的高频部分进行频谱提升。在计算短时能量之前将语音信号通过预加重滤波器还可起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。3.1.2、加窗

为了保持语音信号的短时平稳性，利用窗函数来减少由截断处理导致的Gibbs效应。用的最多的三种为矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。其窗函数如下，式中的N为窗长，一般等于帧长。

窗口的选择非常重要，不同的窗口将使能量的平均结果不同。矩形窗的谱平滑，但波形细节丢失；而汉明窗则刚好相反，可以有效克服泄漏现象，具有平滑的低通特性。因此，在语音的时域处理方法中，一般选择矩形窗，而在语音的频域处理方法中，一般选择汉明窗或汉宁窗。本系统中的端点检测采用时域方法故加矩形窗，计算MFCC 系数时加汉明窗。 3.2、端点检测

在基于DTW 算法的语音识别系统中，无论是训练和建立模板阶段还是在识别阶段，都先采用端点检测算法确定语音的起点和终点。语音端点检测是指用计算机数字处理技术从包含语音的一段信号中找出字、词的起始点及结束点，从而只存储和处理有效语音信号。对汉语来说，还可进一步找出其中的声母段和韵母段所处的位置。语音端点检测是语音分析、合成和识别中的一个重要环节，其算法的优劣在某种程度上也直接决定了整个语音识别系统的优劣。进行端点检测的基本参数主要有短时能量、幅度、过零率和相关函数等。端点检测最常见的方法是短时能量短时过零率双门限端点检测，近年来在此基础上发展出的动态窗长短时双门限端点检测方法也被广泛使用。 3.2.1、短时能量

语音和噪声的主要区别在它们的能量上,语音段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音声波能量的和。对第n 帧语音信号的短时能量E n 的定义为：

∑-==1

)(N m n n m x E (3-4)

x n 为原样本序列在窗函数所切取出的第n 段短时语音，N 为帧长。因为在计算时使用的是信号的平方，故将E n 作为一个度量语音幅度值变化的函数有一个缺陷，即对高电平非常敏感。

矩形窗：

汉明窗(Hamming)：

汉宁窗(Hanning)：

W R = 1 (0≤n ＜N-1) 0 (Other) W HM = 0.5-0.46cos(2πn/(N-1)) (0≤n ＜N-1) 0 (Other) W HN =

0.5-0.5cos(2πn/(N-1)) (0≤n ＜N-1)

{

{ 0 (Other)

(3-1) (3-2) (3-3)

因此在许多场合会将E n 用下式来代替：

|)(|1

∑-==N m n n m x E (3-5)

这样就不会因为取平方而造成信号的小取样值的大取样值出现较大差异。

本系统中窗函数为矩形窗W R (见式3-1)，N 为240。图3-1(I)和图3-2(I)分别为数字0的训练语音00.wav 和数字4的训练语音40.wav 的波形，图3-1(III)和图3-2(III)分别为它们的短时能量。

(I) “00.wav”语音信号波形

Time:s

A m p l i t u d e (

n o r m a l i z e d )

(II) 短时过零率

Frame Z c r

(III) 短时能量

Frame

E n e r g y

图3-1 语音00.wav 的时域分析参数

(I) “40.wav”语音信号波形

Time:s

A m p l i t u d e (n o r m a l i z e d

)

(II) 短时过零率

Frame Z c

(III) 短时能量

Frame

E n e r g y

图3-2 语音40.wav 的时域分析参数

3.2.2、短时过零率

短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号，过零意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值的改变符号则称为过零。过零率就是样本改变符号次数，定义语音信号x(m)的短时过零率Zn 为：

∑-=--=1

|)]1(sgn[)](sgn[|21N m n n n m x m x Z (3-6)

(3-7)

清音的能量多集中在较高的频率上，它的平均过零率要高于浊音，故短时过零率可以用来区分清音、浊音以及无声。图3-1(II)和图3-2(II)分别为数字0的训练语音00.wav 和数字4的训练语音40.wav 的短时过零率。从图中可以看到清音‘s ’的过零率明显高于其后的‘i ’音，有声段过零率明显高于无声段，但在鼻音阶段过零率迅速滑落到无声水平而能量值则是缓慢下滑。在实际应用时并不能通过上式直接计算过零率，因为在无声段噪声使语音波形在0值附近来回摆动，导致计算出的过零率和有声段的区别并不十分明显。比较简单的解决方法是对语音信号做中心截幅处理（过门限率），设定一个差的阈值δ,进行如下处理。 0

)

({)(~

m x m x i i =δ

δ<>)()(m x m x i i （3-8）

3.2.3、双门限端点检测

双门限端点检测顾名思义需要两级检测，即短时能量检测和短时过零率检测。在开始检测之前需要设定3个门限，即分别为短时能量和设置一个高门限和一个低门限：amp1、amp2和为过零率设置门限zcr2，则整个语音端点检测分为四部分：静音段、过度段、语音段、结束段。在静音段中如果能量过了其低门限或过零率超过其所设门限，则认为进入了过度段。在过度段中，由于参数数值较小，还不能确定是否真的进入语音段，只有两个参数的其中一个超越了高门限才被认为是进入语音段。当参数降至低门限则认为进入结束。此外，还有两种可能会引起端点检测的误判：一是短时噪音引起的误判，此时则需要引入最小语音长度门限进行噪声判定，即语音段时间小于一定数值则认定为是噪声，重新回到静音段，本系统设为15帧长；二是语音中字与字的时间空隙引起的误判，此时需要设定最大静音长度门限来降低识别的错误率，本系统所识别的字既包括单字，有包括一段语音，故需设置此门限，设

(x ≥0) -1 (x ≤0)

sgn[x ]=

{

置为10帧长。

在双门限端点检测中3个门限的设定至关重要，门限设定的好坏将直接影响端点检测的结果。门限值的设置还没有一个通用可靠的方法，需要根据经验和特定环境进行调整。本系统根据所设置静音段进行设置，取刚开始0.1s 静音段为噪声估计信号，NIS 为噪声段帧长，则amp1，amp2，zcr2的取值分别为：

ampth=mean(amp(1:NIS)；zcrth=mean(zcr(1:NIS); (其中，amp ，zcr 为能量和过零率） amp1=4*ampth; amp2=2*ampth; zcr2=2*zcrth;

图3-3和图3-4分别是数字0的训练语音00.wav 和数字4的训练语音40.wav 的端点检测结果，红线之间的部分为检测出的语音有声段。

(I) “00.wav”语音信号

Sample S p e e c

(II) 短时过零率

Frame Z C R

(III) 短时能量

Frame

E n e r g y

图3-3 语音00.wav 的端点检测结果

(I) “40.wav”语音信号

Sample S p e e c

h (II) 短时过零率

Frame Z C

(III) 短时能量

Frame

E n e r g y

图3-4 语音40.wav 的端点检测结果

同时为了验证该端点检测系统同样对一段语音适用，我们对一段所报电话号码的语音进行端点检测，结果如图3-5所示：

图3-5

3.3、语音识别参数提取

经过预处理的语音数据就可以进行特征参数提取，特征参数的好坏将直接影响系统的性能和效率，对特征参数的要求包括：

(1)提取的特征参数能有效地代表语音特征，具有很好的区分性；

(2)各阶参数之间有良好的独立性；

(3)特征参数要计算方便，最好有高效的计算方法，以保证语音识别的实时实现。3.3.1、LPC与LPCC系数

LPC(Linear Prediction Coefficient，线性预测系数)模拟人发音器官的声管模型，是一种基于语音合成的参数模型。在语音识别系统中很少直接使用LPC系统，而是由LPC系数推出的另一种参数LPCC。LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱系数)是LPC在倒谱域中的表示。该特征是基于语音信号为自回归信号的假设，利用线性预测分析获得倒谱系数。LPCC的优点是计算量小，易于实现，对元音有较好的描述能力，缺点是对辅音描述能力较差。

3.3.2、MFCC 系数

LPC 模型是基于发音模型建立的，LPCC 系数也是一种基于合成的系数，这种参数没有充分利用人耳的听觉特性。实际上，人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，基本上是一个对数的关系。近年来，一种能够比较充分利用人耳的这种特殊感知特性的系数得到了广泛应用，这就是Mel 尺度倒谱系数(Mel-scaled Cepstrum Coefficients ，简称MFCC)。大量研究表明，MFCC 系数能够比LPCC 参数更好地提高系统的识别性能。

MFCC 系数的计算是以“bark ”为其频率基准的，它和线性频率的转换关系是：

)700

1(log 259510f

f mel +

= (3-9) MFCC 系数也是按帧计算的，首先要通过FFT 得到该帧信号的功率谱S(n)，转换为Mel 频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器：

H m (n) m =0,1,…,M -1; n=0,1,…,N /2-1 (3-10)

M 为滤波器的个数，通常取24，与临界带的个数一样；N 为一帧语音信号的点数，为了计算FFT 的方便，通常取256。滤波器在频域上为简单的三角形，其中心频率f m 在Mel 频率轴上是均匀分布的。如图3-6所示为Mel 尺度滤波器组，包含24个滤波器，语音信号帧长取为256个点，语音信号的采样频率为8KHz ，。

00.20.40.60.811.21.41.61.82Mel-Spaced Filterbank

Frequency [Hz]

图3-6Mel 尺度滤波器组

带通滤波器的系数事先计算好，在计算MFCC 系数是直接使用。MFCC 系数的计算过程如下：

(1) 预处理：确定每一帧语音采样序列的长度(如N=256)，并对每帧序列s(n)进行预加

重、分帧和加窗处理；

(2) 计算离散功率谱：对预处理的每帧进行离散FFT 变换得到其频谱，再取模的平方作

为离散功率谱S(n)；

(3) 将功率谱通过滤波器组：计算S(n)通过M 个H m (n)后所得的功率值，即计算S(n)和

H m (n)在各离散频率点上的乘积之和，得到M 个参数P m ，m=0,1,……M-1； (4) 取对数：计算P m 的自然对数，得到L m ，m=0,1,……M-1；

(5) 离散余弦变换：对L m 计算其离散余弦变换，得到D m ，m=0,1,……M-1，舍去代表

直流成份的D 0，取D 1，D 2，……，D k 作为MFCC 参数。

具体流程可以用框图3-7表示为：

系数

图3-7MFCC 系数计算流程图

3.4、DTW 算法实现

DTW(Dynamic Time Warping ，动态时间规整)是语音识别中较为经典的一种算法。在实现小词汇表孤立词识别系统时，其识别率及其它指标与HMM 算法实现几乎等同。又由于HMM 算法复杂，在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数，而DTW 算法本身既简单又有效，因此在特定的场合下获得了广泛的应用。 3.4.1、匹配模式

模板匹配方法的语音识别算法需要解决的一个关键问题是说话人对同一个词的两次发音不可能完全相同，这些差异不仅包括音强的大小、频谱的偏移，更重要的是发音时音节的长短不可能完全相同，而且两次发音的音节往往不存在线性对应关系。设参考模板有M 帧矢量{R(1)，R(2)，…R(m)，…，R(M)}，R(m)为第m 帧的语音特征矢量，测试模板有N 帧矢量{T(1)，T(2)，…T(n)，…，T(N)}，T(n)是第n 帧的语音特征矢量。d(T(i n ),R(i m ))表示T 中第i n 帧特征与R 中i m 帧特征之间的距离，通常用欧几里德距离表示。直接匹配是假设测试模板和参考模板长度相等，即i n =i m ；线性时间规整技术假设说话速度是按不同说话单元的发音长度等比例分布的，即m n i M

。显然，这两种假设都不符合实际语音的发音情况，

我们需要一种更加符合实际情况的非线性时间规整技术。如图3-8所示为三种匹配模式对同一词两次发音的匹配距离(两条曲线间的阴影面积)，显然D3

图3-8 三种匹配模式对比

3.4.2、DTW 算法原理

DTW 是把时间规整和距离测度计算结合起来的一种非线性规整技术，它寻找一个规整函数i m =Ф(i n )，将测试矢量的时间轴n 非线性地映射到参考模板的时间轴m 上，并使该函数满足：

∑=ΦΦ=N

i n n i n n i R i T d D 1

)

()))((),((min (3-11)

D 就是处于最优时间规整情况下两矢量的距离。由于DTW 不断地计算两矢量的距离以寻找最优的匹配路径，所以得到的是两矢量匹配时累积距离最小所对应的规整函数，这就保证了它们之间存在的最大声学相似性。DTW 算法的实质就是运用动态规划的思想，利用局部最佳化的处理来自动寻找一条路径，沿着这条路径，两个特征矢量之间的累积失真量最小，从而避免由于时长不同而可能引入的误差

DTW 算法要求参考模板与测试模板采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。为了使动态路径搜索问题变得有实际意义，在规整函数上必须要加一些限制，不加限制使用式(3-11)找出的最优路径很可能使两个根本不同的模式之间的相似性很大，从而使模式比较变得毫无意义。通常规整函数必须满足如下的约束条件：

(1) 边界限制：当待比较的语音已经进行精确的端点检测，在这种情况下，

规整发生在

待测模式T

参考模式R

直接匹配D 1(T ,R ) 线性匹配D 2(T ,R ) 非线性匹配D 3(T ,R )

起点帧和端点帧之间，反映在规整函数上就是：

1)1()({=Φ=ΦM

N (53-12)

(2) 单调性限制由于语音在时间上的顺序性，规整函数必须保证匹配路径不违背语音信号各部分的时间顺序。即规整函数必须满足单调性限制：

)()1(n n i i Φ≥+Φ (3-12)

(3) 连续性限制有些特殊的音素有时会对正确的识别起到很大的帮助，某个音素的差异很可能就是区分不同的发声单元的依据，为了保证信息损失最小，规整函数一般规定不允许跳过任何一点。即：

1)()1(≤Φ-+Φn n i i (3-13)

DTW 算法的原理图如图3-9，把测试模板的各个帧号n=1~N 在一个二维直角坐标系中的横轴上标出，把参考模板的各帧m=1~M 在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(t i ,r j )表示测试模式中某一帧与训练

模式中某一帧的交汇。DTW 算法分两步进行，一是计算两个模式各帧之间的距离，即求出帧匹配距离矩阵，二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下：搜索从(1,1)点出发，对于局部路径约束如图3-10，点(i n ,i m )可达到的前一个格点只可能是(i n -1,i m )、(i n -1,i m -l)和(i n -1,i m -2)。那么(i n ,i m )一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

n R i

图3-9 DTW 算法原理图

(i n , i m )

(i n -1 , i m ) (i n -1 , i m (i n -1 , i m 图3-10 局部约束路径

D(i n,i m)=d(T(i n),R(i m))+min{D(i n-1,i m),D(i n-1,i m-1),D(i n-1,i m-2)} (3-14）

这样从(l,1)点出发(令D(1,1)=0)搜索，反复递推，直到(N,M)就可以得到最优路径，而且D(N,M)就是最佳匹配路径所对应的匹配距离。在进行语音识别时，将测试模板与所有参考模板进行匹配，得到的最小匹配距离D min(N,M)所对应语音即为识别结果。

四、结果分析

我们首先对单个数字进行语音信号分析，特定人进行录音（也就是训练的那个人），简单进行四次实验，结果如表格4-1所示。

数字0 1 2 3 4 5 6 7 8 9 0~9 正确数 4 2 4 4 3 4 3 3 4 2 33

错误数0 2 0 0 1 0 1 1 0 2 7

正确率 1.00 0.50 1.00 1.00 0.75 1.00 0.75 0.75 1.00 0.50 0.825

表4-1（特定人语音识别）

数字0 1 2 3 4 5 6 7 8 9 0~9 正确数 2 1 1 4 2 3 3 2 4 2 24

错误数 2 3 3 0 2 1 1 2 0 2 16

正确率0.50 0.25 0.25 1.00 0.50 0.75 0.75 0.50 1.00 0.50 0.60

表4-2

对于特定人所报电话号码进行识别，端点检测与所测结果分析如图4-1和表4-3所示。

图4-1

数字 1 8 8 2 5 0 5 8 1 0 6 tel 正确数 3 4 4 4 4 4 3 4 2 4 4 40

表4-3

验结果表示该算法，对于特定人语音识别来说，真确率可高达80%以上，但对于非特定人来说，识别率过低。我们需要通过对要测试的人进行训练，让他们转化成特定人来提高识别率，所以整体来说是特定人识别系统。如果进行大量的训练，就需要采用随机模型法，如HMM（隐马尔科夫模型）算法进行识别。该算法以很好的显示特定人所报出的电话号码。为了提高识别率，特别给据人们说话习惯，将1的读音加入‘yao’的训练，发现识别率会进一步提高。同样在语音识别参数的选择上，我们可以增加语音参数识别的类型，来进一步提高正确率。

语音识别技术综述

语音识别技术综述电子信息工程2010级1班郭珊珊【摘要】随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，该技术的发展和应用改变了人们的生产和生活方式，正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。【关键词】语音识别；语音识别原理；语音识别发展；产品语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理语音识别系统本质是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需特征，在此基础上建立语音识别所需的模板。计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑可以将识别系统分为3类：(1)特定人语音识别系统：仅考虑对于专人的话音进行识别；(2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识

别系统进行学习；(3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑也可以将识别系统分为3类：(1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿；(2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现；(3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑也可以将识别系统分为3类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别

语音识别系统实验报告材料

语音识别系统实验报告专业班级：信息安全学号：姓名：

目录一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附：GUI程序代码 (12) 一、设计任务及要求实现语音识别功能。二、语音识别的简单介绍

基于VQ的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。语音识别系统结构框图如图1所示。图1 语音识别系统结构框图 2.1语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有的特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；利用电话网络还可实现远程客户服务等。因此，近几年来，说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较，说话人识别不仅使用方便，而且属于非接触性，容易被用户接受，并且在已有的各种生物特征识别技术中，

语音识别流程分析

摘要：语言识别是将人类自然语言的声音信号，通过计算机自动转换为与之相对应的文字符号的一门新兴技术，属于模式识别的一个分支。语音识别的结果可以通过屏幕显示出文字符号，也可以存储在文本文件中。语音识别技术能够把语音信息直接转换成文字信息，对于中文信息处理来说，无疑是一个最理想、最自然的汉字输入方式。本文首先分析了语音识别的原理，在此基础上进行语音识别的流程分析，主要内容有：提取语音、端点检测、特征值提取、训练数据、语音识别。选用HMM隐马尔科夫模型，基于VC2005编译环境下的的多线程编程，实现算法的并行运算，提升了语音识别的效率。实验结果表明：所设计的程序满足语音识别系统的基本要求。关键词：语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程前言语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话

音对说话人进行区别，从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。语音识别技术，也被称为自动语音Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列[1]。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。一、语音识别的原理语音识别的基本原理是一个模式匹配的过程：先建立一个标准的模式存放在计算机中，然后把输入的语言信息进行分析处理，采集相关的信息建立目标语音模式，再将目标语音模式与机内标准模式相匹配，找到最近的模式最为识别结果输出。语音识别本质上是一种模式

语音识别字符分割算法_原创.

5.设计方法 5.1概述 5.2硬件系统的设计语音信号预处理（1）预加重预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现，一般是一阶的FIR数字滤波器: 为预加重系数，值接近于l，在0.9和1之间，典型值为0.94。预加重的DSPBuilder实现：为了便于实现，将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中，为原始语音信号序列，N为语音长度，上面的公式显示其在时域上的特性。又因为0.94接近于15/16，所以将上面的式子变为除以16可以用右移4位来实现，这样就将除法运算化简为移位运算，降低了计算复杂度。在后面的模块设计中，也乘以或者除以一些这样的数，这些数为2的幂次，都可以用移位来实现。预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为：

预加重滤波器的DSPBuilder结构图（2）分帧语音信号是一种典型的非平稳信号，其特性随时间变化，其在很短的时间内是平稳的，大概为1小20ms，其频谱特性和物理特征可近似的看做不变，这样就可以采用平稳过程的分析处理方法来处理。分帧的DSP Builder实现：语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期)，也就是说选取的帧长必须介于10到20ms之间，此外，在MFCC特征提取时要进行FFT变换，FFT点数一般为2的幂次，所以本文中选择一帧长度为16ms，帧移为1/2帧长，这样一帧就包含了16KHz*16ms=256个点，既满足短时平稳，又满足FFT变换的要求。由于采集的语音是静态的，语音长度已知，很容易计算出语音的帧数，但是在硬件上或实时系统中，语音长度是无法估计的，而且还要考虑存储空间的大小和处理速度，采用软件实现时的静态分帧方法是行不通的，可以利用硬件本身的特点进行实时的动态分帧。为了使帧与帧之间平滑过渡，保持连续语音流的自相关性和过渡性，采用交叠分帧的算法。帧移取1/2帧长，即128个数据点当作一个数据块。FIFO1大小为一帧语音长度，分成两个数据块，预加重后的数据写入这个FIFO。为了实现帧移交叠，在FIFO1读数据时，同时再用FIFO2保存起来，当FIFO的一块数据读完以后，紧接着从FIF22读出这一块的副本。写入的一块数据，相当于被重复读出2次，所以FIFO1的读时钟频率设计为写时钟频率的2倍，而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…，1、2为第一帧，2、3为第二帧，以此类推。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：（2）声学模型与模式匹配（识别算法）（3）语义理解：计算机对识别结果进行语法、语义分析。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。现代语音识别技术研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。语音识别应用的特点 1.语音识别系统必须覆盖的功能包括：（1）语音识别系统要对用户有益（希望它是能检测到的）。例如提高生产率，容易使用，更好的人机界面，或更自然的信息交流模式。（2）语音识别系统要对用户“友好”。这种“友好”的含义是：用户在和系统进行语音对话时感到舒适；系统的语音提示既有帮助，又很亲近。（3）语音识别系统必须有足够的精度（4）语音识别系统要有实时处理能力；例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理有以下四种方式可以处理这个问题。（1）错误弱化法。这种处理仅仅花费用户很少一点时间，对用户几乎没什么其它不利影响。（2）错误自检纠正法系统利用已知任务的限制自动地检测并纠正错误。（3）确认或多层次判定

（4）拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定，而是将其转给人工座席。在很多情况下，语音识别技术可以充分发挥出RFID的潜能： 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益语音识别技术在邮件分拣中的应用现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是，并不是所有的邮件都能上分拣机处理，那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件，仍需要大量的劳动力。由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力，并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言，这样，语音技术就成为世界性的产品。以英语语音识别系统为例，系统建立了36个可识别字符26个字母加上0～9的10个数字，同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。对于大公司的邮件收发中心来说，使用MailCode公司的Spell-It软件技术，分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如：碰到了寄给Joseph Schneider的邮件，操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。姓名和邮箱编码：Jennifer Schroeder, 软件工程部；Joseph Schneider, 技术操作部；Josh Schriver, 技术操作部，因为这三个姓名全都符合（J,S,C,H）的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的，就可以把邮件投入Joseph Schneide的信箱了。邮局要把邮件按投递路线分发，分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统，这样就大大方便了分拣工作。例如，有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术，分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音，如表2所示，数据库就会给出所有可能和这几

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文学院：化工与环境学院学号：2120151177 姓名：杜妮

摘要：随着计算机技术的不断发展，人工智能程度也越来越高，作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献，分析最新声音识别的方法和应用。关键字：模式识别声音识别方法应用随着人工智能的迅速发展，语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令，并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括：特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术，语音识别在过去的几十年里取得了飞速的发展，人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造，以期发现更好的方法来完成语音识别流程中的各步骤，以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献，分析目前语音识别流程中的技术进展和趋势，并在文章最后给出几项语音识别在日常生活中的应用案例，从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法 (一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础，只有分析出可以代表语音信号本质特征的参数，才能对这些参数进行高效的语音通信，语音合成，和语音识别等处理，并且语音合成的好坏，语音识别率的高低，也都取决于语音特征提取的准确性和鲁棒性。目前，针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟，已经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语音识别技术概述

语音识别技术概述摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式

人工智能论文语音识别

信息学院《人工智能及其应用》课程论文题目：基于神经网络的语音信号识别作者黄超班级自动08-1BF班系别信息学院专业自动化完成时间 2011.6.12

基于神经网络的语音信号识别摘要语言是人类之间交流信息的主要手段之一，自电脑发明以来，人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术，应用需求十分广阔，长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学，它模拟了人类神经元活动的原理，具有自学习、联想、对比、推理和概括能力，为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点．对BP神经网络在语音识别技术中的应用进行了探索性研究，进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高但训练速度慢的缺点，对BP网络进行改进，构建了一种基于遗传神经网络的语音识别算法(GABP)，并建立相应的语音识别系统。仿真实验表明，该算法有效地缩短了识别时问，提高了网络训练速度和语音的识别率。关键词：语音识别，神经网络，遗传算法，遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind．Since the computer was invented，many scientists have been devoted to enabling the computer to understand the natural language．Speech recognition is a comprehensive technology of such areas as acoustics，phonetics，linguistics，computer science，information processing and artificial intelligence，which can be used widely．The research of speech recognition technology has been focused by the world for a long time．The neural network is a new developing science，which simulates the mechanism of human brain and was putted forward by the developing of modern science．It is not the overall description of human brain，but the abstract，simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing，storing and searching．If people can understand these mechanisms，a new way for the research of artificial intelligence，information processing and etc.

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别文献综述

噪音环境下的语音识别 1.引言随着社会的不断进步和科技的飞速发展，计算机对人们的帮助越来越大，成为了人们不可缺少的好助手，但是一直以来人们都是通过键盘、鼠标等和它进行通信，这限制了人与计算机之间的交流，更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机，让计算机能听懂人的语言，理解人们的意图，人们开始了对语音识别的研究．语音识别是语音学与数字信号处理技术相结合的一门交叉学科，它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 2.语音识别的发展历史和研究现状 2.1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代，日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题，开发了一系列的时问归正方法，明显地改善了识别性能。与此同时，苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题，这是动态时间弯折算法DTW(dymmic time warping)的基础，也是其连续词识别算法的初级版．20世纪70年代，人工智能技术走入语音识别的研究中来．人们对语音识别的研究也取得了突破性进展．线性预测编码技术也被扩展应用到语音识别中，DTw也基本成熟。 20世纪80年代，语音识别研究的一个重要进展，就是识别算法从模式匹配技术转向基于统计模型的技术，更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model，删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代，人工神经网络(artificial neural network，ANN)也被应用到语音识别的研究中，并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成熟，并走向实用。许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。当今，基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识

语音识别-科普性介绍

随机过程理论在语音识别中的应用第一章语音识别总述 1.1语音识别技术简介语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件（如：微信、QQ等）里，语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外，在许多输入法（如：讯飞输入法）中也可以使用语音输入功能。用户只需要对着麦克风说话，输入法便可以将语音转换为文字填入输入框，在方便用户的同时也提高了文字输入效率。语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等，是一门涵盖多个学科领域的交叉科学技术。语音识别的技术原理是模式识别，其一般过程可以总结为：预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。图1.0.1 语音识别过程第二章预处理声音的实质是波。在现如中得到广泛应用的音频文件格式（如：mp3等）都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。

图2.0.2 语音波形示例有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。 2.1静音切除如图2.1.2所示，在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域，会有静音和噪声的存在。因此，必须先对得到的输入信号进行一定的预处理，消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。噪声处理部分本文已在上文进行过讨论，这里不再赘述。去除静音需要用到V AD算法，本文对其做简单介绍。 2.1.1 V AD算法 V AD算法全称为V oice Activity Detection，又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音，还可以去除一部分噪声对后续语音识别过程造成的干扰。V AD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍，具体算法不属于本文重点因而不在此做细致讨论。 2.1.2时域参数时域参数是通过对输入信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。 1.相关性分析通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中，静音的部分实际上会混有各种各样的噪声，因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低，而人说话的语音相关性则比较强。因此，在高信噪比的条件下区分成功率很

语音识别综述

山西大学研究生学位课程论文（2014 ---- 2015 学年第 2 学期）学院（中心、所）：计算机与信息技术学院专业名称：计算机应用技术课程名称：自然语言处理技术论文题目：语音识别综述授课教师（职称）：研究生姓名：年级：学号：成绩：评阅日期：山西大学研究生学院 2015年 6 月2日

语音识别综述摘要随着大数据、云时代的到来，我们正朝着智能化和自动化的信息社会迈进，作为人机交互的关键技术，语音识别在五十多年来不仅在学术领域有了很大的发展，在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程，国内外研究现状，具体阐述语音识别的概念，基本原理、方法，以及目前使用的关键技术HMM、神经网络等，具体实际应用，以及当前面临的困境与未来的研究趋势。关键词语音识别；隐马尔科夫模型；神经网络；中文信息处理 1.引言语言是人类相互交流最常用、有效的和方便的通信方式，自从计算机诞生以来，让计算机能听懂人类的语言一直是我们的梦想，随着大数据、云时代的到来，信息社会正朝着智能化和自动化推进，我们越来越迫切希望能够摆脱键盘等硬件的束缚，取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象，通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史语音识别的研究工作起源与上世纪50年代，当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年，J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字，开始了计算机语音识别的研究工作。 60年代，计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好的解决了语音信号产生模型的问题，对后来语音识别的发展产生了深远的影响。 70年代，LP技术得到了进一步的发展，动态时间归正技术（DTW）基本成熟，特别是矢量量化（VQ）和隐马尔科夫（HMM）理论的提出，并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代，实验室语音识别研究产生了巨大的突破，一方面各种连接词语音识别算法被开发，比如多级动态规划语音识别算法；另一方面语音识别算法从模板匹配技术转向基于统计模型技术，研究从微观转向宏观，从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型（HMM）就是其典型代表，能够很好的描述语音信号的时变性和平稳性，使大词汇量连

浅论自动语音识别结构与原理

浅论自动语音识别结构与原理发表时间：2018-12-05T13:30:59.817Z 来源：《科技新时代》2018年10期作者：黄淑彤[导读] 自动语音识别(Automatic Speech Recognition）简称ASR是目前属于AI领域的一项十分重要的技术，伴随着人工智能的高速发展，智能化生活走向主流，ASR技术已经走进了人们的生活中的方方面面。学校：当阳市第一高级中学，学校地址：湖北省宜昌市，学校邮编：444100 摘要;自动语音识别(Automatic Speech Recognition）简称ASR是目前属于AI领域的一项十分重要的技术，伴随着人工智能的高速发展，智能化生活走向主流，ASR技术已经走进了人们的生活中的方方面面。先简要介绍了语音识别的发展、语音信号的接收，再重点阐述了ASR运行过程中相关的原理及方法和与ASR技术的基本算法使用语音信号的处理涉及的三大算法即朴素模式算法，KMP算法，及HMM算法。关键词; 自动语音识别;人工智能;语音识别涉及的三大算法 1.语音识别系统的发展历程语音即声音，自动语音识别(ASR) 简言之就是：听到人类发出的语音指令后，计算机通过将声音中包含的信息转化为的一系列计算机可理解的参数，之后再进行处理，做出人类所需要的反应的一种智能技术[1]。为了在与计算机交互时同与人类说话一样容易，科学家做出了巨大努力。其中历史性的两大里程碑事件一是戴维斯实验室研发的英文十英文字符语音参数实验系统，二是毕业于卡内基梅隆大学的李开复开拓出了容纳更广的词汇量的语音识别系统sphinx，还为此前种种难题，如不间断语音非特定人语音、声线不平、语音信息模糊等问题提供了解决方案，从此成为如今大多数进入语音识别领域的工作者的必备知识[1]。追根朔源语音识别是从贝尔发明电话时期初露锋芒的，伴随着1876年电话的发明，语音识别的一系列有关声音的参数如声带振动的频率，振幅，声速等相关影响因素都被予以高度关注及探索，从此为语音研究铺下了良好的基础[1]。紧随其后的是诞生于1946年的计算机，它开创了电子信息新时代，随着计算机发展愈加完善，该技术成为语音识别进步的巨大动力[1]。语音识别的原理是离不开模型的，譬如声学模型，语言模型，概率模型等都是语音识别时的工具，这就如同一串拼音对应多个词组一样，我们要在一段语音中找到概率最大的音频，则需要一些算法来得到转化后的可懂序列[3]。这个过程涉及到一些数据信息的获取和处理，具体技术即下文介绍的语音信号接收操作及三大算法。 2.语音信号接收作为技术突破的第一步，语音信号的接收是最先发展和突破的，在历史上探索历程也是最漫长的，整个操作过程有重要的两步，即静音切除和分帧操作。 2.1 静音切除静音切除是与语音有关的必要部分比如声码器，声码器在军事领域运用最为广泛，其工作原理是通过声音震动带来的频率变化转化为数字信号，其中只保留必要的关键词，剪切掉的多余部分作为推测信号会在释放时被重新填补，再通过力传感器产生同按键生压一样的效果，解放双手就能做到发出准确的指令[2][5]。但如果一段音频的时间过长，那么收集其声音参数形成的数据就会很大，这时切除无用信号就显得尤为重要，静音切除用到的基本技术是VAD(virtural address descripter)，它的工作原理是在虚拟的语音环境中识别出指令者声音信息流的停顿空白期，这一段并不含信息源，完全可省略，同开头结尾部分文件头一起还原语音时，与有用信息一起通过语音分组待还原[3][5]。 2.2分帧操作分帧操作首先是为了分辨频率信号的分布情况，其次是对语音信号进行隔离，一段一段的语音分成组累叠储存比一整段数据携带更为方便，也能够使运作效率提高。而分帧操作时使用的必须是一段平稳清晰的声音帧，为了分清各个频率情况的分布，这里要用到“傅里叶变换”，结合窗函数，收集一系列经过函数加工后得到的声音参数比如声速、声波频率、振幅、声波的波峰波谷等音频信号，利用移动窗函数给各帧函数确定下坐标参数。这里的傅里叶变换是指将满足一定条件的某个函数表示成三角函数，正弦余弦函数等一系列普通可懂函数，之后在同一些积分线性函数相组合结合。从而提高分辨率，两边的幅度下降之后，确定下了秒数之后就可以开始变换了[3]。 3.语音识别的核心三大算法模式匹配即匹配字符串(一串字符序列)，在主串（比对串）中对子串（待匹配串）进行定位，其实串在计算机是凭借各字符在字符表中的前后位置顺序进行比较的，常用字符也是指对应字符在对应字符集中的序号，正如语音识别中模式匹配需要找到对应格式，字串也要找到指定位置，再填补，增删之后才可使用[6]。模式匹配是使串的长度和对应位置相对应，从而达到使语音匹配正确的目的。 3.1 朴素模式算法(BF算法) 朴素模式算法即依次全部历遍完串直到全部匹配成功,如下表按照上下箭头进行匹配，如果匹配不成功，则接着下一个进行匹配直到待匹配串完全一一对应才算完全成功。其实在BF算法中称P为模式字符串，而T为目标字符串，字符的对应成功就代表着P在T中完全一一对应了[6]。譬如给出T串:A B H O M E W O R K E P P串：H O M E W O R K,在匹配时可以明显发现前面的元素字串无法一一对应时箭头显现红色，后面无对应的箭头显示白色，在这样的情况下，根据朴素模式算法知道，接下来要向后移动模式串P，而T串不动再进行一次匹配，如下图，第二个图对应第二次匹配的过程依然没完成百分之百的对应，接着重复前面的操作得到的第三个图就是对应成功了，且成功对应的串都是用绿色箭头表示的，接着可以直接输出串的位置，序号等参数，从而定下匹配的串，这样朴素模式算法就算完成了。

基于DTW算法的语音识别原理与实现

广州大学机械与电气工程学院数字语音信号处理基于DTW算法的语音识别原理与实现院系: 机电学院电子与通信工程姓名: 张翔学号: 2111307030 指导老师: 王杰完成日期: 2014-06-11

基于DTW算法的语音识别原理与实现 [摘要]以一个能识别数字0～9的语音识别系统的实现过程为例，阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论，最后给出了在Matlab下的编程方法和实验结果，结果显示该算法可以很好的显示特定人所报出的电话号码。 [关键字]语音识别；端点检测；MFCC系数；DTW算法 Principle and Realization of Speech Recognition Based on DTW Algorithm Abstract With an example of the realization of a 0~9 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm, including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm. Programming method under Matlab and experimental results are given at the end of the paper.，and the results show that the algorithm can well display the phone number of the person reported. Keyword speech recognition; endpoint detection; MFCC parameter; DTW algorithm 一、引言自计算机诞生以来，通过语音与计算机交互一直是人类的梦想，随着计算机软硬件和信息技术的飞速发展，人们对语音识别功能的需求也更加明显和迫切。语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术，属于多维模式识别和智能计算机接口的范畴。传统的键盘、鼠标等输入设备的存在大大妨碍了系统的小型化，而成熟的语音识别技术可以辅助甚至取代这些设备。在PDA、智能手机、智能家电、工业现场、智能机器人等方面语音识别技术都有着广阔的前景。语音识别技术起源于20世纪50年代，以贝尔实验室的Audry系统为标志。先后取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等一系列关键技术的突破和以IBM的ViaVoice、Microsoft的V oiceExpress为代表的一批显著成果。国内的语音识别起步较晚，1987年开始执行国家863计划后语音识别技术才得到广泛关注。具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室，中科院声学所等。其中中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统，其准确率和系统响应率均可达90%以上。常见的语音识别方法有动态时间归整技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN)。

语音识别技术概述(一)

语音识别技术概述(一) 作者：刘钰马艳丽董蓓蓓摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:Thistextbrieflyintroducesthetheoreticalbasisofthespeech-identificationtechnology,itsmo deofclassification,theadoptedkeytechniqueandthedifficultiesandchallengesithavetoface.Then,the developingprospectionandapplicationofthespeech-identificationtechnologyarediscussedinthelast part. Keywords:Speechidentification;CharacterPick-up;Modematching;Modeltraining 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。（一）语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。（二）特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

文档之家

基于DTW算法的语音识别原理与实现

语音识别技术综述

语音识别系统实验报告材料

语音识别流程分析

语音识别字符分割算法_原创.

语音识别技术

语音识别方法及发展趋势分析

语音识别技术概述

人工智能论文 语音识别

语音识别基本知识及单元模块方案设计

语音识别文献综述

语音识别-科普性介绍

语音识别综述

浅论自动语音识别结构与原理

基于DTW算法的语音识别原理与实现

语音识别技术概述(一)

人工智能论文语音识别