当前位置:文档之家› 基于RBF神经网络的抗噪语音识别(精)

基于RBF神经网络的抗噪语音识别(精)

基于RBF神经网络的抗噪语音识别(精)
基于RBF神经网络的抗噪语音识别(精)

2007,43(22Computer Engineering and Applications 计算机工程与应用

基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60472094;山西省自然科学基金(the Natural

Science Foundation of Shanxi Province of China under Grant No.20051039。

作者简介:白静,博士研究生,研究方向:语音信号处理等;张雪英,博士生导师,研究方向:语音信号处理等;侯雪梅,硕士研究生,研究方向:语音

识别等。

语音识别实用化所遇到的难题之一是在噪声环境下获得与净音环境下相接近的识别结果。语音识别在实现过程中通常涉及多种因素,需要同时考虑。由于语音信号的随机性,以及对人类听觉机理了解甚浅,因此,目前在噪音环境下语音识别系统尚不能达到全部实用化,语音识别实用化研究一直是业界的焦点。

本文采用符合人耳听觉特性的Mel 频率与LP 倒谱系数结合起来形成LP Mel 倒谱(Linear Predictive Mel Cepstral Coeffi-

cients ,

LPMCC 作为提取的语音特征参数,用RBF 神经网络模型作为识别网络,分别采用聚类算法和全监督算法,在VC++平台上用两种算法分别实现了基于RBF 神经网络的孤立词语音识别系统,得到了在不同信噪比和不同词汇量下的识别率。实验结果表明此种方法抗噪性能较强,识别效果好。

1语音识别系统基本结构

图1为基于RBF 神经网络的语音识别系统结构。

预处理包括对原始语音信号进行预加重、加窗和分帧等处理。预加重通过一个传递函数为H (Z =1-αZ -1

(0.9<α<1.0的滤

波器进行滤波;加窗分帧选用Hamming 窗。经过预处理后,将

语音信号的特征参数(

LPMCC 提取出来,使用RBF 神经网络得到识别结果。

2RBF 神经网络的结构和映射2.1RBF 神经网络的结构

图2为RBF 神经网络的拓扑结构。第一层为输入层,由信号源节点组成;第二层为隐含层,用径向基函数作为隐单元的“基”构成隐含层空间,其单元数视所描述问题的需要而定;第三层为输出层,它对输入模式的作用

基于RBF 神经网络的抗噪语音识别

白静,张雪英,侯雪梅BAI Jing ,ZHANG Xue-ying ,HOU Xue-mei

太原理工大学信息工程学院,太原030024

College of Information Engineering ,Taiyuan University of Technology ,Taiyuan 030024,China E-mail :bj613@https://www.doczj.com/doc/3310428908.html,

BAI Jing ,ZHANG Xue -ying ,HOU Xue -mei .Noise -robust speech recognition based on RBF neural https://www.doczj.com/doc/3310428908.html,puter Engineering and Applications ,2007,43(22:28-30.Abstract :To solve the problem that recognition rates of speech recognition systems decrease in the noisy environment presently ,uses character possessing RBF neural network ,which have optimal approach capability and the fast training speed ,adopts cluster-ing algorithm and whole supervision algorithm and realizes a noise-robust speech recognition system based on RBF neural net-work.The hidden layer training of clustering

algorithm used K-means clustering algorithm and output layer learning used linear least mean square.The adjustment of the entire parameters of whole supervision algorithm is based on grads decline method.It is a kind of supervised learning algorithm and can choose excellent parameters.Experiments show that whole supervision algorithm have higher recognition rates in different SNRs than clustering algorithm.Key words :speech recognition ;RBF neural network ;clustering algorithm ;whole supervision algorithm

摘要:针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF 神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF 神经网络的抗噪语音识别系统。聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。关键词:语音识别;RBF 神经网络;聚类算法;全监督算法文章编号:1002-8331(200722-0028-03文献标识码:A

中图分类号:TN912

学术探讨◎

28

2007,43(22做出响应。

2.2RBF神经网络的映射关系

设RBF网络输入维数为N,隐单元数为P,输出维数为M。

(1从输入空间到隐层空间的非线性变换

第i个隐单元输出

h i =g(

‖x-c

i

!

i

,1≤i≤P(1

其中:g(?为隐单元的变换函数(即径向基函数,它是一种局部分布的对中心点径向对称衰减的非负非线性函数,一般取为Gauss函数,即

g(x=exp(-x

!

(2 x为N维输入向量,即

x=[x

1,x

2

,…,x

N

]T

c i =[c1

i

,c2

i

,…,c N

i

]T

c k

i

表示第i个隐单元对应的第k个输入分量; !

i

为第i个隐单元函数的宽度。

(2从隐含层空间到输出层空间的线性合并第j个输出

y j =

P

i=1

#h i w ij,1≤j≤M(3

其中:w

ij

为第i个隐单元与第j个输出之间的联接权。

3RBF神经网络聚类算法

3.1隐含层训练

隐含层的学习用无监督训练来完成。采用的是K-均值聚类算法,所用的聚类为集中每一样本点到该类中心的距离平方之和,并使之最小化。其算法如下:

(1初始化聚类中心{C

j ,j=1,2,…,N},通常将C

j

设为第一

次输入的样本。设置停止门限";

(2循环开始;

(3将所有样本按最小距离的原则聚类。即按#

j =min‖x

i

-

c j ‖的原则,将x

i

归为第j个聚类#

j

中;

(4计算各类聚类中心的样本平均

C

j

=1

M

j x i∈$j

#x i(i=1,2,…,K(4

式中M

j

为该样本集的个数;

(5计算平均失真与相对失真[1];平均失真为D(n=1

m

m

r=1

#mind(X r,C j(5

X

r 为训练序列,r=1,2,…,m

相对失真为

D!(n=D

(n-1

-D(n

D(n

(6

(6结束判断

当D!(n≤",循环结束,反之,转到(2。

完成对样本聚类之后,就可以计算高斯核的归一化参数, 高斯半径为!

j

2

。该参数表示对每个节点输入数据范围的度

量,即

!

j

2

=1

M

j x i∈$j

#(x i-C jT(x i-C j(7

3.2输出层训练

输出层的学习是有导师式,采用的是线性最小二乘法

(Least Mean Square,简称LMS。这种方法不需要迭代计算,收

敛速度非常快。最小二乘法的目的就是要使网络的期望输出与实际输出的均方误差达到最小,即满足‖Y-W#‖2最小,从而

寻找w

ij

的估计量w!

ij

。其中Y为输出矢量,W为隐层至输出层权

值矩阵,Φ为隐层输出矢量。根据微分法求解可得到式(8

W=(ΦTΦ-1Y(8

这样上述均方差的值即可达到最小。一般为了防止矩阵ΦTΦ出现奇异的情况,常将W表达为

W=(ΦTΦ+%‖ΦTΦ‖-1ΦT Y(9

这里,%一般设成趋近于0的正数,由此可得参数w

ij

的估

计值[2]。

4RBF神经网络全监督训练算法

全监督算法基本思路是:网络的所有参数调整是一个监督学习的过程,以达到性能指标最小为目的。

RBF神经网络的性能指标为

E

i

=1

2

(y

i

-y!

i

2i≤1,2,…,N(10

y!

i

为对应第i个输入向量的期望输出值,y

i

为第i个输入向

量的实际输出值,N为样本数。若将所有的待求参数,即RBF 网络的中心C=[c

1

,c

2

,…,c

h

]

p×h

、宽度"=[!

1

,!

2

,…,!

h

]

h×l

和连

接权值向量W=[w

11

,…,w

ij

,…,w

ho

]

h×o

构成一个集合,将性能指

标作为最优目标函数式(11 min

Z

E

i

=1

2

(y

i

-y!

i

2(11

来调整参数,则RBF网络的学习过程可以看作一个求多变量

函数的无约束极小值的过程[3]。因此,整个网络的学习只是一个监督学习的过程。特别是中心的学习也是一个监督学习的过程,从而避免了常规算法中非监督学习引起隐层节点中心对初

始值敏感的问题[4]。

本文采用基于梯度下降的误差纠正算法,具体算法步骤

如下:

(1初始化:任意指定w

i

,c

i

,!

i

值,预置允许误差,预置学

习步长%

1

,%

2

,%

3

;

(2循环,直至达到允许误差或指定重复次数。

计算e

j

,j=1,2,…,N

白静,张雪英,侯雪梅:基于RBF神经网络的抗噪语音识别29 2007,43(22

Computer Engineering and Applications 计算机工程与应用1584.6286.4885.1688.7286.8289.3588.3790.8790.5691.26 2085.2187.2385.8989.3288.2390.2689.3791.1292.3792.87

2585.3689.3586.7990.1189.1691.6789.9692.7892.3392.54 3085.5389.2687.2491.3489.8991.9890.2692.7893.1193.56 Clean 86.2291.3888.5792.5491.1893..0592.1393.7594.1294.21 聚类全监督聚类全监督聚类全监督聚类全监督聚类全监督训练方法词汇量SNR/dB

10

20304050

%

表1使用聚类和全监督训练方法的识别率

e j =d j -

f (x j =d j -M

i=1

!w i ?G (x j ,c i

(12

②计算输出单元的权值的改变量"E (

n "w i (n =-1N N j=1!e j exp (-‖x j -c i ‖2

2!i

2(13

改变权值

w i (n+1=w i (n -"1"E (

n "w i (n (14

③计算隐单元的中心的改变量"E ( n "c i (

n =-w i N !i 2N j=1!e j exp (-‖x j -c i ‖2

2!i

2?(x j -c i (15

改变中心

c i (n+1=c i (n -"2"E (n "c i (n (16

④计算函数宽度的改变量"E (

n "!i (

n =-w i N !i 3N

j=1!e j exp (-‖x j -c i ‖

2

2!i 2?(‖x j -c i ‖2(17改变宽度

!i (

n+1=!i (n -"3"E (n "!i (n (

18⑤计算误差E=1

2N

N

j=1

!e

2j

(19

5实验方法及结论

5.1网络训练与识别

(1语音数据

实验中,直接把由采样系统得到的语音数据文件作为处理对象,实验所采用的语音样本均为孤立词。语音信号采样率为11.025kHz ,帧长N=256点。实验共使用了10词、20词、30词、40词、50词,分别是9人在不同SNR (无噪音、15dB 、

20dB 、25dB 、30dB 下的发音作为训练数据库,每人每个词发音3次。用另外7人在相应SNR 下的发音进行识别,得到不同SNR 下和不同词汇量下的基于RBF 神经网络的语音识别结果。(2网络结构

实验中输入向量由LPMCC 特征参数构成,即每个人每个单词的每次发音所产生的特征矢量构成一个特征文件,作为RBF 网络的输入。并将LPMCC 特征参数进行时间归一化处理,得到统一的1024维的语音特征矢量序列。神经网络输入层节点数应与输入模式向量的维数一致。

实验采用训练词汇数作为隐层节点数,即网络中隐层节点数根据识别词汇量变化。输出层节点是待分类的模式类别总数,即为待识别词汇数。如果对40词汇的识别,相应地就有40种待分类模式,输出层节点数为40。网络隐层设置一个偏置,其值

固定为1,这个偏置因子也要和各个输出节点连接起来,参与权值训练。输入层到隐层之间为全连接,权值固定为1。

(3网络训练

实验1聚类训练算法

以10词无噪音下为例,对用于训练的270×1024个特征矢量,生成聚类维数为1024,聚类大小为10的码书。把所有的训练特征按照最近邻准则分到10个聚类中。计算每个聚类的

中心及相对失真,当失真测度小于预先设定的门限#(实验取#<0.0001

,所得聚类的中心即为隐节点函数中心。函数半径!j 根据公式(7计算。根据已知的输出层信息(即单词分类号用

线性最小二乘法算出隐层到输出层之间的连接权值。

实验2全监督训练算法以10词无噪音下为例,使用10个词的无噪音语音特征训练网络,由于每个训练特征文件对应于一个单词分类号,训练方法采用梯度下降算法,根据单词分类号不断地修改网络权值直到满足预先设置的误差精度。实验中设置网络学习步长均为0.001,误差精度为10-5,最大学习次数为1000。

(4网络识别RBF 神经网络模型确定后,将测试集的单词输入网络分别进行识别测试。每输入一个单词的1024维特征矢量,经过隐

层、输出层的计算后就可以得到每个单词的分类号,将这个分类号与输入特征矢量自带的分类号比较,相等则识别正确,反之,识别错误。最后将识别正确的个数与所有待识别单词数作比值即可得到最终的识别率。

5.2实验结果及结论

表1是在不同SNR 和不同词汇量下,上述两种训练方法

的实验结果。

从表1中可以看到,RBF 神经网络用于语音识别得到了较好的识别率,且随着词汇量增加识别率会上升,这是由于随着词汇量的增加,训练的隐节点的数目也会增加,网络训练会更充分,系统的鲁棒性也会增强,所以识别率会提升。其次,比较两种训练方法的训练结果,可以看到用全监督训练算法,识别率明显高于常规聚类算法。充分说明了全监督训练算法对RBF 网络的性能提高有较大的作用,使RBF 网络具备了更强的分类能力。但缺点是训练速度较慢,可在以后的研究中加以改进。(收稿日期:2007年3月

参考文献:

[1]张刚,张雪英.语音信号处理[M ].北京:兵器工业出版社,2000:72-73.[2]Guo J J ,Luh P B.Selecting input factors for clusters of Gaussian

radial basis function networks to improve market clearing price prediction [J].IEEE Transactions on Power Systems ,2003,18(2:665-672.

[3]Musavi M ,Ahmed W ,Chan K ,et al.On the training of radial basis

function classifiers[J].Neural Networks ,1992,5(5:595-603.[4]Schwenker F ,Kestle H A.Three learning phases for radial-basis-

function networks[J].Neural Networks ,2001,14(4/5:439-458.

30

基于小波阈值去噪法的智能音箱语音识别研究

基于小波阈值去噪法的智能音箱语音识别研究 智能语音,是实现人与机器之间的通信,主要有语音识别、语音合成技术。智能语音技术的研究是以语音识别技术为开端,随着信息技术的发展,智能语音技术成为人们日常生活中沟通与交流的有效、便捷手段。目前,智能音箱已成为智能语音技术深入人们日常生活的应用实例,如Amazon Echo、Google Home、天猫精灵等。为了更好的对智能音箱进行语音识别,需要对麦克风采集到的原始语音数据进行处理,以期送往语音识别引擎的数据,能有更高的识别率。 本文针对智能音箱的音频预处理问题,基于MATLAB软件,结合小波变换理论,设计了一种处理声音信号噪音的方法。通过MATLAB调取麦克采集到的原始语音数据,然后采用小波分解,设置信号阈值对声音信号中的噪声进行滤波处理,小波重构等过程,最后,画出处理前后的波形图,通过对比,可知处理后的声音信号滤除了高频噪声,显示的信号更清晰,有助于提高语音识别率。 一、智能音箱-音频预处理赛题简介 本次赛题中采用的智能音箱的语音信号由两个麦克采集得到,Mic1和Mic2 采集到的数据分别对应着chann1.pcm和chann2.pcm,数据为16bit、采样率16k 的pcm文件。现有智能音箱在家庭环境中得到的7组语音数据,其中含有一定的家庭背景噪声。根据每组数据中的1路或者2路声音信号,设计算法对其进行处理,以提高后台引擎的识别率。 二、智能音箱的音频信号导入 本文的语音识别程序主要在MATLAB软件上完成,MATLAB是一款功能强大的数学软件,可用于算法开发、数据可视化、数据分析等方面。MATLAB提供了许多函数处理声音信号,比如wavread、wavedec、waverec等等,可以利用这些函数方便的处理信号,还有诸如plot等绘图函数。 根据已有的7组智能音箱获取的数据,首先进行声音的读入,由于这里有7

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小:276.08MB 软件语言:多国语言 软件类别:国外软件 / 汉字输入 运行环境:Win9x/NT/2000/XP/ 软件介绍: 该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风,使用便利,特别适合于起草文稿、撰写文章、和准备教案,是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年,他领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。使用语音输入方式,您的工作空间更加自由舒畅: *即使您不会打字,也可迅速准备好文稿; *只要集中精力思考问题,无须琢磨怎样拼音,怎样拆字; *当您疲劳时,闭上眼、伸伸腰,双手方在脑后,然后轻松地说:开始听写吧... ... 注:价值超数千元的IBM的中文语音录入工具,有耳麦的朋友可以试一试,也可以当作学习普通话的工具,没有理由不下载使用它。 IBM ViaVoice语音输入系统详解 作者: 艾寒出处: 天极网 目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。 键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯,因为人们在措辞时,头脑中首先反映出的是即将这个词语的语音,所以字形输入法更适合专业录入人员使用。拼音输入法也分两种,一种以词语为输入单位,另一种以语句为输入单位,而后者不符合写作的思维习惯,因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高; 手写输入:手写输入是最容易上手的输入方法,但是同样由于手写输入的先天不足,很难达到较高的输入速度; 扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理; 语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会说汉语,就可以进行语音输入。 语音输入尤其是汉字语音输入经历了很长时间的研究和应用,到目前已经达到了一个相

人工神经网络原理及实际应用

人工神经网络原理及实际应用 摘要:本文就主要讲述一下神经网络的基本原理,特别是BP神经网络原理,以及它在实际工程中的应用。 关键词:神经网络、BP算法、鲁棒自适应控制、Smith-PID 本世纪初,科学家们就一直探究大脑构筑函数和思维运行机理。特别是近二十年来。对大脑有关的感觉器官的仿生做了不少工作,人脑含有数亿个神经元,并以特殊的复杂形式组成在一起,它能够在“计算"某些问题(如难以用数学描述或非确定性问题等)时,比目前最快的计算机还要快许多倍。大脑的信号传导速度要比电子元件的信号传导要慢百万倍,然而,大脑的信息处理速度比电子元件的处理速度快许多倍,因此科学家推测大脑的信息处理方式和思维方式是非常复杂的,是一个复杂并行信息处理系统。1943年Macullocu和Pitts融合了生物物理学和数学提出了第一个神经元模型。从这以后,人工神经网络经历了发展,停滞,再发展的过程,时至今日发展正走向成熟,在广泛领域得到了令人鼓舞的应用成果。本文就主要讲述一下神经网络的原理,特别是BP神经网络原理,以及它在实际中的应用。 1.神经网络的基本原理 因为人工神经网络是模拟人和动物的神经网络的某种结构和功能的模拟,所以要了解神经网络的工作原理,所以我们首先要了解生物神经元。其结构如下图所示: 从上图可看出生物神经元它包括,细胞体:由细胞核、细胞质与细胞膜组成;

轴突:是从细胞体向外伸出的细长部分,也就是神经纤维。轴突是神经细胞的输出端,通过它向外传出神经冲动;树突:是细胞体向外伸出的许多较短的树枝状分支。它们是细胞的输入端,接受来自其它神经元的冲动;突触:神经元之间相互连接的地方,既是神经末梢与树突相接触的交界面。 对于从同一树突先后传入的神经冲动,以及同一时间从不同树突输入的神经冲动,神经细胞均可加以综合处理,处理的结果可使细胞膜电位升高;当膜电位升高到一阀值(约40mV),细胞进入兴奋状态,产生神经冲动,并由轴突输出神经冲动;当输入的冲动减小,综合处理的结果使膜电位下降,当下降到阀值时。细胞进入抑制状态,此时无神经冲动输出。“兴奋”和“抑制”,神经细胞必呈其一。 突触界面具有脉冲/电位信号转换功能,即类似于D/A转换功能。沿轴突和树突传递的是等幅、恒宽、编码的离散电脉冲信号。细胞中膜电位是连续的模拟量。 神经冲动信号的传导速度在1~150m/s之间,随纤维的粗细,髓鞘的有无而不同。 神经细胞的重要特点是具有学习功能并有遗忘和疲劳效应。总之,随着对生物神经元的深入研究,揭示出神经元不是简单的双稳逻辑元件而是微型生物信息处理机制和控制机。 而神经网络的基本原理也就是对生物神经元进行尽可能的模拟,当然,以目前的理论水平,制造水平,和应用水平,还与人脑神经网络的有着很大的差别,它只是对人脑神经网络有选择的,单一的,简化的构造和性能模拟,从而形成了不同功能的,多种类型的,不同层次的神经网络模型。 2.BP神经网络 目前,再这一基本原理上已发展了几十种神经网络,例如Hopficld模型,Feldmann等的连接型网络模型,Hinton等的玻尔茨曼机模型,以及Rumelhart 等的多层感知机模型和Kohonen的自组织网络模型等等。在这众多神经网络模型中,应用最广泛的是多层感知机神经网络。 这里我们重点的讲述一下BP神经网络。多层感知机神经网络的研究始于50年代,但一直进展不大。直到1985年,Rumelhart等人提出了误差反向传递学习算法(即BP算),实现了Minsky的多层网络设想,其网络模型如下图所示。它可以分为输入层,影层(也叫中间层),和输出层,其中中间层可以是一层,也可以多层,看实际情况而定。

基于RBF神经网络的抗噪语音识别(精)

2007,43(22Computer Engineering and Applications 计算机工程与应用 基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60472094;山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20051039。 作者简介:白静,博士研究生,研究方向:语音信号处理等;张雪英,博士生导师,研究方向:语音信号处理等;侯雪梅,硕士研究生,研究方向:语音 识别等。 语音识别实用化所遇到的难题之一是在噪声环境下获得与净音环境下相接近的识别结果。语音识别在实现过程中通常涉及多种因素,需要同时考虑。由于语音信号的随机性,以及对人类听觉机理了解甚浅,因此,目前在噪音环境下语音识别系统尚不能达到全部实用化,语音识别实用化研究一直是业界的焦点。 本文采用符合人耳听觉特性的Mel 频率与LP 倒谱系数结合起来形成LP Mel 倒谱(Linear Predictive Mel Cepstral Coeffi- cients , LPMCC 作为提取的语音特征参数,用RBF 神经网络模型作为识别网络,分别采用聚类算法和全监督算法,在VC++平台上用两种算法分别实现了基于RBF 神经网络的孤立词语音识别系统,得到了在不同信噪比和不同词汇量下的识别率。实验结果表明此种方法抗噪性能较强,识别效果好。 1语音识别系统基本结构 图1为基于RBF 神经网络的语音识别系统结构。

基于BP神经网络的语音识别技术

海事大学 神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间:

目录 一.绪论 (3) 1.1 研究背景及意义 (3) 1.2 语音识别的国外研究现状 (3) 1.3研究容 (4) 二.语音识别技术 (5) 2.1语音信号 (5) 2.2语音信号的数学模型 (5) 2.3 语音识别系统结构 (6) 2.4 语音信号预处理 (7) 2.4.1 语音信号的采样 (8) 2.4.2语音信号的分帧 (8) 2.4.3语音信号的预加重 (9) 2.4.4 基于短时能量和过零率的端点检测 (9) 2.5 特征参数提取 (12) 三.基于BP神经网络语音识别算法实现 (14) 3.1 BP神经网络原理 (14) 3.2 输入层神经元个数的确定 (14) 3.3网络隐含层数的确定 (15) 3.4隐含层神经元个数的确定 (15) 3.5 BP神经网络构造 (15) 3.6 BP神经网络的训练 (16) 3.6.1训练样本集合和目标值集合 (16) 3.6.2 网络训练 (16) 3.7网络训练 (17) 3.8 语音的识别结果 (18) 四.总结 (19) 参考文献 (20) 附录 (21)

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的容,

人工神经网络的发展及应用

人工神经网络的发展与应用 神经网络发展 启蒙时期 启蒙时期开始于1980年美国著名心理学家W.James关于人脑结构与功能的研究,结束于1969年Minsky和Pape~发表的《感知器》(Perceptron)一书。早在1943年,心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型(即M—P模型),该模型把神经细胞的动作描述为:1神经元的活动表现为兴奋或抑制的二值变化;2任何兴奋性突触有输入激励后,使神经元兴奋与神经元先前的动作状态无关;3任何抑制性突触有输入激励后,使神经元抑制;4突触的值不随时间改变;5突触从感知输入到传送出一个输出脉冲的延迟时问是0.5ms。可见,M—P模型是用逻辑的数学工具研究客观世界的事件在形式神经网络中的表述。现在来看M—P 模型尽管过于简单,而且其观点也并非完全正确,但是其理论有一定的贡献。因此,M—P模型被认为开创了神经科学理论研究的新时代。1949年,心理学家D.0.Hebb 提出了神经元之间突触联系强度可变的假设,并据此提出神经元的学习规则——Hebb规则,为神经网络的学习算法奠定了基础。1957年,计算机学家FrankRosenblatt提出了一种具有三层网络特性的神经网络结构,称为“感知器”(Perceptron),它是由阈值性神经元组成,试图模拟动物和人脑的感知学习能力,Rosenblatt认为信息被包含在相互连接或联合之中,而不是反映在拓扑结构的表示法中;另外,对于如何存储影响认知和行为的信息问题,他认为,存储的信息在神经网络系统内开始形成新的连接或传递链路后,新 的刺激将会通过这些新建立的链路自动地激活适当的响应部分,而不是要求任何识别或坚定他们的过程。1962年Widrow提出了自适应线性元件(Ada—line),它是连续取值的线性网络,主要用于自适应信号处理和自适应控制。 低潮期 人工智能的创始人之一Minkey和pape~经过数年研究,对以感知器为代表的网络系统的功能及其局限性从数学上做了深入的研究,于1969年出版了很有影响的《Perceptron)一书,该书提出了感知器不可能实现复杂的逻辑函数,这对当时的人工神经网络研究产生了极大的负面影响,从而使神经网络研究处于低潮时期。引起低潮的更重要的原因是:20世纪7O年代以来集成电路和微电子技术的迅猛发展,使传统的冯·诺伊曼型计算机进入发展的全盛时期,因此暂时掩盖了发展新型计算机和寻求新的神经网络的必要性和迫切性。但是在此时期,波士顿大学的S.Grossberg教授和赫尔辛基大学的Koho—nen教授,仍致力于神经网络的研究,分别提出了自适应共振理论(Adaptive Resonance Theory)和自组织特征映射模型(SOM)。以上开创性的研究成果和工作虽然未能引起当时人们的普遍重视,但其科学价值却不可磨灭,它们为神经网络的进一步发展奠定了基础。 复兴时期 20世纪80年代以来,由于以逻辑推理为基础的人工智能理论和冯·诺伊曼型计算机在处理诸如视觉、听觉、联想记忆等智能信息处理问题上受到挫折,促使人们

神经网络在语音识别上应用

Harbin Institute of Technology 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性x(n)频谱,变换公式: X (k ) 0n,k N-1 X (k )=∑N ?1n =0x(n)e ?j2πk n ≤≤(3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为f mel =2595log (1+f hz 700) (4)求对数能量。为了使计算结果对噪声和谱估计噪声有更好的鲁棒性,一般将上述经过Mel 频谱取对数能量。则由线性频谱得到对数频谱的总的X(k)S(m)传递函数为:

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

基于MATLAB的小波在语音信号中的应用

基于MATLAB的小波在语音信号中的应用 [摘要]MATLAB作为一种高性能和可靠性比较强的数值计算和可视化的软件,经过各个行业领域专家的共同努力和不断研究,MATLAB现已包含信号处理和图像处理以及通信和小波分析还有就是优化以及控制系统等不同应用领域的相关的工具箱。我在设计中将以MATLAB 软件为参考和结合工程实际运用中的各应用领域,由浅入深地讲解应该如何应用MATLAB来实现小波在语音信号中的应用。 [关键词] MATLAB;小波去噪;语音信号 Abstract: MA TLAB as a high performance and reliability, strong numerical calculation and visualization software, through the various industry experts in the field of joint efforts and continuous research, MA TLAB now includes signal processing and image processing and communication and wavelet analysis and optimization and control systems in different application areas related to the toolbox. I'm in design, taking MA TLAB software for reference and combining with the practical engineering application of the application from the shallower to the deeper, to explain how to use MA TLAB to achieve the wavelet application in speech signal. Key words: MA TLAB,Wavelet denoising,Speech signal 目录 1.引言 (1) 1.1 研究意义 (1) 1.2 研究背景 (1) 2.基于MATLAB的小波变换处理过程 (1) 2.1 小波的定义 (1) 2.2小波变换处理的概述 (2) 3.基于MATLAB的小波变换的相关特点 (3) 3.1 基于MATLAB的小波滤波器的镜像 (3) 3.2 利用A ×A 的比例尺的矩阵来分析小波 (3) 4.基于MATLAB的小波在语音信号的去噪方法 (4) 4.1基于MATLAB语音信号小波变换阈值去噪法 (4) 4.2基于MATLAB的小波阈值处理方式的优化 (5) 4.3基于MATLAB的小波在语音信号去噪的仿真程序 (6) 4.4基于MATLAB的小波在语音信号去噪的仿真应用举例 (10) 5.结语 (11)

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

人工神经网络题库

人工神经网络 系别:计算机工程系 班级: 1120543 班 学号: 13 号 姓名: 日期:2014年10月23日

人工神经网络 摘要:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成,由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。 关键词:神经元;神经网络;人工神经网络;智能; 引言 人工神经网络的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method )得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。 一、人工神经网络的基本原理 1-1神经细胞以及人工神经元的组成 神经系统的基本构造单元是神经细胞,也称神经元。它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突。树突的作用是向四方收集由其他神经细胞传来的信息,轴突的功能是传出从细胞体送来的信息。每个神经细胞所产生和传递的基本信息是兴奋或抑制。在两个神经细胞之间的相互接触点称为突触。简单神经元网络及其简化结构如图2-2所示。 从信息的传递过程来看,一个神经细胞的树突,在突触处从其他神经细胞接受信号。 这些信号可能是兴奋性的,也可能是抑制性的。所有树突接受到的信号都传到细胞体进行综合处理,如果在一个时间间隔内,某一细胞接受到的兴奋性信号量足够大,以致于使该细胞被激活,而产生一个脉冲信号。这个信号将沿着该细胞的轴突传送出去,并通过突触传给其他神经细胞.神经细胞通过突触的联接形成神经网络。 图1-1简单神经元网络及其简化结构图 (1)细胞体 (2)树突 (3)轴突 (4)突触

基于BP神经网络的语音识别技术

上海海事大学神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间: 目录

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 语音识别的国内外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语

基于小波消噪及端点检测的语音识别

1 绪论 语音是人类进行相互通信和交流的最方便、最快捷的手段。在高度发达的信息社会中,用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网络中最重要、最基本的组成部分之一。非特定人连续语音识别在电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用。在本文中,将虚拟仪器技术应用于语音识别系统,实现了仪器的软件化,真正体现了“软件就是仪器”的思想。 利用计算机强大的图形环境和硬件资源建立的图形化的虚拟仪器面板,实现对语音信号的实时采集、分析处理与特征提取等,利用软件实现仪器功能的模块化、智能化,使其具有成本低廉、数据分析便利和设备管理良好等优点。本章综述了语音识别技术的学科背景、发展历程,介绍了当前语音识别领域的主流技术、典型系统及其应用前景,特别分析了汉语语音识别的难点,阐明了本论文的研究框架和内容。 1.1 语音识别的学科背景与发展历程 语音是人类最自然、最常用的交流方式,语音识别是近半个世纪发展起来的新兴学科,其目标是使机器“听懂”人的自然语言。由识别得到的信息可作为控制信号在工业、军事、交通、医学、民用等各个方面都有着广阔的应用前景,例如声控电话交换、语音拨号系统、各类语音声讯服务(股票信息、天气预报等)、智能玩具、语音呼叫中心等。语音识别技术将大大改善人机交互界面,提高信息处理自动化程度,具有巨大的社会、经济效益。正因为如此,语音识别正迅速发展为“改变未来人类生活方式”的关键技术之一。 作为专门的研究领域,语音识别又是典型的交叉边缘学科,它要依赖众多学科的科研成果。从计算机学科角度来看,它属于智能计算机的智能接口部分;从信息处理学科来看,它属于信息识别的一个重要分支;从通信及电子系统、电路、信号及系统定学科来看,它又可视为信息和通讯系统的信源处理科学;而从自动控制学科来看,它则可堪称模式识别中的一个重要部分--时序模式识别;此外,语音识别与声学、生理学、心理学、语音学、语言学有着密不可分的联系,而且语音识别与语音压缩、语音合成、语音增强、说话人识别等语音研究有着更为直接、紧密的关系。 语音识别是颇具挑战性的研究领域,仅从模式识别角度来看,语音信号属于瞬时事件性信号,同时它又是时变的非平稳随机过程,有内在的多种可变性,这使得语音识别

基于小波变换的语音特征参数提取

基于小波变换的语音特征参数提取 【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中,给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分,使频谱分辨率提高了一倍。试验证明,小波MFCC特征参数在较大词汇量情况下,其识别率优于MFCC特征参数的结果。 【关键词】小波分析;语音识别;MFCC Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary. Key words:wavelet transformation;speech recognition;MFCC 1.引言 在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。 近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。 2.MFCC特征参数 图1所示为MFCC特征参数的计算流程图。 图1 MFCC特征参数的提取 人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公

宝马中文声控语音识别控制系统

BMW中文声控系统 声控启动语音控制支持方言专车专用 宝马中文声控系统市场前景 在庞大的汽车销量的基础上,车载语音系统已成为现代汽车的重要亮点之一,但是由于技术的局限性,国内车载语音系统的发展始终比较缓慢,在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在,Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英,由多名各领域资深人士参与研发,根据中国市场特点以及中国用户使用习惯进行特殊定制,成功推出Qdis-isods系列产品,为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后,用户用自己的声音即可完成相关操作,而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言,声音识别准确率高并支持多人识别,一举攻克了之前的技术难题,让车载语音系统全面进入中国市场。以前需要手动操作的控制,现在您和爱车直接对话就能实现,而且还能语音识别并控制后装增配的产品,满足客户多种智能语音操作的需求。随着车联网技术的发展,汽车的互联性会越来越强,我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上,从而完成更复杂的识别控制任务。我们依然在不断创新实践,以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型,金鼓德达将以一贯优秀的无损加装技术,让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列,爱车从此智能! 一、BMW中文声控系统主要功能 1.语音识别启动引擎 语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车 语音指令随时学习,支持所有方言,指令内容可以自由定义;

人工神经网络及其应用实例_毕业论文

人工神经网络及其应用实例人工神经网络是在现代神经科学研究成果基础上提出的一种抽 象数学模型,它以某种简化、抽象和模拟的方式,反映了大脑功能的 若干基本特征,但并非其逼真的描写。 人工神经网络可概括定义为:由大量简单元件广泛互连而成的复 杂网络系统。所谓简单元件,即人工神经元,是指它可用电子元件、 光学元件等模拟,仅起简单的输入输出变换y = σ (x)的作用。下图是 3 中常用的元件类型: 线性元件:y = 0.3x,可用线性代数法分析,但是功能有限,现在已不太常用。 2 1.5 1 0.5 -0.5 -1 -1.5 -2 -6 -4 -2 0 2 4 6 连续型非线性元件:y = tanh(x),便于解析性计算及器件模拟,是当前研究的主要元件之一。

离散型非线性元件: y = ? 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6 ?1, x ≥ 0 ?-1, x < 0 ,便于理论分析及阈值逻辑器件 实现,也是当前研究的主要元件之一。 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6

每一神经元有许多输入、输出键,各神经元之间以连接键(又称 突触)相连,它决定神经元之间的连接强度(突触强度)和性质(兴 奋或抑制),即决定神经元间相互作用的强弱和正负,共有三种类型: 兴奋型连接、抑制型连接、无连接。这样,N个神经元(一般N很大)构成一个相互影响的复杂网络系统,通过调整网络参数,可使人工神 经网络具有所需要的特定功能,即学习、训练或自组织过程。一个简 单的人工神经网络结构图如下所示: 上图中,左侧为输入层(输入层的神经元个数由输入的维度决定),右侧为输出层(输出层的神经元个数由输出的维度决定),输入层与 输出层之间即为隐层。 输入层节点上的神经元接收外部环境的输入模式,并由它传递给 相连隐层上的各个神经元。隐层是神经元网络的内部处理层,这些神 经元在网络内部构成中间层,不直接与外部输入、输出打交道。人工 神经网络所具有的模式变换能力主要体现在隐层的神经元上。输出层 用于产生神经网络的输出模式。 多层神经网络结构中有代表性的有前向网络(BP网络)模型、

噪音环境下的语音识别研究概述

噪音环境下的语音识别 摘要:语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。 关键词:语音信号,识别,应用 众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。 计算机语音识别的最终目标是使计算机能够听懂人的语言。尽管语音识别的研究历史最早可以追溯到二十世纪50 年代初,但是直到60 年代中期以后才作为一个重要的课题展开工作,并且逐步取得实质性的进展。这有两方面的原因,一方面计算机产业的迅速发展提出了使用要求,同时软、硬件环境的改善为复杂算法的实现提供了好的环境;另一方面,数字信号处理的理论和算法已有相当基础。许多算法诸如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等已经出现,语音信号特有的基音周期、共振峰等特征的提取算法也出现了。识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。近十年来,语音识别的产品也逐渐多起来,例如Motorola 的语音拨号电话、IBM 的语音听写机等。但是,现有的语音识别系统都存在一个共同的问题,即性能不稳定。不同的用户、不同的信道、不同的背景噪音环境、不同的口音和发音方式都对识别性能有很大的影响。最近十多年来抗噪语音识别方法形成了高潮,因此,提高语音识别系统对噪音的鲁棒性,是今后语音识别研究的一个重点。 1 三种典型的去噪处理方法 我们可以将各种抗噪方法粗略可以分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法。后两种方法有些交叉。下面逐一进行讨论。 信号级抗噪处理 这种处理是从带噪语音信号中提取尽可能纯净的原始语音,在语音信号处理中称为语音增强。语音增强技术在语音通讯、语音识别中有都有应用。在实际应用推动下,早在60 年代语音增强这个课题就已引起了人们的注意,70 年代形成一个高潮,取得了一些基础性成果。由于噪声来源众多,并随应用场合而异,它们的特性也各不相同,因此,即便是在实验室仿真条件下,也难以找到一种通用的、能适用于各种噪声环境的语音增强算法。这就表明:必须针对不同噪声,采取不同的语音增强对策。文论述了如下一些语音增强方法:LPC 全极点模型增强算法、最大后验概率估计法、卡尔墁滤波法、维纳滤波法、谱减法及其改进形式、最小均方误差估计。则分别对噪音同化法、子波消噪算法、小波单阈值消噪算法、小波频带阈值消噪算法、使用心理声学准则的残余噪声抑制法进行了论述。在上述

神经网络在语音识别上的应用

H a r b i n I n s t i t u t e o f T e c h n o l o g y 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号 后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性频谱,变换公式: 0n,k N-1 (3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为

相关主题
文本预览
相关文档 最新文档