基于BP神经网络的语音识别技术

格式：docx
大小：355.74 KB
文档页数：28

下载文档原格式

基于神经网络的语音信号识别

毕业设计（论文）开题报告附表二课题名称基于神经网络的语音信号识别学生姓名崔楠楠学号20102460304专业班级通信工程、三班一、选题的目的意义随着社会的不断发展，计算机的迅速普及，人们渴望一种符合人类自然交往的“人机对话”模式的出现，特别是人机自然语言对话。

目前一些专家和学者在这方面进行了大量的开发和研究工作。

但语音识别技术正处于蓬勃发展的时期，仍有待进行大量的研究工作以取得更进一步的突破。

人机自然语言的接口是一个非常重要的部分。

它要求计算机能说会听，应此要求出现了语音合成和语音识别两门学科。

所谓语音识别，就是利用计算机，对人们的语音信号进行时域或频域处理，识别出所说的是什么，通俗地讲，就是让计算机能够模拟人类的听觉功能。

国际上，对计算机语音识别的研究也有近四十年的历史，经过数辈科学家和科学工作者的艰辛努力，语音识别的研究方面取得了很大的成果。

尤其是近一、二十年，提出了许多有效的语音处理和识别的方法和策略，使得语音识别这门学科的研究日趋兴旺，许多的语音识别系统也正逐步实用化。

人们所期望赋予计算机能说会听的梦想正步步走向现实。

预计在未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域（如门禁系统，手机语音自动拨号系统）。

语音识别系统依照语音识别的单元、语音识别系统是否依赖人可以分成：特定人、孤立词语音识别系统；非特定人、孤立词语音识别系统；特定人、连续语音识别系统和识别系统和非特定人、连续语音识别系统四类。

神经网络是一门新兴交叉学科，是人类智能研究的重要组成部分，已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点。

它就是指模仿人脑神经网络的结构和某些工作机制建立一种计算模型的处理方法。

由于人工神经网络具备良好的自学习和自适应能力，将其应用于语音合成系统中的韵律模型研究具有很重要的意义。

将神经网络模型与已有的文语转换系统有机结合，可以改变传统的文语转换系统的韵律模型，具有更强的适应性和可训练性，使合成语音的自然度得到显著提高，增加了系统的灵活性和风格的多样性。

语音识别技术(数学建模)

其他 0, W (n) 2 n 0.54 0.46 cos( ), 0 n L 1 L 1
5
对语音信号进行加窗的函数为：
Qn
m

T [x (m )] * w (n m )
其中T[*]表示信号处理方法， {x(m)}为语音帧序列，w(n-m)为各个语音帧上的窗函数。窗函数的选择对语音信号的短时分析影响很大，窗函数越宽对信号的平滑作用越好，窗函数的主瓣宽度要窄，旁瓣要尽可能小，使能量尽量集中在主瓣中，以抑制频谱的泄露。若音框化的信号为S(n), n = 0,…N-1,则乘上汉明窗后为S'(n) = S(n)*W(n)，此W(n) 形式如下： W(n, a) = (1 - a) - a cos(2pn/(N-1))，0≦n≦N-1 不同的a值会产生不同的汉明窗，如图5.3（程序见附录）：
Original wave: s(n) 0.4 0.2 0 -0.2 -0.4 0 0.2 0.4 0.6 0.8 1 1.2 1.4
After pre-emphasis: s 2(n)=s(n)-a*s(n-1), a=0.950000 0.05
0
-0.05
0
0.2
0.4
0.6
0.8
1
1.2
1.4
二、问题分析
语音识别系统的结构
样本语言预加重加窗分帧端点检测
建立 BP 神经网络输入样本训练 BP 神经网络使用神经网络
特征提取识别结果
待测语音
预处理
特征提取
2
对于第一问，从图中的系统整体架构可以看到，建立基于 BP 神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先对原始语音进行预处理。预处理包括预加重，加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。而在特征提取部分,本系统采用了 MFCC 作为特征参数。从而有效区分“流量” 、 “话费” 、 “套餐”和“优惠”四个音频（wav 格式）文件。在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息即去噪,提取说话人语音的特征参数并存储为 BP 神经网络的输入样本，在此基础上建立输入与输出的 BP 神经网络模型；在识别阶段, 待测语音经过预处理，使用已经训练好的 BP 神经网络进行识别得到结果，最后由结果分析误差。对于第二问，由第一问中建立出来的模型，根据 “声学模型” 和 “语言模型” ，为该手机运营商制定出一份可行的用户使用手册。第三问中，根据第二问中制定的用户使用规则，录制一段“查询话费”的音频文件，从而检验语音识别模型的正确性。

基于BP神经网络的语音情感识别研究

基于BP神经网络的语音情感识别研究作者：徐照松元建来源：《软件导刊》2014年第04期摘要：随着科技的迅速发展，人机交互越来越受到人们的重视，语音情感识别更是学术界研究的热点。

将BP神经网络算法用于语音情感识别研究，并在汉语情感数据集上进行了相关实验，识别的准确率达到了91.5%，相较于SVM算法分类精度提高了5%。

关键词关键词：语音情感识别；BP神经网络；SVM中图分类号：TP302文献标识码：A 文章编号文章编号：16727800（2014）004001103作者简介作者简介：徐照松（1990-），男，广西师范学院计算机与信息工程学院硕士研究生，研究方向为数据挖掘、语音情感、智能计算；元建（1986-），男，广西师范学院计算机与信息工程学院硕士研究生，研究方向为数据挖掘、智能计算。

0 引言随着科技的迅速发展，人机交互显得尤为重要。

语音是语言的载体，是人与人之间交流的重要媒介。

相较于其它交流方式而言，语音交流更加直接、便捷。

近年来，随着人机交互研究的不断深入，语音情感识别更成为了学术界研究的热点，其涉及到信号处理、模式识别、人工智能等相关领域。

语音中除了能够传达语义信息外，还包含了一些情感信息，然而这些情感信息往往被人们所忽略[3]。

语音情感识别实际上是利用计算机所提取的语音信号特征来判断其属于哪一类情感。

利用模式识别方法研究语音情感识别的文献较多，朱菊霞[4]等使用SVM算法对语音情感进行识别，并取得了86%的识别率。

余华[5]等使用粒子群算法优化神经网络来进行语音情感识别，识别率较高。

BP神经网络是神经网络的一种，属于多层前馈神经网络，与其它神经网络算法所不同的是采用了反向传播的学习算法，不断地计算输出端的误差向回传递来进行权值调整，从而达到误差最小的效果。

文中结合了BP神经网络的优点，将其用于语音情感识别研究中，并且在汉语情感数据集上进行了相关实验，识别的准确率达到了91.5%，相较于其它方法提高了5%。

基于神经网络的语音情感识别

ｓｏｏｎ．ＡｆｔｅｒｃｈｏｏｓｉｎｇｔｈｅｕｓｅｆｕｌｆｅａｔｕｒｅｓｓｕｃｈａｓＭｅｌ—ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｉｃｉｅｎｔｓ（ＭＦＣＣ）ａｎｄｉｔｓｔｒａｎｓｉｅｎｔｐａｒａｍｅｔｅｒｓ，ｉｔｏｂ－
ｔａｉｎｓａｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｗｉｔｈｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｎｅｕｒａｌｎｅｔｗｏｒｋ．Ｋｅｙｗｏｒｄｓ：ｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ；ｅｍｏｔｉｏｎｆｅａｔｕｒｅｓ；ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ；Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｍｃｉｅｎｔｓ（ＭＦＣＣ）
Ａｂｓｔｒａｃｔ：Ｔｈｅｍａｉｎｇｏａｌｏｆｔｈｉｓｔｈｅｓｉｓｉｓｔｏｓｅａｒｃｈｔｈｅｍｏｓｔｕｓｅｆｕｌｆｅａｔｕｒｅｓｗｉｔｈａｎａｌｙｚｉｎｇｔｈｅｆｅａｔｕｒｅｓｒｅｌａｔｅｄｗｉｔｈｅｍｏｔｉｏｎｓ，ａｎｄｆｉｎｄａｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｔｏｍａｋｅｕｓｅｏｆｔｈｅｓｅｆｅａｔｕｒｅｓ．Ｉｔｓｔｕｄｉｅｓｔｈｅｍｅｔｈｏｄａｎｄｔｅｃｈｎｏｌｏｇｙｉｎｔｈｅｒｅｓｅａｒｃｈｏｆｔｈｅｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ，ａｎｄｃｒｅａｔｅｓｔｈｅｄａｔａｂａｓｅｏｆｔｈｅｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎａｎｄｐｉｃｋｓ－ｕｐｔｈｅｆｅａｔｕｒｅｓｏｆｔｈｅｓｐｅｅｃｈｓｉｇｎａ１．Ｔｈｅｎｉｔｓｔｕｄｉｅｓｔｈｅｅｆｅｃｔｉｎｅｍｏｔｉｏｎ—ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｔｈｏｓｅｃｏｍｍｏｎｆｅａｔｕｒｅｓｓｕｃｈａｓｐｉｔｃｈ，ａｍｐｌｉｔｕｄｅｅｎｅｒｇｙ，ｆｏｒｍａｎｔａｎｄ

语音识别技术(数学建模)

4
amplitude
Energy
5 0
1
2
3
4
5
6
7
8
9 x 10
4
3
ZCR
300 400 500 600 700 800
2 1 0 1 2 3 4 5 6 7 8 9 x 10
4
5.4图 5.1.4 快速傅里叶转换（FTT）由于信号在时域上的变化通常很难看出其特性，所以通常将它转换成频域上的能力分布来观察，不同的能量分布，就代表不同的语音特性。故乘上汉明窗后每个音框还需经过FTT以得到频域上的能量分布。乘上汉明窗的主要目的，是要加强音框左端和右端的连续性，这是因为在进行FFT 时，都是假设一个音框内的讯号是代表一个周期性讯号，如果这个周期性不存在， FFT 会为了要符合左右端不连续的变化，而产生一些不存在原讯号的能量分布，造成分析上的误差。当然，如果我们在取音框时，能够使音框中的讯号就已经包含基本周期的整数倍，这时候的音框左右端就会是连续的，那就可以不需要乘上汉明窗了。但是在实作上，由于基本周期的计算会需要额外的时间，而且也容易算错，因此我们都用汉明窗来达到类似的效果。 5.1.5 三角带通滤波器将能量频谱能量乘以一组20个三角带通滤波器，求得每一个滤波器输出的对数能量（Log Energy）。必须注意的是：这20个三角带通滤波器在梅尔频率（Mel Frequency）上是平均分布的，而梅尔频率和一般频率f的关系式如下：
7
mel(f)=2595*log 10 (1+f/700) 或是 mel(f)=1125*ln(1+f/700) 梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率f 的感受是呈对数变化的：在低频部分，人耳感受是比较敏锐；在高频部分，人耳的感受就会越来越粗糙。定义若干个带通三角滤波器(k)，0<=m<=M，M为滤波器个数，其中心频率为 f(m),每个带通三角滤波器的频率响应为：

基于神经网络的语音信号识别研究

基于神经网络的语音信号识别研究近年来，随着技术的发展和普及，人们对于语音信号的需求也越来越大。

而语音信号识别技术则是其中非常重要的一环。

智能语音助手、语音识别软件等等，都需要依赖于语音信号识别技术实现。

而基于神经网络的语音信号识别技术，则是当前最为流行和具有应用价值的一种。

一、什么是语音信号识别技术语音信号识别技术，是指将人类语音转换成计算机识别的数字信号，并对该数字信号进行分析和处理，以达到自动识别语音内容的目的。

语音信号识别技术即自动语音识别技术，是应用领域广泛的关键技术之一。

二、神经网络在语音信号识别中的应用神经网络（Neural Network）是由一组构成各层次的神经元（neuron）所组成的网络。

在语音信号识别中，神经网络第一次被引入是在20世纪80年代初期。

早期的神经网络在语音信号识别中应用的效果并不好，主要因为神经网络的学习算法和初始参数的设定都存在问题。

然而，随着技术的发展和经验的积累，神经网络逐渐在语音信号识别中发挥重要作用。

在基于神经网络的语音信号识别技术中，通常采用的是深度神经网络（Deep Neural Network）。

深度神经网络在语音信号识别中的作用主要分为两个方面：特征提取和分类。

其中，特征提取主要是指对于语音信号进行预处理，提取出其中优秀的特征；分类则是指对于提取出的特征，进行归类识别。

在深度神经网络中，通常采用的算法是卷积神经网络（Convolutional Neural Network）或递归神经网络（Recurrent Neural Network）。

三、语音信号识别中常用的数据集针对于语音信号识别，目前已经出现了很多开发用的数据集，其中最为流行的有TIMIT、WSJ、Switchboard三个数据集。

TIMIT数据集是由美国宾夕法尼亚大学为了开发语音识别系统而录制的语音语料库，包含了625个不同说话人的6300句语音材料。

这个数据集是英语语音识别研究领域中最常用的数据集之一。

BP神经网络的简要介绍及应用

BP神经网络的简要介绍及应用BP神经网络（Backpropagation Neural Network，简称BP网络）是一种基于误差反向传播算法进行训练的多层前馈神经网络模型。

它由输入层、隐藏层和输出层组成，每层都由多个神经元（节点）组成，并且每个神经元都与下一层的神经元相连。

BP网络的训练过程可以分为两个阶段：前向传播和反向传播。

前向传播时，输入数据从输入层向隐藏层和输出层依次传递，每个神经元计算其输入信号的加权和，再通过一个激活函数得到输出值。

反向传播时，根据输出结果与期望结果的误差，通过链式法则将误差逐层反向传播至隐藏层和输入层，并通过调整权值和偏置来减小误差，以提高网络的性能。

BP网络的应用非常广泛，以下是一些典型的应用领域：1.模式识别：BP网络可以用于手写字符识别、人脸识别、语音识别等模式识别任务。

通过训练网络，将输入样本与正确的输出进行匹配，从而实现对未知样本的识别。

2.数据挖掘：BP网络可以用于分类、聚类和回归分析等数据挖掘任务。

例如，可以用于对大量的文本数据进行情感分类、对客户数据进行聚类分析等。

3.金融领域：BP网络可以用于预测股票价格、外汇汇率等金融市场的变动趋势。

通过训练网络，提取出对市场变动有影响的因素，从而预测未来的市场走势。

4.医学诊断：BP网络可以用于医学图像分析、疾病预测和诊断等医学领域的任务。

例如，可以通过训练网络，从医学图像中提取特征，帮助医生进行疾病的诊断。

5.机器人控制：BP网络可以用于机器人的自主导航、路径规划等控制任务。

通过训练网络，机器人可以通过感知环境的数据，进行决策和规划，从而实现特定任务的执行。

总之，BP神经网络是一种强大的人工神经网络模型，具有较强的非线性建模能力和适应能力。

它在模式识别、数据挖掘、金融预测、医学诊断和机器人控制等领域有广泛的应用，为解决复杂问题提供了一种有效的方法。

然而，BP网络也存在一些问题，如容易陷入局部最优解、训练时间较长等，因此在实际应用中需要结合具体问题选择适当的神经网络模型和训练算法。

BP神经网络原理及应用

BP神经网络原理及应用BP神经网络，即反向传播神经网络（Backpropagation Neural Network），是一种基于梯度下降算法的多层前馈神经网络，常用于分类与回归等问题的解决。

BP神经网络通过反向传播算法，将误差从输出层往回传播，更新网络权值，直至达到误差最小化的目标，从而实现对输入模式的分类和预测。

BP神经网络的结构包括输入层、隐藏层和输出层。

输入层接收外部输入的特征向量，隐藏层负责将输入特征映射到合适的高维空间，输出层负责输出网络的预测结果。

每个神经元与其前后的神经元相连，每个连接都有一个权值，用于调整输入信号的重要性。

BP神经网络利用激活函数（如sigmoid函数）对神经元的输出进行非线性变换，增加网络的非线性表达能力。

1.前向传播：将输入信号传递给网络，逐层计算每个神经元的输出，直至得到网络的输出结果。

2.计算误差：将网络输出与期望输出比较，计算误差。

常用的误差函数包括平方误差和交叉熵误差等。

3.反向传播：根据误差，逆向计算每个神经元的误差贡献，从输出层往回传播到隐藏层和输入层。

根据误差贡献，调整网络的权值和阈值。

4.更新权值和阈值：根据调整规则（如梯度下降法），根据误差贡献的梯度方向，更新网络的权值和阈值。

1.模式识别与分类：BP神经网络可以通过训练学习不同模式的特征，从而实现模式的自动分类与识别。

例如，人脸识别、文本分类等。

2.预测与回归：BP神经网络可以通过历史数据的训练，学习到输入与输出之间的映射关系，从而实现对未知数据的预测与回归分析。

例如，股票价格预测、天气预测等。

3.控制系统：BP神经网络可以用于建模和控制非线性系统，实现自适应、自学习的控制策略。

例如，机器人控制、工业过程优化等。

4.信号处理与图像处理：BP神经网络可以通过学习复杂的非线性映射关系，实现信号的去噪、压缩和图像的识别、处理等。

例如，语音识别、图像分割等。

5.数据挖掘与决策支持：BP神经网络可以根据历史数据学习到数据之间的相关关系，从而帮助决策者进行数据挖掘和决策支持。

因子模糊化BP神经网络在磨粒识别中的应用

因子模糊化BP神经网络在磨粒识别中的应用摘要：随着工业化的发展，磨粒识别在工业生产中变得越来越重要。

因子模糊化BP神经网络作为一种优秀的模式识别算法，在磨粒识别中具有广泛的应用。

本文介绍了因子模糊化BP神经网络的基本理论，并以磨粒识别为例，详细分析了其应用过程。

实验结果表明，因子模糊化BP神经网络在磨粒识别中的应用能够有效提高识别准确率，具有很好的应用前景。

关键词：因子模糊化BP神经网络；磨粒识别；模式识别；识别准确率1. 引言随着机械制造业的不断发展，磨粒识别在工业生产中越来越重要。

磨粒识别可以帮助企业提高生产效率和质量，减少生产成本。

目前，许多机构已经开始研究磨粒识别的技术，其中因子模糊化BP神经网络是一种非常有效的模式识别算法。

2. 因子模糊化BP神经网络因子模糊化BP神经网络（Factorial Fuzzy BP Neural Network，FFBP）是一种基于模糊理论和神经网络理论的模式识别算法。

该算法可以对模糊样本进行分类，具有很好的识别能力和鲁棒性。

FFBP算法的基本理论如下：（1）模糊化处理：将输入模式进行模糊化处理，即将模糊样本映射至模糊空间中。

（2）因子分解：对模糊因子进行分解，得到各个因子的权重系数。

（3）权重更新：根据误差进行权重更新，不断调整权重系数，提高识别效果。

3. 磨粒识别的应用磨粒识别是指通过特征提取和模式识别技术，对磨粒进行分类。

在实际应用中，磨粒的型号、尺寸、形状各异，因此磨粒的特征提取比较困难。

为了解决这一问题，可以采用因子模糊化BP神经网络进行磨粒识别。

具体操作步骤如下：（1）收集磨粒样本数据，并对其进行特征提取。

（2）对特征提取所得数据进行模糊化处理，映射至模糊空间中。

（3）对映射所得数据进行因子分解，得到各个因子的权重系数。

（4）采用加速梯度下降法对权重系数进行更新，提高识别准确率。

4. 实验结果为验证因子模糊化BP神经网络在磨粒识别中的应用效果，我们进行了实验。

bp神经网络3篇

bp神经网络第一篇：BP神经网络的基本原理BP神经网络是一种最为经典的人工神经网络之一，它在模拟神经元之间的信息传输和处理过程上有很高的效率，可以被应用于多种领域，如图像处理、模式识别、预测分析等。

BP神经网络的核心思想是通过将神经元之间的权值调整来达到优化网络结构的目的，从而提高网络的准确率和泛化能力。

BP神经网络包含三个基本部分：输入层、隐层和输出层。

其中，输入层用于接收原始数据，隐层是神经元之间信号处理的地方，而输出层则用于输出最终的结果。

与其他的神经网络不同，BP神经网络使用了反向传播算法来调整神经元之间的权值。

这个算法是一种基于梯度下降的优化方法，通过最小化目标函数来优化权值，从而获得最小的误差。

具体来说，反向传播算法分为两个步骤：前向传播和反向传播。

前向传播是指从输入层开始，将数据经过神经元的传递和处理，一直到输出层，在这个过程中会计算每一层的输出值。

这一步完成后，就会得到预测值和实际值之间的误差。

接着，反向传播将会计算每个神经元的误差，并将误差通过链式法则向后传播，以更新每个神经元的权值。

这一步也被称为误差反向传播，它通过计算每个神经元对误差的贡献来更新神经元之间的权值。

总的来说，BP神经网络的优点在于其具有灵活性和较高的准确率。

但同时也存在着过拟合和运算时间过长等问题，因此在实际应用中需要根据实际情况加以取舍。

第二篇：BP神经网络的应用BP神经网络作为一种人工智能算法，其应用范围非常广泛。

以下是BP神经网络在不同领域的应用案例。

1. 图像处理BP神经网络在图像处理方面的应用主要有两个方面：图像分类和图像增强。

在图像分类方面，BP神经网络可以通过对不同特征之间的关系进行学习，从而对图像进行分类。

在图像增强方面，BP神经网络可以根据图像的特征进行修复和增强，从而提高图像的质量。

2. 股票预测BP神经网络可以通过对历史数据的学习来预测未来股市趋势和股票价格变化，对投资者提供参考依据。

3. 语音识别BP神经网络可以对人声进行测量和分析，从而识别出人说的话，实现语音识别的功能。

机器学习-BP(back propagation)神经网络介绍

BP神经网络BP神经网络，也称为反向传播神经网络（Backpropagation Neural Network），是一种常见的人工神经网络类型，用于机器学习和深度学习任务。

它是一种监督学习算法，用于解决分类和回归问题。

以下是BP神经网络的基本概念和工作原理：神经元（Neurons）：BP神经网络由多个神经元组成，通常分为三层：输入层、隐藏层和输出层。

输入层接收外部数据，隐藏层用于中间计算，输出层产生网络的最终输出。

权重（Weights）：每个连接两个神经元的边都有一个权重，表示连接的强度。

这些权重是网络的参数，需要通过训练来调整，以便网络能够正确地进行预测。

激活函数（Activation Function）：每个神经元都有一个激活函数，用于计算神经元的输出。

常见的激活函数包括Sigmoid、ReLU（Rectified Linear Unit）和tanh（双曲正切）等。

前向传播（Forward Propagation）：在训练过程中，输入数据从输入层传递到输出层的过程称为前向传播。

数据经过一系列线性和非线性变换，最终产生网络的预测输出。

反向传播（Backpropagation）：反向传播是BP神经网络的核心。

它用于计算网络预测的误差，并根据误差调整网络中的权重。

这个过程分为以下几个步骤：1.计算预测输出与实际标签之间的误差。

2.将误差反向传播回隐藏层和输入层，计算它们的误差贡献。

3.根据误差贡献来更新权重，通常使用梯度下降法或其变种来进行权重更新。

训练（Training）：训练是通过多次迭代前向传播和反向传播来完成的过程。

目标是通过调整权重来减小网络的误差，使其能够正确地进行预测。

超参数（Hyperparameters）：BP神经网络中有一些需要人工设置的参数，如学习率、隐藏层的数量和神经元数量等。

这些参数的选择对网络的性能和训练速度具有重要影响。

BP神经网络在各种应用中都得到了广泛的使用，包括图像分类、语音识别、自然语言处理等领域。

神经网络算法在语音识别技术中的应用

神经网络算法在语音识别技术中的应用随着人工智能技术的不断进步，神经网络算法被广泛应用于各种领域，其中之一便是语音识别技术。

神经网络算法作为一种模拟大脑神经细胞之间连接的计算模型，具备较强的非线性处理能力和学习能力，可用于提取、分析和识别语音信号中的特征，为语音识别技术的发展带来了巨大的推动力。

一、神经网络算法在语音信号特征提取中的应用语音信号是一种时变信号，具有较高的纬度和复杂性。

在语音识别任务中，如何有效地提取到语音信号中有用的特征信息，一直是一个关键性的问题。

神经网络算法提供了强大的模式识别能力，可以通过训练大量数据来自动学习到语音信号的复杂特征，从而实现对语音信号的有效提取。

神经网络算法常用的特征提取方法之一是梅尔频率倒谱系数（MFCC）。

MFCC是一种基于人耳的生理感知特性的特征表示方式，它采用梅尔滤波器组对语音信号的频谱进行压缩，并利用离散余弦变换（DCT）将频域特征转换为倒谱特征。

通过多层神经网络对MFCC特征进行训练和学习，可以获得到更加鲁棒和区分度更高的语音特征表示，进而提高语音识别的准确性和效率。

二、神经网络算法在声学模型建模中的应用在传统的语音识别系统中，声学模型是识别的核心部分，它通过建立一种映射关系，将观测到的语音信号映射到对应的文本或语义标签上。

神经网络算法在声学模型建模中的应用，使得语音识别系统能够更好地适应各种复杂的语音信号和环境条件。

传统的声学模型采用的是隐马尔可夫模型（HMM），其对语音信号的描述能力受到一定的限制。

而基于神经网络的声学模型，如深度神经网络（DNN）和循环神经网络（RNN），可以通过堆叠多个隐藏层来提高模型的非线性拟合能力，从而更好地建模语音信号的时序特征。

此外，卷积神经网络（CNN）也被广泛应用于语音识别中的声学模型建模。

CNN通过利用局部感受野和权值共享的特性，可以有效地提取语音信号中的局部特征。

在语音识别任务中，CNN常常用于提取语音帧级别的特征，并通过与其他神经网络结构的组合，实现对语音信号的整体建模。

BP神经网络应用于孤立词语发音识别的研究

Ａｓｒｃｂｔｔａ
ＴｅｌｒｉｇｐｉｃｐｅｏＢｒｆｉｅｒｅｏ（ＮｈａｎｎｒｉｌｆＰＡｔｃｌｕａＮｔｒＡＮ）ａｄｔｅｂｓｅｒｏｐｅｈｒｃｇｉｏｔｄｃｄｉｔｉｅｎｉａＮｉｌｗｋｎａｉｔｏｙｎｓｅｃｏｎｉｉｉｒｕｅｓｈｃｈｅｔｎｓｎｏｎｈ
姜占孙燕２才
（海师范大学物理系青青海西宁８００）１０８
（海民族学院计算机科学与技术系青
青海西宁８００１０７）
摘要
介绍了ＢＰ神经网络的学习规则和用于语音识别的基本原理，立了一个用于常用孤立词语音识别的Ｂ建Ｐ神经网络，选
总数为Ⅳ则误差的为Ｅ＝ ∑Ｅｎ，学习，平方均值Ａ — １（）Ａ为Ｅ
的目标函数，它是网络所有权值和阈值以及输入信号的函数，学习的目的是使Ｅ达到最小。
记（）ｎ＝∑ｗ（）（）为到元前入的数，ｉｙｎ，加单输个￣ｉＰｎ
０引言
—
差 ÷ （，输端的方差瞬值Ｅ）为ｎ则出总平误的时为（＝）ｎ
｝∑ ｎ，包括的出元，练本中本（）其中ｃ所有输单设训样集样
．
语音信号是非平稳的随机复杂信号。目前用于语音识别的模型主要有：态时间规整（Ｔ，动ＤＷ）隐马尔可夫模型（ＭＭ）Ｈ，神经网络（Ｎ，Ｎ）分类模型（Ｖ等。它们用于语音识别的不ＳＭ）同场合，各有所长。ＮＮ就是模仿人脑工作方式而设计的一种机器，以用软件在计算机上仿真；Ｎ能够通过学习，取知可Ｎ获识并解决问题。Ｎ中的ＢＮＰ神经网络诞生于１８９６年，是基它

一种基于优化小波神经网络的语音识别

ｅｖｒｎｅｔｎｊｏｍｎ
目前，工神经网络已经成为语音识别领域的人
维普资讯
第３５卷第２期
２００８年２月
应
用
科
技
Ｖ０．５．ｏ．１３Ｎ２Ｆｂ．ｏ８ｅ２ｏ
ＡｐｌｄＳｉｎｅａｄＴｃｎｌｇｐｉｃｅｃｎｅｈｏｏｙｅ
文章编号：０９— ７Ｘ（０８００１０１０６１２０）２— ０７— ４
一
种基于优化小波神经网络的语音识别
陈立伟，宋宪晨，东升，洪利章杨
（尔滨工程大学信息与通信工程学院，哈黑龙江哈尔滨１００）５０１
摘
要：在以往的ＢＰ小波神经网络中，最常用的学习算法是ＢＰ算法，Ｐ算法实质上就是梯度下降法，Ｂ是一种

局部搜索算法，梯度下降法使得网络极易陷入局部最小值，而使得网络训练结果不尽人意，从搜索成功概率低．
取代传统的梯度下降法，利用粒子群算法对小波神经网络中的参数进行优化．然后利用基于粒子群优化（ＳＰＯ）
的小波神经网络进行抗噪声语音识别实验，真结果表明，Ｂ仿与Ｐ网络相比，ＳＰＯ算法在迭代次数、函数逼近误
差、网络性能方面均优于ＢＰ网络，系统的识别率也得到较大的提高．关键词：粒子群优化；小波神经网络；语音识别；噪声抗
中图分类号：Ｎ１．Ｔ９１７文献标识码：Ａ

BP神经网络模型概述

BP神经网络的应用领域
1 图像识别
2 预测与预警
3 信号处理
BP神经网络可以用于图像识别，如人脸识别、物体识别等。
BP神经网络可应用于预测和预警系统，如市场预测、天气预报等。
BP神经网络可用于信号处理，如语音识别、音频降噪等。
BP神经网络的优缺点
优点
• 具有较强的非线性拟合能力 • 能够处理大量输入和输出数据 • 适用于复杂的模式识别和预测问题
BP神经网络发展，BP神经网络模型将进一步完善和广泛应用。
BP神经网络模型概述
BP神经网络模型是一种广泛应用的人工神经网络模型，它由多个神经元组成，具备卓越的模式识别和预测能力。
BP神经网络模型的定义
基本概念
BP神经网络是一种前馈型神经网络，采用误差反向传播算法进行训练，适合处理非线性问题。
主要组成
BP神经网络由输入层、隐藏层和输出层组成，每一层都包含多个神经元，它们之间通过连接权值进行信息传递。
BP神经网络的结构
输入层
接收外部输入并将其传递给隐藏层。
隐藏层
对输入进行处理并将结果传递给输出层。
输出层
输出最终的预测结果。
BP神经网络的训练过程
1
前向传播
通过计算权值，将输入从输入层传递到输出层，产生预测结果。
2
计算误差
将预测结果与真实结果进行比较，计算误差值。
3
反向传播
根据误差值，调整连接权值，以减小误差。
缺点
• 训练时间较长 • 需要大量的训练数据和计算资源 • 容易出现过拟合的问题
BP神经网络模型的改进方法
正则化技术
通过加入正则化项，降低模型的复杂度，防止过拟合。

BP网络在语音识别中的应用

对抽样后的波形序列进行 FFT 变换，即得到同样点数的频域序列。因为 FFT 变换得到的频谱是对称的，所以只需选取一半的序列，由此又可以进一步减少计算量。如此得到的序列对应着 0~2205Hz 上频谱的抽样。
对于一句 “hello”，大约持续 0.6s，用 44100Hz 的 CD 音质录制下来有 26460 个点，经过时域抽样和频谱截半后，只剩 1323 个点。
di
（x ），则判
x∈ωm
K 近邻法：由于最近邻法只根据待识模式最近的一个样本的类别
而决定其类别，通常称为 1-NN 方法。为了克服单个样本类别的偶然
性以增加分类的可靠性，我们可以考察待识模式的 k 个最近邻样本，
这 k 个最近邻元中哪一类的样本最多，就将 x 判属哪一类。设 k1 ，k2 ，
人发声器官发声的频域集中在 500~2000Hz。因此，为了减轻后续算法的耗时，没必要保留完整频谱，只需得到在此频段上的频谱即可。先对波形进行抽样。例如对原先采样频率为 44100Hz 的 CD 音质声音，对其每隔 10 个点抽一个样，根据奈奎斯特定律，重建信号的最高频率为抽样频率 4410Hz 的一半，即 2205Hz，已基本覆盖人的语音范围。
科技信息
○ＩＴ论坛○
ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ
2013 年第 1 期
ＢＰ网络在语音识别中的应用
周琍（中国人民解放军蚌埠汽车士官学校，安徽蚌埠 233011）
【摘要】本文选取 BP 神经网络作为识别方法，通过自身的机器学习，构建出一个对特定人、小词汇量、孤立词的语音识别系统，而且用 matlab 封装成友好便捷的图形用户界面，很好的实现了人机交互，实验结果可行。

基于BP神经网络的语音识别技术

精选完整ppt课件
3
• 语音识别系统可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续语音识别系统。
• 语音识别系统分为两个方向：一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统；二是根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量，以及无限词汇量语音识别系统。
精选完整ppt课件
6
2.语音信号的分帧语音信号是一种典型的非平稳信号，它的均值函数u(x)和自相关
函数R(xl,x2)都随时间而发生较大的变化。但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。因此，在实际处理时可以将语音信号分成很小的时间段(约10~30ms)，称之为 “帧”。
精选完整ppt课件
5
三.语音信号预处理
1.预加重
语音从嘴唇辐射会有6dB/oct的衰减，因此在对语音信号进行处理之前，希望能按6dB/oct 的比例对信号加以提升(或加重)，以使得输出信号的电平相近似。可采用以下差分方程定义的数字滤波器：
y(n)x(n)a x(n 1 )
式中，系数常在0.9至1之间选取。
精选完整ppt课件
8
下图是我本科课程设计中一个关于端点检测的程序GUI界面，其中语音是教材中的示例语音“他去无锡市”，我通过cooledit在示例语音中加入了白噪音，可以看出清音段混杂在噪音中，如果短时能量的门限值选取过高可能会屏蔽掉清音段，所以加入过零率能更好的识别出清音段。
精选完整ppt课件
.
将取所有音频的mfcc系数处理
/SampleCreate. 成神经网络函数所需的输入格
m
式
. /Main.c
主程序函数，在这里设置参数，

基于深度神经网络的语音识别算法优化

基于深度神经网络的语音识别算法优化近年来，随着深度学习的飞速发展，基于深度神经网络的语音识别算法已经取得了巨大的突破和进展。

然而，仍然存在一些问题和挑战，需要进一步优化算法，提高语音识别的准确性和性能。

本文将针对这一问题展开讨论，并提出了一些优化算法的方法和建议。

首先，为了提高基于深度神经网络的语音识别算法的准确性，我们可以使用更大规模的数据集进行训练。

由于深度神经网络的优势在于其强大的模型拟合能力，更多的数据将有助于提高模型的准确性和泛化能力。

可以使用公开的语音数据集，如TIMIT、LibriSpeech等，或者自行收集和标注数据。

通过扩充训练数据集，我们能够更好地捕捉语音信号的多样性和变化，从而提高识别的准确性。

其次，针对深度神经网络模型本身，我们可以考虑使用更深层次的网络结构。

深度神经网络的主要优势在于其多层次的特征表示能力，通过增加网络的深度，我们能够更好地抽象和表示语音信号的特征信息。

可以使用卷积神经网络（CNN）作为前端特征提取器，然后将其与循环神经网络（RNN）或长短时记忆网络（LSTM）等结构相结合，来构建更深的神经网络模型。

此外，还可以探索一些新颖的网络结构，如残差网络（ResNet）等，进一步提高模型的性能。

另外，为了进一步优化基于深度神经网络的语音识别算法，我们可以采用更先进的优化算法来训练网络模型。

传统的优化算法如随机梯度下降（SGD）存在一些问题，如容易陷入局部最优解、收敛速度慢等。

可以尝试使用一些改进的优化算法，如Adam、RMSprop等，来加速网络的训练过程。

此外，还可以引入一些正则化技术，如Dropout、Batch Normalization等，来防止模型过拟合和提高泛化能力。

除了以上的方法，我们还可以考虑引入一些增强学习方法来优化基于深度神经网络的语音识别算法。

增强学习是一种通过智能体与环境的交互学习最优策略的方法，可以用于优化模型的决策过程。

可以使用深度强化学习方法，如深度Q网络（DQN）等，来训练一个智能体，使其能够自动调整参数，优化识别的性能。

bp神经网络的应用综述

bp神经网络的应用综述近年来，随着人工智能（AI）发展的飞速发展，神经网络技术也在迅速发展。

BP神经网络是一种能够将输入大量信息并有效学习并做出正确决策的广泛应用的深度学习算法。

它的强大的学习能力令人印象深刻，从很多方面来看都是一种具有潜在潜力的技术。

在科学和工程方面，BP神经网络的应用非常广泛。

它可以用于模式识别，数据挖掘，图像处理，语音识别，机器翻译，自然语言处理和知识发现等等。

当可用的数据量很大时，BP神经网络可以有效地自动分析和提取有用的信息，从而有效地解决问题。

例如，在图像处理领域，BP神经网络可以用于图像分类、目标检测和图像语义分析。

它能够以准确的速度检测目标图像，包括人脸、行人、汽车等等，这在过去难以实现。

在机器翻译等技术中，BP神经网络可以用于语义分析，以确定机器翻译的正确语义。

此外，BP神经网络还可以用于人工智能的自动控制，例如机器人与机器人感知、模式识别、语音识别和控制系统。

除此之外，BP神经网络还可以用作在计算机游戏和科学研究中的决策支持系统，以便帮助决策者做出正确的决策。

总而言之，BP神经网络是一种具有广泛应用的深度学习算法，它能够自动处理大量复杂的信息，并能够做出正确的决策。

它可以用于各种科学和工程任务，如模式识别、机器翻译、图像处理、语音识别、机器人感知及自动控制等领域。

此外，它还可以用于决策支持系统，以便帮助决策者做出正确的决策。

BP神经网络在许多领域都具有巨大的潜力，希望以后能得到更多的研究和应用。

因为随着计算机技术的发展，BP神经网络在未来有望发挥更大的作用，帮助人们实现和科学研究的突破。

BP神经网络的潜力巨大，尽管它的应用前景十分广阔，但许多研究仍然存在挑战。

因此，有必要开展更多的研究，并利用其强大的特性，尽可能多地发掘它的潜力，以便最大限度地利用它的优势。

我们期待着BP神经网络会给人类的发展带来更多的惊喜。

基于HMM和BP神经网络的语音识别的研究

ｔｉｖｅｇｏｏｄａｎｄｂａｄｐｏｉｎｔｓ，ｏｒｇａｎｉｃａｌｌｙｕｎｉｆｉｅｓｔｗｏｍｅｔｈｏｄｓａｎｄａｐｐｌｉｅｓｉｎｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｆｕｒｔｈｅｒｅｎｈａｎｃｅｄｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ
ｒｏｂｕｓｔｎｅｓｓａｎｄｔｈｅｒａｔｅｏｆａｃｃｕｒａｃｙ．
日ｌ语☆识别《统框目
技术等的发展，使得能满足各种需要的语音识别系统实现成为可
图１语音识别系统
能。近二三十年来，语音识别在工业、军事、交通、医学、民用诸方
－４＞·寺 ·÷ ·夺 ·夺 ·夺 ·夺 ·孛 ·夺 ·夺 ·夺 ·夺 ·夺 ·夺 ·幸 ·牵 ·牵 ·夺 ·牵 ·夺 ·夺 ·夺 ·夺 ·牵 ·夺 ·夺 ·夺 ·寺 ·夺 ·夺 ·夺 ·夺 ·寺
意图它是一门涉及面很广的交叉学科，与计算机、通信、语音语
僻剩Ｔ
言学、数理统计、信号处理、神经心理学和人工智能等学科都有着
挺式臣配
理忸粜输出
密切的关系。随着计算机技术、模式识别和信号处理技术及声学
面，特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今，语音识别产品在人机交互应用中，已经占到越来越大的比例＿ｌｊ。２语音识别系统的基本原理
语音识别一般分两个步骤。第一步是系统“学习 ”阶段，主要任务是根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法分析出这种识别方法所要求的语音特征参数，

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

上海海事大学神经网络与语音识别院系: 物流工程学院课程名称: 制造与物流决策支持系统学生姓名: 学号:时间:目录一．绪论 (3)1.1 研究背景及意义 (3)1.2 语音识别的国内外研究现状 (3)1.3研究内容 (4)二．语音识别技术 (5)2.1语音信号 (5)2.2语音信号的数学模型 (5)2.3语音识别系统结构 (6)2.4语音信号预处理 (7)2.4.1 语音信号的采样 (8)2.4.2语音信号的分帧 (8)2.4.3语音信号的预加重 (9)2.4.4 基于短时能量和过零率的端点检测 (9)2.5 特征参数提取 (13)三．基于BP神经网络语音识别算法实现 (16)3.1 BP神经网络原理 (16)3.2 输入层神经元个数的确定 (16)3.3网络隐含层数的确定 (17)3.4隐含层神经元个数的确定 (17)3.5 BP神经网络构造 (17)3.6 BP神经网络的训练 (18)3.6.1训练样本集合和目标值集合 (18)3.6.2 网络训练 (18)3.7网络训练 (19)3.8 语音的识别结果 (20)四．总结 (21)参考文献 (22)附录 (23)一．绪论计算机的飞速发展，使人们的生活方式发生了根本性的改变，鼠标、键盘，这些传统的人机接口使人们体会到了生活的便利。

科学技术日新月异，假如让“机器”能够听懂人的语言，并根据其信息去执行人的意图，那么这无疑是最理想的人机智能接口方式，因此语音识别作为一门极具吸引力的学科应运而生，很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。

语音识别(Speech Recognition)是指，计算机从人类获取语音信息，对语音信息进行分析处理，准确地识别该语音信息的内容、含义，并对语音信息响应的过程。

语音信号具有非稳定随机特性，这使得语音识别的难度大。

目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理，那么要求计算机能像人类一样地识别语音信号很有挑战性。

1.1 研究背景及意义语言在人类的智能组成中充当着很重要的角色，人与人之间的交流和沟通大部分是通过语言的方式有效的完成。

作为人与人之问交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。

随着数字信号处理及计算机科学的飞速发展，人们对实现人机对话产生越来越迫切的要求，使得语音识别技术近年来得到了迅速的发展，语音识别技术的研究进入了一个比较成熟的时期。

语音识别是一门交叉科学，它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。

也是人机交互最重要的一步。

1.2 语音识别的国内外研究现状通过语音传递信息是人类最重要，最有效，和最方便的交换信息的形式，语音识别主要指让机器转达人说的话，即在各种情况下，准确的识别出语音的内容，从而根据其信息，执行人的各种意图。

广义的语音识别包括说话人的识别和内容的识别两部分。

这里所说的语音识别，是指内容识别方面。

采用计算机进行语音识别到现在已经发展了50年。

从特征参数上改进，采用各种办法进行语音增强是一个研究方向，但是到目前为止，还没有一种办法能把语音信号完美地从噪音环境提取出来。

语音识别有广泛的商业化运用前景，主要可以分为通用场合和专用场合两个方面。

1.3研究内容本文研究的主要内容是结合模式识别的基本理论，研究BP神经网络孤立词语音识别的问题，实现1-5共5个数字的识别。

分析了语音信号的预处理，特征提取及BP神经网络算法实现。

二．语音识别技术2.1语音信号语音信号是随时间变化的一维信号，由一连串的音素组成，各个音素的排列有一定的规则。

语音具有声学特征的物理性质，声音质量与它的频率范围有关，语音信号的频谱分量主要集中在200~3400Hz的范围内。

语音信号的另一个重要特点是它的短时性。

语音信号的特征是随时间变化而变化，只有在一段很短的时间间隔中，才保持相对稳定的特性。

研究表明，在5ms~40ms的范围内语音信号的频谱特性和一些物理特征基本保持不变。

语音信号短时特征和短时参数包括它的短时能量、短时过零率、短时相关函数、短时频谱等。

语音信号的最基本组成单位是音素。

音素可分成浊音和清音两大类。

如果将只有背景噪声的情况定义为“无声”，那么音素可分成“无声”、“浊音”和“清音”三类。

在短时分析的基础上可以判断一小段语音属于哪一类。

如果是浊语音段，还可测定它的另一些重要参数，如基音频率和共振峰等。

2.2语音信号的数学模型建立语音信号的数学模型是语音信号处理的基础。

从人的发音器官的机理来假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特征是不随着时间变化的平稳随机过程。

这样在这些短段时间内表示语音信号时可以采用线性时不变模型。

通过上面的分析，将语音生成系统分成三个部分，喉的部分称为声门，在声门(声带)以下，称为“声门子系统”，它负责产生激励振动，是“激励系统”。

从声门到嘴唇的呼气通道是声道，是“声道系统”，声道的形状主要由嘴唇和舌头的位置来决定。

在说话的时候，声门处气流冲击声带产生振动，然后通过声道响应变成声音，由于发不同音时，声道的形状不同，所以能够听到不同的语音。

语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。

激励的不同情况发不同性质的音，激励一般分为浊音激励和清音激励。

发浊音时声道受到声带振动的激励引起共振，产生间歇的类斜三角形脉冲；发清音时声道被阻碍形成湍流，可以把清音激励模拟成随机白噪声。

完整的语音信号的数学模型可以用三个子模型：激励模型、声道模型、辐射模型的串联来表示。

激励模型一般分为浊音激励和清音激励。

发浊音时，由于声带不断张开和关闭将产生间歇的脉冲波，这个脉冲波类似于斜三角形的脉冲。

发清音时，无论是发阻塞音或摩擦音，声道都被阻碍形成湍流。

所以，可把清音激励模拟成随机白噪声。

声道模型有两种最常见的建模方式。

一是把声道视为由多个等长的不同截面积的管子串联而成的系统，按此观点推导出的叫“声管模型”；另一个是把声道视为一个谐振腔，按此推倒出的叫“共振峰模型”。

从声道模型输出的速度波与语音信号的声压波之倒比称为辐射阻抗，它表征口唇的辐射效应。

由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。

2.3语音识别系统结构孤立词语音识别是对特定的不连续的词语作为处理单元。

语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。

如图2.1所示为语音识别系统结构框图。

图2.1 语音识别系统结构框图从图2.1的系统整体架构可以看到，建立基于BP神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。

首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。

预处理包括预加重，加窗分帧和端点检测三个过程。

系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。

在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分数字1-5.在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储为BP神经网络的输入样本，在此基础上建立输入与输出的BP神经网络模型。

在识别阶段,待测语音经过预处理，使用已经训练好的BP神经网络进行识别得到结果。

2.4语音信号预处理图2.2是语音信号的预处理的流程图。

从图2.2可以看到预处理模块包括预加重，加窗分帧和端点检测。

前级预加重、加窗分帧及端点检测是语音识别的准备工作，每一个环节对整个识别系统的性能有着重要的影响。

前级预处理主要是对信号进行一定的滤波和分帧；加窗分帧就是将语音信号进行分段处理，使语音信号连续并保持一定的重叠率：端点检测是确定语音有用信号的起始点与终止点，并通过一定的手段处理，将没有意义的语音信号去除，从而减少语音匹配识别模块的运算量，同时也可以提高系统的识别率。

预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响，甚至达不到语音识别的效果，因此预处理工作作为语音识别的第一步工作，必须达到所需的要求，为下一步的特征参数提取做好铺垫。

图2.2 语音信号预处理流程图2.4.1 语音信号的采样Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制，也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。

在本实验中，使用matlab的语音工具包录取0-共10段语音。

如图2.3所示为数字0的训练语音0a.wav的信号波形图，第(I)幅图为完整的语音波形，第(II)、(III)幅图分别为语音的起始部分和结束部分的放大波形图。

2.4.2语音信号的分帧语音信号是一种典型的非平稳信号，它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。

但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。

因此，在实际处理时可以将语音信号分成很小的时间段(约10~30ms)，称之为“帧”，作为语音信号处理的最小单位，帧与帧的非重叠部分称为帧移，而将语音信号分成若干帧的过程称为分帧。

分帧小能清楚地描绘语音信号的时变特征但计算量大；分帧大能减少计算量但相邻帧间变化不大，容易丢失信号特征。

一般取帧长20ms ，帧移为帧长的1/3~1/2。

在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等，它们的表达式如下（其中N 为帧长）：矩形窗：⎩⎨⎧-≤≤=其他 ,010 ,1)(N n n ϖ (2-1) 汉明窗：0.540.46cos(2/(1)),01()0,n N n N n πϖ--≤≤-⎧=⎨⎩其他 (2-2)2.4.3语音信号的预加重预加重是指在A ／D 转换后加一个6dB ／倍频程的高频提升滤波器，语音信号的平均功率谱由于受声门激励和口鼻辐射的影响，高频端大约在800Hz 以上按6dB ／Oct(倍频程)跌落。

所以求语音信号频谱时，频率越高相应的成份越小，高频部分的频率比低频部分的难求。

因此，预加重的目的是加强语音中的高频共振峰，使语音信号的短时频谱变得更为平坦，还可以起到消除直流漂移、抑制随机噪声和提高清音部分能量的效果，便于进行频谱分析和声道参数分析。

此外，通常的方法是使用一阶零点数字滤波器实现预加重，其形式为：(2-3)频域相对应的形式为：(2-4)其中，a 为预加重系数。

2.4.4 基于短时能量和过零率的端点检测在语音信号的预处理中,端点检测是关键的一步,语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段(语音段或噪声段)来计算确定。

因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。

基于BP神经网络的语音识别技术

合集下载

基于神经网络的语音信号识别

语音识别技术(数学建模)

基于BP神经网络的语音情感识别研究

基于神经网络的语音情感识别

语音识别技术(数学建模)

基于神经网络的语音信号识别研究

BP神经网络的简要介绍及应用

BP神经网络原理及应用

因子模糊化BP神经网络在磨粒识别中的应用

bp神经网络3篇

机器学习-BP(back propagation)神经网络介绍

神经网络算法在语音识别技术中的应用

BP神经网络应用于孤立词语发音识别的研究

一种基于优化小波神经网络的语音识别

BP神经网络模型概述

BP网络在语音识别中的应用

基于BP神经网络的语音识别技术

基于深度神经网络的语音识别算法优化

bp神经网络的应用综述

基于HMM和BP神经网络的语音识别的研究

文档推荐

最新文档