当前位置:文档之家› 语音识别技术的应用

语音识别技术的应用

语音识别技术的应用
语音识别技术的应用

评委一评分,签名及备注队号:

评委三评分,签名及备注

1209

评委四评分,签名及备注评委二评分,签名及备注选题:

C

题目:语音识别技术的应用

摘要

语音识别技术(ASR)是一项涉及多学科的综合性技术,并且语音识别系统在现代社会中的应用也越来越广泛,尤其是智能手机客服语音服务方面。因此本文就语音识别技术的各个环节展开建模分析,并通过10段语音样本验证语音识别模型的识别精度。

首先,本文通过Microsoft Visio软件对语音识别技术的基本原理绘制流程框图;然后通过Matlab录制一段语音样本,并对该语音信号做分帧加窗、预加重等预处理操作。

针对问题一,本文从端点检测、特征提取(MFCC参数)、模式识别三个方面展开建模,通过Matlab编程与图像说明语音识别系统的各个环节。对于端点检测环节,我们采取“双门限检测”法找出语音样本的起始点和终止点;特征提取环节,在已经过端点检测的语音样本基础上,本文选取能提高识别性能的MFCC 参数来分析;关于模式识别环节,我们首先对特征参数进行规整,然后基于神经网络算法详细阐述语音识别的过程。

针对问题二,根据问题一中的模型,本文结合软件工程中面向对象(OOD)的分析方法以及用户操作手册编写规范,为手机运营商制定了可行、简单的用户操作规则。

针对问题三,本文通过设计实验来验证语音识别模型的准确性。首先,根据用户操作规则,我们录制了不同情况下不同人的10段语音;然后根据问题一模型建立流程进行语音识别验证;最后结果表明,在本次试验中基于神经网络的语音识别的系统的识别准确率达75%。

关键字:语音识别;端点检测;MFCC;神经网络;OOD

语音识别技术的应用

1.问题的重述

语音识别技术(ASR)就是计算机通过对人类语言的认识和理解,将人类的语言信号转变成相应的文本或命令的技术,也就是让计算机听懂人说话。

语音识别是一项涉及多学科的综合性技术,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。

随着智能机的普及,语音识别技术也更加广泛。某手机运营商想利用语音机器人作为客服,处理查询话费、查询余额、查询最新优惠活动等简单问题。试根据语音识别技术系统构建过程,完成以下问题:

1、建立模型说明语音识别技术的各个环节;

2、根据模型,为手机运营商制定一个可行的用户操作规则;

3、根据制定的规则,通过查询话费等实例验证语音识别模型。

2.问题的分析

1.1问题1的分析

题目要求建立模型说明语音识别技术的各个环节。首先我们需要充分理解语音识别技术的各个流程,通过Microsoft visio软件绘制语音识别基本原理框图。然后对语音识别的几个重要环节建模分析,其中包括端点检测、特征提取、模式识别三个环节。

在建模之前,采集小组成员的语音作为分析样本,然后对语音样本做加窗分帧、预加重等基本处理。

针对端点检测环节,我们充分考虑到语音信号的三种分段形式,即无声段、清音段、浊音段;然后利用预处理后的语音样本,分别计算其短时能量、短时过零率,通过“双门限法检测法”找出语音样本的起点和终点;

针对特征提取环节,本分综合分析考虑了线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数三种不同参数的优缺点后,选取了MFCC参数作为语音样本的特征参数;然后利用Matlab编写mfcc函数,进而分析得到语音样本的MFCC,最后通过三维图形加以展示。

针对模式识别环节,本文选取了动态时间归整方法(DTW),矢量量化方法(VQ),隐马尔科夫模型方法(HMM),人工神经网络方法(ANN)中的人工神经网络算法,然后对语音样本和待测语音样本的模式识别过程进行详细阐述,并通过语音规整算法对语音样本的特征值进行计算。通过Matlab编写guizheng函数和bp 函数,并为问题3语音识别模型的验证做准备。

1.2问题2的分析

根据软件工程中面向对象(OOD)的分析方法,将题目描述作为“语音识别系统”的需求分析,并结合1.1中语音识别各个环节的分析过程,对该系统建立软件概念中的动态模型。基于动态模型的建立过程,并参考用户操作规则编写规范制定题目要求的用户操作规则。1.3问题3的分析

该问题实质上是按照1.2中用户操作规则验证1.1语音识别模型的识别精度。我们按照操作规则设计实验。首先,分别录制10段语音样本,样本内容为“查询话费余额”、“1”、以及非正常语音,10段样本中将其中2段作为标准语音,其他来自于不同人的8段语音作为测试语音。然后语音样本验证1.1中语音识别模型。并将验证结果通过图表以及模型识别准确率来呈现。

3.模型假设与符号说明

3.1模型假设

1.假设实验语音样本能表征不同人的声音特征;2.假设实验语音样本的录制环境正常,噪声不大;3.假设实验语音样本的语音是连续的;

4.假设语音规整后的MFCC 参数能表征所有语音样本的特征。3.2符号说明

表1符号说明

符号

符号说明

ωE 短时能量ωZ 短时过零率MFCC 梅尔倒谱系数N

帧长fs 采样率)(k H m 三角滤波器)(z H 一阶高通滤波器M

滤波器个数

采样定理,采样频率应大于信号中最高频率的两倍,所以采样频率(fs )取16KHz ;本实验将录音时间规定为5s ,因此采样的总点数(n )为5*8000,即40000;通道数(ch )取1,即为单通道;采样数据的存储格式(dtype )取为“double ”,即16位采样精度。利用sound 函数可以较清晰地听到读音,同时发现语音开始时存在短暂杂音。用wavwrite 函数将语音信号保存为“实验1.wav ”文件。原始语音波形图如图2所示(具体Matlab 程序见附录7.1)。

图2原始语音信号波形图

(2)加窗分帧处理

由于语音信号从整体上来看是一个非平稳过程,但是在一个短的时间内,其特性保持相对不变,所以语音信号具有短时平稳性,对语音信号的分析和处理必须建立在“短时”的基础上,将信号分为一段一段来分析其特征参数]1[。

分帧使用有线长度的窗函数来截取语音信号形成分析帧,窗函数将需处理区域之外的样点置零来获得当前语音帧。

因此,加窗语音信号为

)

()()(n n s n s ωω×=在这里窗函数我们选取汉明窗窗函数,即,

??

???

??=0)

1

2cos(46.054.0)(N n n πω其它

1

0?≤≤N n 其中,N 为帧长。

基于上述描述,利用Matlab对语音信号进行预处理,对语音信号进行分帧,可以利用voicebox工具箱中的函数enframe。voicebox工具箱是基于GNU协议的自由软件,其中包含了很多语音信号相关的函数。首先可以得到语音信号分帧后波形如图3所示,其中我们令帧长len=200,帧移inc=100。

图3语音信号分帧后波形图

然后,我们利用window函数设计窗口为120的汉明窗,进而通过Matlab 为分帧后的语音信号添加汉明窗,其波形图如图4所示(具体程序见附录7.2)。

图4添加汉明窗后语音信号波形图

(3)预加重处理

人发音时存在口唇的辐射效应,口唇的辐射模型相当与一阶高通滤波器,所

以在对实际信号进行分析处理时,常用“预加重技术”,目的提升信号的高频部分,使信号的频谱更加平坦,方便信号的分析]1[。

即,语音信号通过一个一阶高通滤波器:

1

1)(??=z z H α其中,9375.0=α。

设n 时刻的语音采样值为)(n x ,经过预加重处理后的结果为:

)1()()(??=n x n x n y α,

基于上述描述,利用Matlab 对分帧后的语音信号做预加重处理,预加重后语音信号的波形,如图5所示(具体程序见附录7.3)。

图5预加重后语音信号波形图

4.2问题一的模型建立与求解4.2.1端点检测建模

所谓端点检测]2[,就是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。

语音信号一般可分为无声段、清音段、浊音段。通常利用短时能量来检测浊音,用过零率来检测清音,两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的“双门限法检测法”。

根据上述理论,本文通过Matlab软件对名为“实验1”的wav文件进行端点检测。首先我们设置帧长FrameLan为200,帧移FrameInc为100等其他参数的值,然后过零计算,最后计算短时能量。其分析结果如图6所示。具体Matlab

程序见附录7.4]8[。

图6“实验1.wav”的短时能量和过零率

4.2.2特征提取建模

语音特征提取]4[就是用较少的维数来表示人语音信息的特征。常用的语音特

征包括发生器的谱包络、基音、共振峰等;还有基于声道特征模型,通过线性预测分析得到的参数,比如线性预测系数(LPC)、线性预测倒谱系数(LPCC)等;还有基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的特征参数,如梅尔倒谱系数(MFCC)等。

LPCC是基于发音模型建立的,LPCC也是一种基于合成的参数,这种参数没有充分利用人耳听觉的特性,实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数关系。文献资料]5[表明MFCC参数能够比LPCC参数更好地提高系统的识别性能。

基于相关理论知识及上述描述,我们选取Mel倒谱系数(MFCC)进行特征参数提取的建模分析,其计算步骤如下:

Step1:首先确定每一帧语音采样序列的点数,本实验取256

N。对每帧序

=

首先,我们基于相关信号处理技术,做水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱的“实验1.wav”的语谱图。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。如图8所示。

图8“实验1.wav”语谱图

然后,基于图7所示的计算流程,本文利用Matlab对“实验1.wav”语音文件

特征参数MFCC提取,编程过程中,我们设采样率fs为8000KHz,置滤波器的

个数M为24,一帧语音信号的点数N选取常数256。

我们得到MFCC参数值与幅值的关系以及维数与幅值得关系,如图9所示。

图9MFCC参数值

图10MFCC参数值

模式识别模型

语音信号识别常用的方法有概率统计方法,动态时间归整方法(DTW)

量化方法(VQ),隐马尔科夫模型方法(HMM),人工神经网络方法(ANN)等DTW算法是较早的一种模式匹配和模型训练方法,它应用动态规划方法成功解决了语音信号特征序列比较时时长不等的难题,在孤立词语音识别中效果

),(i k ZH 为特征向量矩阵的第k 行第i 列元素

当找到了第1k 帧和弟11+k 帧之间的距离最小时,即按下式将其归整成两帧的平均:

2

)

,11(),1(),1(i k ZH i k ZH i k ZH ++=

(其中,M i L 3,2,1=).

结合语音规整的算法,首先本文利用Matlab 编写guizheng 函数]7[(具体程序见附录7.6),对实验语音信号做规整处理,取规整后前8行特征向量作为输出结果。规整后特征参数值如下为8行24列的矩阵:

10.9287-27.5082-5.595720.7279 2.8172-14.7039-3.4642-7.6500-11.11260.4821 1.4543-0.88976.5089-8.0687-1.107913.0823-2.8825-1.2349 2.9571-3.9108-8.50130.90080.8037-0.44134.7474-17.0782-2.458813.6223 2.3440-3.3767 3.7078-4.6214-7.48100.6488 1.2391-0.68240.719414.58128.0984-0.28869.43398.9724 2.1373 1.8200 4.07770.6576 1.34020.33536.3939-4.4008 5.766413.258512.2587 4.2684 3.5594-1.3319-3.34430.5190 2.3998-0.43269.057323.966115.2992 1.347813.43737.1815-4.4588 1.6662-0.13730.0004 2.57330.834411.4467 4.42679.763014.592813.4623 5.5464 2.8207-3.4750-5.88430.4035 3.21320.02276.483814.062918.9339-0.1477 3.2511 1.4494-5.3889 6.0082-2.5120-0.1705 1.36830.158011.0415 5.249918.988212.351411.3864 2.9635-0.3405 2.5416-7.02420.8938 3.3919-0.1992-8.1637-4.379112.2235-11.4385-9.7034-0.2974 3.898924.0206 3.0020 1.5539-2.0613-0.99200.7950-0.688822.7813 6.14767.4672 1.28079.685419.7158-2.5218 1.2121 1.3463-1.4083-12.3058-16.6024-1.1556-26.0227-21.035112.2561 2.310031.1588 6.6065 4.0805-5.2421-0.5402-0.7404-5.134117.9579-8.2207-2.741110.1118 3.206330.4697-0.9281 3.8011-0.7007-0.8042-9.2579-12.3163-8.8146-26.3730-18.155113.4581 3.670114.1206 5.4663 3.3255-4.84540.4390-0.8366-12.096315.2941-16.3124-10.543617.94210.474632.5788-0.9355 5.4776-2.2836-0.4781-5.1605

-17.2410

-7.6056

-6.3285

-13.2630

11.1162

1.3383

-0.7667

4.6716

3.1528

-3.5996

0.8221

然后,对待识别语音信号做语音规整,得到相应的特征参数矩阵;最后,通过Matlab 编写bp 函数(具体程序见附录7.7),对规整后的语音信息参数值做模式识别。4.3问题二的模型建立与求解

理解问题描述我们得到:手机运营商想利用语音机器人作为客服,处理查询话费余额、查询套餐余量、查询最新优惠活动等,只要用户录制一段语音发送给手机运营商的客服机器人,机器人通过语音的内容完成应答。其中不需要考虑断句以及返回给用户的形式。

本文利用软件工程中“系统”的概念,结合上述描述,提出“语音识别系统”。并将上面的描述作为“语音识别系统”的需求分析,结合4.2中语音识别的各个环节,我们将端点检测、特征提取、语音识别作为该系统的三个子模块。利用软件工程中面向对象(OOD)的分析方法,用户是实体,三个子模块是服务,用UML 画出该系统的顺序图,如图13所示。

图14“查询话费余额”样本波形

图14“1”样本波形

图15其他语音波形图

Step2:分别对语音样本进行端点检测,并提取其MFCC特征参数。

图16MFCC 参数

以上分别是第一部分实验中样本1、样本2、样本3、样本4的MFCC 参数。从图像变化态势及我们可以初步分析样本4与样本1匹配。

Step3:利用神经网络模型进行模式匹配,并分析语音识别模型正确率。设模型识别正确率用r 表示、待测养样本总数为n 、语音样本匹配正确数为m ,那么:

%100×=

n

m

r 在这里我们利用4.3中由Matlab 编写的bp 函数(具体程序见附录7.7),对测试样本进行语音识别,最终识别结果如下表所示:

表6识别结果

测试样本识别结果理想结果

2013114116557158559551000

由上表可知,模型的识别准确率%75=r 。

5.模型的评价及推广

5.1模型的评价

模型的优点:(1)本文分别对语音识别的各个环节建模分析,对于端点检测

采用“双门限检测法”、对于特征提取采取MFCC 参数表征、对于模式识别采用神经网络算法进行建模,方法明确、思路清晰。(2)充分利用Matlab 编程软件,编写了大量的程序对问题进行分析,结果真实准确。(3)使用图表呈现计算结果,一目了然,真实准确。(4)模型验证阶段设计了试验说明,论文的实践性较强。

模型的缺点:(1)语音模式匹配环节,为了更好地利用神经网络算法,本文对语音特征参数进行规整,舍弃了部分数据,对识别精度对造成影响。(2)对语音特征参数MFCC数据的挖掘有待加强。

5.2模型的推广

人工神经网络(Artificial Neural Networks,ANN)是由大量结构简单的神经元相互连接,模拟人类大脑神经系统处理信息的方式,对输入信息进行并行处理和非线性映射的网络系统。

本文利用神经网络算法解决模式识别问题,所以该算法可以应用到关于识别的问题当中,比如语音特征信号的分类,人脸朝向识别等问题。

6.参考文献

[1]付丽辉,语音识别关键性技术的Matlab仿真实现,仪器仪表用户,17(3):31至33,2010.

[2]张震宇,基于Matlab的语音端点检测实验研究,浙江科技学院学报,19(3):197至201,2007.

[3]张仁志,基于短时能量的语音端点检测算法研究,语音技术,34(6):52至54,2005.

[4]赵力,语音信号处理,北京:机械工业出版社,2003

[5]张晶,范明,冯文全,董金明,基于MFCC参数的说话人特征提取算法的改进,语音技术,32(7):76至78,2001.

[6]王让定,柴佩琪,语音倒谱特征的研究,计算机工程,29(13):31至33,2003.

[7]詹新明,杨灿,基于Matlab和BP网络的语音识别系统,微计算机信息,25(9):176至178,2009.

[8]何强,何英,Matlab扩展编程,北京:清华大学出版社,2002.

[9]郑人杰,马素霞,殷人民,软件工程概论,北京:机械工业出版社,2009.

[10]用户手册编写规范,百度文库,https://www.doczj.com/doc/e215182047.html,/view/81fc4d61ddccda38376bafe4.html

7.附录

7.1语音信息采集Matlab源程序

%语音信号采集

n=5*8000;%采样总点数40000,采样频率8KHz,单声道,16位采样精度fs=8000;

ch=1;

y=wavrecord(n,fs,ch,'double')

plot(y);%语音信号波形

wavwrite(y,'实验1.wav')%把分析样本保存为"实验1.wav"文件

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

人工智能与语言识别

人工智能与语言识别 摘要:语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学。本文针时语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法。该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。 关键词:语言识别;神经网络;遗传算法;BP网络 Artificial Intelligence and Speech Recognition Abstract:Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science. This paper mainly studies the application of the BP neural network in the research of speech recognition.The training speed can be accelerated by the method and the recognition performance is also promoted. Key words:speech recognition;neural network;genetic algorithm;BP network 正文 一、语言识别的概述 随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。 二、语言识别的基本原理 语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程。 三、语音识别中的BP网络构造

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.doczj.com/doc/e215182047.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

2020年公需课程-人工智能技术与应用(一骨骼识别、二人脸识别、三步态识别、四虹膜识别、五语音识别)

人工智能技术与应用(练习一:骨骼识别) 1、(单选,10分)单人骨骼识别不需要包含如下处理过程() A 、关键点区分 B 、关键点检测 C 、关键点串联 D 、结果输出 答案:A 2、(单选,10分)以下哪项不属于目前常用的人体骨架关键点的定义方式() A 、18 个关键点 B 、14 个关键点 C、25 个关键点 D、7 个关键点 答案:D 3、(单选,10分) 以下哪种环境/ 条件有助于提升人体骨骼识别的准确率() A 、肢体遮挡 B 、光照良好 C 、观察视角变化 D 、衣服包裹严实 答案:B 4、(单选,10分)人体骨骼识别与哪项技术的关联程度最低() A 、区块链技术 B 、视频采集技术 C 、图像处理技术 D 、人工智能相关技术 答案:A 5、(单选,10分)以下哪项不是骨骼识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、骨骼关键点识别 答案:C 6、(单选,10分)以下哪项不属于造成多人骨骼识别较单人骨骼识别更具挑战的因素() A 、关键点区分性弱 B 、背景中的局部区域容易混淆 C 、人与人的重叠 D 、需串联的关键点个数增多 答案:D

7、(单选,10分)当前的骨骼识别技术不适用于以下哪个应用场景() A 、身份认证 B 、视频监控 C 、体感游戏 D 、运动员辅助训练答案:A 8、(单选,10分) 8. 以下哪家公司不属于人体骨骼识别领域的代表企业() A 、商汤科技 B 、旷视科技 C 、携程旅行网络科技 D 、凌感科技 答案:C 9、(单选,10分)人的头颈、肩部、手肘关节、手腕关节、髋关节、膝关节等可作为人体骨骼关键点。 A 、正确 B 、错误 答案:A 10、(单选,10 分)在自顶向下方法中,人体目标检测需要用方框标记出一块尽可能大的区域。 A 、正确 B 、错误 答案:B 人工智能技术与应用(练习二:人脸识别) 1、(单选,10分) 以下哪项不是人脸识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、匹配比对 答案:C 2、(单选,10分) 未来人脸识别的个人隐私防护不包含() A 、随意授权自己的人脸信息 B 、立法保障“脸权” C 、规范化人脸数据的使用方法 D 、打击隐私泄露行为 答案:A 3、(单选,10分) 以下哪项不属于生物识别技术() A 、人脸识别 B 、车牌识别 C 、掌纹识别 D 、语音识别 答案:B

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

语音识别技术概述

语音识别技术概述 摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。 关键词:语音识别;特征提取;模式匹配;模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础 语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几

人工智能语音识别发展报告

人工智能语音识别发展报告Report of Artificial I ntelligence Development

目录 1.语音识别 (3) 1.1.语音识别概念 (3) 1.2.语音识别发展历史 (4) 1.3.人才概况 (6) 1.4.论文解读 (8) 1.5.语音识别进展 (173)

语音识别 1.语音识别 1.1.语音识别概念 语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语 音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。 语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处 理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行 语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音 库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参 数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信 号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识 别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择 都有直接的关系。 实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式 识别过程相同,语音识别包括如图所示3 个基本部分。实际上,由于语音信息的复 杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。 图 6-1 语音识别系统框架 其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其 中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数 提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。自此,我国语音识别技术进入了一个新的发展阶段。 自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

语音识别技术论文

摘要:语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用,语音识别技术取得了很大的进步,许多产品已经得以实际的应用,但在其进一步的发展进程中,还有许多棘手的问题有待解决。 关键词:语音识别;动态时间规整算法;人工神经元网络 1 背景介绍 语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类 社会科学文化发展紧密相连。 语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的 技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。 2 发展历史 1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别 系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研 制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成 功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。 3 具体应用 随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发 出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别 在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。 在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动 语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

语音识别技术概述(一)

语音识别技术概述(一) 作者:刘钰马艳丽董蓓蓓 摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。 关键词:语音识别;特征提取;模式匹配;模型训练 Abstract:Thistextbrieflyintroducesthetheoreticalbasisofthespeech-identificationtechnology,itsmo deofclassification,theadoptedkeytechniqueandthedifficultiesandchallengesithavetoface.Then,the developingprospectionandapplicationofthespeech-identificationtechnologyarediscussedinthelast part. Keywords:Speechidentification;CharacterPick-up;Modematching;Modeltraining 一、语音识别技术的理论基础 语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。 (一)语音识别单元的选取 选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 (二)特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。 线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

(完整版)基于单片机的语音识别系统好毕业设计论文

基于单片机的语音识别系统

摘要 近几年来,智能化和自动化技术在玩具制造领域中越来越被关注。本文介绍一种智能化小车控制系统的设计——语音控制小车。语音控制小车是基于SPCE061A的代表性兴趣产品,它配合61板推出,综合应用了SPCE061A的众多资源,小车采用语音识别技术,可通过语音命令对其行驶状态进行控制。首先介绍了SPCE061A的主要性能及其引脚的功能;接着完成了电源电路、复位电路、键盘电路、音频输入电路,音频输出电路和无线控制电路等硬件功能模块的设计。软件设计模块能实现智能小车的前进、后退、转向、停止、避障、表演动作以及循线等功能。测试表明,在环境背景噪音不太大,控制者的发音清晰的前提下,语音控制小车的语音识别系统能对特定的语音指令做出智能反应,做出预想中的有限的动作 关键词:spec061a 语音识别驱动电路声控小车智能反应

Abstract In recent years, Intelligent and automation technology in the toy manufacture paid more and more attention.Introduce an intelligent vehicle control system design. SPCE061A program the system to single-chip, based on implementation of the car's voice control, This paper introduces the and implementation. The SPCE061A's main characters and pin function are introduced firstly. Completed the power circuit, reset circuit, keyboard circuitry, audio input circuits, audio output circuit and control circuit of wireless of function modules. Software design module can achieve smart car forward, backward, turn, stop, obstacle avoidance, performing actions, as well as on-line functions. Test showed that the background noise in the environment is not too great, control persons under the premise of clear pronunciation, voice control car speech recognition systems for specific voice commands to make intelligent reaction, limited to the desired action. Keywords: spec061a 、voice recogniton、Driving circuit、Voice control dolly、intelirent response

相关主题
文本预览
相关文档 最新文档