当前位置：文档之家› 语音识别技术的研究与发展

语音识别技术的研究与发展

王敏妲时间:2010年02月26日字体: 大中小

关键词:语音识别模式识别特征提取人机交互

摘要：回顾了语音识别技术的发展历史,描述了语音识别系统的基本原理,介绍了语音识别的几种基本方法,并对语音识别技术面临的问题和发展前景进行了讨论。

关键词：语音识别；模式识别；特征提取；人机交互

1 语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几

乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别，从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子，例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。

2 语音识别的研究历史及现状

语音识别的研究工作始于20世纪50年代，1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年，Rorgie和Forge采用数字计算机识别英文元音和孤立词，从此开始了计算机语音识别。60年代，苏联的Matin等提出了语音结束点的端点检测，使语音识别水平明显上升；Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入：HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年，FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后，语音识别技术进一步成熟，并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的 ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语

语音识别水平。

进入21世纪，随着消费类电子产品的普及，嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite 语音芯片等，这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上，目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK，这些软件都是面向非特定人、大词

汇量的连续语音识别系统。

我国语音识别研究一直紧跟国际水平，国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项，并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉

语语音人机对话系统，其准确率和系统响应率均可达90%以上。

3 语音识别系统

语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。

(1)预处理模块：对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行

语音信号的端点检测、语音分帧以及预加重等处理。

(2)特征提取模块：负责计算语音的声学参数，并进行特征的计算，以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测（LPC)参数、线谱对（LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测（PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中，Mel频率倒谱系数（MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。

(3)训练阶段：用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，建立或修改训

练语音的参考模式库。

(4)识别阶段：将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较，并结合

一定的判别规则和专家知识（如构词规则，语法规则等)得出最终的识别结果。

4 语音识别的几种基本方法

当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方

法。

4.1 动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良

好性能。

4.2 矢量量化(VQ)

矢量量化是一种重要的信号压缩方法，主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每1帧，或有k个参数的每1参数帧，构成k维空间中的1个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的

运算量，实现最大可能的平均信噪比。

4.3 隐马尔可夫模型(HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言

语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

HMM模型可细分为离散隐马尔可夫模型(DHMM)和连续隐马尔可夫模型(CHMM)以及半连续隐马尔可夫模

型(SCHMM)等[3]。

4.4 人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统，它模拟了人类神经元活动的原理，最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此，人们尝试研究基于HMM和ANN的混合模型，把两者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是目前研究的一个热点。

4.5 支持向量机（SVM)

支持向量机是应用统计学习理论的一种新的学习机模型，它采用结构风险最小化原理(SRM)，有效克服了传统经验风险最小化方法的缺点，在解决小样本、非线性及高维模式识别方面有许多优越的性能[4]。其基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。目前，统计学习理论和支持向量机

也是国际上机器学习领域的研究热点。

5 语音识别所面临的问题

尽管语音识别取得很大成功，但是距离真正的人机自由交流还有很大的距离。例如，目前计算机还需要对用户做大量训练才能更准确识别，用户的语音识别率也并不是尽如人意。主要难题有以下几个方面：

(1)识别系统的适应性差。主要体现在对环境依赖性强，特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中，还有许多具体问题需要解决。例如，识别速

度、拒识等问题，还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。

(3)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，

还需要进一步研究。

面对上面的困难，语音识别技术要做到真正成功，在任何环境中都能人机进行自由地对话，不仅需要语音识别基础理论的突破，更需要大量的实际工作的积累。

6 语音识别技术的前景展望

语音作为当前通信系统中最自然的通信媒介，语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展，语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译，可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品(如声控拨号电话、语音记事本等)的应用，基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展，语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利[5]，其应用和经济、社会效益前景非常良好。

参考文献

[1] 王炳锡，屈丹，彭煊.实用语音识别基础[M].北京：国防工业出版社，2005.

[2] 刘么和，宋庭新.语音识别与控制应用技术[M].北京：科学出版社，2008.

[3] 詹新明，黄南山，杨灿.语音识别技术研究进展[J].现代计算机，2008，291(9)：43-45.

[4] 柳春.语音识别技术研究进展[J].甘肃科技，2008，24(9)：41-43.

[5] 高新涛，陈乖丽.语音识别技术的发展现状及应用前景[J].甘肃科技纵横，2007，36(4)：13.

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策在人际交往中，言语是最自然并且最直接的方式之一。随着技术的进步，越来越多的人们也期望计算机能够具备与人进行言语沟通的能力，因此，语音识别这一技术也越来越受到关注。尤其，随着深度学习技术应用在语音识别技术中，使得语音识别的性能得到了显著提升，也使得语音识别技术的普及成为了现实。语音识别技术自动语音识别技术，简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT">60年代计算机的应用推动了语音识别技术的发展，提出两大重要研究成果：动态规划(Dynamic Planning，DP)和线性预测分析(Linear Predict，LP)，其中后者较好的解决了语音信号产生模型的问题，对语音识别技术的发展产生了深远影响。 70年代，语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding，LPC)被Itakura成功应用于语音识别；Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法，有效的解决了语音信号的特征提取和不等长语音匹配问题；同时提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。在同一时期，统计方法开始被用来解决语音识别的关键问题，这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

语音识别

语音识别技术概述语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。历史早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由A T&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。[1]。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。模型目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入

语音识别技术的发展与未来

语音识别技术的发展与未来与机器进行语音交流，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。在1952年的贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后，并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。同时，语音识别在研究思路上也发生了重大变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外，业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。上世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。比如，DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作。进入上世纪90年代，DARPA计划仍在持续进行中，其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年，中国科学院声学所开始了计算机语音识别。进入上世纪80年代以来，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下，国内许多单位纷纷投入到

智能计算机论文参考文献范例

https://www.doczj.com/doc/a014233080.html, 智能计算机论文参考文献一、智能计算机论文期刊参考文献 [1].当代智能计算机的语义困境——兼论本体论语义学. 《武汉科技大学学报《电子测试》.2014年10期.樊丽.杨宏.鱼莹. [5].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年3期. [6].关于智能计算机. 《集宁师专学报》.2004年3期.刘宝娥. [7].基于deeplearning的语音识别. 《电子设计工程》.2015年18期.张炯.陶智勇. [8].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年1期. [9].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2015年4期. [10].基于Excel构建智能计算机考试系统. 《信息技术》.被中信所《中国科技期刊引证报告》收录ISTIC.2012年3期.甘伟明.潘东梅.白晓丽.刘兵兵. 二、智能计算机论文参考文献学位论文类 [1].中学生身体运动智能计算机情境化测评方法研究. 作者：李静.教育学;教育技术学南京师范大学2012（学位年度） [2].中学生视觉空间智能计算机情境化测评方法的研究.被引次数：1 作者：张丽霞.教育学;教育技术学南京师范大学2011（学位年度） [3].智能计算机配棉与纱线质量预测系统的研究与开发. 作者：袁静.纺织工程天津工业大学2012（学位年度） [4].基于网络的智能计算机辅助教学系统. 作者：韩静.计算机应用技术华东师范大学2005（学位年度）

https://www.doczj.com/doc/a014233080.html, [5]HPP体系结构下TCP/IP协议支持的研究与实现.被引次数：1 作者：康炜.计算机系统结构中国科学院计算技术研究所2007（学位年度） [6]模糊逻辑、神经网络与智能计算机研究. 作者：刘增良.计算机科学与技术北京航空航天大学1993（学位年度） [7]基于角色理论的情绪常识模型及应用研究. 作者：叶潇.计算机软件与理论华东理工大学2005（学位年度） [8].基于.NET技术的智能计算机考试系统. 作者：施长云.软件工程东南大学2015（学位年度） [9]智能计算机网络规划系统的设计与实现. 作者：梁伟晟.计算机软件与理论中山大学2000（学位年度） [10]智能计算机辅助教学系统探索与制作. 作者：刘常青.自动控制理论及应用西安电子科技大学1998（学位年度）三、相关智能计算机论文外文参考文献 [1]IntelligentComputerAidedInstructionModelingandaMethodtoOptimiz eStudyStrategiesforParallelRobotInstruction. TanD.P.JiS.M.JinM.S.《IEEETransactionsonEducation》,被EI收录EI.被SCI收录SCI.20133 [2]Aparadigmforhandwritingbasedintelligenttutors. Anthony,L.Yang,J.Koedinger,K.R.《Internationaljournalofhumancomputerstudies》,被EI收录EI.被SCI收录SCI.201211 [3]Intelligentautomationofdesignandmanufacturinginmachinetoolsusi nganopenarchitecturemotioncontroller. https://www.doczj.com/doc/a014233080.html,vanya《JournalofManufacturingSystems》,被EI 收录EI.被SCI收录SCI.20131 [4]Anadaptationalgorithmforanintelligentnaturallanguagetutoringsy stem. AnnabelLathamKeeleyCrockettDavidMcLean《Computers&education》,被EI收录EI.被SCI收录SCI.2014Feb. [5]GuestEditors''Introduction:IntelligentSystemsforInteractiveEnt ertainment.

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别技术研究

基于Google技术的语音识别实现前言语音识别技术在手机上应用得相当广泛，我们日常最频繁的沟通方式是语音，在手机应用中，大部分是通过硬件手动输入，目前这依然是主要与手机互动的方式，然而对于像手机这种小巧的移动设备来说，使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是，Google 推出了强大的语音搜索业务。2008年11月，Google的语音搜索已经在iPhone平台上线，而Android在1.5 SDK版本中也加强了语音识别功能，并应用到了搜索功能上，这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术，我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一：使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.doczj.com/doc/a014233080.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量：

语音信号识别及处理中英文翻译文献综述

语音识别在计算机技术中，语音识别是指为了达到说话者发音而由计算机生成的功能，利用计算机识别人类语音的技术。（例如，抄录讲话的文本，数据项;经营电子和机械设备;电话的自动化处理），是通过所谓的自然语言处理的计算机语音技术的一个重要元素。通过计算机语音处理技术，来自语音发音系统的由人类创造的声音，包括肺，声带和舌头，通过接触，语音模式的变化在婴儿期、儿童学习认识有不同的模式，尽管由不同人的发音，例如，在音调，语气，强调，语调模式不同的发音相同的词或短语，大脑的认知能力，可以使人类实现这一非凡的能力。在撰写本文时（2008年），我们可以重现，语音识别技术不只表现在有限程度的电脑能力上，在其他许多方面也是有用的。语音识别技术的挑战古老的书写系统,要回溯到苏美尔人的六千年前。他们可以将模拟录音通过留声机进行语音播放，直到1877年。然而，由于与语音识别各种各样的问题，语音识别不得不等待着计算机的发展。首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来: I went to the store yesterday昨天我去商店。单词也可以混合,用Whadd ayawa吗?这代表着你想要做什么。第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音而定。但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。字母C可以有相同的字母K的声音，如蛋糕，或作为字母S，如柑橘。此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织，有不同的口音。例如“水”这个词,wadder可以显著watter，woader wattah等等。每个人都有独特的音量——男人说话的时候,一般开的最低音，妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响，当一个人感冒的时候，就要考虑发音的变化。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：（2）声学模型与模式匹配（识别算法）（3）语义理解：计算机对识别结果进行语法、语义分析。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。现代语音识别技术研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。语音识别应用的特点 1.语音识别系统必须覆盖的功能包括：（1）语音识别系统要对用户有益（希望它是能检测到的）。例如提高生产率，容易使用，更好的人机界面，或更自然的信息交流模式。（2）语音识别系统要对用户“友好”。这种“友好”的含义是：用户在和系统进行语音对话时感到舒适；系统的语音提示既有帮助，又很亲近。（3）语音识别系统必须有足够的精度（4）语音识别系统要有实时处理能力；例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理有以下四种方式可以处理这个问题。（1）错误弱化法。这种处理仅仅花费用户很少一点时间，对用户几乎没什么其它不利影响。（2）错误自检纠正法系统利用已知任务的限制自动地检测并纠正错误。（3）确认或多层次判定

（4）拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定，而是将其转给人工座席。在很多情况下，语音识别技术可以充分发挥出RFID的潜能： 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益语音识别技术在邮件分拣中的应用现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是，并不是所有的邮件都能上分拣机处理，那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件，仍需要大量的劳动力。由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力，并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言，这样，语音技术就成为世界性的产品。以英语语音识别系统为例，系统建立了36个可识别字符26个字母加上0～9的10个数字，同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。对于大公司的邮件收发中心来说，使用MailCode公司的Spell-It软件技术，分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如：碰到了寄给Joseph Schneider的邮件，操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。姓名和邮箱编码：Jennifer Schroeder, 软件工程部；Joseph Schneider, 技术操作部；Josh Schriver, 技术操作部，因为这三个姓名全都符合（J,S,C,H）的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的，就可以把邮件投入Joseph Schneide的信箱了。邮局要把邮件按投递路线分发，分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统，这样就大大方便了分拣工作。例如，有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术，分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音，如表2所示，数据库就会给出所有可能和这几

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

语音识别文献综述

噪音环境下的语音识别 1．1引言随着社会的不断进步和科技的飞速发展，计算机对人们的帮助越来越大，成为了人们不可缺少的好助手，但是一直以来人们都是通过键盘、鼠标等和它进行通信，这限制了人与计算机之间的交流，更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机，让计算机能听懂人的语言，理解人们的意图，人们开始了对语音识别的研究．语音识别是语音学与数字信号处理技术相结合的一门交叉学科，它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 1，2语音识别的发展历史和研究现状 1．2．1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代，日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题，开发了一系列的时问归正方法，明显地改善了识别性能。与此同时，苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题，这是动态时间弯折算法DTW(dymmic time warping)的基础，也是其连续词识别算法的初级版．20世纪70年代，人工智能技术走入语音识别的研究中来．人们对语音识别的研究也取得了突破性进展．线性预测编码技术也被扩展应用到语音识别中，DTw也基本成熟。 20世纪80年代，语音识别研究的一个重要进展，就是识别算法从模式匹配技术转向基于统计模型的技术，更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model，删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代，人工神经网络(artificial neural network，ANN)也被应用到语音识别的研究中，并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成熟，并走向实用。许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。当今，基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中，如支持向量机(support vector machine，SVM)技术、进化算法(evolutionary computation)技术等。

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

开题报告

山东科技大学本科毕业设计（论文）开题报告题目基于yeelink和树莓派的智能家居管理系统设计与实现学院名称计算机科学与工程学院专业班级网络工程2013级学生姓名 * 学号 * 指导教师 * 填表时间：二0一七年三月二十日

填表说明 1.开题报告作为毕业设计（论文）答辩委员会对学生答辩资格审查的依据材料之一。 2.此报告应在指导教师指导下，由学生在毕业设计（论文）工作前期完成，经指导教师签署意见、相关系主任审查后生效。 3.学生应按照学校统一设计的电子文档标准格式，用A4纸打印。装订在左侧。 4.参考文献不少于8篇，其中应有适当的外文资料（一般不少于2篇）。 5.开题报告作为毕业设计（论文）资料，与毕业设计（论文）一同存档。

三、文献综述（国内外研究情况及其发展）智能家居行业发展的潜力吸引众多资本加入，包括传统硬件企业、互联网企业、房地产家装企业纷纷抢滩智能家居市场。谷歌、苹果、微软、三星、华为、小米、魅族等众多科技公司入局，在其努力之下，全球智能家居行业前景看好。同时，移动通信技术的不断发展不断地给智能家居行业提供强而有力的技术支持，包括5G技术、蓝牙5、下一代wifi标准等都有明确的商业化时间表。越来越多的新技术涌现出来，与智能家居的融合将产生强大的合合力，如人工智能技术、语音识别技术、深度学习技术等，他们都不断发力智能家居行业，争取与智能家居技术深度融合。智能家居产品将会越来越普及，分类越来越细化，所涉及的产品种类会更多。远程控制会有一定的发展，但终究会被完整的智能家居系统所代替。智能家居市场的未来广阔，但智能家居平台市场大战也是必不可少的。国外状况：自从世界上第一幢智能建筑1984年在美国出现后，美国、加拿大、欧洲、澳大利亚和东南亚等经济比较发达的国家先后提出了各种智能家居的方案。智能家居在美国、德国、新加坡、日本等国都有广泛应用。国内状况：智能家居作为一个新生产业，处于一个导入期与成长期的临界点，市场消费观念还未形成，但随着智能家居市场推广普及的进一步落实，培育起消费者的使用习惯，智能家居市场的消费潜力必然是巨大的，产业前景光明。正因为如此，国内优秀的智能家居生产企业愈来愈重视对行业市场的研究，特别是对企业发展环境和客户需求趋势变化的深入研究，一大批国内优秀的智能家居品牌迅速崛起，逐渐成为智能家居产业中的翘楚！智能家居至今在中国已经历了近12年的发展，从人们最初的梦想，到今天真实的走进我们的生活，经历了一个艰难的过程。智能家居最初的发展主要以灯光遥控控制、电器远程控制和电动窗帘控制为主，随着行业的发展，智能控制的功能越来越多，控制的对象不断扩展，控制的联动场景要求更高，其不断延伸到家庭安防报警、背景音乐、可视对讲、门禁指纹控制等领域，可以说智能家居几乎可以涵盖所有传统的弱电行业，市场发展前景诱人，因此和其产业相关的各路品牌不约而同加大力度争夺智能家居业务，市场渐成春秋争霸之势。

语音识别开题报告

青岛大学毕业论文(设计)开题报告题目：孤立词语音识别的并行编程实现学院：自动化工程学院电子工程系专业：通信工程姓名：李洪超指导教师：庄晓东 2010年3月22日

一、文献综述语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别，从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用伴随着语音识别技术的不断发展，诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统，能听能讲普通话、广东话和英语，还可以高度适应不同的口音，因而可以广泛适用于不同文化背景的使用者，尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率，降低运营成本，并为用户提供更便捷的增值服务，我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统，并成为电子商务发展的新趋势，为整个信息产业带来无限商机。目前，飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心，SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库，尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受语音合成技术把可视的文本信息转化为可听的声音信息，其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言，全球有十几亿人使用中文，其市场需求、应用前景和经济效益等可见一斑。

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

关于智能家居的研究综述[文献综述]

文献综述通信工程关于智能家居的研究综述摘要：本文主要对智能家居的相关技术及发展进行了综述。首先介绍了智能家居的概念，然后对其市场环境及应用功能进行了阐述，再比较了分别基于PC机、单片机、嵌入式架构系统的智能家居网络控制器，并对远程控制技术中的有线技术与无线技术进行了对比，论述了其中GSM技术和Zigbee技术。文中最后也对未来智能家居发展进行了预测。关键词：智能家居；架构系统；网络控制器；Zigbee技术一、智能家居概述 20世纪80年代末，智能家居原型在美国产生，被称为Smart Home。因其布线简单、功能灵活、扩展容易而被人们广泛接受和应用。经过这几十年的发展，智能家居已经形成一套成熟的理论体系，基于各种技术的智能家居系统更是层出不穷，使人们享受到了舒适、便利和安全的家居生活。那么什么是智能家居呢？智能家居是以家为平台，兼备自动化、智能化于一体的高效、舒适、安全、便利的住宅环境。智能家居网络控制系统是一个完整的集家庭通信、家庭设备互联和控制、家庭安全防范等功能于一体的网络系统[1]。当然其功能也随着科技的进步正变得越来越新颖与强大。二、智能家居的现状及应用随着人们对高质量生活水平的要求和消费电子技术的发展,传统的家居控制方式已经成为家庭信息智能化进程的绊脚石。所以,开发更加先进、智能的家居控制系统在满足家居生活更加舒适、安全、有效的同时也迎合了人们追求个性化、自动化、智能化、高档化的心理需求。据有关机构统计表明,在2006 年,国际智能家居产品销售额达到184 亿美元,2008 年高达648 亿美元。目前,全球家庭智能化市场正在以8% 的速度增长[2]。中国人首次接触“智能家居”一词是在20 世纪90 年代中期,经过几年的发展,我国在智能家居技术领域与欧美国家的差距逐渐减小, 目前, 仅滞后2 - 3 年的时间, 已有包括海尔、TCL、清华同方等大型企业在内的数千家中国企业正日益成为此行业中的生力军[3]。

语音识别调研

语音识别调研报告一、语音识别简介语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 它是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等二、语音识别发展史早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展.。具体发展历史： ①1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。 ②1960年英国的Denes等人研究成功了第一个计算机语音识别系统。 ③大规模的语音识别[3] 研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。 ④进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM）的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要：本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ，微软Specch SDK5语音合成，和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话，MS-AGENT,语音合成，语音识别，网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

语音识别技术论文

摘要：语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用，语音识别技术取得了很大的进步,许多产品已经得以实际的应用，但在其进一步的发展进程中，还有许多棘手的问题有待解决。关键词：语音识别；动态时间规整算法；人工神经元网络 1 背景介绍语言是人类特有的功能,是人们思维最重要的寄托体，是人类交流最主要的途径。语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。语音识别技术是让机器接收，识别和理解语音信号，并将其转换成相应的数字信号的技术。它是一门交叉学科，涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。 2 发展历史 1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统，标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术（Liner Predictive）等重要成果。20世纪70年代，语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代，近年来发展迅速，并取得了一系列的成果。 3 具体应用随着计算机技术、模式识别等技术的发展，适应不同场合的语音识别系统相继被开发出来，语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来，语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。在许多政府部门、商业机构，语音识别技术的应用，可免除大量操作人员的重复劳动，既经济又方便。如：语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统，112、114、119等信息查询系统)等。许多特定环境下，如工业控制方面，在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方，均可通过语音发出相应的控制命令，让设备完成各种工作。