当前位置:文档之家› 语音识别(人机交互小论文)

语音识别(人机交互小论文)

语音识别(人机交互小论文)
语音识别(人机交互小论文)

计算机科学与信息工程学院《人机交互》课程

小论文

2014年6月

语音识别

1、语音识别的背景与意义

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。

2、语音识别系统

语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。

(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。

(2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。

(3)训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

(4)识别阶段:将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。

3、语音识别的几种基本方法

当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

(1) 动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。

(2) 矢量量化(VQ)

矢量量化是一种重要的信号压缩方法,主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k 维空间中的1个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。

(3) 隐马尔可夫模型(HMM)

HMM是对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

(4 )人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统,它模拟了人类神经元活动的原理,最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间

归正性能。因此,人们尝试研究基于HMM和ANN的混合模型,把两者的优点有机结合起来,从而提高整个模型的鲁棒性,这也是目前研究的一个热点。

(5) 支持向量机(SVM)

支持向量机是应用统计学习理论的一种新的学习机模型,它采用结构风险最小化原理(SRM),有效克服了传统经验风险最小化方法的缺点,在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。

4、语音识别所面临的问题

(1)识别系统的适应性差。主要体现在对环境依赖性强,特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题需要解决。例如,口语中的重复、改正、强调、倒叙、省略、拖音、韵律、识别速度、拒识等问题,还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。(3)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需要进一步研究。

(4)语音识别的方言和口音问题

(5)信道问题:我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。

(6)语音合成:语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。

3、语音识别的应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识

别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

4、语音识别技术的前景展望

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。

智能机器人的语音识别

智能机器人的语音识别 语音识别概述 最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。 语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。 语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。经过参数估计以后,这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词,其精确度是可以评估的。整个过程如图一所示。 图1 语音识别系统的模块图

3、理论与方法 从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。这些信号特征构成了语音信号最基本的光谱结构。然而,在语音信号中,这些非线形信息不容易被当前的特征提取逻辑方法所提取,所以我们使用分型维数来测量非线形语音扰动。 本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。 3.1线性预测倒谱系数 线性预测系数是一个我们在做语音的线形预分析时得到的参数,它是关于毗邻语音样本间特征联系的参数。线形预分析正式基于以下几个概念建立起来的,即一个语音样本可以通过一些以前的样本的线形组合来快速地估计,根据真实语音样本在确切的分析框架(短时间内的)和预测样本之间的差别的最小平方原则,最后会确认出唯一的一组预测系数。 LPC可以用来估计语音信号的倒谱。在语音信号的短时倒谱分析中,这是一种特殊的处理方法。信道模型的系统函数可以通过如下的线形预分析来得到: 其中p代表线形预测命令,,(k=1,2,… …,p)代表预测参数,脉冲响应用 h(n)来表示,假设h(n)的倒谱是。那么(1)式可以扩展为(2)式: 将(1)带入(2),两边同时,(2)变成(3)。 就获得了方程(4):

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

人机交互的未来论文(精)

虚拟的现实 ----人际交互的未来 序言:回顾人类的历史,人类生存空间中的信息最开始是存贮在纸张、大脑、物体等介质上。是计算机构建了一个01空间,它像一个有强大引力的黑洞,将人类生存空间中的各式各样的信息都逐渐吸进去变成010101,黑洞用这些010101通过一些基本运算产生新的010101, 并可将这些010101组成一些虚构的图象呈现在人们面前,甚至将人类生存的世界也开始建成010101的代码. 人机交互研究已经历了两个界限分明的时代,第一代是以文本为基础的交互, 如菜单、命令、对话等,难用且不灵活。第二代则是直接操作界面,它引出更自然的视觉通信交互。是交互多媒体集成方法,需要大量使用语言,自然语言和高级图形,也可使用其它交互媒体,如人的动作、手势和三维图像等. 随着虚拟技术的发展,在某一天图形用户界面也会被新的虚拟界面淘汰,新一代的用户界面将向用户提供身临其境和多感觉通道体验,在你烦恼的时候,想吹海风、听海浪、看雪山、小桥流水、将卧室的窗户推开,而不论你在哪里!计算机都将会为你完成这一切,计算机模拟人类感觉的世界而生成一种世界,这里的“世界”是指具有真实感的立体图形,它既可以是某种特定现实世界的真实再现,也可以是纯粹构想的世界。操作者可以通过视觉、听觉、触觉、力觉等与之交互,从而能产生“身临其境”场景. 简介:这种虚拟的现实是以用户对界面的需求变化为出发点,使用户界面的外在形式和内部机制能符合不同用户的需要,这就是以用户为中心的设计思想。非特定人的连续语音识别技术将使计算机能理解人们的要求,是一种重要的输入界面和手段。现在我们已经有的鱼眼技术使屏幕观察(或光标位置附近的内容被放大,便于用户观察。在传统的人机系统中,人被认为是操作者,人去适应机器;在一般的人机系统中,人被称为用户,能与机器对话,但无主动控制能力;而在虚拟现实系统中,人才是主动的参与者,机器将对人的各种动作做出反应。

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

谈谈自己对人机交互的认识

中南林业科技大学课程论文谈谈自己对人机交互系统的认识 注:对号:正确、完整、详细、合理 半对号:部分正确、不完整、不详细、基本合理 错号:错误、缺失、较差 抄袭一票否决

谈谈自己对人机交互的认识 人机交互界面作为一个独立的、重要的研究领域受到了世界各计算机厂家的关注。并成为90年代计算机行业的又一竞争领域。从计算机系统的发展过程来看,人机交互界面技术还引导了相关软硬件技术的发展,是新一代计算机系统取得成功的保证。80年代已来,计算机的软件和硬件技术取得了较大的发展,同时,计算机的使用者也从计算机专家迅速扩大到了广大未受过专门训练的普通用户,由此极大地提高了用户界面在系统设计和软件开发中的重要性,强烈地刺激了人机交互界面的进步。人-计算机的交互作用是通过用户界面来实现的。 我国在人机界面方面的设计与国际同类研究相比还存在较大差距。目前的研究仅仅着重于支持界面的软件和硬件,对界面本身还缺少深入的研究,用户界面的设计还没有成为软件设计中独立的一部分,也缺少新的人机界面设计技术。而另一方面,计算机科学的发展和计算机的普及应用却对人机界面的研究提出了越来越高的要求。 进入九十年代计算机软件开发已进入了以开发软件工具和建立软件开发环境为目标的时代。作为支持人机交互软件开发环境的用户界面管理系统UIMS正日益受到人们的关注和重视。今后UIMS将有可能进入各类实际软件开发环境,成为继DBMS之后的又一个重要的软件开发环境和工具。 根据当前发展情况,大概有一个现状和一个趋势能看得到,拿来和大家分享一下。HCI是偏向应用的,本质上还是多学科交叉的工程应用技术领域。从商业应用来看,HCI能做的方面有:软件、硬件、交互环境、互联网、生活应用、集成交互系统等。简单举例:软件,包括优良综合(功能)应用体验和用户界面硬件,包括脑波仪器、眼动仪、感应器(sensor)、移动通讯设备、信息终端、通用电子数码产品、等交互环境,如虚拟现实、三维模拟场景、民用交通工具驾驶环境、军用飞行器/车辆/设备操纵环境、等互联网,包括网站的设计和功能,用户体验的提升和评估,网络产品的用户体验,互联网与通讯网与人际网络的重合研究,等生活应用,包括智能住宅(Smart Home),以及一些家用装备的交互功能和体验设计集成交互系统,如车站港口机场的信息导航设计、功能和体验设计评估与监控,大型复杂操作环境的体系交互设计与评估等其实能做的特别多,当然成就与否在于我们有怎样的思路和做法,这还需要大量的实践来检验。 一个趋势就是,在未来的HCI领域,有可能会分化出这样几个主干方向:1.硬件设备,包括眼动仪、脑波仪、感应仪器、评测仪器、以及能够参与和辅助HCI研究与实践的装备 2.人文研究,毕竟HCI的终极目标是人类好的体验最大化,所有的分支和应用都离不开对用户的研究,所以研究使用者以及文化影响,甚至包括在三重网络(互联网、通讯网、人际关系网)逐渐重叠的趋势下一些新的演变和背后的本质等等 3.还一个就是设计方向,这主要集中在综合的用户体验设计,以及应用产品、服务的具体设计,还包括对设计的理论研究、与HCI其他因素的结合、框架体系、监测评估、流程方式、工具和方法等等。 在一个交互系统中,由于操作者的个人原因,经常会产生误操作,包括键入错误、数据输入错误等。同样,在用户编制的程序或设备连接时也可能会

语音识别机器人实验报告

开放实验项目报告 项目名称:语音识别机器人 专业 学生姓名 班级学号 指导教师 指导单位 2012/2013学年第一学期 一.设计背景

在科学日新月异的今天,电子设备的便捷化,人性化,智能化已成为不可逆转的潮流,而语音控制智能,更是其中研究发展的热点。凌阳SPCE061以其便捷的操作,可靠的性能,成为了各位电子爱好者的首选。本实验采用凌阳61板和运动小车(迷你型)模组设计的语音控制小车。凌阳板嵌入小车模型顶部。语音处理技术不仅包括语音的录制和播放,还涉及语音的压缩编码和解码、语音的识别等各种处理技术。本设计的语音控制小车,借助于SPCE061A在语音处理方面的特色,不仅具有前进、后退、左转、右转、停止等基本程序控制功能,而且还具备语音控制功能。 二.总流程图

三.主要模块 1、凌阳SPCE061是继μ’nSP?系列产品SPCE500A等之后凌阳科技推出的又一款16 位结构的微控制器。与SPCE500A不同的是,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,SPCE061A里只内嵌32K字的闪存(FLASH )。较高的处理速度使μ’nSP?能够非常容易地、快速地处理复杂的数字信号。因此,与SPCE500A相比,以μ’nSP?为核心的SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。 其性能如下: A、16 位μ’nSP?微处理器; B、工作电压(CPU) VDD 为2.4~3.6V (I/O) VDDH 为2.4~5.5V C、CPU 时钟:0.32MHz~49.152MHz ; D、内置2K 字SRAM; E、内置32K FLASH; F、可编程音频处理; G、晶体振荡器; H、系统处于备用状态下(时钟处于停止状态),耗电仅为2μA@3.6V ; I、2 个16 位可编程定时器/计数器(可自动预置初始计数值); J、2 个10 位DAC(数-模转换)输出通道; K、32 位通用可编程输入/输出端口; L、14 个中断源可来自定时器A / B ,时基,2 个外部时钟源输入,键唤醒;

基于DTW算法的语音识别系统实现

基于DTW算法的语音识别系统实现 作者:吴晓平, 崔光照, 路康 作者单位:郑州轻工业学院信息与控制工程系,河南省,郑州市,450002 刊名: 电子工程师 英文刊名:ELECTRONIC ENGINEER 年,卷(期):2004,30(7) 被引用次数:13次 参考文献(5条) 1.祝晓阳;卢中宁;崔光照数字信号处理芯片TMS320VC5402的语音接口设计[期刊论文]-郑州轻工业学院学报(自然科学版) 2002(02) 2.陈志鑫;郭华伟基于TMS320C54xDSP的实时语音识别系统[期刊论文]-半导体技术 2001(04) 3.张勇C/C++语言硬件程序设计 2003 4.楼顺天基于MATLAB的系统分析与设计 2000 5.赵力语音信号处理 2003 引证文献(13条) 1.石太佳.王晓君基于LPMCC的语音识别系统实现[期刊论文]-电声技术 2010(1) 2.舒鹏飞.颜卫.徐魁基于ADSP的语音识别系统[期刊论文]-科协论坛(下半月) 2009(7) 3.吕涛.刘百芬.燕贤青一种基于定点DSP的语音识别算法实现[期刊论文]-华东交通大学学报 2008(6) 4.张钢.朱铮涛.何淑贤应用DTW的语音(声纹)鉴别技术研究[期刊论文]-中国测试技术 2007(2) 5.白志强.唐永哲基于动态时间规整的飞控系统故障诊断[期刊论文]-计算机仿真 2007(1) 6.王佑民.江城.吴丰博用FPGA实现基于内容的音频检索系统[期刊论文]-中国制造业信息化 2007(17) 7.何燕玲.马建国声控机器人的特定人孤立词汉语识别系统设计[期刊论文]-西南科技大学学报(自然科学版)2006(1) 8.杨占军.杨英杰.王强基于DSP的语音识别系统的设计与实现[期刊论文]-东北电力大学学报(自然科学版)2006(2) 9.王振浩.杜凌艳.李国庆.高树永动态时间规整算法诊断高压断路器故障[期刊论文]-高电压技术 2006(10) 10.高丙朋基于DSP的小词汇量语音识别系统[学位论文]硕士 2006 11.贺翠英说话人识别研究及DSP实现[学位论文]硕士 2006 12.白志强飞行控制系统故障检测研究与仿真软件开发[学位论文]硕士 2006 13.田强基于Sphinx汉语语音评价系统探讨[学位论文]硕士 2005 本文链接:https://www.doczj.com/doc/3818419604.html,/Periodical_dzgcs200407007.aspx

语音识别论文

语音信号的分析与处理 摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人孤立词语音信号的识别。 关键词:语音信号;短时傅里叶;MFCC;动态时间规整 引言 语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数,才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1]。 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[2]。 在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。 MATLAB是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在MA TLAB基础上来进行语音信号参数的分析与语音信号的识别的。 一、语音信号的分析 1参数分析 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4]。本文仅涉及时域及频域参数分析。 2时域分析 进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5]。 2.1短时能量分析 短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信

人机交互论文

浅谈人机交互技术 一.概述 自计算机以一个庞然大物的笨拙体态出现直到现在,它已经越来越紧密地融入了人们的日常生活,并已经被公认为解决医疗、教育、科研、环保等各类重大社会问题不可或缺的重要工具。随着技术的飞速发展,人们在自然语言理解、多通道交互、笔式交互以及智能用户界面等方面开展了很多工作。由于计算机科学发展水平的限制、在计算机和人类之间还存在一条鸿沟。人机交互( Human Computer Interaction,HCI)。就是连接人和计算机的桥梁,它使人和机器的关系已从“人围着机器转”向“机器围着人转”的方向发展,变得更加自然、和谐。 人机交互是研究人与计算机之间通过相互理解的交流与通信,在最大程度上为人们完成信息管理,服务和处理等功能,使计算机正真成为人们工作学习的和谐助手的一门技术科学。鉴于它对科技发展的重要性,研究如何实现自然,便利和无所不在的人机交互,成为现代信息技术,人工智能技术研究的至高目标,也是数学,信息科学,智能科学,神经科学,以及生理、心理科学多科学交叉的新结合点,并将引导着二十一世纪前期信息和计算机研究的热门方向。 1.2人机交互的发展历程 人机交互作为计算机科学研究领域中一个重要组成部分,其发展历程已经经历了半个多世纪,并且取得了很大的进步和提高。从计算机的诞生之日起,人机交互技术的发展已经经历了三个阶段:命令语言界面:这一阶段所使用的主要交互工具为键盘及字符显示器,交互的内容主要有字符、文本和命令,交互过程显得呆板和单调。图形用户界面:这一阶段所使用的主要交互工具为鼠标及图形显示器,交互的内容主要有字符、图形和图像。70年代发明的鼠标,极大地改善了人机之间的交互方式。应该说,鼠标和窗口系统的出现,是人机交互技术发展历史上的一次技术革命。自然人机交互:多通道用户界面;智能人机交互;感知人机交互;多媒体人机交互等。

语音识别字符分割算法_原创.

5.设计方法 5.1概述 5.2硬件系统的设计 语音信号预处理 (1)预加重 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现,一般是一阶的FIR数字滤波器: 为预加重系数,值接近于l,在0.9和1之间,典型值为0.94。 预加重的DSPBuilder实现: 为了便于实现,将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中,为原始语音信号序列,N为语音长度,上面的公式显示其在时域 上的特性。又因为0.94接近于15/16,所以将上面的式子变为 除以16可以用右移4位来实现,这样就将除法运算化简为移位运算,降低了计算复杂度。在后面的模块设计中,也乘以或者除以一些这样的数,这些数为2的幂次,都可以用移位来实现。 预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为:

预加重滤波器的DSPBuilder结构图 (2)分帧 语音信号是一种典型的非平稳信号,其特性随时间变化,其在很短的时间内是平稳的,大概为1小20ms,其频谱特性和物理特征可近似的看做不变,这样就可以采用平稳过程的分析处理方法来处理。 分帧的DSP Builder实现: 语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期),也就是说选取的帧长必须介于10到20ms之间,此外,在MFCC特征提取时要进行FFT变换,FFT点数一般为2的幂次,所以本文中选择一帧长度为16ms,帧移为1/2帧长,这样一帧就包含了16KHz*16ms=256个点,既满足短时平稳,又满足FFT变换的要求。 由于采集的语音是静态的,语音长度已知,很容易计算出语音的帧数,但是在硬件上或实时系统中,语音长度是无法估计的,而且还要考虑存储空间的大小和处理速度,采用软件实现时的静态分帧方法是行不通的,可以利用硬件本身的特点进行实时的动态分帧。 为了使帧与帧之间平滑过渡,保持连续语音流的自相关性和过渡性,采用交叠分帧的算法。帧移取1/2帧长,即128个数据点当作一个数据块。FIFO1大小为一帧语音长度,分成两个数据块,预加重后的数据写入这个FIFO。为了实现帧移交叠,在FIFO1读数据时,同时再用FIFO2保存起来,当FIFO的一块数据读完以后,紧接着从FIF22读出这一块的副本。写入的一块数据,相当于被重复读出2次,所以FIFO1的读时钟频率设计为写时钟频率的2倍,而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…,1、2为第一帧,2、3为第二帧,以此类推。

语音识别机器人的设计—毕业论文

毕业论文(设计) 题目语音识别机器人的设计 系部电子信息工程 专业电子信息工程年级 06级学生姓名 学号 指导教师 语音识别机器人的设计

【摘要】语音识别可划分为训练和识别两个过程。在第一阶段,语音识别系统对人类的语言进行学习,把学习内容组成语音库存储起来,在第二阶段就可以把当前输入的语音在语音库中查找相应的词义或语义。凌阳16位SPCE061A单片机内嵌32K字闪存,2K字SRAM,内置10位ADC、DAC,有多达14个的中断源。它的CPU内核采用16位具有DSP功能的微处理器芯片, 而且CPU可最高工作在49MHz的主频下,能够非常容易地、快速地处理复杂的数字信号,因此与其他类型的单片机相比,在数字语音处理方面SPCE061A更具有优势。基于SPCE061A设计了一个具有语音识别功能的机器人。经过训练,训练人可使用各种命令让机器人完成许多有趣的动作,使得人机交互更具智能化。 【关键词】SPCE061A单片机语音识别机器人

The Design of the Speech Recognition Robot 【Abstract】The speech recognition is divided into two stages, namely, training and recognition. At the first stage, the speech recognition system learns about the language and stores what it a speech database. Then at the next stage, the meaning of each inputted speech can immediately be found in the speech database.Sunplus 16-bit SPCE061ASCM is embedded with 32K word Flash and 2K word SRAM, with built-in 10-bit ADC and DAC as well as more than 14 interrupt sources. The core of its CPU is a 16-bit microprocessor chip which of DSP. Besides, the CPU can work with a frequency up to 49 MHz, and process complex digital signals easily and quickly. Therefore, compared with other types of SCM, SPCE061A speech processing. Based on SPCE061A, a speech recognition robot designed. After training, the robot can complete many interesting actions according to the orders, which makes the -computer interaction more intelligent. 【Key words】SPCE061A SCM Speech Recognition Robot 目录

语音识别(人机交互小论文)

计算机科学与信息工程学院《人机交互》课程 小论文 2014年6月

语音识别 1、语音识别的背景与意义 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。 随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。 2、语音识别系统 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。 (1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。 (2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。 (3)训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

毕业论文视频终端人机交互界面毕业论文

毕业论文视频终端人机交互界 面毕业论文 目录 摘要........................................................... I Abstract...................................................... II 第1章绪论. (1) 1.1课题背景 (1) 1.1.1 AVR单片机的发展背景 (1) 1.1.2 LCD液晶显示的发展背景 (3) 1.2课题的研究意义 (4) 1.3论文组织 (5) 第2章系统介绍及元器件选型 (6) 2.1系统总体介绍 (6) 2.2单片机选型 (6) 2.3液晶选型 (10) 2.4本章小结 (12) 第3章硬件电路设计 (13) 3.1整体结构设计 (13) 3.2AT MEGA16最小系统设计 (13) 3.2.1 ATmega16的复位电路 (13) 3.2.2 ATmega16的晶振电路 (15) 3.2.3 键盘译码电路的设计 (16) 3.3LCD液晶接口设计 (17) 3.4本章小结 (22) 第4章软件设计 (23) 4.1软件平台介绍 (23) 4.2软件部分整体设计 (26) 4.3矩阵键盘程序设计 (26)

4.4液晶程序设计 (27) 4.5交互窗口设计 (28) 4.5.1 如何开辟窗口 (28) 4.5.2 窗口信息控制 (29) 4.5.3 交互界面仿真结果 (29) 4.6本章小结 (31) 结论 (32) 参考文献 (33) 致谢 (34) 附录1 (35) 附录2 (40) 附录3 (45) 附录4 (49) 附录5 (71)

深度解析智能语音机器人的常见问题

深度解析智能语音机器人的常见问题 一般智能语音机器人会自动处理以下问题:语音识别、语义分析、智能交互,实现对话交互策略。人工辅助过于复杂或者必须通过人工干预的通话转交给对应技能座席。今天我们一起来了解下深度解析电话机器人的常见问题。 一、什么是智能语音机器人? 智能语音机器人是一种运用于电话营销领域的电话机器人,它是通过ASR(语音识别)和TTS(文本转录音)模拟真人和用户通话,可以真人预先录音,用户很难察觉到是机器人。 二、市面上ASR接口有哪些? 智能语音机器人主要ASR接口供应商有科大讯飞,百度语音识别,阿里云语音识别,腾讯语音识别等,有SDK/API/MRCP类接口。智能语音机器人采用的是在讯飞研究院科学家研制的*版语音识别引擎,能精准识别反映客户意愿的词汇,快速划分非意向与意向,语音识别率达到了95%,不误判客户意向,避免浪费您的宝贵号码资源、浪费人力跟进非意向客户,同时对环境噪音、客户口音均有良好的适应能力。 三、智能语音机器人由哪些部分组成? 语音识别引擎≠电销机器人,语音识别能力是电销机器人重要的组成,但并非*,智能语音机器人还需要将呼叫平台(保证呼叫稳定)、电话线路、话术体系、操作后台集成在云端,达到直接在web上登陆操作目的,至此可以理解为一台“汽车”的硬件造好了。 但是汽车的性能怎么样,还需要检测关键技术指标、跑几下(各种测试),配置上软件(电销机器人的话术还没有配好)。因此,用讯飞技术≠智能语音机器人,如果用**技术就等于**牌子,那么所有的电脑都应该叫intel英特尔电脑,还有戴尔、联想什么事。

四、智能语音机器人为什么按路收费? 一个智能语音机器人研发好了,理论上可以支持N路并发(开一个接口就是一个机器人),主要的瓶颈是语音识别。免费的ASR一般*几万次,量大是需要付费使用的。一个智能语音机器人对接一路识别语音引擎(向ASR公司付费)、对应一条外呼线路(通信运营商向你收取),因此按路收费。有了这些机器人才能听懂话、打出去电话。 五、智能语音机器人话术系统是怎样一回事? 做话术≠做录音,如果没有对客户说话的正确理解,只是播放录音,没有互动,体验怎么能好。智能语音机器人建立在数据的基础上,智能语音机器人话术定制涉及到机器人语言设计、知识库的丰富,方便机器人理解,同时经过大量测试,保证准确理解客户的回复。 总结 智能语音机器人对于销售工作的开展无疑是提高效率的,工具虽然好,但也要了解怎么使用,更要知道正确使用的方向。

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

人机界面设计毕业论文中英翻译

良好的界面设计非常重要,因为与系统的其他特性相比,系统界面容易给用户留下更深刻的印象。毕竟,用户往往会从系统的可用性角度来审视一个系统,而不是从它如何巧妙地执行了其内部任务这个角度。从用户的视角来说,他们可能会根据系统界面在具有竟争性系统之间做出选择。因此,系统界面的设计可能成为判定一个软件工程项目是否成功的最终决定因素。 由于这些原因,人机界面在软件开发项目的需求分析阶段已经成为一个很重要的关注点,它发展为软件工程的一个子领域。事实上,有些人主张人机界面的研究是一个完全独立的领域。 对人机界面设计的研究主要来自于称为人体工程学(ergonomic)和知行学(cognetic)的工程领域,人体工程学处理协调人类体能的设计系统,;知行学处理协调人类精神能力的设计系统。这两个学科中,人体工程学更好理解一些,主要是因为人类已经跟机器打了儿个世纪的交道。这些例子有:古代工具、武器和运输系统。这些历史大部分是不证自明的,但是有时人体工程学的应用与直觉是相反的。一个经常被提到的例子就是打字机键盘(现在已经衍生为电脑键盘)的设计,其中键被有意排列,以降低打字员的速度,这样早期机器上使用的分层机械系统就不会卡住。 相反,与机器的精神交互是一个相对新的现象。因此知行学在富有成效的研究和洞察力启发方面拥有更高的潜力。通常这些研究成果更具有它们的精妙之处。比如,从表面上看人类的良好习惯有助于提高效率,但有些习惯也会导致一些错误,即使界面设计本意上是要解决问题的。考虑一下用户要求操作系统删除一个文件的过程,为了防.止误删,大部分系统都会要求用户确认一个请求,这可能会通过一个“你是否真的想删除这个文件”的信息加以确认。乍一看,!这个确认信息好像解决了误删的问题,但是使用了这个系统一段时间后,用户会养成习惯,自动回答这个要求为“是”的信息。这样,这个删除文件的任务就从包含删除命令和对问题思考后的响应的两步过程,变成了“删除一是”的一步处理过程,这就意味着当用户意识到提交了错误的删除要求时,这个请求其实已经被确认,文件也己经被删除。 当人们需要使用几个应用软件包时,习惯的形成也可能会带来问题。这些软件包的界面可能相似,但还是有些不同的。相似的用户操作可能会导致不同的系统响应,或类似的系统响应可能需要不同的用户操作。所以在这种情况下,在某种应用软件上养成的操作习惯可能会在其他应用软件上导致错误的发生。 另外一个与人机界面设计研究有关的人类特质就是人类注意力的狭隘性,也就是当集中度增加时,人类注意力往往变得更加专注。随着人类越来越专注于手头上的工作,打破这种专注也越来越困难。1972年.一架商务飞机因为飞行员太过专注于降落器的问题(实际上,是在处理改变降落齿轮指示灯的过程中),尽管当时在驾驶舱里的警报已经很响了,飞机还是笔直地撞向地面,造成空难的发生。 个人计算机的界面中经常会出现一些小状况。比如,大小写灯是为了显示键盘处在大写键锁定模式下(即“大写锁定”键被按了)。但是,如果有人不小心按了大小写按键,直到 奇异的字符出现在屏幕_匕用户才会注意到灯的变化。即使如此,用户依然会迷茫一会才会发现问题的原因。从某种意义上来说,用户看不到大小写灯的变化是很正常的,因为键盘的指示灯不在用户的视线范围之内。但是,通常用户不能注意到直接放置在他们视线中的指示灯。比如,用户会专注于他们的工作而无法发现显示器上光标的形状,即使观察光标是他们的工作之一。 还有另外一个在界面设计阶段必须预先考虑的人类特质就是并行处理多个事情时有限的思考能力。在195年《心理评论》的一篇文章中,George https://www.doczj.com/doc/3818419604.html,ler的研究表明,人类大脑在同一时间最多处理7个细节问题。因此,界面被设计成:当决定需要时,界面_L要呈现所有相关的信息,而不是依赖于人类用户的记忆,这是非常重要的。特别地,要求人类记住先

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

相关主题
文本预览
相关文档 最新文档