当前位置:文档之家› 语音识别文献综述

语音识别文献综述

语音识别文献综述
语音识别文献综述

噪音环境下的语音识别

1.引言

随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究.

语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。

2.语音识别的发展历史和研究现状

2.1国外语音识别的发展状况

国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。

20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。

20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。

20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。

当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识

别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。

2.2国内语音识别的发展状况

20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才由中科院声学所开始进行计算机语音识别的研究.80年代开始,很多学者和单位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别,到非特定人、大词汇量连续语音识别的研究工作.80年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。因此,对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义.

2.3语音识别的分类

语音识别存在不同的分类方法:

(1)按词汇量大小分。每个语音识别系统都有一个词汇表,系统能识别词汇表中所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词汇量包括10~100个词;中词汇量大约包括100~500个词条;大词汇量则至少包含500个以上的词条。

(2)按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音

识别以及关键词检出等。孤立词识别,是机器只识别一个个孤立的音节、词或者短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词识别中,发音方式介于孤立词和连续语音之间,它表面上看起来象连续语音发音,但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由交谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别.

(3)按说话人分.可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音,而后者是机器能识别出任意人的发音。

(4)从语音识别的方法分.有模式匹配法、随机模型法和概率语法分析法。模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决.

2.4噪声对语音识别的影响

随着科技的发展,人们对语音识别的研究越来越深入,在理论上达到了很成熟的阶段,也开始步入实用化阶段。以mM的ViaV oice为代表,其对连续语的识别率可以达到95%以上.但是所有识别系统对噪声都是极为敏感的,在噪声环境下,识别性能会大幅度下降州.例如,在一个典型的孤立词识别系统中,用纯净语音训练,识别效果会达到100%,但在以100公里每小时的速度行驶的小车上,其识别率将下降70%左右;一个用纯净语音训练的识别系统,误识率不到l%,但是在自助餐厅里,其误识率竟然上升近50%:一个与说话者无关的语音识别系统,在实验室环境下其误识率不到l%,但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音,其错误率将高达44%。在噪声环境下,识别系统的识别率大幅度下降,是现在语音识别产品无法广泛走入实用的主要障碍。

在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。在实验室环境下,训练环境相对安静,基本上是对纯净语音迸行训练,模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大幅度下降。

为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:

(1)假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度.

(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数.这种方法被称为语音增强。

(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声补偿.无论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类.

(1)如性噪声

噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的和,这种噪声就是所谓的加性噪声。语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声.

(2)乘性噪声

乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷积关系的噪声。乘性噪声可以转换为加性噪声.由于实际环境中的背景噪声多数是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。我们在后面讲到的去噪,也是指去除加性噪声。

2.5语音增强方法

由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法[ 3~4 ] 、子空间的方法[ 5~6 ]等;第二类是频域方法,例如减谱法[ 7~9 ] 、自适应滤波法[ 11 ] ,以及基于马尔可夫模型滤波方法[ 12 ]等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。

2.6时域方法

1. 基于参数和模型的方法。

基于参数和模型的方法通常有两大类[ 10 ] :分析合成法和利用滤波器进行滤波处理的方法。前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数) 。后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。在实际应用中有时也会把两者合并在一起相互补充。具体来说主要有以下几种方法。

(1)最大后验概率估计法

最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。

(2)卡尔曼滤波法[ 1, 3 ]

卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。卡尔曼滤波的优点是噪声在平稳和非平稳情况

下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。

(3)梳状滤波器法[ 1 ]

语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,方法的

应用受到限制。这种方法一般也只适用于平稳的非白噪声。

2.7子空间的方法

在子空间法中,大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,只保留信号子空间中的信号,来预测干净的语音以达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是计算量较大,因此在快速计算中该方法需要进一步研究。

2.8频域方法

语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同时人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法[ 7 ] 、维纳滤波法[ 8 ] 、短时谱幅度的MMSE估计[ 9 ] 、自适应滤波法等。

1. 谱减法

谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,而语音频谱分量的幅度对人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。谱减法通常包括有线性谱减法、非线性谱减法和概率谱减法。

2.维纳滤波法

维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。

3.短时谱幅度的最小均方误差(MMSE)估计法

针对特定的失真准则和后验概率不敏感的特性,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出“纯净”语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决:一是假设一个合理的概率分布模型;另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE估计公式,然后讨论实际分布情况。另外,可以利用相邻帧间频率点信息的相关性,对当前帧频率点的频谱幅度值进行估计,这就是基于帧间频谱分布约束的MMSE估计方法。又因为人耳对声音强度的感受是与谱幅度的对

数成正比的,因此在处理语音谱幅度时,采用对数失真准则更为适合一些,将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计。短时谱幅度的MMSE估计在降噪和提高语音可懂度方面进行了折衷,适用信噪比的范围较广,但是计算量较大,而且语音频谱的先验分布获得在很大程度上要取决于统计结果的代表性、重现性等。

4. 自适应滤波法

以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。

5.隐马尔可夫模型法

可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。但是这种方法,在只有带噪信号的情况下要正确分类,准确估计噪声会有一定的误差。

2.9其它方法

随着信号处理的理论和技术不断发展完善,涌现出许多的新方法,如小波变换[ 13~14 ] 、神经网络[ 15 ] 、听觉掩蔽[ 16 ] 、分形理论[ 17 ]等。

1.小波变换

利用具体问题的先验知识,根据信号和噪声的小波系数在不同尺度上具有不同性质的机理,构造相应规则,在小波域采用其他数学方法对带噪信号的小波系数进行处理。处理的实质在于减小甚至完全剔除由噪声产生的系数,同时最大限度地保留真实信号的系数,最后由经过处理的小波系数重构原信号,得到真实信号的最优估计。“最优”的精确定义依赖于应用要求。小波变换进行信号去噪时,能够在去除噪声的同时,很好地保留信号的突变部分。但是在使用这种方法时,还应考虑抑制噪声与保留信号细节之间的折衷问题,以及分解尺度的选取、阈值的选取。

2. 神经网络

语音增强在一定意义上也是一种说话人区分问题,只不过所区分的是在背景中的噪声,因此可以利用人工神经网络来实现语音的增强。假设测试语音和噪声环境的分布保持不变且与训练时相同,利用带噪语音和干净的目标语音分别进行训练,得到合适的预测神经元模型,构造可以对语音和噪声进行分类的分类器,对当前语音信号进行最佳匹配,来实现语音增强。

3.听觉掩蔽

听觉掩蔽法是利用人耳听觉特性的一种增强算法。人耳能够掩蔽语音信号中能量较小的噪声信号,使得这部分噪声不为人所感知。听觉掩蔽模型常与语音增

强算法结合实现去噪,其实现过程为:首先基于一种语音增强方法对语音信号进行粗估计,再由语音信号粗估计计算出听觉的掩蔽阈值,根据听觉掩蔽阈值和噪声参数的估值,结合相应的增强算法计算出增益,并依此估计出纯净语音。这种方法在消噪的同时可以减少不必要的语音失真。但由于噪声掩蔽阈值是在纯净语音基础上得到的,在实际应用中常只能用带噪语音来估计掩蔽阈值,这样估计的结果误差较大。

4.分形理论

语音与噪声具有不同的混沌和分形特性,因此可将分形维数用于语音增强。根据分形结构的语音信号在一定的尺度范围内具有等价标度不变性,导出带噪语音信号的真实分形维数的计算方法,利用分形维数内插方法计算出信号的维数。根据它们之间的差值进行对重构的阈值和位置自适应控制,实现语音信号与噪声的分离。既抑制了噪声,又减少了语音段的信息的损失,提高了信噪比。

3. 结束语

以上讨论了一些语音增强算法,它们各有优缺点,分别适用于不同的场合。在实际应用时,要根据具体的噪声情况和特定环境,选用不同的语音增强方法或语音增强方法的组合,来达到消除噪声或提高语音清晰度的目的。如有的情况下,只要求消除带噪语音中的噪声,可以采用一些传统的语音增强方法:如谱减法、自适应滤波法等,达到提高信噪比,增强语音的效果;如有时为了减小对语音的听觉失真,提高语音的清晰度,权衡考虑增强后的语音失真和去噪效果,可以采用听觉掩蔽效应和其它方法相结合,如基于听觉掩蔽效应的改进谱减算法[ 18 ] 或基于AR -HMM模型的谱减算法[ 19 ]等方法,更多的时候,不同的语音增强方法之间进行互补,达到更高的增强效果,如基于HMM模型的方法也可以和扩展的卡尔曼滤波器联合使用,小波阈值算法中关键是阈值的选取可采用MMSE准则来自适应寻找等等。随着信号处理技术不断完善和发展,语音增强算法的新方法必将层出不穷,有待于进一步的研究。

参考文献:

[ 1 ] 杨行峻,迟惠生,等. 语音信号数字处理[M ]. 北京:电子工业出版社, 1995.

[ 2 ] 赵力. 语音信号处理[M ]. 北京: 机械工业出版社,2003.

[ 3 ] Gannot S, Burshtein D, Weinstein E. Iterative and se2quential Kalman filter2based speech enhancement algo2 rithms [ J ]. IEEE Trans Speech and Audio Process, 1998, 6(4) : 3732385.

[ 4 ] Kin J B, Lee K Y , Lee CW. On the app lications of theinteracting multip le model algorithm for enhancing noisy speech [ J ]. IEEE Trans Speech and Audio Process, 2000,8 (3) : 3492352.

[ 5 ] Y Ephraim, H L V Trees. A signal subspace app roach forspeech enhancement[ J ]. IEEE Trans. Speech and AudioProcessing, 1995, 3 (7) : 2512266.

[ 6 ] F Jabloun, B Champagne. A multi - microphone signalsubspace app roach for speech enhancement[A ]. In Proc. IEEE ICASSP01 [C ]. 2001. 2052208 .

[ 7 ] Boll S. Supp ression of acoustic noise in speech using spec2tral subtraction [ J ]. IEEE Trans on Acoustic Speech andSignal Processing, 1979, 27 (2) : 1132120.

[ 8 ] Ningp ing Fan. Low distortion speech denoising using an a2dap tive parametric Wiener filter [A ]. IEEE InternationalConference on Acoustics, Speech and Signal Processing( ICASSP) [C ]. 2004, 1: 122309.

[ 9 ] Ephraim Y, Malah D. Speech enhancement using a mini2mum2mean square error short2time spectral amp litude esti2mator [ J ]. IEEE Transactions on Acoustics, Speech andSignal Processing, 1984, 32 (60) : 110921121.

[ 10 ] 韩纪庆,张磊,郑铁然. 语音信号处理[M ]. 北京:清华大学出版社, 2004年.

[ 11 ] 高鹰,谢胜利. 一种变步长LMS自适应滤波算法及分析[ J ]. 电子学报, 2001, 29 (8) : 109421097.

[ 12 ] Jax P Vary P. Artificial bandwidth extension of speechsignals usingMMSE estimation based on a hidden Markov model [A ]. IEEE International Conference on Acoustics,Speech, and Signal Processing ( ICASSP) [ C ]. 2003. 6802683 [ 13 ] SMallat and W L Hwang. Singularity detection and p ro2cessing with wavelets[ J ]. IEEE Trans on Information The2ory, 1992, 38 (2) : 6172643 .

[ 14 ] D L Donoho and IM Johnstone. Adap ting to unknownsmoothness via wavelet shrinkage [ J ]. Journal of the A2 merican StatisticalAssociation, 1995, 90: 120021224.

[ 15 ] L iew Ban Fah, Hussain A, Samad SA. Speech enhance2ment by noise cancellation using neural network. [A ] TEN2CON 2000 [C ]. Proceedings, Kuala Lumpur, 20.

[ 16 ] J iang Xiaop ing, Fu Hua, Yao Tianren. A single channelspeech enhancement method based on masking p ropertiesand minimum statistics[A ]. 2002 6 th International Confer2ence on Signal Processing[C ]. 2002. 4602463. [ 17 ] 裴文江,刘文波,于盛林. 基于分形理论的混沌信号与噪声分离方法[ J ]. 南京航空航天大学学报, 1997, 29(5). 4832487.

[ 18 ] Virag N. Single channel speech enhancement based onmasking p roperties of human auditory system [ J ]. IEEE Trans on Speech Audio Process, 1999, 7 (2) : 1262137.

[ 19 ] Ghoreish M H, Sheikzadeh H Hybird. Speech enhance2ment system based on HMM and spectral subtraction [A ].IEEE International Conference on Acoustic, Speech andSignal Processing[C ]. 2000 (3) : 185521858.

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

语音信号识别及处理中英文翻译文献综述

语音识别 在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。通过计算机语音处理技术,来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力,可以使人类实现这一非凡的能力。在撰写本文时(2008年),我们可以重现,语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。 语音识别技术的挑战 古老的书写系统,要回溯到苏美尔人的六千年前。他们可以将模拟录音通过留声机进行语音播放,直到1877年。然而,由于与语音识别各种各样的问题,语音识别不得不等待着计算机的发展。 首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来: I went to the store yesterday昨天我去商店。单词也可以混合,用Whadd ayawa吗?这代表着你想要做什么。第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音而定。但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。字母C可以有相同的字母K的声音,如蛋糕,或作为字母S,如柑橘。 此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织,有不同的口音。例如“水”这个词,wadder可以显著watter,woader wattah等等。每个人都有独特的音量——男人说话的时候,一般开的最低音,妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响,当一个人感冒的时候,就要考虑发音的变化。

智能计算机论文参考文献范例

https://www.doczj.com/doc/7715439137.html, 智能计算机论文参考文献 一、智能计算机论文期刊参考文献 [1].当代智能计算机的语义困境——兼论本体论语义学. 《武汉科技大学学报 《电子测试》.2014年10期.樊丽.杨宏.鱼莹. [5].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年3期. [6].关于智能计算机. 《集宁师专学报》.2004年3期.刘宝娥. [7].基于deeplearning的语音识别. 《电子设计工程》.2015年18期.张炯.陶智勇. [8].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年1期. [9].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2015年4期. [10].基于Excel构建智能计算机考试系统. 《信息技术》.被中信所《中国科技期刊引证报告》收录ISTIC.2012年3期.甘伟明.潘东梅.白晓丽.刘兵兵. 二、智能计算机论文参考文献学位论文类 [1].中学生身体运动智能计算机情境化测评方法研究. 作者:李静.教育学;教育技术学南京师范大学2012(学位年度) [2].中学生视觉空间智能计算机情境化测评方法的研究.被引次数:1 作者:张丽霞.教育学;教育技术学南京师范大学2011(学位年度) [3].智能计算机配棉与纱线质量预测系统的研究与开发. 作者:袁静.纺织工程天津工业大学2012(学位年度) [4].基于网络的智能计算机辅助教学系统. 作者:韩静.计算机应用技术华东师范大学2005(学位年度)

https://www.doczj.com/doc/7715439137.html, [5]HPP体系结构下TCP/IP协议支持的研究与实现.被引次数:1 作者:康炜.计算机系统结构中国科学院计算技术研究所2007(学位年度) [6]模糊逻辑、神经网络与智能计算机研究. 作者:刘增良.计算机科学与技术北京航空航天大学1993(学位年度) [7]基于角色理论的情绪常识模型及应用研究. 作者:叶潇.计算机软件与理论华东理工大学2005(学位年度) [8].基于.NET技术的智能计算机考试系统. 作者:施长云.软件工程东南大学2015(学位年度) [9]智能计算机网络规划系统的设计与实现. 作者:梁伟晟.计算机软件与理论中山大学2000(学位年度) [10]智能计算机辅助教学系统探索与制作. 作者:刘常青.自动控制理论及应用西安电子科技大学1998(学位年度) 三、相关智能计算机论文外文参考文献 [1]IntelligentComputerAidedInstructionModelingandaMethodtoOptimiz eStudyStrategiesforParallelRobotInstruction. TanD.P.JiS.M.JinM.S.《IEEETransactionsonEducation》,被EI收录EI.被SCI收录SCI.20133 [2]Aparadigmforhandwritingbasedintelligenttutors. Anthony,L.Yang,J.Koedinger,K.R.《Internationaljournalofhumancomputerstudies》,被EI收录EI.被SCI收录SCI.201211 [3]Intelligentautomationofdesignandmanufacturinginmachinetoolsusi nganopenarchitecturemotioncontroller. https://www.doczj.com/doc/7715439137.html,vanya《JournalofManufacturingSystems》,被EI 收录EI.被SCI收录SCI.20131 [4]Anadaptationalgorithmforanintelligentnaturallanguagetutoringsy stem. AnnabelLathamKeeleyCrockettDavidMcLean《Computers&education》,被EI收录EI.被SCI收录SCI.2014Feb. [5]GuestEditors''Introduction:IntelligentSystemsforInteractiveEnt ertainment.

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

指纹识别系统(文献综述)

指纹识别方法的综述 摘 要: 对在指纹的预处理和特征提取、指纹分类、指纹的匹配过程中的方向图、滤波器、神经网络等关 键性原理和技术做了详细的说明,并对在各个过程中用到的方法做了进一步的比较,讨论了各种方法的优越性。 0 引 言 自动指纹识别是上世纪六十年代兴起的,利用计算机取代人工来进行指纹识别的一种方法。近年 来,随着计算机技术的飞速发展,低价位指纹采集仪的出现以及高可靠算法的实现,更使得自动指纹识 别技术越来越多地进入到人们的生活和工作中,自动指纹识别系统的研究和开发正在成为国内外学术 界和商业界的热点。相对于其他生物特征鉴别技术例如语音识别及虹膜识别,指纹识别具有许多独到 的优点,更重要的是它具有很高的实用性和可行性,已经被认为是一种理想的身份认证技术,有着十分 广泛的应用前景,是将来生物特征识别技术的主流。 1 指纹取像 图 1 是一个自动指纹识别系统AFIS(Automated Fingerprint Identification System) 的简单流程。 → → → ↓ ↑ ———— 将一个人的指纹采集下来输入计算机进行处理是指纹自动识别的首要步骤。指纹图像的获取主要利用设备取像,方便实用,比较适合AFIS 。利用设备取像的主要方法又利用光学设备、晶体传感器和超声波来进行。光学取像设备是根据光的全反射原理来设计的。晶体传感器取像是根据谷线和脊线皮肤与传感器之间距离不同而产生的电容不同来设计的。超声波设备取像也是采用光波来取像,但由于超声波波长较短,抗干扰能力较强,所以成像的质量非常好。 2 图像的预处理与特征提取 无论采取哪种方法提取指纹,总会给指纹图像带来各种噪声。预处理的目的就是去除图像中的噪 音,把它变成一幅清晰的点线图,以便于提取正确的指纹特征。预处理是指纹自动识别过程的第一步, 它的好坏直接影响着指纹识别的效果。常用的预处理与特征提取( Image Preprocessing and Feature Ex 2 t raction) 方法的主要步骤包括方向图计算、图像滤波、二值化、细化、提取特征和后处理。当然这些步骤 可以根据系统和应用的具体情况再进行适当变化。文献[ 1 ]提出了基于脊线跟踪的方法能够指纹取像 图像预处理 特征提取 指纹识别 数据库管理

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别 一、引言 语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。 三、语音识别设计步骤 3.1语音信号的特征及其端点检测 图2 数字‘7’开始部分波形 图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。而在6800以后,信号幅度开始增强,并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。 这样可以很直观的用信号的幅度作为特征,区分静音和语音。只要设定一个

门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类 语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。(3)连续语音识别,连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话。 从识别对象的类型来看,语音识别可以分为特定人语音识别和非特定人语音识别,特定人是指针对一个用户的语音识别,非特定人则可用于不同的用户。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成 语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经处理后,接下来很重要的一环就是特征参数提取。 图3 语音识别系统 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考模板进行匹配,将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。 全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述,LPC参数是模拟人的发声器官的,是一种基于语音合成的参数模型。 在语音识别中,很少用LPC系数,而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音识别文献综述

噪音环境下的语音识别 1.1引言 随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究. 语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 1,2语音识别的发展历史和研究现状 1.2.1国外语音识别的发展状况 国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。 20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。 当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。

语音识别芯片介绍

WT7010语音识别芯片 1.WT7010语音识别芯片概述 WT7010语音芯片内建8bit DSP核心,它能提供高分辨率ADC模拟采样和高质量的差分音频输入及麦克风输入,配备数学处理器以精确处理高压缩语音编解码或语音识别。该芯片有NAND接口和SPI总线用于外部存储器,提供2线串口用于连接其它设备或MCU。语音输入方面配备差分放大器用以麦克风输入以及AGC(自动增益控制)以便提供更好的SNR (信噪比)语音信号输入。芯片不单止嵌入前置放大也提供高品质的DAC和AB类扬声器放大器可以驱动输出高品质的声音。 2. WT7010功能特性 (1)内置8bitDSP核心,内部操作频率最高达48MHz(典型值:40MHz); (2)内置麦克风差分前置放大器,包括AGC功能,16级增益控制功能; (3)最长可记录10秒语音; (4)内置8欧姆/0.5瓦电路,可直接驱喇叭或蜂鸣器,拥有16级音量控制,PWM音频输出方式; (5)低电压复位功能(LVR); (6)内建看门狗(WDT); (7)具有24 I/O; (8)内建有NAND-Flash接口及SPI主从总线接口; (9)数字部分工作电压:2.4V ~ 3.6V;模拟部分工作电压2.4V~4.5V; (10)休眠电流<3.0uA WT7010语音识别芯片为广州唯创新研发特定语音识别芯片,还有未尽的各项其他功能正在加紧研发中,有需求时可接受定制。 3. 应用举例 在语音ic应用范围上,特定语音识别可以做简短语音识别系统,体现个性化服务,如: ? 语音电子锁; ? 智能家居开关,如WT系列智能语音识别开关; ? 特定报警器、家庭防盗报警器; ? 高级玩具,如鹦鹉学舌、TOM汤姆猫 4. 应用电路示例 (1)特定人语音识别(学习型) 特定人语音识别(学习型),是指预先对说话人进行语音输入,由语音识别芯片进行特征提取,然后进行存储。当语音输入时,语音芯片会将输入的声音特征和参考模块库内的特征进行匹配,匹配成功则输出成功值。 (a)示例电路

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别技术概述

语音识别技术概述 摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。 关键词:语音识别;特征提取;模式匹配;模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础 语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式

人工智能发展综述

人工智能发展综述 摘要:概要的阐述下人工智能的概念、发展历史、当前研究热点和实际应用以及未来的发展趋势。 关键词:人工智能; 前景; 发展综述 人工智能(Artificial Intelligence)自1956 年正式问世以来的五十年间已经取得了长足的进展,由于其应用的极其广泛性及存在的巨大研究开发潜力, 吸引了越来越多的科技工作者投入人工智能的研究中去。尤其是八十年代以来出现了世界范围的开发新技术的高潮,许多发达国家的高科技计划的重要内容是计算机技术,而尤以人工智能为其基本重要组成部分。人工智能成为国际公认的当代高技术的核心部分之一。 1什么是人工智能 美国斯坦福大学人工智能研究中心尼尔逊教授给人工智能下了这样一个定义:人工智能是关于知识的学科, 是怎样表示知识以及怎样获得知识并使用知识的科学。从人工智能所实现的功能来定义是智能机器所执行的通常与人类智能有关的功能,如判断、推理、证明、识别学习和问题求解等思维活动。这些反映了人工智能学科的基本思想和基本内容, 即人工智能是研究人类智能活动的规律。若是从实用观点来看,人工智能是一门知识工程学:以知识为对象,研究知识的获取、知识的表示方法和知识的使用。 从计算机应用系统的角度出发,人工智能是研究如何制造智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。如果仅从技术的角度来看,人工智能要解决的问题是如何使电脑表现智能化,使电脑能更灵活方效地为人类服务。只要电脑能够表现出与人类相似的智能行为,就算是达到了目的,而不在乎在这过程中电脑是依靠某种算法还是真正理解了。人工智能就是计算机科学中涉及研究、设计和应用智能机器的—个分支,人工智能的目标就是研究怎样用电脑来模仿和执行人脑的某些智力功能,并开发相关的技术产品,建立有关的理论。 2 人工智能历史 当然,人工智能的发展也并不是一帆风顺的,人工智能的研究经历了以下几

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年 3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需

开题报告

山东科技大学 本科毕业设计(论文)开题报告 题目基于yeelink和树莓派的智能家居管理系统设计 与实现 学院名称计算机科学与工程学院 专业班级网络工程2013级 学生姓名 * 学号 * 指导教师 * 填表时间:二0一七年三月二十日

填表说明 1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。 2.此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期完成,经指导教师签署意见、相关系主任审查后生效。 3.学生应按照学校统一设计的电子文档标准格式,用A4纸打印。装订在左侧。 4.参考文献不少于8篇,其中应有适当的外文资料(一般不少于2篇)。 5.开题报告作为毕业设计(论文)资料,与毕业设计(论文)一同存档。

三、文献综述(国内外研究情况及其发展) 智能家居行业发展的潜力吸引众多资本加入,包括传统硬件企业、互联网企业、房地产家装企业纷纷抢滩智能家居市场。谷歌、苹果、微软、三星、华为、小米、魅族等众多科技公司入局,在其努力之下,全球智能家居行业前景看好。同时,移动通信技术的不断发展不断地给智能家居行业提供强而有力的技术支持,包括5G技术、蓝牙5、下一代wifi标准等都有明确的商业化时间表。越来越多的新技术涌现出来,与智能家居的融合将产生强大的合合力,如人工智能技术、语音识别技术、深度学习技术等,他们都不断发力智能家居行业,争取与智能家居技术深度融合。智能家居产品将会越来越普及,分类越来越细化,所涉及的产品种类会更多。远程控制会有一定的发展,但终究会被完整的智能家居系统所代替。智能家居市场的未来广阔,但智能家居平台市场大战也是必不可少的。 国外状况:自从世界上第一幢智能建筑1984年在美国出现后,美国、加拿大、欧洲、澳大利亚和东南亚等经济比较发达的国家先后提出了各种智能家居的方案。智能家居在美国、德国、新加坡、日本等国都有广泛应用。 国内状况:智能家居作为一个新生产业,处于一个导入期与成长期的临界点,市场消费观念还未形成,但随着智能家居市场推广普及的进一步落实,培育起消费者的使用习惯,智能家居市场的消费潜力必然是巨大的,产业前景光明。正因为如此,国内优秀的智能家居生产企业愈来愈重视对行业市场的研究,特别是对企业发展环境和客户需求趋势变化的深入研究,一大批国内优秀的智能家居品牌迅速崛起,逐渐成为智能家居产业中的翘楚!智能家居至今在中国已经历了近12年的发展,从人们最初的梦想,到今天真实的走进我们的生活,经历了一个艰难的过程。 智能家居最初的发展主要以灯光遥控控制、电器远程控制和电动窗帘控制为主,随着行业的发展,智能控制的功能越来越多,控制的对象不断扩展,控制的联动场景要求更高,其不断延伸到家庭安防报警、背景音乐、可视对讲、门禁指纹控制等领域,可以说智能家居几乎可以涵盖所有传统的弱电行业,市场发展前景诱人,因此和其产业相关的各路品牌不约而同加大力度争夺智能家居业务,市场渐成春秋争霸之势。

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

关于智能家居的研究综述[文献综述]

文献综述 通信工程 关于智能家居的研究综述 摘要:本文主要对智能家居的相关技术及发展进行了综述。首先介绍了智能家居的概念,然后对其市场环境及应用功能进行了阐述,再比较了分别基于PC机、单片机、嵌入式架构系统的智能家居网络控制器,并对远程控制技术中的有线技术与无线技术进行了对比,论述了其中GSM技术和Zigbee技术。文中最后也对未来智能家居发展进行了预测。 关键词:智能家居;架构系统;网络控制器;Zigbee技术 一、智能家居概述 20世纪80年代末,智能家居原型在美国产生,被称为Smart Home。因其布线简单、功能灵活、扩展容易而被人们广泛接受和应用。经过这几十年的发展,智能家居已经形成一套成熟的理论体系,基于各种技术的智能家居系统更是层出不穷,使人们享受到了舒适、便利和安全的家居生活。 那么什么是智能家居呢?智能家居是以家为平台,兼备自动化、智能化于一体的高效、舒适、安全、便利的住宅环境。智能家居网络控制系统是一个完整的集家庭通信、家庭设备互联和控制、家庭安全防范等功能于一体的网络系统[1]。当然其功能也随着科技的进步正变得越来越新颖与强大。 二、智能家居的现状及应用 随着人们对高质量生活水平的要求和消费电子技术的发展,传统的家居控制方式已经成为家庭信息智能化进程的绊脚石。所以,开发更加先进、智能的家居控制系统在满足家居生活更加舒适、安全、有效的同时也迎合了人们追求个性化、自动化、智能化、高档化的心理需求。据有关机构统计表明,在2006 年,国际智能家居产品销售额达到184 亿美元,2008 年高达648 亿美元。目前,全球家庭智能化市场正在以8% 的速度增长[2]。中国人首次接触“智能家居”一词是在20 世纪90 年代中期,经过几年的发展,我国在智能家居技术领域与欧美国家的差距逐渐减小, 目前, 仅滞后2 - 3 年的时间, 已有包括海尔、TCL、清华同方等大型企业在内的数千家中国企业正日益成为此行业中的生力军[3]。

相关主题
文本预览
相关文档 最新文档