语音识别综述
- 格式:doc
- 大小:238.00 KB
- 文档页数:7
语音识别技术综述
语音识别技术是一种将语音信号转化为文本或命令的技术,近年来得到了广泛的应用和发展。
本文将从技术原理、应用领域、发展趋势等方面对语音识别技术进行综述。
语音识别技术的原理主要是通过对语音信号的采集、分析和识别来实现文本转化。
这涉及到信号处理、模式识别、机器学习等多个领域的知识。
随着深度学习等技术的发展,语音识别的准确率和速度得到了显著提升。
语音识别技术在各个领域都有着广泛的应用。
在智能手机、智能音箱等设备上,语音助手已经成为了日常生活中不可或缺的一部分。
在医疗、金融、教育等领域,语音识别技术也发挥着重要作用,提高了工作效率和用户体验。
语音识别技术的发展趋势主要体现在以下几个方面:一是多语种、多方言的识别能力不断提升,满足不同用户的需求;二是语音合成技术的发展,实现更加自然流畅的语音交互;三是结合其他传感技术,实现更加智能化的人机交互。
总的来说,语音识别技术作为人机交互的重要手段,正在逐步改变我们的生活方式。
随着技术的不断进步和应用场景的不断拓展,相信语音识别技术将会发挥出更加重要的作用,为人类带来更多便利和惊喜。
希望本文的综述能够为读者对语音识别技术有更深入的了
解和认识。
语音识别技术的阐述并举例说明1. 语音识别技术的概述在当今这个信息爆炸的时代,语音识别技术可谓是一个火热的领域。
简单来说,它就是让计算机“听懂”人类说话,把语音转换成文字。
想想看,以前咱们打字得慢吞吞的,现在只要“嘿,你好”,手机就能把你说的话变成文字,简直就像是在和外星人聊天!这种技术背后的原理其实挺复杂的,但咱们不必深究,简单理解就好。
1.1 语音识别的工作原理语音识别技术的工作原理其实就是把声音信号变成数字信号,再通过一些算法分析这个信号,最后识别出你说的内容。
就像是把你在大街上听到的音乐变成乐谱,虽然中间的过程可能有点曲折,但最后能听出个所以然来。
不过,别以为这就简单,想让计算机分清楚“我爱你”和“我爱鱼”可得下不少功夫呢!1.2 语音识别的发展历程语音识别的发展也可谓是一波三折。
从最初的只支持简单命令的系统,到现在的智能助手,真是翻天覆地的变化。
记得早些年,咱们说话时,系统经常听错,结果出来的文字让人哭笑不得。
可是,现在的技术已经进步了不少,能适应不同的口音、语速,甚至能理解一些俚语,真是让人叹为观止!2. 语音识别的应用场景那么,语音识别到底能用在哪里呢?这就不得不提到它的广泛应用了。
无论是日常生活还是工作中,语音识别技术都在悄悄改变着我们的方式。
2.1 智能助手大家一定听说过 Siri、Alexa 这些智能助手吧?它们的工作原理就是利用语音识别技术,帮助我们完成各种任务。
想查天气、定闹钟,甚至找餐馆,只要说出来,助手就能帮你搞定。
试想一下,早上起床的时候懒得动,只要躺在床上说:“给我来杯咖啡”,不久后咖啡就送到手边,简直就是现代人的梦想生活啊!2.2 客服服务再比如在客服领域,语音识别技术也发挥了大作用。
想想打客服热线的情景,你说:“我想投诉。
” 这句话通过语音识别系统,能迅速进入正确的处理流程,不再让你等得心急火燎。
以往那些烦人的按键导航真是让人心累,现在只需说出你的需求,简单明了,真是让人感觉“技术改变生活”不是空话!3. 语音识别的未来发展当然,语音识别的未来还有更多可能。
自然语言处理和语音识别技术综述随着人工智能技术的迅猛发展,自然语言处理(Natural Language Processing, NLP)和语音识别(speech recognition)技术也逐渐成为了人工智能领域的重要研究方向之一。
NLP技术用于处理人类语言,以便计算机能够理解和产生与之相关的任务。
语音识别技术则是指将语音转换为文本或控制命令等计算机能够理解和执行的任务。
本文将从NLP和语音识别的基本原理、技术应用和未来发展等方面进行综述。
一、基本原理1.自然语言处理基本原理自然语言处理技术的基本原理包括文本处理、语言识别、语言生成和语义分析等步骤。
文本处理主要是对文本进行清洗、分词、词性标注、句法分析等操作,以便计算机理解文本特征和意图。
语言识别则是指将自然语言转换为计算机可处理的形式。
语言生成则是生成人类可识别的自然语言。
语义分析则是指根据文本的上下文和背景进行分析,理解语言的真实含义。
2.语音识别基本原理语音识别技术基本原理包括信号处理、模型训练和模型推断等步骤。
信号处理主要是对输入的语音信号进行降噪、预处理和特征提取等操作,以便将语音信号转换为计算机可处理的形式。
模型训练则是利用机器学习等技术,对大量训练数据进行学习和优化,使得计算机能够准确地识别不同的语音信号。
模型推断则是在训练好的模型的基础上,对输入的语音信号进行分类和识别。
二、技术应用1.自然语言处理技术应用自然语言处理技术被广泛应用于问答系统、机器翻译、文本摘要、情感分析、智能客服等领域。
问答系统是利用自然语言处理技术,实现对自然语言问题的智能回答。
机器翻译则是利用自然语言处理技术实现对不同语言之间的翻译。
文本摘要则是利用自然语言处理技术实现对文本的自动总结和归纳。
情感分析则是利用自然语言处理技术实现对文本中情感色彩的自动识别和分类。
智能客服则是利用自然语言处理技术实现对用户提问的的实时解答和响应。
2.语音识别技术应用语音识别技术被广泛应用于语音输入、智能客服、声纹识别、语音控制等领域。
语音识别技术中声学特征提取方法综述语音识别技术近年来取得了重大的突破和进展,成为人工智能领域的一个重要研究方向。
在语音识别技术中,声学特征提取是其中一个关键步骤,它对于提高语音识别的准确性和稳定性起到了至关重要的作用。
本文将对语音识别技术中声学特征提取方法进行综述,包括常用的声学特征提取方法以及它们的优缺点。
首先,传统的声学特征提取方法之一是基于梅尔频率倒谱系数(MFCC)。
MFCC是一种经典的声学特征提取方法,首先将语音信号划分为短时帧,然后对每一帧的语音信号进行预加重、傅里叶变换、Mel滤波器组计算、对数运算和离散余弦变换等一系列处理步骤,最后得到每一帧的MFCC特征向量。
MFCC具有良好的语音识别性能,能够有效地捕捉语音的频谱特征,并且具有较好的鲁棒性。
然而,MFCC方法也存在一些问题。
首先,它忽略了语音信号中的时序信息,只考虑了每一帧的频谱特征,导致了一定程度上的信息丢失。
其次,MFCC方法对噪声比较敏感,当噪声较大时,MFCC方法的性能会下降。
因此,为了克服这些问题,研究人员提出了一系列改进的声学特征提取方法。
一种改进的声学特征提取方法是时域特征提取。
时域特征提取方法直接利用语音信号的时域波形进行分析,在声学特征提取的过程中考虑了时序信息。
常用的时域特征提取方法包括短时能量、短时过零率和短时自相关函数等。
这些时域特征能够有效地捕捉语音信号的瞬时特性和周期性,从而提高语音识别的准确性和稳定性。
另一种改进的声学特征提取方法是基于深度学习的特征提取方法。
深度学习是近年来兴起的一种机器学习方法,具有强大的模型拟合能力和特征学习能力。
基于深度学习的声学特征提取方法通过利用深度神经网络自动学习语音信号中的抽象特征,取代了传统的手工设计的特征提取方法。
常用的基于深度学习的声学特征提取方法包括深度神经网络(DNN)和卷积神经网络(CNN)等。
这些方法在语音识别任务中取得了显著的性能提升,成为当前研究的热点方向。
基于深度学习的语音识别技术研究综述摘要:语音识别是人工智能领域的重要研究方向之一。
传统的语音识别技术主要基于概率图模型,如隐马尔可夫模型(HMM)。
然而,这些方法在处理复杂语音任务时面临挑战。
近年来,深度学习方法的快速发展为语音识别带来了革命性的进展。
深度学习通过多层神经网络结构和大量标注数据提高了语音识别的准确性和性能。
本文将综述基于深度学习的语音识别技术的发展和应用。
1. 引言语音识别是一项关键技术,广泛应用于语音助手、语音控制和自动语音转换等领域。
传统的语音识别方法需要手工设计特征,然而,这些特征难以捕捉到语音中隐含的丰富信息,导致性能的瓶颈。
深度学习基于神经网络的方法可以自动学习特征,从而解决了传统方法的限制。
2. 深度学习在语音识别中的应用2.1 基本结构深度学习在语音识别中的应用主要基于循环神经网络(RNN)、卷积神经网络 (CNN) 和长短时记忆网络(LSTM)等结构。
RNN和LSTM可以捕捉到时序信息,而CNN则可以提取语音信号的局部特征。
2.2 特征表示深度学习方法通过学习将原始语音信号转换为高级表示,用于语音识别任务。
这些高级表示可以是时间频率图谱、梅尔频率倒谱系数(MFCC)、倒谱包络和深度神经网络特征等。
2.3 训练和优化深度学习模型的训练通常采用反向传播算法以及随机梯度下降等优化算法。
此外,基于深度学习的语音识别还可以使用迁移学习和增量学习等技术来提高训练效果。
3. 数据集和评价指标深度学习方法在语音识别任务中需要大量的标注数据进行训练。
开源的语音数据集如LibriSpeech、TIMIT和Switchboard等为研究者提供了丰富的数据资源。
评价指标主要包括错误率(WER)、准确率(Accuracy)和对齐错误率(Alignment Error Rate)等。
4. 深度学习在语音识别中的挑战尽管深度学习在语音识别任务中取得了显著的进展,但仍面临一些挑战。
首先,缺乏大规模标注数据集限制了模型的性能。
说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
语音识别项目概述1.语音识别概述与分类语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。
孤立词识别的任务是识别事先已知的孤立的词,如“开机"、“关机"等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。
显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
注:在特定人语音识别中,不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
2.项目概述近年来,随着汽车产业的发展和汽车的普及,人们对车辆性能要求的不断提高,舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。
因而车载电子产品的种类和功能也日益增加,越来越便于车主的使用,然而随之而来的也造成了操作的繁琐性,甚至于存在一定安全隐患。
车载设备以服务用户为目的,因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互,而不再满足于复杂的键盘和按钮操作。
基于听觉的人机交互是该领域的一个重要发展方向。
目前主流的语音识别技术是基于统计模式.然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC机或笔记本来完成,这无疑限制了它的运用。
嵌入式语音交互已成为目前研究的热门课题.嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域.结合这一应用背景,本项目以语音识别模块LD3320为核心,结合Avr系列的MCU控制器,提出了一种方便现代生活的智能车载语音识别控制系统,以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求.本项目以语音识别技术为基础,利用语音命令作为人机接口,来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。
语音辨别技术综述语音辨别技术综述电子信息工程2010 级 1 班郭珊珊【纲要】跟着计算机办理能力的快速提升,语音辨别技术获得了飞快发展,该技术的发展和应用改变了人们的生产和生活方式,正逐渐成为计算机办理技术中的要点技术。
语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。
【要点词】语音辨别;语音辨别原理;语音辨别发展;产品语音辨别是以语音为研究对象,经过语音信号办理和模式辨别让机器人自动辨别和理解人类口述的语言。
语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。
1语音识其余原理语音辨别系统本质是一种模式辨别系统,包含特色提取、模式般配、参照模式库等三个基本单位元。
未知语音经过话筒变换成电信号后加载识别系统的输入端,第一经过预办理,再依据人的语音特色成立语音模型,对输入的语音信号进行剖析,并抽取所需特色,在此基础上成立语音辨别所需的模板。
计算机在辨别过程中要依据语音识其余模型,将计算机中寄存的语音模板与输入的语音信号的特色进行比较,依据必定的搜寻和般配策略,找出一系列最优的与输入语音般配的模板。
而后依据此模板的定义,经过查表可给出计算机的辨别结果。
这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。
2语音辨别系统的分类语音辨别系统能够依据对输入语音的限制加以分类。
2.1 从说话者与辨别系统的有关性考虑能够将辨别系统分为 3 类: (1) 特定人语音辨别系统:仅考虑关于专人的话音进行识别; (2) 非特定人语音系统:识其余语音与人没关,往常要用大批不一样人的语音数据库对识别系统进行学习; (3) 多人的辨别系统:往常能辨别一组人的语音,或许成为特定组语音辨别系统,该系统仅要求对要识其余那组人的语音进行训练。
2.2 从说话的方式考虑也能够将辨别系统分为 3 类: (1) 孤立词语音辨别系统:孤立词辨别系统要求输入每个词后要停留; (2) 连结词语音辨别系统:连结词输入系统要求对每个词都清楚发音,一些连音现象开始出现; (3) 连续语音辨别系统:连续语音输入是自然流畅的连续语音输入,大批连音和变音会出现。
山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期)学院(中心、所):计算机与信息技术学院专业名称:计算机应用技术课程名称:自然语言处理技术论文题目:语音识别综述授课教师(职称):研究生姓名:年级:学号:成绩:评阅日期:山西大学研究生学院2015年 6 月2日语音识别综述摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。
本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。
关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理1.引言语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。
语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
2.语音识别技术的发展历史及现状2.1语音识别发展历史语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。
1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。
60年代,计算机应用推动了语音识别的发展。
这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。
70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。
隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连续语音识别系统的开发成为可能,在80年代中期在实践开发中成功应用了HMM模型和人工神经网络(ANN)。
1988年Kai-FuLee等用VQ/HMM方法实现的非特定人连续语音识别系统SPHINX是语音识别历史上的一个里程碑。
90年代以后,人工神经网络技术为语音识别开辟了一条新途径,ANN具有自适应性、并行性、鲁棒性、容错性和学习特性,在结构和算法都显示了很大的潜力,更在细化模型的设计、参数提取和优化,以及系统的自适应技术上取得了关键进展,语音识别开始进入实际应用。
2.2语音识别国内外发展现状近几年语音技术发展迅速,虽然国内对语音识别商业化仍有一些欠缺。
但整体来说国内的语音技术研究与国外基本同步。
科大讯飞,捷通华声等语音企业相继成立。
2010年Google 发布的Voice Action支持语音操作与检索,2011年初微软的深度神经网络(DNN)模型在语音搜索任务上获得成功;同年10月苹果公司Siri首次亮相,人机交互开启了新的篇章;国内科大讯飞首次将DNN技术运用到语音云平台;2013年Google发布的Glass使用语音交互,同时苹果公司加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点。
我国在语音识别方面的研究最早起源于1958年,当时中科院声学所通过最简单的电子管电路来完成对10个元音的识别,由于计算机技术的滞后,直到国家执行863计划后,语音识别技术和其他关键技术才得到一定的扶持,研究工作才步入了高速发展时期,目前我们的研究水平基本与国外接轨,在汉语语音识别已经处于领先水平,3.语音识别基本原理方法3.1语音识别基本原理语音识别其实是一个模式识别匹配的过程,语音系统一般可以分为前端处理和后端处理,如图1所示。
前端包括语音信号的输入,预处理,特征提取,后端是对数据库的搜索过程,分为训练和识别。
训练是对所建模型进行评估,匹配,优化,获得模型参数。
识别时一个专用的搜索数据库,获得前端数值后,在声学模型,语言模型,字典。
声学模型是通过训练来识别特定用户的语音模型和发音环境特征。
语言模型就涉及到中文信息处理的问题,在这要对语料库单词规则化建一个概率模型。
字典则列出了大量的单词和发音规则。
图1语音系统结构图具体过程如下,计算机先根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需要的模板,然后在识别过程中,计算机根据语音识别所需的模板。
然后在识别过程中,计算机根据语音识别的整体模型,讲计算机中以经存在的语音模板与输入语音信号的特征进行比较,并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板。
最后通过查表和判决算法给出识别结果。
显然识别结果的准确率与语音特征的选择,语音模型和语音模板的好坏,准确度有关。
语音识别的目标是把需要的语音特征向量序列X=x1,x2,…xt转化成词序列W=w1,w2…wn并输出,基于最大后验概率的语音识别模型如下式:找最可能的词序列W,要使得P(X|W)与P(W)乘积达到最大,其中P(X|W)是特征矢量序列X在给定W条件下的条件概率;P(W)是W独立于语音特征矢量的先验概率,λ是平衡声学模型与语言模型的权重。
3.2语音识别分类目前语音识别系统的分类主要有孤立语音和连续语音识别系统,特定人和非特定人语音识别系统,大词汇量和小词汇量语音识别系统,嵌入式/服务式模式。
自然语言只是在句尾或者文字需要加标点的地方有个间断,其他部分都是连续的发音,以前的语音系统,主要是对于单字单词这些孤立的语音系统。
近年来,连续语音系统已经渐渐成为主流。
根据声学模型建立的方式,特定人语音系统是在前期需要大量的用户发音数据来训练模型,非特定人系统则在系统构建成功后,用户不需要大量语音数据训练就可以使用。
在语音识别技术的发展过程中,词汇量是不断积累的,随着词汇量的增大,对系统的稳定性要求也越来越高,系统的成本也越来越高。
比如一个识别电话号码的系统只需要听懂十个数字就可以了,如果是一个订票系统就需要能识别各个地名,如果需要识别一个报道稿,就需要一个大词汇量的语音系统。
嵌入式是将语音识别系统安装在终端设备,比如手机移动终端,识别过程在终端进行。
如果是服务器模式,终端是需要收集传导语音信号,服务器进行识别过程。
因此对大规模、多用户和大量识别需求的系统,服务器模式可以提供一个有效的解决方案,另外服务器对用户知识需求少,系统整体的更新升级维护更加方便。
4.语音识别的主要模型4.1样本匹配法语音识别模型通常有声学模型和语言模型,语言模型能否表达自然语言所包含的丰富语言学知识,是语音识别系统性能好坏的关键。
主要的语音识别分类方法有样本匹配法,吧特征缝隙提取的一组随时间而变特征矢量序列和事先通过学习后存在机器里的样本序列进行比较,输入特征序列和存储的样本通过一定失真准则比较后可找到和输出特征矢量序列最接近的样本序列,由于自然语言语言速度不是恒定的,故动态时间归正方法是样本匹配法成功的关键。
4.2隐马尔科夫(HMM)模型HMM是目前最强有力的语音识别算法,是对语音信号的时间序列结构所建立的统计模型,是在马尔科夫链的基础上发展起来的。
对语音识别系统而言,通常HMM模型有两个假设前提,一是内部状态的转移只与上一状态有关,一是输出值只与当前状态或当前状态转移有关,除了这两个假设外,他还假设语音是一个严格的马尔科夫过程。
他说一种基于参数模型的统计识别方法,可以视作一个双重随机过程,来模仿人的言语过程,比如用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫链的每一个状态相关联的观测序列的随机过程。
通常我们从左向右的单向的、带自环的、带跨越的HMM拓扑结构来对识别基本建模。
例如一个音素对应一个三至五状态的HMM,一个词对应于构成该词的多个音素的HMM串,而连续语音则对应于词和静音组合起来的HMM串。
HMM模型在某状态j下对应的观察值可以由一组概率bk,k=1,2…m,来描述,它是M个离散可数的随机变量X,也可以由一个观察概率密度函数bj(X)表示,这就是一个连续的HMM,目前运用最广泛的是高斯型,如下公式:4.3人工神经网络(ANN)模型多层神经网络广泛应用于语音模型,不同层之间的神经元通过一定加权系数相互连接,这些加权系数可以在训练过程中学习。
通过模拟人类神经元活动原理,具有自学,联想对比,推理和概括能力。
单个神经元模型如下图:图2单个神经元模型Yk代表某一时刻神经元k的输出,f为激活函数,uk表示第k个神经元的净输入,通过下式计算:x1,x2…xm表示共有m个输入,wk1…wkm分别对应于每个输入的权值,bk称为偏置值,其中激活函数f在该模型中起着很重要的作用,因为一个神经网络分类或者是函数逼近能力,除了和网络拓扑结构有关,还与激活函数有密切的关系,一般传输函数用来控制输入对输出的激活作用以及限制神经元输出的范围既可以将无限输入映射到有限的输出。
现在主流的神经网络有前馈神经网络,它具有很强的学习能力,且结构清晰,便于编程,该网络可以用一个有向无环图表示如下图:图3多层前馈神经网络图5.语言识别的难点及未来发展趋势语音识别面临的主要困难是理论上没有突破,虽然出现了很多新的修正方法,但在识别速度,关键词检测等仍有许多问题亟待解决。
这些困难主要表现在:(1)语音识别对环境依赖性强,经过某一环境的训练学习后,在别的环境下性能有一个急剧的下降。
(2)高噪音环境下语音识别困难,此时对语音不同音频的抽取也很困难。
(3)模型算法大都存在一定缺陷,比如经典的HMM语音识别模型在一些重要方面也有缺陷,既不符合语音信号的实际情况,又使得模型需要的训练量太大,目前以及提出各种HMM改进算法也加入了遗传算法,并行算法等新技术使得HMM的训练和识别更加准确。
(4)我们人类的听觉理解,知识积累学习机制和人脑神经系统的控制机理等方面的认识还不是很清楚,所以仍然有一些技术上的难关。
(5)语音系统涉及众多领域的学科,像语音学,人工智能,模式识别,数理统计,通信学,计算机科学甚至心理学,因此这些学科的发展也制约着语音识别。
语音识别技术是非常重要的人机交互技术,应用语音的自动理解和翻译,可消除人类相互交往语言障碍。