语音识别文献综述
- 格式:doc
- 大小:57.50 KB
- 文档页数:8
英语语音学习策略研究文献综述一、引言语音是语言的物质外壳, 也是口语交际的载体。
顺利完成跨文化交流活动离不开语言的支撑, 要学会说任何一种语言, 首先要掌握这种语言的语音语调。
语音学习在整个英语学习中具有先导作用, 正确的语音对于听力理解至关重要, 还能帮助我们在学习词汇的过程中把单词的音, 形, 义联系起来, 甚至可以提高阅读和写作的水平。
现代英语教学强调对学生交际能力的培养。
交际能力有四个层次, 分别是语法能力, 社.会语言能力, 策略能力以及语篇能力(Canale &Swain, 1980)。
语音作为语言的必要组成部分, 也当属于语言能力的范畴(Scarcella &Oxford, 1994)。
一个人发音的好坏能够直接影响交际活动。
英语语音通常被划分为音段和超音段两大部分。
音段即元音和辅音, 超音段是话语中大于单个音段的发声单位, 重音, 节奏和语调决定话语的可理解性, 是重要的超音段特征。
英语语音学习策略指学习者为提高英语学习成效而采取的技巧, 方法或者刻意的行为或行动。
詹金斯(Jenkins)在他的实证研究中发现, 在以英语作为国际语的人际交流中, 尽管不是所有的交际失败都由发音引起, 但目前发音是引起交际失败最经常, 最难解决的原因。
因此, 语音语调在完成交际任务时承载着不可替代的基本要素的作用。
同时, 研究表明, 学习者的语音水平和他们的听力, 口语甚至阅读水平密切相关。
因此, 语音及语音教学在国内外外语教育研究中占有重要地位。
尽管如此, 语音教学同其他相关教学领域(如词汇教学, 语法教学等)的研究相比, 没有得到应有的重视(Kelly, 1967)。
语音教学是外语教学的一个重要方面, 而从学习者角度出发关注学生语音学习策略和英语语音教学的研究在国内外都很少。
二、国外研究国外的早期文献中没有专门针对语音学习策略的研究, 例如有学者于1978年调查了34名优秀的语言学习者, 在要求被试者描述自己学习经验的过程中只是从一个侧面提及了语音学习策略。
科技文献综述范文科技文献综述应由本人根据自身实际情况书写,以下仅供参考,请您根据自身实际情况撰写。
科技文献综述是对某一领域内科技文献的综合评价和总结,它可以帮助读者快速了解该领域的研究现状和发展趋势。
撰写科技文献综述需要遵循一定的结构和格式,以下是一个科技文献综述的范文,供您参考。
题目:人工智能在自然语言处理领域的应用研究综述摘要:本文对人工智能在自然语言处理领域的应用研究进行了综述,介绍了自然语言处理的基本概念、人工智能在自然语言处理领域的应用现状和未来发展趋势。
关键词:人工智能;自然语言处理;应用研究;综述一、引言自然语言处理(NLP)是人工智能领域中的一个重要分支,它涉及计算机对人类语言的处理和理解。
随着人工智能技术的不断发展,自然语言处理的应用范围越来越广泛,如语音识别、机器翻译、智能客服等。
本文旨在综述人工智能在自然语言处理领域的应用研究,介绍该领域的研究现状和未来发展趋势。
二、自然语言处理的基本概念自然语言处理是指计算机对人类语言的处理和理解,它包括语音识别、文本分析、机器翻译等多个方面。
自然语言处理的目的是让计算机能够理解和生成人类语言,从而更好地服务于人类。
三、人工智能在自然语言处理领域的应用现状目前,人工智能在自然语言处理领域的应用已经取得了很大的进展。
以下是几个典型的应用场景:1. 语音识别语音识别是自然语言处理的一个重要方面,它可以让计算机通过语音输入与人类进行交互。
目前,语音识别技术已经广泛应用于智能语音助手、语音搜索等领域。
2. 机器翻译机器翻译是指利用计算机自动将一种语言的文本转换为另一种语言的文本。
目前,机器翻译技术已经取得了很大的进展,能够实现快速、准确的翻译。
3. 智能客服智能客服是指利用人工智能技术实现自动回答用户问题的系统。
智能客服可以提高服务效率、降低成本,并提高用户体验。
四、未来发展趋势随着人工智能技术的不断发展,自然语言处理的应用前景越来越广阔。
未来,自然语言处理将会朝着以下几个方向发展:1. 多模态交互多模态交互是指将语音、图像、手势等多种模态的信息融合在一起,实现更加自然的交互方式。
自然语言处理文献综述自然语言处理(Natural Language Processing,NLP)是一种利用计算机技术处理人类自然语言的学科。
随着计算机技术的不断发展,NLP正在成为人工智能领域的热门研究方向。
本文将对近年来NLP领域的一些研究综述,并将这些研究按照以下列表分类:1. 语言模型语言模型一直是NLP领域的核心研究方向。
语言模型可以用来评估语句的概率,识别语音,机器翻译等。
2003年,Bengio等人提出了基于神经网络的语言模型,使语言模型性能得到了显著提高。
2013年,Google提出了谷歌神经机器翻译系统(Google Neural Machine Translation,GNMT),将神经网络应用于机器翻译,取得了较好的效果。
2. 文本分类文本分类是NLP领域的另一个重要研究方向。
它可以应用于垃圾邮件过滤、新闻分类等。
2013年,Kim提出了卷积神经网络(CNN)在文本分类中的应用,极大地提高了文本分类的性能。
2014年,Deng等人提出了一种基于深度学习的文本分类模型,获得了AlexNet大赛亚军,引起了广泛的关注。
3. 信息提取信息提取是NLP领域的另外一个研究方向。
其任务是从文本中抽取出特定的信息。
2011年,Yao等人提出了一种跨语言信息抽取模型,可以将不同语言的信息进行对齐处理。
2015年,Shu等人提出了一种基于远程监督的关系抽取方法,可以从未标注的文本中抽取出关系。
4. 语音识别语音识别是NLP领域中的一个重要应用方向。
随着智能家居市场的兴起,语音识别受到了越来越多的关注。
2016年,Amodei等人提出了一种基于深度学习的语音识别模型DeepSpeech,取得了较好的效果。
同年,Baidu提出了具有端到端学习的Deep Speech 2语音识别模型,并在多个数据集上取得了最佳成绩。
总体来说,神经网络与深度学习等技术的发展给NLP领域带来了新的机遇与挑战。
未来,随着研究的深入,NLP领域将会得到更多的发展与应用。
语音识别参考文献语音识别是一项广泛应用于人机交互、语音翻译、智能助手等领域的技术。
它的目标是将人的语音输入转化为可理解和处理的文本数据。
随着人工智能和机器学习的发展,语音识别技术也得到了极大的提升和应用。
在语音识别领域,有许多经典的参考文献和研究成果。
以下是一些值得参考和研究的文献:1. Xiong, W., Droppo, J., Huang, X., Seide, F., Seltzer, M., Stolcke, A., & Yu, D. (2016). Achieving human parity in conversational speech recognition. arXiv preprintarXiv:1610.05256.这篇文章介绍了微软团队在语音识别方面的研究成果,实现了与人类口语识别准确率相媲美的结果。
2. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal processing magazine, 29(6), 82-97.这篇文章介绍了深度神经网络在语音识别中的应用和研究进展,对于理解当前主流的语音识别技术有很大的帮助。
3. Hinton, G., Deng, L., Li, D., & Dahl, G. E. (2012). Deep neural networks for speech recognition. IEEE Signal Processing Magazine, 29(6), 82-97.这篇文章是语音识别中的经典之作,介绍了深度神经网络在语音识别中的应用和优势。
大模型文献综述大模型是指参数量巨大,能够处理复杂任务的人工神经网络。
近年来,随着深度学习的不断发展,大模型在机器学习领域取得了很大的进展,尤其在自然语言处理、图像识别和语音识别等领域。
以下是大模型在相关领域的文献综述:1. 自然语言处理自然语言处理是人工智能领域的一个重要分支,它涉及到如何让计算机理解和生成人类语言的问题。
大模型在自然语言处理领域的应用主要表现在语言模型和生成模型两个方面。
语言模型是一种基于统计的模型,它能够根据上下文预测一个词或短语的可能性。
目前最广泛使用的语言模型是Transformer和GPT系列模型。
这些模型通常包含数亿甚至数十亿的参数,能够处理复杂的语言任务,如文本分类、情感分析、摘要生成等。
生成模型是一种能够根据输入的文本生成相似内容的模型。
目前最著名的生成模型是GAN和Diffusion。
GAN通过生成器和判别器的对抗训练来生成新的图像或文本,而Diffusion则通过逐步添加噪声来逐步生成文本或图像。
这些模型在图像生成、文本生成和语音生成等方面都有广泛的应用。
2. 图像识别图像识别是计算机视觉领域的一个重要分支,它涉及到如何让计算机自动识别和理解图像中的内容。
大模型在图像识别领域的应用主要表现在卷积神经网络(CNN)和生成对抗网络(GAN)等方面。
CNN是一种专门用于图像处理的神经网络,它通过卷积运算对图像进行特征提取,然后使用全连接层进行分类。
近年来,随着深度学习技术的不断发展,CNN的参数量和层数不断增加,出现了很多大规模的CNN模型,如VGG、ResNet和Inception等。
这些模型在图像分类、目标检测和语义分割等方面都取得了很好的效果。
GAN是一种能够生成新图像的模型,它由生成器和判别器两部分组成。
生成器的任务是根据输入的噪声生成新的图像,而判别器的任务则是判断生成的图像是否真实。
通过训练,GAN能够生成各种风格的图像,如手写文字、人脸等。
近年来,GAN在图像生成和图像修复等方面得到了广泛应用。
语音信号处理的现状和展望作者:指导老师:摘要:文章简要介绍了“语音信号处理这一分支学科形成和发展的历史过程。
指出了它在现代信息科学技术中的地位和作用。
介绍了语音信号处理在应用领域的一些重要课题 ,如语音的低速率编码 ,语音的规则合成和文- 语转换系统 ,语音识别和人-机语音对话等 ,这些仍然是当前研究的热点。
文章最后展望了语音信号处理的发展前景 ,指出在这个领域还有很多难题等待人们去研究探索。
关键词:语音信号处理;语音低速编码;语音识别Current status and prospects of speech signal processingAuthor TutorAbstract: The history of speech signal processing and its status in modern informatics and information technology is reviewed.In practical app lica tions, key techniques such as low bit rate speech encoding, speech synthesis by rule, text to speech conversion, speech recognition, speech dialogue between man and machine are still hot topics for current research.Though much has been achieved in past years, there are many problems to be solved.Future developments of speech signal processing are identified.Key words : speech signal processing;low rate speech coding;speech recognition前言(引言):语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。
语音识别毕业论文语音识别毕业论文语音识别是一项旨在将人类语音转化为可被计算机理解和处理的技术。
它在人工智能领域中扮演着重要的角色,被广泛应用于语音助手、语音控制和语音翻译等领域。
本篇论文将探讨语音识别的原理、应用和未来发展趋势,以及相关的挑战和解决方案。
一、语音识别的原理语音识别的核心原理是将语音信号转化为文本信息。
这个过程可以分为三个主要步骤:信号预处理、特征提取和模型训练。
首先,语音信号经过预处理,包括降噪、去除不相关的信号和语音分割等。
然后,从预处理后的语音信号中提取特征,常用的特征包括梅尔频率倒谱系数(MFCC)和线性预测编码(LPC)。
最后,使用机器学习算法,如隐马尔可夫模型(HMM)和深度学习模型,对提取的特征进行训练和识别,得到最终的文本输出。
二、语音识别的应用语音识别技术在各个领域都有广泛的应用。
其中最为人熟知的是语音助手,如苹果的Siri和亚马逊的Alexa。
通过语音识别,用户可以通过语音指令控制智能设备,进行日常操作,如发送短信、播放音乐和查询天气等。
此外,语音识别还被应用于语音翻译、语音识别课堂、语音控制汽车等领域,极大地方便了人们的生活。
三、语音识别的挑战尽管语音识别技术已经取得了巨大的进步,但仍然存在一些挑战。
首先,语音识别需要处理各种不同的语音信号,如不同的语言、口音和噪声环境等。
这使得模型的训练和适应变得更加困难。
其次,语音识别需要处理大量的数据,这对计算资源和存储空间提出了巨大的要求。
此外,语音识别还需要解决语义理解和上下文推理等问题,以提高识别的准确性和可靠性。
四、语音识别的解决方案为了应对语音识别的挑战,研究者们提出了一系列的解决方案。
首先,通过使用更加先进的特征提取算法和模型训练方法,可以提高语音识别的准确性和鲁棒性。
其次,结合其他的人工智能技术,如自然语言处理和知识图谱,可以进一步提高语音识别的语义理解和上下文推理能力。
此外,利用云计算和分布式计算等技术,可以解决语音识别中的计算和存储问题。
语音辨别技术综述语音辨别技术综述电子信息工程2010 级 1 班郭珊珊【纲要】跟着计算机办理能力的快速提升,语音辨别技术获得了飞快发展,该技术的发展和应用改变了人们的生产和生活方式,正逐渐成为计算机办理技术中的要点技术。
语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。
【要点词】语音辨别;语音辨别原理;语音辨别发展;产品语音辨别是以语音为研究对象,经过语音信号办理和模式辨别让机器人自动辨别和理解人类口述的语言。
语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。
1语音识其余原理语音辨别系统本质是一种模式辨别系统,包含特色提取、模式般配、参照模式库等三个基本单位元。
未知语音经过话筒变换成电信号后加载识别系统的输入端,第一经过预办理,再依据人的语音特色成立语音模型,对输入的语音信号进行剖析,并抽取所需特色,在此基础上成立语音辨别所需的模板。
计算机在辨别过程中要依据语音识其余模型,将计算机中寄存的语音模板与输入的语音信号的特色进行比较,依据必定的搜寻和般配策略,找出一系列最优的与输入语音般配的模板。
而后依据此模板的定义,经过查表可给出计算机的辨别结果。
这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。
2语音辨别系统的分类语音辨别系统能够依据对输入语音的限制加以分类。
2.1 从说话者与辨别系统的有关性考虑能够将辨别系统分为 3 类: (1) 特定人语音辨别系统:仅考虑关于专人的话音进行识别; (2) 非特定人语音系统:识其余语音与人没关,往常要用大批不一样人的语音数据库对识别系统进行学习; (3) 多人的辨别系统:往常能辨别一组人的语音,或许成为特定组语音辨别系统,该系统仅要求对要识其余那组人的语音进行训练。
2.2 从说话的方式考虑也能够将辨别系统分为 3 类: (1) 孤立词语音辨别系统:孤立词辨别系统要求输入每个词后要停留; (2) 连结词语音辨别系统:连结词输入系统要求对每个词都清楚发音,一些连音现象开始出现; (3) 连续语音辨别系统:连续语音输入是自然流畅的连续语音输入,大批连音和变音会出现。
噪音环境下的语音识别1.引言随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。
为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究.语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。
2.语音识别的发展历史和研究现状2.1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。
20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。
与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。
20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。
隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。
删的研究使大词汇量连续语音识别系统的开发成为可能。
20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。
许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。
当今,基于HMM和ANN相结合的方法得到了广泛的重视。
而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。
2.2国内语音识别的发展状况20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才由中科院声学所开始进行计算机语音识别的研究.80年代开始,很多学者和单位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别,到非特定人、大词汇量连续语音识别的研究工作.80年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。
90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。
但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。
因此,对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义.2.3语音识别的分类语音识别存在不同的分类方法:(1)按词汇量大小分。
每个语音识别系统都有一个词汇表,系统能识别词汇表中所包含的词条。
通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词汇量包括10~100个词;中词汇量大约包括100~500个词条;大词汇量则至少包含500个以上的词条。
(2)按发音方式分。
语音识别可以分为孤立词识别、连续词识别、连续语音识别以及关键词检出等。
孤立词识别,是机器只识别一个个孤立的音节、词或者短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词识别中,发音方式介于孤立词和连续语音之间,它表面上看起来象连续语音发音,但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由交谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别.(3)按说话人分.可分为特定说话人和非特定说话人两种。
前者只能识别固定某个人的声音,而后者是机器能识别出任意人的发音。
(4)从语音识别的方法分.有模式匹配法、随机模型法和概率语法分析法。
模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决.2.4噪声对语音识别的影响随着科技的发展,人们对语音识别的研究越来越深入,在理论上达到了很成熟的阶段,也开始步入实用化阶段。
以mM的ViaV oice为代表,其对连续语的识别率可以达到95%以上.但是所有识别系统对噪声都是极为敏感的,在噪声环境下,识别性能会大幅度下降州.例如,在一个典型的孤立词识别系统中,用纯净语音训练,识别效果会达到100%,但在以100公里每小时的速度行驶的小车上,其识别率将下降70%左右;一个用纯净语音训练的识别系统,误识率不到l%,但是在自助餐厅里,其误识率竟然上升近50%:一个与说话者无关的语音识别系统,在实验室环境下其误识率不到l%,但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音,其错误率将高达44%。
在噪声环境下,识别系统的识别率大幅度下降,是现在语音识别产品无法广泛走入实用的主要障碍。
在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。
在实验室环境下,训练环境相对安静,基本上是对纯净语音迸行训练,模板库的特征矢量。
是通过提取纯净语音的特征参数得到的。
但是在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大幅度下降。
为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:(1)假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度.(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数.这种方法被称为语音增强。
(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声补偿.无论使用哪种方法消除噪声,我们首先要了解噪声。
根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类.(1)如性噪声噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的和,这种噪声就是所谓的加性噪声。
语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声.(2)乘性噪声乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷积关系的噪声。
乘性噪声可以转换为加性噪声.由于实际环境中的背景噪声多数是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。
我们在后面讲到的去噪,也是指去除加性噪声。
2.5语音增强方法由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。
一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法[ 3~4 ] 、子空间的方法[ 5~6 ]等;第二类是频域方法,例如减谱法[ 7~9 ] 、自适应滤波法[ 11 ] ,以及基于马尔可夫模型滤波方法[ 12 ]等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。
2.6时域方法1. 基于参数和模型的方法。
基于参数和模型的方法通常有两大类[ 10 ] :分析合成法和利用滤波器进行滤波处理的方法。
前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。
通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数) 。
后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。
而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。
在实际应用中有时也会把两者合并在一起相互补充。
具体来说主要有以下几种方法。
(1)最大后验概率估计法最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。
此种算法适用于高斯白噪声。
它在一定程度上能消除噪声,提高信噪比。
但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。
而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。
(2)卡尔曼滤波法[ 1, 3 ]卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。
因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。
卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。
卡尔曼滤波的优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。
(3)梳状滤波器法[ 1 ]语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。
梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。
这种方法的关键是要准确估计出语音信号的基音周期。