基于GMM-UBM的飞机发动机声音 识别方法研究
- 格式:pdf
- 大小:460.21 KB
- 文档页数:7
说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
多媒体技术实验报告——基于GMM-HMM的语音识别:学号:2015年5 月24 日目录——基于GMM-HMM的语音识别1一、马尔科夫初步概念理解3(一)两个重要的图3(二)问题:马尔科夫的开始状态如何确定?4二、马尔科夫的三种问题,以与解法4(一)解码,4解法一:最大似然路径4解法二 : Viterbi algorithm4(二)A,B,根据骰子掷出的结果,求出掷出这个结果的概率〔模型检验〕6解法一:穷举6解法二:前向算法6(三)知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果〔可见状态链〕,我想反推出A。
6三、HMM算法使用条件6(一)隐性状态的转移必须满足马尔可夫性6(二)隐性状态必须能够大概被估计。
6四、EM算法GMM〔高斯混合模型〕。
7(一)单高斯分布模型GSM8(三)样本分类情况下的GMM9(四)样本分类未知情况下的GMM9五、HMM-GMM模型在语音识别中的应用11(一)语言识别的过程11(二)其中HMM与GMM的作用12六、实验结果12(一)代码阅读以与注释12(二)实验结果比照12(三)与DTW结果比照13(四)实验感想与收获错误!未定义书签。
(五)困难与改良错误!未定义书签。
一、马尔科夫初步概念理解(一)两个重要的图(二)问题:马尔科夫的开始状态如何确定?二、马尔科夫的三种问题,以与解法(一)解码,A,B〔隐含状态的数量以与转换概率以与B〕,根据掷骰子掷出的结果〔可见状态链〕,想知道每次掷出来的都是哪种骰子〔隐含状态链〕解法一:最大似然路径➢根本思想:求一串骰子序列,这串骰子序列产生观测结果的概率最大➢算法:穷举解法二 : Viterbi algorithm,求出每次掷出的骰子分别是某种骰子的概率➢根本思想:➢算法: 类似于动态规划;:(二)A,B,根据骰子掷出的结果,求出掷出这个结果的概率〔模型检验〕解法一:穷举➢思想:穷举所有骰子序列〔〕,计算每个骰子序列对应的概率,然后把这些概率相加➢算法:呵呵解法二:前向算法➢根本思想:结果递推,有点像动态规划,就是一步一步往后算,通过前向算法,算出概率加和,其中要用到A和B(三)知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果〔可见状态链〕,我想反推出A。
语音识别中的声纹识别与说话人鉴别算法研究第一章:介绍语音识别技术作为一种重要的人机交互方式,在现代社会中得到了广泛的应用。
然而,传统的语音识别技术只能根据语音中的文字内容进行识别和分析,无法对说话人的身份进行准确鉴别。
为了解决这一问题,声纹识别与说话人鉴别算法应运而生。
第二章:声纹识别算法声纹识别算法是一种通过分析和比对语音中的声学特征,来进行说话人身份鉴别的技术。
这些声学特征包括说话人的音调、音色、语速、共振特征等。
声纹识别算法主要包括特征提取、特征匹配和建模三个步骤。
特征提取是声纹识别算法的核心步骤,它通过对声音信号进行分析和处理,提取出代表说话人特征的声学信息。
常用的声纹特征包括MFCC(梅尔频率倒谱系数)、LPCC(线性预测倒谱系数)等。
这些特征具有较好的抗噪能力和鲁棒性,可以有效区分不同说话人的声音。
特征匹配是声纹识别算法的关键步骤,它通过比对提取出的声纹特征与数据库中存储的声纹样本进行相似度计算,从而判断说话人的身份。
常用的特征匹配方法包括动态时间规整(DTW)和高斯混合模型(GMM)等。
这些方法可以根据声纹特征之间的相似度计算出匹配得分,并进行后续的判断和决策。
建模是声纹识别算法中的重要环节,它通过对声纹样本进行建模,从而实现对说话人声纹特征的有效提取和表达。
常用的声纹建模方法包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
这些模型可以根据声纹样本之间的统计特性,进行声纹模型参数的训练和优化,提高声纹识别的准确度和稳定性。
第三章:说话人鉴别算法说话人鉴别算法是在声纹识别算法的基础上,进一步提出的一种精细化的说话人身份鉴别技术。
说话人鉴别算法主要解决的问题是在同一声纹特征下,对多个说话人进行区分和判别。
常用的说话人鉴别算法包括GMM-UBM(GMM-Universal Background Model)和i-vector算法等。
GMM-UBM是一种经典的说话人鉴别算法,它通过建立一个通用背景声纹模型(UBM),对不同说话人的声纹进行建模和比对。
基于说话人识别的声纹识别系统设计与优化声纹识别技术是一种利用个体声音特征进行身份认证的技术。
在现今的安全领域中,声纹识别系统被广泛应用于语音账号密码验证、犯罪侦查和电话欺诈检测等领域。
为了提高声纹识别系统的准确性和性能,本文将介绍基于说话人识别的声纹识别系统的设计与优化,以帮助解决实际应用中可能面临的问题。
声纹识别系统的设计包括声学特征提取、特征表示和声纹匹配三个主要步骤。
而说话人识别作为声纹识别系统的一种重要任务,它的目的是识别不同说话人之间的声音差异。
根据说话人识别的原理和技术,声纹识别系统可以细分为以下几个方面的设计与优化。
首先,声纹特征提取是声纹识别系统的基础。
常用的声纹特征提取算法包括梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)和迁移学习等。
在声纹特征提取的过程中,应该考虑声音的频谱特性、寿命和噪声等因素,以提高系统对说话人的识别能力。
同时,合理选择特征提取算法,充分利用说话人的声音信息,还可以有效降低系统的运算复杂度。
其次,声纹特征表示是声纹识别系统的核心。
声纹特征表示的目的是将声音转化为可评估和比较的向量。
常用的声纹特征表示方法有高斯混合模型(GMM)、隐马尔可夫模型(HMM)和深度神经网络(DNN)等。
这些方法不仅考虑了声音的语音学特征,还结合了统计模型和机器学习技术,以提高说话人识别的准确性和鲁棒性。
同时,声纹特征表示方法还应注意对说话人的个体特征进行有效建模,提高系统的辨别能力。
最后,声纹匹配是声纹识别系统的决策过程。
声纹匹配的目标是将待识别的声音与已知说话人的声音进行比较,以判断是否来自同一说话人。
常用的声纹匹配方法有动态时间规整(DTW)、高斯混合模型—通用背景模型(GMM-UBM)和i-vector等。
这些方法可以通过比较声纹特征的相似度来进行说话人的识别。
在声纹匹配的过程中,应该考虑系统的鲁棒性和对噪声环境的适应能力,以确保系统在实际应用中能有更好的效果。
声纹识别(说话⼈识别)技术说话⼈识别(Speaker Recognition,SR),⼜称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声⾳来识别出来“谁在说话”,是根据语⾳信号中的说话⼈个性信息来识别说话⼈⾝份的⼀项⽣物特征识别技术。
便于⽐较,语⾳识别(Automatic Speech Recognition,ASR)是通过声⾳识别出来“在说什么”。
为了简便,后⽂统⼀称为VPR。
传统的VPR系统多是采⽤MFCC特征以及GMM模型框架,效果相当不错。
后续也出现了基于i-vector,深度神经⽹络的等更多的算法框架。
【持续更新……】基础声纹识别的理论基础是每⼀个声⾳都具有独特的特征,通过该特征能将不同⼈的声⾳进⾏有效的区分。
这种独特的特征主要由两个因素决定,第⼀个是声腔的尺⼨,具体包括咽喉、⿐腔和⼝腔等,这些器官的形状、尺⼨和位置决定了声带张⼒的⼤⼩和声⾳频率的范围。
因此不同的⼈虽然说同样的话,但是声⾳的频率分布是不同的,听起来有的低沉有的洪亮。
每个⼈的发声腔都是不同的,就像指纹⼀样,每个⼈的声⾳也就有独特的特征。
第⼆个决定声⾳特征的因素是发声器官被操纵的⽅式,发声器官包括唇、齿、⾆、软腭及腭肌⾁等,他们之间相互作⽤就会产⽣清晰的语⾳。
⽽他们之间的协作⽅式是⼈通过后天与周围⼈的交流中随机学习到的。
⼈在学习说话的过程中,通过模拟周围不同⼈的说话⽅式,就会逐渐形成⾃⼰的声纹特征。
因此,理论上来说,声纹就像指纹⼀样,很少会有两个⼈具有相同的声纹特征。
美国研究机构已经表明在某些特点的环境下声纹可以⽤来作为有效的证据。
并且美国联邦调查局对2000例与声纹相关的案件进⾏统计,利⽤声纹作为证据只有0.31%的错误率。
⽬前利⽤声纹来区分不同⼈这项技术已经被⼴泛认可,并且在各个领域中都有应⽤。
⽬前来看,声纹识别常⽤的⽅法包括模板匹配法、最近邻⽅法、神经元⽹络⽅法,VQ聚类法等。
语谱图是声⾳信号的⼀种图像化的表⽰⽅式,它的横轴代表时间,纵轴代表频率,语⾳在各个频率点的幅值⼤⼩⽤颜⾊来区分。
联合HMM-UBM与RVM的声纹密码识别算法胡志隆;文畅;谢凯;贺建飚【摘要】针对声纹密码识别中声纹文本信息利用率低和噪音干扰的问题,提出隐马尔科夫模型-通用背景模型(HMM-UBM)融合相关向量机(RVM)的声纹识别算法.利用HMM-UBM对语音信号进行时序建模,使用RVM学习得到每位注册话者语音的分类信息.通过对待识别话者建立HMM模型,并将RVM作为分类器进行判决决策得到分类结果.实验结果表明,与GMM-UBM算法和GMM-SVM算法相比,在无噪声环境下,该算法错误接收概率降低7%~9%,识别正确率提高4%~5%,在低信噪比环境下,其识别正确率提高5%~12%.【期刊名称】《计算机工程》【年(卷),期】2018(044)011【总页数】6页(P129-134)【关键词】声纹识别;隐马尔科夫模型;通用背景模型;相关向量机;语音信号【作者】胡志隆;文畅;谢凯;贺建飚【作者单位】长江大学电子信息学院,湖北荆州434023;长江大学计算机科学学院,湖北荆州434023;长江大学电子信息学院,湖北荆州434023;中南大学信息科学与工程学院,长沙410083【正文语种】中文【中图分类】TP3090 概述语音识别是一种生物识别技术,获取方法简单且成本低廉。
相比于人脸识别、虹膜识别等技术,语音识别使用者的接受程度更高,因此,其被广泛应用于医疗、社保、金融及公共场所的安全认证等领域。
而声纹密码识别作为文本相关的语音识别方法,用文本的上下文关系和话者声道信息保护说话人的信息安全,与文本无关的语音识别方法相比,具有较高的安全性[1]。
目前,语音识别系统常采用高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),该算法应用话者的声道信息并通过全局背景模型解决训练样本少的问题,在文本无关的语音识别中取得较好的识别效用。
此外,随着人工神经网络(Artificial Neural Network,ANN)、支持向量机(Super Vector Machine,SVM)等机器学习方法的不断成熟,也出现类似GMM-SVM的融合算法[2-6]。
《基于GMM-UBM模型的说话人识别系统》篇一一、引言随着信息技术的快速发展,说话人识别技术在众多领域中发挥着越来越重要的作用。
作为一种生物特征识别技术,说话人识别能够通过分析语音信号中的特征信息,实现准确、高效的身份验证。
其中,高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,简称GMM-UBM)作为说话人识别的重要方法之一,因其出色的性能和适应性而备受关注。
本文将详细介绍基于GMM-UBM模型的说话人识别系统,并探讨其高质量实现的关键因素。
二、GMM-UBM模型概述GMM-UBM模型是一种基于概率密度的说话人识别模型。
其中,GMM用于描述每个说话人的声纹特征,UBM则描述了通用背景下的语音特征。
该模型通过将每个说话人的GMM与UBM 进行比较,提取出区分不同说话人的特征,从而实现说话人识别。
三、系统架构基于GMM-UBM模型的说话人识别系统主要包括预处理、特征提取、模型训练和识别四个部分。
1. 预处理:对输入的语音信号进行预处理,包括去噪、归一化等操作,以便后续的特征提取和模型训练。
2. 特征提取:从预处理后的语音信号中提取出能够反映说话人特征的关键参数,如MFCC(Mel频率倒谱系数)等。
3. 模型训练:利用提取的特征参数,训练GMM和UBM模型。
其中,GMM用于描述每个说话人的声纹特征,UBM用于描述通用背景下的语音特征。
4. 识别:将待识别的语音信号进行相同的预处理和特征提取操作后,与已训练的GMM和UBM模型进行比较,实现说话人识别。
四、高质量实现的关键因素1. 数据预处理:数据预处理是提高说话人识别系统性能的关键因素之一。
通过去噪、归一化等操作,可以提高语音信号的质量,减少噪声和干扰对系统性能的影响。
2. 特征提取:特征提取是说话人识别系统中的核心环节。
通过提取出能够反映说话人特征的关键参数,如MFCC等,可以提高系统的识别准确率。
专利名称:一种基于SVM-GMM模型的语音识别方法
专利类型:发明专利
发明人:祝玉军,刘波,方群,何昕,赵大东,刘毅杨,康龙龙,方银银
申请号:CN201811584656.7
申请日:20181224
公开号:CN109461457A
公开日:
20190312
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于SVM‑GMM模型的语音识别方法,包括声音数据模块、GMM分类器模块、SVM分类器模块、投票模块和决策模块。
本发明的有益效果是:本发明将高斯混合模型和支撑向量机模型结合起来建立SVM和GMM的混合模型,其混合模型的辨识度优异于独立的GMM模型及独立的SVM模型,采用GMM‑SVM多模型语音识别方法相较于与传统单个GMM及SVM分类器在辨识能力上有着大幅度的提升,使得识别性能更佳,有良好的经济效益和社会效益,适合推广使用。
申请人:安徽师范大学,赛尔网络有限公司
地址:241000 安徽省芜湖市九华南路189号
国籍:CN
代理机构:北京国坤专利代理事务所(普通合伙)
代理人:黄耀钧
更多信息请下载全文后查看。
基于SDC特征和GMM-UBM模型的自动语种识别姜洪臣;郑榕;张树武;徐波【摘要】本文提出了一种基于SDC特征和GMM-UBM模型的自动语种识别方法.SDC特征由许多语音帧的一阶差分谱连接扩展而成,与传统的MFCC特征相比,包含了更多的时序特征信息.UBM模型反映了所有待识别语种的特征分布特性,借助贝叶斯自适应算法可以快速得到每个语种的模型.与传统的GMM方法相比,该方法的训练和识别的速度更快.该方法对OGI电话语音库中11个语种进行了测试,其10秒、30秒和45秒句子的最佳识别正确率分别为72.38%、82.62%和85.23%,识别速度约为0.03倍实时.【期刊名称】《中文信息学报》【年(卷),期】2007(021)001【总页数】5页(P49-53)【关键词】计算机应用;中文信息处理;SDC特征;GMM-UBM模型;贝叶斯自适应;自动语种识别【作者】姜洪臣;郑榕;张树武;徐波【作者单位】中国科学院,自动化研究所,北京,100080;中国科学院,自动化研究所,北京,100080;中国科学院,自动化研究所,北京,100080;中国科学院,自动化研究所,北京,100080【正文语种】中文【中图分类】TP3与说话人识别、语音识别不同,自动语种识别是通过分析处理一个语言句子,由计算机自动识别其所属语言的语种。
随着信息时代的到来,自动语种识别在信息检索和安全领域都有很重要的应用,比如多语种信息服务、机器自动翻译和跨语言通信系统的前端处理等。
近年来,国际上对自动语种识别进行了广泛的研究,提出了各种各样的方法。
NIST多年的评测表明,基于音素识别器(PPRLM)的方法识别性能最好[1],其原理是语音信号经过特征提取之后,通过多个平行的音素识别器生成音素串序列,由这些序列训练各语种的N-gram语言模型,然后由这些语言模型对测试句子的音素串序列打分,取得分最大的语言模型所对应的语种作为所识别的语种。
尽管基于PPRLM的方法识别性能最好,但是由于其需要大量人工标记的语料训练识别器,不容易扩展识别新的语种,再加上其训练和识别速度很慢,所以很难在一些实际应用中使用。
基于GMM-UBM的语言辨识算法研究陈业仙;张歆奕;毛杰【摘要】运用Matlab软件,以自已建立的语音数据库为基础,对与文本无关的基于GMM-UBM的语言辨识系统进行了测试,获得的平均识别率达74%,与传统GMM 算法的测试对比,基于GMM-UBM的语言辨识算法能更好地改善语言辨识系统的性能.【期刊名称】《五邑大学学报(自然科学版)》【年(卷),期】2010(024)003【总页数】5页(P56-60)【关键词】语言辨识;高斯混合-全局背景模型;期望最大化;贝叶斯自适应算法【作者】陈业仙;张歆奕;毛杰【作者单位】五邑大学,信息工程学院,广东,江门,529020;五邑大学,信息工程学院,广东,江门,529020;五邑大学,信息工程学院,广东,江门,529020【正文语种】中文【中图分类】TP391.4随着信息时代的快速发展,全球合作日趋频繁,语言辨识技术越来越受到人们的关注. 语言辨识是计算机分析处理一个语音片断并判别其所属语言种类的过程[1],主要用在信息检索和机器翻译等领域,作为自动翻译、自动转换、多语种通信系统等的前端处理技术[2]. 本文提出了基于GMM-UBM的语言辨识算法,以期改善语言辨识系统的性能,获得更好的识别率和系统移植性.高斯混合模型GMM本质上是一种状态数为1的连续分布的隐马尔可夫模型(Hidden Markov Model, CDHMM). 一个阶GMM可由个高斯概率密度函数加权求和得到,即:其中是一个维随机向量序列;是混合权重,,且设,这样就可以保证混合密度能代表一个真正的概率密度函数;是混合密度的分量,,由它组成的维联合高斯概率分布表达式为其中是均值向量,是协方差矩阵.完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,即因此,对于给定的矢量序列,利用GMM求得对数似然度如下:在运用期望最大化(EM)算法训练GMM时,必须确定GMM的高斯混合密度数和的初始值. 我们首先对训练矢量样本集进行聚类分析,然后估计各类均值矢量和方差矢量,并将其作为GMM中各分量的初始值. 常用的GMM参数估计方法是最大似然估计法,我们采用EM迭代算法实现对参数的估计. EM算法在迭代时是从参数的一个初值开始,即每次迭代时,有,为迭代的次数,用混合权值、均值、方差的重估公式得到新的模型参数,新参数再作为当前参数进行迭代训练,直到模型收敛.本文用EM算法进行50次迭代实验得到GMM,实验结果如图1所示. 由图1可知:得到的似然函数是单调递增的,且最后收敛.在语言辨识系统中,高斯混合-全局背景模型(GMM-UBM)是一个与语言无关的背景模型,它利用除目标语言外的所有训练数据获得一个语言UBM,基于GMM-UBM的语言辨识系统框图见图2[3].训练语音首先需要经过预处理和特征提取,然后通过均值聚类和EM迭代算法训练一个与语种无关的UBM,再通过贝叶斯自适应算法获得每种目标语言的GMM. 对于一个给定的UBM和某种语言的训练矢量序列,,与EM一样,计算每一个的后验概率值,再利用和重新计算充分统计量(包括权重、均值向量和方差参数),然后利用这些新的充分统计量来更新原来的UBM参数. 新的充分统计量公式如下:其中,. 通过贝叶斯自适应算法获得的每种目标语言的GMM参数:,;自适应系数,,参数和控制着旧估计和新估计之间的均衡. 在GMM-UBM系统中,一般采用一种简单的自适应系数(与参数无关),尺度因子确保自适应混合权值的和等于l,通常取[2]87.由于每个GMM是从UBM中自适应计算得到的,所以它们可以共享UBM的高斯分量[3]51,这样,对数似然比的计算可以通过快速算法得到. 因此,在计算各种语言GMM的概率时,先计算UBM的个高斯分量的混合概率,然后选择UBM中最佳的个混合分量,并且利用最佳个混合分量计算目标语言模型的似然值. 对于具有个混合成员的UBM,每个矢量只需次高斯运算,而通常的似然比计算需次高斯计算,因此UBM大大节省了计算量. 实际计算中,取[4]. 对于给定的测试语音,在经过预处理和特征提取后,可以用以下公式求对数似然比.其中,是从UBM模型中通过贝叶斯自适应算法得到的每种语言的模型.以网络下载、光盘、磁带及真实环境下录制的数据自建语音数据库并作为本文采用的实验数据.信号以8 kHz进行采样,16 bit量化. 语音经预加重后通过加窗得到语音帧,加窗选用256点(32 ms)的汉明窗,帧移为l6 ms并去除静音帧和低能量帧,特征参数是提取12阶的LPCC倒谱系数. 训练阶段,用所有语种数据训练得到UBM后,通过贝叶斯自适应算法快速获得每种语言的GMM;识别阶段,计算每段输入语音的对数概率分数,最终判别语言的种类.我们通过改变训练语音数据的长度、高斯混合密度数和测试语音数据的长度等系统参数,分别对GMM和GMM-UBM模型进行实验,以了解系统的性能.训练时,选取10位固定说话人,用中文和英文2种语言,建立中文GMM模型.测试时进行开集、闭集实验,闭集实验数据是来自相同说话人的训练与测试语音数据,开集实验数据是来自不同说话人的训练与测试语音数据,中文为目标语言,英文为闯入者语言,实验内容如下:1)固定和,改变;2)固定和,改变;3)固定和,改变. 实验结果见表1.训练时,选取10位固定的说话人,用中文和英文2种语言,建立中文GMM-UBM模型,测试时进行开集、闭集实验. 实验内容为:,,,实验结果见表1.由表1可知:GMM和GMM-UBM的性能都随着、及值的增大而有所提高,尤其在背景噪声及通道环境失配的条件下,GMM-UBM比GMM性能更好,如果仅用GMM进行建模,其鲁棒性较差. 因此推论,如果有足够的训练数据量和较高阶的GMM-UBM阶数,GMM-UBM比GMM有更高的识别率,能得到更好的效果. 但如果数据不够充分,这种变化效果并不明显.通过上述实验得知:GMM-UBM的性能在语言辨识中比GMM性能更好. 在此基础上,本文进行了更大规模的开集实验,实验结果如图3、图4所示.图3是采用100位中文说话人10 min的语音数据进行混合数为1 024的GMM,闯入者是英文和日文说话者各50位,每人30 s的测试数据. 由图3知:当阈值为时,该模型的语言辨识率是58%;在相同实验条件下,得到英文、日文的识别率分别为56%和54%.图4是采用中文、英文、日文各100位共30 min的语音数据、混合数为1 024的GMM-UBM,闯入者是英文和日文说话者各50位,每人30 s的测试数据. 由图4知:当阈值为时,该模型的语言辨识率是73%;在相同实验条件下,得到英文、日文的识别率分别为75%和74%. 实验结果见表2.由上述实验可知:用于训练的原始数据量越充分,系统的性能越好;GMM-UBM充分利用了GMM的优点,反映了所有待识别语种的特征分布,涵盖了更多语言的发音情况,且利用贝叶斯自适应算法能快速地分离出各种语言的GMM参数,得到每种语种的模型. 与传统的GMM方法相比,UBM方法的训练和识别速度更快,识别率明显高于GMM.本文将GMM-UBM用于语言辨识系统,获得了平均正确率74%的识别效果,这说明GMM-UBM模型是语言辨识的一种有效方法.【相关文献】[1] 赵力. 语音信号处理[M]. 北京:机械工业出版社,2003.[2] 屈丹,王炳锡,魏鑫. 基于GMM-UBM模型的语言辨识研究[J]. 信息处理,2003, 19(1): 85-88.[3] 姜洪臣,郑榕,张树武,等. 基于SDC特征GMM-UBM模型的自动语种识别[J]. 中文信息学报,2007, 21(1): 49-53.[4] 王炳锡,屈丹,彭煊. 实用语音识别基础[M]. 北京:国防工业出版社,2005.。
西南交通大学硕士学位论文基于MFCC和GMM的异常声音识别算法研究姓名:吕霄云申请学位级别:硕士专业:通信与信息系统指导教师:王宏霞20100501西南交通大学硕士研究生论文第1页摘要异常声音识别是声音识别系统中的一种,是应用音频波形中反映异常声音的特征参数,自动识别异常声音的一种技术。
声音识别系统具有计算效率高,复杂度小,采集设备简单,成本低,而且能更好的保护人们的隐私等优点,它还可以和视频监控系统协作。
因此,声音识别技术是具有广泛的应用前景,值得很多人投身其研究中。
本文针对异常声音识别系统低识别率和高复杂度的问题,将梅尔频率倒谱系数(MelFrequencyCepstrumCoefficients,简称MFCC)与短时能量混合特征应用到异常声音识别系统中。
该混合特征使得高斯混合模型(GaussianMixtureModel,简称GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。
分类器的平均识别率可达到90%以上,并且计算复杂度小。
给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性。
在性能研究方面,分析了不同特征参数下异常声音识别系统的识别率,获得特征参数的性能与系统的识别率相关的结果;此外还分析不同高斯混合阶数下异常识别系统的识别率,获得高斯密度个数的选择与训练音频数据量相关的结果;最后对比分析了最大期望(ExpectationMaxinum,EM)和最小描述长度(MinimumLength,MDL)算法,结果表明MDL算法能够有更好的应用空间。
Description在系统构建方面,本文用MATLAB实现了一个完整的异常声音识别系统,包括音频信号的预处理,特征提取以及分类器的训练和识别。
在预处理模块中,对原始音频进行了归一化,预加重,重叠分帧等处理;在特征提取模块中,提取了MFCC,过零率(TheZero.CrossingRate,ZCR),短时能量(Short.Energy),对数频率倒谱系数Coeffidents,LFCC)等特征参数。
基于GMM的声音活动检测方法
陈奇川;蔡骏;林茜
【期刊名称】《计算机应用与软件》
【年(卷),期】2009(026)002
【摘要】为了提高声音活动检测的鲁棒性,提出了一种基于GMM模型的声音活动检测方法.此方法在频谱特征空间中建立背景噪音和语音的GMM模型,然后采用模型匹配的方法对被测信号进行区分.此方法自适应更新GMM模型的参数,使之可以适应环境的变化.实验结果显示该方法在噪音环境中比传统的声音活动检测方法具有更高的准确率.
【总页数】4页(P60-62,75)
【作者】陈奇川;蔡骏;林茜
【作者单位】厦门大学计算机科学系,福建,厦门,361005;厦门大学计算机科学系,福建,厦门,361005;厦门大学计算机科学系,福建,厦门,361005
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于GMM的马氏距离kNN故障检测方法研究 [J], 张成;李秀玉;逄玉俊;李元
2.基于动态PCA及GMM的挖掘机液压系统故障检测方法研究 [J], 于达;王学慧
3.基于改进的GMM参数估计的目标检测方法 [J], 李世锋;文志强;吴岳忠
4.基于GMM-UBM的飞机发动机声音识别方法研究 [J], 杨毫鸽;孙成立;;
5.基于YOLO和GMM的视频行人检测方法 [J], 李俊毅;高斌;仝小敏;李鹏
因版权原因,仅展示原文概要,查看原文内容请购买。
基于GMM模型的声纹识别模式匹配研究于娴;贺松;彭亚雄;周晚【摘要】模式匹配是声纹识别的关键问题之一,为了提高识别正确率和识别效率,本文采用GMM模型建模,训练阶段利用EM算法求取参数集,并通过MAP准则实现模式识别.引入LBG算法求取起始参数值,并设计了基于3种方法的联合判决门限决策.实验结果表明GMM模型利用平均值向量和协方差矩阵使它具有更好的模型能力,当高斯混合数为32时识别率达到最高,联合判决门限决策有效降低了误识率与虚警率,并提高了识别效率.【期刊名称】《通信技术》【年(卷),期】2015(048)001【总页数】5页(P97-101)【关键词】声纹识别;模式匹配;LBG;高斯混合模型【作者】于娴;贺松;彭亚雄;周晚【作者单位】贵州大学大数据与信息工程学院,贵州贵阳550025;贵州大学大数据与信息工程学院,贵州贵阳550025;贵州大学大数据与信息工程学院,贵州贵阳550025;贵州大学大数据与信息工程学院,贵州贵阳550025【正文语种】中文【中图分类】TP391.4随着信息时代的来临,计算机、通信技术等高科技技术在我们的日常生活中随处可见,让我们的生活变得更加便捷与多彩,但随之而来的问题也造成了很多人的困扰。
各种卡片必须随身携带,复杂绕口的密码太难记忆,卡片丢失、密码被盗也频繁带来安全隐患和财产损失。
而生物识别是生物学和信息学等技术的结合,使得身份鉴定变得更加安全、方便且不需要记忆,帮我们解决了这一难题,它主要是通过运用生理和行为这种与生俱来的特征来实现身份的识别。
声纹识别也属于生物识别,它具有获取方便、使用简单、识别成本低、可远程操作等优势,被广泛地应用于金融、证券、公安、军队、社保、医疗及其他民用安全认证等领域。
当前中国对声纹识别的运用尚处起步阶段,有很广阔的发展前景。
声纹识别的主要过程有预处理、特征提取、模式匹配、识别判断,本文主要对声纹识别的模式匹配算法进行研究。
声纹识别模式匹配方法有很多,如动态时间归整(DTW)、人工神经网络(ANN)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)等,由于DTW精度难以对正导致识别率低,ANN训练时间较长,HMM训练计算量较大,本文选取当前文本无关声纹识别的主流技术高斯混合模型(Gaussian Mixture Model ,GMM)作为建模方法。