说话人识别中语音特征参数研究
- 格式:pdf
- 大小:150.20 KB
- 文档页数:4
大连理工大学硕士学位论文摘要说话人识别通常称为声纹识别,是一种身份认证技术。
它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势,可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。
说话人识别技术已经取得重要进展,并有产品问世,但尚有许多问题有待深入研究。
深度学习是近年来发展起来的一种神经网络模型,它具有克服学习不充分、深度不足等特点,可用于模式分类、目标跟踪等领域。
本文将深度学习理论用于说话人识别中,从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面,对说话人识别技术进行了研究,主要工作如下:(1)基于深度学习的说话人识别系统的性能研究。
将深度学习理论引入到说话人识别系统中,在此基础上分析了测试语音不同单位长度对说话人识别率的影响;在相同测试条件下,不同语音特征参数对说话人识别准确性的影响;在相同条件下,不同的深度学习层数以及层上节点数对于系统识别率的影响,证明了深度学习在说话人识别系统中应用的正确性与可靠性。
(2)基于改进特征的说话人识别算法。
本文将模拟人耳听觉特性的MFCC与GFCC语音特征参数结合起来,组成语音特征向量,并应用于说话人识别系统中,提高了系统识别率。
(3)基于改进统计准则的说话人识别算法。
考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判,本文应用分帧概率打分的统计准则,并进行了说话人识别实验。
实验仿真验证了改进统计准则的可行性与有效性。
关键词:说话人识别:深度学习;受限玻尔兹曼机;梅尔倒谱系数;Gammatone频率倒谱系数基于深度学习的说话人识别系统研究StudyonDeepLe锄ing—basedSpea】brRecognitionAbstractSpeal(errecogIlitioniscalledVoic印rintidentmcation.Itisakilldofautllenticationtechnology.Speal【errecogIlitiontecllIlologyhaSmanyadVan切【ges,includingK曲useracceptance,lowequipmentcosts,s包fongscalabili够andeaLsyt0仃jmsplantation.Itiswidelyusedinmilitaryfield,b砌【system,intemetsecuri够a11djudicialsec谢够.Speakerreco鲥tiontecllllologyisrelatedtoourlifecloselyaIldhaSgreatresearchValue孤dpraCtic2Lli够.Tllist11esismailllystudies廿leSpeal【erreco鲥tionsystem晰Ⅱldeeplea玎1iIlgmodel.Somebasicsystemperfom捌ncetestiIlgiscompletedanddiscuSsed,andttlispapermodifiedspeechfeatureparametersa11dstatisticalmemodtoobtaina11i曲erspea:kerrecogIlitionsystemrate.‰aretllispap盯t2Lll(ingat,0utis2usfollows:(1)111ebaSicpem彻anceofsyst锄baLsedondeep1ean血g.111ede印leanlingmodelisin仃oduCedinspeal(erreco嘶tionsystem.Theimpactofmedi毹rentlengtllofspeechu11itsonspeakerrecogIlitionsystemrateisstudied.Ont11esametestcondition,meiInpactofdifferentspeechf.ean】resonspeakerreco驴“ionsystemrateisalsostlldied.Theimpactofdi脆rentlayersaIldnodesofde印leaHlillgmodelonsystemreco班tionrateisstudied.nleaccuraCya11dreliabil时ofdeeplea玎1iIlgmodelappliedonspeakerrecogIlitionsystemisproVed.(2)BaSedonhUmaIlaudito巧Characteristics,weapplyanewSpeechfIe锨鹏bycombillingMFCCw池GFCCtoSpeakerreco鲥tionsystemt0沛pr0Vemereco鲥tionrate.(3)Consideringtlletmditionalsystemstatisticsalgoritllmformlllti—speakerrecogIlitionleadsto耐匈udgment,、Ⅳeproposedamodifieds蜥sticsaJgorimmformulti-speakerreco卿tionsystem.111ee豌ctiVenessofmodifiedmemodispr0VedbyeXpe血1e鹏.KeyWords:Speal【erReco鲥tion;De印Le锄i119;I沁strictedBoltzm锄Machme;Mel-FrequencyC印snmCoemcients;G锄matoneFrequencyC印s觚lIIlCoe伍cients;一II—基于深度学习的说话人识别系统研究2说话人识别基本知识说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。
说话人识别中的Mel特征频率倒谱系数曹辉;徐晨;赵晓;吴胜举【摘要】目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响.方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度.结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数.结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间.【期刊名称】《西北大学学报(自然科学版)》【年(卷),期】2013(043)002【总页数】6页(P203-208)【关键词】说话人识别;语音特征参数;梅尔频率倒谱系数;支持向量机;平均影响值【作者】曹辉;徐晨;赵晓;吴胜举【作者单位】陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100【正文语种】中文【中图分类】TN912.34说话人识别与指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别[1]。
说话人识别(speaker recognition)按照任务可以分为2个范畴:说话人辨认(speaker identification)和说话人确认(speaker verification)。
说话人辨认系统的性能随着说话人集合的规模增大而降低,所以其说话人语音特征参数的选择直接影响着语音识别系统的性能,提取维数小、鉴别能力强的特征矢量对于语音分类系统的计算快慢和识别率有直接的关系。
在说话人识别中最常用的特征参数是基于声道的LPCC、基于听觉特性的MFCC以及基于等响度曲线和临界带的PLP等[2-4],本文选取MFCC特征进行模拟实验。
说话人确认原理
说话人确认原理是基于声纹识别的一种生物识别技术,也称为说话人识别。
它的原理是通过分析处理说话人的语音信号,提取出包含在其中的个性因素,如发音器官和发音习惯的差异,从而将不同人的声音进行有效区分。
在说话人确认中,通常会建立相应的参考模板或模型,并采用一定的判决规则进行识别。
典型的方法包括模板模型和随机模型。
模板模型将训练特征参数和测试的特征参数进行比较,以两者之间的失真作为相似度;而随机模型则用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。
在声纹识别的过程中,每个人的语音都带有强烈的个人色彩,这是由于发音器官和发音习惯的差异以复杂的形势反映在说话人语音的波形中。
这种差异使得每个人的语音具有独特的特征,从而可以对说话者进行有效的识别。
总的来说,说话人确认原理是通过分析和比较语音信号中的个性因素来识别说话人的身份,这一技术是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的综合性研究课题。
⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。
成⼈的特点是通过⼤约100块肌⾁的协调运动,每秒发出14种不同的声⾳。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,然后识别说话⼈的能⼒。
特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。
因此,可接受的分类是从优良和优质的特征中衍⽣出来的。
Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。
这些⽅法已经在⼴泛的应⽤中进⾏了测试,使它们具有很⾼的可靠性和可接受性。
研究⼈员对上述讨论的技术做了⼀些修改,使它们更不受噪⾳影响,更健壮,消耗的时间更少。
总之,没有⼀种⽅法优于另⼀种,应⽤范围将决定选择哪种⽅法。
本⽂主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散⼩波变换(DWT),感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。
语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。
这是⼀种复杂的⾃然习得的⼈类运动能⼒,在正常成年⼈中,这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动,每秒发出⼤约14种不同的声⾳。
⼈类说话的简单性与任务的复杂性形成对⽐,这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。
在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。
为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,并在[4]之后识别说话⼈的能⼒。
说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。
这从语⾳开始,语⾳是说话⼈识别系统的输⼊。
⼀般来说,说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。
基于噪声环境下的说话人识别系统的研究摘要:对带噪声的语音信号采用消噪算法处理,并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型,构建了一个基于噪声环境的文本无关的说话人识别系统。
本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。
实验表明,增加混合高斯模型的维数可以增加系统的识别率。
关键词:说话人识别;梅尔倒谱系数;高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708(2011)53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu,fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息,最终识别出说话人。
作为身份鉴定的一种方法,说话人识别具有使用简单、获取方便、使用者的接受程度高等优点,但也存在许多值得研究的问题,如训练条件与测试条件不匹配。
说话人识别系统在训练条件与测试条件匹配的情况下,识别系统具有很好的性能。
由于人体声道特征,语音信道及通话环境等因素的干扰,使得说话人识别系统的准确性显著降低。
在说话人识别系统中,有两方面重要的影响因素:一方面,所选取的语音特征参数应尽量突出说话人的个性特征,使得不同说话人可以在特征空间上尽量分离。
另一方面,降低环境噪声对说话人识别系统的干扰,是使训练条件与测试条件匹配的最好办法。
通常提高系统抗噪性能的方法有3种:1)前端处理,如自适应噪声抵消技术等[1];2)提取具有鲁棒性的特征参数[2];3)后端处理,如归一化补偿变换[3]。
本系统的基本思路如下:首先,采用消噪算法对带噪声的语音信号进行消噪。
语音识别技术概述摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、语音识别技术的理论基础语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
此外,还涉及到语音识别单元的选取。
(一)语音识别单元的选取选择识别单元是语音识别研究的第一步。
语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
作为说话人识别特征参量的M FCC的提取过程
丁爱明
【期刊名称】《电子工程师》
【年(卷),期】2006(32)1
【摘要】说话人识别是人的个体特征识别中的一个重要分支,在实际生活中已得到广泛应用。
而人的听觉系统是一个比较理想的说话人识别系统,MFCC(Mel倒谱系数)模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中取得了较高的识别率。
文中通过一个卷积同态系统简单介绍了语音信号的倒谱分析方法,并通过对Mel频率刻度得到符合人听觉特性的Mel频率等效滤波器组,最后介绍了MFCC求取的一般过程和算法。
【总页数】3页(P51-53)
【关键词】说话人识别;倒谱;MFCC;特征提取
【作者】丁爱明
【作者单位】河海大学计算机及信息工程学院
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.弯折滤波器在说话人识别的鲁棒特征提取中的应用 [J], 邓蕾;高勇
2.反蓄意模仿说话人识别系统中特征参数提取的研究 [J], 唐宗渤;周萍;王茂蓉;刘继锦
3.说话人识别系统中特征提取的优化方法 [J], 李铮;欧阳贝贝;赵淼;李琳;洪青阳;童峰
4.深度学习说话人识别中语音特征参数提取研究 [J], 张兴明;杨凯
5.文本无关说话人识别的一种多尺度特征提取方法 [J], 陈志高;李鹏;肖润秋;黎塔;王文超
因版权原因,仅展示原文概要,查看原文内容请购买。
说话人识别方法概述作者:武光利来源:《硅谷》2012年第19期摘要:说话人识别是语音识别的一个重要的分支,是当前的研究热点之一。
首先介绍说话人识别的基本原理,然后介绍说话人识别常用的特征参数和分类方法,最后探讨说话人识别研究的难点。
关键词:说话人识别;特征提取;分类方法说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程。
根据说话人识别的目标,可分为说话人辨认和说话人确认。
1)说话人辨认:根据给出的一段语音,判断是已知的N个人中的哪个人说的,所要解决的是“你是谁”的问题。
如果这个人一定包含在这N个人中,则称为“闭集”否则,称为“开集”。
2)说话人确认:根据给出的一段语音,判断是否是某个特定人说的,所要解决的是“你是否是你所声明的那个人”的问题。
根据说话人识别系统的工作模式,可将其分为与文本有关和与文本无关的两种。
1 说话人识别的基本原理图1给出了说话人识别系统框图。
建立和应用这一系统可以分为两个阶段[1],即训练阶段和识别阶段。
在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。
而在识别阶段,待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。
对于说话人辨认来说,所提取的参数要与训练过程中的每一人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。
对于说话人确认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较,如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。
2 说话人识别常用的特征一般而言,说话人所发出的语音信号中既包含说话人所要表达的语音信息,又包含说话人本人特有的个性特征。
按照参数的稳定性,说话人特征参数可大致分为两类[2]:一类是说话人生理决定的固有特性(例如,声道构造的个性差异等),主要表现在语音的频率结构上,代表性的特征参数有基音和共振峰。
声纹识别(说话⼈识别)技术说话⼈识别(Speaker Recognition,SR),⼜称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声⾳来识别出来“谁在说话”,是根据语⾳信号中的说话⼈个性信息来识别说话⼈⾝份的⼀项⽣物特征识别技术。
便于⽐较,语⾳识别(Automatic Speech Recognition,ASR)是通过声⾳识别出来“在说什么”。
为了简便,后⽂统⼀称为VPR。
传统的VPR系统多是采⽤MFCC特征以及GMM模型框架,效果相当不错。
后续也出现了基于i-vector,深度神经⽹络的等更多的算法框架。
【持续更新……】基础声纹识别的理论基础是每⼀个声⾳都具有独特的特征,通过该特征能将不同⼈的声⾳进⾏有效的区分。
这种独特的特征主要由两个因素决定,第⼀个是声腔的尺⼨,具体包括咽喉、⿐腔和⼝腔等,这些器官的形状、尺⼨和位置决定了声带张⼒的⼤⼩和声⾳频率的范围。
因此不同的⼈虽然说同样的话,但是声⾳的频率分布是不同的,听起来有的低沉有的洪亮。
每个⼈的发声腔都是不同的,就像指纹⼀样,每个⼈的声⾳也就有独特的特征。
第⼆个决定声⾳特征的因素是发声器官被操纵的⽅式,发声器官包括唇、齿、⾆、软腭及腭肌⾁等,他们之间相互作⽤就会产⽣清晰的语⾳。
⽽他们之间的协作⽅式是⼈通过后天与周围⼈的交流中随机学习到的。
⼈在学习说话的过程中,通过模拟周围不同⼈的说话⽅式,就会逐渐形成⾃⼰的声纹特征。
因此,理论上来说,声纹就像指纹⼀样,很少会有两个⼈具有相同的声纹特征。
美国研究机构已经表明在某些特点的环境下声纹可以⽤来作为有效的证据。
并且美国联邦调查局对2000例与声纹相关的案件进⾏统计,利⽤声纹作为证据只有0.31%的错误率。
⽬前利⽤声纹来区分不同⼈这项技术已经被⼴泛认可,并且在各个领域中都有应⽤。
⽬前来看,声纹识别常⽤的⽅法包括模板匹配法、最近邻⽅法、神经元⽹络⽅法,VQ聚类法等。
语谱图是声⾳信号的⼀种图像化的表⽰⽅式,它的横轴代表时间,纵轴代表频率,语⾳在各个频率点的幅值⼤⼩⽤颜⾊来区分。