说话人识别中语音特征参数研究

基于深度学习的说话人识别技术研究

大连理工大学硕士学位论文摘要说话人识别通常称为声纹识别，是一种身份认证技术。

它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势，可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。

说话人识别技术已经取得重要进展，并有产品问世，但尚有许多问题有待深入研究。

深度学习是近年来发展起来的一种神经网络模型，它具有克服学习不充分、深度不足等特点，可用于模式分类、目标跟踪等领域。

本文将深度学习理论用于说话人识别中，从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面，对说话人识别技术进行了研究，主要工作如下：（１）基于深度学习的说话人识别系统的性能研究。

将深度学习理论引入到说话人识别系统中，在此基础上分析了测试语音不同单位长度对说话人识别率的影响；在相同测试条件下，不同语音特征参数对说话人识别准确性的影响；在相同条件下，不同的深度学习层数以及层上节点数对于系统识别率的影响，证明了深度学习在说话人识别系统中应用的正确性与可靠性。

（２）基于改进特征的说话人识别算法。

本文将模拟人耳听觉特性的ＭＦＣＣ与ＧＦＣＣ语音特征参数结合起来，组成语音特征向量，并应用于说话人识别系统中，提高了系统识别率。

（３）基于改进统计准则的说话人识别算法。

考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判，本文应用分帧概率打分的统计准则，并进行了说话人识别实验。

实验仿真验证了改进统计准则的可行性与有效性。

关键词：说话人识别：深度学习；受限玻尔兹曼机；梅尔倒谱系数；Ｇａｍｍａｔｏｎｅ频率倒谱系数基于深度学习的说话人识别系统研究ＳｔｕｄｙｏｎＤｅｅｐＬｅ锄ｉｎｇ—ｂａｓｅｄＳｐｅａ】ｂｒＲｅｃｏｇｎｉｔｉｏｎＡｂｓｔｒａｃｔＳｐｅａｌ（ｅｒｒｅｃｏｇＩｌｉｔｉｏｎｉｓｃａｌｌｅｄＶｏｉｃ印ｒｉｎｔｉｄｅｎｔｍｃａｔｉｏｎ．Ｉｔｉｓａｋｉｌｌｄｏｆａｕｔｌｌｅｎｔｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ｓｐｅａｌ【ｅｒｒｅｃｏｇＩｌｉｔｉｏｎｔｅｃｌｌＩｌｏｌｏｇｙｈａＳｍａｎｙａｄＶａｎ切【ｇｅｓ，ｉｎｃｌｕｄｉｎｇＫ曲ｕｓｅｒａｃｃｅｐｔａｎｃｅ，ｌｏｗｅｑｕｉｐｍｅｎｔｃｏｓｔｓ，ｓ包ｆｏｎｇｓｃａｌａｂｉｌｉ够ａｎｄｅａＬｓｙｔ０仃ｊｍｓｐｌａｎｔａｔｉｏｎ．Ｉｔｉｓｗｉｄｅｌｙｕｓｅｄｉｎｍｉｌｉｔａｒｙｆｉｅｌｄ，ｂ砌【ｓｙｓｔｅｍ，ｉｎｔｅｍｅｔｓｅｃｕｒｉ够ａ１１ｄｊｕｄｉｃｉａｌｓｅｃ谢够．Ｓｐｅａｋｅｒｒｅｃｏ鲥ｔｉｏｎｔｅｃｌｌｌｌｏｌｏｇｙｉｓｒｅｌａｔｅｄｔｏｏｕｒｌｉｆｅｃｌｏｓｅｌｙａＩｌｄｈａＳｇｒｅａｔｒｅｓｅａｒｃｈＶａｌｕｅ孤ｄｐｒａＣｔｉｃ２Ｌｌｉ够．Ｔｌｌｉｓｔ１１ｅｓｉｓｍａｉｌｌｌｙｓｔｕｄｉｅｓ廿ｌｅＳｐｅａｌ【ｅｒｒｅｃｏ鲥ｔｉｏｎｓｙｓｔｅｍ晰Ⅱｌｄｅｅｐｌｅａ玎１ｉＩｌｇｍｏｄｅｌ．Ｓｏｍｅｂａｓｉｃｓｙｓｔｅｍｐｅｒｆｏｍ捌ｎｃｅｔｅｓｔｉＩｌｇｉｓｃｏｍｐｌｅｔｅｄａｎｄｄｉｓｃｕＳｓｅｄ，ａｎｄｔｔｌｉｓｐａｐｅｒｍｏｄｉｆｉｅｄｓｐｅｅｃｈｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓａ１１ｄｓｔａｔｉｓｔｉｃａｌｍｅｍｏｄｔｏｏｂｔａｉｎａ１１ｉ曲ｅｒｓｐｅａ：ｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｒａｔｅ．‰ａｒｅｔｌｌｉｓｐａｐ盯ｔ２Ｌｌｌ（ｉｎｇａｔ，０ｕｔｉｓ２ｕｓｆｏｌｌｏｗｓ：（１）１１１ｅｂａＳｉｃｐｅｍ彻ａｎｃｅｏｆｓｙｓｔ锄ｂａＬｓｅｄｏｎｄｅｅｐ１ｅａｎ血ｇ．１１１ｅｄｅ印ｌｅａｎｌｉｎｇｍｏｄｅｌｉｓｉｎ仃ｏｄｕＣｅｄｉｎｓｐｅａｌ（ｅｒｒｅｃｏ嘶ｔｉｏｎｓｙｓｔｅｍ．Ｔｈｅｉｍｐａｃｔｏｆｍｅｄｉ毹ｒｅｎｔｌｅｎｇｔｌｌｏｆｓｐｅｅｃｈｕ１１ｉｔｓｏｎｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｒａｔｅｉｓｓｔｕｄｉｅｄ．Ｏｎｔ１１ｅｓａｍｅｔｅｓｔｃｏｎｄｉｔｉｏｎ，ｍｅｉＩｎｐａｃｔｏｆｄｉｆｆｅｒｅｎｔｓｐｅｅｃｈｆ．ｅａｎ】ｒｅｓｏｎｓｐｅａｋｅｒｒｅｃｏ驴“ｉｏｎｓｙｓｔｅｍｒａｔｅｉｓａｌｓｏｓｔｌｌｄｉｅｄ．Ｔｈｅｉｍｐａｃｔｏｆｄｉ脆ｒｅｎｔｌａｙｅｒｓａＩｌｄｎｏｄｅｓｏｆｄｅ印ｌｅａＨｌｉｌｌｇｍｏｄｅｌｏｎｓｙｓｔｅｍｒｅｃｏ班ｔｉｏｎｒａｔｅｉｓｓｔｕｄｉｅｄ．ｎｌｅａｃｃｕｒａＣｙａ１１ｄｒｅｌｉａｂｉｌ时ｏｆｄｅｅｐｌｅａ玎１ｉＩｌｇｍｏｄｅｌａｐｐｌｉｅｄｏｎｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｉｓｐｒｏＶｅｄ．（２）ＢａＳｅｄｏｎｈＵｍａＩｌａｕｄｉｔｏ巧Ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ｗｅａｐｐｌｙａｎｅｗＳｐｅｅｃｈｆＩｅ锨鹏ｂｙｃｏｍｂｉｌｌｉｎｇＭＦＣＣｗ池ＧＦＣＣｔｏＳｐｅａｋｅｒｒｅｃｏ鲥ｔｉｏｎｓｙｓｔｅｍｔ０沛ｐｒ０Ｖｅｍｅｒｅｃｏ鲥ｔｉｏｎｒａｔｅ．（３）Ｃｏｎｓｉｄｅｒｉｎｇｔｌｌｅｔｍｄｉｔｉｏｎａｌｓｙｓｔｅｍｓｔａｔｉｓｔｉｃｓａｌｇｏｒｉｔｌｌｍｆｏｒｍｌｌｌｔｉ—ｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｌｅａｄｓｔｏ耐匈ｕｄｇｍｅｎｔ，、Ⅳｅｐｒｏｐｏｓｅｄａｍｏｄｉｆｉｅｄｓ蜥ｓｔｉｃｓａＪｇｏｒｉｍｍｆｏｒｍｕｌｔｉ－ｓｐｅａｋｅｒｒｅｃｏ卿ｔｉｏｎｓｙｓｔｅｍ．１１１ｅｅ豌ｃｔｉＶｅｎｅｓｓｏｆｍｏｄｉｆｉｅｄｍｅｍｏｄｉｓｐｒ０ＶｅｄｂｙｅＸｐｅ血１ｅ鹏．ＫｅｙＷｏｒｄｓ：Ｓｐｅａｌ【ｅｒＲｅｃｏ鲥ｔｉｏｎ；Ｄｅ印Ｌｅ锄ｉ１１９；Ｉ沁ｓｔｒｉｃｔｅｄＢｏｌｔｚｍ锄Ｍａｃｈｍｅ；Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣ印ｓｎｍＣｏｅｍｃｉｅｎｔｓ；Ｇ锄ｍａｔｏｎｅＦｒｅｑｕｅｎｃｙＣ印ｓ觚ｌＩＩｌＣｏｅ伍ｃｉｅｎｔｓ；一ＩＩ—基于深度学习的说话人识别系统研究２说话人识别基本知识说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。

说话人识别中的Mel特征频率倒谱系数

说话人识别中的Mel特征频率倒谱系数曹辉;徐晨;赵晓;吴胜举【摘要】目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响.方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度.结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数.结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间.【期刊名称】《西北大学学报（自然科学版）》【年(卷),期】2013(043)002【总页数】6页(P203-208)【关键词】说话人识别;语音特征参数;梅尔频率倒谱系数;支持向量机;平均影响值【作者】曹辉;徐晨;赵晓;吴胜举【作者单位】陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100【正文语种】中文【中图分类】TN912.34说话人识别与指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别[1]。

说话人识别(speaker recognition)按照任务可以分为2个范畴:说话人辨认(speaker identification)和说话人确认(speaker verification)。

说话人辨认系统的性能随着说话人集合的规模增大而降低,所以其说话人语音特征参数的选择直接影响着语音识别系统的性能,提取维数小、鉴别能力强的特征矢量对于语音分类系统的计算快慢和识别率有直接的关系。

在说话人识别中最常用的特征参数是基于声道的LPCC、基于听觉特性的MFCC以及基于等响度曲线和临界带的PLP等[2-4],本文选取MFCC特征进行模拟实验。

说话人确认原理

说话人确认原理
说话人确认原理是基于声纹识别的一种生物识别技术，也称为说话人识别。

它的原理是通过分析处理说话人的语音信号，提取出包含在其中的个性因素，如发音器官和发音习惯的差异，从而将不同人的声音进行有效区分。

在说话人确认中，通常会建立相应的参考模板或模型，并采用一定的判决规则进行识别。

典型的方法包括模板模型和随机模型。

模板模型将训练特征参数和测试的特征参数进行比较，以两者之间的失真作为相似度；而随机模型则用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数，匹配过程通过计算相应模型的测试语句的相似度来完成。

在声纹识别的过程中，每个人的语音都带有强烈的个人色彩，这是由于发音器官和发音习惯的差异以复杂的形势反映在说话人语音的波形中。

这种差异使得每个人的语音具有独特的特征，从而可以对说话者进行有效的识别。

总的来说，说话人确认原理是通过分析和比较语音信号中的个性因素来识别说话人的身份，这一技术是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的综合性研究课题。

一些常用的语音特征提取算法

⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。

成⼈的特点是通过⼤约100块肌⾁的协调运动，每秒发出14种不同的声⾳。

说话⼈识别是指软件或硬件接收语⾳信号，识别语⾳信号中出现的说话⼈，然后识别说话⼈的能⼒。

特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。

因此，可接受的分类是从优良和优质的特征中衍⽣出来的。

Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。

这些⽅法已经在⼴泛的应⽤中进⾏了测试，使它们具有很⾼的可靠性和可接受性。

研究⼈员对上述讨论的技术做了⼀些修改，使它们更不受噪⾳影响，更健壮，消耗的时间更少。

总之，没有⼀种⽅法优于另⼀种，应⽤范围将决定选择哪种⽅法。

本⽂主要的关键技术：mel频率倒谱系数(MFCC)，线性预测系数(LPC)，线性预测倒谱系数(LPCC)，线谱频率(LSF)，离散⼩波变换(DWT)，感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。

语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。

这是⼀种复杂的⾃然习得的⼈类运动能⼒，在正常成年⼈中，这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动，每秒发出⼤约14种不同的声⾳。

⼈类说话的简单性与任务的复杂性形成对⽐，这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。

在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。

为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。

说话⼈识别是指软件或硬件接收语⾳信号，识别语⾳信号中出现的说话⼈，并在[4]之后识别说话⼈的能⼒。

说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。

这从语⾳开始，语⾳是说话⼈识别系统的输⼊。

⼀般来说，说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。

基于DTW的说话人识别技术研究

式：
，
Ｄ一 ∑ ｄ］［时间规整情况下两矢量的距离，［］ｄＸ，是第ｉ帧测试矢量ｘ和第ｉ帧模板矢量Ｙ．之间的距离测度，一般这个距离测度采用欧氏距离的平方，如下式所示：
想，解决了语音发音长短不一的模板匹配问题，是语音识别中出现较早，为经典的一种算法。较设测试语音参数共有Ｉ帧矢量，测试语则音模板的特征矢量序列为ｘ＝Ｘ、。（。Ｘ、… 、，ｘ）参考语音参数共有Ｊ，则参考模板的特征矢帧量序列为Ｙ＝Ｙ、 … 、１。且，（．Ｙ、Ｙ） ≠Ｊ，动态则时间规整就是要找到一个时间规整函数』＝州它将测试矢量的时间轴ｊ线性地映射到参非考模板的时间轴ｊ二并使该函数ｗ满足下ｊ，
】概述
对说话人识别的研究始于２０世纪３０年代，早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。而对说话人自动识别的研究则起始于２０世纪６Ｏ年代，近几十年来，在这一技术的研究上取得了重大的进展，并在许多领域得到了应用ｌｌｌ。主要讨论了ＤＷ算Ｔ法在说话人识别技术中的应用，通过编程做了个基于ＤＷ的说话人识别系统，并对仿真Ｔ实验数据进行了分析。２基于动态时间规整（Ｔ的说话人识ＤＷ）别方法的算法实现２１．基于动态时间规整（Ｔ的说话人识ＤＷ）
一
预加重的目的在于消除唇辐射的影响，提升语音高频部分，使语音信号的频谱区域平坦，被广泛使用的预加重网络是一固定的数字系统，信号方程为：ｓｎ＝（）０９（一）（）ｓ一．ｓ１ｎ５ｎ其Ｚ变换的传递函数为：

语音信号处理第6章说话人识别

一般来说，同时满足上述全部要求的特征通常是不可能找到的，只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别： 1）线性预测参数及其派生参数：包括部分相关系数、声道面积比函数、线谱对系数以及LPC倒谱系数等。 2）语音频谱直接导出的参数：包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。 3）混合参数 4）其他鲁棒性参数：包括Mel频率倒谱系数，以及经过噪声谱减或者信道谱减的去噪倒谱系数等。
所用特征倒谱误识率 9.43%
差值倒谱基音差值基音
倒谱与差值倒谱倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点，若对同一人来说，这些点分布比较集中，而对不同说话人的分布相距较远，则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段：训练（注册）阶段和识别阶段。 1）在训练阶段，系统的每一个使用者说出若干训练语料，系统根据这些训练语料，通过训练学习建立每个使用者的模板或模型参数参考集。 2）在识别阶段，把从待识别说话人说出的语音信号中提取的特征参数，与在训练过程中得到的参考参量集或模型模板加以比较，并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题：跨信道、噪声
6.2
说话人识别原理及系统结构
识别识别结果模式匹配识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决策等几大部分组成。除此之外，完整的说话人识别系统还

基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究摘要：对带噪声的语音信号采用消噪算法处理，并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型，构建了一个基于噪声环境的文本无关的说话人识别系统。

本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。

实验表明，增加混合高斯模型的维数可以增加系统的识别率。

关键词：说话人识别；梅尔倒谱系数；高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708（2011）53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu，fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息，最终识别出说话人。

作为身份鉴定的一种方法，说话人识别具有使用简单、获取方便、使用者的接受程度高等优点，但也存在许多值得研究的问题，如训练条件与测试条件不匹配。

说话人识别系统在训练条件与测试条件匹配的情况下，识别系统具有很好的性能。

由于人体声道特征，语音信道及通话环境等因素的干扰，使得说话人识别系统的准确性显著降低。

在说话人识别系统中，有两方面重要的影响因素：一方面，所选取的语音特征参数应尽量突出说话人的个性特征，使得不同说话人可以在特征空间上尽量分离。

另一方面，降低环境噪声对说话人识别系统的干扰，是使训练条件与测试条件匹配的最好办法。

通常提高系统抗噪性能的方法有3种：1）前端处理，如自适应噪声抵消技术等[1]；2）提取具有鲁棒性的特征参数[2]；3）后端处理，如归一化补偿变换[3]。

本系统的基本思路如下：首先，采用消噪算法对带噪声的语音信号进行消噪。

语音识别技术概述(1)

语音识别技术概述摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别；特征提取；模式匹配；模型训练Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。

语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

此外，还涉及到语音识别单元的选取。

（一）语音识别单元的选取选择识别单元是语音识别研究的第一步。

语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

说话人识别中的Mel特征频率倒谱系数

Ａｂｓｔｒａｃｔ：ＡｉｍＴｏｓｔｕｄｙｔｈｅｉｎｌｆｕｅｎｃｅｏｆｔｈｅｓｅｌｅｃｔｉｏｎｏｆＭＦＣＣｏｎｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｓｙｓ —
ｐｏｎｅｎｔｃａｎｂｅｊｕｄｇｅｄｂｙＭＩＶ．ＳｅｌｅｃｔｉｎｇＭＦＣＣｗｉｔｈｈｉ【ｇｈｗｅｉｇｈｔｖａｌｕｅｃａｎｉｍｐｒｏｖｅｔｈｅｓｙｓｔｅｍｒｅｃｏｇｎｉｔｉｏｎａｎｄｒｅ —
（ＣｏｌｌｅｇｅｏｆＰｈｙｓｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎ，ＳｈａａｎｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＵｌｔｒａｓｏｕｎｄ，ＳｈａａｎｘｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｎ７１０１００，Ｃｈｉｎａ）
法采用基于平均影响值（ＭＩＶ）的支持向量机（ＳＶＭ）方法研究了说话人识别中的梅尔频率倒谱
系数各维倒谱分量对于识别分类的贡献度。结果
选择具有代表性的特征向量进行说话人分类识
别，能得到维数更低、识别率更高的特征参数。结论通过ＭＩＶ值可判断各维特征参数分量的重要性，选取权重值高的ＭＦＣＣ特征参数来提高系统识别率和缩短系统运行时间。关键词：说话人识别；语音特征参数；梅尔频率倒谱系数；支持向量机；平均影响值中图分类号：ＴＮ９１２．３４文献标识码：Ａ文章编号：１０００－２７４Ｘ（２０１３）０２－０２０３０－６

作为说话人识别特征参量的M FCC的提取过程

作为说话人识别特征参量的M FCC的提取过程
丁爱明
【期刊名称】《电子工程师》
【年(卷),期】2006(32)1
【摘要】说话人识别是人的个体特征识别中的一个重要分支,在实际生活中已得到广泛应用。

而人的听觉系统是一个比较理想的说话人识别系统,MFCC(Mel倒谱系数)模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中取得了较高的识别率。

文中通过一个卷积同态系统简单介绍了语音信号的倒谱分析方法,并通过对Mel频率刻度得到符合人听觉特性的Mel频率等效滤波器组,最后介绍了MFCC求取的一般过程和算法。

【总页数】3页(P51-53)
【关键词】说话人识别;倒谱;MFCC;特征提取
【作者】丁爱明
【作者单位】河海大学计算机及信息工程学院
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.弯折滤波器在说话人识别的鲁棒特征提取中的应用 [J], 邓蕾;高勇
2.反蓄意模仿说话人识别系统中特征参数提取的研究 [J], 唐宗渤;周萍;王茂蓉;刘继锦
3.说话人识别系统中特征提取的优化方法 [J], 李铮;欧阳贝贝;赵淼;李琳;洪青阳;童峰
4.深度学习说话人识别中语音特征参数提取研究 [J], 张兴明;杨凯
5.文本无关说话人识别的一种多尺度特征提取方法 [J], 陈志高;李鹏;肖润秋;黎塔;王文超
因版权原因，仅展示原文概要，查看原文内容请购买。

说话人识别方法概述

说话人识别方法概述作者：武光利来源：《硅谷》2012年第19期摘要：说话人识别是语音识别的一个重要的分支，是当前的研究热点之一。

首先介绍说话人识别的基本原理，然后介绍说话人识别常用的特征参数和分类方法，最后探讨说话人识别研究的难点。

关键词：说话人识别；特征提取；分类方法说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程。

根据说话人识别的目标，可分为说话人辨认和说话人确认。

1）说话人辨认：根据给出的一段语音，判断是已知的N个人中的哪个人说的，所要解决的是“你是谁”的问题。

如果这个人一定包含在这N个人中，则称为“闭集”否则，称为“开集”。

2）说话人确认：根据给出的一段语音，判断是否是某个特定人说的，所要解决的是“你是否是你所声明的那个人”的问题。

根据说话人识别系统的工作模式，可将其分为与文本有关和与文本无关的两种。

1 说话人识别的基本原理图1给出了说话人识别系统框图。

建立和应用这一系统可以分为两个阶段[1]，即训练阶段和识别阶段。

在训练阶段，系统的每个使用者说出若干训练语句，系统据此建立每个使用者的模板或模型参量参考集。

而在识别阶段，待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较，并且根据一定的相似性准则形成判断。

对于说话人辨认来说，所提取的参数要与训练过程中的每一人的参考模型加以比较，并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。

对于说话人确认而言，则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较，如果两者的距离小于规定的阈值，则予以确认，否则予以拒绝。

2 说话人识别常用的特征一般而言，说话人所发出的语音信号中既包含说话人所要表达的语音信息，又包含说话人本人特有的个性特征。

按照参数的稳定性，说话人特征参数可大致分为两类[2]：一类是说话人生理决定的固有特性（例如，声道构造的个性差异等），主要表现在语音的频率结构上，代表性的特征参数有基音和共振峰。

短语音噪声环境下说话人识别特征提取

０引言
说话人识别（ｐａｅＲｃｇｉｏ，Ｓ技术是一项根据ＳｅｋｒｅｏｎｔｎＲ）ｉ语音波形中反映说话人生理和行为特征的语音参数，自动识
Ｑａｔａｏ，Ｑ）ｕｎｉｔｎＶ是说话人识别系统常用的方法，ｔｉ凭借其计算量小的特点，很适合应用于实时性要求高、存储空间有限的情
ｓｅａｅｄｎｉｃｔｏｐｋｒｉｅｔｆａｉｎ．ｉＫｅｒ：ｌｔｌｐｅｃａａ；ｓａｒｒｃｇｉｉｎ；ｎｉｙｃｎｔｏ；ｃｍｂｉｄｆａｕｒｙｗｏｄｓｉｔｅｓｅｈｄｔｐｅｋｅｅｏｎｔｏｏｓｏｄｉｎｏｉｎｅｅｔｅ
２ＳａｄｎｍｐｔｒＳｉｎｅＣｎｅ，ｎｎＳａｎｏｇ２０４Ｃｉａ．ｈｎｏｇＣｏｕｅｃｅｃｅｔｒ Ⅱ ｈｄｎ５０１，ｈｎ）
Ａｂｔａｔｏｉｒｖｈｅｏｍａｃｆｓｅｋｒｒｃｇｉｏｎｔｅｃｎｉｏｆｎｉｅａｄｌｔｐｅｈｄｔ，ｆａｕｅｓｒｃ：Ｔｍｐｏｅｔｅｐｒｒｎｅｏｐａｅｅｏｎｔｎｉｈｏｄｔｎｏｏｓｎｉｌｓｅｃａａｅｔｒｆｉｉｔｅ
短语音噪声环境下说话人识别特征提取
高会贤马全福郑晓势，，
（．１济南工程职业技术学院现代教育技术中心，济南２００５２０；２山东省计算中心，．济南２０１）５０４

基于美尔倒谱系数及隐马尔可夫模型的说话人识别系统研究

，
∑ （＝ｆ１）
４１．￣ＰＯＡ的计算（ｌ）可由下述方程可得：假若观察序列０：００ …０依一定的概率对应于状态序列。，＿ｆｃ（．，（：ｑ））ｉＱ＝ｑ：ｒ那么其条件概率为：ｌ …ｑ，ｑ
＝
，
（．ｆ）
（）０
上
ＰＯＱＡ＝ｌＰｏＡ（ｌ，）ｌ（）ｔ
ｔｌ＝Ｊ
：
：ｂ（１・ｑ（２ … ｂ。）９Ｄ）ｂ。）ｑ（７ｌ
查塾丽查Байду номын сангаас ！塑墨型三墼：
（）１１
上式中假定各观察是相互独立的。型入模所描述的随机过程出现状态序列Ｑ的概率为：
ＰＱｌ）ｒａ。叮（＝７ａ …ａ一吼‘ 。
（３）
对于离散隐马尔可夫模型，：有
表２Ｍｅ滤波器组的频带划分ｌ
说话人识别系统通常由信号预处理、特征提取、立模型、建模式匹配、判决等部分组成，系统组成框图如图１其所示嘲。其中预处理包括归一化、去掉无声段和噪声等；特征提取包括采样、量化、预加重、加窗等。建立说话人识别系统，分为两个阶段，即训练阶段和识别阶段。在训练阶段，系统的每个使用者需要说出若干训练语句，系统据此建立每个使用者的模型。在识别阶段，将待识别人发出的语音中提出特征参量与在训练过程中建立的模板进行比较，并根据一定的模式匹配方法得到判决结果【句。２基于ＬＣ美尔倒谱特征（Ｃ的端点检测ＰＭＦＣ）确定说话人语音信号的起止点，满足减语音信号处理的实时性要求，是语音信号处理领域中一个基本而且重要的问题。端点作为语音分割的重要特征，大程度上影响系统的识别的性能。在较在很高信噪比的声学环境中，最低电平能量的语音能量也能超过背景噪声能量，因此只需作简单的能量测量就可鉴别出起止点，然而端点检测之所以存在难度，主要是由于大多数实际情况并非如此。因此，

基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用

ＺａｇＬｎ・ｕｈｎｉｇ・ａｈＺｈｎｏｙｅｇＢａ・ｕ・ＹｎｅａｇＺｈｎ
（ｏｌｅｆＣｍｎｃｔｎｎｎｏｍａｉｎｎｉｅｒｇＮａｊｎｎｖｏＰｓ＆Ｔｌｏｍ．ａｆｎ１０３ＣｉａＣｌｇｏｏｍｕｉａｉａｄＩｒｔＥｇｎｅｉ，ｎｉｇＵｉ．ｆｏｔｅｏｆｏｎｓｅｃｍｓＮｎｇ２００，ｈｎ）ｅ，ｉ
系统的性能，使得很多在实验室里性能很好的说话人识别系统，在实用环境下的识别性能却显著降低【。可以说，如何 ” 提高训练条件与测试条件不匹配情况下系统的性能，是说话人识别领域的研究热点和难点。在说话人识别巾，说话人样本模型的训练和对说话人身份的识别都是基于所选取的语音特征参数进行的。说话人识别系统中所选择的语音特征参数应尽量突出说话人的个性
ｆａｕｅｃｎｇｖｕｓａｄｎｅｔｒａｉｅｏｔｔｎｉｇｉｒｖｍｅｔｆｒｃｏｅ・ｅｅｔｉｄｐｎｅｔｓｅｋｒｉｅｔｃｔｎｕｄｒｏｓｎｉｎｎｓｍｐｏｅｎｌｓｄ－ｔｘ・ｅｅｄｎｐａｅｎｉａｉｎｅｉｅｖｒｍｅｔｏｓｔ－ｎｄｉｆｏｎｙｏ
ｃｒｕｔｄｂＧＮ、ｏｒｐｅｙＡＷ
ＫｅｒｓＳｅｋｒｄｎｉｃｔｎＳｏ－ｉｐｃｒｍ，ｒｎｃｆａｕｅＰｔｈｆｅｕｎｙｙｗｏｄｐａｅｅｔａｉ，ｈｒｔｉｉｆｏｔｍｅｓｅｔｕＨａｍｏｉｔｒ，ｉｑｅｃｅｃｒ

声纹识别（说话人识别）技术

声纹识别（说话⼈识别）技术说话⼈识别（Speaker Recognition，SR），⼜称声纹识别（Voiceprint Recognition,VPR），顾名思义，即通过声⾳来识别出来“谁在说话”，是根据语⾳信号中的说话⼈个性信息来识别说话⼈⾝份的⼀项⽣物特征识别技术。

便于⽐较，语⾳识别（Automatic Speech Recognition，ASR）是通过声⾳识别出来“在说什么”。

为了简便，后⽂统⼀称为VPR。

传统的VPR系统多是采⽤MFCC特征以及GMM模型框架，效果相当不错。

后续也出现了基于i-vector，深度神经⽹络的等更多的算法框架。

【持续更新……】基础声纹识别的理论基础是每⼀个声⾳都具有独特的特征，通过该特征能将不同⼈的声⾳进⾏有效的区分。

这种独特的特征主要由两个因素决定，第⼀个是声腔的尺⼨，具体包括咽喉、⿐腔和⼝腔等，这些器官的形状、尺⼨和位置决定了声带张⼒的⼤⼩和声⾳频率的范围。

因此不同的⼈虽然说同样的话，但是声⾳的频率分布是不同的，听起来有的低沉有的洪亮。

每个⼈的发声腔都是不同的，就像指纹⼀样，每个⼈的声⾳也就有独特的特征。

第⼆个决定声⾳特征的因素是发声器官被操纵的⽅式，发声器官包括唇、齿、⾆、软腭及腭肌⾁等，他们之间相互作⽤就会产⽣清晰的语⾳。

⽽他们之间的协作⽅式是⼈通过后天与周围⼈的交流中随机学习到的。

⼈在学习说话的过程中，通过模拟周围不同⼈的说话⽅式，就会逐渐形成⾃⼰的声纹特征。

因此，理论上来说，声纹就像指纹⼀样，很少会有两个⼈具有相同的声纹特征。

美国研究机构已经表明在某些特点的环境下声纹可以⽤来作为有效的证据。

并且美国联邦调查局对2000例与声纹相关的案件进⾏统计，利⽤声纹作为证据只有0.31%的错误率。

⽬前利⽤声纹来区分不同⼈这项技术已经被⼴泛认可，并且在各个领域中都有应⽤。

⽬前来看，声纹识别常⽤的⽅法包括模板匹配法、最近邻⽅法、神经元⽹络⽅法，VQ聚类法等。

语谱图是声⾳信号的⼀种图像化的表⽰⽅式，它的横轴代表时间，纵轴代表频率，语⾳在各个频率点的幅值⼤⼩⽤颜⾊来区分。

应用小波包变换提取说话人识别的特征参数

一
种自然的做法是将尺度子空间，小波子空间和
，用
一
个新的子空间统一起来表征．令：若
都会导致计算误差的产生．影响语音处理的稳定性和准确性。小波理论是一种非平稳信号的分析方法．采用多分辨分析
的思想。均匀地划分时频空间．就有别于传统语音处理中非这
ＤＢＰＣ，ａｅｎｗａｅｅａｋｔｔａｓｏ．ｈｅｐｒｎｓｌｎｉａｅｔａｈＷＴｂｓｄｏｖｌｔｐｃｅｒｎｆｒＴｅｘｅｍｅｔｒｕｔｉｄｃｔｈｔｔｅＤＢＷＰａａｔｒｉｕｐｒｒｍｉｅｓＴＣｐｒｍｅｅｓｏｔｅｆｍｏ
ｉｐａｅｃｇｉｉｎｎＳｅｋｒＲｅｏｎｔｏ
ＬｕＹａｉＱｉｅｏｇｉｑｎｕＸｕｈｎ
（ｅａｍｎｏｏｕｅ，ｕｙｎｏｍｌＵｉｅｓｙＬｏａｇＨｅａ７０２ＤｐｒｅｔｆＣｍｐｔｒＬｏａｇＮｒａｎｖｒｉ，ｕｙｎ，ｎｎ４２）ｔｔ１（ｃｏｌｏｏｐｔｎｉｅｒｇＸｄａｉｅｓｙＸｎ７０７）ＳｈｏｆＣｍｕｅＥｇｅｉ，ｉｉｎＵｎｖｒｉ，ｉ１０１ｒｎｎｔａ
维普资讯
应用小波包变换提取说话人识别的特征参数
刘雅琴裘雷红（阳师范学院计算机科学系，洛河南洛阳４１２）７０２

说话人识别中改进的MFCC参数提取方法

（０８００）贵州省国际科技合作计划基金资助项目２０ＲＲ０３、（２０］０１９［０９７０２）［０９７００，２０］０１５资助第一作者简介：朝霞（９４何１８一），，女湖北人，硕士研究生，究方研
向：音信号处理。语
（）语音信号经过预加重、窗分帧处理后变１加
为短时信号，ＦＴ将这些时域信号转化为频域用Ｆ信号。
４１２６
科
学
技
术
与
工
程
１卷１
（）求出频谱平方，２即能量谱，并通过Ｍｅ频率ｌ
滤波器组得到Ｍｅ频谱，通过对数能量的处理得ｌ并到对数频谱。
１标准的ＭＦＣ参数提取方法，Ｃ
在语音识别和说话人识别中，Ｃ（ｌ标ＭＦＣＭｅ频倒谱系数）数是将人耳的听觉感知特性和语音的参
２１０１年３月２４日收到国家科技计划基金资助项目
图１标准ＭＦＣ参数提取流程图Ｃ
说话人语音信号自身的特性— —语音信号中包含
有准周期性信号和类噪声信号。因而，理论上利从
用随机共振理论，可以获得说话人语音信号的基是
本特征。２２改进的ＭＦＣ参数提取过程．Ｃ
（）将上述对数频谱经过离散余弦变换（Ｃ３ＤＴ）
果做出了实验比较。

说话人识别中语音特征参数研究

合集下载

基于深度学习的说话人识别技术研究

说话人识别中的Mel特征频率倒谱系数

说话人确认原理

一些常用的语音特征提取算法

基于DTW的说话人识别技术研究

语音信号处理第6章说话人识别

基于噪声环境下的说话人识别系统的研究

语音识别技术概述(1)

说话人识别中的Mel特征频率倒谱系数

作为说话人识别特征参量的M FCC的提取过程

说话人识别方法概述

短语音噪声环境下说话人识别特征提取

基于美尔倒谱系数及隐马尔可夫模型的说话人识别系统研究

基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用

声纹识别（说话人识别）技术

应用小波包变换提取说话人识别的特征参数

说话人识别中改进的MFCC参数提取方法

文档推荐

最新文档

说话人识别中语音特征参数研究

合集下载

基于深度学习的说话人识别技术研究

说话人识别中的Mel特征频率倒谱系数

说话人确认原理

一些常用的语音特征提取算法

基于DTW的说话人识别技术研究

语音信号处理第6章 说话人识别

基于噪声环境下的说话人识别系统的研究

语音识别技术概述(1)

说话人识别中的Mel特征频率倒谱系数

作为说话人识别特征参量的M FCC的提取过程

说话人识别方法概述

短语音噪声环境下说话人识别特征提取

基于美尔倒谱系数及隐马尔可夫模型的说话人识别系统研究

基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用

声纹识别（说话人识别）技术

应用小波包变换提取说话人识别的特征参数

说话人识别中改进的MFCC参数提取方法

文档推荐

最新文档

语音信号处理第6章说话人识别