当前位置：文档之家› 音周期与清浊音信息的梅尔倒谱参数

音周期与清浊音信息的梅尔倒谱参数

第２２卷第２期２００７年６月数据采集与处理

ＪｏｕｒｎａｌｏｆＤａｔａＡｃｑｕｉｓｉｔｉｏｎ８ＬＰｒｏｃｅｓｓｉｎｇ

Ｖ０１．２２Ｎｏ．２

Ｊｕｎ．２００７

文章编号：１００４—９０３７（２００７）０２一０２２９一０５

基于基音周期与清浊音信息的梅尔倒谱参数

郭武王仁华戴礼荣

（中国科技大学电子工程与信息科学系，合肥，２３。０２７）

摘要：提出一种在浊音部分不固定帧长的梅尔倒谱参数（Ｍｅｌ—ｃ印ｓｔｒｕｍ）提取的方法。针对浊音和清音所包含信息量不同，对浊音进行双倍的加权，从而将基音与清浊音信息融合进梅尔倒谱参数。将这种动态的梅尔倒谱参数应用在说话人确认中，在混合高斯模型（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ，ＧＭＭ）的情况下，取得了比常用的梅尔刻度式倒频谱参数（Ｍｅｌ—ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）更高的识别率，在ＮＩＳＴ２００２年测试数据库中，５１２个混合高斯下能够将等错误率（ＥＥＲ）由９．４％降低到８．３％，２０４８个混合高斯下能够将等错误率由７．８％降低到６．９％。

关键词：说话人确认；梅尔倒谱参数；基音频率；清浊音信息

中图分类号：ＴＮ９１２．３４文献标识码：Ａ

Ｍｅｌ—ＣｅｐｓｔｒｕｍＩｎｔｅｇｒａｔｅｄｗｉｔｈＰｉｔｃｈａｎｄＩｎｆｏｒｍａｔｉｏｎｏｆＶｏｉｃｅｄ／ＵｎＶｏｉｃｅｄ

引

Ｇ甜ＤＩ矿“，阢，盘，ｚｇＲＰ，ｚ＾“口，Ｄ盘ｉＬｉ７’Ｄ，ｚｇ

（ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，

ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｈｅｆｅｉ，２３００２７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｎａｌｇ。ｒｉｔｈｍｔｈａｔｅｘｔｒａｃｔｓｔｈｅＭｅｌ—ｃｅｐｓｔｒｕｍｕｓｉｎｇｖａｒｉａｂｌｅｆｒａｍｅ１ｅｎｇｔｈｄｕｒｉｎｇｖｏｉｃｅｄｓｐｅｅｃｈｉｓｐｒｏｐｏｓｅｄ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｔｈｅｖｏｉｃｅｄｐａｒｔⅣ【ｅｌ—ｃｅｐｓｔｒｕｍｉｓｃｏｐｉｅｄｔｗｉｃｅｂｅｃａｕｓｅｍｏｒｅｉｎｆｏｒｍａｔｉｏｎｉｓｈｅｌｄｉｎｖｏｉｃｅｄｓｐｅｅｃｈｔｈａｎｉｎｕｎｖｏｉｃｅｄｓｐｅｅｃｈ．Ｔｈｅｉｎｆｏｒｍａｔｉｏｎｏｆｐｉｔｃｈａｎｄｖｏｉｃｅｄ／ｕｎｖｏｉｃｅｄｉｓｆｕｓｅｄｉｎｔｏｔｈｅＭｅｌ—ｃｅｐｓｔｒｕｍｔｈｒ。ｕｇｈｔｈｅａｂｏｖｅｔｗ。ｍｅｔｈｏｄｓ．ＷｈｅｎｔｈｅＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ（ＧＭＭ）ｉｓａｄｏｐｔｅｄｉｎｔｅｘｔ—ｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ，ｔｈｅｓｙｓ—ｔｅｍｂａｓｅｄｏｎｔｈｅｄｙｎａｍｉｃＭｅｌ—ｃｅｐｓｔｒｕｍ（ＤＭＣＥＰ）ｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｔｈａｎｔｈｅｓｙｓｔｅｍｂａｓｅｄｏｎｓｔａｎｄａｒｄＭｅｌ—ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）．ＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎｅｘｐｅｒｉ—ｍｅｎｔｓａｒｅｃａｒｒｉｅｄｏｎｔｈｅ２００２ＮＩＳＴｓｉｎｇｌｅｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｅｖａｌｕａｔｉｏｎｃｏｒｐｕｓ．ＣｏｍｐａｒｅｄｗｉｔｈｓｔａｎｄａｒｄＭＦＣＣ，ｔｈｅｅｑｕａｌｅｒｒｏｒｒａｔｅ（ＥＥＲ）ｉｓｒｅｄｕｃｅｄｔｏ８．３％ｆｒｏｍ９．４％ａｎｄｔｏ６．９％ｆｒｏｍ７．８％ｉｎ５１２ＧＭＭａｎｄ２０４８ＧＭＭｗｉｔｈＤＭＣＥＰ．

Ｋｅｙｗｏｒｄｓ：ｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ；Ｍｅｌ—ｃｅｐｓｔｒｕｍ；ｐｉｔｃｈｆｒｅｑｕｅｎｃｙ；ｉｎｆｏｒｍａｔｉｏｎｏｆＶｏｉｃｅｄ／ｕｎ—ｖｏｊｃｅｄ

目

在与文本无关说话人确认系统中，基于ＧＭＭ—

ＵＢＭ［１１的模型是当前的主流技术，而特征参数一般采用基于人的听觉模型的梅尔刻度式倒频谱参数（Ｍｅｌ—ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）。ＭＦＣＣ参数的核心思想是建立在听觉模型基础之上的，该参数比其他的常用参数具有更高的识别率以及抗噪能力。但是，ＭＦＣＣ的抽取完全是一个静态的过程，没有考虑人发音的过程。一般而言，语音中至少包含浊音、清音、过渡部分，另外还有无声段；无声段不能提供信息，而浊音包含有更多的信息。在ＭＦＣＣ提取的过程中，一般会通过寂静音检测去除部分无音段，但是对于其他所有语音都是同等对待的。．本文采用梅尔倒谱参数（Ｍｅｌ—ｃｅｐｓｔｒｕｍ）［２１作为说话人识别系统的前端特征，梅尔倒谱参数也是

基金项目：中国科技大学青年教师基金和国家８６３（２００６ＡＡ０１０１０４）资助项目。收稿日期：２００６一０３—２３；修订日期：２００６—１０一２０

　万方数据

２３０数据采集与处理第２２卷

一种模拟人耳听力曲线的一种参数，但是与ＭＦＣＣ的三角滤波器组不同，该参数主要是从能量最佳逼近的角度去逼近原信号的频谱。浊音部分一般有相对固定频率，这个频率就是基音频率＾或者叫Ｐｉｔｃｈ。厂。一般与发音人以及具体所发的音有很大的关系，如果帧长固定的话，在浊音部分就会把语音信号截断，会造成频谱的混叠以及所谓的栅栏效应，因此帧长最好尽量包含所有周期的数据。另外，考虑到浊音部分含有更多语音信息，应该对浊音部分的参数比清音部分的参数加以更重的权重。

１ＧＭＭ—ＵＢＭ模型

说话人确认系统目前使用的主流技术是混合高斯模型［１］，其中背景模型（ＵＢＭ）用ＥＭ算法可以得到，而说话人模型（Ｓｐｅａｋｅｒｍｏｄｅｌ）是通过自适应技术（ＭＡＰ［１］）由ＵＢＭ模型自适应得到。判决时，将输入语音特征矢量通过Ｓｐｅａｋｅｒ和ＵＢＭ两个模型，计算两个模型的对数似然度得分的差值，如果大于预先设定的门限则认为语音是从假定说话人发出的语音段。

在这个模型中，如何在提取的语音特征矢量中包含尽量多的说话人信息，去除噪声、寂静音，甚至去除语义信息，降低特征矢量的维度一直是人们研究的问题。在基于电话语音数据的与文本无关的说话人确认系统中用得比较多的特征是帧长为２５ｍｓ、帧移１０ｍｓ的ＭＦＣＣ［１］，最常用的是第。到１２维ＭＦＣＣ，另外再加上ＭＦＣＣ的一阶差分、二阶差分总计构成３９阶用于模型的训练、测试，一般而言得到的特征矢量会减去倒谱的均值（Ｃｅｐｓｔｒａｌｍｅａｎｓｕｂｓｔｒａｃｔｉｏｎ，ＣＭＳＬｌＪ）后通过ＲＡＳＴＡＬｌｏ算法进行倒谱域的滤波以去除信道卷积性质的噪声。

２梅尔倒谱参数

定义一个对数函数

Ｓ（叫）一ｌｏｇ硼（１）假定语音信号吐胛］的频谱为ｘ（ｅ…），那么梅尔倒谱参数Ｃ。（ｍ）与Ｘ（ｅ“）的关系为

５（ｘ（ｅ?“））一ｙｃ。（ｍ）ｅ—ｍ’（２）式中偏转的频率萄（叫）可以通过以下一个全通系统函数定义一一篙ｂ—ｅ一扣（３）

‘

１一口２—１’２２“

。、。７式中口为一个与人耳对频率的相位响应有关的参数，在８Ｋ采样率下，一般ａ—Ｏ．３１。通过式（３）可以得到ｍ）一ｒｃｔａｎ叫未专篙（４）

如果只用Ｍ＋１个倒谱参数Ｃ。（ｍ）来参与计算，式（２）从理论上来说就不是等式，就会出现舍入误差。这个分析过程就是Ｍ＋１个倒谱参数Ｃ。（ｍ）从一个频率翘转的角度去逼近语音信号的对数谱Ｘ（ｅ”），使得误差最小，如图１所示。其中让，ｚ］代表残差。

图１ＭＣＥＰ分析过程

其中，Ｄ（２）与吐咒］的ｚ变换Ｘ（ｚ）关系为

ｘ（ｚ）一Ｋ?Ｄ（ｚ）（５）

Ｄ（２）一ｅ童。。扣圹”（６）式中Ｋ为一个增益归一化的系数。具体求解Ｃ。（优）可以采用Ｎｅｗｔｏｎ—Ｒａｐｈｓｏｎ方法。

３动态的特征参数提取

３．１固定帧长的特征参数抽取对谱的影响一般的特征抽取过程是采用固定帧长的方式，如图２所示。从图中可以看出，对于所有的帧都不区分地以固定的帧长（一般２０～２５ｍｓ）、帧移（一般１０～１５ｍｓ）进行处理。但是浊音部分是一种准周期性的信号，具有一定的基音频率＾，＾主要集中在５０～４００Ｈｚ，对应周期是２．５～２０ｍｓ，如果按照固定长度帧长，就有可能造成相邻帧之间的语音谱间的距离相差很大。针对浊音部分情况，大致分析如下。

图２固定帧移的特征抽取过程

对于第咒帧Ｓ。和第，ｚ＋１帧５。＋。，假设帧长为Ⅳ点，那么５。和Ｓ。＋。包含有Ｍ个周期为Ｐ的完整周期Ｓ一以及一部分不完整的信号Ｓ４，假设用Ｓ一表示周期信号部分，用Ｓ４表示非周期部分，Ｓ。，ｓ计。可表示为趾小甓ｉ篙姜著三～㈩

　万方数据

第２期郭武，等：基于基音周期与清浊音信息的梅尔倒谱参数２３１

踮。，一戤：濡ｇ三～㈦

?信号的频谱采用傅里叶变换式（９）可以求得，为简单起见，采用离散时间傅里叶变换而没有用离散傅里叶变换表示。

５（叫）一ｙｓ［咒］ｅ，ｎｕ（９）‘５ｆ［，ｚ］和５０。［，ｚ］虽然不同，但是都是相同周期的周期信号，因此傅里叶变换的幅度谱是相同的，仅仅相差一个相位；相邻帧Ｓ。和Ｓ什，之间谱的差异主要是由Ｓ：■］，ｓ：＋，［，ｚ］导致。Ｓ：［，ｚ］，５：＋。［，ｚ］都是一个周期的某一部分，但是由于采用固定帧长从而导致

语音数据相邻帧之间幅度谱出现了不连续；而且这种差异在厂０数值比较小时会更加的严重。这就与浊音部分的假设不一致，一般认为浊音部分是一种短时平稳的过程，语音谱应该帧问平稳。

３．２基于基音周期和清浊音信息的梅尔倒谱参数

动态ＭＣＥＰ参数抽取的过程如图３所示。总体思路就是分清音和浊音两种情况对特征进行提取，Ｐｉｔｃｈ的提取是应用Ｐｒａａｔ４．ｏ程序［３ｑ］，具体过程如下。

（１）针对清音采用标准帧长２５ｍｓ，帧移１０ｍｓ

图３动态梅尔倒谱参数求解过程

提取１３维的ＭＣＥＰ。

（２）针对浊音部分采取Ｐｉｔｃｈ判决的方法，如果下一帧的Ｐｉｔｃｈ与以前储存的所有帧的Ｐｉｔｃｈ的平均值之差小于门限值，那么认为这些帧具有相同周期，就把下一帧数据也保存起来，同时再重新计算保存帧的Ｐｉｔｃｈ，一直到这个Ｐｉｔｃｈ值与移动中下一帧的Ｐｉｔｃｈ值之差大于门限值为止；将所有这些帧当作一帧处理，计算ＭＣＥＰ，得到１３阶的ＭＣＥＰ，在实验中这个门限值定为１．ｏ。移动过程如图４所示。

（３）为了在后面的ＣＭＳ，ＲＡＳＴＡ算法中保持数据的平衡，又将浊音部分超过一帧数据长度计算得到的ＭＣＥＰ的数据按照相应的１０ｍｓ一帧进行复制，也就是所有这些帧都有相同的ＭＣＥＰ。如图４，假设５卧，是由６５ｍｓ时间长度的语音构成，一般一帧长是２５ｍｓ，那么在求出ＭＣＥＰ特征参数之后，将其扩展到５帧，也就是Ｓ计，～５计。，这５帧都具有相同的ＭＣＥＰ。

（４）按照时间的先后顺序分别将清音和浊音的ＭｃＥＰ排列，同时采用ｃＭｓ和ＲＡｓＴＡ算法分别

最＋，（具有相同Ｐｉｔｃｈ）

图４浊音部分的不固定帧长的特征抽取过程

　万方数据

２３２数据采集与处理第２２卷

进行倒谱域的滤波。对滤波后的参数进行一阶和二阶的差分，得到３９阶的参数。考虑到特征参数的高斯化能够提高识别率，最后再分别进行参数的高斯化‘引。

（５）将清音和浊音部分的特征参数保存，其中浊音部分保存两次，这相当于浊音部分特征加倍的情况。这样做是为了与说话人识别后端的ＥＭ算法、ＭＡＰ算法和测试程序相匹配，这也利用了ＧＭＭ—ＵＢＭ模型与时间无关性的特点。

４基于动态梅尔倒谱参数的说话人确认系统

本文采用ＮＩＳＴ２００２年的测试数据中的单人说话人确认数据库作为实验，该数据库中有男声１３９人，女声１９１人，录音是在日常通话的ＧＳＭ和ＣＤＭＡ移动电话录音数据，８Ｋ采样率，８比特肛率量化。一般训练用数据是２ｍｉｎ左右，测试数据从２ｓ到１ｍｉｎ左右不等，总计有３５００段左右的语音进行测试，每段语音通过１１个假定说话人的测试，总计大约３８０００次测试。

４．１前端特征的抽取

对于语音信号先去直流，预加重（因子为ｏ．９７），窗函数采用汉明窗。在抽取特征参数的同时，采用基于能量聚类的ＶＡＤ程序［６１进行寂静帧去除，对其中的参数进行适当调整以优化性能，每一段语音大概能够滤除２５％～３０％的无声段。

为了进行比较，抽取了３种特征参数：（１）ＭＦＣＣ作为基线系统；（２）动态梅尔倒谱参数；（３）用Ｐｒａａｔ得到信号的＾。对于ＭＦＣＣ参数，固定帧长为２５ｍｓ，帧移为１０ｍｓ，抽取０～１２维ＭＦＣＣｓ，总计为１３维，通过一阶差分、二阶差分总计构成３９维用于模型的训练、数据的测试。对于动态梅尔参数，又分为固定帧长（２５ｍｓ）、不固定帧长、浊音部分加倍３种情况。对于动态梅尔倒谱参数分别采用ａ—Ｏ．３１，选取前１３维的一阶差分和二阶差分，总计构成３９维。

４．２实验及结果

对于不采用基频＾作为特征参数的系统（系统１，３，４，５，见表１），首先针对不同性别采用标准的Ｋｍｅａｎｓ和ＥＭ算法得到一个与性别相关的背景模型（ｕＢＭ），然后将这两个分性别的ＵＢＭ合并成一个与性别无关的ＵＢＭ模型［１３；通过简化的ＭＡＰ算法分别得到说话人模型，测试中得分采用对数似然度计算。

系统２采用基频＾和ＭＦＣＣ共同作为特征参数，采用文献［７］中介绍的方法，也就是将浊音和清音单独进行说话人确认。清音部分系统采用３９维ＭＦＣＣ，浊音部分在３９维ＭＦＣＣ的基础上再增加＾的对数ｌｏｇ（＾）构成４０维矢量，系统的其他部分与系统１一样。这样在计算得分的时候，清音部分可以得到一个对数似然度得分以…。。，浊音部分可以得到一个对数似然度得分以。。ｉｃｅ，最终将这两个得分进行融合得到总得分

Ａ一口以，。。＋（１一ａ）以。。。。．ｃｅ（１０）采用等错误率（Ｅｑｕａｌｅｒｒｏｒｒａｔｅ，ＥＥＲ）来衡量说话人确认的效果，即错误拒绝概率ＦＲ和错误接受概率ＦＡ相等的情况；ＥＥＲ的结果与检测代价函数，ＤＥＴ（Ｄｅｔｅｃｔｉｏｎｅｒｒｏｒｔｒａｄｅ—ｏｆｆ）图等评价手段一致。在不同情况下的ＥＥＲ如表１所示。

表ｌ各种特征参数情况下的ＥＥＲ％

５结论和讨论

由实验中ＥＥＲ数据可以看出，采用动态梅尔倒谱参数并且对浊音进行双倍的加权（系统５）能够取得最好的识别效果，比基线的ＭＦＣＣ参数性能提高１２％。这是由于ＭＦＣＣ在通过滤波器组时，将低频和高频同等对待，事实上，说话人信息应该更多地包含在低频信息中，在这个过程中失去了一些说话人个性的东西。相对而言，梅尔倒谱参数是从翘转的频谱的角度达到预测能量最小化的过程，所以能够更加精确地保留说话人的个人信息，这也从上面的实验中得到了验证。

在说话人识别研究中，Ｐｉｔｃｈ对说话人识别（确认）的性能有帮助［７｛］，但都是把Ｐｉｔｃｈ作为单独的一维特征处理后与ＭＦＣＣ特征融合，一般认为Ｐｉｔｃｈ值的对数呈高斯分布。在实验中，由于Ｐｉｔｃｈ不稳定，很难取得好的效果。事实上，在实验的系统

　万方数据

第２期郭武，等：基于基音周期与清浊音信息的梅尔倒谱参数２３３

２中，如果将ａ设为ｏ．５，也就是将浊音和清音同等对待，相当于系统１加上一个Ｐｉｔｃｈ值来考虑，在识别性能上没有列表的效果好，ＥＥＲ值甚至比系统１还要高。当ａ大于ｏ．５，即浊音部分的得分加更多的权，也就相当于系统５部分的功能时，系统２才表现出性能的提升。因此，实验２的性能提高并不能肯定说是Ｐｉｔｃｈ的作用引起。从各种文献上来看，各种实验中对于直接采用Ｐｉｔｃｈ进行说话人确认，一般结果都是在测试人比较少的情况下能够取得满意的结果，对于测试人增加的情况下，性能会急剧恶化。而将Ｐｉｔｃｈ融人到短时参数中，避免了Ｐｉｔｃｈ不稳定的特点，从而提高了识别率。本文提出的方法为了能够采用ＣＭＳ，ＲＡＳＴＡ以及特征高斯化等过程匹配，对于帧长以及帧的起始还作了一些折衷。

清音是一种伪随机噪声，而浊音由于有一定的周期性，更加反应说话人的个性特征，但是在应用中一直没有加以重视，采用复制浊音段参数的方式就是一种对浊音段的加权。但是，这种方式的加权到底权值是多大，应该可以比本文中简单加倍的方式更加优化。按照理论上分析，这种加权的方法也可以最后在得分域针对清音和浊音进行处理。

参考文献：

［１］ＤｏｕｇｌａｓＡＲ，ＴｈｏｍａｓＦＱ，ＲｏｂｅｒｔＢＤ．ＳｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａｄａｐｔｅｄＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ

［Ｊ］．ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０００，（１０）：１９—４１．［２］ＴｏｋｕｄａＫ，ＫｏｂａｙａｓｈｉＴ，ＩｍａｉＳ．Ｇｅｎｅｒａｌｉｚｅｄｃｅｐ—ｓｔｒａｌａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈ—ｕｎｉｆｉｅｄａｐｐｒｏａｃｈｔｏＬＰＣａｎｄ

ｃｅｐｓｔｒａｌｍｅｔｈｏｄ［Ｃ］／／ＰｒｏｃＩＣＳＬＰ一９０．Ｋｏｂｅ，

ｊａｐ８ｎ：［ｓ．ｎ．］，１９９０：３７—４０．

［３］ＢｏｅｒｓｍａＰ，ｗｅｅｎｉｎｋＤ．ｗｗｗ．ｐｒａａｔ．ｏｒｇ［ＥＢ／０Ｌ］．［４］ＢｏｅｒｓｍａＰ．Ａｃｃｕｒａｔｅｓｈｏｒｔ—ｔｅｒｍａｎａｌｙｓｉｓｏｆｔｈｅｆｕｎ—ｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙａｎｄｔｈｅｈａｒｍｏｎｉｃｓ—ｔｏ—ｎｏｉｓｅｒａｔｉｏ

ｏｆａｓａｍｐｌｅｄｓｏｕｎｄ［ｃ］／／ＩｎｓｔｉｔｕｔｅｏｆＰｈｏｎｅｔｉｃｓｃｉ—

ｅｎｃｅｓ．ＵｎｉｖｅｒｓｉｔｙｏｆＡｍｓｔｅｒｄａｍ：ＩＦＡＰｒｏｃｅｅｄｉｎｇｓ．

Ａｍｓｔｅｒｄａｍ，Ｈｏｌｌａｎｄ：［ｓ．ｎ．］，１９９３，１７：９７—１１０．［５］ＸｉａｎｇＢｉｎｇ，ＵｐｅｎｄｒａＶＣ．ｓｈｏｒｔ—ｔｉｍｅＧａｕｓｓｉａｎｉｚａ—ｔｉｏｎｆｏｒｒｏｂｕｓｔｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ［ｃ］／／ＰｒｏｃＩＥＥＥ

ＩＣＡＳＳＰ’０２．０ｒｌａｎｄｏ，Ｆｌｏｒｉｄａ：［ｓ．ｎ．］，２００２，１：

６８１—６８４．

［６］ＬｏｒｉＦＬ，ＬａｗｒｅｎｃｅＲＲ．Ａｎｉｍｐｒｏｖｅｄｅｎｄｐｏｉｎｔｄｅ—ｔｅｃｔｏｒｆｏｒｉｓｏｌａｔｅｄｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓ

ｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９８１，

２９（４）：７７７—７８５．

［７］ＺｈａｎｇＸｕｅｆｅｎｇ，ＤｏｎｇＹｕａｎ．Ｉｎｓｉｇｈｔｉｎｔｏｔｈｅｒｏｌｅｏｆｐｉｔｃｈｉｎｆｏｒｍａｔｉｏｎｉｎｔｅｘｔ—ｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｒｅｃｏｇ—

ｎｉｔｉｏｎ［ｃ］／／第八届全国人机语音通讯学术会议．北

京．［ｓ．ｎ．］，２００５：２１４—２１７．

［８］ＧｅｏｒｇｅＲＤ，ＭａｒｋＡＰ．ＴｈｅＮＩＳＴｓｐｅａｋｅｒｒｅｃｏｇｎｉ—ｔｉｏｎｅｖａｌｕａｔｉｏｎ—ｏｖｅｒｖｉｅｗ，ｍｅｔｈｏｄｏｌｏｇｙ，ｓｙｓｔｅｍｓ，ｒｅ一

８ｕｌｔｓ，ｐｅｒｓｐｅｃｔｉｖｅ［Ｊ］．ｓｐｅｅｃｈｃｏｍｍｕｎｉｃａｔｉｏｎ，２０００，

（３１）：２２５—２Ｓ４．

作者简介：郭武（１９７３一），男，讲师，研究方向：语音信号处理、说话人与语种识别、确认，Ｅ—ｍａｉｌ：ｇｕｏｗｕ＠ｍａｉｌ．ｕｓｔｃ．ｅｄｕ．ｃｎ；王仁华（１９４３一），男，教授，研究方向：语音信号处理；戴礼荣（１９６２一），男，教授，研究方向：语音信号处理、多媒体信号处理、多媒体通信。

　万方数据

基于基音周期与清浊音信息的梅尔倒谱参数

作者：郭武，王仁华，戴礼荣， Guo Wu， Wang Renhua， Dai Lirong

作者单位：中国科技大学电子工程与信息科学系,合肥,230027

刊名：

数据采集与处理

英文刊名：JOURNAL OF DATA ACQUISITION & PROCESSING

年，卷(期)：2007，22(2)

引用次数：1次

参考文献(8条)

1.Douglas A R.Thomas F Q.Robert B D Speaker verification using adapted Gaussian mixture models

2000(10)

2.Tokuda K.Kobayashi T.Imai S Generalized cepstral analysis of speech-unified approach to LPC and cepstral method 1990

3.Boersma P.Weenink D查看详情

4.Boersma P Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise

ratio of a sampled sound 1993

5.Xiang Bing.Upendra V C Short-time Gaussianization for robust speaker verification 2002

6.Lori F https://www.doczj.com/doc/1413617731.html,wrence R R An improved endpoint detector for isolated word recognition 1981(4)

7.Zhang Xuefeng.Dong Yuan Insight into the role of pitch information in text-independent speaker recognition 2005

8.George R D.Mark A P The NIST speaker recognition evaluation-

overview,methodology,systems,results,perspective 2000(31)

相似文献(0条)

引证文献(1条)

1.陆伟.戴蓓蒨.李辉.刘青松MFCC中的基音频率信息对说话人识别系统性能的影响[期刊论文]-中国科学技术大学学报 2009(8)

本文链接：https://www.doczj.com/doc/1413617731.html,/Periodical_sjcjycl200702019.aspx

下载时间：2010年3月15日