基于改进PNCC和i-vector的说话人识别鲁棒性
- 格式:pdf
- 大小:299.51 KB
- 文档页数:5
2017年4月 第38卷第4期 计算机工程与设计
COMPUTER ENGINEERING AND DESIGN Apr.2017 VoL 38 NO.4
基于改进PNCC和i-vector的说话人识别鲁棒性
史小元,景新幸,曾敏,杨海燕+
(桂林电子科技大学信息与通信学院,广西桂林541004)
摘要:针对传统的梅尔频率倒谱系数(MFCC)在说话人识别系统中鲁棒性不足的问题,提出一种基于改进幂率归一化
倒谱系数(PNCC)特征算法和身份向量(i-vector)训练模型的方法。与传统的MFCC不同,PNCC利用长时帧估计背景
噪声;在此基础上,通过多窗谱估计、平滑幅度谱包络和均值方差归一化(MVA)等技术进一步提升其鲁棒性。以i-vec—
tor为基准模型,在TIMIT语音库上进行说话人识别实验,实验结果表明,在不同噪声、不同信噪比下,所提算法相比其
它特征有最低的等错误率,鲁棒性最强,在信噪比低于10 dB的噪声环境中具有更大优势。
关键词:幂率归一化倒谱系数;身份向量;均值方差归一化;多窗谱估计;鲁棒性;说话人识别
中图法分类号:TP391.4 文献标识号:A 文章编号:1000 7024(2017)04—1071—05
d0i:10.16208/j.issnl000—7024.2017.04.042
Robust speaker recognition based on improved PNCC and i-vector
SHI Xiao-yuan,JING Xin-xing,ZENG Min,YANG Hai—yan+
(School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China)
Abstract:Focused on the issue that the robustness of traditional Mel frequency cepstral coefficients(MFCC)feature degrades
drastically in speaker recognition system,a kind algorithm based on improved power normalized cepstral coefficients(PNCC)and
i-vector model was proposed.The difference between traditional MFCC and PNCC was that PNCC used long term frame to esti—
mate background noise.On this basis,one way that using multiple windows spectral estimation,smoothing the amplitude spec
tral envelope and adopting MVA to enhance its robustness was proposed.The i-vector was set as the baseline system for speaker
recognition and test in TIMIT speech database.Experimental results show that for different noises and different signal noise
ratios(SNR),the proposed method has the lowest equal error rate and the best robustness,and when SNR iS 1ower than 10 dB,
it has greater advantage compared to other algorithms.
Key words:PNCC;i vector;MVA;multiple windows spectral estimation;robust;speaker recognition
0引 言
由于测试环境和训练环境的不同或者听觉环境受到噪
声、信道失真和叠加以及说话人不同的影响,语音识别的
准确性将会有很大的波动,影响系统的性能。因此,系统
鲁棒性的提升已经成为说话人识别领域研究的一个重点。
在过去一段时间,研究者提出了许多算法去解决这一
问题,比如伽马通频率倒谱系数(GFCC)F1]等。这些传统
的噪声补偿算法存在单一噪声的情况下使得语音识别的准
确性有了实质性的提高,但是在更加复杂的环境下,这一 类的算法通常不能提供识别准确性的显著提高。
由Kim等提出的幂率归一化倒谱系数(PNCC)l_2]特征
算法,与梅尔频率倒谱系数(MFCC)l3 和GFCC等算法相
比,在不损失识别性能和计算复杂度的前提下,使语音识
别系统的鲁棒性有了很大的提升。本文在上述研究的基础 上,提出了基于改进PNCC和i-vectorl4 模型的说话人鲁
棒性识别方法,并且在TIMIT语音库上进行说话人识别实
验,结合实验结果分析了不同特征算法对说话人识别系统
鲁棒性的影响。实验结果表明,本文提出的改进PNCC算
法相比其它特征有最低的等错误率,鲁棒性最强。
收稿日期:2016—03—09;修订日期:2016—05 10 基金项目:广西区自然科学基金项目(2O12GxNsFAA053221);广西千亿元产业产学沿用合作基金项目(信科院0168)
作者简介:史小元(1991一),男,山东泰安人,硕士研究生,研究方向为语音识别、语音信号处理;景新幸(1960一),男,湖北武汉人, 博士,教授,研究方向为语音信号处理、非线性电路、集成电路设计;曾敏(1988一),女,山东潍坊人,硕士研究生,研究方向为仪器科
学与技术;+通讯作者:杨海燕(1975一),女,山西运城人,硕士,副教授,研究方向为语音信号处理。E-mail:yhy@guet.edu.c
n 计算机工程与设计 2017年
1 i-vector提取方法
给定M条训练数据 , 一{ I m一1,2,3,…M},
其中 一{ , , ,…, }是维度为D的特征矢量,
本文使用由改进PNCC特征提取方法提取到的39维特征矢
量。首先训练统一背景模型UBM
K 更新总体变化矩阵T
M M ∑P(m)TE[w(m)wr(m)]一∑Py(m)E[wr(m)1 一1 =1 (11) (4)重复或者中止:重复进行(2)和(3),达到预设
的迭代次数或使目标函数达到收敛。
( )一∑GQ(y;nk,Rk) (1) 2改进的PNCC特征 一1 式中: 、Q( ; ,R )定义请参见文献[7]。
用S一{Ck,mk,尺 l k一1,2,3,…,k}表示GMM-UBM
的参数,其中Rk、mk定义请参见文献[73。对于任意一个
D维的语音特征矢量 ,用(D×K)维低维随机超矢量
N(m)描述文本无关的说话人的差异
N(优)一No+T・ ( ) (2)
式中:叫( )、T定义请参见文献[7],对于已知的 ,s
和T,i-vector可以由式(2)得到,用来解决以下问题
T K w(rn)一arpgmaxⅡⅡz( ;NK( ),RK) ’ £一1 k 1 (3) 式中:NK(m)是N(m)的第K个D维低维矢量,其中
( l 5)一半 L(4)
∑ z( ;Nz(m),R ) 一1 将式(4)带入式(3)中,得到
叫(m)=I- (m)『』R Fy(m) (5)
其中
Z(m)一j+TrP(m)R;- 丁 (6)
式中:r(m)是(D×K)×(D×K)的块对角矩阵,
(m)I,)xD为r(m)的第K个块成分;Fy(m)是(D×K)的
低维超矢量,P (m)为F (m)的第K个D低维矢量。
其中
(m)一∑p(k I ,s) (7) 本文改进的PNCC特征参数提取过程如图1所示。
语音信号
预处理
多窗谱估计
滑动平均滤波器
时一频域归一化 __________________●’__●。。。。 。。。。—— ................. I..... .....一 功率归一化 。。--________________-__。。。-。。。。——
................. 1 .........一 非线性幂函数
差分变换 。。。。。。。。。__●-_____—— ±—一 DCT变换 。。。。。。。。。。。●。。__。_—— .......... 1....一 MYA处理
IPNCC参数 长时功率 二二[
非对称和临时掩蔽 滤波器
权熏平滑
图1改进PNCC提取过程
Py,k( )一E P(k I ,s)( 一 ) (8’ 2.1 多窗谱估计
所以,总体变化矩阵T可以通过以下步骤求得:
(1)初始化
在[Th ,Thz]中随机选择T,设定T中每个成分的初
始值,对于每一条训练语料,其相应的 (m)和Fy, (m)
可由式(7)、式(8)计算得到。 (2)设定E值
对每一条训练语料,用充足的数据对总体变化矩阵丁
进行估计,计算w(m)的期望值
E[甜(m)]一/- (m)丁 R Py(m) (9)
EEw(m)WT(m)]一E[伽( )]E[叫 (m)]+/- (m)
(i0) (3)设定N的值 在语音信号的前端处理中,特征提取是非常重要的一
部分,在大多数的前端处理中,都是由使用hamming窗的
离散傅里叶变换(DFT)或者线性预测模型(I P)来计算
频谱特征。DFT和LP模型在干净的语音条件下,性能非
常好。但是,由于环境和声道的变化,会造成频谱的失真,
从而导致识别准确性的急剧下降。
多窗谱估计_8 最早应用于语音增强领域,并且在频谱
估计和频谱泄露方面均优于DFT和LP。多窗谱估计采用
多个时域窗函数求得信号的多个子频谱,然后对这些子频
谱加权平均,得到信号的谱估计。由于求得的多个子频谱
近似不相关,因此加权平均后频谱估计的方差会减小,提
高了频谱估计的稳定性,从而使语音识别系统的鲁棒性