说话人识别模型
- 格式:pdf
- 大小:72.63 KB
- 文档页数:2
第三章说话人识别模型
31引言
在第二章中,我们介绍了如何把语音分成一I吻顾的语音段,然后逐帧的提取各种特征参数的过
程。经过特征参数提取这个步骤之后,每一帧语音对应一个特征参数矢量(这个特征参数矢量可能包含上一章所介绍的各种特征参数),而一段语音就被处理成一个特征参数矢量的集合。从随机过程
的观点看,每一个特征参数矢量对应观测空间的一个样本点,一段语音则对应一个样本点的集合。
基于模板的说话人识别系统都包含训练和识别两个子模块。训练的过程,就是要对训练语音的样本点集合按某种方式建立模板。对多个人进行训练以后,可以得到多套模板。识别的过程,就是
要把待识别语音的样本点集合与训练所得到的各个模板分别进行比对,与每个模板比对时都按某种
方法得到一个相似度的评判,最后综合这些相似度的结果,进行最终的判决。图1-1是对训练和识
别的一个直观的描述,这里重绘如下。
(a) 21练
未知说话人
(b)识别
图3-1模板匹配的说话人识别方法
21
3-2平均值形式的模板—简单统计识别方法22 从图3-1中我们可以看出,模板的形式是说话人识别方法中关键的一环,不同的模板形式需要
不同的训练方法、模板比对方法和最后的判决方法可以说不同的模板形式也就决定了不同的说话
人识别方法。模板的形式有简单有复杂,常用的模板形式包括平均值形式的模板、码本形式的模板、建立在随机分布认识上的GMM模板和建立在随机过程认识L的HMM模板。本章将分别对这些模
板形式做简单的介绍和分析。并在最后给出我的系统的大致设想并陈述理由
3.2平均值形式的模板—简单统计识别方法
平均值形式的模板是最简单的模板,它取所有训练样本点的平均值样本点来做参考模板。记一
个说话人的训练样本点的集合为{,、}几、 N为训练样本点总数,那么对应这个说话人的模板就是一
个点
(3-1)
在识别的时候,待识别的样本点、到模板的距离定义为
d(x,、)一(x,一、)'W(x、一:)(3-2)
这里W是一个加权矩阵,不同的W对应不同的距离测度,当W是一个单位阵时,对应欧氏距离(Euclidean Distance);当W为对应z的逆协方差矩阵时对应马氏距离(Mahalanobis Distance):我们
在后面还会介绍到一种对LPC参数特别有效的距离测度,在那里,W为用自相关法计算LPC参数
时得到的自相关矩阵,即(2-25)式中的系数矩阵,对应的距离测度被称为Itakura-Satio距离测度
待识别的语音样本点的集合闪二1到一个模板,的距离有一个统计平均・
、_二}d(x;,z) N‘胃(3-3)
其中N'为识别样本点总数式中的d就是我们最后用以衡量训练语音和识别语音相近度的依据。在
ASV中,说话人声明了自己的身份,因此只需要计算与一个模板的距离歹,如果歹小于某个门限姚,
那么就认为说话人身份与所声明的身份相匹配,否则认为不匹配;而在ASI中,说话人可能是一组
说话人中的一个,这组说话人对应模板集f瓦 1"'lxklx=i, M为可能的说话人的个数,这时需要分别与这组
说话人模板‘}算平均距离得到因Mk-I '取其中最小的那一个作为可能匹配的对象
呱。。一min {dk } (3-4)
如果d,,,,,,小于某个门限do,则认为说话人与被指定对象匹配,否则认为说话人不是这组可能说话
人中的任意一个。
平均值形式的模板对应了一类最简单的识别方法—简单统计识别方法,这种方法也是说话人识别领域最初采用的方法。这种方法认为取平均的结果可以使得那些反映说话人信息的成分保留下