考模板的长度一致,在这一过程中,未知单词的时间轴会 产生扭曲或弯折,以便其特征量与标准模式对应。
1. 原理描述 DTW 是把时间规整和距离测度计算结合起来的一种 非线性规整技术。
测试语音参数共有I 帧矢量,而参考模板共有J 帧矢量,
I 和J 不等,寻找一个时间规整函数 j=w(i),它将测试矢量 的时间轴i 非线性地映射到模板的时间轴 j上,并使该函数
代价函数。
j
j
时间规整函数 j=w(i)
A
i
i
B
图13.4 动态时间规整
为了使T(测试)的第i 个样本与R(参考)的第 j 个样本 对正,其对应的点不在直线对角线上,得到一条弯曲的曲 线j=w(i)。j=w(i) 称为规整函数。
2. 时间规整解决的问题
设 T={a1 , a2 , …… , ai , …… , aI} i=1~I,
矢量量化识别时,将输入语音的K维帧矢量与已有的 码本中M个区域边界比较,按失真测度最小准则找到与该 输入矢量距离最小的码字标号来代替此输入的K维矢量, 这个对应的码字即为识别结果,再对它进行K维重建就得 到被识别的信号。
模型1 码本1
语音 信号 预 处 理
参 数 提 取
模型2 码本2
· · ·
识别输 判决逻辑 出结果
由此来判别出未知语音。
特征提取的基本思想:将信号通过一次变换,去除 冗余部分,将代表语音本质的特征参数抽取出来。 与特征提取相关的内容是特征间的距离测度。 特征的选择对识别效果至关重要。同时,还要考虑特征
参数的计算量。
语音信号的特征主要有时域和频域两种。
时域特征:短时平均能量、短时平均过零率、共 振峰、基音周期等; 频 域 特 征 : 线 性 预 测 系 数 (LPC) 、 LP 倒 谱 系 数 (LPCC)、线谱对参数(LSP) 、短时频谱、 Mel频率倒谱 系数(MFCC)等。 目前已有结合时间和频率的特征,即时频谱,充