3.语音识别技术 语音识别系统的分类方式及依据 根据对说话人说话方式的要求,可以分 为孤立字(词)语音识别系统,连接字 语音识别系统以及连续语音识别系统 根据对说话人的依赖程度可以分为特定 人和非特定人语音识别系统. 根据词汇量大小,可以分为小词汇量, 中等词汇量,大词汇量以及无限词汇量 语音识别系统.
Hale Waihona Puke 3 动态时间规整方法 说话人信息不仅有稳定因素(发声器官 的结构和发声习惯),而且有时变因素 (语速,语调,重音和韵律).将识别 模板与参考模板进行时间对比,按照某 种距离测定得出两模板间的相似程度. 常用的方法是基于最近邻原则的动态时 间规整DTW.
4 矢量量化方法 矢量量化最早是基于聚类分析的数据压 缩编码技术.Helms首次将其用于声纹 识别,把每个人的特定文本编成码本, 识别时将测试文本按此码本进行编码, 以量化产生的失真度作为判决标准. Bell实验室的Rosenberg和Soong用VQ进 行了孤立数字文本的声纹识别研究.这 种方法的识别精度较高,且判断速度快.
2. 概率统计方法 语音中说话人信息在短时内较为平稳, 通过对稳态特征如基音,声门增益,低 阶反射系数的统计分析,可以利用均值, 方差等统计量和概率密度函数进行分类 判决.其优点是不用对特征参量在时域 上进行规整,比较适合文本无关的说话 人识别 利用子词单元构成的隐含马尔柯夫模型, 构成了一个说话人确认系统,每个子词 单元用一个从左至右的HMM描写,每 个模型包含2到3个状态.
1.什么是说话人识别(SR)? 说话人识别(Speaker Recognition, SR)技术是以话音 对说话人进行区分,从而进行身份鉴别与认证的技术. 在国外,说话人识别技术获得了广泛的研究,同时也 有少量成熟产品问世.AT&T,TI与美国著名的通讯公 司Sprint都已经展开了在声音识别领域的实验和实际的 应用.说话人识别技术有着广阔的市场应用前景.通 过SR技术,可以利用人本身的生物特性进行身份鉴别, 例如为公安部门进行语音验证,为一般用户提供防盗 门开启功能等等.在互联网应用及通信领域,SR技术 可以应用于诸如声音拨号,电话银行,电话购物,数 据库访问,信息服务,语音E-mail,安全控制,计算机 远程登录等领域.在呼叫中心应用上,SR技术同样可 以提供更加个性化的人机交互界面.当顾客以电话方 式对呼叫中心进行请求时,系统能够根据话音判断出 来者的身份,从而提供更个性化,更贴心的服务.