统性能急剧下降. <3> 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误.在安静环境下
有声段和无声段时能量存在很大差异,由此判断语音的起点.但是当噪声的能量和 语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误.
语音识别概述
<4> 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分 为若干段,计算出每一段的特征矢量序列作为识别参数.但是很多不同的词语的矢 量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一词 语的不同次发音,从而降低识别率.
现一些连音现象; <3> 连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连
音和变音.
另外从识别系统的词汇量大小分:小词汇量语音识别系统〔几十个词〕; 中等词汇量语音识别系统〔几百到上千个词〕;大词汇量语音识别系统〔几千到 几万个词〕.
语音识别概述
语音识别的基本方法:
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、 模 板匹配的方法以及利用人工神经网络的方法.
<3>神经网络的方法 基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素
构成.由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处 于实验室研究阶段.
语音识别概述
目前语音识别的研究主流是大词汇量的非特定人的连续语音系统,但是事实 上,对于许多应用来说,一个语音识别系统只要一组词汇或命令,它就可能为用户提 供一个有效的工具,简单有效的孤立词特定人语音识别系统就能满足要求.正是孤 立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进行研究
的数字信号.通过对语音信号特性的分析表明,浊音语音的频谱一般在4KHz以上 便迅速下降.而清音语音信号的频谱在4KHz以上频段反而呈上升趋势,甚至超过 了8KHz以后仍没有明显下降的苗头.实验表明语音清晰度和可懂度有明显影响 的成分最高频率约为5.7KHz.而语音信号本身的冗余度又比较大,少数辅音清晰 度下降并不明显影响语句的可懂度.因此语音识别时常用的采样频率为10KHz或 16KHz.