语音识别多通道用户界面

格式：doc
大小：23.00 KB
文档页数：4

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音识别多通道用户界面

计算机092 徐杰明 1069

语音识别多通道用户界面定义

随着计算机技术的发展，人们迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通。在人机对话方面寻求最好的语音信息交换手段是发展人机语音通信和新一代智能计算机的主要组成部分。随着计算机的普及，越来越多的人在使用计算机，如何给不熟悉计算机的人提供一个友好的人机交互手段，逐渐引起了人们的重视。从而也就诞生了计算机语音学。计算机语音学覆盖了广泛的研究活动，包括语音识别、语音合成、语音编码、自然语言理解、机器翻译等。

语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。当人们想对计算机说话时，通常首先需要进行语音识别，即将声音信号转换成单词流。

发展历史

语音识别的研究工作大约开始于20世纪50年代，当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry 系统。

60年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划（DP）和线性预测分析技术（LPC），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。

70年代，语音识别领域取得了较大进展。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代，MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展，语音识别的问题逐步在理论体系上得到了比较完整和准确的描述，同时在实践上又逐步研发出效率较高的解决算法。

90年代以来，在美国国防部的Darpa测试、Ears计划、近期的Gales 计划，以及我国863计划等推动下，一大批高水平的研究机构和企业加入到语音

识别的研究领域，极大地推动了语音识别技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务，从单纯的语音识别任务发展到语音翻译任务，从实验室系统走向商用系统。

最近年里，语音识别技术的显著进展，带来了高性能的算法和系统。用于语音拨号、语音命令控制、简单的数据输入和准备结构化文档的语音识别工具已经开始出现。

主要的研究方法分类

语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。一个完整的语音识别系统应包括以下三个部分：

1)语音特征提取

2)语音信号在完成模/数转换后，还要进行特征提取，一方面为了获得语

音的本质特征；另一方面还可以进行数据的压缩。目前通用特征提取的

方法是基于语音帧的，即将语音信号分为有重叠的若干帧，对每一帧提

取语音特征。

3)声学模型

4)声学模型是用于从语音到音节的概率计算。在识别时将提取的语音特征

与声学模型比较并匹配，以获得最佳的识别效果。目前广泛采用的声学

建模法有：隐马尔科夫模型建模和上下文相关建模。

5)语言模型

6)语言模型用于计算从音节到字的概率。目前，语言模型主要有：规则模

型和统计模型两种。

语音识别的过程分为三个步骤：预处理、识别和后处理。

1)预处理

2)包含波形硬件采样率的确定、分帧的大小和帧移策略的确定；剔除噪声

的带通滤波、高频预加重处理、各种变换策略；波形的自动切分。

3)首先对模拟语音信号采样，将其数字化。连续语音流切分是找出语音信

号中的各种识别基元如音素、音节、半音节、声韵母、单词或意群等的

始点和终点的位置，进而将对连续语音的处理变为对各个语音单元的处

理。语音端点检测指的也是连续语音流切分。

4)识别

5)包含特征参数提取；参数模板存储及识别。

6)识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。

寻找一个既能充分表达语音特征又能彼此区别的、较稳定的特征参数是

很重要的。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、

平均过零率、平均能量、短时频谱、共振蜂频率及带宽等。识别参数的

选择着眼于能得到高的识别率，由于有些参数的提取较为复杂，计算较

费时，因而要折衷考虑选用哪些参数并确定采用哪种识别方法。

7)后处理

8)包括自动分词、词类分析、词义分析、词用分析、语法分析、句法分析、

同音词判别等。后处理是利用语言学知识库中的知识，按一定的推理策

略，把识别出来的拼音转换成汉字并理解语句的含义。语言学知识库中

有词汇、语法、句法、语义、语用和常用词语搭配等知识。

发展前景

21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

参考文献

[1] 柳春语音识别技术研究进展[J] 甘肃科技

[2] 杨尚国语音识别技术概述[J] 福建电脑

[3] 熊燕抗噪声语音识别技术研究[J] 中国科技信息

[4] 刘筠一种新型语音识别系统[J] 成都大学学报(自然科学版)

[5] 马斌基于小波变换的DSP语音识别系统[J] 低压电器

[6] 英锋基于SPCE061A的语音识别系统的设计[J] 微计算机信息

[8] Based on improved a hidden markov model (HMM) speech recognition method Volume 26, Issue 6, October 1999

[9]Man-machine interaction and absenteeism Original Research Article

语音识别多通道用户界面

相关主题

文档推荐

最新文档