当前位置：文档之家› SAPI_5.1_语音合成_和_语音识别_[C#]

SAPI_5.1_语音合成_和_语音识别_[C#]

SAPI 5.1 语音合成和语音识别[C#]

翻译源:Speech Synthesis & Speech Recognition Using SAPI 5.1 By Brian Long (https://www.doczj.com/doc/b815919966.html,/)

翻译说明:并不全文翻译,只翻译些对本人有用的部分,原版代码为Delphi,译文用C# .NET Framework 2.0

实现,有些有关Delphi的解释略去,另添加一些C#使用SAPI的个人理解注释,不定期更新

[1]语音合成

在简单层面上实现语音合成,只需要创建SpVoiceClass对象并调用其中的Speak方法,最简单的实现如下[读出文本框中的文字]

private void button1_Click(object sender, EventArgs e)

{

SpVoiceClass svc = new SpVoiceClass();

svc.Speak(textBox1.Text,SpeechVoiceSpeakFlags.SVSFDefault);

}...

[Tachikoma注:此处并未提到编程时添加对SAPI的引用,对COM组件的引用较简单,请自行处理]

对Speak方法的参数作如下说明:

0]对Speak方法的调用默认情况下将会是同步的,也就是说在朗读完指定文字之前不会返回值[同步/异步状态可用第二参数调整]

0]Speak方法返回一个流标号,当存在多个异步声音流时可通过标号识别,标号可作为参数提供给某些函数

1]第一个参数为要阅读的文字

2]第二参数为可调节的一些参数[Flags],可用"或"运算符将其连接同时使用

# SVSFDefault [该方法将同步阅读][具体见说明0]]

# SVSFlagAsync [该方法将异步阅读,调用后将立即返回,可通过事件监视朗读结束时间,或调用WaitUntilDone 方法,或通过SpeakCompleteEvent 得到一个事件句柄并提供给WaitForSingleObject]

# SVSFPurgeBeforeSpeak 所有朗读中的和待朗读的字符都将被取消

# SVSFNLPSpeakPunc 标点将被阅读出来

# SVSFIsFilename 标明第一个参数为要朗读文本所在的文件名

# SVSFIsXML 标明文本中含有XML标签,用于控制朗读的音量\频率等参数,示例

Hello

Delphi developers!

I can speak high and

MIDDLE="-10">low.

I can speak very quickly and

SPEED="-10">very slowly.

I can speak quietly and

LEVEL="100">loudly.

Go to source web page: SAPI 5.1 语音合成和语音识别[C#][1] - Tachikoma的乱七八糟- 博客园

列举语音[Voices]

翻译说明:由于这个部分涉及到了Delphi编写的简单程序，将其换成C#实现，有些不必要的说

明不按照原文翻译，基本上是按照原文复述

本节目标：调整朗读语音，调整语音频率和音量

代码环境设定：两个TrackBar代表语音频率和音量，trackBarRate，trackBarVolume，一个ComboBox选择朗读语音，comboBoxLanguage

PS：朗读语音，可能会不明白朗读语音的意思，就是在控制面板-语音-文字语音转换-"语音选择"中的项，比如Microsoft Mary,Microsoft Sam等等

SpVoiceClass类中GetVoices函数原型如下

public virtual ISpeechObjectTokens GetVoices(string RequiredAttributes, string OptionalAttributes);

该函数返回一个ISpeechObjectToken集合ISpeechObjectTokens，ISpeechObjectToken描述了每个朗读语音

函数两个参数均为对所得到集合的限制，第二参数为对第一参数的补充，比如使用

GetVoices('Gender = male', '')

就会得到男声集合

对于这些参数，一般有如下参数：Name,Vendor,Age,Gender,Language[有没有更多的不

知道，翻过SAPI的帮助也没找到相关说明]

调用以下语句作以说明

ISpeechObjectToken sot = svc.GetVoices(String.Empty, String.Empty).Item(0);

System.Diagnostics.Trace.WriteLine(sot.GetAttribute("Nam e"));

System.Diagnostics.Trace.WriteLine(sot.GetAttribute("Ven

dor"));

System.Diagnostics.Trace.WriteLine(sot.GetAttribute("Age "));

System.Diagnostics.Trace.WriteLine(sot.GetAttribute("Gen der"));

System.Diagnostics.Trace.WriteLine(sot.GetAttribute("Lan guage"));

输出中会显示

Microsoft Mary

Microsoft

Adult

Female

409;9

其中409;9代表该语音支持409[英语]和9[...]语言

[这里原文提到了申请ISpeechObjectToken实例的垃圾处理的问题，由于C#的垃圾处理机制，不翻译了]

必要函数介绍完了，下面是完成目标的代码，很简单，一些没说到的写在了注释里

SpVoiceClass svc = new SpVoiceClass();

private void button1_Click(object sender, EventArgs e) {

svc.Volume = trackBarVolume.Value;

svc.Rate = trackBarRate.Value;

svc.Voice = svc.GetVoices(string.Empty,

string.Empty).Item(comboBoxLanguage.SelectedIndex);

svc.Speak(textBox1.Text,

SpeechVoiceSpeakFlags.SVSFDefault);

}

private void Form1_Shown(object sender, EventArgs e)

{

trackBarRate.Minimum = -10;

trackBarRate.Maximum = 10;

trackBarRate.Value = svc.Rate;//Rate取值 -10 10

trackBarVolume.Maximum = 100;

trackBarVolume.Value = svc.Volume;//Volume取值 0100

ISpeechObjectTokens sots = svc.GetVoices(String.Empty,

String.Empty);

int i = 0;

foreach (ISpeechObjectToken sot in sots)

{

String str = sot.GetDescription(0);//得到语音名称|相当于sot.GetAttribute("name")

comboBoxLanguage.Items.Add(str);

if (str == svc.Voice.GetDescription(0)) comboBoxLanguage.SelectedIndex = i;

i++;

}

Go to source web page: SAPI 5.1 语音合成和语音识别[C#][2] - Tachikoma的乱七八糟- 博客园翻译说明：这篇译原文五个部分Making Your Computer Talk，Voice Events，Animating Speech，Keeping Track Of Spoken Text，Speaking Dialogs

只是说翻译范围覆盖这五个部分的范围，其中有一些例子不重写了，因为我暂时用不上，有一些乱七八糟的话不译，怕出错，毕竟对其理解不是很深，只挑一些重要的进行复述

Making Your Computer Talk 部分

提及了如何让朗读暂停和进行，只提取其中用到的几个函数，基本上原型一些出来就知道怎么回事，不详细翻译了

类SpVoiceClass

public virtual void Pause(); //暂停函数

public virtual void Resume();//恢复函数

public virtual int Skip(string Type, int NumItems);//跳过朗读函数

基本一看名称就知道了，只对Skip的参数做一个说明，Type参数代表要跳过的Item的类型[如sentence 按句子跳过...]，但注意这个参数目前只能是"Sentence",后面的NumItems 是指要跳过多少个句子

Voice Events 事件部分

事件的使用和正常的使用没什么大的区别，唯一需要注意的是

类SpVoiceClass

public virtual SpeechVoiceEvents EventInterests { get; set; }

这个属性，运行原理如下：

朗读开始后，类会检测EventInterests属性里所有事件，并触发事件，没有包括在内的事件不会触发

SpeechVoiceEvents枚举变量如下

Enum SpeechVoiceEvents

SVEStartInputStream = 2

SVEEndInputStream = 4

SVEVoiceChange = 8

SVEBookmark = 16

SVEWordBoundary = 32

SVEPhoneme = 64

SVESentenceBoundary = 128

SVEViseme = 256

SVEAudioLevel = 512

SVEPrivate = 32768

SVEAllEvents = 33790

End Enum

多个枚举变量用或运算符连接，变量代表的事件具体说明见SAPI的帮助

Animating Speech 动画语音

OnViseme事件由每个"可识别位置"引发["可识别位置"指朗读一段时发音嘴型需要明显改变

的位置]，英语朗读里一共有22个"可识别位置"[根据迪斯尼定义的13个可识别位置(早期动画用13个图片代表嘴唇动作)]

可以用相应的嘴形图片形成简单的发音动画

[具体例子不重做了，需要的请见原文]

Keeping Track Of Spoken Text 跟踪朗读文字

[原文通过事件OnWord & OnSentence 简单实现了高亮显示正在阅读的文字]

[简单不翻译了...懒...]

Speaking Dialogs 朗读对话框

[原文穷举了一个Form的Label 和Button 属性，朗读出所有的Text，简单不翻译]

到此，原文Speech Synthesis 语音合成部分结束

译后，才发现没译出什么，主要是比较简单，原文实现了一些例子，将其中重要的TIPs提取出来，主要是实现并不难，对本人没有参考价值

[明天在此处放一个实现的简单例子]

下一部分语音识别比较难理解，也需要点时间好好翻译，^^

Go to source web page: SAPI 5.1 语音合成和语音识别[C#][3] - Tachikoma的乱七八糟- 博客园翻译说明：语音识别中重点翻译"命令识别"[Command recognition]，对本人比较有用...

语音识别

语音识别可以使用两种识别器:a shared recogniser(TSpSharedRecognizer) [共享识别器]和an in-process recogniser (TSpInprocRecognizer)[独占识别器]，独占识别器效率更高但是独占麦克风，其他程序不能接收到语音输入，相对的，共享识别器可以和其它程序共享使用，其他程序可以接收到语音输入，因此使用共享识别器更多

识别器使用一个继承了TSpInprocRecoContext或TSpSharedRecoContext接口的上下文环境，这一上下文环境允许控制开始/停止识别，设置语法，接受事件等

语法

语法规定了可识别的词，定义了识别规则等，使用XML来描述语法，一个简单的例子如下

colour

please

red

blue

green

在这个例子中，下面的内容可以被识别

colour red

colour red please

colour blue

colour blue please

colour green

colour green please

更多关于此的内容见SAPI的帮助

[待续,该熄灯了...]

[继续]

连续识别

这个功能很便于使用，我们需要放置一个为共享识别器设置上下文环境SpSharedRecoContext

Note:识别器可自动被创建，不必手动创建，如果需要直接使用识别器，可以手动创建SpSharedRecognizerClass或SpInprocRecognizerClass对象

下面是个简单的例子

private void button1_Click(object sender,EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg =ssrc.CreateGrammar(0);

srg.DictationSetState(SpeechRuleState.SGDSActive);

}

[尊重原文，原文这里给出了这个例子，个人认为没什么用...,比较有用的还是后面C & C的例子]

语法事件

[这一节以复述为主，翻译实在是有点罗嗦，个人认为说明的不是特别清楚]

主要提到两个事件OnRecognition和OnHypothesis

OnRecognition ，顾名思义，在识别出一个元素后激发

OnHypothesis，原文的意思不是很好理解，这里引用微软帮助上的说明

A hypothesis is an interim recognition result.

Each time the engine attempts a recognition it

generates an interim results and Hypothesis events are sent out

意思就是"假设"是识别的一个中间结果，每次识别时，系统产生一个中间结果集并激发这一事件第二个时间具体的例子不举了，一般用不上，原文有个例子，只是把中间结果集输出，可以用于理解一下工作原理

Engine Dialogs

主要是原文例子的一个设计，这里没有做这个例子，所以...略

Command and Control Recognition

命令识别

这节没什么好说的，举个例子就可以了，不举原文的例子，写了个识别中文的例子，如要调试此例，请看完文后的"乱七八糟"

定义XML命令配置文件XMLRules.xml

颜色

红色

黄色

绿色

private SpeechLib.SpSharedRecoContext ssrc;

private ISpeechRecoGrammar srg;

private void button1_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg =ssrc.CreateGrammar(0);

srg.CmdLoadFromFile("g:\\XMLRules.xml",

SpeechLoadOption.SLODynamic);//读入规则

ssrc.EventInterests = SpeechRecoEvents.SREAllEvents;//在"语音事件"中有说明

ssrc.Recognition += new

_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition);//添加识别事件 srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSInactive);//激活规则

}

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionType RecognitionType, ISpeechRecoResult Result)

{

MessageBox.Show(Result.PhraseInfo.Elements.Item(0).DisplayText);

}

最后的乱七八糟

译了个不像样子，总想按自己的理解写，毕竟英语译过来不像中国话

最后几点注意事项，要是没看调试程序出错只能怪自己了

1]一定要进行语音训练，控制面板-语音-语音识别-训练配置文件

2]如最后一例，使用了中文识别，会调试出错，因为没指定中文识别器

指定方法：控制面板-语音-语音识别-语言-Microsoft Simplified Chinese Recognizer 希望能有人看这些文章...

Go to source web page: SAPI 5.1 语音合成和语音识别[C#][4] - Tachikoma的乱七八糟- 博客园

语音识别流程分析

摘要：语言识别是将人类自然语言的声音信号，通过计算机自动转换为与之相对应的文字符号的一门新兴技术，属于模式识别的一个分支。语音识别的结果可以通过屏幕显示出文字符号，也可以存储在文本文件中。语音识别技术能够把语音信息直接转换成文字信息，对于中文信息处理来说，无疑是一个最理想、最自然的汉字输入方式。本文首先分析了语音识别的原理，在此基础上进行语音识别的流程分析，主要内容有：提取语音、端点检测、特征值提取、训练数据、语音识别。选用HMM隐马尔科夫模型，基于VC2005编译环境下的的多线程编程，实现算法的并行运算，提升了语音识别的效率。实验结果表明：所设计的程序满足语音识别系统的基本要求。关键词：语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程前言语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话

音对说话人进行区别，从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。语音识别技术，也被称为自动语音Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列[1]。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。一、语音识别的原理语音识别的基本原理是一个模式匹配的过程：先建立一个标准的模式存放在计算机中，然后把输入的语言信息进行分析处理，采集相关的信息建立目标语音模式，再将目标语音模式与机内标准模式相匹配，找到最近的模式最为识别结果输出。语音识别本质上是一种模式

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别实验2

关于语音识别的研究网络工程专业网络C071班贾鸿姗 076040 摘要：语音识别技术的广泛应用 1前言：语音识别技术也被称为自动语音识别 (ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末，伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以由语音来方便的控制。工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。 2.1.3数字助理个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。但是，这种方法仍然让用户感到很不方便。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。智能玩具通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：（2）声学模型与模式匹配（识别算法）（3）语义理解：计算机对识别结果进行语法、语义分析。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。现代语音识别技术研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。语音识别应用的特点 1.语音识别系统必须覆盖的功能包括：（1）语音识别系统要对用户有益（希望它是能检测到的）。例如提高生产率，容易使用，更好的人机界面，或更自然的信息交流模式。（2）语音识别系统要对用户“友好”。这种“友好”的含义是：用户在和系统进行语音对话时感到舒适；系统的语音提示既有帮助，又很亲近。（3）语音识别系统必须有足够的精度（4）语音识别系统要有实时处理能力；例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理有以下四种方式可以处理这个问题。（1）错误弱化法。这种处理仅仅花费用户很少一点时间，对用户几乎没什么其它不利影响。（2）错误自检纠正法系统利用已知任务的限制自动地检测并纠正错误。（3）确认或多层次判定

（4）拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定，而是将其转给人工座席。在很多情况下，语音识别技术可以充分发挥出RFID的潜能： 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益语音识别技术在邮件分拣中的应用现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是，并不是所有的邮件都能上分拣机处理，那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件，仍需要大量的劳动力。由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力，并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言，这样，语音技术就成为世界性的产品。以英语语音识别系统为例，系统建立了36个可识别字符26个字母加上0～9的10个数字，同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。对于大公司的邮件收发中心来说，使用MailCode公司的Spell-It软件技术，分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如：碰到了寄给Joseph Schneider的邮件，操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。姓名和邮箱编码：Jennifer Schroeder, 软件工程部；Joseph Schneider, 技术操作部；Josh Schriver, 技术操作部，因为这三个姓名全都符合（J,S,C,H）的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的，就可以把邮件投入Joseph Schneide的信箱了。邮局要把邮件按投递路线分发，分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统，这样就大大方便了分拣工作。例如，有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术，分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音，如表2所示，数据库就会给出所有可能和这几

宝马中文声控语音识别控制系统

BMW中文声控系统声控启动语音控制支持方言专车专用宝马中文声控系统市场前景在庞大的汽车销量的基础上，车载语音系统已成为现代汽车的重要亮点之一，但是由于技术的局限性，国内车载语音系统的发展始终比较缓慢，在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在，Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英，由多名各领域资深人士参与研发，根据中国市场特点以及中国用户使用习惯进行特殊定制，成功推出Qdis-isods系列产品，为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后，用户用自己的声音即可完成相关操作，而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言，声音识别准确率高并支持多人识别，一举攻克了之前的技术难题，让车载语音系统全面进入中国市场。以前需要手动操作的控制，现在您和爱车直接对话就能实现，而且还能语音识别并控制后装增配的产品，满足客户多种智能语音操作的需求。随着车联网技术的发展，汽车的互联性会越来越强，我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上，从而完成更复杂的识别控制任务。我们依然在不断创新实践，以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型，金鼓德达将以一贯优秀的无损加装技术，让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列，爱车从此智能！一、BMW中文声控系统主要功能 1.语音识别启动引擎语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车语音指令随时学习,支持所有方言,指令内容可以自由定义;

基于语音识别技术的智能家居控制系统的设计

基于语音识别技术的智能家居控制系统的设计基于语音辨认技术的智能家居控制系统的设计摘要 21 世纪经济快速发展，人们对物资文化的需求也愈来愈高。在信息科技的支持下，事物在朝着简单化、便捷化、智能化的方向发展。在此背景下应运而生而生的智能家居，正是信息时期的典型产物。本文设计了1套基于语音辨认技术的智能家居控制系统，能够在客户端输入语音信号，完成对家居装备的控制，使得家居装备更加智能化。本文首先对语音辨认的相干理论知识进行了详细的论述，利用麻省理工学院（Massachusetts Institute of Technology, MIT）语音服务器完成对语音信号的特点提取和辨认进程，并且该服务器内有自动的高频噪声滤波器，避免声音信号产生失真现象。其次Zigbee模块完成了数据传输的功能，能够在网络拓扑较为稳定的家居环境中实现对数据的传输，消耗的功率下降，本钱也较低。最后基于安卓手机到达控制家具的目的，在手机客户端输入语音信号以后，服务器将翻译出来的语音信息传递给后台，由手机通过无线网络传递给家居装备，从而到达传递控制指令的目的。最后本文在测试阶段对本文设计的基于语音辨认技术的智能家居控制系统进行了性能测试，测试结果良好，能够到达预期的目标。关键词：智能家居；语音辨认；控制系统 Abstract With the rapid development of the economy in the 21st century, people＇s demand for material culture is also increasing. With the support of information technology, things are developing in the direction of simplification, convenience and intelligence. The smart home that emerged in this context is

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

语音识别为文字Google微软科大讯飞的语音识别引擎对

语音识别为文字：Google，微软，科大讯飞的语音识别引擎对比学习路线：https://https://www.doczj.com/doc/b815919966.html,/qq_36330643/article/details/80077771 使用外部知识库——tf-idf，还可以加上词语出现的位置进行权重增幅。（推荐）不使用外部知识库——主要根据文本本身的特征去提取:比如在文本中反复出现且关键词附近出现关键词的概率非常大，因此就有了TextRank算法。（实现包括FudanNLP和SnowNLP)。类似于PageRank算法；ICTCLAS则是从另外一个思路出发，即一个词如果是关键词那么它反复出现并且左右出现不同的词语的概率非常高。即左右熵比较高。关键词抽取也可以分为两种： 1.仅仅把词语抽取出来，实现较简单，比如：FundanNLP、jieba、BosonNLP、SnowNLP。 2.连词和短语一起抽取出来，这个还需要增加短语抽取这一步骤，实现如：ICTCLAS、ansj_seg等，可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。（对于聚类或者分类来说，很明显短语比词语更有价值）词性标注：(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。python jieba库在执行cut函数之后，完成了分词并进行了词性标注任务。语义角色标注(Semantic Role Labeling, SRL) 是一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元(语义角色) ，如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

基于单片机的语音识别系统_毕业设计推荐

基于单片机的语音识别系统

基于单片机的语音识别系统摘要近几年来，智能化和自动化技术在玩具制造领域中越来越被关注。本文介绍一种智能化小车控制系统的设计——语音控制小车。语音控制小车是基于SPCE061A的代表性兴趣产品，它配合61板推出，综合应用了SPCE061A的众多资源，小车采用语音识别技术，可通过语音命令对其行驶状态进行控制。首先介绍了SPCE061A的主要性能及其引脚的功能；接着完成了电源电路、复位电路、键盘电路、音频输入电路，音频输出电路和无线控制电路等硬件功能模块的设计。软件设计模块能实现智能小车的前进、后退、转向、停止、避障、表演动作以及循线等功能。测试表明，在环境背景噪音不太大，控制者的发音清晰的前提下，语音控制小车的语音识别系统能对特定的语音指令做出智能反应，做出预想中的有限的动作关键词：spec061a 语音识别驱动电路声控小车智能反应

Abstract In recent years, Intelligent and automation technology in the toy manufacture have been paid more and more attention.Introduce an intelligent vehicle control system design. SPCE061A program the system to single-chip, based on implementation of the car's voice control, This paper introduces the hardware sub-system design and implementation. The SPCE061A's main characters and pin function are introduced firstly. Completed the power circuit, reset circuit, keyboard circuitry, audio input circuits, audio output circuit and control circuit of wireless hardware such as the design of function modules. Software design module can achieve smart car forward, backward, turn, stop, obstacle avoidance, performing actions, as well as on-line functions. Test showed that the background noise in the environment is not too great, control persons under the premise of clear pronunciation, voice control car speech recognition systems for specific voice commands to make intelligent reaction, limited to the desired action. Keywords: spec061a 、voice recogniton、Driving circuit、Voice control dolly、intelirent response

基于单片机的语音识别智能家居控制系统设计

基于单片机的语音识别智能家居控制系统设计摘要：“智能家居”主要通过利用先进的单片机技术，蓝牙识别技术和语音识别技术，将家用电器，如电灯，电视，冰箱等联系起来，通过语音来控制各个家用电器设备，是人们的生活更加方便，安全和健康。关键词：智能家居；单片机；语音识别传统的家电控制方式主要有开关按键和红外遥控两种。这两种必须需要人去直接触碰，有着极大的安全隐患，而且控制距离短，不能够穿墙控制。我们在日常生活中经常遇到以下情况，躺在床上看书或看电视时，卧室电灯不能方便地控制，还要起来去关掉电灯。类似这种不方便的情况在家庭生活中多有出现。尤其是对于老年人、残疾人来说，家电控制更为不易。因此我设计了一种基于单片机的智能家居语音控制系统，采用了语音指令控制家用电器的开启或关闭，从而使现代家居生活更轻松、更便捷、更安全。 1 系统介绍系统主要分为以下几个部分：由语音识别模块、51单片机、蓝牙发送模块组成语音遥控；由蓝牙接收模块、主控器、接口电路组成家电语音控制平台。 2 硬件电路整个系统的硬件电路主要包括核心主控制和语音识别两个部分主控制部分为STC公司STC12LE5A60S2单片机，语音识别部分为LD3320语音识别芯片系统，用户发出声音控制指令时，语音识别部分把指令传送给主控制器，主控制器处理后，发出命令控制外围的家用电器设备。 3 非特定人语音识别模块设计

LD3320主要组成有高精度的语音识别处理器和一些外部电路，包括声音输出接口和麦克风接口。可以真正实现语音识别，声音控制和人际对话的各项功能，另外还有完整的非特征人语音识别特征库和高效的人语言识别搜索引擎模块。（1）语音识别分三个步骤：频谱分析、特征提取、匹配识别。LD3320已把各部分硬件集成在单芯片上，我们主要对LD3320进行二次开发。（2）LD3320芯片采用并行方式直接与单片机相接，具有识别率高，识别速度快，多接口，多支持等优点，可以连续快速识别多种语言。（3）设计步骤：确定寄存器读写操作方式（并行或串行SPI），熟悉寄存器的功能，确定所需寄存器的地址，编写驱动程序（初始化→写入识别列表→开始识别→响應中断）。 4 单片机控制器 51单片机的显著特征是采用超低功耗架构，可显著延长电池使用寿命；在本设计中，单片机的P0口接LD3320的8个数据口，P3口连接RDB、WRB、CSB、RSTB等控制引脚；SIMO0、SOMI0口连接射频模块的SPI数据口；在主控器上还接有一个扬声器，作为信息反馈装置；51单片机系列单片机针对C语言与汇编程序精心优化，我们可以通过简单的C 语言编程对其行控制。 5 无线信息传输——蓝牙通信利用HC05蓝牙发射/接收模块完成“操作指令”的发送和接收。为了实现对家电电器的控制，我们采用LED灯和继电器模拟实物电灯或者家电，通过语音识别去控制家电的开关，为了提高系统的识别率，本系统采用两级指令完成对系统的控制。向LD模块添加关键词时，通过编辑程序定义二维数组设定一级语音指令为“小黑”，二级语音指令为“开灯”、“关灯”，设定指令时，添加拼音的输入方式作为关键词数组，例如添加“小黑”命令，则写入“xiaohei”，汉字间的拼音用空格隔开。实现功能为接收语音

语音识别基础讲义01

第一章绪论 1.1 语音识别的重要性 1.1.1 语音信息处理与语音识别人类利用语言相互交流信息，包括语音和文字两种表达方式。通过语音相互传递信息，这是人类最重要的基本功能之一。随着信息社会的发展，人与人之间，自不必说，即使在人与机器之间也每时每刻都需要进行大量的信息交换。人类在利用语音进行信息交流时，说话人大脑产生思想，通过语言转换，再由发声器官发出相应的语音；语音的声波经由空气传播到达听话人的耳朵，通过听觉器官将语音传送到大脑，由此理解该语音所表达的语言意义。这是人类进行信息交流与处理的过程。用计算机来模拟人类的这一交流信息的过程，包括以下几个部分：（1）将大脑产生的思想转换成语言；（2）将语言转换成相应的语音；（3）识别表达语言的语音内容；（4）理解语音所表达的语言意义。上述（1）与（4）的部分属于自然语言生成和理解的研究范围，（2）的部分属于语音合成的研究范围；（3）的部分则属于语音识别的研究范围。图1.1为人与人之间、人与机器之间的语音信息处理流程的示意图。图1.1 人与人之间、人与机器之间的语音信息处理流程图 1.1.2 语音识别的重要性计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响。基于电话的语音识别技术，使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务进展中的重要一环(V oice-Commerce)。其次，语音识别技术作为声控产业，必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言，语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点，一些主要先进国家都把此工程列为国家级研究项目。面对如此广阔的应用领域，目前国内外众多公司正积极推动语音识别技术的应用。人与人之间的语音通信 (人说话方收听方 (机器

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要：本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ，微软Specch SDK5语音合成，和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话，MS-AGENT,语音合成，语音识别，网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

语音识别控制灯

信息与电气工程学院电子信息工程CDIO二级项目（2013/2014学年第二学期）题目：语音识别控制灯专业班级：电子信息学生姓名：学号：指导教师：马永强老师设计周数：15周设计成绩： 2014年6月4日

目录 1 项目设计目的及任务 (2) 2 项目设计思路 (2) 2.1 LD3320芯片 (2) 2.1.1 LD3320芯片的功能 (2) 2.1.2 寄存器介绍 (2) 2.1.3 寄存器的操作 (3) 2.1.4 驱动程序 (4) 2.1.5 播放声音 (7) 3 设计电路 (11) 3.1 仿真电路 (11) 3.2 电路工作原理分析 (11) 3.2.1 程序流程 (11) 3.2.2 原理说明 (12) 4 项目设计心得 (12) 5 参考文献 (13)

1 项目设计目的及任务要求完成一个语音识别控制灯系统的设计，基于LD3320芯片的语音识别系统。最基本的要求做到语音说出一些简单的命令，系统会识别并且做出相应地动作或运作，以此来控制灯的亮和灭。要求设计出原理图，并且利用proteus软件进行了仿真试验。 2 项目设计思路 2.1 LD3320芯片 2.1.1 LD3320芯片的功能语音识别是对基于生理学和行为特征的说话者嗓音和语言学模式的运用。它与语言识别不同在于这项技术不对说出的词语本身进行辨识。而是通过分析语音的唯一特性，例如发音的频率，来识别出说话的人。语音识别技术使得人们可以通过说话的嗓音来控制能否出入限制性的区域。举例来说，通过电话拨入银行、数据库服务、购物或语音邮件，以及进入保密的装置。语音识别与其他生物识别技术相比，不仅具有不会遗失和忘记、不需记忆、使用方便等特点，而且还具有用户接受程度高，声音输入设备造价低廉等优点。由于涉及不到用户的隐私问题，所以可以方便的推广应用。 LD3320芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路，包括AD、DA 转换器、麦克风接口、声音输出接口等。本芯片不需要外接任何的辅助芯片如Flash、RAM 等，直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。并且，识别的关键词语列表是可以任意动态编辑的。该芯片不需要外接任何的辅助芯片，直接集成在现有的产品中，即可实现语音识别，声控，人机对话功能。 LD3320完成非特定人语音识别，每次识别最多可以设置50项候选识别语句，每个识别句可以是单字，词组或短句，长度为不超过10个汉字或者79个字节的拼音串。另一方面，识别句内容可以动态编辑修改，因此可由一个系统支持多种场景。芯片采用48脚QFN塑料封装，工作供电为3.3V。核心是语音识别运算器，配合输入和输出，AD/DA转换等模块，完成语音识别的功能。LD3320芯片还支持并行和串口接口，串行方式可以简化与其他模块的连接。 2.1.2 寄存器介绍寄存器大部分都是有读和写的功能，有的是接受数据的，有的是设置开关和状态的。寄

语音识别技术基础知识

————————————————————————————————作者：————————————————————————————————日期：

语音识别技术基础知识 6月27日，美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是：英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为，“科大讯飞旗下的语音助手是中国版的Siri，其可携带实时翻译器则是一款杰出的人工智能应用，克服了方言、俚语和背景杂音，可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为，语音识别将成为下一代交互革命的关键技术。与此同时，在日常生活中，我们已经习惯用Siri或者Cortana这样的语音助手在一些特定的情况下帮我们解决一些小问题，如在开车时制定本周的日常，简短地回复他人消息等等，然而，在大多数情况下语音助手的使用率并不高，据研究机构CreativeStrategies的调查-有62%的安卓用户从未使用过语音助手，而这个数字苹果用户中则是70%。是语音识别的技术还不够先进，还是人们不需要语音助手呢？Amazon Echo的成功或许能给我一些启示。 Amazon Echo是亚马逊公司于2014年11月推出的一款家庭语音助手，能够实现包括购物、控制智能家居、阅读Kindle、预约Uber、跟踪（亚马逊）快递、订披萨、计时、算术、放音乐、找手机、模仿雨声等等诸多功能，一经推出就点燃了市场的热情，据国外研究机构统计，2015年Echo的销量是170万台左右，2016年则增长至650万余台，而截至2017年1月，亚马逊Echo的全球销量已超过700万台，预计今年将突破1100万台。另据eMarketer的一份报告，在美国智能音箱市场，亚马逊Echo占据的市场份额超过70%。同样是语音助手，为何Echo与Siri的境况如此不同呢，有研究者认为，这主要是两种产品使用环境不同而导致的。对于大多数人而言，在公共场合拿出手机，对着一个机器人说话不但缺乏隐私，同时多少有些不适；而在家庭中，面对家人和朋友，这点就能够有效避免，同时安静的环境更能有效提高机器识别的速度与精度，可以认为，Amazon Echo精准地切入了市场。然而，其他巨头也不甘人后，纷纷推出了自己的家庭智能语音助手：苹果推出了Home pod, 而google 也推出了google home. 看来，一场语音大战已经风雨欲来。

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

语音识别技术的发展与未来与机器进行语音交流，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。在1952年的贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后，并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。同时，语音识别在研究思路上也发生了重大变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外，业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。上世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。比如，DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作。进入上世纪90年代，DARPA计划仍在持续进行中，其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年，中国科学院声学所开始了计算机语音识别。进入上世纪80年代以来，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下，国内许多单位纷纷投入到这项研究工作中去。 1986年，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下，中国开始组织语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。自此，我国语音识别技术进入了一个新的发展阶段。自2009年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

《语音识别入门教程》

语音识别入门（V1.0）丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊中科院自动化所高创中心，北京，100080 【摘要】本文主要以剑桥工程学院（CUED）的语音识别系统为例，并结合我们实验室自身的研究与开发经验，讲述当前主流的大词汇量连续语音识别系统（LVCSR）的框架和相关技术，对实验室的同学进行一个普及和入门引导。【关键词】语音识别，HTK，LVCSR，SRI 1. 引言语音识别技术发展到今天，取得了巨大的进步，但也存在很多的问题。本文主要以CUED 的语言识别系统为例，说明LVCSR系统技术的最新进展和研究方向，对实验室的同学进行一个普及和入门引导。 1.1 国际语音识别技术研究机构（1）Cambridge University Engineering Department (CUED) （2）IBM （3）BBN （4）LIMSI （5）SRI （6）RWTH Aachen （7）AT&T （8）ATR （9）Carnegie Mellon University (CMU) （10）Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊（1）Speech Communication （2）Computer Speech and Language (CSL) （3）IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议（1）ICASSP（International Conference on Acoustic, Speech and Signal Processing）每年一届，10月截稿，次年5月开会。（2）ICSLP（International Conference on Spoken Language Processing）偶数年举办，4月截稿，9月开会。

文档之家