语音识别发展现状与展望

  • 格式:pdf
  • 大小:1.31 MB
  • 文档页数:45

下载文档原格式

  / 45
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国中文信息学会第七次全国会员代表大会

暨学会成立30周年学术会议

语音识别发展现状与展望中科院自动化研究所徐波

2011年12月4日

报告提纲

•语音识别技术现状及态势•语音识别技术的行业应用•语音识别技术研究方向•结论与展望

2010年始语音识别重新成为产业热点•移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向

–Android系统内嵌语音识别技术,Google语音

翻译等;

–iPhone4S 上的Siri软件;

–百度、腾讯、盛大、华为等都进军语音识别领

域;

–我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯

–已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线

•美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵•Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展

---特征提取与知识方面•MFCC,PLP,CMS,RASTA,VTLN;•HLDA, fMPE,neural net-based features •前端优化

–融入更多特征信息(MLP、TrapNN、Bottle Neck

Features等)

•特征很大特点有些是跟模型的训练算法相匹配•大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs.

cross-word

---模型与算法

•统计模型HMM

–EM、MAP/MLLR自适应

–MMIE、MPE、fMPE训练(2005)

–boosted MMIE(bMMIE) 训练(2008)

–基于最大边距(Large margin)分类的区分度训练(2004-2008)

•优化模型精度

–声学上下文建模

•Quinphone(五音子)、Septaphone(七音子)–方差建模(SPAM、EMLLT、全方差建模等)

–Subspace GMM(SGMM)建模(2009)

•提出了更好的声学数据共享机制

---搜索•A* 搜索

•Viterbi搜索

•多遍(Multi-pass)识别•多系统融合(ROVER)技术

三十年语音识别技术发展

---ASR开放源码工具

•HTK为基础的声学模型建模技术

–剑桥大学的HTK (v3.4.1)

•LM模型建模技术

–从传统的SRI的SRILM (v1.5)

–到能够处理更大规模语料的

•微软的MSRLM (v0.1)

•以及意大利IRST实验室的IRSTLM (v5.6)•FSN以及解码技术

–MIT的LibFST(v1.4.0)

–Google的OpenFST(v1.2.7)

大词汇量连续语音识别技术发展概况---在电话、会议等复杂环境中目前英语识别率准确率在80%左右,离人类2%-4%的错误率还有很大距离

Moore定理及应用服务驱动计算能

力和方式的改变

•云计算主要特征

–低成本:一堆廉价的机器,但数量庞大;

–虚拟化技术:使用者感觉只面对一台机器;

–并行计算结构:程序必须支持并行计算

•云计算类型

–公有云:对外提供计算和存储服务等,utility;

–私有云:对外提供应用服务,但满足低成本、虚拟化

以及并行化等特点;

•云计算vs. 集群:

–虚拟化技术+并行计算;

–在云之上的应用服务开发更加规范和形式化;

语音模式识别的云服务优势•在用户层面上,云端向终端提供了革命性的计算和存储能力;

•对于运营商而言,云服务运营还非常易于获得海量有标签的训练样本,从而帮助研究人员持续改进识别性能。

•云语音更将挑战“发音习惯,用词习惯”等传统技术难以解决的技术难点,为用户带来全新的,极简的沟通体验。

传统语音识别研究关心的问题

•语音识别特征,是否足够鲁棒?

•语音识别模型,是否足够鲁棒并具有可区分性;

•语言模型,是否具有足够的覆盖度以及可回退性?

•语音识别搜索,是否能尽量较少搜索误差并提高搜索效率?

•………

云计算减少了语音识别计算约束•应用场景产生很大变化

–移动互联网环境下的应用---语音、语言自适应和个性化模型变得非常关键;

•语音识别(包括中文信息处理)技术新出发点:三个近乎Unlimited

–计算量可以是unlimited---穷举式搜索;

–存储量可以是unlimited---无损失存储;

–数据量可以使unlimited---海量用户数据;

云计算环境下ASR研究目标•云计算环境下具有强大个性化用户自适应

能力的识别计算架构

–自适应算法(尤其是语言自适应)

•云计算环境下大群体用户的智慧集成–超级语音数据中心和模型中心

–需要Semi-supervised标注能力

•核心是如何利用好云中心的数据并迅速转化为模型的自适应。

云计算环境下的语音识别展望•技术研究和产品开发已经混为一体;

•面向大众服务的语音交互以及语音STT,离实用的2%-4%的错误率还有相当距离,但随着应用的深入和数据的积累,其识别能力将继续大幅提升;

•技术是否成熟从来不假设这个技术还有什么问题,而是说已经能解决什么问题;未来2-5年语音识别技术将成为移动互联网的Enable 技术,与诸多应用相结合。