当前位置：文档之家› 基于时域建模的自动语音识别

基于时域建模的自动语音识别

2017，53（20）1引言自动语音识别（Automatic Speech Recognition ，ASR ）在安静近场环境下，能达到很高的识别率，特别是采用大量数据训练的深度神经网络[1-17]（Deep Neutral Network ，DNN [1]）声学模型，但在实际噪声环境下识别率会严重下降。如何提高语音识别的噪声鲁棒性受到广泛关注和研究。语音识别模型通常将特征提取和分类器作为两个独立的问题研究，先设计特征提取方法，然后基于提取的特征优化分类器性能。这种将两者分割的方法有两个缺点[2-3]：一是人工设计特征提取方法需要精心设计和大量实验验证；二是人工设计的特征对于当前的分

类任务并不能保证是最优的。DNN 及其变体能够同时进行特征提取和分类任务。如文献[4]表明，DNN 的低层能够提取对说话人自适应的特征，DNN 的高层能够提高不同类别的区分性，从而提升最终分类效果。这种特征规整与分类任务的联合优化特性是DNN 优于基于高斯混合模型（Gaussian Mixture Model ，GMM ）一个重要原因[1-3]。

语音识别常用的神经网络主要包括DNN [1]、循环神经网络（Recurrent Neural Network ，RNN [6，8]）以及RNN 基于时域建模的自动语音识别

王海坤，伍大勇，刘江，王士进，胡国平，胡郁

WANG Haikun,WU Dayong,LIU Jiang,WANG Shijin,HU Guoping,HU Yu

科大讯飞股份有限公司研究院，合肥230088

Research of IFLYTEK CO.,LTD,Hefei 230088,China

WANG Haikun,WU Dayong,LIU Jiang,et al.Automatic speech recognition based on time domain https://www.doczj.com/doc/8c6995474.html,-puter Engineering and Applications,2017,53（20）：243-248.

Abstract ：End-to-end neural networks can automatically learn feature transformation from original data,which can solve the mismatch between hand designed features and specific tasks.The traditional end-to-end neural network for speech rec-ognition uses a time domain convolution network as the feature extraction model,recurrent neural network and full con-nected feed-forwarddeep neural network as the acoustic model,which has some limitations in performance and efficiency.From the aspects of the performanceof thefeature extraction module and the training efficiency of the acoustic model,an end-to-end speech recognition model combining the multi-time and frequency resolution convolution and the feed-forward neural network with memory modules is proposed.On the real recording test dataset,the proposed method reduces the word error rate by 10%,training time by 80%compared with the traditional method.

Key words ：convolution neural network;recurrent neural network;acoustic model;end-to-end neural network

摘要：端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换，解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型，递归神经网络和全连接前馈深度神经网络作为声学模型的方式，在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度，提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明，所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%，训练时间减少80%。关键词：卷积神经网络；递归神经网络；声学模型；端到端模型

文献标志码：A 中图分类号：TP 18doi ：10.3778/j.issn.1002-8331.1708-0016

基金项目：国家重点研发计划（No.2016YFC0800806）。

作者简介：王海坤（1984—），男，博士，研究领域为语音识别、信号处理等，E-mail ：hkwang@https://www.doczj.com/doc/8c6995474.html, ；伍大勇（1977—），男，博

士，研究领域为自然语言处理等；刘江（1980—），男，博士，研究领域为司法信息化技术等；王士进（1980—），男，博士，研究领域为语音识别、自然语言处理等；胡国平（1977—），男，博士，研究领域为语音识别、自然语言处理等；胡郁（1978—），男，博士，研究领域为语音识别、自然语言处理等。

收稿日期：2017-08-02修回日期：2017-09-27文章编号：1002-8331（2017）20-0243-06

Computer Engineering and Applications 计算机工程与应用

243

万方数据