当前位置:文档之家› 学习长短时记忆网络的紧密结构

学习长短时记忆网络的紧密结构

小型微型计算机系统Journal of Chinese Computer Systems

2018年11月第11期Vol.39No.112018

收稿日期:2017-11-07 收修改稿日期:2017-11-22 基金项目:国家重点研发计划项目(2017YFB 1002200)资助. 作者简介:陈 皇,男,1992年生,硕士研究生,研究方向为语音识别二声学模型优化;戴礼荣,男,1962年生,博士,教授,研究方向为语音识别二语种识别二自然语言处理等;张仕良,男,1990年生,博士,研究方向为语音识别二自然语言处理;黄 俊,女,1993年生,硕士研究生,研究方向为语音识别二说话人自适应.学习长短时记忆网络的紧密结构

陈 皇,戴礼荣,张仕良,黄 俊

(中国科学技术大学语音与语言信息处理国家工程实验室,合肥230022)E-mail :hchenah @https://www.doczj.com/doc/9f10929672.html,

摘 要:近些年来,在语音识别任务上,前馈神经网络与长短时记忆网络等模型取得了突出的性能表现.然而,这些神经网络对其所要部署设备的内存资源与计算效率有较高的要求,这极大的阻碍了神经网络在移动设备上的应用.事实上大部分的神经网络都存在一定程度上的参数冗余,并由此带来了额外的计算量,因此压缩神经网络模型具有可行性与必要性.在这篇论文中,我们提出一种在网络训练过程中利用移动门来自动学习长短时记忆网络结构的方法,可以得到更加紧密的网络结构.在Switch-board 上的实验结果显示我们提出的方法可以将长短时记忆网络的参数量减少到原来的58.7%,同时没有带来性能损失.关键词:长短时记忆网络;语音识别;模型压缩

中图分类号:TP 391 文献标识码:A 文章编号:1000-1220(2018)11-2409-04

Learning the Compact Architecture of Long Short Term Memory Networks

CHEN Huang ,DAI Li-rong ,ZHANG Shi-liang ,HUANG Jun

(National Engineering Laboratory of Speech and Language Information Processing ,University of Science and Technology of China ,Hefei 230027,China )

Abstract :In the last few years ,Feed Forward Neural Networks and Long Short Term Memory Networks have achieved state-of-art performance on many speech recognition tasks.However ,these neural networks have higher demands for memory resources and com-putational efficiency of the devices that they are deploying ,which hinders the application of neural networks on mobile devices.In fact ,most of the neural networks have a certain degree of parameter redundancy and bring additional computation ,and therefore ,it is feasible and necessary to compress neural network models.In this paper ,we propose a method to automatically learn the architectures of Long Short Term Memory Networks with moving gate during training ,which achieves more compact architectures.Experimental re-sults on the Switchboard task have shown that our proposed method can reduce the number of parameters in Long Short Term Memory Networks to 58.7%without performance loss.

Key words :long short term memory networks ;speech recognition ;model compression

1 引 言

深度学习(deep learning )在语音识别[1-3](speech recogni-

tion )领域发展迅速,特别是在音素识别(phoneme recogni-tion )[1,2]与大词汇连续语音识别(Large Vocabulary Continu-ous Speech Recognition ,LVCSR )

[3-7]

任务上,深度神经网络

(Deep Neural Networks ,DNN )和长短时记忆(Long Short Term Memory ,LSTM )网络取得了重大的突破.尽管这些模型取得了优异的识别性能,如何设计一个更加合理的网络模型结构却没有得到深入的研究.例如网络模型的深度以及宽度,决定了网络模型的参数量与计算复杂度.目前来看,这些超参数通常依靠谨慎的手动设置来完成.

为了实现突出的性能,在语音识别任务上,LSTM 通常具有深且宽的模型结构,但是这也不可避免会带来了巨大的参数量与计算量.例如,在基于Switchboard 数据集的语音识别任务上,一个典型的LSTM 网络包括3个隐层(hidden layer )以及1个全连接(Full Connected ,FC )层,每个隐层包括1024个记忆单元(memory cell ),这带来超过30M 的模型参数量.

在测试应用中,巨大的参数量带来了显著的内存占用与计算复杂度.这给在本地移动设备运行这些网络模型造成了巨大的困难,因此目前通常是利用云端强大的服务器来进行计算.

如何决定网络模型的结构,例如每个隐层的节点数或者记忆单元数量等,这一问题至今没有得到广泛的研究.目前,模型结构主要通过验证实验或者研究者的经验来进行设定,这在很多场景下被证明是有效的,但是却十分耗时.神经网络模型存在极大程度上的参数冗余[8-11],这促使我们去压缩网络模型.在过去几年,如何训练得到合适的网络结构取得了一定程度上的研究进展,这其中主要有两种思路:建设性方法与破坏性方法.

从一个浅层网络开始,建设性方法逐渐在网络中增加额外的参数.一个早期的方法[12]在预先训练好的网络上增加节点.最近,Simonyan 等[13]提出了一种建设性方法,通过在一个初始的浅层网络上增加新的隐层来构造深层网络.但是,相比于深层网络,浅层网络的表征性更弱一些,可能容易陷入局部最优点,因而浅层网络可能会提供一个差的网络初始化模型.

万方数据

相关主题
文本预览
相关文档 最新文档