3
.
深度学习(DL)
BP 神经网络(BPNNs)网络存在的主要问题: 1. 一般要得到较好的训练效果,隐层数目不能
太少,当图片大的时候,需要的权值会非常多; 2. 对平移、尺度变化敏感(比如数字偏左上角,
右下角时即识别失败); 3. 图片在相邻区域是相关的,而这种网络只是
一股脑把所有像素扔进去,没有考虑图片相关 性。
一般的语音识别多提取每帧长25ms、帧移 10ms的语音对应的MFCC特征,该文提取使用 fBank特征。
8
.
CNN CNN结构图:
9
.
CNN
输入图像: 28*28
卷积层: 均为5*5
采样核大 小:均为 2*2。
在Toolbox的实现中,C1共有6个卷积核,则卷积结果6个特征map;卷 积层的一个map与上层的所有map都关联,如上图的S2和C3,即C3共 有6*12个卷积核,
CNN经典程序下 载:https:///rasmusbergpalm/DeepLearnToolbox
7
.
语音识别
参考:《基于深度学习的语音识别应用研究_ 张建华》
该文献通过深度神经网络提取语音特征的方法、 深度神经网络提取声韵母属性的方法、深度学 习搭建声学模型的方法对比;
假设上一层的map大 小是n*n、卷积核的 大小是k*k,则该层 的map大小是(nk+1)*(n-k+1),比如 上图的24*24的map 大小24=(28-5+1)。
参见网址:/lu597203933/article/details/46575871
11
1991, 通过无导学习的深度学习(Deep Learning,DL)在 实际中可以运用;