卷积神经网络综述
- 格式:docx
- 大小:29.38 KB
- 文档页数:4
卷积神经网络综述
摘要:回顾了卷积神经网络的发展历程,介绍了卷积神经网络的基本运算单元。在查阅大量资料基础上,重点介绍了有代表性的 AlexNet、VGGNet、GoogLeNet、ResNet等,对他们所用到的技术进行剖析,归纳、总结、分析其优缺点,并指出卷积神经网络未来的研究方向。
关键词:卷积神经网络;AlexNet;VGGNet;GoogLeNet;ResNet
0 引言
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算并且含有深层次结构的深度前馈神经网络,是深度学习的代表算法之一,21世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展。较之于传统方法,卷积神经网络的优点在于可自动提取目标特征,发现样本集中特征规律,解决了手动提取特征效率低下、分类准确率低的不足,因此卷积神经网络被广泛应用于图像分类、目标识别、自然语言处理等领域,取得了瞩目的成就。
1卷积神经网络的发展历程
卷积神经网络发展历史中的第一件里程碑事件发生在上世纪60年代左右的神经科学中,加拿大神经科学家David H. Hubel和Torsten Wisesel于1959年提出猫的初级视皮层中单个神经元的“感受野”概念,紧接着于1962年发现了猫的视觉中枢里存在感受野、双目视觉和其他功能结构,标志着神经网络结构首次在大脑视觉系统中被发现。
1980年前后,日本科学家福岛邦彦(Kunihiko Fukushima)在Hubel和Wiesel工作的基础上,模拟生物视觉系统并提出了一种层级化的多层人工神经网络,即“神经认知”(neurocognitron),以处理手写字符识别和其他模式识别任务。
Yann LeCuu等人在1998年提出基于梯度学习的卷积神经网络算法,并将其
成功用于手写数字字符识别,在那时的技术条件下就能取得低于1%的错误率。因此,LeNet这一卷积神经网络便在当时效力于全美几乎所有的邮政系统,用来识
别手写邮政编码进而分拣邮件和包裹。
时间来到2012年,在有计算机视觉界“世界杯”之称的ImageNet图像分类
竞赛四周年之际,Geoffrey E. Hinton等人凭借卷积神经网络Alex-Net力挫日
本东京大学、英国牛津大学VGG组等劲旅,且以超过第二名近12%的准确率一举
夺得该竞赛冠军,霎时间学界业界纷纷惊愕哗然。
2 卷积神经网络的基本运算单元
CNN的基本结构由输入层、卷积层(convolutionallayer)、池化层(pooling layer,也称为取样层)、全连接层及输出层构成。
2.1卷积层
卷积是一种有效提取图片特征的方法。一般用一个正方形卷积核,遍历图片上的每一个像素点。图片
与卷积核重合区域内相对应的每一个像素值乘卷积核内相对应点的权重,然后求和,再加上偏置后,最后得
到输出图片中的一个像素值。卷积神经网络因卷积操作而闻名,而卷积操作又是卷积层主要过程。不同的卷
积层有不同数量的卷积核,卷积核实际就是一个数值矩阵,并且每个卷积核拥有一个常量偏置,所有矩阵里
的元素加上偏置组成了该卷积层的权重,权重参与网络的迭代更新,常用的卷积核大小有11、33、55、77 等。
2.2 池化层
池化层一般连接在连续卷积层之后,对输入作降采样过程。降采样的方式多种多样,如最大池化、平
均池化等。最大池化就是在图像上对应出滤波器大小的区域,在该区域内取像素点最大的值,以此得到特征
数据,一般来说,该方法得到的特征数据更好地保留了图像的纹理特征。
2.3全连接层
池化层得到的结果需要进行拉直后喂入全连接网络,使用神经元模型公式进行计算即可,即每个输入
值乘以不同的权重求和加偏置并激活经过多次神经网络连接,并且在训练过程中需要舍弃一定的神经元节点,之后通过 Softmax 函数回归,得到输出层。
3 几种性能优异的卷积神经网络
3.1 AlexNet
2012 年,Alex Krizhevsky、Ilya Sutskever 在多伦多大学 Geoff Hinton 的实验室设计出了一个深层的卷积神经网络 AlexNet,夺得了 2012 年
ImageNet LSVRC 的冠军,且准确率远超第二名(top5 错误率为 15.3%,第二名
为 26.2%),引起了很大的轰动。AlexNet 可以说是具有历史意义的一个网络结构,在此之前,深度学习已经沉寂了很长时间,自 2012 年 AlexNet 诞生之后,后面的 ImageNet 冠军都是用卷积神经网络(CNN)来做的,并且层次越来越深,使得 CNN 成为在图像识别分类的核心算法模型,带来了深度学习的大爆发。AlexNet 之所以能够成功,跟这个模型设计的特点有关,主要有:使用了非线性
激活函数,防止过拟合的方法,数据扩充(Data augmentation),多 GPU 实现,LRN 归一化层的使用。
3.2 VGGNet
VGGNet是由牛津大学的视觉几何组(Visual Geometry Group)和谷歌旗下DeepMind团队的研究员共同研发提出的,获得了2014年ImageNet图像分类竞赛
的第二名。可以将VGGNet看成加深版的AlexNet,在AlexNet论文中,作者最后
指出了网络深度对最终的分类结果有很大的影响,而VGGNet则更加直接地论证
了这一结论。常用的VGGNet有VGG16和VGG19两种类型,前者拥有13个核大小
均为3×3的卷积层、5个最大池化层和3个全连接层,后者拥有16个核大小均
为3×3的卷积层、5个最大池化层和3个全连接层。本文主要针对VGG16进行解读,可以看出VGG19只是多了3个卷积层而已,其它的和VGG16没啥区别。
3.3 GoogLeNet
GoogleNet在 2014 年的 ImageNet 挑战赛上大放光彩,并获得当年的冠军,而VGG 是当年的亚军。VGG 主要是在 LeNet、AlexNet 的基础上进行设计,而GoogleNet是在网络结构上做出了自己的尝试。GoogleNet 虽然有 22 层网络结构,但参数量却比 AlexNet 和 VGG 小很多,因而从计算资源与模型结果来看,GoogleNet 性能表现的更为优越。随着深度学习的迅速发展,模型结构向着更深、更宽的方向发展。这样产生了大量的参数,极大的消耗了计算资源,并且在训练
过程中很容易出拟合问题。为了解决这类问题,Google 公司提出了 Inception