当前位置：文档之家› (完整版)卷积神经网络CNN原理、改进及应用

(完整版)卷积神经网络CNN原理、改进及应用

卷积神经网络（CNN）

一、简介

卷积神经网络（Convolutional Neural Networks，简称CNN）是近年发展起来，并引起广泛重视的一种高效的识别方法。

1962年，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的局部互连网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络[1]（Convolutional Neural Networks-简称CNN）7863。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

Fukushima在1980年基于神经元间的局部连通性和图像的层次组织转换，为解决模式识别问题，提出的新识别机（Neocognitron）是卷积神经网络的第一个实现网络[2]。他指出，当在不同位置应用具有相同参数的神经元作为前一层的patches时，能够实现平移不变性1296。随着1986年BP算法以及T-C问题[3]（即权值共享和池化）9508的提出，LeCun和其合作者遵循这一想法，使用误差梯度（the error gradient）设计和训练卷积神经网络，在一些模式识别任务中获得了最先进的性能[4][5]。在1998年，他们建立了一个多层人工神经网络，被称为LeNet-5[5]，用于手写数字分类,这是第一个正式的卷积神经网

因此，在接下来近十年的时间里，卷积神经网络的相关研究趋于停滞，原因有两个：一是研究人员意识到多层神经网络在进行BP训练时的计算量极其之大，当时的硬件计算能力完全不可能实现；二是包括SVM在内的浅层机器学习算法也渐渐开始暂露头脚。直到2006年，Hinton终于一鸣惊人，在《科学》上发表文章，使得CNN再度觉醒，并取得长足发展。随后，更多的科研工作者对该网络进行了改进。其中，值得注意的是Krizhevsky等人提出的一个经典的CNN架构，相对于图像分类任务之前的方法，在性能方面表现出了显著的改善2674。他们方法的整体架构，即AlexNet[9]（也叫ImageNet），与LeNet-5相似，但具有更深的结构。它包括8个学习层（5个卷积与池化层和3个全连接层），前边的几层划分到2个GPU上，（和ImageNet 是同一个）并且它在卷积层使用ReLU作为非线性激活函数，在全连接层使用Dropout减少过拟合。该深度网络在ImageNet大赛上夺冠，进一步掀起了CNN学习热潮。

一般地，CNN包括两种基本的计算，其一为特征提取，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该

局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。这两种操作形成了CNN的卷积层。此外，卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，即池化层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式地特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

注：红色数字表示相应文献的引用量。

二、卷积神经网络 vs神经网络

神经网络

首先简要介绍下神经网络。神经网络的每个单元如下：

其对应的公式如下：

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有个隐含层。

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。

神经网络的权值调整过程如下（BP算法）：

①计算误差函数；

②误差函数对权系数偏微分的计算

<1>对输出层权系数的微分：（求导链式法则）

输出层第个神经元的总输入：

令，可得

<2>对隐层权系数的微分：

隐含层第个神经元的总输入：

令，可得

<3>权系数的更新

根据计算误差修正权值，最终使得误差值最小，此时就建立好了神经网络模型。卷积神经网络的权值调整过程也多采用BP算法。

卷积神经网络

目前有许多CNN架构的变体，但它们的基本结构非常相似。CNN 的基本体系结构通常由三种层构成，分别是卷积层、池化层和全连接层。

64×64

Convolution

卷积层旨在学习输入的特征表示。如图，卷积层由几个特征图（feature maps）组成。一个特征图的每个神经元与它前一层的临近神经元相连，这样的一个邻近区域叫做该神经元在前一层的局部感知野。为了计算一个新的特征图，输入特征图首先与一个学习好的卷积核（也被称为滤波器、特征检测器）做卷积，然后将结果传递给一个非线性激活函数。通过应用不同的卷积核得到新的特征图。注意到，生成一个特征图的核是相同的。（也就是权值共享）这样的一个权值共享模式有几个优点，如可以减少模型的复杂度，使网络更易训练等。激活函数描述CNN的非线性度，对多层网络检测非线性特征十分理想。典型的激活函数有sigmoid、tanh和ReLU。

池化层旨在通过降低特征图的分辨率实现空间不变性。它通常位于两个卷积层之间。每个池化层的特征图和它相应的前一卷积层的特

征图相连，因此它们的特征图数量相同。典型的池化操作是平均池化和最大池化。通过叠加几个卷积和池化层，我们可以提取更抽象的特征表示。

几个卷积和池化层之后，通常有一个或多个全连接层。它们将前一层所有的神经元与当前层的每个神经元相连接，在全连接层不保存空间信息。

下面对各层进行详细的分析与介绍：

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。在上一节中提到的神经网络中，如果隐含层数目与输入层一样，即也是1000000时，那么输入层到隐含层的参数数据为，这样就太多了，基本没法训练，所以必需先减少参数加快速度。

卷积层（The convolutional layer）

1、局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对

局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和它前一层邻近的10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的万分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积操作。

2、权值共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：

图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说8×8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个8×8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从8×8 样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个3×3的卷积核在5×5的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件的部分筛选出来。

（图片为gif格式）

3、多卷积核

上面所述只有100个参数时，表明只有1个10×10的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道，如下图所示。

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将忽略，只看，那么在的某位置处的值，是由四个通道上处邻近区域的卷积结果相加然后再取激活函数（假设选择tanh 函数）值得到的。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

池化层（The pooling layer）

在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96×96 像素的图像，假设我们已经学习得到了400个定义在8×8输入上的特征(即：有400个卷积核)，每一个特征和图像卷积都会得到一个 (96 ? 8 + 1) × (96 ? 8 + 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个7921× 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合(over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化(取决于计算池化的方法)。

形式上，在获取到我们前面讨论过的卷积特征后，我们要确定池化区域的大小(假定为)，来池化我们的卷积特征。那么，我们把卷积特征划分到数个大小为的不相交区域上，然后用这些区域的平均(或最大)特征来获取池化后的卷积特征。这些池化后的特征便可以用来做分类。

全连接层（Fully-connected layers）

几个卷积和池化层之后，通常有一个或多个全连接层，旨在执行对原始图像的高级抽象。它们将前一层所有的神经元与当前层的每个神经元相连接，即与标准神经网络各层之间的连接相同，在全连接层不保存空间信息。

最后的全连接层的输出传递到输出层。对于分类任务，softmax 回归由于其可以生成输出的well-formed概率分布[4]而被普遍使用。给定训练集，其中是第个输入图像块，是它的类标签，第个输入属于第类的预测值可以用如下的softmax函数转换：，softmax 将预测转换为非负值，并进行正则化处理。

至此，卷积神经网络的基本结构和原理已经阐述完毕。

在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

问题

1、预处理步骤

利用PCA或ZCA白化矩阵调整权值。白化的目的就是降低输入的冗余性；更正式的说，希望通过白化过程使得学习算法的输入具有如下性质：(1)特征之间相关性较低；(2)所有特征具有相同的方差。

利用PCA或ZCA白化矩阵后，卷积层输出的特征激活值等于

，其中是白化矩阵，是前一层图像块的均值，此时，相当于对图像块做卷积而不是之前的，同时神经元单元的偏置也变为。

补充：PCA白化和ZCA白化算法

首先，我们需要确保数据的均值（近似）为零。对于自然图像，我们通过减去每个图像块(patch)的均值（近似地）来达到这一目标。为此，我们计算每个图像块的均值，并从每个图像块中减去它的均值；

avg = mean(x, 1); % 分别为每个图像块计算像素强度的均值

x = x - repmat(avg, size(x, 1), 1);

其次，计算，假设为一数据结构，其中每列表示一个训练样本（所以是一个的矩阵）；

sigma = x * x' / size(x, 2);

接下来，PCA计算∑的特征向量。但是由于∑是对称半正定的矩阵，用 svd 函数在数值计算上更加稳定。矩阵 U 将包含 Sigma 的特征向量（一个特征向量一列，从主向量开始排序），矩阵S 对角线上的元素将包含对应的特征值（同样降序排列）。矩阵V等于U的转置，可以忽略。

[U,S,V] = svd(sigma);

最后，计算PCA白化后的数据和ZCA白化后的数据：

xPCAwhite = diag(1./sqrt(diag(S) + epsilon)) * U' * x;%diag 函数功能：矩阵对角元素的提取和创建对角阵

xZCAwhite = U * diag(1./sqrt(diag(S) + epsilon)) * U' * x;%epsilon MATLAB 本身内建的常数，它是一個10的-52次方的小数，可以作为反复运算时比较之用

2、如何计算卷积核

常用的计算卷积核的方法，一种是BP算法，上面神经网络中已经讨论过：

3、窄卷积 vs 宽卷积

在上文中解释卷积运算的时候，忽略了如何使用滤波器的一个小细节。在矩阵的中部使用33的滤波器没有问题，在矩阵的边缘该怎么办呢左上角的元素没有顶部和左侧相邻的元素，该如何滤波呢解决的办法是采用补零法（zero-padding）。所有落在矩阵范围之外的元素值都默认为0。这样就可以对输入矩阵的每一个元素做滤波了，输出一个同样大小或是更大的矩阵。补零法又被称为是宽卷积，不使用补零的方法则被称为窄卷积。如图所示：

图中滤波器长度为5，输入长度为7。当滤波器长度相对输入向量的长度较大时，宽卷积很有用，或者说很有必要。在上图中，窄卷积输出的长度是，宽卷积输出的长度是

。一般形式为

4、步长

卷积运算的另一个超参数是步长，即每一次滤波器平移的距离。上面所有例子中的步长都是1，相邻两个滤波器有重叠。步长越大，则用到的滤波器越少，输出的值也越少。下图来自斯坦福的cs231课程网页4，分别是步长为1和2的情况：

三、卷积神经网络在各个领域的应用

在过去的十几年间，卷积神经网络被广泛的应用在了各个领域，包括计算机视觉、语音识别、自然语言处理等[8]。

计算机视觉

在计算机视觉中的应用包括：图像分类、对象追踪、姿态估计、视觉显著性检测、行为识别、场景标识等。

①图像分类

CNN已经被用于图像分类很长时间，相比于其他的方法，CNN由于

其特征学习和分类学习的结合能力，在大规模数据集上实现了更高的分类准确率。对大规模图像分类的突破是在2012年，Alex Krizhevsky 等人[9]建立的AlexNet网络，在ILSVRC2012比赛中实现了最佳的性能。

（1）AlexNet网络介绍：

ImageNet LSVRC是一个图片分类的比赛，其训练集包括127W+张图片，验证集有5W张图片，测试集有15W张图片。本文截取2012年Alex Krizhevsky的CNN结构进行说明，该结构在2012年取得冠军，top-5错误率为%。

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU 并行结构，即所有卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

随着AlexNet的成功，一些工作对它的性能进行了改进。三个最具代表性的网络是ZFNet、VGGNet和GoogleNet。ZFNet提高AlexNet 性能通过减少第一层滤波器的大小从到以及减少卷积层数目从5到2。在这样的设置中，之间卷积层的大小被扩展以便于获得更有意义的特征。VGGNet将网络深度扩展到19层并在每个卷积层使用非常小的滤波器，大小为。结果表明深度是提高性能至关重要的因素。GoogleNet增加了网络的深度和宽度，相比于较浅和较窄的网络，在计算需求的适当增加上实现了显著的质量提升。

值得一提的是，在2015年的ImageNet LSVRC比赛中，取得冠军的GoogleNet已经达到了top-5错误率%。可见，深度学习的提升空间还很巨大。

（2）DeepID网络介绍：

DeepID网络结构是香港中文大学的Sun Yi开发出来用来学习人脸特征的卷积神经网络[13]。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证实验上对10000类的分类准确率达到了 %，更进一步的，原作者改进了CNN（DeepID2[14]），又达到了%的正确率。

如下图所示，该结构与ImageNet的具体参数类似：

卷积神经网络Convolutional Neural Networks(CNN)

卷积神经网络Convolutional Neural Networks（CNN）一、什么是卷积首先回顾一下，数字图像处理中我们用卷积模板和原始图像的像素卷积。过程如下：Step 1、先将模板旋转180度（又称折叠） Step 2、然后让模板依次和原始图像重叠，并且计算重叠部分的数值乘积之和以2D为例先对模板K做折叠，然后依次覆盖图像I，并且计算重叠部分的数值乘积之和依次进行到最后，会多出一圈，得到最后的卷积结果

卷积的意义（图像处理而言）；对图像使用不同的卷积模板，对图像做不同的处理。比如平滑模板可以使图像模糊，并且可以减少噪声、锐化模板可以使图像的轮廓变得清晰。二、卷积网络的结构 2.1 从BP网络到卷积网络回想一下BP神经网络。BP网络每一层节点是一个线性的一维排列状态，层与层的网络节点之间是全连接的。这样设想一下，如果BP网络中层与层之间的节点连接不再是全连接，而是局部连接的。这样，就是一种最简单的一维卷积网络。如果我们把上述这个思路扩展到二维，这就是我们在大多数参考资料上看到的卷积神经网络。具体参看下图：图1：全连接的2D 网络（BP网络）图2：局部连接的2D网络（卷积网络）现在我们考虑单隐层结构，上图左：全连接网络。如果我们有1000x1000像素的图像，有1百万个隐层神经元，每个隐层神经元都连接图像的每一个像素点，就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。上图右：局部连接网络，每一个节点与上层节点同位置附近10x10的窗口相连接，则1百万个隐层神经元就只有100w乘以100，即10^8个参数。其权值连接个数比原来减少了四个数量级。因此，卷积网络降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

(完整版)卷积神经网络CNN原理、改进及应用

卷积神经网络（CNN）一、简介卷积神经网络（Convolutional Neural Networks，简称CNN）是近年发展起来，并引起广泛重视的一种高效的识别方法。 1962年，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的局部互连网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络[1]（Convolutional Neural Networks-简称CNN）7863。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。 Fukushima在1980年基于神经元间的局部连通性和图像的层次组织转换，为解决模式识别问题，提出的新识别机（Neocognitron）是卷积神经网络的第一个实现网络[2]。他指出，当在不同位置应用具有相同参数的神经元作为前一层的patches时，能够实现平移不变性1296。随着1986年BP算法以及T-C问题[3]（即权值共享和池化）9508的提出，LeCun和其合作者遵循这一想法，使用误差梯度（the error gradient）设计和训练卷积神经网络，在一些模式识别任务中获得了最先进的性能[4][5]。在1998年，他们建立了一个多层人工神经网络，被称为LeNet-5[5]，用于手写数字分类,这是第一个正式的卷积神经网

络模型3579。类似于一般的神经网络，LeNet-5有多层，利用BP算法来训练参数。它可以获得原始图像的有效表示，使得直接从原始像素（几乎不经过预处理）中识别视觉模式成为可能。然而，由于当时大型训练数据和计算能力的缺乏，使得LeNet-5在面对更复杂的问题时，如大规模图像和视频分类，不能表现出良好的性能。因此，在接下来近十年的时间里，卷积神经网络的相关研究趋于停滞，原因有两个：一是研究人员意识到多层神经网络在进行BP训练时的计算量极其之大，当时的硬件计算能力完全不可能实现；二是包括SVM在内的浅层机器学习算法也渐渐开始暂露头脚。直到2006年，Hinton终于一鸣惊人，在《科学》上发表文章，使得CNN再度觉醒，并取得长足发展。随后，更多的科研工作者对该网络进行了改进。其中，值得注意的是Krizhevsky等人提出的一个经典的CNN架构，相对于图像分类任务之前的方法，在性能方面表现出了显著的改善2674。他们方法的整体架构，即AlexNet[9]（也叫ImageNet），与LeNet-5相似，但具有更深的结构。它包括8个学习层（5个卷积与池化层和3个全连接层），前边的几层划分到2个GPU上，（和ImageNet 是同一个）并且它在卷积层使用ReLU作为非线性激活函数，在全连接层使用Dropout减少过拟合。该深度网络在ImageNet大赛上夺冠，进一步掀起了CNN学习热潮。一般地，CNN包括两种基本的计算，其一为特征提取，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该

卷积神经网络CNN从入门到精通

卷积神经网络CNN从入门到精通卷积神经网络算法的一个实现前言从理解卷积神经到实现它，前后花了一个月时间，现在也还有一些地方没有理解透彻，CNN还是有一定难度的，不是看哪个的博客和一两篇论文就明白了，主要还是靠自己去专研，阅读推荐列表在末尾的参考文献。目前实现的CNN在MINIT数据集上效果还不错，但是还有一些bug，因为最近比较忙，先把之前做的总结一下，以后再继续优化。卷积神经网络CNN是Deep Learning的一个重要算法，在很多应用上表现出卓越的效果，[1]中对比多重算法在文档字符识别的效果，结论是CNN优于其他所有的算法。CNN在手写体识别取得最好的效果，[2]将CNN应用在基于人脸的性别识别，效果也非常不错。前段时间我用BP神经网络对手机拍照图片的数字进行识别，效果还算不错，接近98%，但在汉字识别上表现不佳，于是想试试卷积神经网络。 1、CNN的整体网络结构卷积神经网络是在BP神经网络的改进，与BP类似，都采用了前向传播计算输出值，反向传播调整权重和偏置；CNN与标准的BP最大的不同是：CNN中相邻层之间的神经单元并不是全连接，而是部分连接，也就是某个神经单元的感知区域来自于上层的部分神经单元，而不是像BP那样与所有的神经单元相连接。CNN的有三个重要的思想架构：局部区域感知权重共享空间或时间上的采样局部区域感知能够发现数据的一些局部特征，比如图片上的一个角，一段弧，这些基本特征是构成动物视觉的基础[3]；而BP中，所有的像素点是一堆混乱的点，相互之间的关系没有被挖掘。 CNN中每一层的由多个map组成，每个map由多个神经单元组成，同一个map 的所有神经单元共用一个卷积核（即权重），卷积核往往代表一个特征，比如某个卷积和代表一段弧，那么把这个卷积核在整个图片上滚一下，卷积值较大的区域就很有可能是一段弧。注意卷积核其实就是权重，我们并不需要单独去计算一个卷积，而是一个固定大小的权重矩阵去图像上匹配时，这个操作与卷积类似，因此我们称为卷积神经网络，实际上，BP也可以看做一种特殊的卷积神经网络，只是这个卷积核就是某层的所有权重，即感知区域是整个图像。权重共享策略减少了需要训练的参数，使得训练出来的模型的泛华能力更强。采样的目的主要是混淆特征的具体位置，因为某个特征找出来后，它的具体位置已经不重要了，我们只需要这个特征与其他的相对位置，比如一个“8”，当我们得到了上面一个"o"时，我们不需要知道它在图像的具体位置，只需要知道它下面又是一个“o”我们就可以知道是一个'8'了，因为图片中"8"在图片中偏左或者偏右都不影响我们认识它，这种混淆具体位置的策略能对变形和扭曲的图片进行识别。 CNN的这三个特点是其对输入数据在空间（主要针对图像数据）上和时间（主要针对时间序列数据，参考TDNN）上的扭曲有很强的鲁棒性。CNN一般采用卷积层与

卷积神经网络全面解析之算法实现

卷积神经网络全面解析之算法实现前言从理解卷积神经到实现它，前后花了一个月时间，现在也还有一些地方没有理解透彻，CNN还是有一定难度的，不是看哪个的博客和一两篇论文就明白了，主要还是靠自己去专研，阅读推荐列表在末尾的参考文献。目前实现的CNN在MINIT数据集上效果还不错，但是还有一些bug，因为最近比较忙，先把之前做的总结一下，以后再继续优化。卷积神经网络CNN是Deep Learning的一个重要算法，在很多应用上表现出卓越的效果，[1]中对比多重算法在文档字符识别的效果，结论是CNN优于其他所有的算法。CNN 在手写体识别取得最好的效果，[2]将CNN应用在基于人脸的性别识别，效果也非常不错。前段时间我用BP神经网络对手机拍照图片的数字进行识别，效果还算不错，接近98%，但在汉字识别上表现不佳，于是想试试卷积神经网络。 1、CNN的整体网络结构卷积神经网络是在BP神经网络的改进，与BP类似，都采用了前向传播计算输出值，反向传播调整权重和偏置；CNN与标准的BP最大的不同是：CNN中相邻层之间的神经单元并不是全连接，而是部分连接，也就是某个神经单元的感知区域来自于上层的部分神经单元，而不是像BP那样与所有的神经单元相连接。CNN的有三个重要的思想架构： ?局部区域感知 ?权重共享 ?空间或时间上的采样局部区域感知能够发现数据的一些局部特征，比如图片上的一个角，一段弧，这些基本特征是构成动物视觉的基础[3]；而BP中，所有的像素点是一堆混乱的点，相互之间的关系没有被挖掘。 CNN中每一层的由多个map组成，每个map由多个神经单元组成，同一个map的所有神经单元共用一个卷积核（即权重），卷积核往往代表一个特征，比如某个卷积和代表一段弧，那么把这个卷积核在整个图片上滚一下，卷积值较大的区域就很有可能是一段弧。注意卷积核其实就是权重，我们并不需要单独去计算一个卷积，而是一个固定大小的权重矩阵去图像上匹配时，这个操作与卷积类似，因此我们称为卷积神经网络，实际上，BP也可以看做一种特殊的卷积神经网络，只是这个卷积核就是某层的所有权重，即感知区域是整个图像。权重共享策略减少了需要训练的参数，使得训练出来的模型的泛华能力更强。采样的目的主要是混淆特征的具体位置，因为某个特征找出来后，它的具体位置已经不重要了，我们只需要这个特征与其他的相对位置，比如一个“8”，当我们得到了上面一个"o"时，我们不需要知道它在图像的具体位置，只需要知道它下面又是一个“o”我们就可以知道是一个'8'了，因为图片中"8"在图片中偏左或者偏右都不影响我们认识它，这种混淆具体位置的策略能对变形和扭曲的图片进行识别。 CNN的这三个特点是其对输入数据在空间（主要针对图像数据）上和时间（主要针对时间序列数据，参考TDNN）上的扭曲有很强的鲁棒性。CNN一般采用卷积层与采样层交

一文读懂卷积神经网络CNN

一文读懂卷积神经网络CNN ★据说阿尔法狗战胜李世乭靠的是卷积神经网络算法，所以小编找到了一篇介绍该算法的文章，大家可以看一看。★ 自去年七月份以来，一直在实验室负责卷积神经网络（Convolutional Neural Network，CNN），期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用，特写此博文，以其与人交流，互有增益。正文之前，先说几点自己对于CNN的感触。先明确一点就是，Deep Learning是全部深度学习算法的总称，CNN是深度学习算法在图像处理领域的一个应用。第一点，在学习Deep learning 和CNN之前，总以为它们是很了不得的知识，总以为它们能解决很多问题，学习了之后，才知道它们不过与其他机器学习算法如svm等相似，仍然可以把它当做一个分类器，仍然可以像使用一个黑盒子那样使用它。第二点，Deep Learning强大的地方就是可以利用网络中间某一层的输出当做是数据的另一种表达，从而可以将其认为是经过网络学习到的特征。基于该特征，可以进行进一步的相似度比较等。第三点，Deep Learning算法能够有效的关键其实是大规模的数据，这一点原因在于每个DL都有众多的参数，少量数据无法将参数训练充分。接下来话不多说，直接奔入主题开始

CNN之旅。卷积神经网络简介（Convolutional Neural Networks，简称CNN）卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel 和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid 函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少

卷积神经网络(CNN)学习笔记

CNN卷积神经网络卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 CNNs是受早期的延时神经网络（TDNN）的影响。延时神经网络通过在时间维度上共享权值降低学习复杂度，适用于语音和时间序列信号的处理。 CNNs是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。CNNs作为一个深度学习架构提出是为了最小化数据的预处理要求。在CNN中，图像的一小部分（局部感受区域）作为层级结构的最低层的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征，例如定向边缘或者角点。 2）卷积神经网络的网络结构

图：卷积神经网络的概念示范：输入图像通过和三个可训练的滤波器和可加偏置进行卷积，滤波过程如图一，卷积后在C1层产生三个特征映射图，然后特征映射图中每组的四个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。一般地，C层为特征提取层，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；S层是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数

卷积神经网络

卷积神经网络Newly compiled on November 23, 2020

卷积神经网络

卷积神经网络摘要：卷积神经网络是近年来广泛应用于模式识别、图像处理等领域的一种高效识别算法，它具有结构简单、训练参数少和适应性强等特点。本文从卷积神经网络的发展历史开始，详细阐述了卷积神经网络的网络结构、神经元模型和训练算法。在此基础上以卷积神经网络在人脸检测和形状识别方面的应用为例，简单介绍了卷积神经网络在工程上的应用，并给出了设计思路和网络结构。关键字：模型；结构；训练算法；人脸检测；形状识别 0 引言卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 1 卷积神经网络的发展历史 1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究，提出了感受野(receptive field)的概念，1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络，也是感受野概念在人工神经网络领域的首次应用。神经认知机将一个视觉模式分解成许多子模式(特征)，然后进入分层递阶式相连的特征平面进行处理，它试图将视觉系统模型化，使其能够在即使物体有位移或轻微变形的时候，也能完成识别。神经认知机能够利用位移恒定能力从激励模式中学习，并且可识别这些模式的变化形，在其后的应用研究中，Fukushima将神经认知机主要用于手写数字的识别。随后，国内外的研究人员提出多种卷积神经网络形式，在邮政编码识别和人脸识别方面得到了大规模的应用。通常神经认知机包含两类神经元，即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数，即感受野与阈值参数，前者确定输入连接的数目，后者则控制对特征子模式的反应程度。许多学者一直致力于提高神经认知机的性能的研究：在传统的神经认知机中，每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布。如果感光区的边缘所产生的模糊效果要比中央来得大，S-元将会接受这种非正态模糊所导致的更大的变形容忍性。我们希望得到的是，训练模式与变形刺激模式在感受野的边缘与其中心所产生的效果之间的差异变得越来越大。为了有效地形成这种非正态模糊，Fukushima提出了带双C-元层的改进型神经认知机。 Trotin 等人提出了动态构造神经认知机并自动降低闭值的方法[1]，初始态的神经认知机各层的神经元数目设为零，然后会对于给定的应用找到合适的网络规模。在构造网络过程中，利用一个反馈信号来预测降低阈值的效果，再基于这种预测来调节阈值。他们指出这种自动阈值调节后的识别率与手工设置阈值的识别率相若，然而，上述反馈信号的具体机制并未给出，并且在他们后来的研究中承认这种自动阈值调节是很困难的【8】。 Hildebrandt将神经认知机看作是一种线性相关分类器，也通过修改阈值以使神经认知机成为最优的分类器。Lovell应用Hildebrandt的训练方法却没有成功。对此，Hildebrandt解释的是，该方法只能应用于输出层，而不能应用于网络的每一层。事实上，Hildebrandt没有考虑信息在网络传播中会逐层丢失。 Van Ooyen和Niehuis为提高神经认知机的区别能力引入了一个新的参数。事实上，该参数作为一种抑制信号，抑制了神经元对重复激励特征的激励。多数神经网络在权值中记忆训练信息。根据Hebb学习规则，某种特征训练的次数越多，在以后的识别过程中就越容易

卷积神经网络CNN代码解析-matlab

卷积神经网络CNN代码解析 deepLearnToolbox-master是一个深度学习matlab包，里面含有很多机器学习算法，如卷积神经网络CNN，深度信念网络DBN，自动编码AutoEncoder（堆栈SAE，卷积CAE）的作者是Rasmus Berg Palm (rasmusbergpalm@https://www.doczj.com/doc/0217153407.html,) 代码下载：https://https://www.doczj.com/doc/0217153407.html,/rasmusbergpalm/DeepLearnToolbox 这里我们介绍deepLearnToolbox-master中的CNN部分。 DeepLearnToolbox-master中CNN内的函数：调用关系为：该模型使用了mnist的数字mnist_uint8.mat作为训练样本，作为cnn的一个使用样例，每个样本特征为一个28*28=的向量。

网络结构为：让我们来看看各个函数：一、Test_example_CNN: (2) 三、cnntrain.m (5) 四、cnnff.m (6) 五、cnnbp.m (7) 五、cnnapplygrads.m (10) 六、cnntest.m (11) 一、Test_example_CNN: Test_example_CNN: 1设置CNN的基本参数规格，如卷积、降采样层的数量，卷积核的大小、降采样的降幅 2 cnnsetup函数初始化卷积核、偏置等 3 cnntrain函数训练cnn，把训练数据分成batch，然后调用 3.1 cnnff 完成训练的前向过程，

3.2 cnnbp计算并传递神经网络的error，并计算梯度（权重的修改量） 3.3 cnnapplygrads 把计算出来的梯度加到原始模型上去 4 cnntest 函数，测试当前模型的准确率该模型采用的数据为mnist_uint8.mat，含有70000个手写数字样本其中60000作为训练样本，10000作为测试样本。把数据转成相应的格式，并归一化。设置网络结构及训练参数初始化网络，对数据进行批训练，验证模型准确率绘制均方误差曲线二、Cnnsetup.m 该函数你用于初始化CNN的参数。设置各层的mapsize大小，初始化卷积层的卷积核、bias 尾部单层感知机的参数设置 * bias统一设置为0

深度学习-卷积神经网络应用

手写数字识别实验报告实验目的利用python和深度学习框架搭建手写数字识别的神经网络，并进行相关的仿真实验，尽可能的提高识别的准确度。实验环境 python3.6、Pytorch1.4.0、torchvision、MNIST数据库。环境介绍 Python Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。Python具有简单易学、明确优雅、开发速度快等特点，在人工智能、数据分析、云计算、网络爬虫等方面有着广泛的应用。 Pytorch Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU 加速的深度神经网络（DNN）编程。Torch是一个经典的对多维矩阵数据进行操作的张量（tensor）库，在机器学习和其他数学密集型应用有广泛应用。与TensorFlow的静态计算图不同，Pytorch的计算图是动态的，可以根据计算需要实时改变计算图。Pytorch的设计追求最少的封装，尽量避免重复造轮子。Pytorch的源码只有TensorFlow的十分之一左右，更少的抽象、更直观的设计使得Pytorch的源码十分易于阅读。同时Pytorch的灵活性不以速度为代价，在许多评测中，Pytorch的速度表现胜过TensorFlow和Keras等框架。Pytorch提供了完整的文档，循序渐进的指南。 MNIST数据库 MNIST是一个入门级的计算机视觉数据集，它包括6万张28x28的训练样本，1万张测试样本，可以说是CV里的“Hello Word”。它也包含每一张图片对应的标签，告诉我们这个是数字几。比如，图1的标签分别是5，0，4，1。

人工智能原理-基于Python语言和TensorFlow-卷积神经网络

人工智能原理：基于Python语言和TensorFlow 张明副教授

第六章：卷积神经网络 1.卷积神经网络 2.卷积神经网络的模型架构 3.卷积运算 4.卷积常见层 5.TensorFlow和图像 6.模型训练 7.模型评估 8.多GPU的模型训练

6.1：卷积神经网络应用：是深度学习技术中极具代表的网络结构之一，属于人工神经网络的一种。它在许多最新的神经网络模型中都有具体的应用，并被应用于多个实际领域中，其中应用最频繁，也是应用最成功的领域就是图像处理。在国际标准的ImageNet数据集上，许多成功的模型都是基于卷积神经网络的应用。优点：卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的一个卷积层中，通常包含了若干个特征平面，每个特征平面都是由一些矩形排列的神经元所构成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核带来的直接好处就是减少了网络中各层之间的连接，同时又降低了过拟合的风险。子采样层也叫作池化，通常有均值子采样和最大值子采样两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型的复杂度，减少了模型的参数。

6.1：卷积神经网络卷积神经网络（Convolutional Neural Network, CNN）是深度学习技术中极具代表的网络结构之一，属于人工神经网络的一种。其应用最成功的领域就是图像处理。在国际标准的ImageNet数据集上，许多成功的模型都是基于卷积神经网络的应用。卷积神经网络相较于传统的图像处理算法的优点在与避免了对图像处理时复杂的前期预处理过程（提取人工特征等），可以直接输入原始图像。

卷积神经网络(CNN)代码实现(MNIST)解析

卷积神经网络(CNN)代码实现(MNIST) 解析共7层：依次为输入层、C1层、S2层、C3层、S4层、C5层、输出层，C代表卷积层(特征提取)，S代表降采样层或池化层(Pooling)，输出层为全连接层。 1. 各层权值、偏置(阈值)初始化：各层权值、偏置个数计算如下： (1)、输入层：预处理后的32*32图像数据，无权值和偏置； (2)、C1层：卷积窗大小5*5，输出特征图数量6，卷积窗种类1*6=6，输出特征图大小28*28，因此可训练参数(权值+偏置)：(5*5*1)*6+6=150+6； (3)、S2层：卷积窗大小2*2，输出下采样图数量6，卷积窗种类6，输出下采样图大小14*14，因此可训练参数(权值+偏置)：1*6+6=6+6； (4)、C3层：卷积窗大小5*5，输出特征图数量16，卷积窗种类6*16=96，输出特征图大小10*10，因此可训练参数(权值+偏置)：(5*5*6)*16+16=2400+16； (5)、S4层：卷积窗大小2*2，输出下采样图数量16，卷积窗种类16，输出下采样图大小5*5，因此可训练参数(权值+偏置)：1*16+16=16+16； (6)、C5层：卷积窗大小5*5，输出特征图数量120，卷积窗种类16*120=1920，输出特征图大小1*1，因此可训练参数(权值+偏置)：(5*5*16)*120+120=48000+120； (7)、输出层：卷积窗大小1*1，输出特征图数量10，卷积窗种类120*10=1200，输出特征图大小1*1，因此可训练参数(权值+偏置)：(1*120)*10+10=1200+10. 代码段如下： [cpp] view plain copy #define num_map_input_CNN 1 //输入层map个数 #define num_map_C1_CNN 6 //C1层map个数 #define num_map_S2_CNN 6 //S2层map个数 #define num_map_C3_CNN 16 //C3层map个数 #define num_map_S4_CNN 16 //S4层map个数 #define num_map_C5_CNN 120 //C5层map个数 #define num_map_output_CNN 10 //输出层map个数 #define len_weight_C1_CNN 150 //C1层权值数，(5*5*1)*6=150 #define len_bias_C1_CNN 6 //C1层阈值数，6

完整版一文读懂卷积神经网络CNN

一文读懂卷积神经网络CNN 第一点，在学习Deep learning和CNN之前，总以为它们是很了不得的知识，总以为它们能解决很多问题，学习了之后，才知道它们不过与其他机器学习算法如SVM等相似，仍然可以把它当作一个分类器，仍然可以像使用一个黑盒子那样使用它。第二点，Deep Learning强大的地方就是可以利用网络中间某一层的输出当作是数据的另一种表达，从而可以将其认为是经过网络学习到的特征。基于该特征，可以进行进一步的相似度比较等。第三点，Deep Learning算法能够有效的关键其实是大规模的数据，这一点原因在于每个DL都有众多的参数，少量数据无法将参数训练充分。接下来话不多说，直接奔入主题开始CNN之旅。卷积神经网络简介(Convolutional Neural Networks，简称CNN)，卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN )。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。K.Fukushima 在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的改进认知机”该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。