当前位置：文档之家› 深度神经网络及目标检测学习笔记

深度神经网络及目标检测学习笔记

ｈｔｔps://youtu.bｅ/MPU2ＨistivI

上面是一段实时目标识别的演示，计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。

今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体，甚至可以初步理解图片或者视频中的内容，在这方面,人工智能已经达到了３岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间，就走完了人类几十万年的进化之路,并且还在加速发展。

道路总是曲折的，也是有迹可循的。在尝试了其它方法之后，计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(ＤｅeｐＮｅuｒal Nｅtwork，NＮ)实现了对图片的识别,包括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展，以及处理器(尤其是GPU）强大的算力，给人工智能技术的发展提供了很大的支持。

本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(Deｅp Learning）的简单梳理,主要针对计算机视觉应用领域。

一、神经网络

１．1 神经元和神经网络

神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。

由多个神经元作为输入节点,则构成了简单的单层神经网络（感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题，而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。

神经网络的工作原理就是神经元的计算，一层一层的加权求和、激活，最终输出结果。深度神经网络中的参数太多（可达亿级），必须靠大量数据的训练来设置。训练的过程就好像是刚出生的婴儿，在父母一遍遍的重复中学习“这是苹

果”、“那是汽车”。有人说,人工智能很傻嘛,到现在还不如三岁小孩。其实可以换个角度想：刚出生婴儿就好像是一个裸机,这是经过几十万年的进化才形成的，然后经过几年的学习，就会认识图片和文字了;而深度学习这个“裸机”用了几十年就被设计出来,并且经过几个小时的“学习”,就可以达到这个水平了。

1.2BＰ算法

神经网络的训练就是它的参数不断变化收敛的过程。像父母教婴儿识图认字一样,给神经网络看一张图并告诉它这是苹果,它就把所有参数做一些调整,使得它的计算结果比之前更接近“苹果”这个结果。经过上百万张图片的训练,它就可以达到和人差不多的识别能力，可以认出一定种类的物体。这个过程是通过反向传播（BacｋPｒopagatｉoｎ,ＢP）算法来实现的。

建议仔细看一下ＢＰ算法的计算原理,以及跟踪一个简单的神经网络来体会训练的过程。

１.3 小结

人工神经网络就是根据人的神经元模型而构建的一个感知算法,利用大量的神经元组合对人的认知行为进行拟合。目前我们仍然无法精确的知道它为什么能工作、如何工作，如同我们仍然无法精确知道人的大脑是如何工作一样。

在摸索过程中,我们好像应该更多地思考人类自己是怎么去“看”的，这会更有助于设计更好的算法。比如本文开头的视频识别算法,它很快,但是不够精确,而有些可以“看清”细节的算法，就会非常慢。就像我们人类自己，走马观花只能看到概貌,驻足观赏才能看清细节。

我们越了解自己,就越能做得更好。

二、卷积神经网络

2．1简介

卷积神经网络(Coｎｖｏcational Neural Nｅｔｗork，CＮＮ）是一个特殊的深层神经网络,目前在计算机视觉领域广泛使用,可以认为它是一个二维向量(图片就是一个二维向量）的感知器。

ＣNN算法的核心是对图像(二维向量）进行矩阵卷积运算,这就相当于是对图像进行加权求和。为了减小计算量，CＮN采用了局部感知和权值共享的方法。局部感知，就是用一个N×N（如N＝３）的矩阵（称为卷积核）去滑动扫描图像,进行卷积运算。权值共享，就是扫描图片的滑动矩阵的权值是共享的（相同的）。在实际运算中,这个卷积核相当于一个特征提取的过滤器(filter）。举例来说，假设一个10×10的图像，用一个3×3的卷积核以步长1做一次卷积运算，那么会得到一个8×8的特征图(feａｔure maｐ)。为了使得到的ｆｅature maｐ和原图等大小,一般给原图进行扩充为１2×12，这样卷积一次以后，得到的仍然是10×1０大小的图像。在这个例子中，如果不采用权值共享,则一共需要１00个权值参数,权值共享后，只需要３×3=9个权值参数。

在实际中,一个RＧＢ图像是三个通道，而卷积核也可能有多个。这样计算起来会比上面的例子复杂些,但基本原理是一样的。

2.2 ＣＮＮ计算流程

一个典型的ＣＮＮ算法的流程大概是这样的：首先是输入，然后是n个卷积和池化的组合，最后全连接层感知分类。

在这个流程里,卷积运算主要是用来提取特征。一个典型的卷积计算如下图所示。

<卷积计算示意图>

图中iｎpuｔ是同一个图像的三个通道，周边有填充0;有两个卷积核Ｆilｔer W０和Filtｅr W1，一个filteｒ滑动到一个位置后计算三个通道的卷积,求和，加ｂias,得到这个ｆilｔer在该位置的最终结果；每个filtｅr的输出是各个通道的汇总;输出的个数与ｆilter个数相同。在这里还要加上激活函数，对计算结果进行非线性变换。常用的激活函数有ｔanh、ReLU、sigｍoiｄ等。激活函数的作用好像可以解释为:过滤掉一些可以忽略的不重要因素,以避免其对决策产生过度影响。

池化是为了降维,有最大池化(Max Poolｉng)和平均池化（ＡｖeｒａgｅPool ｉng）。一个２×2最大池化的示例如下图。

最后是全连接层，它将前面卷积层提取的特征映射到样本标记空间，它输出一个分类的概率，也就是最终的结果。

2．3典型的CNN模型

ＬeNet，最早用于数字识别的CNＮ，用5×5卷积核，2×２最大池化,识别输入为28×28的灰度点阵,网络结构是(ＣＯNV—POＯL—ＣONV—POOＬ—CONＶ—ＦC)。

ＡlｅxNet，201２ＩmａgｅNet比赛第一名，准确度超过第二名1０%。网络结构如下图。5个CONＶ、3个ＰOＯL、2个ＬＲN、3个ＦC，卷积核分别是１１×１1、5×5、3×3,采用ReLＵ作为激活函数。

VGG，有跟多的卷积层(16~19)，使用３×３卷积核。

GoogLeＮet，采用Inceptｉoｎ来减少参数(用１×1卷积核降维）。

ReｓＮeｔ，很多很多层的网络，从1５２层到据说上千层。采用残差网络来解决多层网络难以训练的问题。

以上网络的对比如下表。

２．4 训练集

应该可以感受到,人工智能也好，深度学习也好，算法的优劣是一方面，而训练数据集的好坏,对最终的效果影响更大。而训练集又非常难做,需要大量的数据，且标记这些数据需要巨大的工作量（过去的8年ImageＮet就在做这个工作)。逐渐，一些数据集就慢慢出了名。很多算法的性能数据都会指明是在哪个数据集上训练的。一些有名的数据集如下。

MＮＩＳＴ:深度学习领域的“Hello Worlｄ！”，一个手写数字数据库,有6００00个训练样本集和１０００0个测试样本集,每个样本图像的宽高为2８*28。数据集以二进制存储，不能直接查看。数据集大小为12Ｍ。

IｍaｇeNet：MIT李飞飞团队过去几年的成果，目前有1４00多万幅图片，涵盖２万多个类别。数据集大小为1Ｔ。ImａgeNet根据ＷoｒｄNｅt层次(目前只有名词）组织的一个图像数据库,其中每个节点的层次结构是由成千上万的图像描绘。目前,有平均每个节点超过五百的图像。

CＯＣO：Common Ｏbｊecｔs in Coｎteｘt,是一个新的图像识别、分割、和字幕数据集,由微软赞助,具有上下文识别、语义描述等特点。数据集大小为40G。

PAＳCＡＬVOＣ:图片集包括2０个目录,数据集图像质量好，标注完备,非常适合用来测试算法性能。数据集大小为２Ｇ。

由于数据集生成有一定难度且工作量巨大,两年来ＧＡN（Gｅneｒative Aｄｖerｓarial Nets,生成对抗网络）快速发展，并在很多应用场景的训练集生成产生了巨大作用,比如车牌识别。

三、物体检测

3.1检测流程

在实际场景中,我们需要在一副图像中找出有哪些物体，这是一个多对多的映射（所谓的回归）。按照已有的ＣNＮ方法，常规的检测流程就是:先找到哪些区域有物体，然后再用CNＮ来对其分类。

区域选择最原始的办法就是用不同大小的滑动窗口对整幅图像进行扫描。这样不但计算量大,也容易造成误判。一个改进的方法是所谓Rｅgion Pｒoposal，即预先找出物体可能在的位置。这里需要提到以下几个概念。

ＩoU:Inｔeｒｓｅctｉon over Ｕnｉoｎ，Region Ｐroposal与Ground Truth 的窗口的交集比并集的比值，如果IoU低于０．5，那么相当于目标还是没有检测到。Ground Trｕtｈ就是实际物体真实的区域。

mAＰ,meaｎＡveraｇe Pｒｅciｓiｏｎ，平均精度均值。是对多个验证集求PR曲线的均值。PR曲线是Preciｓioｎ和Ｒｅcａll作为横纵坐标轴的曲线，Ｐrecisiｏn是准确率，即检测出的样本有多少是正确的,Recａll是召回率,即应该被检测出的样本有多少被检测出来。PＲ曲线越高,说明算法越好,即又多又准。３．2典型的算法

从2014年的Ｒ－CNN（Region prｏposal+CNN)开始,出现了一系列目标检测算法，从R-CNN到ｆａst R-CNN和fasｔeｒR-CNN，以及SＰP-ＮＥＴ，R-FCN,还有YＯLOｖ1~ｖ3和SSD、DSSD。

R-CNN:采用ｓelｅcｔｉｖｅseaｒcｈ方法（一种ＲｅgioｎＰｒｏpoｓａl方法,Reｇｉｏn Propoｓaｌ的方法有sｅlective seａrcｈ、eｄge ｂｏx）进行区域选择,选出２０00个左右。将每个区域缩放至227×227,再送入CNN计算特征,

最后由SＶM(支持向量机)分类。很明显,R-CNN很慢。

SPP－NＥT:为了加快R－CＮＮ的速度，采取对一副图像的多个ＲegionＰroposal一次提取特征。这就要求网络必须适应不同尺寸的图像。方法是在全连接层之前加入一个网络层，让它对任意尺寸的输入产生固定的输出(将图像分成16、4、1个块）。SPP-ＮＥＴ训练步骤繁琐,并且仍然不够快。

fasｔR-ＣNＮ:与R-ＣＮN相比，faｓt R-CNN在最后一个卷积层后加了一个ROI pooliｎg laｙer，同时损失函数使用了多任务损失函数(multｉ-taｓk loss)，将边框回归直接加入到CNN网络中训练，最后用softｍax替代SVＭ进行分类。fasｔR-ＣNN不是真正的端到端训练测试，还是需要seｌective search来进行Reｇion Ｐｒopoｓal，所以还是不够快,不能做实时的检测。

Fａster R－CNN:采用RPN（Ｒegion Proｐosal Neｔworks)用Aｎcｈoｒ机制和边框回归直接得到多尺度多长宽比的Region Proposａl。Faｓt Ｒ-CNＮ做到了真正的端到端,但可惜的是仍然不能达到实时检测。RPN需要详细了解一下。

R-ＦCN: ObjeｃｔDetecｔioｎvｉａRegioｎ-based Ｆｕlｌy Conｖoｌu ｔional Ｎｅtwｏｒks，基于区域的全卷积网络物体检测。嫁接ResNet的卷积层,采用ＲＰN获取RＯＩ，针对每个ＲOI,在ＰOOL之前加入位置信息(通过ｓcｏre ｍａp）。R-FCN的sｃore mａp计算有点绕，需要慢慢理解。

YOLO:虽然精度不是最好，但确是目前实时性最好的算法,可以在视频中实时检测出很多物体。倒也符合人类视觉的特点，一眼望去先看个大概，要想看细节,那就定格仔细看吧。YOＬＯ系列的算法后面详细总结。

ＳSD：SSD结合了YＯLO中的回归思想和Fastｅr R－ＣNN中的anchｏr 机制，使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性，也保证了窗口预测的跟Fastｅr R－ＣNN一样比较精准。

一般后续出现的算法都会与之前的算法做性能对比,SSD和YOLＯv1比,YOLOv2、v3又和SSD比，在不同的训练集上也有不同的mAP，看起来真是眼花缭乱。因为机缘巧合,我先接触到YOＬO系列算法,在自己的电脑上运行DEMO，也仔细看了ＹＯLＯ的发展，于是给一个稍微详细的总结。

3.3 YOLO系列算法

YOＬO算法主要是针对以往物体检测算法速度较慢的弊端，利用一个单独

的端到端网络，将原始图像输入，直接输出物体位置和类别。ＹOLＯ没有显式的求取ＲegionＰroposａl的过程（R-CＮN和Fast R-CNN采用seｌective ｓeaｒcｈ获取，Fａster R-ＣＮＮ和R-ＦCN则采用了RＰN)。YOLO的名字也来自于其核心特征：Ｙou Only Look Oｎce,只看一次。

从20１5年到２018年3月,YOＬO一共出了三个版本ｖ1、v2(YOＬO9000）、v3，性能逐渐提高, mAP与其它算法持平或略胜一筹。

3.3.1 ＹＯLＯv1

YOLO将对象检测框架化为空间分离边界框和相关类别概率的回归问题。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测流水线是单个网络,因此可以直接针对检测性能端到端地进行优化，使得统一架构非常快。

基础ＹＯLO模型以4５帧/秒的速度实时处理图像。较小版本的网络Fａst YOＬO每秒处理可达1５5帧，同时实现其他实时检测器的mAP的两倍。与最先进的检测系统相比,YＯLＯ产生更多的定位误差，但不太可能预测背景上的误报。最后，YOLO表现出对目标识别很好的通用性。

ＹOLO检测网络有24个卷积层，其次是2个完全连接的层。交替的1×１卷积层减少了来自前面层的特征空间。在分辨率的一半（224 *2２4输入图像)上预分割ImagｅNｅt分类任务上的卷积图层，然后将分辨率加倍以进行检测。

YOLO将输入图像分成S×S个格子，若某个物体Grouｎd trｕtｈ的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。

每个边界框由5个预测组成：x,y,w，ｈ和置信度。（x, y)坐标表示相对于网

格单元边界的框的中心。宽度和高度是相对于整个图像预测的。最后，置信度预测表示预测框与任何ｇroｕｎｄtruth框之间的IOＵ。

每个网格单元还预测C条件类概率Pr（Cｌasｓi｜Objecｔ）。这些概率取决于包含对象的网格单元。仅预测每个网格单元的一组类概率,而不管箱B的数量。在测试时间，将条件类概率和单个盒子置信度预测相乘,

这给出了每个盒子的类别特定置信度评分。这些分数编码该类出现在盒子中的概率以及预测盒子如何适合该对象。YＯLO的输出维度为S×S×(B×5+Ｃ)。检测中采用了S＝7，Ｂ=２,C＝20。

YOLO对占比较小的目标检测效果一般。虽然每个格子可以预测B个boｕndiｎgｂox，但是最终只选择IOU最高的bｏunding box作为物体检测输出,即每个格子最多只能预测出一个物体。当物体占画面比例较小，如图像中包含鸟群时，每个格子包含多个物体,但却只能检测出其中一个。

YOLO训练时的Lｏss函数如下

其中λcooｒd=５，λnｏｏbj=0.5，是权重系数。公式包括三部分，分别是坐标误差、IOU误差和分类误差。