(完整版)R-CNN系列

格式：ppt
大小：7.10 MB
文档页数：48

下载文档原格式

FasterR-CNN论文详解

FasterR-CNN论⽂详解⽬录&创新点设计Region Proposal Networks【RPN】，利⽤CNN卷积操作后的特征图⽣成region proposals，代替了Selective Search、EdgeBoxes等⽅法，速度上提升明显；训练Region Proposal Networks与检测⽹络【Fast R-CNN】共享卷积层，⼤幅提⾼⽹络的检测速度。

&问题是什么继Fast R-CNN后，在CPU上实现的区域建议算法Selective Search【2s/image】、EdgeBoxes【0.2s/image】等成了物体检测速度提升上的最⼤瓶颈。

&如何解决问题测试过程Faster R-CNN统⼀的⽹络结构如下图所⽰，可以简单看作RPN⽹络+Fast R-CNN⽹络。

注意：上图Fast R-CNN中含特有卷积层，博主认为不是所有卷积层都参与共享。

1. ⾸先向CNN⽹络【ZF或VGG-16】输⼊任意⼤⼩图⽚；2. 经过CNN⽹络前向传播⾄最后共享的卷积层，⼀⽅⾯得到供RPN⽹络输⼊的特征图，另⼀⽅⾯继续前向传播⾄特有卷积层，产⽣更⾼维特征图；3. 供RPN⽹络输⼊的特征图经过RPN⽹络得到区域建议和区域得分，并对区域得分采⽤⾮极⼤值抑制【阈值为0.7】，输出其Top-N【⽂中为300】得分的区域建议给RoI池化层；4. 第2步得到的⾼维特征图和第3步输出的区域建议同时输⼊RoI池化层，提取对应区域建议的特征；5. 第4步得到的区域建议特征通过全连接层后，输出该区域的分类得分以及回归后的bounding-box。

解释分析RPN⽹络结构是什么？实现什么功能？具体如何实现？单个RPN⽹络结构如下图：注意：上图中卷积层/全连接层表⽰卷积层或者全连接层，作者在论⽂中表⽰这两层实际上是全连接层，但是⽹络在所有滑窗位置共享全连接层，可以很⾃然地⽤n×n卷积核【论⽂中设计为3×3】跟随两个并⾏的1×1卷积核实现，⽂中这么解释的，博主并不是很懂，尴尬。

FasterRCNN理解(精简版总结)

FasterRCNN理解（精简版总结）Faster R-CNN（Faster Region-based Convolutional Neural Networks）是一种用于目标检测的深度学习模型，它能够准确、快速地检测图像中的物体并对其进行分类。

本文将对Faster R-CNN进行精简版总结。

目标分类与边界框回归：在生成的候选区域之后，每个候选区域都需要进行分类和位置回归。

为了解决这个问题，Faster R-CNN引入了一个用于分类和位置回归的全连接层网络，在区域特征图上进行目标分类和边界框回归操作。

此外，从RPN得到的候选区域与这个全连接层网络之间共享卷积特征，以减少计算量。

具体来说，Faster R-CNN采用了RoI （Region of Interest）池化层来从特征图上提取固定大小的特征向量，然后输入到全连接层网络进行分类和回归。

Faster R-CNN的训练过程包括两个阶段：预训练阶段和微调阶段。

在预训练阶段，使用一个大规模数据集（如ImageNet）对整个网络进行训练，以提取通用特征。

在微调阶段，使用目标检测数据集对RPN和全连接层网络进行微调。

为了加快训练速度，Faster R-CNN采用了两阶段的训练策略，即首先训练RPN网络，然后使用RPN生成的候选区域进行目标分类和边界框回归的训练。

Faster R-CNN的优势在于其准确性和速度。

相比于传统的目标检测方法，Faster R-CNN在准确率上有显著的提升，并且其检测速度更快。

这是因为RPN网络可以一次性生成大量候选区域，在这些候选区域上进行分类和回归操作，从而减少了计算量。

总而言之，Faster R-CNN是一种用于目标检测的深度学习模型，通过引入Region Proposal Network生成候选区域，并使用全连接层网络进行目标分类和边界框回归。

它在准确性和速度上都有很好的表现，成为目标检测领域的重要模型之一。

MaskRCNN原理详解.ppt

Mask RCNN解读
Faster RCNN
Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast RCNN”的系统，用区域生成网络代替Fast R-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题： 1. 如何设计区域生成网络； 2. 如何训练区域生成网络； 3. 如何让区域生成网络和Fast RCNN网络共享特征提取网络。在整个Faster R-CNN算法中，有三种尺度： 1. 原图尺度：原始输入的大小。不受任何限制，不影响性能。 2. 归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。 3. 网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224*224
2
Faster RCNN
1：向CNN网络【如VGG-16】输入任意大小图片: 2：经过CNN网络前向传播至最后共享的卷积层，一方面得到供RPN网络输入的特征图，另一方面继续前向传播至特有卷积层，产生更高维特征图； 3：供RPN网络输入的特征图经过RPN网络得到区域建议和区域得分，并对区域得分采用非极大值抑制【阈值为0.7】，输出其Top-N【文中为300】得分的区域建议给RoI池化层； 4：第2步得到的高维特征图和第3步输出的区域建议同时输入RoI池化层，提取对应区域建议的特征； 5：第4步得到的区域建议特征通过全连接层后，输出该区域的分类得分以及回归后的bounding-box。
3
RPN
RPN的核心思想是使用CNN卷积神经网络直接产生 Region Proposal，使用的方法本质上就是滑动窗口（只需在最后的卷积层上滑动一遍），因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。RPN网络也是全卷积网络（FCN，fullyconvolutional network），可以针对生成检测建议框的任务端到端地训练，能够同时预测出object的边界和分数。只是在CNN上额外增加了2个卷积层（全卷积层cls和reg）

令我“细思极恐”的Faster-R-CNN

令我“细思极恐”的Faster-R-CNN作者简介CW，⼴东深圳⼈，毕业于中⼭⼤学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术⼯程与事业群（TEG）从事Devops⼯作，期间在AI LAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时⼈脸检测与表情识别、OCR等项⽬。

⽬前也有在⼀些⾃媒体平台上参与外包项⽬的研发⼯作，项⽬专注于CV领域（传统图像处理与深度学习⽅向均有）。

前⾔CW每次回顾Faster R-CNN的相关知识（包括源码），都会发现之前没有注意到的⼀些细节，从⽽有新的收获，既惊恐⼜惊喜，可谓“细思极恐”！Faster R-CNN可以算是深度学习⽬标检测领域的祖师爷了，⾄今许多算法都是在其基础上进⾏延伸和改进的，它的出现，可谓是开启了⽬标检测的新篇章，其最为突出的贡献之⼀是提出了 'anchor' 这个东东，并且使⽤ CNN 来⽣成region proposal（⽬标候选区域），从⽽真正意义上完全使⽤CNN 来实现⽬标检测任务（以往的架构会使⽤⼀些传统视觉算法如Selective Search来⽣成⽬标候选框，⽽ CNN 仅⽤来提取特征或最后进⾏分类和回归）。

Faster R-CNN 由 R-CNN 和 Fast R-CNN发展⽽来，R-CNN是第⼀次将CNN应⽤于⽬标检测任务的家伙，它使⽤selective search算法获取⽬标候选区域（region proposal），然后将每个候选区域缩放到同样尺⼨，接着将它们都输⼊CNN提取特征后再⽤SVM进⾏分类，最后再对分类结果进⾏回归，整个训练过程⼗分繁琐，需要微调CNN+训练SVM+边框回归，⽆法实现端到端。

Fast R-CNN则受到 SPP-Net 的启发，将全图（⽽⾮各个候选区域）输⼊CNN进⾏特征提取得到feature map，然后⽤RoI Pooling将不同尺⼨的候选区域（依然由selective search算法得到）映射到统⼀尺⼨。

faster-rcnn原理讲解

faster-rcnn原理讲解⽂章转⾃：经过R-CNN和Fast RCNN的积淀，Ross B. Girshick在2016年提出了新的Faster RCNN，在结构上，Faster RCNN已经将特征抽取(feature extraction)，proposal提取，bounding box regression(rect refine)，classification都整合在了⼀个⽹络中，使得综合性能有较⼤提⾼，在检测速度⽅⾯尤为明显。

图1 Faster RCNN基本结构（来⾃原论⽂）依作者看来，如图1，Faster RCNN其实可以分为4个主要内容：1. Conv layers。

作为⼀种CNN⽹络⽬标检测⽅法，Faster RCNN⾸先使⽤⼀组基础的conv+relu+pooling层提取image的feature maps。

该feature maps被共享⽤于后续RPN层和全连接层。

2. Region Proposal Networks。

RPN⽹络⽤于⽣成region proposals。

该层通过softmax判断anchors属于foreground或者background，再利⽤bounding boxregression修正anchors获得精确的proposals。

3. Roi Pooling。

该层收集输⼊的feature maps和proposals，综合这些信息后提取proposal feature maps，送⼊后续全连接层判定⽬标类别。

4. Classification。

利⽤proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

所以本⽂以上述4个内容作为切⼊点介绍Faster R-CNN⽹络。

图2展⽰了python版本中的VGG16模型中的faster_rcnn_test.pt的⽹络结构，可以清晰的看到该⽹络对于⼀副任意⼤⼩PxQ的图像，⾸先缩放⾄固定⼤⼩MxN，然后将MxN图像送⼊⽹络；⽽Conv layers中包含了13个conv层+13个relu层+4个pooling层；RPN⽹络⾸先经过3x3卷积，再分别⽣成foreground anchors与bounding box regression偏移量，然后计算出proposals；⽽Roi Pooling层则利⽤proposals从feature maps中提取proposal feature送⼊后续全连接和softmax⽹络作classification（即分类proposal到底是什么object）。

目标检测RCNN系列讲解.pptx

3
背景知识
目标检测
目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。
4 04
背景知识
图像识别（classification）：输入：图片输出：物体的类别评估方法：准确率。
15 15
R-CNN
步骤五：使用回归器精细修正候选框位置：对于每一个类，训练一个线性回归模型去判定这个框是否框得完美
16 16
R-CNN
R-CNN存在的问题
1、基于R-CNN目标检测算法只能输入固定尺寸的图片，样本输入受限 2、经人工处理过的图片，易降低网络识别检测精度 3、R-CNN需对各候选区域进行一次卷积操作，计算量大，耗时长
基于R-CNN的系列目标检测算法
R-CNN, SPP NET, Fast R-CNN, Faster R-CNN
组员：
1
CONTENTS
目录
01 背景知识
02 RCNN 03 SPP NET 04 Fast R-CNN 05 Faster R-CNN
06 实例展示
2
01 PART ONE
背景知识
人工图片处理样例
17 17
03 PART THREE
SPP NET
18
SPP NET
在R-CNN的第一步中，对原始图片通过Selective Search提取的候选框多达2000个左右，而这2000个候选框每个框都需要进行CNN提特征+SVM分类，计算量很大，导致R-CNN检测速度很慢，一张图都需要47s。而且，基于R-CNN目标检测算法只能输入固定尺寸的图片，样本输入受限，使用很不方便。那么如何改进呢？SPP-NET的出现恰好解决了这些问题。 SPP-Net（Spatial Pyramid Pooling）是何凯明2014年提出的方法，通过解决传统CNN无法处理不同尺寸输入的问题对同年的R-CNN算法做改进，实验结果表明SPP方法比R-CNN快了近100倍从算法架构上，SPP-Net与R-CNN相似：通过Selective Search获取候选区域，最后也是使用SVM做分类。但不再将每个候选区域过一次CNN，而是将原始图过一次CNN，在CNN的全连接层前添加新提出的SPP层，根据候选区域位置crop的图像卷积结果通过SPP层来确保输入全连接层的尺寸满足要求。最后在全连接层的输出一次性获得所有候选区域的特征向量。

FasterRCNN详解

FasterRCNN详解摘⾃：这篇是我看过讲faster-RCNN最清楚的，很多地⽅茅塞顿开，特转。

⼀、 faster-RCNN的背景 Faster R-CNN 发表于 NIPS 2015，其后出现了很多改进版本，后⾯会进⾏介绍. R-CNN - Rich feature hierarchies for accurate object detection and semantic segmentation 是 Faster R-CNN 的启发版本. R-CNN 是采⽤ Selective Search 算法来提取(propose)可能的 RoIs(regions of interest) 区域，然后对每个提取区域采⽤标准 CNN 进⾏分类. 出现于 2015 年早期的 Fast R-CNN 是 R-CNN 的改进，其采⽤兴趣区域池化(Region of Interest Pooling，RoI Pooling) 来共享计算量较⼤的部分，提⾼模型的效率. Faster R-CNN 随后被提出，其是第⼀个完全可微分的模型. Faster R-CNN 是 R-CNN 论⽂的第三个版本.R-CNN、Fast R-CNN 和Faster R-CNN 作者都有 Ross Girshick.⼆、faster-RCNN的⽹络结构 Faster R-CNN 的结构是复杂的，因为其有⼏个移动部件. 这⾥先对整体框架宏观介绍，然后再对每个部分的细节分析.问题描述：针对⼀张图⽚，需要获得的输出有：边界框(bounding boxes) 列表，即⼀幅图像有多少个候选框（region proposal），⽐如有2000个；每个边界框的类别标签，⽐如候选框⾥⾯是猫？狗？等等；每个边界框和类别标签的概率。

2.1 faster-RCNN的基本结构除此之外，下⾯的⼏幅图也能够较好的描述发图尔-RCNN的⼀般结构：2.2 faster-RCNN的⼤致实现过程整个⽹络的⼤致过程如下：（1）⾸先，输⼊图⽚表⽰为 Height × Width × Depth 的张量(多维数组)形式，经过预训练 CNN 模型的处理，得到卷积特征图(conv feature map)。

rcnn原理

R-CNN（Regions with CNN features）是一种基于卷积神经网络（CNN）的目标检测算法。

它的基本思想是先使用选择性搜索算法或其他方法在输入图像中选取候选区域（region of interest，RoI），然后对每个RoI分别进行CNN 的特征提取和分类。

具体而言，R-CNN 的流程如下：
1.使用选择性搜索算法或其他方法在输入图像中选取候选区域（RoI）。

2.对每个RoI分别进行CNN的特征提取。

3.将提取的特征输入到SVM中进行分类，得到最终的目标检测结果。

R-CNN算法的主要优点是能够提取高质量的特征并实现高精度的目标检测，但缺点是需要对每个RoI分别进行CNN 的特征提取和分类，计算量较大。

R-CNN的变种，如Fast R-CNN和Faster R-CNN解决了R-CNN的计算量问题，在目标检测中得到广泛应用。

Fast R-CNN是在R-CNN的基础上进行的改进，它通过在输入图像上进行一次卷积和最大池化操作，来对所有RoI进行特征提取。

这样可以大大减少计算量，提高检测速度。

Faster R-CNN是在Fast R-CNN的基础上进行的改进，它引入了一个新的网络模块，称为Region Proposal Network（RPN），用于自动生成RoI。

这样可以不需要选择性搜索算法来生成RoI，直接使用RPN网络自动生成RoI。

Faster R-CNN对于R-CNN和Fast R-CNN来说，大大简化了网络结构，提高了检测速度和准确性，因此在目标检测中得到了广泛应用。

人体关键点检测的Mask R-CNN网络模型改进研究

人体关键点检测是一种基于目标检测算法并应用在人体关键点信息捕捉上的智能算法，具有能将空间中的人体信息通过摄像头转化为可量化处理的数据信息的功能。

传统目标检测方法对于人体关键点检测问题的研究由于应用场景繁多的干扰因素与不稳定性一直进度缓慢，如特征点匹配算法[1]、基于梯度特征的目标检测算法[2]、K均值聚类算法等[3]。

近年来深度学习的兴起对于人体关键点检测问题的解决提供了新的思路，但是复杂的网络模型往往意味着需要较高硬件水平的支持与较长的计算时间，多数深度学习网络模型需要耗费大量的人力物力与计算成本。

人体关键点的检测算法也从局限于单人关键点检测发展到多人情况下的人体关键点检测。

而多人情况下的人体关键点检测往往伴随着更复杂的网络结构，意味着更高的计算成本与更长的训练时间。

在这个移动终端普及化与倡导智能自动化的今天，一个良好的适用于人体关键点检测问题的网络模型应该具有较强鲁棒性、较低的计算成本、较好的识别精度、能容纳多名使用者等的特点。

区域卷积神经网络（Regions with Convolution Neu-ral Network，R-CNN）[4]系列网络模型是近年目标检测算法中的一直在发展的较为成熟的网络结构，通过构建数个甚至数十上百个卷积层-激活层-池化层的卷积结构来对图像进行特征提取，把目标检测问题拆分为回归与分类两个问题的集合，并使用大样本下有监督的预训⦾模式识别与人工智能⦾人体关键点检测的Mask R-CNN网络模型改进研究宋玲，夏智敏广西大学计算机与电子信息学院，南宁530004摘要：由于在现有的人体关键点检测问题中，深度学习解决方案采用的掩膜区域卷积神经网络Mask R-CNN存在参数量大导致计算成本过高、迭代次数多导致训练时间过长等问题，提出了一种基于重组通道网络ShuffleNet改进Mask R-CNN网络模型。

通过引入ShuffleNet的网络结构，使用分组逐点卷积与通道重排的操作与联合边框回归和掩膜分割的计算结果对Mask R-CNN进行轻量化改进。

深度学习之神经网络(CNN-RNN-GAN)算法原理+实战课件PPT模板可编辑全文

8-1图像生成文本问题引入入
8-5showandtell模型
8-2图像生成文本评测指标
8-4multi-modalrnn模型
8-6showattendandtell模型
8-10图像特征抽取(1)-文本描述文件解析
8-8图像生成文本模型对比与总结
8-9数据介绍，词表生成
8-7bottom-uptop-downattention模型
第6章图像风格转换
06
6-1卷积神经网络的应用
6-2卷积神经网络的能力
6-3图像风格转换v1算法
6-4vgg16预训练模型格式
6-5vgg16预训练模型读取函数封装
6-6vgg16模型搭建与载入类的封装
第6章图像风格转换
单击此处添加文本具体内容，简明扼要的阐述您的观点。根据需要可酌情增减文字，与类别封装
06
7-12数据集封装
第7章循环神经网络
7-13计算图输入定义
7-14计算图实现
7-15指标计算与梯度算子实现
7-18textcnn实现
7-17lstm单元内部结构实现
7-16训练流程实现
第7章循环神经网络
7-19循环神经网络总结
第8章图像生成文本
08
第8章图像生成文本
02
9-9文本生成图像text2img
03
9-10对抗生成网络总结
04
9-11dcgan实战引入
05
9-12数据生成器实现
06
第9章对抗神经网络
9-13dcgan生成器器实现
9-14dcgan判别器实现
9-15dcgan计算图构建实现与损失函数实现
9-16dcgan训练算子实现
9-17训练流程实现与效果展示9-14DCGAN判别器实现9-15DCGAN计算图构建实现与损失函数实现9-16DCGAN训练算子实现9-17训练流程实现与效果展示

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算学习视觉物体分类挑战赛)
CNN训练及特征提取
训练： 1.预训练：
训练集： ILSVRC 2012；输出：1000维类别标号；学习率：0.01 提取的特征为4096维，送入一个4096->1000的全连接(fc)层进行分类 • 2.调优训练训练集：PASCAL VOC 2007；学习率：0.001 输入：227x227的正负样本（正：32，负：96；包括所有类别）输出：21维（20类+背景）；同样使用上述网络，最后一层换成4096->21的全连接网络正负样本的选取： IOU>0.5，标记为positive，否则标记为negative
PASCAL VOC上的检测率从35.1%提升到53.7%
227x227
1. 区域提名：通过Selective Search从原始图片提取2000个左右区域候选框；
2. 区域归一化：把所有侯选框缩放成固定大小（227×227）Warp； 3. 通过CNN网络提取特征(在特征层的基础上添加两个全连接层)； 4. 使用SVM结合NMS（非极大值抑制）获得区域边框（BBox），
R-CNN系列
传统目标检测
基于候选区域的目标检测
回归方法的深度学习目标检测
RCNN SPPNET fast-RCNN faster-RCNN
YOLO
传统目标检测
区域选择
特征提取
分类器分类
滑动窗口策略两个问题
手工设计特征
1 0 -1 1 0 -1 1 0 -1
111 0 00 -1 -1 -1
选取概率最大的区域，计算与其他区域的IOU；如果IOU大于给定阈值（经验值0.3）丢弃该区域；同样的过程依次遍历所有剩余的Region。 • 用各个类指定的回归模型来细化框的位置
NMS：非极大值抑制
例如：定位一个车辆，算法就找出了若干方框需要判别哪些矩形框是没用的。 • 非极大值抑制：先假设有6个矩形框，根据分类器分类概率做排序，从小到大分别属于车辆的概率分别为A、B、C、 D、E、F。 • (1)从最大概率矩形框F开始，分别判断
R-CNN的缺点
虽然R-CNN在ILSVRC 2013数据集上的mAP由Overfeat的24.3%提升到了31.4%，第一次有了质的改变。但R-CNN有很多缺点：
➢重复计算：R-CNN虽然不再是穷举，但依然有两千个左右的候选框，这些候选框都需要进行CNN操作，计算量依然很大，其中有不少其实是重复计算；
Supervised pre-training迁移学习
• 对象分类：标注好的训练数据非常多；
•
目标检测：标注数据很少，如何用少量的标注数据，训练高质量的模型
• 迁移学习：
检测 ≈ 定位 + 分类
例如我们先对Imagenet数据集（ILSVRC 2012的数据集）进行CNN的
分类预训练（ pre-traing ），然后在PASCAL数据集上微调（ fineruning ）。
回归器
对每一类目标，使用一个线性回归器进行精修。正则项 λ=10000。输入：CNN网络pool5层的4096维特征输出：xy方向的缩放和平移W=[x,y,w,h]。
训练样本：判定为本类的候选框中，和真值重叠面积大于0.6的候选框。
其中*可以是：x，y，w，h，（x，y）是目标中心相对位置， w，h是变换后的宽度和高度缩放比例的对数值
• 2. 多样化（Diversification）：单一的策略无法应对多种类别的图像。使用颜色（color）、纹理（texture）、大小（size）等多种策略对分割好的区域进行合并。
• 3. 效率（Fast to Compute）颜色（ RGB、灰度、HSV ）、纹
理（texture）、大小、吻合情况的相似度
最后用DPM中类似的线性回归方法精修（Refine）边框位置。
Selective Search for Object Recognition
• Selective Search需要考虑的几个问题：
• 1. 适应不同尺度（Capture All Scales）：穷举搜索（Exhaustive Selective）通过改变窗口大小来适应物体的不同尺度，选择搜索（Selective Search）同样无法避免这个问题。算法采用了图像分割（Image Segmentation）和层次算法（Hierarchical Algorithm）有效地解决了这个问题。
A~E与F的重叠度IOU是否大于某个设定的阈值; • (2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框
F，是我们保留下来的。 • (3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠
度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。 • 就这样一直重复，找到所有被保留下来的矩形框。
图像分割
• 图像分割（Image Segmentation）的主要目的也就是将图像（image）分割成若干个特定的、具有独特性质的区域（region），然后从中提取出感兴趣的目标（object）。
• 1. 图像（image）的图（graph）表示；Spanning Tree）。把图像中的每一个像素点看成一个顶点vi ∈ V（node或vertex），
正：标注样本+IOU>0.5 负：不包含正样本区域 • 输入：CNN提取的区域特征 • 输出：每个候选区域特征的概率输出
获取每个类别的Bounding box(BBox)
• 针对各个类别（N）：
• CNN生成每个Region proposal固定长度的特征向量 • SVMs分类器计算每个Region特征向量的Score • 每个Region（区域）的Score排序 • NMS：
SVM、adaboost等
基本概念
• Region proposals
• CNN：卷积神经网络
R-CNN：Region with CNN features
将检测问题转换成为region proposals的分类问题
• Selective Search：选择性搜索 • Warp：图像Region变换 • Supervised pre-training：有监督预训练也称迁移学习 • IOU：交并比IOU=(A∩B)/(A∪B) • NMS：非极大值抑制 • DPM：使用判别训练的部件模型进行目标检测
像素点之间的关系对（可以自己定义其具体关系，一般来说是指相邻关系）构成图的一条边ei ∈ E，这样就构建好了一个图 G = (V,E)。 • 2. 最小生成树（Minimun ）
将图像表达成图之后，将每个节点（像素点）看成单一的区域，然后进行合并。使用最小生成树方法合并像素点，然后构成一个个区域。相似的区域在一个分支（Branch）上面（有一条最边连接），大大减少了图的边数。
SVM分类器输入：4096*N或者21*N
NIPS, 2012,by A. Krizhevsky et al.
ImageNet classification with deep convolutional neural networks. 网络只需要将最后的1000类的分类层换成21类的分类层（20个VOC中的类别和1个背景类），其他都不需要变。
Object proposal 转换（Warp）
• 将各个Region的大小变换
到CNN 的输入尺寸
• 变换：
Scale：
(B) Isotropically 无附加
(p=0)
各向同性地
(C)anisotropicallyWwaripthing
各向异性地
context
Warp：
padding (P=16)
IOU交并比
• IOU表示了bounding box 与 ground truth 的重叠度，如下图所示：
• 矩形框A、B的重合度IOU计算公式：
IOU=(A∩B)/(A∪B) 或 IOU=SI/(SA+SB-SI)
• 考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于设定阈值，则认为此候选框为此标定的类别；否则认为此候选框为背景。
各向异性缩放
+16pixels
Region 的原始大小
向四周均匀
扩充 Scale
无上下文紧密区域
ห้องสมุดไป่ตู้
Warp 变换
原文
A. 原始Region B. The first method (“tightest square with context”)
encloses each object proposal inside the tightest square and then scales (isotropically) the image contained in that square to the CNN input size. C. A variant on this method (“tightest square without context”) excludes the image content that surrounds the original object proposal. D. The second method (“warp”)anisotropically scales each object proposal to the CNN input size.
• ILSVRC: ImageNet Large Scale Visual Recognition Challenge (ImageNet
大规模图像识别挑战赛)
• PASCAL VOC Challenge: Pattern Analysis, Statical Modeling and