改进Faster R—CNN的小目标检测
- 格式:pdf
- 大小:5.85 MB
- 文档页数:6
机器学习中的目标检测与卷积神经网络模型参数调优方法及实践应用案例目标检测是机器学习领域中一个重要的任务,它被广泛应用于计算机视觉、图像处理、自动驾驶等众多领域。
而在目标检测的方法中,卷积神经网络(Convolutional Neural Networks,简称CNN)是目前被广泛使用和研究的深度学习模型。
在机器学习中,模型参数调优是十分关键的一步,它决定了模型的性能和泛化能力。
而调优卷积神经网络模型参数,尤其是用于目标检测的模型参数,是一个挑战性的任务。
本文将介绍一些常用的调优方法,并结合一个实践应用案例进行讲解。
在目标检测任务中,常用的卷积神经网络模型有Faster R-CNN、YOLO、SSD 等。
这些模型包含了许多参数,如学习率、批量大小、网络结构等。
在调优这些参数前,首先需要了解模型的性能指标和训练数据。
对于目标检测的性能指标,常见的有精确度(Precision)、召回率(Recall)和F1-score。
精确度是指被检索到的相关样本在所有检索到的样本中的比例,召回率是指被检索到的相关样本占所有相关样本的比例,F1-score是精确度和召回率的调和平均数。
训练数据则需要包含正样本和负样本的标签,用于模型的训练和评估。
针对模型参数调优,一种常用的方法是网格搜索(Grid Search)。
网格搜索将给定参数范围的所有组合都进行尝试,并通过交叉验证选择最佳的参数组合。
这种方法的优点在于简单直观,但其缺点是计算资源消耗大且耗时。
另一种常用的方法是随机搜索(Random Search)。
与网格搜索相比,随机搜索通过设置参数的分布范围,在参数空间中随机选择参数组合进行尝试。
这种方法相对于网格搜索更加高效,而且能够在有限的计算资源下得到较好的结果。
除了这些传统的调优方法,还有一些高级的优化算法也被广泛使用。
其中一种是贝叶斯优化(Bayesian Optimization),它通过构建模型来推断参数的性能,并选择最优的参数组合进行优化。
目标检测模型设计与改进综述方法比较与进步分析目标检测是计算机视觉领域中的重要任务,其在物体识别、智能驾驶、视频监控等方面有着广泛应用。
近年来,随着深度学习的快速发展,基于深度学习的目标检测方法取得了显著的进展。
本文将对目标检测模型的设计与改进方法进行综述,比较不同方法之间的优缺点,并分析近年来的进步。
一、基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法基于RPN的目标检测方法是目前主流的检测模型之一,它通过生成一系列候选框来定位目标区域,并进行分类。
其中,Faster R-CNN 是最典型的方法之一。
Faster R-CNN采用RPN生成候选框,并利用RoI Pooling提取特征,最后通过全连接层进行分类和回归。
该方法的准确率较高,但计算量较大,检测速度较慢。
二、基于单阶段检测器的目标检测方法随着目标检测模型的发展,基于单阶段检测器的方法逐渐兴起。
YOLO(You Only Look Once)是一种较为代表性的单阶段目标检测方法。
YOLO将目标检测转化为回归问题,通过网络一次性输出目标的类别和位置信息。
相比于基于RPN的方法,YOLO具有较快的检测速度,但在小目标检测方面表现不如传统方法。
三、多尺度目标检测方法为了解决目标检测中的尺度变化问题,一些研究者提出了多尺度检测方法。
如SSD(Single Shot MultiBox Detector)通过在不同层级的特征图上进行检测,以适应不同尺度的目标。
这些方法在一定程度上提升了检测的准确率,但依然存在着小目标检测不准确等问题。
四、目标检测中的注意力机制为了解决目标检测中的分布不均衡问题,一些研究者引入了注意力机制。
在目标检测中,引入注意力机制可以使网络更加关注重要的目标区域。
比如CBAM(Convolutional Block Attention Module)通过利用通道注意力和空间注意力来提升目标检测的性能。
第 23卷第 1期2024年 1月Vol.23 No.1Jan.2024软件导刊Software Guide一种圆形锚框的Faster R-CNN小目标检测算法闫春相,徐遵义,刘康宁,李晨(山东建筑大学计算机科学与技术学院,山东济南 250101)摘要:小目标检测的主要任务是检测图像中尺寸小于32×32像素的目标并对其分类。
由于传统矩形锚框结构检测小目标时匹配不准确,小目标在通用数据集中数量较少且分布不均匀,导致模型检测效果较差。
为此,在Faster R-CNN的基础上,提出一种圆形锚框的小目标检测方法。
在RPN阶段采用圆形锚框定位感兴趣区域,通过新的面积交并比计算方法与损失函数减少模型参数量与锚框回归阶段的偏移计算,以增强模型对被检测目标的拟合能力,提升模型检测精度和效率。
同时,为了解决现有公开数据集中小目标占比较少及分布不均匀问题,在MS COCO 2017数据集上进行数据增强操作,仅保留其中的小目标并将标注信息修改为对小目标包裹率较高的圆形包围框。
实验表明,采用圆形锚框方法与数据增强方法在检测小目标时检测效果较好,检测效率、速度均明显优于Faster R-CNN,AP S、检测速度分别提升4.1%与4 FPS。
关键词:小目标检测;Faster R-CNN;圆形锚框;数据增强;圆交并比DOI:10.11907/rjdk.222521开放科学(资源服务)标识码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2024)001-0128-07A Faster R-CNN Small Object Detection AlgorithmBased on Circular AnchorYAN Chunxiang, XU Zunyi, LIU Kangning, LI Chen(College of Computer Science and Technology, Shandong Jianzhu University, Ji'nan 250101, China)Abstract:The main task of small object detection is to detect images with dimensions smaller than 32×32 pixel target and classify it. Due to the inaccurate matching of traditional rectangular anchor frame structures in detecting small targets, the number of small targets in the general dataset is small and their distribution is uneven, which will lead to poor model detection performance. Therefore, based on Faster R-CNN, a small target detection method with circular anchor frames is proposed. In the RPN stage, a circular anchor frame is used to locate the region of interest, and a new area intersection and union ratio calculation method and loss function are used to reduce the model parameter quantity and offset calculation in the anchor frame regression stage, in order to enhance the model's fitting ability to the detected target and improve the model's detection accuracy and efficiency. At the same time, in order to address the issues of low proportion and uneven distribution of small targets in existing public datasets, data augmentation was performed on the MS COCO 2017 dataset, retaining only the small targets and modi⁃fying the annotation information to a circular bounding box with a high wrapping rate for the small targets. Experiments have shown that the cir⁃cular anchor box method and data augmentation method have better detection performance in detecting small targets, with detection efficiency and speed significantly better than Faster R-CNN,AP S and detection speed have been improved by 4.1% and 4 FPS, respectively.Key Words:small target detection; Faster R-CNN; circular anchor; data augmentation; circle intersection over union收稿日期:2022-12-29基金项目:国家自然科学基金青年基金项目(62102235);山东省重点研发计划(重大科技创新工程)项目(2021CXGC011204)作者简介:闫春相(1997-),男,山东建筑大学计算机科学与技术学院硕士研究生,CCF学生会员,研究方向为计算机视觉和目标检测;徐遵义(1969-),男,博士,CCF会员,山东建筑大学计算机科学与技术学院教授、研究生导师,研究方向为计算机视觉、机器学习和数据挖掘;刘康宁(1999-),男,山东建筑大学计算机科学与技术学院硕士研究生,研究方向为计算机视觉和目标检测;李晨(2000-),女,山东建筑大学计算机科学与技术学院硕士研究生,研究方向为计算机视觉、目标检测。
高技术通讯2021年第31卷第5期:489499doi:10.3772/j.issn.1002-0470.2021.05.004基于改进Faster RCNN的目标检测方法①王宪保②朱啸咏姚明海(浙江工业大学信息工程学院杭州310023)摘要针对基于区域的目标检测算法中定位精度不高的问题,本文提出了一种分裂机制的改进Faster RCNN算法。
该算法首先选择特征提取能力强的卷积神经网络(CNN)作为骨干网络进行特征的提取;然后通过12种不同Anchors产生候选目标区,以进一步提升检测的精确度;最后将得到的特征分别传送到两个子网络,分别实现分类与定位。
分类网络以全连接结构为基础,定位网络则主要由卷积神经网络构成。
本文在Pascal VOC2007和Pascal VOC2012以及吸尘袋图像集上对算法的有效性进行了验证。
结果表明,提出的算法在对目标进行有效检测的同时,定位效果比Faster RCNN更加精确,实现了边界框的精准回归。
关键词目标检测;卷积神经网络(CNN);定位精度;改进Faster RCNN;分裂机制0引言目标检测,就是将目标定位和目标分类结合起来,利用图像处理、机器学习等技术,识别图片中是否存在事先定义的类别目标物体,如果存在,返回该类别目标物体的空间位置以及空间范围,一般使用矩形边框进行标定的计算机视觉技术⑷。
检测过程一般分为2个阶段,第1阶段通过目标分类判断输入的图像中是否存在目标物体,第2阶段负责将搜索到的目标物体使用边界框进行标注⑵。
这要求计算机在准确判断目标类别的同时,还要给出每个目标的准确位置。
在目标检测算法中,图像以像素矩阵的方式存储,需要从中抽象出目标类别和边框位置相关的图像特征才可以进行目标检测⑶。
传统目标检测算法,一般根据图像特征点进行匹配或是基于滑窗的框架。
首先利用图像预处理方法对输入图像进行去噪、增强、裁剪等操作,之后采用滑动窗口方法对图像进行候选区域的筛选,再采用经典特征提取方法,例如方向梯度直方图(histogram of oriented gradient, HOG)⑷,Sift⑸,可变形零件模型(deformable parts model,DPM)同等对候选区域进行特征提取,最后使用AdaBoost®和支持向量机(support vector machine,SVM)⑻等机器学习算法对得到的特征进行分类,之后通过目标类别对目标进行边框回归。
目标检测的常用算法
常用的目标检测算法包括以下几种:
1. R-CNN(Regions with CNN features):该算法首先在图像
中生成候选区域,然后对每个候选区域进行卷积操作和分类,以及边界框回归。
其中,R-CNN的框架包括Selective Search、CNN特征提取和支持向量机分类。
2. Fast R-CNN:该算法是对R-CNN的改进,将候选区域和CNN特征提取合并在一起进行训练,从而增加检测速度并提
高准确率。
3. Faster R-CNN:该算法进一步优化了R-CNN和Fast R-CNN
的速度和准确率问题。
通过引入RPN(Region Proposal Network)来生成候选区域,并且在全卷积网络中进行端到端
的训练。
4. YOLO(You Only Look Once):YOLO将目标检测任务视
为一个回归问题,通过将图片网格划分为多个小网格,并预测每个小网格中是否包含目标以及目标的边界框,从而实现实时目标检测。
5. SSD(Single Shot MultiBox Detector):SSD也是一种实时
目标检测算法,类似于YOLO,它也是将目标检测任务视为
回归问题,同时使用了不同尺度的特征图来检测不同大小的目标。
6. RetinaNet:该算法通过引入Focal Loss来解决目标检测中正负样本不均衡的问题,提高了对小目标的检测能力。
以上是一些常用的目标检测算法,它们各有优劣,适用于不同的场景和需求。
嵌入CBAM的改进Faster RCNN眼底微动脉瘤检测方法杨丽;邵虹;崔文成
【期刊名称】《长江信息通信》
【年(卷),期】2024(37)5
【摘要】眼底微动脉瘤检测可以有效地预防和控制糖尿病性视网膜病变,在临床应用中具有重要的意义,但该病灶的目标区域较小且存在眼底出血和其他结构的干扰,同时眼底图像存在亮度、对比度不均的问题,给检测任务带来了巨大挑战。
针对此问题提出一种基于Faster RCNN网络的微动脉瘤小目标检测方法,先对数据集进行以病灶为中心的分块处理,提升目标区域的占比;再将主干网络替换为特征表达能力强的ResNet网络,并引入注意力机制,结合加入融合因子的特征金字塔模块进行多尺度特征融合,改善主干网络提取小目标特征信息的能力,增加其对目标区域的关注程度。
实验结果表明,算法在E-Ophtha MA数据集上取得了良好的检测效果,精确率为91.3%,召回率为80.2%,较原模型精确率提高了13.1%,召回率提高了8%,且与其他方法相比检测效果更好。
【总页数】4页(P40-43)
【作者】杨丽;邵虹;崔文成
【作者单位】沈阳工业大学信息科学与工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.改进的Faster-RCNN目标检测方法在变电站悬挂异物检测中的应用
2.基于改进特征增强Faster-RCNN的光伏电站烟雾检测方法
3.一种基于改进Faster RCNN 的通信网光交箱防尘帽智能检测方法
4.多特征尺度融合改进Faster-RCNN视网膜微动脉瘤自动检测算法
5.基于改进Faster RCNN的金属丝网缺陷检测方法
因版权原因,仅展示原文概要,查看原文内容请购买。
第47卷第1期Vol.47No.1计算机工程Computer Engineering2021年1月January2021基于改进Faster⁃RCNN的自然场景人脸检测李祥兵,陈炼(南昌大学信息工程学院,南昌330000)摘要:为实现对自然场景下小尺度人脸的准确检测,提出一种改进的Faster-RCNN模型。
采用ResNet-50提取卷积特征,对不同卷积层的特征图进行多尺度融合,同时将区域建议网络产生的锚框由最初的9个改为15个,以更好地适应小尺度人脸检测场景。
在此基础上,利用在线难例挖掘算法优化训练过程,采用软非极大值抑制方法解决漏检重叠人脸的问题,并在训练阶段通过多尺度训练提高模型的泛化能力。
实验结果表明,该模型在Wider Face 数据集上平均精度为89.0%,较原Faster-RCNN模型提升3.5%,在FDDB数据集上检出率也高达95.6%。
关键词:人脸检测;Faster-RCNN模型;多尺度融合;在线难例挖掘;软非极大值抑制开放科学(资源服务)标志码(OSID):中文引用格式:李祥兵,陈炼.基于改进Faster⁃RCNN的自然场景人脸检测[J].计算机工程,2021,47(1):210-216.英文引用格式:LI Xiangbing,CHEN Lian.Face detection in natural scene based on improved Faster-RCNN[J]. Computer Engineering,2021,47(1):210-216.Face Detection in Natural Scene Based on Improved Faster-RCNNLI Xiangbing,CHEN Lian(College of Information Engineering,Nanchang University,Nanchang330000,China)【Abstract】To realize accurate detection of small-scale faces in natural scene,this paper constructs an improved Faster-RCNN model.The model uses ResNet-50to extract convolution features,and performs multi-scale fusion for feature maps of different convolutional layers.At the same time,the number of Anchors generated by the Regional Proposal Network (RPN)has been changed from9to15to better adapt to the small-scale face detection scenes.On this basis,the Online Hard Example Mining(OHEM)algorithm is used to optimize the training process.Soft-Non-Maximum Suppression (Soft-NMS)method is used to reduce the missed detection of overlapping faces,and in the training phase the multi-scale training method is adopted to improve the generalization ability of the model.Experimental results show that the average precision of the proposed model is89.0%on the Wider Face dataset,which is3.5%higher than that of the original Fast-RCNN model.The relevance ratio of the proposed model reaches95.6%on the FDDB dataset.【Key words】face detection;Faster-RCNN model;multi-scale fusion;Online Hard Example Mining(OHEM);Soft-Non-Maximum Suppression(Soft-NMS)DOI:10.19678/j.issn.1000-3428.00567230概述人脸检测是计算机视觉领域的一个重要研究方向,其在实时监控、目标跟踪、安全验证等诸多场景中被广泛应用。
基于改进Faster -RCNN 的目标检测算法研究□闫新庆杨喻涵陆桂明华北水利水电大学信息工程学院T 互联网+技术In tern et Technology _______________________________________________________________【摘要】 目标检测是图像处理领域一个重要的研究方向,深度学习方法需要大量数据进行训练,训练的繁杂和复杂的网络结构限制了目标检测的速度。
本文基于Faster RCNN 的网络架构,创新性提出了丨ight tail Faster RCNN 网络架构。
light tail Faster RCNN 算法在保证精度的情况下,大大提升了处理速度。
在本文的设计中,通过将网络结构中的全连接层改为1*1的卷积层,来达到速度 的提升。
本文实验在PASCAL V 〇C 数据集上进行,较经典网络模型,在识别率略低的情况下,速率提升了一倍多。
在总体性能上显 著优于经典目标检测算法,通过对比实验的方法比较验证了本文提出方法的有效性。
【关键词】 目标检测 Faster RCNN 深度学习Abstract: Target detection is an important research direction in the field of image processing. Deep learning methods require a large amount of data for training, and the complex and complex network structure of training limits the speed of target detection. Based on the network architecture of Faster RCNN, this paper innovatively proposes the light tail Faster RCNN network architecture. The Light tail Faster RCNN algorithm greatly improves the processing speed while ensuring accuracy. In the design of this article, the speed is improved by changing the fully connected layer in the network structure to a 1 *1 convolutional layer. The experiment in this article is carried out on the PASCAL VOC data set. Compared with the classic network model, the speed is more than doubled when the recognition rate is slightly lower. The overall performance is significantly better than the classic target detection algorithm. The method comparison of the comparative experiment verifies the effectiveness of the method proposed in this paper.Keywords: Target detection ; Faster RCNN ; Deep learning引言目标检测与视频分析和图像理解有着密切的联系,近年来受到了广泛的关注。
基金项目:湖北省科技创新人才计划(编号:2023D J C O 68)作者简介:夏军勇(1976 ),男,湖北工业大学教授级高工,硕士生导师,博士.E Gm a i l :20171013@h b u t .e d u .c n收稿日期:2023G05G26㊀㊀改回日期:2023G10G21D O I :10.13652/j .s p j x .1003.5788.2023.80475[文章编号]1003G5788(2023)11G0131G06基于改进F a s t e rR GC N N 的食品包装缺陷检测F o o d p a c k a g i n g d e f e c t d e t e c t i o n b y i m pr o v e d n e t w o r km o d e l o f F a s t e r R GC N N 夏军勇X I AJ u n y o n g ㊀王康宇WA N G K a n g y u ㊀周宏娣Z H O U H o n gd i (湖北工业大学机械工程学院,湖北武汉㊀430068)(S c h o o l o f M e c h a n i c a lE n g i n e e r i n g ,H u b e iU n i v e r s i t y o f T e c h n o l o g y ,W u h a n ,H u b e i 430068,C h i n a )摘要:目的:对纸质包装盒缺陷进行准确的识别与定位.方法:应用改进F a s t e rR GC N N 的网络模型自动对包装盒缺陷进行检测.对训练集图片进行数据增强并添加噪声,提升模型的训练精度和鲁棒性;将特征提取网络替换为R e s N e t 50,并融合特征金字塔网络(F P N ),提高模型多尺度检测的能力;使用K Gm e a n s ++对数据集中缺陷尺度进行聚类,优化锚框方案.结果:改进后的F a s t e r R GC N N 模型在测试集上的平均准确率(A P )达到93.9%,检测速度达到8.65帧/s .结论:应用改进的F a s t e r R GC N N 模型能够有效检测出包装盒缺陷并定位,可应用于包装盒缺陷的自动检测与分拣.关键词:F a s t e rR GC N N ;R e s N e t 50;缺陷检测;特征金字塔A b s t r a c t :O b je c t i v e :A c c u r a t e i d e n t if i c a t i o na n d l o c a t i o no f p a p e r p a c k ag i n g b o xd e f e c t s .M e th o d s :T h ei m p r o v e dn e t w o r km o d e l o f F a s t e rR GC N N w a sa p p l i e dt oa u t o m a t i c a l l y de t e c tb o xd ef e c t s .T h e d a t a o f t h e t r a i n i ng s e t p i c t u r ew a s e nh a n c e da n dn oi s ew a s a d d e dt oi m p r o v et h et r a i n i n g a c c u r a c y a n dr o b u s t n e s so ft h e m o d e l .T h e f e a t u r e e x t r a c t i o n n e t w o r k w a s r e pl a c e d w i t h R e s N e t 50,a n d t h e f e a t u r e p y r a m i dn e t w o r k (F P N )w a s f u s e d t o i m p r o v e t h em u l t i Gs c a l e d e t e c t i o na b i l i t y of t h em o d e l .K Gm e a n s ++w a s u s e d t o c l u s t e r t h e d e f e c t s c a l e i n t h e d a t a s e t a n d o pt i m i z e t h e a n c h o r b o xs c h e m e .R e s u l t s :T h ea v e r a g ea c c u r a c y (A P )o f t h e i m p r o v e dF a s t e rR GC N N m o d e lo nt h et e s ts e tr e a c h e d93.9%,a n dt h e d e t e c t i o n s pe e d r e a c h e d 8.65f /s .C o n c l u s i o n :T h e i m p r o v e dF a s t e rR GC N N m o d e l c a ne f f e c t i v e l y d e t e c ta n dl o c a t e b o xd e f e c t s ,w h i c h c a nb e a p p l i e d t o t h e a u t o m a t i cd e t e c t i o na n d s o r t i ng of b o xd e f e c t s .K e yw o r d s :F a s t e rR GC N N ;R e s N e t 50;d e f e c td e t e c t i o n ;f e a t u r e p yr a m i dn e t w o r k (F P N )食品在生产过程中,外包装不可避免会出现部分缺陷[1],如撕裂㊁破损或破洞,这些缺陷会使包装丧失完整性,进而导致食品在运输和存储过程中被挤压㊁碰撞或摔落.传统的人工检测方法不仅效率低,还会出现漏检的情况[2].近年来,深度学习在工业中的应用越来越广泛,陈雪纯等[3]提出了一种改进M o b i l e n e t V 2的轻量化包装缺陷检测方法;李志诚等[4]基于改进的Y O L O v 3算法,提高了卷纸包装缺陷检测的准确率和速率;暴泰焚等[5]采用一种基于深度学习中语义分割任务的表面缺陷检测方法,实现了对纸质包装表面缺陷进行检测.目前,深度学习在缺陷检测方面应用较广,但也存在一些不足,如对包装盒缺陷进行分割检测的精度较低[5],无法满足工业使用要求;对中小目标检测效果较差[6],容易产生漏检等;一阶段目标检测模型[7]检测速度快,但检测精度受限;二阶段目标检测模型精度较一阶段目标检测模型高[8],但检测速度较慢.为实现对纸质包装盒缺陷进行准确的识别与定位,研究拟在检测精度较高的二阶段目标检测模型F a s t e rR GC N N [9]上进行改进,提出一种能够对纸质包装盒缺陷进行识别的模型.通过3个方面(R e s N e t 50网络[10]融合特征金字塔结构㊁双线性插值法和聚类)的改进提高模型的检测准确性,以期对食品纸质包装缺陷的检测研究提供参考.1㊀材料与方法1.1㊀数据预处理图片数据采集于某纸板生产厂,共包含1000张包装盒缺陷图片,图片格式为j p g,大小包括1080像素ˑ1440像素和1440像素ˑ1080像素两种,比例约为1ʒ1,使用l a b e l I m g 软件进行标注,标注的标签为V O C 格式.将数据集中的图片按照8ʒ2的比例随机划分,得到800张用于网络模型训练的图片和200张用于模型效果验证的图片,训练集图片与验证集图片没有交集.由于数据集较小,为了得到更好的训练效果,采用随机水平翻转以及垂直翻转对训练集图片进行数据增强处理[11].此F O O D &MA C H I N E R Y 第39卷第11期总第265期|2023年11月|外,为了增强模型的鲁棒性,对训练集图片随机添加高斯噪声[12].经过数据增强后的训练集图片为4000张,预处理后的图片如图1所示.图1㊀预处理后图片F i g u r e 1㊀P r e pr o c e s s e d p i c t u r e 1.2㊀网络模型的改进1.2.1㊀原始网络模型F a s t e rR GC N N㊀F a s tR GC N N 是二阶段目标检测模型中的经典,而F a s t e rR GC N N 是其改进版.F a s t e rR GC N N 模型分为4个主要部分:特征提取网络(卷积)㊁区域候选网络(r e g i o n p r o p o s a l n e t w o r k )㊁兴趣域池化层(R o I p o o l i n g)及分类与回归,其中R P N 网络预先产生大量候选框,使得F a s t e rR GC N N 相比于S S D [13]㊁Y O L O v 3[14]和Y O L O v 4[15]等一阶目标检测算法能够实现更好的检测精度[16-17].其工作原理:利用特征提取网络提取图像特征,将特征输入R P N 网络,R P N 网络根据预先设定的锚框尺度和比例,在特征图上生成一系列的建议框,经过NM S 极大值抑制后获取最终建议区域.将建议区域与图像特征融合后输入到R o I p o o l i n g 对建议区域进行池化,以便将尺寸不固定的特征图转变为固定的尺寸[18],用于后续的全连接层进行目标分类和边界框回归.F a s t e rR GC N N 模型结构如图2所示.图2㊀F a s t e rR GC N N 模型结构F i gu r e 2㊀F a s t e rR GC N Nn e t w o r ks t r u c t u r e 1.2.2㊀改进F a s t e rR GC N N 后的模型㊀图像特征图层次越浅,细节信息越丰富,语义信息越弱;图像特征图层次越深,细节信息越少,语义信息越强.为了更好地提取包装盒缺陷的特征,提高模型的泛化能力,选择使用更加深层次的特征提取网络,但是深层次的网络可能会造成梯度消失或梯度爆炸,并且产生网络退化.在R e s N e t 50网络中,引入B N 层(b a t c hn o r m a l i z a t i o n )解决梯度消失或梯度爆炸的问题,并且引入残差(r e s i d u a l )解决网络退化的问题.故采用层次较深且性能较好的R e s N e t 50替换F a s t e rR GC N N 中的特征提取网络,R e s N e t 50网络结构如图3所示.㊀㊀数据集中部分缺陷尺度较小,采用深层次的特征提取网络可能会造成信息丢失,影响模型的精度,F P N(f e a t u r e p y r a m i dn e tw or ks)网络中采用自下而上和自上图3㊀R e s N e t 50网络结构F i gu r e 3㊀R e s N e t 50n e t w o r ks t r u c t u r e 而下的结构对图片特征进行处理[19],使得包含小目标特征的尺度较大的特征层参与后续的预测与回归,提高模型的精度,F P N 网络结构如图4所示.为了进一步提高模型的性能,引入F P N 结构,将R e s N e t 50与F P N 进行融合,在提取更强语义信息的同时减少信息的丢失,图5为融合后的网络结构.㊀㊀使用Re s N e t 50+F PN 网络进行特征提取时,特征图尺寸对比原图缩小32倍,R o I p o o l i n g 经过两次浮点数取图4㊀F P N (f e a t u r e p y r a m i dn e t w o r k s )网络结构F i g u r e 4㊀F P N (f e a t u r e p yr a m i dn e t w o r k s )n e t w o r ks t r u c t u r e包装与设计P A C K A G I N G &D E S I G N 总第265期|2023年11月|图网络结构F i g u r e5㊀R e s N e t50+F P Nn e t w o r ks t r u c t u r e 整量化,会造成后续回归精确度下降.为了解决这一问题,M a s kRGC N N中使用了R o IA l i g n[20](图6),通过双线性插值法,保留浮点数,避免取整对精度带来的不良影响.在模型中引入R o IA l i g n结构,避免其精度下降.㊀㊀F a s t e rRGC N N中的锚框尺度与数据集不同,原始锚框比例为0.5,1.0,2.0,但数据集中标注框的尺度不一定与原始锚框相同,不合适的锚框尺度可能需要更多的训练迭代才能收敛,这样会增加训练时间和计算成本,而且锚框的尺度设置可能会影响模型对目标的敏感性,如果锚框的尺度过大或过小,可能会导致目标的漏检或误检.图6㊀R o IA l i g n F i g u r e6㊀R o IA l i g n 为了得到更加接近真实标注框的锚框尺度,选择使用KGm e a n s++对数据集中的标注框进行聚类,聚类后结果如图7所示,得到3个聚类中心(552,1113)㊁(352,337)㊁(1126,426),故将锚框比例由原始的0.5,1.0,2.0修改为0.49,1.0,2.6.㊀㊀改进后的网络模型如图8所示.1.2.3㊀损失函数㊀在模型训练过程中损失函数用来对模型进行评估和对参数进行优化,F a s t e rRGC N N网络结构中包含分类损失和回归损失,损失函数公式定义为:L({p i},{t i})=1Ncði L c(p i,p∗i)+λ1N rði p∗i L r(t i,t∗i),(1)式中:p i 第i个锚框预测为真实标签的概率;p∗i 正样本为1,负样本为0;t i 第i个锚框的边界框回归参数;t∗i 第i个锚框对应的真实框回归参数;N c 分类样本数;㊀㊀N r 回归样本数;㊀㊀L c 分类层损失;L r 回归层损失;图7㊀KGm e a n s++聚类结果F i g u r e7㊀KGm e a n s++c l u s t e r i n g r e s u l ts图8㊀改进后的网络模型F i g u r e8㊀I m p r o v e dn e t w o r km o d e l|V o l.39,N o.11夏军勇等:基于改进F a s t e rRGC N N的食品包装缺陷检测㊀㊀λ权重系数.分类损失公式定义为:L c (p i ,p ∗i )=-l g (p i p∗i +(1-p ∗i )(1-p i )).(2)㊀㊀回归损失公式定义为:L r (t i ,t ∗i )=ðis m oo t h L 1(t i -t ∗i ),(3)s m o o t h L 1(t i -t ∗i)=0.5(t i -t ∗i )2(|t i -t ∗i |<1)|t i -t ∗i|-0.5(|t i -t ∗i |ȡ1){.(4)1.3㊀试验方法及模型评估方法1.3.1㊀试验模型对比㊀为验证网络模型的有效性,将其与不同的目标检测网络进行对比.选取一阶段目标检测模型中的Y O L O v 3和Y O L O v 4作为对比对象,Y O L O v 3由于其速度快,适合在实时检测场景中使用,检测精度较高,对小目标也具有一定的检测能力,但是在复杂场景中检测精度可能会降低;Y O L O v 4在Y O L O v 3的基础上进行了改进,在复杂场景中的表现优于Y O L O v 3.研究所选二阶段目标检测模型F a s t e rR GC N N 在检测精度上有优势,但是检测速度较一阶段目标检测模型慢,对比使用V G G 16和R e s N e t 50作为特征提取网络的F a s t e rR GC N N 模型,由于R e s N e t 50网络层次较深,所以提取深层次特征信息能力较强,但检测速度稍慢;在R e s N e t 50网络中融入特征金字塔网络可以进一步提升其提取特征的能力,防止小目标特征信息丢失,提高模型的检测精度;使用K Gm e a n s ++对模型候选框尺度进行优化后,可以使建议框的尺度更加接近真实的区域,减少训练时间,并提高检测精度.1.3.2㊀试验方法及参数设置㊀对不同网络模型使用相同训练集与测试集,对比在测试集上的表现.所有模型训练环境为L i n u x 系统,训练框架为P y t o r c h ,版本为1.11.0,C U D A 版本为11.4.所有试验模型均使用迁移学习的方法进行训练,训练时b a t c hs i z e 设为4,训练30个e p o c h ,初始学习率设置为0.01,对学习率使用S G D 优化器进行优化(每经过3个e p o c h 学习率衰减为原来的0.33倍),其中动量(m o m e n t u m )设置为0.9,权重衰退(w e i gh t _d e c a y )参数设置为0.0001.经过多次试验后发现,F a s t e r R GC N N 系列模型R P N 中进行NM S 处理时使用的I o U (预测框与真实框重叠部分占两者集合区域的比例)阈值设置为0.7时能取得较好的效果.试验模型见表1.1.3.3㊀模型评估方法㊀目标检测算法的检测结果共4类:T P (正样本预测为正)㊁T N (负样本预测为负)㊁F P (负样本预测为正)㊁F N (正样本预测为负).为对比所提算法模型与其他算法模型的性能,采用精确率P (p r e c i s i o n )㊁分类召回率R (r e c a l l )㊁平均精度A P (a v e r a ge p r e c i s i o n )对模型性能进行评估[21].㊀㊀精确率计算公式如式(5),用于评估模型检测缺陷的准确性.表1㊀试验模型T a b l e 1㊀E x pe r i m e n t a lm o d e l s 模型模型框架特征提取网络A Y O L O v 3D a r k n e t 53B Y O L O v 4C S PD a r k n e t 53C F a s t e rR GC N N V G G 16D F a s t e rR GC N N R e s N e t 50EF a s t e rR GC N N+F P N R e s N e t 50FF a s t e rR GC N N+F P N+R o IA l i g n R e s N e t 50G F a s t e rR GC N N+F P N+R o IA l i gn +K Gm e a n s ++R e s N e t 50P =T PT P +F P ,(5)式中:P 精确率,%.召回率计算公式如式(6),用于评估模型找到缺陷正样本的能力.R =T PT P +F N ,(6)式中:R 精确率,%.平均精度计算:A P =ʏ10P d R ,(7)式中:A P 平均精度,%;P 准确率,%;R 召回率,%.2㊀结果与分析2.1㊀检测精度对比如表2所示,一阶段网络模型Y O L O v 3和Y O L O v 4在I o U 为0.5时的A P 值明显低于二阶段网络模型F a s t e rR GC N N .分别使用VG G 16和R e s N e t 50作为F a s t e rR GC N N 特征提取网络时,A P 值无明显差别,但是使用R e s N e t 50融合特征金字塔作为特征提取网络时,精度和召回率有明显的提升.进一步使用R o IA l i g n 后,I o U 为0.5时的A P 值对比只使用R e s N e t 50作为特征提取网络的模型提升了3.3个百分点,而I o U 为0.75时的A P 值提升了16.9个百分点,I o U 为0.5/0.95(预测框与真实框重叠部分占两者集合区域的比例从0.5以0.05的增量到0.95)的召回率提升了6.8个百分点.使用K Gm e a n s ++对锚框尺度进行修改后I o U 为0.5和I o U 为0.5/0.95时的A P 值进一步提高了0.5个百分点,I o U 为0.5/0.95的召回率提高了0.4个百分点,但是在I o U 为0.75时的A P 值反而下降了1.5个百分点.由结果分析包装与设计P A C K A G I N G &D E S I G N 总第265期|2023年11月|表2㊀缺陷A P 和召回率T a b l e 2㊀A Pa n d r e c a l l f o r d e f e c t模型A P 值/%I o U 为0.5I o U 为0.75I o U 为0.5/0.95召回率(I o U为0.5/0.95)A 79.352.248.00.552B 83.353.546.30.579C 89.554.651.40.602D 90.156.053.10.609E 93.171.261.20.671F93.472.961.60.677G 93.971.462.10.681可知,二阶段检测模型在检测精度上的表现更加出色,明显高于一阶段检测模型;使用R e s N e t 50+F P N 作为特征提取网络时模型精度和召回率均有明显提升,证明特征金字塔网络对小目标检测的有效性.2.2㊀训练损失结果对比图9为模型G 与模型F 训练时损失结果对比,可以看出,在同样的学习率下,初始训练时模型G 损失低于模型F ,证明使用K Gm e a n s ++对数据集进行聚类后得到的锚框尺度与真实标注框更加接近,对加快网络训练起到了积极的作用.图9㊀训练损失结果F i g u r e 9㊀T r a i n i n g lo s s r e s u l t s 2.3㊀检测速度对比如表3所示,模型G 检测速度为8.65帧/s,由于F a s t e rR GC N N 检测模型在进行目标预测时需要经历区分前景与背景和提取对应特征图上特征这两个阶段,而Y O L O 系列模型只需要一次性产生预测结果,所以Y O L O 系列的检测速度明显比F a s t e rR GC N N 系列模型高.2.4㊀模型预测结果利用训练好的网络模型对缺陷图片进行预测,预测结果包含预测框和置信度,分别表现模型的回归准确性和分类准确性.模型A 和模型B 预测结果见图10.使用V G G 16和使用R e s n e t 50作为F a s t e rR GC N N表3㊀检测速度对比T a b l e 3㊀C o m p a r i s o no f d e t e c t i o n s pe e d s 模型检测速度/(帧 s-1)A 22.70B 22.99C 9.19D 7.72E 7.70F7.89G 8.65图10㊀模型A 和B 预测结果F i gu r e 10㊀M o d e lAa n dB p r e d i c t e d r e s u l t s 模型的特征提取网络时,相比较于Y O L O v 3和Y O L O v 4,漏检情况有很大的提升,每个缺陷的置信度比较接近,均能够准确识别出缺陷.但是定位不够准确,某些框图尺度过大,与实际缺陷位置差别较大.模型C 和模型D 预测结果见图11.图11㊀模型C 和D 预测结果F i gu r e 11㊀M o d e l Ca n dD p r e d i c t e d r e s u l t s ㊀㊀使用特征金字塔结构后,缺陷检测的定位准确率对比模型D 有所提升,证明特征金字塔结构能够提升网络对包装盒缺陷的检测能力.模型E 预测结果见图12.㊀㊀对比模型F 和模型G 的预测结果可以看出,是否使用K Gm e a n s ++在检测精度上无明显的差别,但是使用|V o l .39,N o .11夏军勇等:基于改进F a s t e rR GC N N 的食品包装缺陷检测图12㊀模型E 预测结果F i gu r e 12㊀M o d e l E p r e d i c t e d r e s u l t s K Gm e a n s ++的模型G 在某些缺陷上生成的标注框比模型F 更加接近真实缺陷范围,由此可见,对数据集进行聚类对提升模型的回归精度有一定的帮助.模型F 和模型G 的预测结果见图13.图13㊀模型F 和G 预测结果F i gu r e 13㊀M o d e l Fa n dG p r e d i c t e d r e s u l t s 3㊀结论使用改进的F a s t e rR GC N N 网络模型对包装盒缺陷进行检测,改进后的模型在验证集上的平均准确率达到了93.9%,检测速度达到了8.65帧/s ,满足工业使用的需求.使用特征金字塔网络后的模型在精度和召回率上都有明显的提升,证明特征金字塔网络在小目标检测中的有效性,对数据集使用聚类之后,模型的训练速度以及回归精度都有所提升.虽然研究使用的模型在精度上的表现比较出色,但是在检测速度上还有提升的空间,一阶段目标检测模型的速度基本能够满足实时检测的需求,但是精度不高.因此,下一步需要研究的是如何在保证检测精度的同时提升检测速度.参考文献[1]李建明,杨挺,王惠栋.基于深度学习的工业自动化包装缺陷检测方法[J].包装工程,2020,41(7):175G184.LI J M,YANG T,WANG H D.Industrial automation packaging defect detection method based on deep learning [J ].Packaging Engineering,2020,41(7):175G184.[2]楚晗,王爱霞,高尊华,等.食品多层包装内包缺陷的问题分析及处理[J].包装工程,2019,40(15):200G205.CHU H,WANG A X,GAO Z H,et al.Analysis and treatment ofdefects in inner packaging of food multi Glayer package [J ].Packaging Engineering,2019,40(15):200G205.[3]陈雪纯,方宇伦,杜世昌,等.基于深度学习的包装缺陷快速检测方法[J].机械设计与研究,2021,37(6):165G169,178.CHEN X C,FANG Y L,DU S C,et al.Rapid packaging defect detection method based on deep learning [J].Machine Design &Research,2021,37(6):165G169,178.[4]李志诚,曾志强.基于改进YOLOv3的卷纸包装缺陷实时检测算法[J].中国造纸学报,2022,37(2):87G93.LI Z C,ZENG Z Q.Real Gtime defect detection algorithm for roll paper packaging based on improved YOLOv3[J].Transactions of China Pulp and Paper,2022,37(2):87G93.[5]暴泰焚,焦慧敏,张皓,等.基于语义分割的纸质包装产品表面缺陷检测[J].制造业自动化,2023,45(3):216G220.BAO T F,JIAO H M,ZHANG H,et al.Surface defect detection of paper packaging products based on semantic segmentation [J ].Manufacturing Automation,2023,45(3):216G220.[6]邓姗姗,黄慧,马燕.基于改进Faster R GCNN 的小目标检测算法[J].计算机工程与科学,2023,45(5):869G877.DENG S S,HUANG H,MA Y.A small object detection algorithm based on improved Faster R GCNN [J ].Computer Engineering &Science,2023,45(5):869G877.[7]朱豪,周顺勇,刘学,等.基于深度学习的单阶段目标检测算法综述[J].工业控制计算机,2023,36(4):101G103.ZHU H,ZHOU S Y ,LIU X,et al.Survey of single Gstage object detection algorithms based on deep learning [J].Industrial Control Computer,2023,36(4):101G103.[8]刘寅,夏舸,王强,等.基于Faster RCNN 的燃气轮机滑油管红外监测与识别[J].激光与红外,2023,53(4):544G550.LIU Y ,XIA G,WANG Q,et al.Infrared monitoring and identification of gas turbine oil pipe based on Faster RCNN [J].Laser &Infrared,2023,53(4):544G550.[9]REN S Q,HE K M,GIRSHICK R,et al.Faster R GCNN:Towards real Gtime object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137G1149.[10]HE K M,ZHANG X Y ,REN S Q,et al.Deep residual learning forimage recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2016:770G778.[11]BUSLAEV A,IGLOVIKOV V I,KHVEDCHENYA E,et al.Albumentations:Fast and flexible image augmentations [J ].Information,2020,11(2):125.[12]NAZARE T S,DA COSTA G B P,CONTATO W A,et al.Deepconvolutional neural networks and noisy images[C]//Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications:22ndIberoamericanCongress,CIARP2017,Valpara íso,Chile,November 7G10,2017,Proceedings 22.[S.l.]:Springer International Publishing,2018:416G424.(下转第151页)包装与设计P A C K A G I N G &D E S I G N 总第265期|2023年11月|白质结构变化的差异[J].现代食品科技,2021,37(5):160G168.YU X P,YUAN Y M,YE Y,et al.Differences of shrimp meat quality and protein structure changes under different heat treatment methods[J].Modern Food Science and Technology,2021, 37(5):160G168.[14]MAHSA M,MOLOUD N,REZA E,et al.Effect of thawing underan alternating magnetic field on rainbow trout(Oncorhynchus mykiss)fillet characteristics[J].Food Chemistry,2023, 402:134255.[15]张喜才.石斑鱼冷藏过程中品质评价㊁蛋白变化以及内源性蛋白酶作用机制研究[D].上海:上海海洋大学,2020.ZHANG X C.Quality evaluation,protein changes and action mechanism of endogenous protease in grouper during cold storage[D].Shanghai:Shanghai Ocean University,2020.[16]CHANADDA S,PANPRADUB S,KASARAT P,et al.Effects of βGalanine and LGhistidine supplementation on carnosine contents in and quality and secondary structure of proteins in slowGgrowing Korat chicken meat[J].Poultry Science,2022,101:101776. [17]王琳涵,乔凯娜,丁奇,等.不同煮制时间对鸡汤中呈味物质的影响[J].精细化工,2018,35(10):1683G1690.WANG L H,QIAO K N,DING Q,et al.Effect of different cooking time on flavoring substances in chicken soup[J].Fine Chemical Industry,2018,35(10):1683G1690.[18]熊大林,段亚飞,陈成勋,等.高温与氨氮复合胁迫对凡纳滨对虾渗透调节的影响[J].水产科学,2021,40(4):475G482.XIONG D L,DUAN Y F,CHEN C X,et al.Effects of combined stress of high temperature and ammonia nitrogen on osmoticregulation of Litopenaeus vannamei[J].Aquatic Sciences,2021,40 (4):475G482.[19]陈桂平.草鱼低温贮藏期间质构及风味物质变化研究[D].长沙:湖南农业大学,2014.CHEN G P.Study on texture and flavor changes of grass carp during cryogenic storage[D].Changsha:Hunan Agricultural University,2014.[20]林瑞榕,袁红飞,钟小清,等.不同熬制工艺对 佛跳墙 营养成分及风味物质的影响[J].食品科学,2023,44(4):240G246.LIN R R,YUAN H F,ZHONG X Q,et al.Effects of different cooking techniques on nutrient composition and flavor of"Fotiao Wall"[J].Food Science,2023,44(4):240G246.[21]REN S,LI P P,GENG Z M,et al.Lipolysis and lipid oxidation during processing of chinese traditional dryGcured white amur bream(Parabramis pekinensis)[J].Journal of Aquatic Food Product Technology,2017,26(6):719G730.[22]ZHAO D D,HU J,CHEN W X.Analysis of the relationship between microorganisms and flavour development in dryGcured grass carp by highGthroughput sequencing,volatile flavour analysis and metabolomics[J].Food Chemistry,2022,368:130889.[23]刘瑶,乔海军,贾志龙,等.气相色谱 离子迁移谱结合化学计量学分析成熟时间对牦牛乳干酪挥发性风味物质的影响[J].分析与检测,2022,48(17):265G272.LIU Y,QIAO H J,JIA Z L,et al.Effects of gas chromatographyGionGmigration spectrometry combined with stoichiometry on volatile flavor compounds of yak milk cheese[J].Analysis and Detection,2022,48(17):265G272.(上接第136页)[13]LIU W,ANGUELOV D,ERHAN D,et al.SSD:Single shot multibox detector[C]//Computer VisionGECCV2016:14th European Conference,Amsterdam,The Netherlands,October11G14,2016,Proceedings,Part I14.[S.l.]:Springer International Publishing,2016:21G37.[14]REDMON J,FARHADI A.YOLOv3:An incremental improvement[C]//IEEE Conference on Computer Vision and PatternRecognition.Piscataway:IEEE Press,2018:18040276.[15]BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:Optimal speed and accuracy of object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Press,2020:10934.[16]范加利,田少兵,黄葵,等.基于Faster RGCNN的航母舰面多尺度目标检测算法[J].系统工程与电子技术,2022,44(1):40G46. FAN J L,TIAN S B,HUANG K,et al.MultiGscale object target detection algorithm for aircraft carrier surface based on Faster RGCNN[J].Systems Engineering and Electronics,2022,44(1): 40G46.[17]王昊,查涛,乜灵梅,等.基于改进Faster RGCNN的隐形眼镜表面缺陷检测算法[J].激光与光电子学进展,2023,60(20):141G147.WANG H,ZHA T,NIE L M,et al.Contact lens surface defect detection algorithm based on improved Faster RGCNN[J].Laser& Optoelectronics Progress,2023,60(20):141G147. [18]常莉莉,王贤敏,王春胜.基于改进Faster RGCNN的码头自动识别[J].遥感学报,2022,26(4):752G765.CHANG L L,WANG X M,WANG C S.Automatic dock identification based on improved Faster RGCNN[J].National Remote Sensing Bulletin,2022,26(4):752G765.[19]XIE J,PANG Y W,PAN J,et plementary feature pyramidnetwork for object detection[J].Acm Transactions on Multimedia Computing Communications and Applications,2023,19(6):1G15.[20]HE K,GKIOXARI G,DOLLÁR P,et al.Mask RGCNN[C]//Proceedings of the IEEE International Conference on Computer Vision.Los Alamitos:IEEE Computer Society Press,2017:2980G2988.[21]张志凯,韩红章,赵雪芊,等.基于改进YOLOv3模型的软包装食品自动识别方法[J].食品与机械,2023,39(5):95G100.ZHANG Z K,HAN H Z,ZHAO X Q,et al.Automatic recognition method for soft packaged food based on improved YOLOv3model [J].Food&Machinery,2023,39(5):95G100.|V o l.39,N o.11段茹碧等:模拟物流运输条件下冻半干金鲳鱼品质和风味变化。
D O I :10.16601/j.c n k i.is s n l001-8743.2018.02.012 文章编号:l 〇〇l-8743(2018)02-〇068-06改进Faster R-CNN 的小目标检测赵庆北、元昌安1>2,覃晓2(1广西大学计算机与电子信息学院,广西南宁530004;2.广西师范学院,广西南宁530001)摘要:Faster R-CNN 是一种比较流行的目标检测方法,由于Faster R-CNN 对小目标的识别率较低,对候选 区域生成和分类阶段对象大小的变化对网络的性能影响进行了详细的研究。
另外,还研究了特征图的分辨率对这些阶段的影响。
对于小物体,anchor 的选择是非常重要的,引入了一种改进的方案用于生成候选区域建议,提供了根据期望的定位精度来选择anchor 的标准,并且使用了多尺度RPN(Region Proposal Network)和多尺度分类网 络。
用改进后的Faster R-CNN 在Flicker 数据集上进行了验证,证明它能够提高小目标检测的性能。
关键词:Faster R-CNN RPN 目标检测公司标志中图分类号:TP391.41 文献标识码:A 2018年6月广西师范学院学报(自然科学版) Jim .2018第 35 卷第 2 期 Journal of Guangxi Teachers Education University (Natural Science Edition ) Vol .35 No . 20引言Faster R -C N N 是一种比较流行的目标检测方法,它将候选区域生成、特征提取和分类整合到一个 深度网络架构中。
公司标志一般在图片中占比较小,本研究把Faster R -C N N 应用于公司标志检测的 任务。
Faster R -C N N 的目标检测流程是建立在深层神经网络的基础上,它的卷积层通过将之前学习的 卷积应用于图像的非线性激活函数来提取抽象特征表示。
在此过程中,中间特征图通常使用最大池化 多次下采样。
本文研究了不同层次的特征层次结构对于公司标识检测问题的适用性。
小对象实例需要 比大实例更精确的定位,因此,对图像进行上采样并重复检测。
w ang [1]等人在图像分类方面以前研究过低分辨率数据。
他们得出结论,低分辨率的分类问题并没 有随着网络体系结构的加深、滤波器的增多或滤波器的增大而得到提高[1]。
并没有讨论这种做法对目 标检测有什么样的影响。
B e ll 等人[2]在Fast -R C N N 下提出了对于小目标物体的检测问题[3]。
明确地 考虑了公司标识的检测问题,并注意到感受野、对象大小和检测性能之间的关系[2]。
应用skip-pooling 等技术提取不同尺度不同抽象特征层次的特征。
他们还考虑了递归网络中获得的上下文特征。
然而, 无论是[2]和[3]只考虑网络的分类阶段。
同时,他们并没有明确地分析快速Fast R -C N N 跨越多个特 征映射和尺度的行为。
针对上述问题,本文从理论上在候选阶段研究小对象的问题。
本文推导出一个 关系,它描述了可提取的最小目标尺寸,并提供了一种选择合适的anchor 的方法。
通过详细的实验,利 用不同特征层映射的特征,将候选和分类阶段的特征作为对象大小的函数。
结果表明,对于小目标来 说,来自浅层的性能能够提供与深层的功能性能相当甚至超过深层的性能。
在最新的FlickrLogos 数 据集[4]上来评估本研究的方法。
1使用Faster R -CNN 的小目标检测当前目标检测网络通常包括两个阶段:目前检测网络的第一步就是从图像中识别ROIS (Regi 〇n of 收稿日期:2018-03-10*基金项目:国家自然科学基金资助项目(61363037)第一作者:赵庆北(1990—),男,山东聊城人,硕士生,图像处理方向.通讯作者:覃晓(1973 —),女(毛南族),副教授,研究方向:人工智能,图像处理.第2期赵庆北,等:改进Faster R-C N N的小目标检测• 69 •in te re s ts)。
这些R O I作为一个关注模型,并提出在第二阶段更为仔细地检查潜在对象位置。
在实验中,使用F a ste r R-C N N[5]的方法重新实现。
F a ste r R-C N N通过一系列的学习卷积提取图像的特征表示。
这个特征映射形成了对象候选阶段和分类阶段的基础。
第一步是由一个R P N完成,该网络通过在输入图像上生成具有指定大小和宽高比的a n c h o r开始。
对于每个anchor,作为完全卷积网络的R P N预测一个分数,该分数是包含感兴趣对象的该anchor 的概率的度量。
此外,R P N预测每个anchor的两个偏移量和比例因子,它们是精简对象位置的边界框回归机制的一部分。
这些anchor通过分数进行排序并进行非最大抑制,最佳得分anchor作为结果送到网络的第二阶段的对象建议。
在训练的时候,anchor被分为正面和负面的例子,这取决于它们与实例的重叠。
I〇U(intersection over uion)是评估定位准确率的标准。
通常,如果anchor与真实对象的Io U大于0.5,则认为是一个正例子。
Ren等人[5]使用侧面长度为2的幕的anchor,以128个像素开始。
这样的anchor选择在V〇C2007[6]等数据集上表现很好,其中对象通常相对较大,并且占总图像面积的相当大的比例。
此 外,[5]还动态地重新缩放输入图像以放大对象。
对于公司标志检测中输入图像的放大通常是不可行的。
与图像的平均边长(通常为大约1 〇〇〇像素)相比,平均物体尺寸相当小。
128长度的anchor不足以覆盖对象尺寸的范围。
为了解决这个问题,可以使用[5]的二进制方案简单地添加额外的anchor。
然而,这 种方案不适用于小物体,因为它可能无法生成具有足够重叠的anchor集。
为了说明这个问题,考虑了 图l a的情况:假设边长为sg的逼近边界框Bg和边长为sa的anchor Ba。
并且,两侧长度通过的比例因子相关。
在这些条件下,在不改变Io U的情况下可以将Bg移动到B a的任何地方(见图1)。
SgS a图1(a)IOU可以表示为在纵横比相等的对齐边框的情况下边界区域的比例(b)当使用步幅d采样anchor时,两个相等尺寸的边界框的最差情况位移在这种情况下,可以将I〇U表示为这些框包围的区域之间的比率:I心n|521t<:IoU(Bg9B a)=\------------^=+=4CD要求Io U超过一定的阈值t才能将anchor分类为正例。
因此,对于1,anchor不能覆盖足够的重叠,被归为一个正面的例子。
非二次anchor的相同关系是适用的。
因此,相邻尺度&和^的anchor 的边长应该与心1有关。
假设存在一个位置,在该位置anchor 的拐角与真实情况完全一致。
原始图像和特征图之间的下采样因子有效地导致具有步幅d的anchor网格。
为了检查特征图分辨率对R P N识别小对象实例的影响,考虑图l b中的情况。
假设真实实例存在具有相同尺度和宽高比的anchor。
在最坏的情况下,这两个anchor彼此相隔一定距离^■。
这些anchor之间的Io U可以表示为:•70 •广西师范学院学报(自然科学版)第35卷I o U(B g,B a)(^-春)2(2)在假设d>〇且〇<i<l时求解(<I〇U(B g,B a)为忽略该二次表达式的负解,对于最小可检测物体尺寸,得到以下关系:d i t +1) -\- d ^2t{t +1) ^,、2^2t〜Sg⑶对于作为Faster R-CNN d = 16为基础的VGG16[8]架构。
假设f= 0.5,转换成最小可检测对象大小S~〜44p x。
这表明,对于尺寸分布的小端,需要更高分辨率的特征图。
对于C〇nv4特征图W=8),最小可检测物体大小由&〜22p x给出。
因为不希望用于分类的对象小于30p x,所以使用两个最小anchor 中较小的幂作为最小anchor尺寸。
基于之前的结果,遵循[5]的推荐并设定0.5,所以 ,选择an-chor集 A = 32,45,64,90,128,181,256。
1.1 小目标的候选区域选择要评估不同对象大小的R P N的有效性。
而R P N有效性的主要标准是平均最佳重叠MABO (mean average best overlap)。
它测量R P N为每个具有高重叠度的对象生成至少一个候选区域的能力。
如果C代表一组对象类,G,是特定类,e£C,并且L代表一组对象提议真实框对象的集合,可以通过其平均最佳重叠ABO(ABO(c))来评估特定类的R P N的性能,其中Z,式子如下:A B O(e) =-----2m a x I o l K g,Z)(4)|G e |geo,其中是真实项目g和建议1之间的交集。
M A B O是对每个对象类的所有A B O值的平均值。
为了检查对象大小对R P N性能的影响,通过对每个图像应用以下算法来创建F lic k r L〇g〇s[4]数据集的不同的变体:首先选择两个非重叠的真实边界框之间具有最大距离的点。
这一点定义了将图像分割成四个部分的两个轴,并确保分割的轴不与任何其他基准项相交。
如果没有找到这样的分割,则丢弃图像。
对于包含多个真实项目的每个结果分区,该过程将被递归地应用。
应用此算法后,每个图像只包含一个对象实例,然后将其重新缩放以匹配所需的目标大小。
使用这个算法创建了测试集的11个不同比例的版本,称之为Fte s t,其中:^6{10^+20卜=0,〜,10}表示以对象区域的平方根测量的目标对象大小。
此外,本研究创建一个单一的训练数据集Ftain,其中对象被缩放,使得对象区域均匀地分布在间隔[20p x,120px]中。
为了观察R P N在不同层的性能,基于[5]使用的VGG16架构m,创建了三个RPN。
这些网络分别使用c o n v3,c o n v4和c o n v5层的特征来预测对象提案。
这些特征通过归一化层,其将标准化为具有零均值和单位方差的值。
这与批量归一化相似[8]。
然而,将 对培训集的激活归一化,而不是像[8]中的当前批次。
这样做可以轻松使用现有的Imagenet [8]预训练的V G G16网络。
那些预先训练的模型通常具有当数据通过网络进行时,激活的方差从一层到另一层逐渐减小的属性。
例如,添加不同深度的附加分支将导致每个分支中的不同比例的激活,这反过来导致每个分支中的有效学习率不同。
这种规范化方案规避了这个问题。
在这个特征规范化之上,放置一个标准的R P N,它由使用与前一层相同数量的通道的3X3卷积组成。