目标跟踪Siamese+RPN
- 格式:pptx
- 大小:3.23 MB
- 文档页数:22
siamrpn++ 各个模块详解1. 背景介绍siamrpn++ 是一种基于目标跟踪的算法,它结合了孪生网络(Siamese Network)和RPN(Region Proposal Network)的特点,具有较高的准确性和鲁棒性。
该算法在目标跟踪领域取得了显著的成果,受到了学术界和工业界的关注,成为目标跟踪领域的研究热点之一。
2. Siamese Network 模块Siamese Network 是 siamrpn++ 算法的核心模块之一,它采用孪生结构来对输入的目标图像进行特征提取和相似度计算。
Siamese Network 由两个完全相同的子网络组成,每个子网络都包含多个卷积层、池化层和全连接层,用于提取输入图像的特征。
通过共享权重和参数,两个子网络能够同时处理输入图像,然后计算它们之间的相似度得分。
3. RPN 模块RPN 模块是 siamrpn++ 算法的另一个重要组成部分,它负责生成候选的目标区域并进行位置精细化的调整。
RPN 模块通常采用锚框(Anchor Box)的方式来提取候选区域,并通过分类和回归网络来对候选区域进行进一步处理。
在 siamrpn++ 算法中,RPN 模块与Siamese Network 结合,能够实现对目标的准确跟踪,尤其在复杂背景和目标遮挡的情况下表现出较高的鲁棒性。
4. 对比分析对比分析模块是 siamrpn++ 算法的关键部分之一,它用于计算目标的相似度得分,帮助系统判断当前帧的目标是否与上一帧的目标匹配。
对比分析模块通常会采用余弦相似度或相关性滤波器来进行相似度的计算,以确定目标的匹配程度。
通过对比分析模块的引入,siamrpn++ 算法能够在目标跟踪过程中有效地识别目标,提高跟踪的准确性和稳定性。
5. 总结siamrpn++ 算法是一种基于目标跟踪的先进算法,它融合了Siamese Network、RPN 和对比分析等模块的特点,具有较高的准确性、鲁棒性和实时性。
第37卷第2期2021年2月福建电脑Journal of F ujian ComputerVol.37 No.2Feb.2021孪生网络目标跟踪算法程栋栋1吕宗旺1祝玉华2\河南工业大学信息科学与工程学院河南郑州450000)2(黄河水利职业技术学院河南开封475004)摘要在计算机视觉领域中,卷积神经网络发挥着越来越重要的作用。
在海量数据的驱动下,深度学习表现出了比传统方 法更为优越的特征表达能力。
基于孪生网络的目标跟踪算法由于准确性和实时性等优点,相关研宄受到越来越多的重视。
本 文首先阐述了计算机视觉的研宄意义,着重介绍了几种基于孪生网络的目标跟踪算法,最后总结了这些算法的优点以及未来 的研宄方向。
关键词深度学习;孪生网络;目标跟踪中图法分类号 TP391 D0I:10.16707/ki.fjpc.2021.02.026Target Tracking Algorithms Based on Siamese NetworkCHENG Dongdong1,LV Zongwang1,ZHU Yuhua21(School of Information Science and Engineering,Henan University of Technology,Zhengzhou,China,450000)2(Yellow River Water Conservancy Vocational and Technical College,Kaifeng,China,475004)1引言计算机视觉的研究工作与人类现代化的生产生活密不可分,相关技术可以应用在智能视频监控、工厂自动化生产、无人驾驶等方面[1]。
对于目 标跟踪的研究是计算机视觉领域的一个重要方向。
通常情况下,目标跟踪被定义为在一个连续的视频序列中,得到指定物体的位移信息,从而描绘出该物体的位移轨迹,并对其位移数据进行分析,最终达到理解物体运动行为的目的[2]。
单⽬标跟踪单⽬标跟踪单⽬标跟踪任务介绍对于⼀段视频序列,在视频开始时,给定跟踪⽬标的位置,通过设计算法得到后续帧中⽬标的位置和尺度信息。
只关注⼀个⽬标,并且可以跟踪任意类别的⽬标,⽆类别限制挑战:跟踪过程中,⽬标和环境可能会出现各种不同的变化,⽐如遮挡、光照变化、⾮刚性形变、背景杂乱等情况后续算法的设计就是为了解决各种的挑战,提升跟踪算法的性能和鲁棒性单⽬标跟踪数据集发展史数据集是算法训练与评估的基础。
单⽬标跟踪领域有丰富的数据库资源2013年之前,跟踪算法使⽤⾃⼰采集的若⼲段序列进⾏评估2013年,第⼀个Benchmark OTB50的出现,Tracking发展进⼊加速期,使得⽬标跟踪的评估更加规范2015年,扩展OTB50,得到OTB1002018年,⼤规模短时跟踪数据集TrackingNet和长时跟踪数据集OxUvA诞⽣2019年,(⼤规模长时跟踪数据集)LaSOT和(⽬标类别极其丰富的短时跟踪数据集)GOT-10K等⼤规模跟踪数据集的出现,针对⽬标跟踪产⽣的训练集使得跟踪算法的性能进⼀步提升。
2018年起,他们的视频数量可以达到千⾄万的规模,图⽚数量可以达到百万甚⾄千万的规模与此同时,2013年起,VOT组委会开始举办⼀年⼀届的⽬标跟踪⼤赛,场景逐渐丰富。
2017年设置了实时赛道,2018年设置了长时赛道,2019年设置了多模态RGBD&RGBT赛道,促进了跟踪朝着⾼鲁棒性的⽅向发展评估指标算法被初始化后不再对算法修正,如果算法跟踪错误,可能会导致后续帧全部失败,主要的评估⽅式有两种,1. One Pass Evaluation(OPE)One Pass Evaluation采⽤Success和Precision进⾏评估。
Success反映预测⽬标框的⼤⼩和尺度的准确性,Precision反映中⼼位置误差2. VOT系列EAO(Expect Average Overlap) 综合精度A和鲁棒性R的指标单⽬标跟踪代表算法⽬标跟踪历史悠久,发展历史波澜壮阔,将发展历程分为以下四个阶段:2015年之前,⽬标跟踪还处于探索阶段,期间出现了基于均值偏移、粒⼦滤波、⼦空间学习、分块表⽰、稀疏表⽰等框架的算法,派系众多,百家争鸣。
前沿研究领域的跟踪算法推演前言跟踪算法是计算机视觉和机器人领域中的重要研究课题,其作用是在视频或图像序列中识别和追踪目标,为人工智能、自动驾驶等应用提供支持。
随着深度学习技术的发展,跟踪算法也不断更新换代,涌现出了一些前沿研究领域的算法。
本文将重点介绍最新的跟踪算法,并对其优缺点进行分析和比较。
第一章:基于深度学习的跟踪算法1.1 基于卷积神经网络(CNN)的跟踪算法CNN是深度学习中最为常用的网络结构之一,它能够自动从数据中学习到特征表示,因此得到了广泛的应用。
在跟踪领域,利用CNN进行目标的特征提取和分类已成为一种主流的方法。
其中,Siamese网络和RPN-FCN(Region Proposal Networks - Fully Convolutional Networks)网络是两个较为典型的应用。
Siamese网络的工作原理是在训练阶段,构造出成对的样本对(一个是目标区域,一个是非目标区域),通过计算两个输入样本之间的相似度来分类,同时生成目标区域的特征表示。
在测试阶段,给定初始帧中的目标区域,通过滑动窗口的方式逐帧追踪目标。
Siamese网络具有良好的鲁棒性和在复杂场景中的适用性,并且训练速度快,因此较为受到欢迎。
RPN-FCN网络是一种基于Faster R-CNN网络的改进版本,它能够同时完成目标的定位和分类。
该网络首先将输入图像进行特征提取,然后通过生成一组候选区域 proposal,并对这些区域进行分类和回归来确定目标的位置。
该算法能够高效地检测多个目标,并且对于目标具有不变性,因此具有很高的实际应用价值。
1.2 基于循环神经网络(RNN)的跟踪算法RNN是另一种经典的神经网络结构,它具有很强的“记忆”能力,能够对序列数据进行自然的建模。
因此在时间序列数据的处理中被广泛应用,例如文本和语音处理等领域。
在跟踪领域中,RNN也被应用于建立跟踪器的状态模型,通过对历史帧的特征进行编码和解码来预测目标的位置,从而提高跟踪的精度和鲁棒性。
收稿日期:2022-05-09基金项目:国家自然科学基金资助项目(61773108).作者简介:郑㊀艳(1963-)ꎬ女ꎬ辽宁沈阳人ꎬ东北大学副教授ꎬ博士.第44卷第9期2023年9月东北大学学报(自然科学版)JournalofNortheasternUniversity(NaturalScience)Vol.44ꎬNo.9Sep.2023㊀doi:10.12068/j.issn.1005-3026.2023.09.002基于SiamBAN跟踪器改进的目标跟踪算法郑㊀艳ꎬ赵佳旭ꎬ边㊀杰(东北大学信息科学与工程学院ꎬ辽宁沈阳㊀110819)摘㊀㊀㊀要:孪生网络系列的跟踪器基于相似度匹配的方法来实现目标跟踪ꎬ当遇到相似干扰物时会发生跟踪漂移现象ꎬ从而导致跟踪失败.针对这个问题ꎬ以SiamBAN跟踪器为研究基础ꎬ提出了一种改进算法.主要改进包括:在训练阶段ꎬ加入中心回归分支来降低远离目标中心的边界框分数ꎬ同时引入FocalLoss损失函数ꎬ在推理阶段设计了全新的筛选策略ꎬ来区分要跟踪的目标和相似干扰物.改进后的算法在OTB100测试集的成功率和精度相比于原来分别提高了2 1%和3%ꎬ在GOT10k的测试集上成功率比原来提高了2 1%.关㊀键㊀词:目标跟踪ꎻSiamBANꎻ孪生网络ꎻ干扰物感知ꎻ神经网络中图分类号:TP391㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1005-3026(2023)09-1227-07ImprovedObjectTrackingAlgorithmBasedonSiamBANTrackerZHENGYanꎬZHAOJia ̄xuꎬBIANJie(SchoolofInformationScience&EngineeringꎬNortheasternUniversityꎬShenyang110819ꎬChina.Correspondingauthor:ZHAOJia ̄xuꎬE ̄mail:1927069009@qq.com)Abstract:Thesiamesenetworkseriestrackerutilizesthesimilaritymatchingmethodforobjecttrackingꎬbuttrackingdriftcanoccurwhensimilardistractorsareencounteredꎬleadingtotrackingfailure.TosolvethisproblemꎬbasedontheresearchofSiamBANtrackerꎬanimprovedalgorithmisproposed.MajorimprovementsincludetheadditionofacenternessbranchduringtrainingtoreduceboundingboxscoresfarfromtheobjectcenterꎬtheintroductionoftheFocalLossfunctionꎬandanewscreeningstrategyduringinferencetodifferentiatethetargetfromsimilardistractors.Comparedwiththeoriginalꎬthesuccessplotandprecisionplotoftheimprovedalgorithmareincreasedby2 1%and3%respectivelyontheOTB100testsetꎬandthesuccessplotis2 1%higherthantheoriginalontheGOT10ktestset.Keywords:objecttrackingꎻSiamBANꎻsiamesenetworkꎻdistractorawareꎻneuralnetwork㊀㊀目标跟踪(本文所述的目标跟踪是指单目标跟踪)一直是计算机视觉领域里一个非常活跃的研究方向ꎬ它需要根据给定序列初始帧的目标状态来预测后续每一帧的目标状态ꎬ通常用一个边界框来表示[1].目标跟踪在视频监控㊁人机交互以及自动驾驶等诸多领域都有着广泛的应用[2].近几年ꎬ基于孪生网络的跟踪器由于在精度和速度方面良好的平衡表现ꎬ受到了广泛关注.最初ꎬSiamFC[3]首先引入结合相关层的特征映射ꎬ但由于其只进行了目标和背景分类ꎬ采用多尺度测试来改变边界框尺度ꎬ并不能处理由目标变化引起的边界框宽高比变化ꎬ所以生成的边界框并不紧密.为得到更精确的目标边界框ꎬSiamRPN[4-5]引入了目标检测方法中的区域提议网络ꎬ虽然它可以处理边界框尺度和宽高比的变化ꎬ但同时引入了锚框相关的参数ꎬ这些参数需要仔细的设计和调整来实现良好的性能ꎬ而且锚框与目标之间的模糊匹配严重阻碍了跟踪器的鲁棒性.目标检测领域中CornerNet[6]ꎬFCOS[7]等以每像素预测的方式来实现目标检测ꎬ直接预测目标存在的可能性和边界盒坐标.受这些无锚检测㊀㊀器的启发ꎬ一些基于孪生网络的无锚跟踪器被设计出来ꎬ比如SiamFC++[8]ꎬSiamBAN[9]和SiamCAR[10]等.它们的整体网络结构非常相似ꎬ都是由用于特征提取的孪生网络和区域提议子网络两部分组成.不同的是ꎬSiamBAN对提取特征的后三层进行了融合ꎬ从而可以更好地捕获目标的细粒度信息来精确定位目标ꎬ以及编码抽象的语义信息来健壮地应对目标外观变化ꎬ这也是相对于上述另外两种无锚跟踪器ꎬ本文选用SiamBAN跟踪器作为研究基础的主要原因.与那些简单背景不同ꎬ相似干扰物是具有语义信息的背景ꎬ比如跟踪目标是一个特定的人ꎬ在目标周围出现的其他人就是相似干扰物.具有相似干扰物影响的场景在日常生活中很常见ꎬ所以解决这个问题非常具有实际意义ꎬ本文通过对SiamBAN进行改进ꎬ并设计一种新的策略ꎬ来解决相似干扰物影响问题ꎬ进一步提升了SiamBAN的跟踪性能.1㊀相关研究工作基于孪生网络的跟踪器无法有效应对具有相似干扰物的场景ꎬ主要原因在于这种相似度匹配的方法不能区分需要跟踪的目标和相似干扰物.因为当相似干扰物与目标距离很近或者发生交互时ꎬ在分类得分图上相似干扰物的最终得分很可能会超过目标的得分ꎬ导致跟踪漂移到相似干扰物身上ꎬ进而造成跟踪失败.针对上述的问题ꎬ本文以SiamBAN为基础对其进行改进ꎬ主要包括以下几方面:1)为了提高SiamBAN识别目标和相似干扰物的能力ꎬ在训练阶段使用FocalLoss[11]替代原来分类分支的交叉熵损失函数.FocalLoss可以提高模型解决正样本和负样本㊁简单样本和困难样本不平衡的能力.这里所述的困难样本就是具有语义的背景ꎬ即相似干扰物.2)训练阶段ꎬ在分类分支中加入中心质量分支.中心质量分支首先由FCOS提出ꎬ它能够降低远离目标中心的低质量边界框的分数.3)在推理阶段ꎬ保留目标在当前帧之前相邻几帧的运动状态ꎬ并根据目标的运动具有连续㊁渐变以及平滑性ꎬ设计了一种筛选策略来区分目标和相似干扰物.2㊀改进算法的设计与实现2 1㊀SiamBAN算法框架SiamBAN跟踪器的网络结构由孪生骨干网络和多个自适应头两部分组成.骨干网络对模板分支和搜索分支的输入图片进行特征提取ꎬ自适应头内部结构如图1所示ꎬC3/C4/C5表示采用提取特征中的Conv3ꎬConv4ꎬConv5多层特征进行融合ꎬ 表示深度互相关操作.SiamBAN整体网络框架如图2所示ꎬ输出头包括分类和回归两部分ꎬ如图2中最右侧的分类和回归所示ꎬ分类部分需要输出两个通道的得分图进行前景和背景分类ꎬ回归部分需要输出4个通道的得分图进行边界框预测ꎬLꎬTꎬRꎬB表示分类部分预测的点到边界框4条边的距离.每个部分使用深度互相关层组合特征映射:Pcls=[φ(x)]cls∗[φ(z)]clsꎬPreg=[φ(x)]reg∗[φ(z)]reg.}(1)其中:x和z分别是搜索分支和模板分支的输入ꎻφ函数表示特征提取操作ꎻ∗表示互相关操作ꎻ[φ(z)]cls和[φ(z)]reg分别是分类部分和回归部分模板分支的特征ꎻ[φ(x)]cls和[φ(x)]reg分别是分类部分和回归部分搜索分支的特征ꎻPcls是分类得分图ꎻPreg是回归得分图.图1㊀Head内部结构Fig 1㊀Headinternalstructure图2㊀SiamBANFig 2㊀NetworkstructureofSiamBANtracker8221东北大学学报(自然科学版)㊀㊀㊀第44卷㊀㊀2 2㊀引入FocalLoss损失函数损失函数是机器学习里一个最为关键的要素ꎬ它可帮助模型学习如何能更好地达到预期目的.在目标跟踪任务中ꎬ把需要跟踪的目标视为正样本ꎬ其他背景视为负样本ꎬ可以将分类任务视为简单的二分类问题.相对于庞大的背景而言ꎬ目标所占的比例非常小ꎬ正样本和负样本之间存在着极大的不平衡问题.对于使跟踪器发生错误判断的目标ꎬ即相似干扰物ꎬ称之为困难样本ꎬ相反能够被跟踪器容易判断的目标称之为简单样本ꎬ困难样本蕴含着具有极大价值的信息ꎬ能够增强跟踪器的判别能力ꎬ相对于简单样本而言所占比例却非常小ꎬ它们之间同样存在着极大的不平衡问题.针对上述问题ꎬ为了提高模型对目标和相似干扰物的识别能力ꎬ引入FocalLoss损失函数.首先定义二分类交叉熵损失函数:CE(pꎬy)=-log(p)ꎬy=1ꎻ-log(1-p)ꎬyʂ1.{(2)其中:yɪ{-1ꎬ+1}是类别标签ꎻpɪ[0ꎬ1]是模型对带有标签y=1类别的估计概率.定义如下的pt:pt=pꎬy=1ꎻ1-pꎬyʂ1.{(3)pt的范围为0~1ꎬ代入式(2)得CE(pꎬy)=CE(pt)=-log(pt).(4)为解决正负样本不平衡的问题ꎬ在式(4)中每个类别前增加一个权重因子αɪ[0ꎬ1]来协调正负样本的平衡ꎬ得损失函数为CE(pt)=-αtlog(pt).(5)其中αt定义为αt=αꎬy=1ꎻ1-αꎬyʂ1.{(6)易分类简单样本的分类错误损失占了整体损失的绝大部分ꎬ并主导了损失函数的梯度ꎬ为了降低易分类简单样本的权重ꎬ并且使模型聚焦于困难样本的训练ꎬ在上面基础上增加了一个调节因子(1-pt)γꎬ可调聚焦参数γȡ0ꎬ最终采取的FocalLoss形式如下:FL(pt)=-αt(1-pt)γlog(pt).(7)根据文献[7]ꎬ本文选择γ=2ꎬα=0 25.2 3㊀添加中心质量分支SiamBAN跟踪器是无锚框的ꎬ它采取逐像素预测的方式来回归边界框ꎬ在分类得分图中找到最大得分位置ꎬ并将这个位置映射回原图像中的位置作为目标的参考点ꎬ再结合回归得分图预测的四维向量(lꎬtꎬrꎬb)来确定包围目标的边界框.但是远离目标中心的位置往往会预测产生低质量的边界框ꎬ这降低了跟踪系统的性能.为了抑制这些低质量的边界框ꎬ本文在分类分支并行地添加了一个中心回归分支ꎬ如图2中右侧中间的标志所示.每个位置的回归目标用l∗ꎬt∗ꎬr∗和b∗表示ꎬ中心回归定义为[7]centerness∗=min(l∗ꎬr∗)max(l∗ꎬr∗)ˑmin(t∗ꎬb∗)max(t∗ꎬb∗).(8)它描述了从每一个位置到目标中心的归一化距离ꎬ范围是从0到1ꎬ如图3所示ꎬ越靠近物体中心的点l∗和r∗的值以及t∗和b∗的值越接近ꎬ它越大ꎬ反之则越小.SiamBAN在回归部分的最后应用了exp(x)将任何实数映射到了(0ꎬ+ɕ)ꎬ所以不必担心出现负数的问题.图3㊀中心回归示意图Fig 3㊀Centernessschematic改进后ꎬ训练阶段的损失函数由下面几部分组成:Lcls=-1Nposðxꎬy-α(1-pxꎬy)γlog(pxꎬy)ꎬgtxꎬy=1ꎻ-(1-α)pγxꎬylog(1-pxꎬy)ꎬ其他.{(9)㊀㊀Lcenterness=-1Nposðxꎬyqxꎬy log(q∗xꎬy)+[㊀㊀(1-qxꎬy) log(1-q∗xꎬy)].(10)Lreg=-1NposðxꎬyLIoU(txꎬyꎬt∗xꎬy).(11)其中:Npos表示正样本的总数ꎻLcls表示分类损失ꎻpxꎬy表示分类部分的输出ꎻα和γ是FocalLoss的超参数ꎻgtxꎬy为真值标签ꎻLcenterness表示中心回归损失ꎻqxꎬy为中心回归的标签ꎬ正样本的qxꎬy由式(8)计算ꎬ负样本的qxꎬy为0ꎻq∗xꎬy为中心回归分支的输出ꎻLreg为回归损失ꎻLIoU=1-IoU为IoU损失ꎻtxꎬy为回归标签ꎻt∗xꎬy为回归部分的输出.总损失函数如下:L=Lcls+λ1Lcenterness+λ2Lreg.(12)9221第9期㊀㊀㊀郑㊀艳等:基于SiamBAN跟踪器改进的目标跟踪算法㊀㊀其中:λ1和λ2为权重占比ꎬ训练阶段时选取λ1=1和λ2=3.2 4㊀设计区分目标与相似干扰物策略受DaSiamRPN[12]启发ꎬ本文通过对最终的得分图利用非极大值抑制ꎬ来找到可能目标ꎬ可能目标中包括真正目标和相似干扰物.本文抛弃了原来对得分图的余弦窗惩罚ꎬ因为它抑制掉了距离搜索区域中心较远的目标ꎬ这不利于找全可能目标.记{(x1ꎬy1)ꎬ(x2ꎬy2)ꎬ ꎬ(xnꎬyn)}表示连续n帧的目标中心坐标ꎬ如图4中的带箭头点所示ꎬ向量lt=(xt-xt-1ꎬyt-yt-1)ꎬ㊀t=2ꎬ ꎬn表示目标在相邻两帧之间的运动状态ꎻ(xin+1ꎬyin+1)ꎬi=1ꎬ2ꎬ3ꎬ ꎬ表示当前帧可能目标的中心坐标ꎬi为可能目标的个数ꎬ例如ꎬ图4中点O1和O2可以用(x1n+1ꎬy1n+1)和(x2n+1ꎬy2n+1)表示ꎬ它们都是通过非极大值抑制得到的ꎻ图4中点Oᶄ表示上一帧预测目标的中心坐标ꎬ可以用(xnꎬyn)表示.把目标在连续n帧内的平均运动状态定义为L=1n-1ðni=2(xi-xi-1ꎬyi-yi-1)=㊀1n-1(xn-x1ꎬyn-y1).(13)图4㊀区分策略示意图Fig 4㊀Differentiationstrategydiagram㊀㊀如图4中虚线上的黑色箭头所示ꎬ把当前帧所有可能目标的运动状态定义为Li=(xin+1-xnꎬyin+1-yn)ꎬ㊀i=1ꎬ2ꎬ(14)㊀㊀然后用当前帧所有可能目标的运动状态Li去匹配目标的平均运动状态Lꎬ定义如下匹配得分:scorei=μ1 Li LL 2-1+μ2Li L -1=㊀㊀μ1 Li cosθi- L L +㊀㊀μ2Li - LL.(15)其中:μ1和μ2是权重参数ꎬ来调整两项的占比ꎬ实验时选取μ1=0 5和μ2=0 5ꎻθi是Li与L的夹角.式(15)中第一项计算的是Li在L上的投影与 L 的差异ꎬ为目标运动状态中矢量平均速度的匹配ꎬLi与L越接近相等ꎬ则匹配程度越高ꎻ第二项计算的是 Li 与 L 的差异ꎬ为目标运动状态中标量平均速度的匹配ꎬ这样就可以排除 Li 和θi同时很大但在 L 上的投影与之差异很小的情况.第一项和第二项的分母 L 是为了把这两项归一化到同一尺度下ꎬ以防止其中一项占主导地位.式(15)表明ꎬLi与L夹角越小ꎬ Li 与L 越接近ꎬ则该可能目标的运动越符合真正目标的运动趋势ꎬ就是需要跟踪的目标ꎬ而相似干扰物只是在某些帧凭空出现ꎬ它并不符合目标在连续n帧的运动趋势.跟踪过程中不仅有目标的刚性运动ꎬ而且还有相机的刚性运动ꎬ但是目标在连续几帧内的运动依然是连续的㊁渐变的ꎬ并且有着它自己的运动趋势ꎬ如图5所示ꎬ其中连续的点表示连续帧内的目标中心坐标ꎬ可以看出图5中的目标与白色球衣的球员发生相对运动ꎬ在这个过程中目标的运动趋势是向右的ꎬ白色球衣的球员相对于目标而言运动方向向左ꎬ根据式(15)ꎬ他不是真正的目标.图5㊀目标运动趋势示意图Fig 5㊀Schematicdiagramoftargetmovementtrend0321东北大学学报(自然科学版)㊀㊀㊀第44卷㊀㊀3㊀实验研究3 1㊀实施细节训练阶段:用于特征提取的骨干网络采用ResNet-50结构ꎬ先在ImageNet[13]数据集上预训练ꎬ然后整体训练过程中骨干网络用预训练的权值初始化ꎬ并冻结前两层的参数.总共训练20个epoch.根据以往的经验ꎬ初始学习率选取0 01~0 001为宜ꎬ随着训练的进行学习率应不断衰减ꎬ接近训练结束时学习率的衰减应该在100倍以上ꎬ所以前5个epoch学习率从0 001到0 005预热ꎬ后15个epoch的学习率指数衰减为0 005到0 00005.在前10个epoch中ꎬ只训练Head部分ꎬ在后10个epoch中ꎬ以当前十分之一的学习速率对骨干网落进行微调ꎬ权重衰减和动量分别设为0 0001和0 9.推理阶段:将分类得分图与中心质量分数相乘作为最终的得分图ꎬ如图6所示ꎬ得分图中的两座峰分别表示两个不同目标的信息ꎬ但两座峰覆盖的范围很大ꎬ很多点是冗余的ꎬ一个目标只需要一个点来表示ꎬ并且两座峰的峰值点应该就是目标的中心点ꎬ是表示目标质量最高的点.所以先拿出得分图分数最大的点ꎬ并将其乘以0 75作为得分阈值ꎬ如图6中阈值指示的平面所示ꎬ对得分高于这个平面的所有点采用非极大值抑制ꎬ两个峰的峰值点就会被保留下来ꎬ然后将保留下来的点用式(15)来计算ꎬ选取最小scorei对应的点作为分类预测结果ꎬ结合对应的回归向量ꎬ得到预测的边界框.图6㊀目标在3D得分图上的体现Fig 6㊀Representationofgoalsona3Dscoremap3 2㊀与改进前算法对比改进前的效果如图7a所示ꎬ改进后的效果如图7b所示ꎬ可以看到算法改进后成功跟住目标而没有发生漂移.为了公平起见ꎬ本文的所有测试都是在带有NvidiaRTX2080TiGPU云端服务器上进行的ꎬ在OTB100基准测试数据集改进前后的对比如图8所示ꎬSiamBAN_imp表示改进后的结果ꎬSiamBAN_ori表示原来的结果ꎬ从图8中可以看出改进后的算法成功率提高了2 1%ꎬ精度提高图7㊀算法改进前后的效果对比Fig 7㊀Comparisonoftheeffectbeforeandafterthealgorithmimprovement(a) 算法改进前ꎻ(b) 算法改进后.1321第9期㊀㊀㊀郑㊀艳等:基于SiamBAN跟踪器改进的目标跟踪算法㊀㊀了3%.除此之外ꎬ为了进一步了解改进效果ꎬ本文还在GOT10k[14]基准测试数据集上进行了消融实验ꎬ如表1所示ꎬ表中的数字都乘了100%.在加入中心质量分支和FocalLoss损失后的改进效果不明显ꎬ这是因为原来的算法在得分图上进行了余弦窗惩罚ꎬ直接选取惩罚后得分最大的点作为分类部分预测的结果ꎬ仍然会受到相似干扰物的影响.当把余弦窗惩罚去除ꎬ再引入区分策略ꎬ这时成功率比之前提高了2 1%.3 3㊀与先进跟踪器对比本文在OTB100和GOT10k基准测试数据集与ATOM[15]ꎬECO[16]等先进跟踪器进行了对比ꎬ图9是在OTB100基准测试数据集上进行的ꎬ无论在成功率还是精度方面ꎬ改进后的算法都获得了出色的表现.图10是在GOT10k基准测试数据集上进行的对比ꎬ与OTB100相比ꎬGOT10k中视频场景更加复杂ꎬ难度更大ꎬ但改进后的算法依然获得了良好的表现.图8㊀在OTB100上的精度和成功率Fig 8㊀SuccessplotandprecisionplotonOTB100(a) 精度对比ꎻ(b) 成功率对比.表1㊀在GOT10k基准上的消融实验Table1㊀AblationexperimentsontheGOT10kbenchmark改进算法及指标AOSR0 50SR0 75原算法52 060 638 3中心质量分支52 160 838 7中心质量分支+FocalLoss52 560 837 9中心质量分支+FocalLoss+区分策略54 164 0392图9㊀OTB100上多算法的精度与成功率对比Fig 9㊀ComparisonofsuccessplotandprecisionplotofmultiplealgorithmsonOTB100(a) 精度对比ꎻ(b) 成功率对比.2321东北大学学报(自然科学版)㊀㊀㊀第44卷㊀㊀图10㊀GOT10k上的成功率Fig 10㊀SuccessplotonGOT10k4㊀结㊀㊀语本文针对孪生网络跟踪器在相似干扰物的影响下容易发生跟踪漂移的问题ꎬ在SiamBAN跟踪器基础上进行改进ꎬ并设计了一种有效的解决策略.与原来只选取得分最大点作为预测目标的方法不同ꎬ本文先找到所有可能目标ꎬ然后利用设计的区分策略确定最终的预测目标ꎬ这样做可以使模型提高鲁棒性.该区分策略不仅可以应用于SiamBANꎬ还可以应用于其他基于孪生网络的跟踪器ꎬ这相当于一个全新并且通用的后处理方法.参考文献:[1]㊀孟琭ꎬ杨旭.目标跟踪算法综述[J].自动化学报ꎬ2019ꎬ45(7):1244-1260.(MengLuꎬYangXu.Asurveyofobjecttrackingalgorithms[J].JournalofAutomationꎬ2019ꎬ45(7):1244-1260.)[2]㊀王红涛ꎬ邓淼磊ꎬ赵文君ꎬ等.基于深度学习的单目标跟踪算法综述[J].计算机系统应用ꎬ2022ꎬ31(5):40-51.(WangHong ̄taoꎬDengMiao ̄leiꎬZhaoWen ̄junꎬetal.Asurveyofsingleobjecttrackingalgorithmsbasedondeeplearning[J].ComputerSystemsandApplicationsꎬ2022ꎬ31(5):40-51)[3]㊀BertinettoLꎬValmadreJꎬHenriquesJFꎬetal.Fully ̄convolutionalsiamesenetworksforobjecttracking[C]//EuropeanConferenceonComputerVision.Cham:Springerꎬ2016:850-865.[4]㊀LiBꎬYanJꎬWuWꎬetal.Highperformancevisualtrackingwithsiameseregionproposalnetwork[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCityꎬ2018:8971-8980.[5]㊀LiBꎬWuWꎬWangQꎬetal.SiamRPN++:evolutionofsiamesevisualtrackingwithverydeepnetworks[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.LongBeachꎬ2019:4282-4291.[6]㊀LawHꎬDengJ.CornerNet:detectingobjectsaspairedkeypoints[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).Munichꎬ2018:734-750.[7]㊀TianZꎬShenCHꎬChenHꎬetal.FCOS:fullyconvolutionalone ̄stageobjectdetection[C]//ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.Seoulꎬ2019:9627-9636.[8]㊀XuYꎬWangZꎬLiZꎬetal.SiamFC++:towardsrobustandaccurateVisualtrackingwithtargetestimationguidelines[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.NewYorkꎬ2020ꎬ34(7):12549-12556.[9]㊀ChenZꎬZhongBꎬLiGꎬetal.Siameseboxadaptivenetworkforvisualtracking[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.Seattleꎬ2020:6668-6677.[10]GuoDꎬWangJꎬCuiYꎬetal.SiamCAR:siamesefullyconvolutionalclassificationandregressionforvisualtracking[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.Seattleꎬ2020:6269-6277.[11]LinTYꎬGoyalPꎬGirshickRꎬetal.FocalLossfordenseobjectdetection[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.Veniceꎬ2017:2980-2988.[12]ZhuZꎬWangQꎬLiBꎬetal.Distractor ̄awaresiamesenetworksforvisualobjecttracking[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).Munichꎬ2018:101-117.[13]RussakovskyOꎬDengJꎬSuHꎬetal.ImageNetlargescalevisualrecognitionchallenge[J].InternationalJournalofComputerVisionꎬ2015ꎬ115(3):211-252.[14]HuangLꎬZhaoXꎬHuangK.GOT ̄10k:alargehigh ̄diversitybenchmarkforgenericobjecttrackinginthewild[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2019ꎬ43(5):1562-1577.[15]DanelljanMꎬBhatGꎬKhanFSꎬetal.ATOM:accuratetrackingbyoverlapmaximization[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.LongBeachꎬ2019:4660-4669.[16]DanelljanMꎬBhatGꎬKhanFSꎬetal.ECO:efficientconvolutionoperatorsfortracking[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Honoluluꎬ2017:6638-6646.3321第9期㊀㊀㊀郑㊀艳等:基于SiamBAN跟踪器改进的目标跟踪算法。
基于深度学习的目标跟踪算法研究一、引言目标跟踪是计算机视觉领域的一个热门课题,其主要任务是在视频中跟踪特定的目标,并输出其轨迹或其他相关信息。
在实际应用中,目标跟踪涉及到很多复杂的问题,如目标形变、目标丢失等,因此需要采用一定的算法对其进行处理。
近年来,随着深度学习的发展,基于深度学习的目标跟踪算法也逐渐受到广泛关注。
本文将对目前常见的基于深度学习的目标跟踪算法进行介绍和分析。
二、目标跟踪算法概述目标跟踪算法可以分为传统的基于特征提取的算法和基于深度学习的算法两大类。
传统的基于特征提取的算法主要利用目标的一些特征信息,如颜色、纹理等进行特征提取和匹配,具有较低的计算复杂度。
而基于深度学习的算法主要利用卷积神经网络深度学习模型来学习目标的特征,并以此进行目标跟踪,具有更高的准确率和鲁棒性。
三、基于深度学习的目标跟踪算法1. Siamese Network跟踪算法Siamese Network跟踪算法是一种基于模板匹配的算法,其思想是通过学习相似性度量函数,将模板图像与待跟踪图像中的目标进行匹配。
该算法的主要优势在于对目标姿态变化和尺度变化具有很好的适应性,可以实现实时跟踪,适用于一些追求速度和精度的实际应用场景。
2. MDNet跟踪算法MDNet跟踪算法是一种基于多层卷积网络和循环神经网络的跟踪算法,其主要思想是通过一个由多个卷积神经网络和一个循环神经网络组成的网络,对目标的位置和姿态进行学习和预测,并对跟踪结果进行反馈。
该算法具有较高的鲁棒性和准确率,能够实现长时间的跟踪,适用于一些需要精度和鲁棒性的应用场景。
3. SiamRPN跟踪算法SiamRPN跟踪算法是一种基于区域建议网络的跟踪算法,其主要思想是通过一个卷积神经网络,对目标所在的区域进行拟合,并预测在下一帧中目标所在的位置和姿态。
该算法具有较高的准确率和实时性,适用于一些需要精度和速度兼顾的应用场景。
四、总结与展望基于深度学习的目标跟踪算法已经成为当今计算机视觉领域的一个热门研究方向,不断涌现出一些新的算法和方法。
目标追踪算法目标追踪算法是计算机视觉领域中的一种重要技术,用于在视频序列中跟踪特定目标的位置和运动。
目标追踪算法在很多实际应用中都有重要的作用,比如视频监控、无人驾驶、人机交互等领域。
目标追踪算法通常包括以下几个关键步骤:目标检测、目标跟踪和目标状态更新。
目标检测是指在视频序列中找到感兴趣的目标,并确定它们的位置和形状。
目前常用的目标检测算法包括基于特征的方法(比如Haar特征,HOG特征等)和基于深度学习的方法(比如卷积神经网络)。
这些算法可以通过训练模型来学习目标的外观特征,并在视频序列中寻找与模型匹配的目标。
目标跟踪是指在目标检测的基础上,通过时间序列的信息来估计目标在视频序列中的位置和运动。
常用的目标跟踪算法包括基于颜色特征的方法(比如MeanShift算法),基于纹理特征的方法(比如Correlation Filters算法)和基于深度学习的方法(比如Siamese网络)。
这些算法可以通过不断更新目标的位置和形状来实现目标的跟踪。
目标状态更新是指根据目标的跟踪结果,更新目标的状态信息,比如目标的位置、速度和运动方向等。
常用的目标状态更新算法包括卡尔曼滤波和粒子滤波。
这些算法可以通过利用目标的先验信息和观测信息来估计目标的状态,并预测目标的未来位置和运动。
除了上述这些基本步骤,目标追踪算法还可以根据具体应用需求进行进一步的改进和优化。
比如,可以考虑目标的形变、遮挡、姿态变化和多目标跟踪等问题。
同时,目标追踪算法也可以与其他计算机视觉任务相结合,比如目标识别、目标分类和目标分割等。
总之,目标追踪算法是计算机视觉领域中的一个重要研究方向,它的发展对于实现自动化、智能化的视觉系统具有重要意义。
不断改进和优化目标追踪算法,将有助于实现更加准确、鲁棒和高效的目标追踪技术,推动计算机视觉技术在各个应用领域的广泛应用。
基于卡尔曼滤波的SiamRPN目标跟踪方法作者:张子龙王永雄来源:《智能计算机与应用》2020年第03期摘要:基于深度学习的视觉跟踪方法在多个基准数据库上取得了很好的跟踪性能,特别是基于Siamese框架的目标跟踪方法取得了突破性的进展。
为了提高跟踪效果,有效解决跟踪过程中干扰和遮挡问题,本文提出了一种基于卡尔曼滤波的SiamRPN(Siamese+RPN)目标跟踪方法。
首先,利用训练好的SiamRPN跟踪算法和卡尔曼滤波跟踪模型分别对目标物体进行跟踪,得到2种跟踪算法跟踪结果的置信度,然后,基于置信度加权融合模型得到最后的跟踪框。
卡尔曼滤波器可预测目标在一定遮挡干扰等情况下的位置,SiamRPN算法利用区域候选网络RPN将每一帧的跟踪转换为一次局部检测任务,快速准确地得到跟踪框的位置和尺度,提出的算法避免了使用常规的低效费时的多尺度自适应方法,融合了2种优秀跟踪算法的优点,不仅跟踪速度较快,而且抗干扰和遮挡能力明显提高。
在经典数据库上的实验验证了提出的算法明显提高了目标运动较快、干扰较强和有遮挡情况下的跟踪效果,在速度没有明显下降的前提下,成功率和精度等多个性能指标均有较大的提升。
关键词:目标跟踪; 卡尔曼滤波; 孪生网络; 加权融合【Abstract】The visual learning method based on deep learning has achieved good tracking performance on multiple benchmark databases. Especially, the object tracking method based on Siamese framework is a breakthrough. In order to improve the tracking effect and solve effectively the interference and occlusion problems in tracking, a SiamRPN (Siamese+RPN) object tracking method based on Kalman filtering is proposed. Firstly, the trained SiamRPN tracking algorithm and the Kalman filter tracking model are used to track the object respectively, and the confidence of the results of the two tracking algorithms is obtained. Then, the final tracking frame is obtained based on the confidence weighted fusion model. The Kalman filter can predict the position of the object under certain occlusion interference. The regional candidate network RPN in SiamRPN algorithm is used to convert the tracking of each frame into a local detection task, and obtain the position and scale of the tracking frame both quickly and accurately. The conventional inefficient and time-consuming multi-scale test and online fine-tuning is abandoned. The new method includes the advantages of two excellent tracking algorithms. Thus, not only the tracking speed is fast, but also the anti-interference and occlusion capabilities are significantly improved. Experimental results on the classical database verify that the proposed algorithm significantly improves the tracking effect in the condition of fast object motion, strong interference and occlusion. The performances such as success rate and accuracy are greatly achieved without decreasing the tracking speed obviously.【Key words】 ;object tracking; Kalman filter; SiamRPN network; weighted fusion;0 引言视觉目标跟踪是最近几年计算机视觉领域的主要研究方向之一,也是计算机视觉分析、自动驾驶和姿态估计等领域的一个基本问题。
第 39 卷第 4 期2024 年 4 月Vol.39 No.4Apr. 2024液晶与显示Chinese Journal of Liquid Crystals and Displays基于主干增强和特征重排的反无人机目标跟踪郑滨汐*,杨志钢,丁钰峰(哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨 150001)摘要:视频图像中面向无人机的目标跟踪是反无人机任务中的重要一环。
无人机低空飞行背景复杂,同时在视频图像中目标像素占比较小,都给目标跟踪增加了难度。
针对以上问题,以SiamRPN++为基础,提出了一种引入改进的主干网络和特征重排的孪生神经网络目标跟踪算法(SiamAU)。
首先,在主干网络中加入ECA-Net注意力机制网络,同时对激活函数进行改进,以提升复杂背景下的特征表征能力;然后,对主干网络输出的浅层特征进行浅层降维并与后三层深层特征进行融合,得到更适合无人机等小目标跟踪的改进深度融合特征。
在DUT Anti-UAV数据集上,SiamAU算法的成功率和精确率达到了60.5%和88.1%,相比基准算法提升了5.6%和8.1%。
在两个公开数据集上的测试结果表明,在反无人机场景中SiamAU算法的跟踪表现优于目前主流的算法。
关键词:反无人机;目标跟踪;孪生网络;注意力机制;特征重排中图分类号:TP391 文献标识码:A doi:10.37188/CJLCD.2023-0150Anti-UAV object tracking with enhanced backbone andfeature rearrangementZHENG Binxi*,YANG Zhigang,DING Yufeng(College of Information and Communication Engineering, Harbin Engineering University,Harbin 150001, China)Abstract:Object tracking for the unmanned aerial vehicle (UAV)in videos is an important part of the Anti-UAV task.The complex background during low-altitude flight and the small imaging size are two difficulties for UAV object tracking.A Siamese neural network object tracking algorithm (SiamAU)is proposed,which is based on SiamRPN++ in combination with an improved backbone and a feature rearrangement technique.Firstly,ECA-Net attention module is integrated into the backbone network,while the activation function is improved to enhance the representation ability of convolution features in complex background. Then, channel number of the last three convolution features is rearranged in order to make full use of low-level features that are conducive for small object tracking. The rearranged feathers are further fused to obtain the improved feature map.Finally,On the DUT Anti-UAV dataset,SiamAU algorithm achieves success and precession scores of 60.5% and 88.1%,an improvement of 5.6% and 文章编号:1007-2780(2024)04-0532-11收稿日期:2023-04-21;修订日期:2023-05-05.基金项目:航空科学基金(No.201801P6002);中央高校基本科研业务费(No.3072022CF0802)Supported by Aeronautical Science Foundation of China(No.201801P6002);Fundamental Research Fundsfor the Central Universities(No.3072022CF0802)*通信联系人,E-mail:914016304@第 4 期郑滨汐,等:基于主干增强和特征重排的反无人机目标跟踪8.1% in comparison with the baseline algorithm.Extensive experimental results on two public datasets validate that the proposed SiamAU achieves better UAV tracking performance and outperforms previous methods, especially in small object and complex background scenarios.Key words: Anti-UAV; object tracking; siamese network; attention mechanism; feature rearrangement1 引言近年来,小型无人机在各行各业都得到了广泛的应用,与此同时也给低空安全带来了巨大的隐患。
使用AI技术进行视频目标跟踪的基本工具介绍一、介绍视频目标跟踪是通过计算机视觉和人工智能技术,对视频中的目标进行持续跟踪和定位的过程。
近年来,随着深度学习和神经网络的快速发展,使用AI技术进行视频目标跟踪已经取得了巨大突破。
本文将介绍几款常用的基础工具,它们在实现视频目标跟踪方面具有重要作用。
二、OpenCVOpenCV(开源计算机视觉库)是一个广泛应用于计算机视觉领域的开源软件库。
它提供了丰富的图像和视频处理函数以及各种特征提取算法。
在视频目标跟踪中,OpenCV可以用于读取视频流,并采用各种常见的图像特征检测器(如Haar 特征或HOG特征)进行目标定位。
三、YOLOv3YOLOv3是一种快速而准确的对象检测模型,通常应用于实时场景分析和物体识别任务中。
由于其高效率,YOLOv3也被广泛运用于视频目标跟踪领域。
该模型通过将图像划分为不同的网格单元,对每个单元进行目标分类和边界框回归。
YOLOv3能够实现在视频中实时地准确跟踪多个目标。
四、Deep SORTDeep SORT是一种基于深度学习的视频目标跟踪算法,它结合了卷积神经网络和外观特征描述符的优势。
Deep SORT主要包含两个阶段:首先通过卷积神经网络提取帧的特征表示,然后采用余弦相似度计算来匹配已知目标并预测新出现的目标。
与传统的SORT方法相比,Deep SORT具有更好的鲁棒性和准确性。
五、SiameseRPNSiameseRPN是一种基于孪生网络结构和区域缩放机制的视频目标跟踪算法。
该模型通过训练一个全卷积神经网络,在不同尺度下提取特征,并利用孪生网络构建区域候选框及其对应网络特征图之间的关系。
SiameseRPN能够在复杂背景和光照变化等困难条件下准确跟踪目标,并且具备实时性能。
六、相关应用领域视频目标跟踪技术在许多领域有着广泛的应用。
其中,在智能监控系统中,视频目标跟踪可以帮助实时检测犯罪行为、追踪漏洞以及提高安全性。
此外,该技术还可以应用于自动驾驶车辆中,辅助车辆感知和行为预测。