目标跟踪Siamese+RPN

格式：pptx
大小：3.23 MB
文档页数：22

下载文档原格式

/ 22

siamrpn++ 各个模块详解

siamrpn++ 各个模块详解1. 背景介绍siamrpn++ 是一种基于目标跟踪的算法，它结合了孪生网络（Siamese Network）和RPN（Region Proposal Network）的特点，具有较高的准确性和鲁棒性。

该算法在目标跟踪领域取得了显著的成果，受到了学术界和工业界的关注，成为目标跟踪领域的研究热点之一。

2. Siamese Network 模块Siamese Network 是 siamrpn++ 算法的核心模块之一，它采用孪生结构来对输入的目标图像进行特征提取和相似度计算。

Siamese Network 由两个完全相同的子网络组成，每个子网络都包含多个卷积层、池化层和全连接层，用于提取输入图像的特征。

通过共享权重和参数，两个子网络能够同时处理输入图像，然后计算它们之间的相似度得分。

3. RPN 模块RPN 模块是 siamrpn++ 算法的另一个重要组成部分，它负责生成候选的目标区域并进行位置精细化的调整。

RPN 模块通常采用锚框（Anchor Box）的方式来提取候选区域，并通过分类和回归网络来对候选区域进行进一步处理。

在 siamrpn++ 算法中，RPN 模块与Siamese Network 结合，能够实现对目标的准确跟踪，尤其在复杂背景和目标遮挡的情况下表现出较高的鲁棒性。

4. 对比分析对比分析模块是 siamrpn++ 算法的关键部分之一，它用于计算目标的相似度得分，帮助系统判断当前帧的目标是否与上一帧的目标匹配。

对比分析模块通常会采用余弦相似度或相关性滤波器来进行相似度的计算，以确定目标的匹配程度。

通过对比分析模块的引入，siamrpn++ 算法能够在目标跟踪过程中有效地识别目标，提高跟踪的准确性和稳定性。

5. 总结siamrpn++ 算法是一种基于目标跟踪的先进算法，它融合了Siamese Network、RPN 和对比分析等模块的特点，具有较高的准确性、鲁棒性和实时性。

孪生网络目标跟踪算法

第37卷第2期2021年2月福建电脑Journal of F ujian ComputerVol.37 No.2Feb.2021孪生网络目标跟踪算法程栋栋1吕宗旺1祝玉华2\河南工业大学信息科学与工程学院河南郑州450000)2(黄河水利职业技术学院河南开封475004)摘要在计算机视觉领域中，卷积神经网络发挥着越来越重要的作用。

在海量数据的驱动下，深度学习表现出了比传统方法更为优越的特征表达能力。

基于孪生网络的目标跟踪算法由于准确性和实时性等优点，相关研宄受到越来越多的重视。

本文首先阐述了计算机视觉的研宄意义，着重介绍了几种基于孪生网络的目标跟踪算法，最后总结了这些算法的优点以及未来的研宄方向。

关键词深度学习；孪生网络；目标跟踪中图法分类号 TP391 D0I:10.16707/ki.fjpc.2021.02.026Target Tracking Algorithms Based on Siamese NetworkCHENG Dongdong1,LV Zongwang1,ZHU Yuhua21(School of Information Science and Engineering,Henan University of Technology,Zhengzhou,China,450000)2(Yellow River Water Conservancy Vocational and Technical College,Kaifeng,China,475004)1引言计算机视觉的研究工作与人类现代化的生产生活密不可分，相关技术可以应用在智能视频监控、工厂自动化生产、无人驾驶等方面[1]。

对于目标跟踪的研究是计算机视觉领域的一个重要方向。

通常情况下，目标跟踪被定义为在一个连续的视频序列中，得到指定物体的位移信息，从而描绘出该物体的位移轨迹，并对其位移数据进行分析，最终达到理解物体运动行为的目的[2]。

单目标跟踪——精选推荐

单⽬标跟踪单⽬标跟踪单⽬标跟踪任务介绍对于⼀段视频序列，在视频开始时，给定跟踪⽬标的位置，通过设计算法得到后续帧中⽬标的位置和尺度信息。

只关注⼀个⽬标，并且可以跟踪任意类别的⽬标，⽆类别限制挑战：跟踪过程中，⽬标和环境可能会出现各种不同的变化，⽐如遮挡、光照变化、⾮刚性形变、背景杂乱等情况后续算法的设计就是为了解决各种的挑战，提升跟踪算法的性能和鲁棒性单⽬标跟踪数据集发展史数据集是算法训练与评估的基础。

单⽬标跟踪领域有丰富的数据库资源2013年之前，跟踪算法使⽤⾃⼰采集的若⼲段序列进⾏评估2013年，第⼀个Benchmark OTB50的出现，Tracking发展进⼊加速期，使得⽬标跟踪的评估更加规范2015年，扩展OTB50，得到OTB1002018年，⼤规模短时跟踪数据集TrackingNet和长时跟踪数据集OxUvA诞⽣2019年，(⼤规模长时跟踪数据集)LaSOT和(⽬标类别极其丰富的短时跟踪数据集)GOT-10K等⼤规模跟踪数据集的出现，针对⽬标跟踪产⽣的训练集使得跟踪算法的性能进⼀步提升。

2018年起，他们的视频数量可以达到千⾄万的规模，图⽚数量可以达到百万甚⾄千万的规模与此同时，2013年起，VOT组委会开始举办⼀年⼀届的⽬标跟踪⼤赛，场景逐渐丰富。

2017年设置了实时赛道，2018年设置了长时赛道，2019年设置了多模态RGBD&RGBT赛道，促进了跟踪朝着⾼鲁棒性的⽅向发展评估指标算法被初始化后不再对算法修正，如果算法跟踪错误，可能会导致后续帧全部失败，主要的评估⽅式有两种，1. One Pass Evaluation(OPE)One Pass Evaluation采⽤Success和Precision进⾏评估。

Success反映预测⽬标框的⼤⼩和尺度的准确性，Precision反映中⼼位置误差2. VOT系列EAO(Expect Average Overlap) 综合精度A和鲁棒性R的指标单⽬标跟踪代表算法⽬标跟踪历史悠久，发展历史波澜壮阔，将发展历程分为以下四个阶段：2015年之前，⽬标跟踪还处于探索阶段，期间出现了基于均值偏移、粒⼦滤波、⼦空间学习、分块表⽰、稀疏表⽰等框架的算法，派系众多，百家争鸣。

前沿研究领域的跟踪算法推演

前沿研究领域的跟踪算法推演前言跟踪算法是计算机视觉和机器人领域中的重要研究课题，其作用是在视频或图像序列中识别和追踪目标，为人工智能、自动驾驶等应用提供支持。

随着深度学习技术的发展，跟踪算法也不断更新换代，涌现出了一些前沿研究领域的算法。

本文将重点介绍最新的跟踪算法，并对其优缺点进行分析和比较。

第一章：基于深度学习的跟踪算法1.1 基于卷积神经网络（CNN）的跟踪算法CNN是深度学习中最为常用的网络结构之一，它能够自动从数据中学习到特征表示，因此得到了广泛的应用。

在跟踪领域，利用CNN进行目标的特征提取和分类已成为一种主流的方法。

其中，Siamese网络和RPN-FCN（Region Proposal Networks - Fully Convolutional Networks）网络是两个较为典型的应用。

Siamese网络的工作原理是在训练阶段，构造出成对的样本对（一个是目标区域，一个是非目标区域），通过计算两个输入样本之间的相似度来分类，同时生成目标区域的特征表示。

在测试阶段，给定初始帧中的目标区域，通过滑动窗口的方式逐帧追踪目标。

Siamese网络具有良好的鲁棒性和在复杂场景中的适用性，并且训练速度快，因此较为受到欢迎。

RPN-FCN网络是一种基于Faster R-CNN网络的改进版本，它能够同时完成目标的定位和分类。

该网络首先将输入图像进行特征提取，然后通过生成一组候选区域 proposal，并对这些区域进行分类和回归来确定目标的位置。

该算法能够高效地检测多个目标，并且对于目标具有不变性，因此具有很高的实际应用价值。

1.2 基于循环神经网络（RNN）的跟踪算法RNN是另一种经典的神经网络结构，它具有很强的“记忆”能力，能够对序列数据进行自然的建模。

因此在时间序列数据的处理中被广泛应用，例如文本和语音处理等领域。

在跟踪领域中，RNN也被应用于建立跟踪器的状态模型，通过对历史帧的特征进行编码和解码来预测目标的位置，从而提高跟踪的精度和鲁棒性。

基于SiamBAN_跟踪器改进的目标跟踪算法

收稿日期:２０２２－０５－０９基金项目:国家自然科学基金资助项目(６１７７３１０８).作者简介:郑㊀艳(１９６３－)ꎬ女ꎬ辽宁沈阳人ꎬ东北大学副教授ꎬ博士.第４４卷第９期２０２３年９月东北大学学报(自然科学版)ＪｏｕｒｎａｌｏｆＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ(ＮａｔｕｒａｌＳｃｉｅｎｃｅ)Ｖｏｌ.４４ꎬＮｏ.９Ｓｅｐ.２０２３㊀ｄｏｉ:１０.１２０６８/ｊ.ｉｓｓｎ.１００５－３０２６.２０２３.０９.００２基于ＳｉａｍＢＡＮ跟踪器改进的目标跟踪算法郑㊀艳ꎬ赵佳旭ꎬ边㊀杰(东北大学信息科学与工程学院ꎬ辽宁沈阳㊀１１０８１９)摘㊀㊀㊀要:孪生网络系列的跟踪器基于相似度匹配的方法来实现目标跟踪ꎬ当遇到相似干扰物时会发生跟踪漂移现象ꎬ从而导致跟踪失败.针对这个问题ꎬ以ＳｉａｍＢＡＮ跟踪器为研究基础ꎬ提出了一种改进算法.主要改进包括:在训练阶段ꎬ加入中心回归分支来降低远离目标中心的边界框分数ꎬ同时引入ＦｏｃａｌＬｏｓｓ损失函数ꎬ在推理阶段设计了全新的筛选策略ꎬ来区分要跟踪的目标和相似干扰物.改进后的算法在ＯＴＢ１００测试集的成功率和精度相比于原来分别提高了２１％和３％ꎬ在ＧＯＴ１０ｋ的测试集上成功率比原来提高了２１％.关㊀键㊀词:目标跟踪ꎻＳｉａｍＢＡＮꎻ孪生网络ꎻ干扰物感知ꎻ神经网络中图分类号:ＴＰ３９１㊀㊀㊀文献标志码:Ａ㊀㊀㊀文章编号:１００５－３０２６(２０２３)０９－１２２７－０７ＩｍｐｒｏｖｅｄＯｂｊｅｃｔＴｒａｃｋｉｎｇＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＳｉａｍＢＡＮＴｒａｃｋｅｒＺＨＥＮＧＹａｎꎬＺＨＡＯＪｉａ￣ｘｕꎬＢＩＡＮＪｉｅ(ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆ＥｎｇｉｎｅｅｒｉｎｇꎬＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙꎬＳｈｅｎｙａｎｇ１１０８１９ꎬＣｈｉｎａ.Ｃｏｒｒｅｓｐｏｎｄｉｎｇａｕｔｈｏｒ:ＺＨＡＯＪｉａ￣ｘｕꎬＥ￣ｍａｉｌ:１９２７０６９００９＠ｑｑ.ｃｏｍ)Ａｂｓｔｒａｃｔ:Ｔｈｅｓｉａｍｅｓｅｎｅｔｗｏｒｋｓｅｒｉｅｓｔｒａｃｋｅｒｕｔｉｌｉｚｅｓｔｈｅｓｉｍｉｌａｒｉｔｙｍａｔｃｈｉｎｇｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｔｒａｃｋｉｎｇꎬｂｕｔｔｒａｃｋｉｎｇｄｒｉｆｔｃａｎｏｃｃｕｒｗｈｅｎｓｉｍｉｌａｒｄｉｓｔｒａｃｔｏｒｓａｒｅｅｎｃｏｕｎｔｅｒｅｄꎬｌｅａｄｉｎｇｔｏｔｒａｃｋｉｎｇｆａｉｌｕｒｅ.ＴｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍꎬｂａｓｅｄｏｎｔｈｅｒｅｓｅａｒｃｈｏｆＳｉａｍＢＡＮｔｒａｃｋｅｒꎬａｎｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄ.ＭａｊｏｒｉｍｐｒｏｖｅｍｅｎｔｓｉｎｃｌｕｄｅｔｈｅａｄｄｉｔｉｏｎｏｆａｃｅｎｔｅｒｎｅｓｓｂｒａｎｃｈｄｕｒｉｎｇｔｒａｉｎｉｎｇｔｏｒｅｄｕｃｅｂｏｕｎｄｉｎｇｂｏｘｓｃｏｒｅｓｆａｒｆｒｏｍｔｈｅｏｂｊｅｃｔｃｅｎｔｅｒꎬｔｈｅｉｎｔｒｏｄｕｃｔｉｏｎｏｆｔｈｅＦｏｃａｌＬｏｓｓｆｕｎｃｔｉｏｎꎬａｎｄａｎｅｗｓｃｒｅｅｎｉｎｇｓｔｒａｔｅｇｙｄｕｒｉｎｇｉｎｆｅｒｅｎｃｅｔｏｄｉｆｆｅｒｅｎｔｉａｔｅｔｈｅｔａｒｇｅｔｆｒｏｍｓｉｍｉｌａｒｄｉｓｔｒａｃｔｏｒｓ.Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｏｒｉｇｉｎａｌꎬｔｈｅｓｕｃｃｅｓｓｐｌｏｔａｎｄｐｒｅｃｉｓｉｏｎｐｌｏｔｏｆｔｈｅｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍａｒｅｉｎｃｒｅａｓｅｄｂｙ２１％ａｎｄ３％ｒｅｓｐｅｃｔｉｖｅｌｙｏｎｔｈｅＯＴＢ１００ｔｅｓｔｓｅｔꎬａｎｄｔｈｅｓｕｃｃｅｓｓｐｌｏｔｉｓ２１％ｈｉｇｈｅｒｔｈａｎｔｈｅｏｒｉｇｉｎａｌｏｎｔｈｅＧＯＴ１０ｋｔｅｓｔｓｅｔ.Ｋｅｙｗｏｒｄｓ:ｏｂｊｅｃｔｔｒａｃｋｉｎｇꎻＳｉａｍＢＡＮꎻｓｉａｍｅｓｅｎｅｔｗｏｒｋꎻｄｉｓｔｒａｃｔｏｒａｗａｒｅꎻｎｅｕｒａｌｎｅｔｗｏｒｋ㊀㊀目标跟踪(本文所述的目标跟踪是指单目标跟踪)一直是计算机视觉领域里一个非常活跃的研究方向ꎬ它需要根据给定序列初始帧的目标状态来预测后续每一帧的目标状态ꎬ通常用一个边界框来表示[１].目标跟踪在视频监控㊁人机交互以及自动驾驶等诸多领域都有着广泛的应用[２].近几年ꎬ基于孪生网络的跟踪器由于在精度和速度方面良好的平衡表现ꎬ受到了广泛关注.最初ꎬＳｉａｍＦＣ[３]首先引入结合相关层的特征映射ꎬ但由于其只进行了目标和背景分类ꎬ采用多尺度测试来改变边界框尺度ꎬ并不能处理由目标变化引起的边界框宽高比变化ꎬ所以生成的边界框并不紧密.为得到更精确的目标边界框ꎬＳｉａｍＲＰＮ[４－５]引入了目标检测方法中的区域提议网络ꎬ虽然它可以处理边界框尺度和宽高比的变化ꎬ但同时引入了锚框相关的参数ꎬ这些参数需要仔细的设计和调整来实现良好的性能ꎬ而且锚框与目标之间的模糊匹配严重阻碍了跟踪器的鲁棒性.目标检测领域中ＣｏｒｎｅｒＮｅｔ[６]ꎬＦＣＯＳ[７]等以每像素预测的方式来实现目标检测ꎬ直接预测目标存在的可能性和边界盒坐标.受这些无锚检测㊀㊀器的启发ꎬ一些基于孪生网络的无锚跟踪器被设计出来ꎬ比如ＳｉａｍＦＣ＋＋[８]ꎬＳｉａｍＢＡＮ[９]和ＳｉａｍＣＡＲ[１０]等.它们的整体网络结构非常相似ꎬ都是由用于特征提取的孪生网络和区域提议子网络两部分组成.不同的是ꎬＳｉａｍＢＡＮ对提取特征的后三层进行了融合ꎬ从而可以更好地捕获目标的细粒度信息来精确定位目标ꎬ以及编码抽象的语义信息来健壮地应对目标外观变化ꎬ这也是相对于上述另外两种无锚跟踪器ꎬ本文选用ＳｉａｍＢＡＮ跟踪器作为研究基础的主要原因.与那些简单背景不同ꎬ相似干扰物是具有语义信息的背景ꎬ比如跟踪目标是一个特定的人ꎬ在目标周围出现的其他人就是相似干扰物.具有相似干扰物影响的场景在日常生活中很常见ꎬ所以解决这个问题非常具有实际意义ꎬ本文通过对ＳｉａｍＢＡＮ进行改进ꎬ并设计一种新的策略ꎬ来解决相似干扰物影响问题ꎬ进一步提升了ＳｉａｍＢＡＮ的跟踪性能.１㊀相关研究工作基于孪生网络的跟踪器无法有效应对具有相似干扰物的场景ꎬ主要原因在于这种相似度匹配的方法不能区分需要跟踪的目标和相似干扰物.因为当相似干扰物与目标距离很近或者发生交互时ꎬ在分类得分图上相似干扰物的最终得分很可能会超过目标的得分ꎬ导致跟踪漂移到相似干扰物身上ꎬ进而造成跟踪失败.针对上述的问题ꎬ本文以ＳｉａｍＢＡＮ为基础对其进行改进ꎬ主要包括以下几方面:１)为了提高ＳｉａｍＢＡＮ识别目标和相似干扰物的能力ꎬ在训练阶段使用ＦｏｃａｌＬｏｓｓ[１１]替代原来分类分支的交叉熵损失函数.ＦｏｃａｌＬｏｓｓ可以提高模型解决正样本和负样本㊁简单样本和困难样本不平衡的能力.这里所述的困难样本就是具有语义的背景ꎬ即相似干扰物.２)训练阶段ꎬ在分类分支中加入中心质量分支.中心质量分支首先由ＦＣＯＳ提出ꎬ它能够降低远离目标中心的低质量边界框的分数.３)在推理阶段ꎬ保留目标在当前帧之前相邻几帧的运动状态ꎬ并根据目标的运动具有连续㊁渐变以及平滑性ꎬ设计了一种筛选策略来区分目标和相似干扰物.２㊀改进算法的设计与实现２１㊀ＳｉａｍＢＡＮ算法框架ＳｉａｍＢＡＮ跟踪器的网络结构由孪生骨干网络和多个自适应头两部分组成.骨干网络对模板分支和搜索分支的输入图片进行特征提取ꎬ自适应头内部结构如图１所示ꎬＣ３/Ｃ４/Ｃ５表示采用提取特征中的Ｃｏｎｖ３ꎬＣｏｎｖ４ꎬＣｏｎｖ５多层特征进行融合ꎬ 表示深度互相关操作.ＳｉａｍＢＡＮ整体网络框架如图２所示ꎬ输出头包括分类和回归两部分ꎬ如图２中最右侧的分类和回归所示ꎬ分类部分需要输出两个通道的得分图进行前景和背景分类ꎬ回归部分需要输出４个通道的得分图进行边界框预测ꎬＬꎬＴꎬＲꎬＢ表示分类部分预测的点到边界框４条边的距离.每个部分使用深度互相关层组合特征映射:Ｐｃｌｓ＝[φ(ｘ)]ｃｌｓ∗[φ(ｚ)]ｃｌｓꎬＰｒｅｇ＝[φ(ｘ)]ｒｅｇ∗[φ(ｚ)]ｒｅｇ.}(１)其中:ｘ和ｚ分别是搜索分支和模板分支的输入ꎻφ函数表示特征提取操作ꎻ∗表示互相关操作ꎻ[φ(ｚ)]ｃｌｓ和[φ(ｚ)]ｒｅｇ分别是分类部分和回归部分模板分支的特征ꎻ[φ(ｘ)]ｃｌｓ和[φ(ｘ)]ｒｅｇ分别是分类部分和回归部分搜索分支的特征ꎻＰｃｌｓ是分类得分图ꎻＰｒｅｇ是回归得分图.图１㊀Ｈｅａｄ内部结构Ｆｉｇ１㊀Ｈｅａｄｉｎｔｅｒｎａｌｓｔｒｕｃｔｕｒｅ图２㊀ＳｉａｍＢＡＮＦｉｇ２㊀ＮｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅｏｆＳｉａｍＢＡＮｔｒａｃｋｅｒ８２２１东北大学学报(自然科学版)㊀㊀㊀第４４卷㊀㊀２２㊀引入ＦｏｃａｌＬｏｓｓ损失函数损失函数是机器学习里一个最为关键的要素ꎬ它可帮助模型学习如何能更好地达到预期目的.在目标跟踪任务中ꎬ把需要跟踪的目标视为正样本ꎬ其他背景视为负样本ꎬ可以将分类任务视为简单的二分类问题.相对于庞大的背景而言ꎬ目标所占的比例非常小ꎬ正样本和负样本之间存在着极大的不平衡问题.对于使跟踪器发生错误判断的目标ꎬ即相似干扰物ꎬ称之为困难样本ꎬ相反能够被跟踪器容易判断的目标称之为简单样本ꎬ困难样本蕴含着具有极大价值的信息ꎬ能够增强跟踪器的判别能力ꎬ相对于简单样本而言所占比例却非常小ꎬ它们之间同样存在着极大的不平衡问题.针对上述问题ꎬ为了提高模型对目标和相似干扰物的识别能力ꎬ引入ＦｏｃａｌＬｏｓｓ损失函数.首先定义二分类交叉熵损失函数:ＣＥ(ｐꎬｙ)＝－ｌｏｇ(ｐ)ꎬｙ＝１ꎻ－ｌｏｇ(１－ｐ)ꎬｙʂ１.{(２)其中:ｙɪ{－１ꎬ＋１}是类别标签ꎻｐɪ[０ꎬ１]是模型对带有标签ｙ＝１类别的估计概率.定义如下的ｐｔ:ｐｔ＝ｐꎬｙ＝１ꎻ１－ｐꎬｙʂ１.{(３)ｐｔ的范围为０~１ꎬ代入式(２)得ＣＥ(ｐꎬｙ)＝ＣＥ(ｐｔ)＝－ｌｏｇ(ｐｔ).(４)为解决正负样本不平衡的问题ꎬ在式(４)中每个类别前增加一个权重因子αɪ[０ꎬ１]来协调正负样本的平衡ꎬ得损失函数为ＣＥ(ｐｔ)＝－αｔｌｏｇ(ｐｔ).(５)其中αｔ定义为αｔ＝αꎬｙ＝１ꎻ１－αꎬｙʂ１.{(６)易分类简单样本的分类错误损失占了整体损失的绝大部分ꎬ并主导了损失函数的梯度ꎬ为了降低易分类简单样本的权重ꎬ并且使模型聚焦于困难样本的训练ꎬ在上面基础上增加了一个调节因子(１－ｐｔ)γꎬ可调聚焦参数γȡ０ꎬ最终采取的ＦｏｃａｌＬｏｓｓ形式如下:ＦＬ(ｐｔ)＝－αｔ(１－ｐｔ)γｌｏｇ(ｐｔ).(７)根据文献[７]ꎬ本文选择γ＝２ꎬα＝０２５.２３㊀添加中心质量分支ＳｉａｍＢＡＮ跟踪器是无锚框的ꎬ它采取逐像素预测的方式来回归边界框ꎬ在分类得分图中找到最大得分位置ꎬ并将这个位置映射回原图像中的位置作为目标的参考点ꎬ再结合回归得分图预测的四维向量(ｌꎬｔꎬｒꎬｂ)来确定包围目标的边界框.但是远离目标中心的位置往往会预测产生低质量的边界框ꎬ这降低了跟踪系统的性能.为了抑制这些低质量的边界框ꎬ本文在分类分支并行地添加了一个中心回归分支ꎬ如图２中右侧中间的标志所示.每个位置的回归目标用ｌ∗ꎬｔ∗ꎬｒ∗和ｂ∗表示ꎬ中心回归定义为[７]ｃｅｎｔｅｒｎｅｓｓ∗＝ｍｉｎ(ｌ∗ꎬｒ∗)ｍａｘ(ｌ∗ꎬｒ∗)ˑｍｉｎ(ｔ∗ꎬｂ∗)ｍａｘ(ｔ∗ꎬｂ∗).(８)它描述了从每一个位置到目标中心的归一化距离ꎬ范围是从０到１ꎬ如图３所示ꎬ越靠近物体中心的点ｌ∗和ｒ∗的值以及ｔ∗和ｂ∗的值越接近ꎬ它越大ꎬ反之则越小.ＳｉａｍＢＡＮ在回归部分的最后应用了ｅｘｐ(ｘ)将任何实数映射到了(０ꎬ＋ɕ)ꎬ所以不必担心出现负数的问题.图３㊀中心回归示意图Ｆｉｇ３㊀Ｃｅｎｔｅｒｎｅｓｓｓｃｈｅｍａｔｉｃ改进后ꎬ训练阶段的损失函数由下面几部分组成:Ｌｃｌｓ＝－１Ｎｐｏｓðｘꎬｙ－α(１－ｐｘꎬｙ)γｌｏｇ(ｐｘꎬｙ)ꎬｇｔｘꎬｙ＝１ꎻ－(１－α)ｐγｘꎬｙｌｏｇ(１－ｐｘꎬｙ)ꎬ其他.{(９)㊀㊀Ｌｃｅｎｔｅｒｎｅｓｓ＝－１Ｎｐｏｓðｘꎬｙｑｘꎬｙｌｏｇ(ｑ∗ｘꎬｙ)＋[㊀㊀(１－ｑｘꎬｙ) ｌｏｇ(１－ｑ∗ｘꎬｙ)].(１０)Ｌｒｅｇ＝－１ＮｐｏｓðｘꎬｙＬＩｏＵ(ｔｘꎬｙꎬｔ∗ｘꎬｙ).(１１)其中:Ｎｐｏｓ表示正样本的总数ꎻＬｃｌｓ表示分类损失ꎻｐｘꎬｙ表示分类部分的输出ꎻα和γ是ＦｏｃａｌＬｏｓｓ的超参数ꎻｇｔｘꎬｙ为真值标签ꎻＬｃｅｎｔｅｒｎｅｓｓ表示中心回归损失ꎻｑｘꎬｙ为中心回归的标签ꎬ正样本的ｑｘꎬｙ由式(８)计算ꎬ负样本的ｑｘꎬｙ为０ꎻｑ∗ｘꎬｙ为中心回归分支的输出ꎻＬｒｅｇ为回归损失ꎻＬＩｏＵ＝１－ＩｏＵ为ＩｏＵ损失ꎻｔｘꎬｙ为回归标签ꎻｔ∗ｘꎬｙ为回归部分的输出.总损失函数如下:Ｌ＝Ｌｃｌｓ＋λ１Ｌｃｅｎｔｅｒｎｅｓｓ＋λ２Ｌｒｅｇ.(１２)９２２１第９期㊀㊀㊀郑㊀艳等:基于ＳｉａｍＢＡＮ跟踪器改进的目标跟踪算法㊀㊀其中:λ１和λ２为权重占比ꎬ训练阶段时选取λ１＝１和λ２＝３.２４㊀设计区分目标与相似干扰物策略受ＤａＳｉａｍＲＰＮ[１２]启发ꎬ本文通过对最终的得分图利用非极大值抑制ꎬ来找到可能目标ꎬ可能目标中包括真正目标和相似干扰物.本文抛弃了原来对得分图的余弦窗惩罚ꎬ因为它抑制掉了距离搜索区域中心较远的目标ꎬ这不利于找全可能目标.记{(ｘ１ꎬｙ１)ꎬ(ｘ２ꎬｙ２)ꎬ ꎬ(ｘｎꎬｙｎ)}表示连续ｎ帧的目标中心坐标ꎬ如图４中的带箭头点所示ꎬ向量ｌｔ＝(ｘｔ－ｘｔ－１ꎬｙｔ－ｙｔ－１)ꎬ㊀ｔ＝２ꎬ ꎬｎ表示目标在相邻两帧之间的运动状态ꎻ(ｘｉｎ＋１ꎬｙｉｎ＋１)ꎬｉ＝１ꎬ２ꎬ３ꎬ ꎬ表示当前帧可能目标的中心坐标ꎬｉ为可能目标的个数ꎬ例如ꎬ图４中点Ｏ１和Ｏ２可以用(ｘ１ｎ＋１ꎬｙ１ｎ＋１)和(ｘ２ｎ＋１ꎬｙ２ｎ＋１)表示ꎬ它们都是通过非极大值抑制得到的ꎻ图４中点Ｏᶄ表示上一帧预测目标的中心坐标ꎬ可以用(ｘｎꎬｙｎ)表示.把目标在连续ｎ帧内的平均运动状态定义为Ｌ＝１ｎ－１ðｎｉ＝２(ｘｉ－ｘｉ－１ꎬｙｉ－ｙｉ－１)＝㊀１ｎ－１(ｘｎ－ｘ１ꎬｙｎ－ｙ１).(１３)图４㊀区分策略示意图Ｆｉｇ４㊀Ｄｉｆｆｅｒｅｎｔｉａｔｉｏｎｓｔｒａｔｅｇｙｄｉａｇｒａｍ㊀㊀如图４中虚线上的黑色箭头所示ꎬ把当前帧所有可能目标的运动状态定义为Ｌｉ＝(ｘｉｎ＋１－ｘｎꎬｙｉｎ＋１－ｙｎ)ꎬ㊀ｉ＝１ꎬ２ꎬ(１４)㊀㊀然后用当前帧所有可能目标的运动状态Ｌｉ去匹配目标的平均运动状态Ｌꎬ定义如下匹配得分:ｓｃｏｒｅｉ＝μ１ＬｉＬＬ２－１＋μ２ＬｉＬ－１＝㊀㊀μ１Ｌｉｃｏｓθｉ－ＬＬ＋㊀㊀μ２Ｌｉ－ＬＬ.(１５)其中:μ１和μ２是权重参数ꎬ来调整两项的占比ꎬ实验时选取μ１＝０５和μ２＝０５ꎻθｉ是Ｌｉ与Ｌ的夹角.式(１５)中第一项计算的是Ｌｉ在Ｌ上的投影与Ｌ的差异ꎬ为目标运动状态中矢量平均速度的匹配ꎬＬｉ与Ｌ越接近相等ꎬ则匹配程度越高ꎻ第二项计算的是Ｌｉ与Ｌ的差异ꎬ为目标运动状态中标量平均速度的匹配ꎬ这样就可以排除Ｌｉ和θｉ同时很大但在Ｌ上的投影与之差异很小的情况.第一项和第二项的分母Ｌ是为了把这两项归一化到同一尺度下ꎬ以防止其中一项占主导地位.式(１５)表明ꎬＬｉ与Ｌ夹角越小ꎬ Ｌｉ与Ｌ越接近ꎬ则该可能目标的运动越符合真正目标的运动趋势ꎬ就是需要跟踪的目标ꎬ而相似干扰物只是在某些帧凭空出现ꎬ它并不符合目标在连续ｎ帧的运动趋势.跟踪过程中不仅有目标的刚性运动ꎬ而且还有相机的刚性运动ꎬ但是目标在连续几帧内的运动依然是连续的㊁渐变的ꎬ并且有着它自己的运动趋势ꎬ如图５所示ꎬ其中连续的点表示连续帧内的目标中心坐标ꎬ可以看出图５中的目标与白色球衣的球员发生相对运动ꎬ在这个过程中目标的运动趋势是向右的ꎬ白色球衣的球员相对于目标而言运动方向向左ꎬ根据式(１５)ꎬ他不是真正的目标.图５㊀目标运动趋势示意图Ｆｉｇ５㊀Ｓｃｈｅｍａｔｉｃｄｉａｇｒａｍｏｆｔａｒｇｅｔｍｏｖｅｍｅｎｔｔｒｅｎｄ０３２１东北大学学报(自然科学版)㊀㊀㊀第４４卷㊀㊀３㊀实验研究３１㊀实施细节训练阶段:用于特征提取的骨干网络采用ＲｅｓＮｅｔ－５０结构ꎬ先在ＩｍａｇｅＮｅｔ[１３]数据集上预训练ꎬ然后整体训练过程中骨干网络用预训练的权值初始化ꎬ并冻结前两层的参数.总共训练２０个ｅｐｏｃｈ.根据以往的经验ꎬ初始学习率选取００１~０００１为宜ꎬ随着训练的进行学习率应不断衰减ꎬ接近训练结束时学习率的衰减应该在１００倍以上ꎬ所以前５个ｅｐｏｃｈ学习率从０００１到０００５预热ꎬ后１５个ｅｐｏｃｈ的学习率指数衰减为０００５到０００００５.在前１０个ｅｐｏｃｈ中ꎬ只训练Ｈｅａｄ部分ꎬ在后１０个ｅｐｏｃｈ中ꎬ以当前十分之一的学习速率对骨干网落进行微调ꎬ权重衰减和动量分别设为００００１和０９.推理阶段:将分类得分图与中心质量分数相乘作为最终的得分图ꎬ如图６所示ꎬ得分图中的两座峰分别表示两个不同目标的信息ꎬ但两座峰覆盖的范围很大ꎬ很多点是冗余的ꎬ一个目标只需要一个点来表示ꎬ并且两座峰的峰值点应该就是目标的中心点ꎬ是表示目标质量最高的点.所以先拿出得分图分数最大的点ꎬ并将其乘以０７５作为得分阈值ꎬ如图６中阈值指示的平面所示ꎬ对得分高于这个平面的所有点采用非极大值抑制ꎬ两个峰的峰值点就会被保留下来ꎬ然后将保留下来的点用式(１５)来计算ꎬ选取最小ｓｃｏｒｅｉ对应的点作为分类预测结果ꎬ结合对应的回归向量ꎬ得到预测的边界框.图６㊀目标在３Ｄ得分图上的体现Ｆｉｇ６㊀Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｇｏａｌｓｏｎａ３Ｄｓｃｏｒｅｍａｐ３２㊀与改进前算法对比改进前的效果如图７ａ所示ꎬ改进后的效果如图７ｂ所示ꎬ可以看到算法改进后成功跟住目标而没有发生漂移.为了公平起见ꎬ本文的所有测试都是在带有ＮｖｉｄｉａＲＴＸ２０８０ＴｉＧＰＵ云端服务器上进行的ꎬ在ＯＴＢ１００基准测试数据集改进前后的对比如图８所示ꎬＳｉａｍＢＡＮ＿ｉｍｐ表示改进后的结果ꎬＳｉａｍＢＡＮ＿ｏｒｉ表示原来的结果ꎬ从图８中可以看出改进后的算法成功率提高了２１％ꎬ精度提高图７㊀算法改进前后的效果对比Ｆｉｇ７㊀Ｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｅｆｆｅｃｔｂｅｆｏｒｅａｎｄａｆｔｅｒｔｈｅａｌｇｏｒｉｔｈｍｉｍｐｒｏｖｅｍｅｎｔ(ａ) 算法改进前ꎻ(ｂ) 算法改进后.１３２１第９期㊀㊀㊀郑㊀艳等:基于ＳｉａｍＢＡＮ跟踪器改进的目标跟踪算法㊀㊀了３％.除此之外ꎬ为了进一步了解改进效果ꎬ本文还在ＧＯＴ１０ｋ[１４]基准测试数据集上进行了消融实验ꎬ如表１所示ꎬ表中的数字都乘了１００％.在加入中心质量分支和ＦｏｃａｌＬｏｓｓ损失后的改进效果不明显ꎬ这是因为原来的算法在得分图上进行了余弦窗惩罚ꎬ直接选取惩罚后得分最大的点作为分类部分预测的结果ꎬ仍然会受到相似干扰物的影响.当把余弦窗惩罚去除ꎬ再引入区分策略ꎬ这时成功率比之前提高了２１％.３３㊀与先进跟踪器对比本文在ＯＴＢ１００和ＧＯＴ１０ｋ基准测试数据集与ＡＴＯＭ[１５]ꎬＥＣＯ[１６]等先进跟踪器进行了对比ꎬ图９是在ＯＴＢ１００基准测试数据集上进行的ꎬ无论在成功率还是精度方面ꎬ改进后的算法都获得了出色的表现.图１０是在ＧＯＴ１０ｋ基准测试数据集上进行的对比ꎬ与ＯＴＢ１００相比ꎬＧＯＴ１０ｋ中视频场景更加复杂ꎬ难度更大ꎬ但改进后的算法依然获得了良好的表现.图８㊀在ＯＴＢ１００上的精度和成功率Ｆｉｇ８㊀ＳｕｃｃｅｓｓｐｌｏｔａｎｄｐｒｅｃｉｓｉｏｎｐｌｏｔｏｎＯＴＢ１００(ａ) 精度对比ꎻ(ｂ) 成功率对比.表１㊀在ＧＯＴ１０ｋ基准上的消融实验Ｔａｂｌｅ１㊀ＡｂｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓｏｎｔｈｅＧＯＴ１０ｋｂｅｎｃｈｍａｒｋ改进算法及指标ＡＯＳＲ０５０ＳＲ０７５原算法５２０６０６３８３中心质量分支５２１６０８３８７中心质量分支＋ＦｏｃａｌＬｏｓｓ５２５６０８３７９中心质量分支＋ＦｏｃａｌＬｏｓｓ＋区分策略５４１６４０３９２图９㊀ＯＴＢ１００上多算法的精度与成功率对比Ｆｉｇ９㊀ＣｏｍｐａｒｉｓｏｎｏｆｓｕｃｃｅｓｓｐｌｏｔａｎｄｐｒｅｃｉｓｉｏｎｐｌｏｔｏｆｍｕｌｔｉｐｌｅａｌｇｏｒｉｔｈｍｓｏｎＯＴＢ１００(ａ) 精度对比ꎻ(ｂ) 成功率对比.２３２１东北大学学报(自然科学版)㊀㊀㊀第４４卷㊀㊀图１０㊀ＧＯＴ１０ｋ上的成功率Ｆｉｇ１０㊀ＳｕｃｃｅｓｓｐｌｏｔｏｎＧＯＴ１０ｋ４㊀结㊀㊀语本文针对孪生网络跟踪器在相似干扰物的影响下容易发生跟踪漂移的问题ꎬ在ＳｉａｍＢＡＮ跟踪器基础上进行改进ꎬ并设计了一种有效的解决策略.与原来只选取得分最大点作为预测目标的方法不同ꎬ本文先找到所有可能目标ꎬ然后利用设计的区分策略确定最终的预测目标ꎬ这样做可以使模型提高鲁棒性.该区分策略不仅可以应用于ＳｉａｍＢＡＮꎬ还可以应用于其他基于孪生网络的跟踪器ꎬ这相当于一个全新并且通用的后处理方法.参考文献:[１]㊀孟琭ꎬ杨旭.目标跟踪算法综述[Ｊ].自动化学报ꎬ２０１９ꎬ４５(７):１２４４－１２６０.(ＭｅｎｇＬｕꎬＹａｎｇＸｕ.Ａｓｕｒｖｅｙｏｆｏｂｊｅｃｔｔｒａｃｋｉｎｇａｌｇｏｒｉｔｈｍｓ[Ｊ].ＪｏｕｒｎａｌｏｆＡｕｔｏｍａｔｉｏｎꎬ２０１９ꎬ４５(７):１２４４－１２６０.)[２]㊀王红涛ꎬ邓淼磊ꎬ赵文君ꎬ等.基于深度学习的单目标跟踪算法综述[Ｊ].计算机系统应用ꎬ２０２２ꎬ３１(５):４０－５１.(ＷａｎｇＨｏｎｇ￣ｔａｏꎬＤｅｎｇＭｉａｏ￣ｌｅｉꎬＺｈａｏＷｅｎ￣ｊｕｎꎬｅｔａｌ.Ａｓｕｒｖｅｙｏｆｓｉｎｇｌｅｏｂｊｅｃｔｔｒａｃｋｉｎｇａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ[Ｊ].ＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓꎬ２０２２ꎬ３１(５):４０－５１)[３]㊀ＢｅｒｔｉｎｅｔｔｏＬꎬＶａｌｍａｄｒｅＪꎬＨｅｎｒｉｑｕｅｓＪＦꎬｅｔａｌ.Ｆｕｌｌｙ￣ｃｏｎｖｏｌｕｔｉｏｎａｌｓｉａｍｅｓｅｎｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔｔｒａｃｋｉｎｇ[Ｃ]//ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ.Ｃｈａｍ:Ｓｐｒｉｎｇｅｒꎬ２０１６:８５０－８６５.[４]㊀ＬｉＢꎬＹａｎＪꎬＷｕＷꎬｅｔａｌ.Ｈｉｇｈｐｅｒｆｏｒｍａｎｃｅｖｉｓｕａｌｔｒａｃｋｉｎｇｗｉｔｈｓｉａｍｅｓｅｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.ＳａｌｔＬａｋｅＣｉｔｙꎬ２０１８:８９７１－８９８０.[５]㊀ＬｉＢꎬＷｕＷꎬＷａｎｇＱꎬｅｔａｌ.ＳｉａｍＲＰＮ＋＋:ｅｖｏｌｕｔｉｏｎｏｆｓｉａｍｅｓｅｖｉｓｕａｌｔｒａｃｋｉｎｇｗｉｔｈｖｅｒｙｄｅｅｐｎｅｔｗｏｒｋｓ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ/ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.ＬｏｎｇＢｅａｃｈꎬ２０１９:４２８２－４２９１.[６]㊀ＬａｗＨꎬＤｅｎｇＪ.ＣｏｒｎｅｒＮｅｔ:ｄｅｔｅｃｔｉｎｇｏｂｊｅｃｔｓａｓｐａｉｒｅｄｋｅｙｐｏｉｎｔｓ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ(ＥＣＣＶ).Ｍｕｎｉｃｈꎬ２０１８:７３４－７５０.[７]㊀ＴｉａｎＺꎬＳｈｅｎＣＨꎬＣｈｅｎＨꎬｅｔａｌ.ＦＣＯＳ:ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｏｎｅ￣ｓｔａｇｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ/ＣＶＦＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ.Ｓｅｏｕｌꎬ２０１９:９６２７－９６３６.[８]㊀ＸｕＹꎬＷａｎｇＺꎬＬｉＺꎬｅｔａｌ.ＳｉａｍＦＣ＋＋:ｔｏｗａｒｄｓｒｏｂｕｓｔａｎｄａｃｃｕｒａｔｅＶｉｓｕａｌｔｒａｃｋｉｎｇｗｉｔｈｔａｒｇｅｔｅｓｔｉｍａｔｉｏｎｇｕｉｄｅｌｉｎｅｓ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ.ＮｅｗＹｏｒｋꎬ２０２０ꎬ３４(７):１２５４９－１２５５６.[９]㊀ＣｈｅｎＺꎬＺｈｏｎｇＢꎬＬｉＧꎬｅｔａｌ.Ｓｉａｍｅｓｅｂｏｘａｄａｐｔｉｖｅｎｅｔｗｏｒｋｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ/ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.Ｓｅａｔｔｌｅꎬ２０２０:６６６８－６６７７.[１０]ＧｕｏＤꎬＷａｎｇＪꎬＣｕｉＹꎬｅｔａｌ.ＳｉａｍＣＡＲ:ｓｉａｍｅｓｅｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｆｏｒｖｉｓｕａｌｔｒａｃｋｉｎｇ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ/ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.Ｓｅａｔｔｌｅꎬ２０２０:６２６９－６２７７.[１１]ＬｉｎＴＹꎬＧｏｙａｌＰꎬＧｉｒｓｈｉｃｋＲꎬｅｔａｌ.ＦｏｃａｌＬｏｓｓｆｏｒｄｅｎｓｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ.Ｖｅｎｉｃｅꎬ２０１７:２９８０－２９８８.[１２]ＺｈｕＺꎬＷａｎｇＱꎬＬｉＢꎬｅｔａｌ.Ｄｉｓｔｒａｃｔｏｒ￣ａｗａｒｅｓｉａｍｅｓｅｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｏｂｊｅｃｔｔｒａｃｋｉｎｇ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ(ＥＣＣＶ).Ｍｕｎｉｃｈꎬ２０１８:１０１－１１７.[１３]ＲｕｓｓａｋｏｖｓｋｙＯꎬＤｅｎｇＪꎬＳｕＨꎬｅｔａｌ.ＩｍａｇｅＮｅｔｌａｒｇｅｓｃａｌｅｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎｃｈａｌｌｅｎｇｅ[Ｊ].ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎꎬ２０１５ꎬ１１５(３):２１１－２５２.[１４]ＨｕａｎｇＬꎬＺｈａｏＸꎬＨｕａｎｇＫ.ＧＯＴ￣１０ｋ:ａｌａｒｇｅｈｉｇｈ￣ｄｉｖｅｒｓｉｔｙｂｅｎｃｈｍａｒｋｆｏｒｇｅｎｅｒｉｃｏｂｊｅｃｔｔｒａｃｋｉｎｇｉｎｔｈｅｗｉｌｄ[Ｊ].ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅꎬ２０１９ꎬ４３(５):１５６２－１５７７.[１５]ＤａｎｅｌｌｊａｎＭꎬＢｈａｔＧꎬＫｈａｎＦＳꎬｅｔａｌ.ＡＴＯＭ:ａｃｃｕｒａｔｅｔｒａｃｋｉｎｇｂｙｏｖｅｒｌａｐｍａｘｉｍｉｚａｔｉｏｎ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ/ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.ＬｏｎｇＢｅａｃｈꎬ２０１９:４６６０－４６６９.[１６]ＤａｎｅｌｌｊａｎＭꎬＢｈａｔＧꎬＫｈａｎＦＳꎬｅｔａｌ.ＥＣＯ:ｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎｏｐｅｒａｔｏｒｓｆｏｒｔｒａｃｋｉｎｇ[Ｃ]//ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ.Ｈｏｎｏｌｕｌｕꎬ２０１７:６６３８－６６４６.３３２１第９期㊀㊀㊀郑㊀艳等:基于ＳｉａｍＢＡＮ跟踪器改进的目标跟踪算法。

基于深度学习的目标跟踪算法研究

基于深度学习的目标跟踪算法研究一、引言目标跟踪是计算机视觉领域的一个热门课题，其主要任务是在视频中跟踪特定的目标，并输出其轨迹或其他相关信息。

在实际应用中，目标跟踪涉及到很多复杂的问题，如目标形变、目标丢失等，因此需要采用一定的算法对其进行处理。

近年来，随着深度学习的发展，基于深度学习的目标跟踪算法也逐渐受到广泛关注。

本文将对目前常见的基于深度学习的目标跟踪算法进行介绍和分析。

二、目标跟踪算法概述目标跟踪算法可以分为传统的基于特征提取的算法和基于深度学习的算法两大类。

传统的基于特征提取的算法主要利用目标的一些特征信息，如颜色、纹理等进行特征提取和匹配，具有较低的计算复杂度。

而基于深度学习的算法主要利用卷积神经网络深度学习模型来学习目标的特征，并以此进行目标跟踪，具有更高的准确率和鲁棒性。

三、基于深度学习的目标跟踪算法1. Siamese Network跟踪算法Siamese Network跟踪算法是一种基于模板匹配的算法，其思想是通过学习相似性度量函数，将模板图像与待跟踪图像中的目标进行匹配。

该算法的主要优势在于对目标姿态变化和尺度变化具有很好的适应性，可以实现实时跟踪，适用于一些追求速度和精度的实际应用场景。

2. MDNet跟踪算法MDNet跟踪算法是一种基于多层卷积网络和循环神经网络的跟踪算法，其主要思想是通过一个由多个卷积神经网络和一个循环神经网络组成的网络，对目标的位置和姿态进行学习和预测，并对跟踪结果进行反馈。

该算法具有较高的鲁棒性和准确率，能够实现长时间的跟踪，适用于一些需要精度和鲁棒性的应用场景。

3. SiamRPN跟踪算法SiamRPN跟踪算法是一种基于区域建议网络的跟踪算法，其主要思想是通过一个卷积神经网络，对目标所在的区域进行拟合，并预测在下一帧中目标所在的位置和姿态。

该算法具有较高的准确率和实时性，适用于一些需要精度和速度兼顾的应用场景。

四、总结与展望基于深度学习的目标跟踪算法已经成为当今计算机视觉领域的一个热门研究方向，不断涌现出一些新的算法和方法。

目标追踪算法

目标追踪算法目标追踪算法是计算机视觉领域中的一种重要技术，用于在视频序列中跟踪特定目标的位置和运动。

目标追踪算法在很多实际应用中都有重要的作用，比如视频监控、无人驾驶、人机交互等领域。

目标追踪算法通常包括以下几个关键步骤：目标检测、目标跟踪和目标状态更新。

目标检测是指在视频序列中找到感兴趣的目标，并确定它们的位置和形状。

目前常用的目标检测算法包括基于特征的方法（比如Haar特征，HOG特征等）和基于深度学习的方法（比如卷积神经网络）。

这些算法可以通过训练模型来学习目标的外观特征，并在视频序列中寻找与模型匹配的目标。

目标跟踪是指在目标检测的基础上，通过时间序列的信息来估计目标在视频序列中的位置和运动。

常用的目标跟踪算法包括基于颜色特征的方法（比如MeanShift算法），基于纹理特征的方法（比如Correlation Filters算法）和基于深度学习的方法（比如Siamese网络）。

这些算法可以通过不断更新目标的位置和形状来实现目标的跟踪。

目标状态更新是指根据目标的跟踪结果，更新目标的状态信息，比如目标的位置、速度和运动方向等。

常用的目标状态更新算法包括卡尔曼滤波和粒子滤波。

这些算法可以通过利用目标的先验信息和观测信息来估计目标的状态，并预测目标的未来位置和运动。

除了上述这些基本步骤，目标追踪算法还可以根据具体应用需求进行进一步的改进和优化。

比如，可以考虑目标的形变、遮挡、姿态变化和多目标跟踪等问题。

同时，目标追踪算法也可以与其他计算机视觉任务相结合，比如目标识别、目标分类和目标分割等。

总之，目标追踪算法是计算机视觉领域中的一个重要研究方向，它的发展对于实现自动化、智能化的视觉系统具有重要意义。

不断改进和优化目标追踪算法，将有助于实现更加准确、鲁棒和高效的目标追踪技术，推动计算机视觉技术在各个应用领域的广泛应用。

基于卡尔曼滤波的SiamRPN目标跟踪方法

基于卡尔曼滤波的SiamRPN目标跟踪方法作者：张子龙王永雄来源：《智能计算机与应用》2020年第03期摘要：基于深度学习的视觉跟踪方法在多个基准数据库上取得了很好的跟踪性能，特别是基于Siamese框架的目标跟踪方法取得了突破性的进展。

为了提高跟踪效果，有效解决跟踪过程中干扰和遮挡问题，本文提出了一种基于卡尔曼滤波的SiamRPN（Siamese+RPN）目标跟踪方法。

首先，利用训练好的SiamRPN跟踪算法和卡尔曼滤波跟踪模型分别对目标物体进行跟踪，得到2种跟踪算法跟踪结果的置信度，然后，基于置信度加权融合模型得到最后的跟踪框。

卡尔曼滤波器可预测目标在一定遮挡干扰等情况下的位置，SiamRPN算法利用区域候选网络RPN将每一帧的跟踪转换为一次局部检测任务，快速准确地得到跟踪框的位置和尺度，提出的算法避免了使用常规的低效费时的多尺度自适应方法，融合了2种优秀跟踪算法的优点，不仅跟踪速度较快，而且抗干扰和遮挡能力明显提高。

在经典数据库上的实验验证了提出的算法明显提高了目标运动较快、干扰较强和有遮挡情况下的跟踪效果，在速度没有明显下降的前提下，成功率和精度等多个性能指标均有较大的提升。

关键词：目标跟踪; 卡尔曼滤波; 孪生网络; 加权融合【Abstract】The visual learning method based on deep learning has achieved good tracking performance on multiple benchmark databases. Especially， the object tracking method based on Siamese framework is a breakthrough. In order to improve the tracking effect and solve effectively the interference and occlusion problems in tracking， a SiamRPN （Siamese+RPN） object tracking method based on Kalman filtering is proposed. Firstly， the trained SiamRPN tracking algorithm and the Kalman filter tracking model are used to track the object respectively， and the confidence of the results of the two tracking algorithms is obtained. Then， the final tracking frame is obtained based on the confidence weighted fusion model. The Kalman filter can predict the position of the object under certain occlusion interference. The regional candidate network RPN in SiamRPN algorithm is used to convert the tracking of each frame into a local detection task， and obtain the position and scale of the tracking frame both quickly and accurately. The conventional inefficient and time-consuming multi-scale test and online fine-tuning is abandoned. The new method includes the advantages of two excellent tracking algorithms. Thus， not only the tracking speed is fast， but also the anti-interference and occlusion capabilities are significantly improved. Experimental results on the classical database verify that the proposed algorithm significantly improves the tracking effect in the condition of fast object motion， strong interference and occlusion. The performances such as success rate and accuracy are greatly achieved without decreasing the tracking speed obviously.【Key words】 ;object tracking; Kalman filter; SiamRPN network; weighted fusion;0 引言视觉目标跟踪是最近几年计算机视觉领域的主要研究方向之一，也是计算机视觉分析、自动驾驶和姿态估计等领域的一个基本问题。

基于主干增强和特征重排的反无人机目标跟踪

第 39 卷第 4 期2024 年 4 月Vol.39 No.4Apr. 2024液晶与显示Chinese Journal of Liquid Crystals and Displays基于主干增强和特征重排的反无人机目标跟踪郑滨汐*，杨志钢，丁钰峰（哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001）摘要：视频图像中面向无人机的目标跟踪是反无人机任务中的重要一环。

无人机低空飞行背景复杂，同时在视频图像中目标像素占比较小，都给目标跟踪增加了难度。

针对以上问题，以SiamRPN++为基础，提出了一种引入改进的主干网络和特征重排的孪生神经网络目标跟踪算法（SiamAU）。

首先，在主干网络中加入ECA-Net注意力机制网络，同时对激活函数进行改进，以提升复杂背景下的特征表征能力；然后，对主干网络输出的浅层特征进行浅层降维并与后三层深层特征进行融合，得到更适合无人机等小目标跟踪的改进深度融合特征。

在DUT Anti-UAV数据集上，SiamAU算法的成功率和精确率达到了60.5%和88.1%，相比基准算法提升了5.6%和8.1%。

在两个公开数据集上的测试结果表明，在反无人机场景中SiamAU算法的跟踪表现优于目前主流的算法。

关键词：反无人机；目标跟踪；孪生网络；注意力机制；特征重排中图分类号：TP391 文献标识码：A doi：10.37188/CJLCD.2023-0150Anti-UAV object tracking with enhanced backbone andfeature rearrangementZHENG Binxi*，YANG Zhigang，DING Yufeng（College of Information and Communication Engineering， Harbin Engineering University，Harbin 150001， China）Abstract：Object tracking for the unmanned aerial vehicle （UAV）in videos is an important part of the Anti-UAV task.The complex background during low-altitude flight and the small imaging size are two difficulties for UAV object tracking.A Siamese neural network object tracking algorithm （SiamAU）is proposed，which is based on SiamRPN++ in combination with an improved backbone and a feature rearrangement technique.Firstly，ECA-Net attention module is integrated into the backbone network，while the activation function is improved to enhance the representation ability of convolution features in complex background. Then， channel number of the last three convolution features is rearranged in order to make full use of low-level features that are conducive for small object tracking. The rearranged feathers are further fused to obtain the improved feature map.Finally，On the DUT Anti-UAV dataset，SiamAU algorithm achieves success and precession scores of 60.5% and 88.1%，an improvement of 5.6% and 文章编号：1007-2780（2024）04-0532-11收稿日期：2023-04-21；修订日期：2023-05-05.基金项目：航空科学基金（No.201801P6002）；中央高校基本科研业务费（No.3072022CF0802）Supported by Aeronautical Science Foundation of China（No.201801P6002）；Fundamental Research Fundsfor the Central Universities（No.3072022CF0802）*通信联系人，E-mail：914016304@第 4 期郑滨汐，等：基于主干增强和特征重排的反无人机目标跟踪8.1% in comparison with the baseline algorithm.Extensive experimental results on two public datasets validate that the proposed SiamAU achieves better UAV tracking performance and outperforms previous methods， especially in small object and complex background scenarios.Key words： Anti-UAV； object tracking； siamese network； attention mechanism； feature rearrangement1 引言近年来，小型无人机在各行各业都得到了广泛的应用，与此同时也给低空安全带来了巨大的隐患。

使用AI技术进行视频目标跟踪的基本工具介绍

使用AI技术进行视频目标跟踪的基本工具介绍一、介绍视频目标跟踪是通过计算机视觉和人工智能技术，对视频中的目标进行持续跟踪和定位的过程。

近年来，随着深度学习和神经网络的快速发展，使用AI技术进行视频目标跟踪已经取得了巨大突破。

本文将介绍几款常用的基础工具，它们在实现视频目标跟踪方面具有重要作用。

二、OpenCVOpenCV（开源计算机视觉库）是一个广泛应用于计算机视觉领域的开源软件库。

它提供了丰富的图像和视频处理函数以及各种特征提取算法。

在视频目标跟踪中，OpenCV可以用于读取视频流，并采用各种常见的图像特征检测器（如Haar 特征或HOG特征）进行目标定位。

三、YOLOv3YOLOv3是一种快速而准确的对象检测模型，通常应用于实时场景分析和物体识别任务中。

由于其高效率，YOLOv3也被广泛运用于视频目标跟踪领域。

该模型通过将图像划分为不同的网格单元，对每个单元进行目标分类和边界框回归。

YOLOv3能够实现在视频中实时地准确跟踪多个目标。

四、Deep SORTDeep SORT是一种基于深度学习的视频目标跟踪算法，它结合了卷积神经网络和外观特征描述符的优势。

Deep SORT主要包含两个阶段：首先通过卷积神经网络提取帧的特征表示，然后采用余弦相似度计算来匹配已知目标并预测新出现的目标。

与传统的SORT方法相比，Deep SORT具有更好的鲁棒性和准确性。

五、SiameseRPNSiameseRPN是一种基于孪生网络结构和区域缩放机制的视频目标跟踪算法。

该模型通过训练一个全卷积神经网络，在不同尺度下提取特征，并利用孪生网络构建区域候选框及其对应网络特征图之间的关系。

SiameseRPN能够在复杂背景和光照变化等困难条件下准确跟踪目标，并且具备实时性能。

六、相关应用领域视频目标跟踪技术在许多领域有着广泛的应用。

其中，在智能监控系统中，视频目标跟踪可以帮助实时检测犯罪行为、追踪漏洞以及提高安全性。

此外，该技术还可以应用于自动驾驶车辆中，辅助车辆感知和行为预测。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y f( z) 2
① 当 y f(z) 1 时，预测值和目标值相差小于1，不容易造成梯度爆炸，此时给一个0.5的平滑系数：
1 y f ( z) 2 2
② 当 y f(z) 1 时，预测值和目标值相差大于等于 1，易造成梯度爆炸，此时降低损
失次幂数，变成y f(z) 0. 5
Ax Ay Aw Ah Tx Ty Tw Th
ancchor boxes boxes
ground truth boxes
RPN（Region Proposal Network）
Smooth L1 loss：
Smooth L1损失函数是在Fast R-CNN中被提出，主要目的是为了防止梯度爆炸。
目标检测中的回归问题最初采用均方差损失：
imtermediate layer
13*13*256
cls layer 1*1*256*(2*k)
cls scores map 2*k
reg layer 1*1*256*36(4*k)
reg scores map 4*k
RPN（Region Proposal Network）
loss function: classification loss(cross-entropy) + regression loss( smooth L1)
然后图像预处理方式与Siamese-FC相同，具体来说就是经过填充、裁剪、缩放，把ground truth box放到图像的中心位置。预处理后的效果如下图所示。
模型训练
《与目标相邻但又不是目标的子窗口》对跟踪器性能影响最大。这个比较好理解，因为跟踪器的性能评价指标与IOU紧密相关，IOU在0.2，0.3左右确实比较影响性能。经过这样的处理以后，《与目标相邻但又不是目标的子窗口》在数量和质量上都得到了保障。但这样又带来了一个问题：纯背景的IOU更小，不是会更加影响性能吗？为什么不用纯背景作为反例来进行训练呢？我个人的理解是这样： 1、在真正进行跟踪时，如果真的跟踪到了纯背景的图像，那么想在下面的帧跟踪到目标已经不可能了。与其这样，还不如在IOU比较小的时候及时进行调整。 2、跟踪器在VOT或OTB数据集上进行测试时，若IOU小于某个阈值，则会进行复位操作（即把ground truth告诉给跟踪器），基于这种考虑，模型在数据集上进行测试时不太可能跟踪到纯背景的图像。 3、纯背景的图象太多，而且没有提供关于目标的任何信息，因此用这种图像来训练没有任何意义。
概要
目标跟踪和目标检测是不同的：detection是给一幅图，要求输出图片上的《在训练集中出现过的物体》的类别和位置；而tracking则是给一组连续的视频帧，以及第一帧中物体的位置，要求输出剩余帧中该物体的位置，并且该物体是训练集中从未出现过的。可以看出，detection要求localization and classification，而tracking则只要求localization，但是tracking对定位的精度和速度的要求比detection高得多： tracking的精度评价指标EAO与IOU直接相关，而detection的评价指标mAP则是要求IOU只要过线就行。而且更重要的是，tracking要求定位的物体是训练集中从未出现过的，这是最主要、最本质的区别。
，这时方向传播求导时候就不y存在f ( z)
这一
项了，从而防止了梯度爆炸
跟踪框架
网络的两支在测试过程中被拆开，模板支只在模板帧进行前向传播，只有检测分支在每一帧都会进行。模板帧将两个特征图计算好后并保留下来，检测分支只需要保留这两个特征，不再需要进行模板帧的前向传播。
跟踪框架
Proposal selecction
High Performance Visual Tracking with Siamese Region Proposal Network
Siamese+RPN
（CVPR2018 SenseTime）
汇报人姓名汇报日期
目标跟踪：
对于一段连续的视频，给定第一帧中的标定框（框住需要跟踪的物体），要求在该视频的后续帧框住该物体。
tracking.ECCV2016)
template
search region
优点：把tracking任务做成了一个检测/匹配任务整个tracking过程不需要更新网络，这使得算法的速度可以很快（FPS：80+）
缺陷：1.模板支只在第一帧进行，后面帧不更新（第一帧可靠，算法精简速度快） 2.只得到目标的中心位置，得不到尺寸（多尺度回归，增加计算量）
RPN（Region Proposal Network）
Faster R-CNN network
Region Proposal Network
RPN（Region Proposal Network）
conv feature map 13*13*256
g window 3*3*256*256
Siamese+RPN
SiameseRPN的训练框架：左边是用于提取特征的孪生网络；中间是区域推荐网络，包含分类分支和回归分支。这里采用成对的相关操作来得到最后的输出。关于输出的各个通道的细节在右边具体展示：在分类分支，输出的特征图包含2k个通道，分别表示k个锚点的前景背景的分数；在回归分支，输出的特征图包含4k个通道，分别表示k个锚点的坐标偏移的预测。图中*表示相关操作。
Motivation &Summary
• 作者以Siamese Network为baseline，针对Siamese的缺陷，提出了一个 Siamese+RPN（Region Proposal Network）的跟踪网络。提升了精度和速度。
Siamese Network (Fully-convolutional siamese networks for object
① 中心先验
② ③ NMS
LocNet: Improving Localization Accuracy for Object Detection
模型训练
LocNet采用的loss与Faster-RCNN相同，分类部分的采用cross-entropy loss，回归部分采用 smooth L1 loss。
tracking的两类主要方法：
1、基于相关滤波。比如KCF、ECO等。此类模型为生成式模型，没有像神经网络那样的迭代训练过程。 2、基于深度学习（CNN）。比如Siamese-FC，Siamese-RPN等。
一、本文主要贡献
1、提出siamese region proposal network(Siamese-RPN)用于解决目标跟踪问题。该网络可利用“图片对”进行端到端地离线训练； 2、该模型可将在线跟踪任务转换为one-shot检测任务，而不是使用低效费时的多尺度测试 (multi-scale test)； 3、该模型在保证准确率的同时，达到了较高的速度。