复杂环境下视觉目标跟踪研究现状及发展

2024-08-22 00:00:00于明鑫王长龙张玉华邢娜李爱华马晓琳
航空兵器 2024年3期
关键词:深度学习

摘" 要:""""" 视觉目标跟踪是计算机视觉领域的重要研究方向之一, 在战场侦察、" 视频监控、" 自动驾驶和视频分析等军事和民用领域得到广泛应用。 近年来目标跟踪算法已经取得一系列进展, 但由于在实际跟踪过程中存在着复杂的目标和背景变化, 稳定的目标跟踪仍面临很多挑战。 本文首先介绍了实际跟踪场景中出现的困难挑战; 其次, 主要针对背景相似干扰、" 旋转变化、" 遮挡、" 尺度变化等难点问题分别就特征提取、" 观测模型和模型更新三个方面对具有代表性的判别式目标跟踪方法进行深入阐述和分析; 随后, 在OTB2015数据集上对25种典型跟踪算法进行了实验对比与分析; 最后, 对视觉目标跟踪技术的发展方向进行展望。

关键词:"""" 视觉目标跟踪; 判别式目标跟踪模型; 相关滤波; 深度学习

中图分类号:""""" TJ760

文献标识码:""" A

文章编号:"""" 1673-5048(2024)03-0040-11

DOI: 10.12132/ISSN.1673-5048.2023.0112

引用格式: 于明鑫, 王长龙, 张玉华, 等. 复杂环境下视觉目标跟踪研究现状及发展[ J]. 航空兵器, 2024, 31( 3): 40-50.

Yu Mingxin, Wang Changlong, Zhang Yuhua, et al. Survey of Visual Tracking Algorithms in the Complex Scenarios[ J]. Aero Weaponry, 2024, 31( 3): 40-50.( in Chinese)

0" 引" 言

视觉目标跟踪是在初始视频帧中框定感兴趣目标, 在后续视频帧中对该目标进行持续定位, 是计算机视觉领域的一个研究热点。 目标跟踪被应用在包含视频监控、" 无人驾驶、" 军事领域等众多军事和民用场景中。

在武器制导、" 战场侦察和武器打击效果评估领域中, 目标的运动状态是系统必需的重要信息。 比如在战场侦察中, 通过对既定目标进行长时间的持续跟踪, 实时传回目标位置信息和状态信息, 为指挥员的决策以及后续的精确打击提供基础。

近年来, 目标跟踪技术的框架和精度获得了很大提升和改进, 但跟踪过程中目标自身的变化和跟踪环境的复杂性导致目标外观特征不断变化, 对跟踪提出了巨大的挑战, 存在如目标遮挡、" 旋转变化、" 尺度变化、" 背景杂波等情况, 在复杂场景下目标跟踪容易出现目标失跟、" 漂移到相似干扰物等情况, 如何实现复杂场景下稳定且鲁棒的目标跟踪, 对实际应用具有重大意义。 现有的大多数算法主要致力于提高在数据集上的综合性能, 缺乏对具体跟踪挑战的解决。 针对不同的特定环境条件, 需要有针对性地解决相应的困难挑战。 本文针对复杂环境下的判别式目标跟踪算法进行综述, 针对目标跟踪过程中出现的困难挑战对跟踪算法进行分类分析, 能够应对复杂多变的环境带来的跟踪挑战, 实现在复杂场景中稳定的目标跟踪。

1" 视觉跟踪中的难点

视觉目标跟踪技术在跟踪精度和准确率上不断提升, 但由于跟踪环境的复杂性和多变性, 设计一个鲁棒、" 稳定的跟踪算法实现复杂环境下的稳定跟踪仍然面临很多挑战。 这些挑战主要来自外在挑战和内在挑战, 如图1所示。

外在挑战是指跟踪场景中环境的变化, 如背景相似干扰、" 遮挡。

背景相似干扰: 目标在运动过程中背景经常发生变化, 背景可能会对目标的判别产生干扰, 尤其当目标周围出现相似干扰物时, 比如相似的外观、" 相似的颜色分布或者相似的轮廓形状等情况, 由于相似干扰物的特征和目标具有相似性, 无法将目标与相似干扰物区分开, 导致跟踪器容易将干扰物误认为是目标, 模型在训练时将干扰物误认为是正样本, 误差通过正反馈不断积累, 模型逐渐对干扰物过拟合, 无法重新识别目标, 造成模

收稿日期: 2023-06-06

基金项目: 基础前沿科技创新项目(KYSZJXXXXX006)

作者简介:" 于明鑫(1996-), 女, 山东威海人, 博士研究生。

*通信作者: 马晓琳(1979-), 女, 河北石家庄人, 教授。

型漂移。

遮挡: 当目标发生局部遮挡时, 仅保留一部分有效的目标的外观特征, 导致跟踪器无法识别出目标; 当目标发生全局遮挡时, 遮挡物覆盖了目标的外观特征, 导致将遮挡物误认为目标, 将错误的信息引入滤波器训练阶段, 导致模型漂移、" 判别能力下降, 即使目标再次出现在视野中, 由于模型漂移也会导致跟踪失败。

内在挑战是指目标自身变化带来的跟踪困难。 当目标发生变化时, 目标的外观特征也发生改变, 对目标外观的建模不够及时准确, 造成跟踪困难。 如图1(c)中, 玩具在运动过程中发生了角度的旋转, 第一帧训练的目标模板不足以反映当前帧的目标特征, 滤波器训练过程中会将竖直目标框内的背景误认为是目标, 造成模型漂移跟踪失败。 航空兵器" 2024年第31卷第3期

于明鑫, 等: 复杂环境下视觉目标跟踪研究现状及发展

尺度变化: 在实际的跟踪过程中, 目标的尺度可能由于距离摄像头的远近发生变化。 当目标尺度由大变小时, 原本的跟踪框内存在着大量背景负样本, 而背景信息也被认为是目标的一部分用来训练; 当目标尺度由小变大时, 滤波器只能学习到目标的局部信息, 损失一部分目标特征。 两种情况都会导致不正确的样本参与滤波器训练, 长时间会导致滤波器漂移造成跟踪困难。

2" 跟踪难点的解决办法

2.1" 背景相似干扰

背景相似干扰指在跟踪过程中视频帧中目标周围出现相似干扰物, 相似干扰物在特征表达上和感兴趣目标相似, 为了更准确地判别目标和相似干扰物, 需要针对相似干扰物特性对于相似的颜色、" 外观设计一个判别能力强的跟踪框架。 判别式目标跟踪框架核心主要包括特征提取、" 观测模型和模型更新三部分。

2.1.1" 特征提取

(1) 单特征

MOSSE(Minimum Output Sum Square Error)[1]采用灰度特征作为目标特征进行目标跟踪, 计算量小, 跟踪速度快, 但跟踪精度低。 Danelljan等[2]利用CN特征作为目标特征进行目标跟踪, 把RGB颜色分为11类, 利用主成分分析法(PCA)将11维的特征降到2维, 自适应的选择显著性颜色。 文献[3]利用HOG特征, 将图像划分为局部方格单元, 并提取像素的梯度方向和梯度强度, 对几何和光照都能保持很好的不变性。 单特征在某些特殊环境下具有局限性, 制约着跟踪准确度的提高。

(2) 多特征

不同的特征能够表征目标的不同属性, 其在不同情形能发挥不同的效果, 多特征融合可以融合不同特征的特性实现优势特点的互补。 HOG特征在目标发生形变时跟踪效果差, 但目标的颜色分布不会发生改变, 因此颜色直方图特征对目标形变具有良好的不变性。 文献[4]融合了HOG特征与颜色直方图特征作为目标特征, 将两种特征的优势特点进行互补, 弥补了各自的局限性, 在不同场景下发挥两种特征的跟踪优势。 但未考虑特征之间的内在联系, 仅以固定的权重将其级联成高维向量, 在有些场景下会退化跟踪器的表现甚至比单一特征的表现更差。 文献[5]提出一种自适应特征融合的目标跟踪算法, 利用峰值旁瓣比作为权重自适应地对HOG特征和颜色特征加权融合。

(3) 深度特征

目标分类、" 目标检测等领域利用深度学习强大的特征表达能力实现了跨越式发展, 利用深度特征作为目标跟踪中的特征表示成为了新的研究方向。 文献[6]首先在ImageNet上预训练VGG-19网络, 提取conv3_4, conv4_4, conv5_4三层特征作为目标特征, 将不同层的深度特征进行由粗到精的融合, 同时兼顾底层特征的细节信息和高层特征的语义信息, 三个响应图加权融合得到最终目标响应, 利用最终响应图判断目标位置。

特征按空间维度和通道维度直接级联, 采样区域内的背景会对目标产生干扰作用, 因此, 研究者们提出利用特征选择的方式增强目标特征[7-8]。 文献[7]提出基于实例的特征金字塔, 设计基于实例的上采样模块融合浅层和深层特征, 同时利用压缩空间通道选择模块对特征通道进行自适应加权组合, 充分挖掘浅层和深层特征的优势。 考虑到浅层特征鲁棒性较差, DA-GNT(Domain Activation Mapping-Guided Network)[8]将VGG-M和VGG-16网络进行集成, 尤其将域空间注意力图作为VGG-16网络的输入可以对背景特征实现一定的抑制, 利用VGG-M网络的空间细节信息对VGG-16进行了补充。 HiFT(Hierarchical Feature Transformer)[9]将多层卷积特征传入Transformer, 实现底层特征和深层特征的自适应交互性融合, 不仅能够获得全局上下文信息, 而且端到端的网络结构可以学习到多个卷积层特征之间的依赖关系。 特征之间在语义上可能是有重复性的, 很可能存在特征冗余。 RPformer(Robust Parallel Transformer)[10]利用双路Transformer结构提取目标感知特征。 双路Transformer是平行结构形成信息互补, 既可以利用特征的依赖性, 同时捕获视频序列中模板和搜索区域中丰富的全局上下文信息, 又利用多头交叉注意力特征融合模块对两个分支特征自适应融合, 提高目标和背景特征的判别力。 相关操作会丢失语义信息, TransT(Transformer Tracking)[11]设计了基于自注意力的自我上下文增强模块和一个基于交叉注意力的交叉特征增强模块, 只使用Transformer来替代基于相关操作的网络用于特征融合。

如何在不同的跟踪任务选择合适的特征以及更有效的特征融合方式仍然有进一步研究的空间。

2.1.2" 观测模型

观测模型主要是判别当前关注的候选区域是否为目标, 是目标跟踪算法中的核心部分之一。 跟踪任务首先提取候选区域的特征, 再利用观测模型判别是目标还是背景区域, 最终预测目标位置。 SCAFNet(Scene Context Attention-Based Fusion Network)[12]构建目标位置模块和场景上下文模块, 增加注意力层增强上下文信息, 在特征层和决策层自适应融合目标特征和上下文知识, 利用上下文信息作为先验知识辅助目标完成跟踪。 CACF(Context-Aware Correlation Filter)[13]在相关滤波器的训练中引入了邻域上下文信息, 显式地利用上下文信息, 并证明新的优化函数可以有闭式解, 目标和上下文信息同时参与滤波器的训练。 上述目标跟踪方法主要是利用目标附近上下文背景辅助目标进行定位, 增强背景感知能力, 但是当目标周围有相似干扰物时, 上下文信息可能就存在对感兴趣目标的相似干扰, 造成跟踪器的漂移。 为了更有效地抑制无关背景信息, 主要有两类方法:

(1) 边界效应抑制法

SiamFC(Fully Convolutional Siamese Networks)[14]利用余弦窗来降低图像块的边缘背景干扰, 以上一帧目标位置为中心提取搜索区域, 在搜索区域上添加余弦窗, 削弱边缘部分背景信息, 但是余弦窗将搜索区域的边缘像素全部置0, 过滤掉判别式跟踪器本来需要学习的背景信息, 降低了判别式跟踪器的判别力。 SRDCF(Spatially Regularized Correlation Filters)[15]采用空间正则化方式抑制背景, 根据空间位置对远离目标中心的边界区域的滤波器系数进行惩罚, 通过惩罚系数降低背景区域的权重。 SCSTCF(Spatial-Channel Selection and Temporal Regularized Correlation Filters)[16]构建时空正则化相关滤波器, 时间正则化避免滤波器在时间维度上发生突变, 而文献[17]从不同的角度通过构建相邻帧环境残差项保持滤波器的时序连续性, TrDiMP[18]通过Transformer结构探索视频帧之间的时间上下文关系, 将历史帧模板送入解码器, 这样搜索区域可以从历史帧中聚合目标信息, 但空间正则化矩阵是固定不变的, 对背景的抑制作用也是固定的, 忽略了目标的多样性和时变性, 当目标形状或者尺度发生改变时, 对背景的抑制作用降低甚至可能减弱目标。 文献[19]引入自适应空间正则化项惩罚边界的滤波器系数, 将自适应正则化项整合于滤波器训练框架, 使得约束权重能够根据目标状态的变化自适应改变, 更有针对性地约束边界区域。 AutoTrack[20]利用局部和全局响应图的变化自适应地设计空间正则化超参数, 后来的研究针对自适应正则化的构建进行了扩展, 比如基于尺度大小的正则化项[21]、" 基于跟踪置信度的正则化项[22]和基于内容感知的正则化项[23], 通过正则权重对边界区域进行约束, 减小边界效应的影响。

SCA-Siam[24]和SMCF(Soft Mask Correlation Filter)[25]在目标外观模型中引入了软掩膜的概念, 然而基于正则化项和软掩膜都忽略了背景区域中和目标相关的有用信息, ATSM(Adaptive Target-and-Surrounding Soft Mask)[26]构建目标-背景自适应软掩膜, 使用非零区域对滤波器进行扩展, 其可以整合有用背景信息、" 抑制无关背景, 同时对于跟踪框内的目标区域, 增强可靠性目标区域、" 抑制频繁变化的区域。 但空间正则化方法通常忽略特征的冗余性, 和空间正则化思路不同, LADCF(Learning Adaptive Discriminative Correlation Filters)[27]使用lasso约束对空间特征进行选择, 自适应地保持了目标及背景的判别流形结构, 自适应选择最优判别空间掩膜, 避免边界失真, 并抑制干扰信息的影响, 从而实现压缩感知。

(2) 目标响应自适应约束

当目标周围背景存在相似干扰时, 传统相关滤波器的理想响应不能反映当前帧的场景, SRECF(Spatial Reliability Enhanced Correlation Filter)[28]通过空间可靠性动态的调整响应标签, 根据当前跟踪状态和响应图的变化趋势设置惩罚标签, 对不可靠的目标区域进行压制。 Zheng等[29]提出背景约束项, 将历史帧中学习到的背景抑制信息加入滤波器训练中。 孪生网络的深层特征只抽取了语义表述, 很容易漂移到属性类似的干扰物, EDCF[30]利用自编码结构强调目标的细节信息, 并利用上下文感知的相关滤波器抑制掉周边的干扰。 常见的孪生网络框架只能区分目标和无语义的背景杂波, 当背景干扰是有具有语义含义的物体时, 跟踪效果较差, DaSiamRPN(Distractor-Aware Siamese Networks)[31]在训练数据内加入语义负样本对, 通过非极大值抑制筛选类内干扰, 构造干扰感知目标函数, 使用增量学习的方式来训练目标模板和干扰模板, 对候选区域和目标模板的目标响应与候选区域和干扰模板的干扰响应的加权和作差, 实现了背景干扰的压缩。 针对干扰物响应可能存在超过目标响应造成跟踪失败的情况, ATOM(Accurate Tracking by Overlap Maximization)[32]采用基于共轭梯度的在线训练分类器, 并采用难分类样本挖掘策略, 在有干扰物的场景中通过对干扰物峰值处训练样本学习率加倍进一步增强分类组件的鲁棒性, 其网络结构如图2所示。 Nocal-Siam[33]提出位置感知的非局部模块, 利用非局部注意力机制的长距离依赖性对多个响应图的位置信息进行约束学习, 生成自适应的响应权重对背景中的干扰物进行抑制。 Pg-Net(Point Gathering Network)[34]设计一种像素-全局匹配的方法, SiamGAT(Siamese Graph Attention Tracking)[35]利用完全二分图来建立目标模板和搜索区域之间的部分与部分对应关系的方法来抑制背景的干扰。

如何直接对背景中的相似干扰物有针对性地进行约束建模并调整跟踪响应的分布," 还有待进一步研究解决。

2.1.3" 模型更新

模型更新关注于如何设计一种更新策略及时适应目标表观特征动态变化, 降低模型漂移现象出现的概率, 使跟踪算法在不同跟踪场景保持较好的鲁棒性。 现有的目标跟踪算法对在线更新和不更新之间进行权衡, 一方面, 停止外观模型的更新对于遮挡、" 光照变化等跟踪挑战具有更强的鲁棒性, 然而当出现相似干扰物或者目标自身形变等情况, 会引入模板漂移、" 欠拟合等问题; 相反, 在线更新可能会使模型受到遮挡等其他复杂干扰而产生漂移。 目前, 常见的目标更新策略主要有以下三类:

(1)" 逐帧更新

文献[36]提出利用线性插值法在每一帧采用固定的学习率对模型进行更新。 但逐帧在线更新计算压力大, 实时性较差, 而且逐帧更新更容易受到背景负样本的干扰, 尤其是目标被遮挡时, 可能会把背景当作目标对模型进行更新, 增加了跟踪算法漂移的可能性。

(2)" 稀疏更新

DTT(Discriminative Tracking with Transformers)[37]间隔固定帧数进行参数更新, 但是不能及时更新目标状态, 且如何确定帧数间隔又是新的问题。

(3)" 自适应更新

通过判断目标外观的变化情况动态地更新模型, 可以有效避免固定式模型更新的盲目性。 文献[38]提出利用模型参数的变化率表征模型更新的频率, 模型参数的变化率越大, 越能促进模型更新。 文献[39]提出利用帧差法比较图像的平均差分分段调整更新速率。 文献[40]提出利用平均峰值相关能量(Average Peak to Correlation Energy, APCE)平衡模型更新, APCE指标衡量目标响应图的震荡程度, 只有当前帧APCE值大于历史帧APCE均值, 才对滤波器模型进行更新, 说明目标响应图震荡缓慢, 跟踪结果可靠, 降低了模型被污染的风险。 仅利用前一帧模型进行更新, 容易导致对最近邻模型的过拟合, 稳定性较差, 文献[41]提出UpdateNet模板更新方法, 在模板分支增加UpdateNet结构, 将初始帧、" 当前帧以及累积模板作为网络框架的输入, 通过残差学习, 在下一帧预测最优的目标模板, 实现了模板自适应更新, 利用前T帧模型共同进行更新增强了模型更新的稳定性。 文献[42]利用动态记忆网络来动态地更新目标模板, 能够自适应地捕捉视频序列的依赖性, 同时自适应地学习目标外观的变化, 为了减小计算压力, 采用快速的候选框选择策略筛选高质量的候选框用于LSTM进行分类。 由于跟踪过程中正样本不足, 分类器容易过度拟合并且失去泛化能力, 元学习网络[43]被用来进行模型更新。 文献[43]提出将元学习网络和SiamFC网络结合, 将SiamFC网络最后一层的梯度传递到元学习网络, 生成额外的卷积核和通道注意力参数, 将这些动态新增的参数合并到SiamFC中, 从而让特征空间可以根据追踪过程中获得的新的外观模版进行自适应更新, 而不会产生过拟合情况。

2.2" 遮" 挡

视频帧中局部遮挡会造成目标外观变化, 而全局遮挡会导致目标在视野中消失, 同时在遮挡发生时如果不合理地更新目标模板会引入大量负样本, 造成模型漂移, 即使目标再次出现在视野中, 由于模板的漂移使得模型无法识别目标。 因此, 需要跟踪算法能够判断出目标遮挡的程度, 并利用历史帧的目标外观模型和当前帧仅有的目标信息预测目标位置。 目前解决目标遮挡的策略主要有分块跟踪和重检测两种。

2.2.1" 分块跟踪

文献[44]对目标块分别利用相关滤波进行跟踪(分块跟踪框架如图3所示), 将分块滤波器的响应图联合得到最终的目标位置, 采用SCCM指标检测各个图像块遮挡程度, 自适应分配目标块权重, 降低了被遮挡局部图像子块对跟踪结果的影响, 未发生遮挡的图像子块依旧可以表达目标外观特征, 但只考虑目标的局部信息, 忽略目标块之间的空间结构联系以及全局上下文信息。 文献[45]提出一种基于新的分块方式的目标跟踪算法, 对图像子块分别进行滤波跟踪, 根据子块的平均位移估计粗略的目标位置, 在此基础上利用全局滤波器估计得到最终精确的目标位置。 Han等[46]提出目标显著性指导的图像块采样策略, 并且利用非极大值抑制排除重叠率高的图像块, 充分考虑中心显著性区域和边缘区域的差别, 有利于目标关键语义特征整合。 但局部目标块仅利用目标局部信息, 一旦子块发生漂移, 对跟踪结果影响较大。 因此, 需要对局部子块的跟踪结果进行筛选。 Wang等[47]提出利用MCS作为评价指标衡量图像子块的可靠性, 根据可靠性权重采用Hedge算法融合各个图像块的跟踪结果得到最终的目标位置。 文献[48]提出自适应分块策略, 以目标的尺寸及宽高比作为依据, 通过局部子块与全局目标之间的空间几何关系估计目标位置, 并且基于峰值旁瓣比和欧氏距离判断跟踪置信度, 对于置信度低的局部子块的位置进行重新初始化。

利用局部滤波器如何根据目标特性设计合理的分块策略, 如何处理局部子块之间以及全局与局部之间的空间位置关系, 以及依据跟踪状态对目标块进行筛选还有待进一步研究。

2.2.2" 重" 检" 测

通过对跟踪过程中的遮挡程度进行判断, 利用重检测机制重新定位跟踪目标。 TLD(Tracking-Learning-Detection)[49]首次将传统的跟踪模块和检测模块相结合, 在判断目标发生遮挡时利用检测模块对图像样本进行分类来重新检测目标。 除了TLD以外, 条件随机场模型[50]、" 随机森林分类器[51]、" boosting算法[52]、" MIL跟踪器[53]、" SVM[54]、" 最近邻规则分类等也作为检测模块被广泛应用到目标跟踪领域, 然而, 检测模块有较大的偶然性, 没有提出目标跟踪置信度评价指标, 在没有遮挡情况发生时容易造成误检测, 而且在全局进行遍历, 计算压力较大。 LCT(Long-Term Correlation Tracking)[55]利用响应峰值作为判断遮挡的评价指标, 使用在线随机蕨在目标丢失时重新检测目标, 很大程度上提升了目标发生遮挡情况下跟踪的精度, 跟踪框架如图4所示。 文献[56]提出同时考虑APCE及其梯度作为跟踪置信度评价指标, APCE梯度可以表征相邻帧之间的变化程度。 文献[57]提出同时考虑最大响应值和APCE两种可靠性指标判断目标被遮挡程度, 在目标被遮挡后启用SVM重新检测目标, 同时将滤波器重新初始化, 只有跟踪置信度高的视频帧的样本被用来训练更新SVM。 文献[58]将峰值旁瓣比和次主峰与主峰比相乘的结果作为跟踪置信度。 文献[59]将峰值响应、" 峰值旁瓣比、" 次主峰与主峰比和APCE四个判断指标相乘作为遮挡的评价指标。 SiamRPN(Siamese Region Proposal Network)[60]和SiamRPN++[61]将搜索策略从局部扩展到全局来检测目标是否跟踪丢失。 文献[62]将重检测机制分为第1帧重检测和扩展区域重检测。 第1帧重检测机制利用第1帧图片信息更新目标特征, 降低背景信息的干扰作用; 扩展区域重检测在扩大的搜索区域内重新搜索目标。 Zhang等[63]提出1种反遮挡机制, 当目标局部遮挡时, 局部极值点位置有可能是目标位置, 因此提出将局部极值光滑性作为评价准则判断局部极值点是否为目标位置。 如果局部极值光滑性大于给定阈值, 则以该极值点为中心提取搜索区域, 利用相关滤波器重新提取目标特征跟踪定位目标。

虽然上述算法在解决遮挡挑战下有一定效果, 但是遮挡评价指标过分依赖响应图, 而且遮挡情况下有效目标信息有限, 遮挡物对于模型训练带来负面影响, 基于分类器的重检测模块的性能发挥受限。 因此, 判断目标的置信度并在跟踪遮挡后利用有限的目标信息重新搜索定位目标是很重要的。

2.3" 旋转变化

视频序列中当目标发生旋转变化时, 对目标外观的描述发生变化, 跟踪框内包含大量背景信息, 滤波器不可避免地学习到背景信息, 会引起模型漂移。 因此, 提取有效的目标特征, 保持跟踪过程中的旋转不变性, 排除背景信息的干扰至关重要。

文献[64-66]提出将样本转换到对数极坐标系下, 利用相位相关法在对数极坐标中同时估计目标的尺度变化因子和旋转角度, 利用相关滤波器估计目标位置, 最后将极坐标系下的平移量转换到笛卡尔坐标系下, 估计目标旋转角度。 文献[67]提出在利用传统相关滤波器训练位移滤波器的基础上, 在目标中心多角度采样构建样本金字塔, 和DSST类似的思路训练一个一维角度滤波器, 角度滤波器和样本金字塔相关响应的峰值即为当前目标的旋转角度。 角度滤波器具有通用性, 可以整合在其他大部分以相关滤波器为基础的跟踪器内。 文献[68-69]重新构造了旋转感知的相关滤波器, 等角度间隔旋转采样特征模型, 得到目标在不同角度下的特征表示, 以此构造基本样本并进行循环移位, 传入滤波器估计最优目标位置及旋转角度, 利用旋转后的样本估计目标尺度。 分别枚举角度池和尺度池, 导致候选图像块数量加倍, 严重制约着跟踪器的速度。 为了同时保持精度和速度, 文献[70]将角度池和尺度池结合, 在搜索框上同时施加旋转变换和尺度变换, 将变换后的搜索框输入DCNN进行特征提取, 但多个搜索框分别传入DCNN依旧会造成计算压力。 Siam-OS[71]提出对原始搜索框首先经过DCNN进行特征提取, 再对特征图进行旋转和尺度变换, 减少了DCNN的深度特征提取过程的计算复杂度, 提高了计算速度, 但固定的角度池限制了角度估计的精度。 文献[72]提出针对SAR图像的目标旋转角度估计方法, 利用哈希算法检测目标的角点坐标, 利用最小二乘法估计目标旋转角度。 该类旋转估计方法能自适应目标旋转角度的变化, 克服了角度池中角度变化范围有限的限制, 但是角点坐标估计的精度严重影响制约了旋转角度的估计, 算法复杂度高。 SiamMask-E[73]在SiamMask掩膜的基础上利用椭圆拟合方法拟合目标轮廓并进行仿射变换得到旋转的矩形边界框, 将最小-最大轴对齐边界框和拟合边界框取交集得到最终目标的边界框。

2.4" 尺度变化

当目标尺度由大变小时, 原本的跟踪框内存在着大量背景负样本, 而背景信息也被认为是目标的一部分用来训练; 当目标尺度由小变大时, 滤波器只能学习到目标的局部信息而丢失其他重要信息, 两种情况都会导致不正确的样本参与滤波器训练, 长时间会导致滤波器漂移造成跟踪困难。 因此, 需要在跟踪过程中估计目标尺度, 针对尺度变化的解决方案主要有分块处理和多尺度搜索两种。

2.4.1" 分" 块

PSC(Patch-Based Scale Calculation)[74]提出将目标分成4个局部子块, 根据图像中4个局部子块响应峰值位置之间的相对距离变化来估计目标尺度的变化。 Fu等[75]提出利用可靠局部子块响应图的分布估计目标初始尺度, 结合贝叶斯框架估计最优目标尺度。 分块跟踪处理尺度变化不仅能够估计目标尺度, 同时还能缓解目标局部遮挡带来的跟踪挑战。

2.4.2" 多尺度搜索

DSST[76]提出构建尺度滤波器, 穷举n个尺度的图像块, 给定一维高斯标签训练尺度滤波器, 最大目标响应对应的尺度即为最优尺度, 该算法的特点是通用性强, 可以整合在其他大部分跟踪器内, 基于位置跟踪器的位置估计和基于尺度滤波器尺度估计互不影响。 类似采用尺度滤波器的文献[77, 79]给解决尺度变化提供了可行性。 SAMF[78]引入尺度池, 对多尺度图像利用双线性插值缩放, 保持目标尺寸, 对多尺度图像分别计算滤波响应, 响应值最大处所在的位置和尺度为最终位置和最优尺度。 为了能够同时估计位置和尺度的变化, 文献[80]采用多尺度搜索, 将不同尺度的候选区域同时输入孪生网络, 经过相关滤波层计算匹配响应, 具有最大响应值的候选区域来确定位置和尺度。 为了减小逐帧穷举尺度池的计算压力, 文献[81]提出一种自适应的尺度检测方法, 利用PSNR值作为评价指标启动或停止多尺度检测。 SiamRPN[60], SiamRPN++[61], STMTracker(Space-Time Memory Networks)[82], SiamMask[83]引入候选区域生成网络以搜索区域上的对应位置为多尺度锚盒的中心, 对目标边界盒进行回归, 这其实也是基于多尺度搜索, 本质上和穷举尺度池是一致的, 但锚框的设计需要启发式调整, 引入大量超参数和计算复杂性。

尺度池在一定程度上可以估计目标尺度的变化, 但尺度池的搜索范围是粗略的, 想要提高尺度估计的精度需要对尺度池进行扩展。 盲目扩展尺度池的搜索范围会极大地增加计算压力, 因此, 如何在尽量不增加计算压力的前提下提高尺度估计的精度是迫切需要解决的问题。

SiamFC++[84], SiamBAN(Siamese Box Adaptive Network)[85]和SiamCAR(Siamese Fully Convolutional Classification and Regression)[86]在统一的全卷积网络中直接预测前景目标得分和跟踪框到特征位置中心点的相对偏移量, 通过偏移量可以直接估计目标的尺度变化。 但是无锚框的跟踪方法对于关键点的检测不稳定, 一旦检测错误, 目标位置和尺度的估计产生偏差较大。

3" 实验结果与分析

为了全面清晰地评估跟踪算法的性能, 对具有代表性的算法在OTB2015数据集上的测试结果进行对比, 将本节的跟踪算法与第2节的研究现状相呼应。 表1是25种跟踪算法在OTB2015数据集上的跟踪成功率以及各种视频属性下的跟踪成功率。 根据测试结果, 按照不同的跟踪挑战, 从特征提取、" 观测模型和模型更新的角度对算法进行对比分析。

从表中可以看出, 跟踪成功率排名前三的跟踪算法分别为STMTrack, SiamGAT和SiamBAN, 3种算法都是基于深度学习的跟踪方法。 HCF使用VGG-19预训练的三层特征替代手工特征进行外观建模, 高层特征包含丰富的语义信息, 引进了多层特征融合机制, 从而构建更精准有效的目标外观模板, 有助于目标和背景的判别, HCF的跟踪成功率相比KCF提高了13.8%。 相比手工特征, 深度特征具有强大的特征表达能力, 数据维度更大, 具有更高的跟踪成功率。

针对背景杂波干扰, SRDCF通过空间正则化方式来抑制边界效应, 达到抑制无效背景的目的。 为了保持滤波器在时序上的连续性, 防止滤波器的突变, TRBACF在空间正则化的同时引入时间正则化, 跟踪成功率相比SRDCF提高了4.5%, 对于背景杂波挑战属性下的跟踪成功率提高了8.3%; 针对固定的正则化权重不能很好地适应目标的变化, SARCF利用基于尺度变化的自适应空间正则化, 通过对目标尺度变化的判断自适应控制惩罚权重系数, 在OTB2015数据集上整体成功率增加了5.2%,

在背景杂波挑战属性下的成功率提升了10.1%。 ATOM从目标响应自适应约束的角度抑制无关背景, 并采用难分类样本挖掘策略, 在有干扰物的场景中通过对干扰物峰值处训练样本学习率加倍进一步增强分类组件的鲁棒性, 在背景杂波挑战下取得60.6%的较高跟踪成功率。 SiamGAT利用完全二分图实现对背景的抑制, 成功率达到了68.8%。 上述实验结果表明, 通过边界效应抑制法和自适应空间约束法可以实现对背景干扰的抑制, 避免将背景干扰误认为是目标导致的跟踪漂移, 提高了跟踪的成功率。

针对遮挡环境, DPCF通过将目标分块处理, 利用局部滤波器实现局部目标子块的粗略估计, 以子块跟踪结果为基础, 结合全局滤波器估计目标位置, 有效解决局部遮挡问题, 在遮挡情况下取得了54.6%的跟踪成功率。 文献[45]利用新的分块方式将跟踪成功率从54.6%提升到60.6%, 表明分块处理可以有效处理遮挡挑战, 但同时根据目标特性设计合理的分块策略影响着跟踪精度的提高。 TLD从重检测的角度处理遮挡挑战; LCT通过峰值响应对目标遮挡情况进行判断, 并利用随机蕨分类器在遮挡发生时重新检测目标。 相比TLD, LCT的遮挡情况下的跟踪成功率提高了16.4%。 CFRFRC重检测模块通过计算APCE值和峰值检验跟踪置信度, 和LCT相比跟踪成功率获得了6.8%的提升, 在一定程度上缓解了遮挡和模型漂移所带来的影响。 文献[63]利用反遮挡机制通过极值点判断遮挡情况, 当遮挡发生时极值点位置附近极有可能是目标位置, 在极值点位置提取感兴趣候选区域完成跟踪, 在同类相关滤波类算法中取得了最高的跟踪成功率, 具有最为优异的跟踪性能。 通过上述分析可以看出, 遮挡程度的判断以及检测模块的选择在目标丢失时具有重新恢复搜索目标定位的能力, 对于处理遮挡问题至关重要。

针对尺度变化场景下跟踪效果的局限性, DSST在KCF的基础上构建了一个一维尺度滤波器, 尺度挑战下的跟踪成功率相比KCF提高了11.4%; SAMF也利用了多尺度搜索的思想, 但是尺度池内候选尺度只有5个, 相比DSST跟踪成功率下降了1.2%。 VGGCF提出放大倍数差异化选取方法, 在候选样本选取阶段对不同尺寸的视频图像、" 不同尺寸的目标进行筛选与过滤, 让跟踪算法从源头便开始适应尺度变化的场景。 因此, 想要提高尺度估计的精度需要对尺度池进行扩展, 候选尺度的扩展可以有效应对跟踪过程中的尺度变化。 SiamRPN利用区域生成网络以搜索区域上的对应位置为多尺度锚盒的中心, 对目标边界盒进行回归, 基于大量锚框的多尺度搜索, 在尺度挑战下的成功率为61.8%, 相比DSST和SAMF具有明显优势, 但SiamRPN中锚框的设计带来很多超参数, 对结果影响较大。 SiamBAN和SiamCAR不依赖锚框, 在全卷积网络中直接预测前景目标和跟踪框到特征位置中心点的相对偏移量, 通过偏移量可以直接估计目标的尺度变化, 在尺度变化挑战下的成功率分别达到了69.4%和69.6%。

4" 展" 望

本文就视觉目标跟踪技术在实际跟踪过程中遇到的由于目标和背景的变化造成的跟踪挑战, 对相关滤波类和深度学习类跟踪方法展开了分析和讨论, 随着研究的不断深入, 跟踪算法在复杂环境下的精度不断提高, 但也有继续提升的空间。 结合本文对目标跟踪研究现状的分析讨论和实验结果的对比分析, 从特征提取、" 观测模型和更新机制三个角度对目标跟踪未来的改进方向进行讨论:

(1) 随着深度学习的不断发展, VGG, ResNet等各种网络架构层出不穷, 可以提取到鲁棒的特征, 但不可避免地存在特征冗余的问题, 因此, 选择合适的网络框架提取特征, 利用压缩感知对空间维度上的有效特征进行增强, 保留有效特征降低特征冗余, 以及采用有效的特征融合方式可以进一步提高跟踪性能。

(2) 复杂的背景区域对跟踪器带来漂移的可能, 背景区域不仅包括目标框外的环境背景, 更包括目标框内除了目标以外的部分背景, 结合注意力机制或者显著性检测排除两部分背景的干扰作用, 有利于进一步提高跟踪的鲁棒性。

(3) 研究实时可靠的模型更新机制, 更新机制能够及时判别目标变化的状态, 根据目标自身的变化状态以及响应图自适应地进行模型更新, 既能实时获取最新的目标特征, 又能避免不恰当的更新导致的模板漂移。

参考文献:

[1] Bolme D S, Beveridge J R, Draper B A, et al. Visual Object Tracking Using Adaptive Correlation Filters[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 2544-2550.

[2] Danelljan M, Khan F S, Felsberg M, et al. Adaptive Color Attri-butes for Real-Time Visual Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014: 1090-1097.

[3] Henriques J F, Caseiro R, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[4] Yan Y M, Guo X X, Tang J, et al. Learning Spatio-Temporal Correlation Filter for Visual Tracking[J]. Neurocomputing, 2021, 436: 273-282.

[5] 陈法领, 丁庆海, 常铮, 等. 自适应特征融合的多尺度核相关滤波目标跟踪[J]. 光学学报, 2020, 40(3): 109-120.

Chen Faling, Ding Qinghai, Chang Zheng, et al. Multi-Scale Kernel Correlation Filter Algorithm for Visual Tracking Based on the Fusion of Adaptive Features[J]. Acta Optica Sinica, 2020, 40(3): 109-120.(in Chinese)

[6] Wei J, Wang Y, Liu F, et al. Hierarchical Deep Feature for Visual Tracking via Discriminative Correlation Filter[C]∥2nd International Conference on Artificial Intelligence and Big Data (ICAIBD), 2019: 379-383.

[7] Pi Z X, Shao Y J, Gao C X, et al. Instance-Based Feature Pyramid for Visual Object Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3774-3787.

[8] Tu Z Z, Zhou A J, Gan C, et al. A Novel Domain Activation Mapping-Guided Network (DA-GNT) for Visual Tracking[J]. Neurocomputing, 2021, 449: 443-454.

[9] Cao Z A, Fu C H, Ye J J, et al. HiFT: Hierarchical Feature Transformer for Aerial Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 15437-15446.

[10] Gu F W, Lu J, Cai C T. RPformer: A Robust Parallel Transformer for Visual Tracking in Complex Scenes[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-14.

[11] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021.

[12] Wang M H, Li Q P, Gu Y C, et al. SCAF-Net: Scene Context Attention-Based Fusion Network for Vehicle Detection in Aerial Imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 3508305.

[13] Mueller M, Smith N, Ghanem B. Context-Aware Correlation Filter Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1396-1404.

[14] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]∥European Conference on Computer Vision, 2016: 850-865.

[15] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥IEEE International Conference on Computer Vision (ICCV), 2015: 4310-4318.

[16] Zhang J M, Feng W J, Yuan T Y, et al. SCSTCF: Spatial-Channel Selection and Temporal Regularized Correlation Filters for V-isual Tracking[J]. Applied Soft Computing, 2022, 118: 108485.

[17] Zhang F, Ma S P, Zhang Y L, et al. Perceiving Temporal Environment for Correlation Filters in Real-Time UAV Tracking[J]. IEEE Signal Processing Letters, 2022, 29: 6-10.

[18] Wang N, Zhou W G, Wang J, et al. Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 1571-1580.

[19] Zhou L, Jin Y, Wang H, et al. Robust DCF Object Tracking with Adaptive Spatial and Temporal Regularization Based on Target Appearance Variation[J]. Signal Processing, 2022, 195: 108463.

[20] Li Y M, Fu C H, Ding F Q, et al. AutoTrack: Towards High-Performance Visual Tracking for UAV with Automatic Spatio-Temporal Regularization[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11920-11929.

[21] Pu L, Feng X X, Hou Z Q. Spatial Adaptive Regularized Correlation Filter for Robust Visual Tracking[J]. IEEE Access, 2020, 8: 11342-11351.

[22] Peng C, Liu F H, Yang J, et al. Robust Visual Tracking via Dirac-Weighted Cascading Correlation Filters[J]. IEEE Signal Processing Letters, 2018, 25(11): 1700-1704.

[23] Han R Z, Feng W, Wang S. Fast Learning of Spatially Regula-rized and Content Aware Correlation Filter for Visual Tracking[J]. IEEE Transactions on Image Processing, 2020, 29: 7128-7140.

[24] Fiaz M, Mahmood A, Jung S K. Learning Soft Mask Based Feature Fusion with Channel and Spatial Attention for Robust Visual Object Tracking[J]. Sensors, 2020, 20(14): 4021.

[25] Huo Y, Wang Y H, Yan X Y, et al. Soft Mask Correlation Filter for Visual Object Tracking[C]∥ 25th IEEE International Confe-rence on Image Processing (ICIP), 2018: 2705-2709.

[26] Zhang K, Wang W W, Wang J Y, et al. Learning Adaptive Target-and-Surrounding Soft Mask for Correlation Filter Based Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(6): 3708-3721.

[27] Xu T Y, Feng Z H, Wu X J, et al. Learning Adaptive Discriminative Correlation Filters via Temporal Consistency Preserving Spatial Feature Selection for Robust Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5596-5609.

[28] Fu C H, Jin J, Ding F Q, et al. Spatial Reliability Enhanced Correlation Filter: An Efficient Approach for Real-Time UAV Tracking[J]. IEEE Transactions on Multimedia, 2021, 23: 1-15.

[29] Zheng Y H, Song H H, Zhang K H, et al. Dynamically Spatiotemporal Regularized Correlation Tracking[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(7): 2336-2347.

[30] Wang Q A, Zhang M D, Xing J L, et al. Do not Lose the Details: Reinforced Representation Learning for High Performance Visual Tracking[C]∥ 27th International Joint Conference on Artificial Intelligence, 2018: 985–991.

[31] Zhu Z, Wang Q A, Li B, et al. Distractor-Aware Siamese Networks for Visual Object Tracking[C]∥" European Conference on Computer Vision, 2018: 103-119.

[32] Danelljan M, Bhat G, Khan F S, et al. ATOM: Accurate Tracking by Overlap Maximization[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4655-4664.

[33] Tan H B, Zhang X, Zhang Z P, et al. Nocal-Siam: Refining V-isual Features and Response with Advanced Non-Local Blocks for Real-Time Siamese Tracking[J]. IEEE Transactions on Image Processing, 2021, 30: 2656-2668.

[34] Wang P F, Zhang C Q, Qi F, et al. PGNet: Real-Time Arbitrarily-Shaped Text Spotting with Point Gathering Network[C]∥ AAAI Conference on Artificial Intelligence, 2021, 35(4): 2782-2790.

[35] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 9538-9547.

[36] 黄晓冬, 曾科军, 李冬. 一种多特征融合的背景感知相关滤波跟踪算法[J]. 兵器装备工程学报, 2021, 42(10): 230-236.

Huang Xiaodong, Zeng Kejun, Li Dong. Background-Aware Correlation Filter Tracking Algorithm Based on Multi-Feature Fusion[J]. Journal of Ordnance Equipment Engineering, 2021, 42(10): 230-236.(in Chinese)

[37] Yu B, Tang M, Zheng L Y, et al. High-Performance Discriminative Tracking with Transformers[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 9836-9845.

[38] Yin X L, Liu G X, Ma X H. Fast Scale Estimation Method in Object Tracking[J]. IEEE Access, 2020, 8: 31057-31068.

[39] 谢瑜, 陈莹. 空间注意机制下的自适应目标跟踪[J]. 系统工程与电子技术, 2019, 41(9): 1945-1954.

Xie Yu, Chen Ying. Adaptive Object Tracking Based on Spatial Attention Mechanism[J]. Systems Engineering and Electronics, 2019, 41(9): 1945-1954.(in Chinese)

[40] Yang K Y, Wu X D, Zhu Z Y, et al. A High-Confidence Model Updating Correlation Filtering Tracker with Scale Adaptation for Visual Target Tracking[J]. Optik, 2020, 202: 163730.

[41] 覃瑞国. 基于孪生网络的候选区域推荐与模板更新的跟踪算法[D]. 桂林: 广西师范大学, 2021.

Qin Ruiguo. Candidate Region Proposal and Update Model Tracking Algorithm Based on Siamese [D].Guilin: Guangxi Normal University, 2021. (in Chinese)

[42] Du Y H, Yan Y, Chen S, et al. Object-Adaptive LSTM Network for Real-Time Visual Tracking with Adversarial Data Augmentation[J]. Neurocomputing, 2020, 384: 67-83.

[43] Choi J, Kwon J, Lee K M. Deep Meta Learning for Real-Time Target-Aware Visual Tracking[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 911-920.

[44] Liu T, Wang G, Yang Q X. Real-Time Part-Based Visual Tracking via Adaptive Correlation Filters[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 4902-4912.

[45] Barcellos P, Scharcanski J. Part-Based Object Tracking Using Multiple Adaptive Correlation Filters[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 4505210.

[46] Han S C, Zhan Z H, Li W, et al. Recurrently Exploiting Co-Saliency of Target for Part-Based Visual Tracking[J]. EURASIP Journal on Advances in Signal Processing, 2019 (1): 1-12.

[47] Wang Y, Luo X B, Ding L, et al. Robust Visual Tracking via Part-Based Model[J]. Multimedia Systems, 2020, 26(5): 607-620.

[48] 张灿龙, 李燕茹, 李志欣, 等. 基于核相关滤波与特征融合的分块跟踪算法[J]. 广西师范大学学报: 自然科学版, 2020, 38(5): 12-23.

Zhang Canlong, Li Yanru, Li Zhixin, et al. Block Target Tracking Based on Kernel Correlation Filter and Feature Fusion[J]. Journal of Guangxi Normal University: Natural Science Edition, 2020, 38(5): 12-23.(in Chinese)

[49] Kalal Z, Mikolajczyk K, Matas J. Tracking-Learning-Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.

[50] Lv P Y, Zhong Y F, Zhao J, et al. Unsupervised Change Detection Based on Hybrid Conditional Random Field Model for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(7): 4002-4015.

[51] Saffari A, Leistner C, Santner J, et al. On-Line Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2009: 1393-1400.

[52] Hare S, Golodetz S, Saffari A, et al. Struck: Structured Output Tracking with Kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.

[53] Babenko B, Yang M H, Belongie S. Visual Tracking with Online Multiple Instance Learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2009: 983-990.

[54] 孙健, 向伟, 谭舒昆, 等. 改进的核相关滤波跟踪算法[J]. 计算机工程与应用, 2018, 54(9): 178-182.

Sun Jian, Xiang Wei, Tan Shukun, et al. Improved Kernelized Correlation Filter Tracking[J]. Computer Engineering and Applications, 2018, 54(9): 178-182.(in Chinese)

[55] Ma C, Yang X K, Zhang C Y, et al. Long-Term Correlation Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 5388-5396.

[56] Yin X L, Liu G X. Effective Appearance Model Update Strategy in Object Tracking[J]. IET Computer Vision, 2019, 13(6): 531-541.

[57] 孙晓锋, 贾子彦, 张雷, 等. 基于重检测机制的核相关滤波跟踪算法[J]. 电光与控制, 2021, 28(8): 44-47.

Sun Xiaofeng, Jia Ziyan, Zhang Lei, et al. A Kernel Correlation Filter Tracking Algorithm Based on Re-Detection Mechanism[J]. Electronics Optics amp; Control, 2021, 28(8): 44-47.(in Chinese)

[58] 王鹏, 孙梦宇, 王海燕, 等. 一种目标响应自适应的通道可靠性跟踪算法[J]. 电子与信息学报, 2020, 42(8): 1950-1958.

Wang Peng, Sun Mengyu, Wang Haiyan, et al. An Object Tracking Algorithm with Channel Reliability and Target Response Adaptation[J]. Journal of Electronics amp; Information Technology, 2020, 42(8): 1950-1958.(in Chinese)

[59] 尹明锋, 薄煜明, 朱建良, 等. 基于通道可靠性的多尺度背景感知相关滤波跟踪算法[J]. 光学学报, 2019, 39(5): 247-257.

Yin Mingfeng, Bo Yuming, Zhu Jianliang, et al. Multi-Scale Context-Aware Correlation Filter Tracking Algorithm Based on Channel Reliability[J]. Acta Optica Sinica, 2019, 39(5): 247-257.(in Chinese)

[60] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8971-8980.

[61] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 4277-4286.

[62] 易宇凡, 瞿少成, 陶林. 基于重检测和目标遮挡判定的相关滤波跟踪实现[J]. 电子测量技术, 2020, 43(7): 93-96.

Yi Yufan, Qu Shaocheng, Tao Lin. Correlation Filter Tracking Implementation Based on Re-Detection and Target Occlusion Decision[J]. Electronic Measurement Technology, 2020, 43(7): 93-96.(in Chinese)

[63] Zhang J M, Liu H H, He Y Q, et al. Adaptive Response Maps Fusion of Correlation Filters with Anti-Occlusion Mechanism for Visual Object Tracking[J]. EURASIP Journal on Image and Video Processing, 2022, 2022(1): 1-19.

[64] Liao J W, Qi C, Cao J Z, et al. Rotation-Aware Correlation Filters for Robust Visual Tracking[J]. Journal of Visual Communication and Image Representation, 2022, 83: 103422.

[65] Zhang M D, Xing J L, Gao J, et al. Joint Scale-Spatial Correlation Tracking with Adaptive Rotation Estimation[C]∥IEEE International Conference on Computer Vision Workshop (ICCVW), 2015: 595-603.

[66] Li Y, Zhu J K, Hoi S C H, et al. Robust Estimation of Similarity Transformation for Visual Object Tracking[C]∥AAAI Conference on Artificial Intelligence, 2019, 33(1): 8666-8673.

[67] 李龙, 王耀南, 张振军. 基于核相关滤波器的目标旋转跟踪算法[J]. 传感器与微系统, 2017, 36(3): 147-149.

Li Long, Wang Yaonan, Zhang Zhenjun. Object Rotation Tracking Based on Kernelized Correlation Filters[J]. Transducer and Microsystem Technologies, 2017, 36(3): 147-149.(in Chinese)

[68] Marvasti-Zadeh S M, Ghanei-Yakhdan H, Kasaei S. Rotation-Aware Discriminative Scale Space Tracking[C]∥ 27th Iranian Conference on Electrical Engineering (ICEE), 2019: 1272-1276.

[69] Rout L, Raju P M, Mishra D, et al. Learning Rotation Adaptive Correlation Filters in Robust Visual Object Tracking[C]∥ Asian Conference on Computer Vision, 2019: 646-661.

[70] He A F, Luo C, Tian X M, et al. Towards a Better Match in Siamese Network Based Visual Object Tracker[C]∥ European Conference on Computer Vision, 2019: 132-147.

[71] Lee D H. One-Shot Scale and Angle Estimation for Fast Visual Object Tracking[J]. IEEE Access, 2019, 7: 55477-55484.

[72] Zhang Y, Zhuang Y A, Li H Z, et al. A Novel Method for Estimation of the Target Rotation Angle in SAR Image[C]∥IET International Radar Conference, 2015: 1-4.

[73] Chen B X, Tsotsos J. Fast Visual Object Tracking Using Ellipse Fitting for Rotated Bounding Boxes[C]∥IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 2019: 2281-2289.

[74] Xu Y L, Wang J B, Li H, et al. Patch-Based Scale Calculation for Real-Time Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(1): 40-44.

[75] Fu C H, Zhang Y Q, Duan R, et al. Robust Scalable Part-Based Visual Tracking for UAV with Background-Aware Correlation Filter[C]∥IEEE International Conference on Robotics and Biomimetics (ROBIO), 2018: 2245-2252.

[76] Danelljan M, Hger G, Shahbaz Khan F, et al. Accurate Scale Estimation for Robust Visual Tracking[C]∥British Machine Vision Conference, 2014: 1-11.

[77] Wang X, Hou Z Q, Yu W S, et al. Online Scale Adaptive Visual Tracking Based on Multilayer Convolutional Features[J]. IEEE Transactions on Cybernetics, 2019, 49(1): 146-158.

[78] Li Y, Zhu J K. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]∥European Conference on Computer Vision, 2014: 254-265.

[79] 靳梦磊. 复杂场景下视频目标跟踪算法的研究与实现[D]. 北京: 北京交通大学, 2019.

Jin Menglei. Research and Implementation of Video Object Tracking Algorithm in Complex Scenarios [D].Beijing: Beijing Jiaotong University, 2019. (in Chinese)

[80] 袁越. 结合相关滤波与深度网络的多尺度目标跟踪[D]. 南昌: 南昌航空大学, 2019.

Yuan Yue. Multiple Scale Object Tracking Combing Correlation Filters and Deep Network[D]. Nanchang: Nanchang Hangkong University, 2019. (in Chinese)

[81] 侯颖, 王颖, 林歆钰. 多尺度视频目标跟踪算法研究[J]. 信息技术与信息化, 2020(4): 37-39.

Hou Ying, Wang Ying, Lin Xinyu. Research on Multi-Scale Video Target Tracking Algorithm[J]. Information Technology and Informatization, 2020(4): 37-39.(in Chinese)

[82] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: Template-Free Visual Tracking with Space-Time Memory Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 13769-13778.

[83] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1328-1338.

[84] Xu Y D, Wang Z Y, Li Z X, et al. SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines[C]∥AAAI Conference on Artificial Intelligence, 2020, 34(7): 12549-12556.

[85] Chen Z D, Zhong B N, Li G R, et al. Siamese Box Adaptive Network for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6667-6676.

[86] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 6268-6276.

Survey of Visual Tracking Algorithms in the Complex Scenarios

Yu Mingxin, Wang Changlong, Zhang Yuhua, Xing Na, Li Aihua, Ma Xiaolin*

(Shijiazhuang Campus of Army Engineering University, Shijiazhuang 050000, China)

Abstract: Visual object tracking is a fundamental problem in computer vision. It has been widely used in civilian and military fields, such as battlefield reconnaissance, video surveillance, automatic driving, video analysis, and many other areas. In recent years, although the object tracking algorithm has made great progress, stable object tracking is still a challenging task due to random target changes and complex scenarios. Firstly, the difficulties and challenges in actual tracking scenarios are introduced in this paper. Then, aiming at the background clutter, rotation changes, occlusion, and scale changes, the representative discriminative object tracking algorithms are summarized and analyzed from the perspective of feature extraction, observation model, and model update mechanism. Subsequently, 25 typical tracking algorithms are evaluated and analyzed on OTB2015 database. Finally, the further research directions are prospected.

Key words: visual object tracking; discriminative visual tracking model; correlation filter; deep learning

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
现代情报(2016年10期)2016-12-15 11:50:53
利用网络技术促进学生深度学习的几大策略
考试周刊(2016年94期)2016-12-12 12:15:04
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49