融合多特征和通道感知的目标跟踪算法

2022-06-17 07:11赵运基范存良张新良
计算机与生活 2022年6期
关键词:鲁棒性滤波器深度

赵运基,范存良,张新良

河南理工大学 电气工程与自动化学院,河南 焦作 454003

目标跟踪是计算机视觉领域中的重要研究课题,同时在视频监控、自动驾驶、人机交互等方面有广泛的应用。目标跟踪是根据视频序列首帧给定的目标尺寸和中心坐标,预测后续帧中目标尺寸变化和运行轨迹的方法。虽然近年来目标跟踪技术取得很大的进展,但如何解决目标跟踪领域中的遮挡、光照改变、尺度变化和快速运动等问题,仍是一个极具挑战性的课题。目前的跟踪算法主要分为两种,生成式模型和判别式模型。生成式跟踪算法是通过颜色命名(color names,CN)、方向梯度直方图(histogram of oriented gradient,HOG)等统计特征提取当前目标外观模型的有效信息,在后续帧候选区域中寻找与目标相似度最高的区域。判别式跟踪算法将前景目标和背景信息分为两类,旨在训练一个可以从背景中区分目标的分类器。生成式跟踪算法只提取目标外观模型的有效信息,忽略了背景信息,而判别式跟踪算法则利用目标和背景的差异,相对于生成式跟踪算法鲁棒性更强。

2018 年的VOT(visual object tracking)挑战赛中有62%的跟踪算法采用了卷积神经网络(convolutional neural network,CNN)特征,19%使用了HOG,24%使用了灰度特征。2019 年的VOT 挑战赛中有69%的跟踪算法采用了CNN 特征,18%使用了HOG,16%使用了灰度特征。基于深度特征的跟踪算法逐渐占据主流,近几年的深度跟踪算法主要分为两类:基于深层卷积的跟踪算法和基于相关滤波的跟踪算法。基于深层卷积的跟踪算法性能良好,底层CNN 特征具有的纹理信息对目标的定位起到重要作用,高层CNN 特征具有的语义信息对目标的分类也十分关键。基于相关滤波的跟踪算法经过不断的改进,例如采用多维度特征融合、多模板尺度估计、减轻边界效应等改进方案,提高了基于相关滤波算法的跟踪性能。目前的深度跟踪算法往往采用预训练模型作为特征提取器生成深度特征,当使用预训练模型表征目标时:由于视觉目标跟踪中的对象是任意的,即预训练模型的样本中不包含的对象或对象信息的特定部分,预训练模型提取的特征在应对任意形式的目标时效果较差,很难将它们从背景中区分;即使前景目标在预训练模型的样本中,但最后的卷积层提取的深度特征通常只保留高级视觉信息,对位置和尺度信息估计较差;由于预训练模型的深度特征是高维的,当前的深度网络提取特征时通常伴随着较大的计算量。因此,利用与前景目标相关的深度特征进行视觉跟踪十分重要。

近年来,越来越多的研究者将相关滤波引入到目标跟踪算法中。基于相关滤波的目标跟踪算法中特征的选择对跟踪效果产生很大的影响。其中,Bolme等提出的最小化输出平方误差和(minimum output sum of squared error filter,MOSSE)算法,仅使用单通道的灰度特征进行目标跟踪。Henriques 等提出的KCF(kernel correlation filter)算法将单通道的灰度特征扩展到多通道的方向梯度直方图用于目标跟踪,提高了跟踪精度。Danelljan 等在算法中加入了颜色特征,并利用主成分分析(principal component analysis,PCA)对CN 特征进行降维处理,并在彩色视频序列中进行在线跟踪。Danelljan 等提出的DSST(discriminative scale space tracker)算法在MOSSE 的基础上利用HOG 特征构建尺度金字塔进行目标尺度估计,实现了尺度自适应。以上算法仅使用单一特征描述目标,无法全面表征前景目标,而且不同特征在随机场景下的跟踪性能有很大差异。此外上述算法均采用逐帧更新滤波器的方式,但相邻帧提取的特征较为相似,容易将干扰信息加入到样本模型中,出现过度拟合到目标特定区域的现象,导致后续帧跟踪失败。

针对深度特征描述目标在跟踪过程中出现漂移或过度拟合的问题,提出了一种融合多特征和通道感知的目标跟踪算法。本文以UDT(unsupervised deep tracking)为基本框架,通过预训练模型提取目标区域的深度特征并构建相关滤波器,利用全局平均池化(global average pooling,GAP)生成的权重系数,确定滤波器对应的深度特征通道对于描述前景目标的重要性,删除与前景目标无关的滤波器对应的特征通道;对保留的特征通过标准差计算生成一维统计特征并与筛选后的特征联结,依据融合后的深度特征构建相关滤波器并做相关运算,获取特征响应图确定目标的位置及尺度;利用跟踪结果区域的深度特征对融合特征构建的滤波器进行在线更新。在公共数据集OTB(object tracking benchmark)100、VOT2015和VOT2016上进行实验分析,结果表明本文算法比UDT 更具鲁棒性,同时也提升了算法的精度。

1 预训练模型

图1 无监督学习模型Fig.1 Unsupervised learning prototype

本文采用的模型为无监督学习模型,图1 为详细的训练过程。在训练过程中,给定未标记的视频一个随机初始化的边界框标签,首先向前跟踪以预测它在后续帧中的位置。然后将序列反向,将最后一帧中预测的边界框作为伪标签进行反向跟踪。期望通过向后跟踪得到的预测边界框与第一帧中的原始边界框一致,并使用一致性损失来衡量前后轨迹之间的差异。

2 本文算法

针对深度特征描述目标在跟踪过程中出现漂移或过度拟合的问题,本章提出了融合多特征和通道感知的UDT 目标跟踪算法。本章将从以下三部分介绍本文跟踪算法:特征通道筛选,该算法通过数据集ILSVRC 2015(ImageNet large scale visual recognition challenge)离线训练深度学习模型(visual geometry group network,VGG)构建特征提取器,通过预训练模型输出32 维深度特征通道,经快速通道感知构建相关滤波器,利用全局均值池化得到特征通道对应滤波器的权重系数,确定滤波器对应的深度特征通道对于描述前景目标的重要性并进行通道筛选,减少参数优化过程的计算量;多特征融合,为了增强特征图中不同通道之间的关联性,将降维后的特征与标准差计算生成的统计特征融合;在线跟踪过程,依据融合后的深度特征构建相关滤波器,通过特征响应图确定目标的位置及尺度,利用跟踪结果区域的深度特征对融合特征构建的滤波器进行在线更新,不断向前传播完成跟踪,并通过稀疏更新的方式以减少过拟合的现象。图2 为本文算法流程图。

图2 本文算法流程图Fig.2 Flowchart of algorithm proposed in this paper

2.1 特征通道筛选

预训练模型虽然能够提取训练样本中较为完备的深度特征,但对训练样本集中不包含的对象提取的深度特征存在通道冗余的现象。深度特征通道的冗余信息不但影响算法的时效性,而且影响预训练模型对跟踪算法的定位精度,因此本节采用基于相关滤波方法的通道选择机制,通过预训练模型生成的32 维特征通道,经相关计算构建滤波器,并利用GAP 得到的权重系数,删除与前景目标不相关的滤波器对应的特征通道。

特征提取器生成的深度特征通道对跟踪目标的贡献度,可以通过相关计算得到的滤波器权重W来判断。在权重W的基础上,本节构建了一组相关滤波器。

式中,定义为全局均值池化。为了避免无关信息的干扰并减少跟踪过程的计算量,本文采取如下通道选择机制:

2.2 多特征融合

2.3 在线跟踪过程

在检测过程中,候选区域用批量归一化(batch normalization,BN)处理得搜索区域,再通过特征提取网络得到后续帧的深度特征(),最后由特征响应图的最大值来估计平移量。

在线跟踪期间,滤波器随着时间的变化而不断更新。滤波器更新主要是更新观测模型,以适应目标物体的变化,避免跟踪过程发生漂移。在跟踪过程中,需要制定相应的模型更新策略,包括是否更新模型、更新周期等。模型更新没有统一的标准,通常认为目标物体的外形会连续发生变化,因此往往逐帧更新模型。但是目标物体之前的特征对跟踪也很重要,连续更新可能会丢失以往的特征信息,引入过多的噪音,因而采用稀疏更新的方式来解决这一问题。为了让滤波器对形变、光照、遮挡等外界条件具有更好的鲁棒性,采取了如下更新策略。

相关滤波跟踪算法通常是对滤波器进行逐帧更新,并以此估计目标来取得较好跟踪效果。但是,在每一帧中均更新滤波器会增加一定的计算量。因此本节采用稀疏更新的策略,每=5 帧更新一次滤波器,即当前景目标发生一定程度的变化后再进行优化。该策略在降低计算量的同时也改善了跟踪效果,原因在于训练样本过拟合减少,使跟踪更加稳定。

3 仿真实验

3.1 实验环境

实验在Windows10操作系统,MATLAB2018a软件平台,IntelCorei5-9400F CPU@2.90 GHz,NVIDIA GeForce GTX 1060 3 GB 显卡,8 GB 内存的硬件平台上进行。本文算法的实验均利用MatConvNet工具包在Matlab 中执行。

3.2 数据集

目标跟踪领域的公共数据集分为VOT 和OTB两大类,视频序列均经过精心标注,更具权威性。OTB数据集分为OTB50和OTB100,其中50 和100 代表该数据集中视频序列的数目。VOT 是官方竞赛的数据集,有VOT2015、VOT2016 等且每年均会更新。OTB 和VOT 数据集存在一定的差别,其中OTB 数据集含有25%的灰度图像,VOT 中均为彩色图像。两者最大的区别是OTB 由随机帧开始,或矩形框加随机干扰初始化,VOT 是首帧初始化,每次跟踪失败即预测框和标注框不重叠时,5 帧后重新初始化。

3.3 消融分析

在公共数据集VOT2015 上,本文对滤波器采用不同更新间隔的算法性能进行消融分析。表1中显示,随着更新间隔的增加,跟踪的平均帧率(FPS)不断提升,同时在平均精度(Accuracy)和鲁棒性(Robustness)方面展现了不同的性能。当每5 帧更新一次时,仅在平均帧率上稍稍落后于其他算法,而在其他方面均为最好或次好。综上所述,对滤波器每5 帧更新一次时整体效果最好,其中期望平均重叠(expect average overlap,EAO)的提升最为显著。

表1 VOT2015 中不同更新间隔的跟踪性能Table 1 Tracking performance of different update intervals on VOT2015

表2 VOT2015 中不同通道数目的性能分析Table 2 Performance analysis of different channel number on VOT2015

在稀疏更新和通道筛选的基础上,本文对融合不同类型统计特征的算法性能进行消融分析。算法采取了极差、均值、标准差三种统计特征与保留的特征分别联结并和原算法比较。如表3 所示,当融合极差时,精确度和EAO 存在或高或低的变化,仅有鲁棒性取得较大幅度的改善,跟踪性能提升有限。融合均值或标准差时,性能提升较为显著,融合均值的特征仅在FPS 方面以0.203 0 的优势稍领先于融合标准差的特征,而在精确度、鲁棒性和EAO 三方面均落后。通过综合分析,将标准差与保留特征联结整体性能更佳。

表3 VOT2015 中不同融合方式的性能分析Table 3 Performance analysis of different fusion modes on VOT2015

在公共数据集VOT2016 上,本文对滤波器采用不同更新间隔的算法性能进行消融分析。表4 中显示,随着更新间隔的增加,跟踪的平均帧率不断提升,同时在平均精度和鲁棒性方面展现了不同的性能。当每5 帧更新一次时,仅在平均帧率上稍稍落后于其他算法,而在其他方面均为最好或次好。综上所述,对滤波器每5 帧更新一次时整体效果最好,其中鲁棒性的提升最大。

表4 VOT2016 中不同更新间隔的跟踪性能Table 4 Tracking performance of different update intervals on VOT2016

表5 VOT2016 中不同通道数目的性能分析Table 5 Performance analysis of different channel number on VOT2016

在稀疏更新和通道筛选的基础上,本文对融合不同类型统计特征的算法性能进行消融分析。算法采取了极差、均值、标准差三种统计特征与保留的特征分别联结并和原算法比较。如表6 所示,当融合极差时,鲁棒性和EAO 取得了一定的提升,但精确度稍劣于原特征,跟踪性能提升有限。融合均值或标准差时,性能提升较为显著,融合标准差的特征在四个方面均以微弱优势领先于融合均值的特征。通过综合分析,将标准差与原特征联结整体性能更佳,其中鲁棒性的提升最为显著。

表6 VOT2016 中不同融合方式的性能分析Table 6 Performance analysis of different fusion modes on VOT2016

3.4 OTB 对比结果

为了有效评估本文算法的性能,在公共数据集OTB100上进行测试,将本文算法与ECO(efficient convolution operators)、LMCF(large margin circulant feature)、ECOHC、UDT(unsupervised deep tracking)、SRDCF(spatially regularized correlation filters)、Staple、SAMF(scale adaptive kernel correlation filter)、DSST(discriminative scale space tracker)、KCF(kernel correlation filter)等目前主流的算法进行对比,从准确性和成功率两方面对跟踪性能进行定性和定量评估。

图3 为不同算法在OTB100 数据集上的精确度和成功率曲线对比图。由图3 可知,本文算法的精确度、成功率分别达到了0.835 和0.796,与UDT 相比分别提高了5.2%和2.8%,在性能上仅次于ECO 且均优于其他算法。

表7 和表8 分别描述了在一次性评估模式(one pass evaluation,OPE)下,不同算法在OTB100 数据集上11 种不同属性的距离精度和成功率。由表7 可知,本文算法在所有属性上以较大优势优于UDT。由表8可知,本文算法仅在尺度变化(SV)属性上以0.001 的劣势次于UDT,而在其他属性上均优于UDT。由此表明,本文算法可以适应复杂场景下的跟踪任务。

图3 OTB100 数据集上精确度与成功率曲线Fig.3 Precision and success rate plots on OTB100 dataset

表7 不同属性上各算法的距离精度对比Table 7 Precision comparison of algorithms with different attributes

表8 不同属性上各算法的成功率对比Table 8 Success rate comparison of algorithms with different attributes

为了能更直观地对算法进行定性分析,本文选取了8 组具有代表性的视频,图4 为不同算法在具有挑战性的视频序列的结果对比。

图4 不同算法在具有挑战性的视频序列的跟踪结果Fig.4 Tracking results of algorithms with challenging video sequences

(1)背景干扰:目标在运动过程中,背景相似或背景复杂等干扰的因素,对于跟踪算法是一项重大的挑战。在图4(a)Football 和图4(f)Shaking 视频序列中,前景目标受到相似背景的干扰,图4(d)Lemming 和图4(g)Soccer视频序列中,前景目标受到复杂背景的干扰。图4 的结果表示,本文算法与其他算法相比,对目标实现了更加精确的跟踪,表明本文算法对前景目标和背景信息具有较强的区分能力。

(2)快速运动:如图4(a)Football、图4(c)Jumping和图4(h)Sylvester 所示,视频序列中的目标快速运动。其他算法在跟踪过程中出现了一定程度的漂移现象,而本文算法可以稳定有效地跟踪到目标。

(3)尺度变化:视频序列Freeman3 中,人脸在由远及近的移动过程中,同时受到相似背景的干扰并产生形变。如图4(b)所示,从第304 到425 帧,镜头拉近并剧烈抖动,其他算法在跟踪过程中发生了漂移,本文算法仍可以跟踪到目标。

(4)遮挡:视频序列Football 中前景目标存在被部分遮挡或完全遮挡的情况,如图4(a)所示,从第48到74 帧,目标被背景完全遮挡,当前景目标再次出现时,本文算法始终可以跟踪到目标。

(5)旋转:视频序列Mhyang 和Soccer 中目标均出现了平面外旋转的现象。如图4(e)和图4(g)所示,前景目标在移动过程中出现大幅度旋转,面部信息发生巨大变化,导致提取特征的难度增加,而本文算法的跟踪结果依然准确。

3.5 VOT 对比结果

在公共数据集VOT2015 中,引入精确度、鲁棒性、EAO、帧率等指标对本文算法和其他算法进行比较分析。由表9~表11 可知,本文算法与UDT 相比,在不影响跟踪速度的情况下,鲁棒性得到了一定的提升,其中在应对光照变化、抖动模糊和尺度变化等挑战时效果较为显著。而在EAO、精确度等方面,本文算法相较于UDT 均有提升。尽管ECO 和SRDCF 算法总体性能略优于本文算法,但帧率仅为0.848 6 和0.374 6,完全无法满足目标跟踪算法的实时性要求,而本文算法可以在速度和性能之间取得较好的平衡。

表9 准确度Table 9 Accuracy

表10 鲁棒性Table 10 Robustness

表11 整体性能Table 11 Overall performance

在公共数据集VOT2016中,引入精确度、鲁棒性、EAO、帧率等指标对本文算法和其他算法进行比较分析。由表12~表14 可知,本文算法与UDT 相比,在不影响跟踪速度的情况下,鲁棒性得到了提升,其中在应对抖动模糊、遮挡和形变等挑战时效果较为明显。而在EAO、精确度等方面,本文算法相较于UDT均有提升。尽管SRDCF 和ECO 算法总体性能略优于本文算法,但帧率仅为0.405 4 和0.871 8,完全无法满足目标跟踪算法的实时性要求,而本文算法可以在速度和性能之间取得较好的平衡。

表12 准确度Table 12 Accuracy

表13 鲁棒性Table 13 Robustness

表14 整体性能Table 14 Overall performance

4 结束语

本文针对深度特征描述目标在跟踪过程中出现漂移或过度拟合的问题,以UDT 目标跟踪算法为基本框架,提出了融合多特征和通道感知的目标跟踪算法。在通道感知的过程中,利用预训练模型生成的深度特征通道构建权重,并依据权重筛选深度特征,删除与前景目标无关的特征通道,避免无关信息的干扰并减少跟踪算法的计算量;在多特征融合的过程中,为了增强特征图中不同通道之间的关联性,将降维后的特征与标准差计算生成的统计特征融合;在线跟踪中,采用稀疏更新的策略以减少过拟合的现象,使跟踪过程更加稳定。通过公共数据集OTB100、VOT2015 和VOT2016 进行实验分析,结果表明,本文融合多特征和通道感知算法的精确度优于UDT,同时在背景复杂、快速运动、尺度变化等方面具有更强的鲁棒性。本文的融合多特征和通道感知算法具有借鉴性,对后续的跟踪算法有一定的参考价值。下一步工作将对兼顾性能和跟踪速度的基于孪生网络的目标跟踪算法进行深入研究。

猜你喜欢
鲁棒性滤波器深度
浅谈有源滤波器分析及仿真
基于多模谐振器的超宽带滤波器设计
四增四减 深度推进
深度思考之不等式
武汉轨道交通重点车站识别及网络鲁棒性研究
从滤波器理解卷积
简约教学 深度学习
一种基于三维小波变换的鲁棒视频水印方案
电子节气门非线性控制策略
基于鲁棒性改进理论的大面积航班延误治理分析