吴 捷,马小虎
(1.泰州职业技术学院信息技术学院,江苏 泰州 225300;2.苏州大学计算机科学与技术学院,江苏 苏州 215006)
目标跟踪是计算机视觉领域的研究热点之一,在人机交互、医学成像、交通监测等领域有着极其广泛的应用。目标跟踪的基本流程是在待跟踪视频序列的第一帧中标记出目标边界框,并在后续帧中对目标进行准确定位。由于目标物体在运动过程中可能会发生形变、旋转以及受到自然环境中光照变化等诸多因素的影响,使得目标跟踪尚有不少亟待解决的难题。
近年来深度学习方法异军突起,在目标跟踪领域得到广泛应用,DeepSRDCF、CF2、ECO、STRCF、MCCT等跟踪器在DCF 框架下结合卷积神经网络(CNN)达到了较高的跟踪精度,但是使用深度特征也明显降低了算法的运行速度,限制了其应用范围。而全卷积孪生网络(SiamNet)凭借超越DCF 方法的准确度和端到端训练的优势,成为目标跟踪领域最热门的研究方向。
Bertinetto 等在CVPR2016 会议上提出了基于全卷积孪生网络(SiamFC)的目标跟踪方法,实现了端到端训练,达到了超实时性能,并且具有较高的跟踪精度。Li 等对Siamese 孪生网络框架进行了扩展,引入区域推荐网络(RPN)并提出了SiamRPN 跟踪算法,跟踪器的性能进一步得到了提升。
虽然一系列基于SiamNet 的跟踪算法取得了良好的跟踪效果,但也存在如下问题:视觉跟踪中的目标可以是任意形式的,而从普通图像中预先训练的CNN 模型对感兴趣的目标对象是不可知的,这使得预训练的效率变得较低。从跟踪速度来看,因为预训练模型的深度特征是高维的,造成了大量使用深度特征的跟踪器计算负荷很高。为了提高跟踪速度,提取和跟踪目标相关度较高的深层特征进行视觉跟踪是非常重要的。
在CVPR2019 会议上,Li 等提出TADT 算法,在SiamNet 框架基础上,将目标感知模块嵌入到预训练网络后面,使用回归损失和排序损失来有效选择对于目标定位和尺度变化最为敏感的特征通道,取得了非常好的效果,在一系列实时跟踪算法中精度最佳。TADT 算法在特征提取时,仅使用卷积神经网络VGG16 中的Conv4-3 层深度特征定位目标位置,在目标发生大幅形变或低分辨率等场景下容易发生跟踪漂移。
为了解决此问题,本文在TADT 算法框架下结合通道选择与位置优化提出一种新型的目标跟踪算法。算法利用了Conv3-3、Conv4-3、Conv5-1 3 个层次的深度特征,并使用峰值旁瓣比对初次跟踪结果进行分类处理,兼顾了跟踪精度与速度。在OTB跟踪数据集上的实验结果表明,本文算法具有较好的跟踪性能,在主要跟踪指标上超过了目前主流跟踪算法。
TADT 算法框架由通用CNN 特征骨干网、目标感知模块和相关匹配模块3 部分组成。其中的核心为目标感知模块,其从预训练的CNN 网络中提取目标特征,进而通过回归损失和排序损失函数,分别计算得到对于目标活动和尺度变化较为敏感的特征通道作为当前目标的特征表示。相关匹配模块计算模板分支与搜索分支之间的相似度得分,得分图的最大值即为目标位置。图1 为TADT 跟踪器的总体框架图。
图1 TADT 算法框架
跟踪初始化。在此阶段,初始化离线训练的CNN 网络并提取Conv4-1 和Conv4-3 层特征,其中,预训练的特征提取器在分类任务中离线训练,目标感知部分只在第一帧中进行训练。在初始网络训练中,分别训练回归损失和排序损失部分,并在网络收敛后根据每一损失计算梯度。利用梯度特征生成模型,从预先训练好的CNN 中选择固定数量的重要度分数最高的滤波器。通过叠加这两种特征滤波器,得到最终的目标感知特征。
在线检测。利用目标感知特征并通过卷积运算,(即Siamese 框架中的相关层)直接计算初始目标与当前帧中搜索区域的相似度特征并输出响应图。响应图中的值表示其对应位置为实际目标的置信度,利用响应图中最大置信度对应的相对位置,可以计算出目标物体在搜索区域中对应的实际位置。
尺度估计。为了评估目标的尺度变化,TADT 固定模板的大小,并将当前帧中搜索区域的特征图分别进行缩小、放大和固定不变3 种操作。在跟踪过程中,将这3 种特征图与目标模板进行比较来得到最接近的尺度。为了获取对目标尺度变化较为敏感的滤波器,作者进行了一系列对比实验,最终证明利用Conv4-1 层深度特征效果最佳。
TADT 算法在实现实时跟踪的情况下取得了很好的跟踪效果,但是其仅使用卷积神经网络VGG16中的Conv4-3 层深度特征定位目标位置,在目标发生大幅形变或低分辨率等场景下容易发生跟踪漂移。
而已有的研究发现,卷积网络不同层次特征对于目标跟踪都具有非常重要的作用。如图2 所示,低层特征有较高的分辨率,能够对目标进行精准的定位;高层特征包含更多的语义信息,能够有效对目标进行范围定位,处理较大的目标变化和防止跟踪器漂移。
图2 卷积网络不同层次特征图对比
本文基于TADT 算法框架并对其进行了改进。在初始化VGG16 网络时,本文算法加入了Conv5-1卷积层,而TADT 则去除了全部的Conv5 层特征。本文算法并没有选择添加层次更高的Conv5-2 和Conv5-3 层,主要是考虑到使用更深层特征会显著增加算法的处理时间。
除此之外,本文算法引入峰值旁瓣比,对每帧跟踪结果进行可靠性判断,只有对于低可靠性的跟踪结果使用Conv5-1 层特征进行重定位,进一步提升了算法的运行速度。下面给出峰值旁瓣比的定义:
设第t 帧的特征响应图为R,则其峰值旁瓣比(PSR)定义为:
其中,max 用于求得R的最大值,μ、σ表示特征响应图的均值和方差。峰值旁瓣比主要体现跟踪的可靠性。
利用上式计算得到的峰值旁瓣比可以对每帧跟踪结果进行可靠性判断,本文进行可靠度判断的方法如下:
设跟踪视频序列中第t 帧的峰值旁瓣比为P,则计算其与前t-2 帧峰值旁瓣比均值的比值ratio:
根据求得的ratio 值,可将跟踪结果分为高可信、待优化和低可信3 种情况。
本文算法执行流程如下:在TADT 框架下,利用Conv4-3 层特征进行目标初次定位,进而通过计算峰值旁瓣比对初次定位结果进行判断,视其结果分别进行处理。对于初次定位结果为高可信的,直接利用之前得到的初次目标定位位置作为最终结果;对于待优化情形,在初次定位得到的搜索区域基础上,利用Conv3-3 层深度特征对目标进行精确再定位;对于低可信情形,利用Conv5-1 层深度特征进行目标重定位。
在目标的尺度处理方面,本文和TADT 算法一致,使用Conv4-1 层特征进行处理。
本文算法流程图如下页图3 所示。
图3 本文算法流程图
本文在Win10 系统上使用Matlab2016b 编程语言实现了提出的目标跟踪算法。其中,核心硬件配置为主频3.3 GHz Inter Xeon(R)E3-1225 的CPU,GTX1060 GPU,32 GB 运行内存。本文使用VGG16卷积神经网络作为离线训练网络,利用VGG16 网络中Conv4-1 和Conv4-3 层特征作为目标尺度和初次定位目标位置的深度特征。本文所用其他跟踪参数和TADT 一致。为了全面评估本文所提算法的性能,在OTB-50 及OTB-100数据集上进行了实验,并与TADT、STRCF、MCCT_H、ECO_HC、Deep LMCF、BACF、Staple_CA、DeepSRDCF、LDES等9 个先进的跟踪器进行了比较。
图4 和图5 是10 种算法在OTB-50 和OTB-100 上的总精确度图和成功率图,从图4 和图5 中看出,本文提出的算法精确度和成功率均排名第1,证明了本文所提算法性能优异。图6 给出了10 种算法在平面内旋转、出视野、低分辨率、变形等4 种复杂场景下的成功率曲线图。相比基准算法TADT,本文算法的跟踪成功率分别提高了2.3%、1.4%、1.7%和2.2%,这主要得益于本文算法引入了Conv5-1 层深度特征,有效抑制了跟踪漂移。
图4 10 种算法在OTB-50 的成功率曲线图和距离精度曲线图
图5 10 种算法在OTB-100 的成功率曲线图和距离精度曲线图
图6 10 种算法在OTB-50 4 种挑战性场景下的成功率曲线图
表1 给出了10 种算法在OTB-100 上的性能对比,加星号的算法表示使用了深度特征。在使用深度特征的4 种算法中,本文算法跟踪速度排名第2,达到实时跟踪的要求。在跟踪成功率及精确度方面,本文算法均排名第1,跟踪成功率相比STRCF,提高了2.2%,相比Staple_CA 则提升了10.7%。数据对比可以看出,本文算法兼顾了跟踪精度和跟踪速度。
表1 10 种算法在OTB-100 上的性能对比
为更加直观地评价本文算法在复杂环境下的性能表现,表2 给出了本文算法与其他9 种目标跟踪算法在OTB-100 基准数据集中11 个具有挑战性的属性上的精确度图统计数据,以加粗字体标识单个属性的最优结果,加粗下划线为第2 好结果。本文算法在8 种属性的精确度图中排在第1 位,其余3 种属性均排在第2 位,且全部优于TADT 算法,说明本文算法增加的位置优化模块有效增强了各种复杂情形下算法对目标的定位能力,一系列对比数据有力地证明了本文改进算法的合理性及有效性。
表2 在OTB-100 数据集上多属性比较结果
为了更加直观地展示各种算法的跟踪效果,下页图7 给出了本文算法与TADT、STRCF、MCCT_H、ECO_HC、DeepLMCF 等5 种综合性能排名靠前算法在5 个挑战性视频序列的可视化跟踪结果对比,这5 个视频序列依次为Bolt、MotorRolling、Bird1、DragonBaby 及Soccer。定性分析如下:
图7 6 种算法在5 个挑战性视频序列的跟踪结果比较
1)Bolt 视频序列中存在遮挡、变形、平面内旋转等挑战。TADT 算法因为只使用Conv4-3 层特征定位目标,在第246 帧时丢失目标,本文算法使用了更深层特征,有效解决了这一问题。
2)MotorRolling 视频序列中存在尺度变化、快速运动、平面内旋转、背景干扰等挑战。从第142 帧和150 帧的截图看出,只有本文算法和DeepLMCF可以准确跟踪。
3)Bird1 视频序列存在长时遮挡、快速运动、出视野、形变等多种复杂因素的干扰。在Bird1 视频序列中,第204 帧时STRCF 和ECO_HC 算法丢失目标,308 帧时只有本文算法和TADT 可以跟踪,本文算法的目标定位更加精确,第406 帧时只有本文算法可以定位目标。
4)DragonBaby 和Soccer 视频序列中存在尺度
变化、平面内(外)旋转、遮挡、快速运动、运动模糊、出视野等多种挑战因素。DragonBaby 视频序列的第57 帧ECO_HC 算法出现了跟踪漂移,第88 帧时TADT 及MCCT_H 也丢失了目标,从第94 帧可以看出,本文算法跟踪最为准确。从Soccer 视频序列的第178 帧和388 帧截图可以看出,本文算法无论是范围定位还是精确定位均为最佳。
本文在孪生网络框架下,结合通道选择与目标位置优化模块,提出了一种新型目标跟踪算法。通过梯度计算实现针对不同跟踪目标选择特定特征通道,同时引入峰值旁瓣比对跟踪结果进行可信度判断,进而根据判断结果分别进行后续优化处理。与近年来提出的多个优秀算法在OTB 数据集上进行了定量与定性分析,从一系列对比数据可以看出,本文算法具有最好的跟踪精度与成功率,且有效解决了TADT 算法应对物体形变、低分辨率等能力较差的问题,具有一定的理论与实际应用价值。后续工作重点是在跟踪目标的尺度估计方面进一步改进,以更好地适应目标的旋转、形变等场景。