结合多注意力机制的自监督目标跟踪

2021-12-23 07:57张志远
计算机工程与设计 2021年12期
关键词:跟踪器注意力卷积

张志远,杨 帆

(中国民航大学 计算机科学与技术学院,天津 300300)

0 引 言

目标跟踪旨在给定跟踪目标第一帧初始注释框的情况下,在连续的视频序列中建立所要跟踪物体的位置关系,得到目标完整的运动轨迹[1]。由于没有任何先验的外观、形状模型,仅有跟踪目标第一帧的标注信息用于模型理解跟踪目标,且存在光照变化、运动模糊、背景干扰等情况,使得目标跟踪仍然是计算机视觉领域中的难点问题。

现有的主流跟踪器大多采用监督学习的训练方式,在处理数据集时需要使用视频的目标标注信息,对图像进行以跟踪目标为中心的裁剪切割处理。随着互联网和信息技术的快速发展以及高速移动设备的普及,网络上的信息量呈现几何级爆炸式增长,如何在无标注信息的情况下利用好互联网带来的海量视频数据是值得研究的问题。受文献[2]提出的循环一致性损失启发,文献[3]提出了一种自监督的学习方法,学习视频之间的目标对应关系,其主要思想是将时间的循环一致性用作免费的监督信号,挖掘出视频在时间上的连贯性。文献[4]提出了首个无监督跟踪器,作者认为一个鲁棒的跟踪器可以在连续帧中定位目标对象且可回溯到第一帧的初始位置。不同于现有跟踪器读取视频标注信息进行有监督的学习,文献[4]提出的跟踪器以无监督的训练方式在大规模未标记视频上重复执行前向跟踪和后向跟踪来学习定位目标,揭示了无监督学习在视觉跟踪中的潜力。

本文基于大量互联网视频数据具有潜在学习价值的假设,提出一种改进的利用未标注的原始视频图像进行端到端训练的自监督跟踪模型。模型基于孪生网络的相关滤波框架,通过前向跟踪和后向跟踪两个跟踪过程,使用初始标签和预测响应构建循环一致性损失作为监督信号,同时使用子空间注意力机制以及通道注意力机制根据不同的跟踪目标对特征进行自适应调整。子空间注意力机制突出了目标特征子空间内部的重要信息,通道注意力机制在通道维度上对干扰信息进行了抑制,并加强了有效的目标特征。在基准测试集上的实验结果表明,提出的自监督跟踪模型达到了监督跟踪器的跟踪基准,并相比于文献[4]的无监督跟踪器在跟踪性能上得到了进一步提升。

1 算法描述

1.1 判别式相关滤波

相关滤波(correlation filter,CF)在信号处理中用来进行两个信号的相关性计算,信号f和g的相关性计算为

(1)

式中:f*是f的复共轭,两个信号越相似,则相关性响应越高。在图像处理中,问题则表述为目标越相似,则相关性响应越高。

判别式相关滤波(discriminative correlation filter,DCF)使用滤波器w将从目标模板提取的特征φ(X)∈RM×N×D回归到目标模板的高斯标签Y∈RM×N上进行判别式回归。滤波器w可以通过解决岭回归问题[5]进行求解

(2)

式中:*表示循环卷积,λ≥0为正则化参数。可以通过式(3)在频域中有效地计算式(2)

(3)

(4)

为了使用神经网络学习出更好的目标特征,并且保留相关滤波在傅里叶频域的高效计算过程,在近期的工作[6]中,判别式相关滤波被嵌入了孪生网络[7]结构中,神经网络通过端到端的学习方式,得到了与目标跟踪任务更加紧密耦合的特征。

1.2 网络框架

本文将嵌入判别式相关滤波的孪生网络作为网络模型的一个跟踪分支,模型由前向跟踪和后向跟踪两个跟踪过程构成。不同于无监督跟踪器UDT[4]仅使用卷积网络提取特征,本文提出使用卷积网络及多注意力机制构建特征提取器ψ。针对不同的跟踪目标,特征提取器ψ使用多注意力机制对卷积网络提取的特征进行自适应的调整,通过提升目标特征的判别性进一步提升了跟踪精度。网络模型架构如图1所示。

图1 网络模型架构

网络使用连续的两帧图像#1和#2构成训练对进行训练,设定#1的中心区域块作为跟踪目标。在前向跟踪过程中,将#1作为目标模板T,#2作为搜索区域S。使用特征提取器ψ对目标模板T和搜索区域S提取特征,分别得到特征ψ(T)与ψ(S)。将#1响应峰值位于中心的初始标签Y1作为初始模板标签YT,使用式(5)计算得到滤波器wT

(5)

目标模板T的滤波器wT与搜索区域S的特征ψ(S)使用式(6)得到目标响应图RS

(6)

由此得到#2的目标响应图R2。在前向跟踪过程中,R2的响应峰值即为以#2为搜索区域的预测目标位置。

在后向跟踪过程中,则将#2作为目标模板T,#1作为搜索区域S。使用在前向跟踪中得到的R2响应图作为伪标签RT。重复上述式(5)和式(6)的计算过程,计算得到以#1为搜索区域的预测目标位置R1。

最后,使用#1的初始标签Y1与#1的预测目标响应结果R1利用式(7)构建循环一致性损失进行网络训练

(7)

在训练过程中,存在如图2所示的前向跟踪过程中目标定位错误,却能够在后向跟踪过程中成功回溯到初始位置的情况。为了解决上述问题,训练中添加了第三帧图像#3,使用#1、#2、#3组成的训练组进行训练。由#1到#2的一次前向跟踪过程,增加为由#1到#2,再由#2到#3的两次前向跟踪过程。通过增加跟踪过程来累积定位错误,来减少上述的错误现象。新的训练过程如图3所示。

图2 原始跟踪过程

图3 增加前向跟踪过程

(8)

1.3 特征提取器

不同于传统跟踪器使用手工特征,本文以端到端的训练方式使用神经网络学习出与跟踪任务更加紧密耦合的特征,将特征的学习融入到网络的反向传播过程中。

如图4所示,本文的特征提取器ψ由卷积网络、子空间注意力模块和通道注意力模块构成。其中卷积结构提取图像特征,子空间注意力捕获特征在不同子空间内的特征交互模式,通道注意力针对不同的输入对通道特征赋予不同的重要性系数,抑制冗余特征的学习。针对不同的输入对象,通过在子空间和通道两方面对卷积特征进行了自适应调整,有效地提升了目标特征的判别力。

图4 特征提取器ψ网络结构

1.3.1 子空间注意力

在图像任务和自然语言任务中,都需要捕获特征长范围的依赖关系。在图像处理问题中,如果要捕获长距离的特征关系通常需要堆叠多层卷积模块来扩大输入图像的感受野。本文借鉴文献[8]用于自然语言处理的多头自注意力结构,提出了子空间注意力机制,将其用于捕获子空间内的非局部特征依赖关系,对子空间内部的重要特征信息进行了增强。子空间注意力模块网络结构如图5所示。

图5 子空间注意力模块网络结构

卷积网络得到的特征X∈Rn×121×121×32,其中n是批尺寸大小。首先将X保留其批尺寸的维度,其余向量展开成一维结构,将X重塑成X∈Rn×m。接下来将X重塑为X∈Rn×h×s×v的形状,其中h是多头注意力(multi-headed attention)中的头,在本文中代表在h个子空间内进行自注意力的计算。自注意力机制在每个子空间内部进行特征的交互计算,最终得到的结果定义了每一个像素特征在当前位置的表现力。子空间注意力使用式(9)进行计算,可以更好地对图像不同区域的关系进行建模

(9)

经过以上计算过程,在h个子空间内衡量了卷积特征的相关性,最后将相关性进行汇总得到总相关性关 系。通过这种方式无视像素特征之间的距离直接计算依赖关系,更好地捕获了子空间内部特征的关联关系,对卷积提取的特征进行了优化,并且实现了通道信息的交互。

1.3.2 通道注意力

由于训练集采用中心区域裁剪的图像块,并非使用完整的目标对象,使得学习的特征混杂着一些干扰信息。这些干扰特征与目标特征在特征通道上混杂,不利于对于目标的准确定位。针对这个问题,本文使用通道注意力网络(squeeze-and-excitation networks,SENet)[9]对各通道的重要性进行建模,通过自适应的权重分配对特征进行逐通道的调整。在跟踪过程中,对有效的目标特征进行增强,对干扰特征进行削弱,进一步提升了跟踪精度。通道注意力模块如图6所示。

图6 通道注意力模块网络结构

首先将每个通道的特征进行压缩,压缩得到的实数整合了每个通道的空间信息,具有全局的感受野。采用全局平均池化进行计算

(10)

z∈R1×1×c表示压缩后的特征向量,H和W表示特征X的特征图大小。对全局信息进行编码后,使用式(11)通过学习参数w对特征通道间的相关性进行建模。参数w通过两个全连接层FC1和FC2进行学习,FC1和FC2之间的隐层激活尺寸大小为c/r×1×1,其中r为放缩参数,通过减少通道个数从而降低计算量

s=Fex(z,w)=σ(g(z,w))=σ(w2δ(w1z))

(11)

式中:s∈R1×1×c表示求得的各通道自适应权重,w1∈Rc/r×c,w2∈Rc×c/r。δ表示激活函数ReLU。σ表示激活函数Sigmoid。最后将通道的自适应权重s与原特征X进行结合,为每个通道分配新的自适应权重,得到重标定特征Xc

Xc=Fscale(X,s)=X·s

(12)

1.4 损失函数

(13)

将每个样本组的wdrop和wmove由下式进行归一化得到wnorm

(14)

式中:n是批尺寸大小。最后的损失函数计算如下

(15)

1.5 在线跟踪

本文提出的网络在离线阶段训练神经网络以提取具有区分性的目标特征,在线跟踪过程中不进行在线微调,以保证跟踪的高效性。采用式(16)使用学习率η来线性更新滤波器w,以在跟踪过程中适应目标的外观变化

wt=(1-η)wt-1+ηwt

(16)

由响应图进行目标的定位后,需要进行对目标进行尺度估计。以具有比例因子{as|a=1.0265,s={-1.5,-0.5,0.5}}的目标尺度金字塔来在目标中心位置进行多尺度采样。使用尺度惩罚因子{ps|p=0.9925,s={1.5,0.5,0.5}}根据尺度的变化相应限制其响应值。

2 实验结果及分析

2.1 实验细节

(1)网络参数及实验环境

本文提出的特征提取器包括两大部分,进行图像特征提取的卷积部分以及进行特征自适应调整的多注意力机制部分。卷积网络结构选取VGG16的部分网络结构,由两层3×3的卷积网络组成。在每层卷积结构后使用ReLU激活函数,第二层卷积后进行批标准化(batch normalization),并删除了原有网络的池化部分,设定卷积输出特征通道维度为32。在多注意力机制部分,子空间注意力机制中h取4,即在4个子空间内分别进行自注意力计算,通道注意力机制部分隐藏层的放缩参数r设为16。特征提取网络结构的最后使用局部响应归一化(local response normalization,LRN)层。建立局部神经元的竞争机制,从而增强了模型的泛化能力。

网络训练使用随机梯度下降(stochastic gradient descent,SGD),批尺寸大小设为32,在线跟踪过程的滤波器学习率η设为0.009。实验配置在Ubuntu16.04操作系统的实验环境下,在2.50 GHz Intel Xeon E5-2640的处理器和NVIDIA GTX 1080Ti的GPU上进行训练和测试。

(2)训练集处理

目前基于深度学习的目标跟踪模型一般使用目标分类的预训练模型或者使用目标检测的数据集进行训练。本实验选择用于目标检测任务的数据集ILSVRC 2015作为训练集,每个训练组由在单个视频连续10帧内随机选择的3帧构成。图像组中随机一帧设为目标模板,另外两帧设为搜索区域。

图7 生成训练样本

2.2 定量分析

2.2.1 评估标准

为验证提出模型的有效性,本文采用两个基准跟踪数据集OTB50和OTB100(online object tracking benchmark,OTB)作为测试集进行验证。其中OTB50包含50个视频序列,OTB100是OTB50的扩展,共包含100个视频序列。与OTB50相比,OTB100另外包含的50个视频序列更具挑战性。两个测试集分别在光照变化、比例变化、运动模糊、背景杂波等方面对跟踪器进行了综合性的评估。主要的3种评估标准指标为:平均像素误差(average pixel error,APE)、平均重叠率(average overlap rate,AOR)和平均跟踪速度(average tracking speed)。

(1)像素误差(ECLE)以预测的目标中心坐标与真实的目标中心坐标的偏差作为误差值,定义式如下

(17)

式中:(xT,yT)表示跟踪器预测的目标中心坐标,(xG,yG)表示标注的真实中心坐标。精度图中的平均精度由ECLE值小于给定阈值的比例计算得到,本文中阈值设定为20个像素值。

(2)重叠率(Soverlap)用来进行跟踪准确度的评估,使用IoU(intersection-over-union)的交并比概念,定义式如下

(18)

(3)平均跟踪速度(v)表示了跟踪器1 s内可以进行多少帧(frame per second,FPS)视频图像的处理,计算方式如下式

(19)

Nframe表示一个视频图像中的总图像帧数,T表示对该视频跟踪处理的总时长。

2.2.2 整体性能分析

使用2.2.1节中定义的3个评价指标,将本文提出的跟踪器与其它5个跟踪器在平均像素误差(APE)、平均重叠率(AOR)和平均跟踪速度3方面进行了整体的性能分析,其中平均重叠率(AOR)为主要评价指标。这些用于对比的跟踪器涵盖了两种主流方法,即使用深度学习特征的跟踪器(TADT[10]、SiamFC[7]、CFNet[11])和使用传统手工特征的跟踪器(KCF[5])。在基准测试集OTB50和OTB100上的对比结果如图8和图9所示。

图8 数据集OTB50的距离精度曲线和成功率曲线

图9 数据集OTB100的距离精度曲线和成功率曲线

在对比的跟踪算法中,TADT[10]使用用于图像分类的预训练大型网络,根据跟踪问题的损失函数指导通道的选择,去除不必要的冗余特征;SiamFC[7]是第一个将孪生网络用于目标跟踪的经典模型,使用深层卷积网络特征进行跟踪,跟踪过程中不进行目标模板的更新;CFNet[11]和UDT[4]是结合孪生网络和相关滤波的跟踪算法,使用浅层卷积网络提取目标特征,在线跟踪过程中使用线性插值函数在线更新目标模板,其中UDT[4]是首个提出无监督训练方式的目标跟踪算法;KCF[5]无需进行离线训练,使用传统手工特征构建相关滤波器进行跟踪。

在上图的对比结果中,可以清楚的看到本文提出的跟踪算法虽然使用未标注的原始视频图像进行训练,但已达到了采用有监督学习方式的跟踪器基准。其中,本文提出的算法在结果上优于同样使用未标注视频数据进行训练的UDT[4]算法,验证了两个注意力机制模块通过加强卷积特征的判别性,得到了更加鲁棒的跟踪器。

表1中列出了不同跟踪算法在OTB100数据集上的平均跟踪速度及成功率的曲线下面积得分(AUC score)。本文提出的算法采用端到端的轻量级网络,通过构建相关滤波器用于目标的跟踪,推导过程仍然保留在傅里叶域内进行,所以保留了判别式相关滤波的高效性。由于引入了两个注意力机制模块,虽然速度稍有下降,但仍然超过公认的实时跟踪速度25 FPS,仍能达到实时的标准。

表1 本文算法与主流算法的性能评估对比

2.3 定性分析

定性分析过程在OTB100数据集中选择了6个具有挑战性的视频,将提出跟踪器的跟踪结果以矩形标注框的方式进行了直观的展示,跟踪结果如图10所示。

图10 跟踪结果定性分析

在前3个视频图10(a)Surfer、图10(b)BlurBody、图10(c)Skating2-2中可以观察到,在目标发生运动模糊、快速形变等现象时,本文提出的跟踪器通过使用两种注意力机制,对原本的目标特征进行了自适应调整,在一定程度上抑制了干扰信息,对目标特征进行了增强,可以对跟踪目标进行准确的跟踪定位;在后3个视频图10(d)Shaking、图10(e)Diving、图10(f)Matrix中均发生了跟踪失败的情况,是因为自监督学习本质上仍属于无监督,训练时缺少有监督的目标信息,导致提取的特征仍然缺乏处理复杂场景的客观信息。

3 结束语

近年来基于深度学习的目标跟踪模型取得了巨大成功,但存在神经网络学习能力受到训练集数量大小限制的问题。本文通过构建循环一致性损失,提出了一个采用自监督学习的跟踪模型。通过添加子空间注意力模块和通道注意力模块,提高了原有卷积特征的判别性,增强了跟踪器对不同跟踪目标的适应能力。在公共数据集上的实验结果表明了提出自监督跟踪器的实时性和有效性,并且可以达到有监督训练跟踪器的基线水平。

猜你喜欢
跟踪器注意力卷积
让注意力“飞”回来
光伏跟踪器阵列跟踪精度的测算方法研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
浅析一种风光储一体化跟踪器
从滤波器理解卷积
超长待机的自行车位置跟踪器
基于傅里叶域卷积表示的目标跟踪算法
双向多轨迹判定方法在目标跟踪中的应用研究
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things