基于双线程LSTM在线更新的视频追踪算法*

2021-04-06 10:48:24曾上游贾小硕李文惠

计算机工程与科学 2021年3期

曾上游，贾小硕，李文惠

(广西师范大学电子工程学院，广西桂林 541004)

1 引言

视频追踪在计算机视觉领域是一个重要且有挑战性的热门课题。目前，随着卷积神经网络的广泛应用，视频追踪算法在准确率与追踪速度上比传统算法都有提高，但在真实场景下，遮挡物、运动突变等情况会对目标物体的定位带来很大的干扰。

视频追踪中对目标的连续定位属于运动估计范畴，而运动估计算法的速度和准确率又直接影响了视频追踪总体的优劣性。传统的运动估计算法以相关滤波器方法[1 - 4]为主，目前最新的滤波器追踪算法有SRDCF(Spatially Regularized Discriminative Correlation Filters)[5]、CSRDCF(Channel and Spatial Reliability-Discriminative Correlation Filters)[3]和KCF(Kernel Correlation Filter)[6]，但这些算法针对背景复杂、有运动突变的物体存在难以定位的问题。近年来，随着卷积神经网络的广泛应用，经典的SiamFC(Fully Convolutional Siamese networks)[7]、SiamRPN(Siamese Region Proposal Network)[8]追踪算法和最近提出的SiamRFC[9]算法在VOT 2015、VOT 2016和OTB100数据集上也都取得了很大的突破。SiamFC主要对图像进行相似度判定和目标定位，但出现遮挡物干扰时，目标定位的准确率偏低。SiamRPN把视频追踪看作连续的检测过程，通过RPN网络生成待定的目标候选框，利用孪生网络进行相似度判定，达到精准定位效果。SiamRPN的准确率和速度都要高于SiamFC的，但训练过程较为复杂；SiamRFC则结合以上2个追踪算法的优势，减少了训练参数，提升了追踪能力，但在遮挡物和运动突变的干扰下仍面临很大的挑战。

为解决此类问题，本文提出一个基于LSTM(Long Short-Term Memory)[10]的双线程在线更新的追踪算法TripLT。该算法由3部分组成：(1)基于Triplet Network[11]设计的相似度判定网络Tripnet；(2)基于LSTM设计的运动预测网络LTnet，可通过当前帧的位置数据预测下一帧的位置数据；(3)在线更新机制：利用相似度判定网络由当前帧的预测框和当前的定位框可计算得到相似度值U。若U∈(0,0.8)，运动预测网络则进行相关的在线更新学习。本文算法利用了LSTM的特性，不仅在运动估计上不受背景的干扰，避免了遮挡物的影响，也在更新机制上摆脱了运动突变带来的干扰。

本文利用OTB100 Toolkit[12]的指标来评价本文的网络模型，并在VOT2015[13]、2016[14]、2017[15]数据集上和SiamFC、SiamRFC及文献[16]中的算法进行实验对比。实验结果表明，本文算法在追踪上具有更好的追踪效果。

2 本文算法

2.1 相似度判定网络

为提升相似度判定的准确率，本文利用Triplet Network的原理并结合预处理Robinson算子[17]设计了相似度判定网络Tripnet模型，对图像进行相似度判定，网络结构如图1所示。

Figure 1 Tripnet model

Tripnet模型的训练过程需要输入3幅图像img1、img2和img3，其中img1和img2为相似图像，img2和img3为非相似图像。Tnet是一个全卷积式的特征提取网络，网络参数如表1所示。结合Robinson算子对输入图像进行相似度判定的训

Table 1 Tnet network parameters

练时，又引入相对特征loss函数，计算方法如式(1)～式(4)所示：

cm=G1-G2

(1)

avg=∑mcm/m

(2)

dv=(∑mcm-avg)2/m

(3)

loss=G12-2*G23

(4)

图像img1、img2和img3先经过Robison预处理再通过Tnet得到对应的3个高维特征G1、G2、G3。利用式(1)得到图像对G1和G2的相对特征cm，其中m表示高维特征的通道数。再利用式(2)得到相对特征的均值avg，利用式(3)取得相对特征的离散值dv，也即G12。同理得到G2和G3的相对特征的离散值G23。G12是相似图像对img1和img2之间的离散值，G23是非相似图像对img2和img3之间的离散值。本文式(4)扩大img2和img3之间的非相似性距离，缩小img1和img2之间的相似性距离，进一步优化Tnet网络参数。

2.2 运动预测网络

LSTM网络的每个单元由输入门、输出门和遗忘门组成，如图2所示。Rt表示t时刻的输入，Ht表示t时刻的输出，Ct表示t时刻的状态。下面介绍各个门的算法。

ft=σ(Wf·[Ht-1,Rt]+bf)

(5)

it=σ(Wi·[Ht-1,Rt]+bi)

(6)

jt=tanh(Wc·[Ht-1,Rt]+bc)

(7)

Ct=ft*Ct-1±it*jt

(8)

ot=σ(Wo·[Ht-1,Rt]+bo)

(9)

Ht=ot*tanh(Ct)

(10)

上一时刻的输出Ht-1与该时刻的输入Rt会与权重Wf、Wi、Wj、Wo及偏置bf、bi、bj、bo通过激活函数σ或者tanh函数得到中间参数ft、it、jt、ot。然后ft、it、jt与上一时刻的状态变量Ct-1通过式(8)得到该时刻的状态变量Ct，Ct与ot通过式(10)得到本时刻的输出变量Ht。

本文利用LSTM设计了运动预测网络LTnet。Rt为t时刻目标的位置G(x,y,w,h),输入到LTnet中得到Ht，即预测的位置g(x,y,w,h)。LTnet整体运算不受图像背景的影响，避免了遮挡物的干扰。

Figure 2 Structure diagram of LSTM unit

2.3 在线更新机制

普遍的追踪网络在运动目标发生突变时，追踪过程会出现定位偏差。本文设计了一个在线更新的机制Online-LT，以处理运动突变的情况，具体的流程如图3所示。

由当前时刻的目标位置G(x,y,w,h)获得当前目标图像Te0，通过LTnet预测获得下一时刻目标的预测位置g，同时获得下一时刻目标图像Te1；Tripnet对Te0和Te1进行相似度判定得到相似度值U。如果0.5

Figure 3 Flow chart of online update mechanism

2.4 TripLT Net

TripLT是由Tripnet、LTnet和Online-LT组成的双线程追踪算法。TripLT利用Tripnet的优点提高了定位的准确率，利用LTnet的预测性减少了候选框的计算，并结合Online-LT的双线程特点，提高了运行速度和容错率，如图4所示。

这里本文先给定初始目标的位置数据G0(x,y,w,h)，然后利用已训练好的LTnet对下一帧的目标位置进行预测，并得到预测的目标位置g0(x,y,w,h)，当读取到下一帧图像P1时，用上一帧的g0在P1上截取相应的目标区域图像Te1，并与上一帧的目标区域图像Te0在已训练好的Tripnet网络上进行相似度的判定，最终得到下一帧的目标位置G1(x,y,w,h)。以上述方式不断地对视频中的目标进行预测，以达到追踪效果。

本文的TripLT算法利用LSTM的时序预测性，在读取当前时刻图像的同时获得下一时刻目标位置的预测数据，并和孪生网络相结合，大大缩短了运动估计时间，达到了实时追踪效果。

Figure 4 Flowchart of TripLT algorithm

3 实验分析

为了训练TripLT算法，本文将分别对Tripnet和LTnet各自进行训练，然后利用OTB Tooklit进行效果评定以及在VOT 2015～VOT 2017数据集中和已有算法进行对比实验。本文也给出超参数N的定义：利用LSTM 对目标的连续N个时刻的运动轨迹来预测N+1时刻的运动轨迹。

3.1 数据集

训练LTnet需要对VOT数据集中的位置数据做如下处理：将目标位置数据整合在一起，然后根据已追踪的前N个时刻目标位置来预测下一时刻目标位置的原则处理数据集，最后将数据以7：3的比例分成训练集和评价集。并根据式(11)～式(14)将目标位置的4个点位数据Gt{(xi，yi)，i∈{1,2,3,4}}转成左下角点、宽和长的数据形式gt(x，y，w，h)。

x=min(Gtxi)

(11)

y=min(Gtyi)

(12)

w=max(Gtxi)-x

(13)

h=max(Gtyi)-y

(14)

为了不失一般性，本文主要选用CACD2000[18]和VGG_FACE2[19]训练Tripnet的数据集。

3.2 超参数N

LTnet在AMD Ryzen3平台下搭建而成。模型结构及参数的设置为：Batch size为10；LSTM单元核为20个；循环次数为200次；选用Adam Optimizer作为优化器；使用式(15)计算网络的loss。

(15)

其中,ypij，ytij表示LSTM的预测值和真实值。

下面在数据集OTB100上测试超参数N和准确率的关系，结果如图5所示。

Figure 5 Accuracy vs. N

从图5可以看出，当N=1时，准确率达到最高。结合参数N的意义和实际环境中的追踪效果得出，N=1更适用于本文的追踪。

3.3 结果对比

TripLT和SiamFC、SiamRFC和文献[16]中的算法在VOT2015～VOT 2017上的对比实验结果分别如表2～表4所示。并利用在OTB100 Toolkit对CFNet[20]、SiamFC、SRDCF、CSRDCF、KCF进行准确率的对比，结果如图6所示。

Table 2 Performance comparison of three tracking algorithms on VOT2015

Figure 6 Accuracy trends of 11 attribute datasets of OTB100

Table 3 Performance comparison of four tracking algorithms under VOT2016

Table 4 Performance comparison of three tracking algorithms under VOT2017

从表2～表4可以看出，在准确率上TripLT取得了较好的效果；与SiamFC、SiamRFC和文献[16]的算法相比，TripLT解决了单线程的时间计算问题，追踪速度也取得了较好的效果。TripLT中加入了在线更新的机制，以针对运动突变的现象，从图6c、图6e和图6f看出，TripLT取得很好的结果。

由图7可以看出，和标签对(白色虚线框)相比，高速运动的汽车在遇到遮挡物时，本文算法仍能高效预测出目标位置。白色虚线框为标签位置，白色实线框为本文算法的追踪位置。

Figure 7 TripLT video tracking effect

4 结束语

在视频追踪过程中，为了避免出现因遮挡物或运动突变情况的干扰而导致无法定位目标的问题，本文设计了双线程LSTM在线更新的视频追踪算法TripLT。在结合LSTM的可预测特性和Triplet Network的高鲁棒性的同时，引入双线程在线更新机制，一方面利用在线更新操作排除物体运动突变现象的干扰，另一方面利用双线程的优点将更新时间与追踪时间剥离，进而不干扰追踪。测试结果表明，与对比算法相比，本文算法在保证有效的追踪速度的同时，准确率也得到一定的提升。