引入全局上下文特征模块的DenseNet孪生网络目标跟踪

2021-01-25 03:47:48谭建豪刘力铭王耀南

电子与信息学报 2021年1期

关键词：鲁棒性网络结构骨干

谭建豪殷旺刘力铭王耀南

(湖南大学电气与信息工程学院长沙 410082)

(机器人视觉感知与控制技术国家工程实验室长沙 410082)

1 引言

目标跟踪是计算机视觉领域最基本也是最有挑战的热点研究问题之一，基于视觉的运动目标跟踪已经广泛应用在监控系统、无人机视觉系统、军事侦查、人机交互以及无人驾驶等领域[1]。

近年来，目标跟踪主要分为两类，基于相关滤波的方法和基于深度网络方法。相关滤波方法如Henrique等人[2]提出的核相关滤波器(Kernelized Correlation Filter, KCF)算法、Danelljan等人[3]提出的空间正则化判别相关滤波器(S p a t i a l l y Regularized Discriminative Correlation Filters,SRDCF)算法，该类方法引入了核技巧，提高了跟踪器效率，但相关滤波方法仅考虑相邻帧间的相关特征信息，当目标出现漂移或遮挡时容易出现跟丢。随着深度卷积神经网络的发展，以孪生卷积网络来提取深度特征，进行相似度衡量的方法具有较好的跟踪性能。孪生全卷积(Siamese Fully-Convolutional, SiamFC)算法[4]采用两个网络分支，模板分支和目标分支，通过相关层计算相似性，在速度和精度上获得较好的性能。基于相关滤波器的跟踪(Correlation Filter based tracking, CFNet)算法[5]在目标分支中引入相关滤波层对文献[4]进行改进，在线调整目标模型。动态孪生网络(Dynamic Siamese network, DSiam)[6]通过设计在线动态调整模型，提高了性能。上述Siamese系列算法虽然取得了一定的跟踪精度和速度，但仍存在一些问题。首先，大多数孪生网络算法是基于AlexNet骨干网络，其提取的特征都是浅层的外观特征,缺乏深度特征，双分支孪生神经网络(twofold Siamese network, SA-Siam)算法[7]使用两个Siamese网络，一个用于提取语义信息的网络，另一个用于构建外观模型，将语义信息合并到响应图中，弥补深度信息的不足，但它们都是直接从卷积神经网络(Convolutional Neural Networks, CNN)中获取的局部特征，并没有获取全局上下文特征。

针对以往骨干网络难以提取深层特征，且外观模型不具有全局上下文特征两个问题，本文在Siamese网络思想的基础上重新进行网络设计与搭建，提出一种引入全局上下文信息模块的Dense-Net孪生网络目标跟踪算法。其创新有：(1)采用密集网络DenseNet作为骨干网络，提出一种全新端到端深度密集连体结构网络，它在减少网络参数的同时，将层与层之间的特征在channel上进行拼接从而达到特征重用，提高了泛化能力；(2)在网络中加入全局上下文模块(Global Context feature Module, GC-Model)，通过全局池化、 1×1特征变化、特征融合等步骤将全局上下文信息进行聚合，用以提升该算法的跟踪性能。

2 骨干网络结构

2.1 残差网络结构

网络的深度对于模型的性能是至关重要的，He等人[8]在实验中发现，网络层数增加到一定程度时，网络准确度会出现饱和，甚至出现下降，并且不是过拟合所导致的问题，因此，残差网络由此产生，对于一个堆基层结构，当输入为 x时其所学习到的特征记作H (x)，我们期望真实地学习到残差

因此，原始的学习特征为 F(x)+x，残差学习相比原始特征学习容易，且实际残差不会为0，这让堆基层在输入特征的基础上能够学习到新特征，从而具有更好的性能。

ResNet网络是在VGG19网络的基础上进行修改，并引入残差模块，该网络为后续密集型网络DenseNet提供了理论与经验基础。

2.2 DenseNet网络结构

3 全局上下文特征模型(GC-Model)

3.1 长距离依赖捕获方法

非局部神经网络(Non Local neural Network,NLNet)[11]采用自注意力机制来建模像素对关系，但是其对于每一个位置学习不受限制依赖的注意力图(attention map), 造成了很大的计算资源浪费。

NLNet旨在从其他位置聚集信息来增强当前位置的特征， x 和z 定义为该网络结构的输入与输出，则NLNet可以表示为

NLNet[11]将每个查询位置进行全局上下文聚合，提供了一种非局部特征捕获的开创性方法，该类方法旨在提取视觉场景的全局理解，广泛应用于识别、物体检测、分割等领域。为了模拟全局上下文特征，SENet[12],GENet[13]对不同通道执行重新加权操作，以重新校准具有全局上下文的通道依赖性。

如图2(b)所示为SENet网络结构，其可以大致理解成3个过程：网络中全局平均池化用于上下文建模，增强位置的特征；通道权值计算，即1×1卷积、RELU和Sigmoid等计算，使用特征转换来获取通道间的依赖；通道特征重标定。

3.2 GC-Model网络模型

GC-Model是结合了SENet计算量小以及NLNet全局上下文能力等优点提出了非局部操作网络[14]，其计算量相对较小，又能够很好地融合全局信息，在目标检测中取得了重要的提升。

GC-Model中非局部操作可分为3个过程[14]：(1)用于上下文建模的全局注意力集中机制，采用1×1卷积Wk和Softmax函数来得到自注意权重，然后进行注意力集中获取全局背景特征；(2)特征转换获取通道依赖性；(3)特征融合，全局上下文模型的详细结构如图3所示，可表示为式(4)GC-Model是轻量级的模型，能够获取远程非局部特征，且能灵活地插入各个视觉问题的网络架构中，本文将GC-Model放入骨干DenseNet网络架构中，用以提升网络训练的泛化性能。

图1 DenseNet的网络结构

图2 两种长距离依赖模型图

4 本文SD-GCNet算法

4.1 孪生网络目标跟踪框架

近年来，SiamFC开启了深度学习方法在目标跟踪领域的大门，通过端到端网络学习，使用相似度学习的方法来实现目标跟踪。其网络框架如图4所示。

孪生网络通过建立两个分支进行训练，两分支所使用的骨干网络完全一致，在SiamFC中，采用互相关函数 f(z,x)作为相似度函数，计算经过φ 之后的特征提取后的特征图相似性[15]

图3 全局上下文GC-Model模块

其中，*表示卷积， kI表示响应图在每个位置的取值。

4.2 本文目标跟踪算法框架

上述第2节，第3节详细地介绍了骨干网络架构和孪生网络架构的基本信息。(1)DenseNet网络是一种密集连接型网络，在构建更深层网络的同时减少了层之间的参数量，能够增强算法的泛化性能，并且能够解决训练过程中的梯度消失问题；(2)GCNet综合了SENet计算量小以及NLNet全局上下文能力等优点，其计算量相对较小，又能够很好地融合全局信息，可融入任何骨干网络当中用以提升性能；(3)孪生网络的网络架构方式已经在目标跟踪上取得了较好的跟踪性能，且实时性较好。据此以上述3个研究成果为出发点，整理思路，本文通过假设、组合、实验验证等一系列步骤，最终得出本文SDGCNet目标跟踪网络框架。其网络框图如图5所示。

本文提出一种引入全局上下文信息模块的Dense-Net孪生网络目标跟踪算法SiamDenseNet+GCModel，简称SD-GCNet，其核心思想是以密集型网络DenseNet作为孪生网络的骨干[16]，在骨干网络中引入GC-Model，搭建SD-GCNet网络框架。

为了更加明显地表示网络结构，特以表1形式进行展示。

4.3 损失函数

SD-GCNet网络实际上是一种判别的二分类方法，在正负样本对上采用极大似然估计进行训练，本文采用Logistic损失函数，如式(6)

图4 孪生网络目标跟踪框架图

图5 SD-GCNet算法框架

表1 网络结构

对每一个像素位置o ，都有对应的标签y。当位置 o 与图像中心位置的距离在一个阈值内时，将其视为正样本，否则视为负样本。

5 实验与结果

5.1 算法实现细节

本文算法实现与调试在ubuntu16.04操作系统下，计算机硬件配置为Intel Core i7-8700k 主频3.7 GHz, GeForce RTX2080TI显卡。

SD-GCNet算法在ILSVRC2015和GOT-10K数据集共6000个视频序列上进行训练，该数据集具有各种各样的视频目标对象，具备一定的普遍性。本文采用随机梯度下降(Stochastic Gradient Descent,SGD)优化算法以动量参数为0.9训练网络，学习率从10−8～ 10−3在训练过程中逐渐递减，用高斯函数初始化参数，batchsize设置为16。通过5种尺寸1.0327{−2,−1,0,1,2}上的搜索对象来调整尺寸变化，输入候选图像尺寸为127×127，搜索图像尺寸为255×255，使用线性插值来更新尺寸。

5.2 实验结果分析

为验证本文提出的SD-GCNet算法可靠性，特在VOT2017数据集上对算法进行定量评估，在OTB50数据集上对算法进行定性分析，从多个数据集多种角度验证算法的有效性和优越性。

5.2.1 定量分析

如表2所示，为本文算法在VOT2017[17]数据集上与目前较为主流的6种目标跟踪算法SiamFC,SiamVGG[18], DCFNet[19], SRDCF[3], DeepCSRDC,Staple[20]在精确度、鲁棒性等指标上的性能对比，其中表中鲁棒性用跟丢次数来衡量，SiamFC,SiamVGG, DCFNet为深度学习算法，SRDCF,DeepCSRDCF, Staple为相关滤波算法。

由表2可知，本文算法在目标跟踪的精确度上均高于其余算法，与用VGG-16作为骨干网络SiamVGG算法相比，在VOT2017数据集上，其精确度提升了1.9%，平均重叠期望提升了1.0%，与以AlexNet作为主干网络的SiamFC算法相比，则性能提升更多，这更进一步验证了本文DenseNet作为主干网络的优越性。

为了进一步分析该算法的优缺点，本文提供了其在VOT2017数据集上的具体属性对比，包括相机移动、目标丢失、光照变化、运动变化、目标遮挡、尺度变化共6种属性。

表3和表4分别列出了上述6种属性下算法的跟踪精度和跟踪鲁棒性，其中，加粗数字表示排名第1，蓝色数字表示排名第2，从表中可以看出，本文算法除光照变化外，其跟踪精度均处于最优位置，在跟踪鲁棒性上，相机移动和尺度变化也处于领先位置，其余均排在前列。由此表明，本文算法具有较好的跟踪精度，在较多复杂的条件下也能有较好的跟踪鲁棒性。

5.2.2 定性分析

图6给出了本文算法与另外4种算法SiamFC,SRDCF, Staple, Struck[21]在OTB50[22]上的跟踪结果，表5表示了测试序列的影响因素。

根据图6的跟踪结果和表5的影响因素对算法进行如下定性分析：

(1) 快速运动：以测试序列Bolt和Ironman为例，目标快速移动，目标外观和背景都发生快速变化，对匹配性算法和更新模板类算法都会产生较大的影响。SRDCF和Struck算法在序列Bolt上第10帧就完全丢失了目标，并且基于模板更新，后续不能恢复跟踪，在序列Ironman第38帧，SRDCF,Staple, Struck已经完全丢失目标，只有本文算法在两种干扰因素下保持良好跟踪。

(2) 背景干扰、杂波，光照变化：以测试序列carDark为例，在背景干扰严重，光照变化明显的条件下，对于前景特征提取的准确性显得尤为重要。在carDark序列第295帧，匹配类算法SiamFC已经出现目标丢失，这进一步说明DenseNet骨干网络优于AlexNet在背景干扰上的特征提取能力。

表2 在VOT2017数据集上与主流算法的基础模型结果对比

(3) 遮挡：以测试序列Jogging-2为例，在该序列第53帧时出现跟踪目标完全被遮挡情况，当遮挡消失，Staple算法和Struck算法全部跟丢，本文算法，SiamFC, SRDCF能够重新恢复跟踪，本文算法和SiamFC采用第1帧目标匹配方法，能够在目标消失遮挡时恢复跟踪。

本文所提算法有上述优点，在快速运动、背景干扰、遮挡等方面具备一定的性能，但其涉及较深的深度网络，在运行时对计算机性能要求颇高，如果将其运用在机器人或旋翼无人机等实际设备上，对小型机载计算机性能有要求，才能确保达到实时跟踪状态，且本文算法并没有设定自适应目标跟踪框，也没有使用动态孪生网络方法进行参数更新，后续可以考虑在这几个方面进行进一步的研究，以便达到更好的跟踪性能。

6 结论

本文提出了一种引入全局上下文特征模块的DenseNet孪生网络目标跟踪算法。使用较深层的密集型DenseNet网络，获取更深层的前景外观特征和语义背景，增强了算法的泛化性能；将全局上下文特征模块嵌入孪生网络分支，提高算法跟踪精度。在两个流行的数据集VOT2017, OTB50上评估，实验结果表明了该算法具备良好的跟踪精度与鲁棒性，在尺度变化、低分辨率、遮挡等情况下具有良好的跟踪效果。

表3 不同属性下算法的跟踪精度对比

表4 不同属性下算法的跟踪鲁棒性对比(数字表示失败次数)

图6 本文算法与4种算法的跟踪结果对比

表5 OTB50中测试序列与其影响因素