基于卷积特征深度融合的海上目标跟踪算法

2020-02-08 06:59:10张永梅吕卫丰马健喆

计算机工程与设计 2020年1期

张永梅，吕卫丰，马健喆

(1.北方工业大学计算机学院，北京 100144；2.北京华龙通科技有限公司，北京 100083)

0 引言

近年来，深度学习在计算机视觉领域取得了巨大成功，在目标跟踪领域，越来越多学者对深度学习类目标跟踪算法进行了研究[1]。Chao M等[2]使用多层深度特征由粗至细定位目标，取得了良好的跟踪效果，但由于多次定位目标导致跟踪速度慢，GPU(graphics processing unit)速度为7.2帧/s，无法适应尺度变化。Lijun W等[3]通过构建双分支网络来判定目标位置和尺度，实现了良好的尺度自适应跟踪，但GPU速度仅为3帧/s。Seunghoon H等[4]将卷积神经网络与支持向量机相结合进行跟踪(CNN-SVM)，利用卷积特征对目标进行判别，由于SVM的分类能力不强，导致该算法跟踪精度较低。这些深度学习跟踪方法虽然都有较好的跟踪精度，但是由于纯深度学习方法自身计算量大的缺陷，这些算法无法达到实时效果。与之相比，传统相关滤波算法在速度方面存在巨大优势，但是相关滤波算法精度对特征好坏存在很大依赖性，Henriques等提出基于HOG特征的核相关滤波器算法[5]，跟踪速度非常快，但精度较差。

针对现有深度学习跟踪方法速度较慢和传统特征相关滤波算法精度较差的问题，本文提出一种有效的海上目标跟踪算法。以VGG-NET-16框架为基础，在其内部结构中加入卷积融合模块，对各层卷积特征进行深度融合，与相关滤波相结合，并在模型中融入尺度判别器，实现尺度自适应跟踪，在公开数据集上的实验结果达到81.5%的跟踪准确率，以及26帧/s的跟踪速度，是一种综合性能良好的深度学习跟踪算法。

1 相关方法

1.1 相关滤波算法

由于基于相关滤波器的目标跟踪算法具有较好的处理速度和鲁棒性，引起了相关学者的广泛关注。相关滤波算法通过密集采样和频域变换策略训练滤波器，计算当前搜索框中目标最大响应值，以确定跟踪目标的位置[6]。

相关滤波算法的输入为xM×N×D，x表示提取的特征，其中M和N表示特征大小，D表示空间维度[7]。相关滤波算法通过矩阵数据可循环偏移计算的特性，产生大量样本用于滤波器训练，产生的样本xmn∈{0,1,…,M-1}×{0,1,…,N-1}，其中m和n表示样本偏移量。高斯标签函数表达式为

(1)

σ为高斯核的大小。相关滤波算法的最优化问题是使回归函数f(x)的平方误差最小，f(x)=ωtx，ωt为滤波器第t帧的参数[8]，即

(2)

通过Fourier变换对式(2)进行求解，得到第d维特征的滤波器参数为[8]

(3)

(4)

1.2 多层卷积特征可视化分析

随着高性能计算设备的快速发展，出现了越来越多的深层神经网络架构，如AlexNet、ResNet、VGG-Net等，这些深层架构模型可实现端到端的特征提取与识别，性能远好于传统识别算法。

卷积层是深层神经网络架构的核心，研究结果表明，在深层神经网络中的每个卷积层所提取的特征都拥有区别于其它层的特征表达。

VGG-Net是牛津大学计算机视觉组和Google DeepMind公司的研究员一起研发的深度卷积神经网络。VGGNet通过反复堆叠3x3的小型卷积核和2x2的最大池化层，构筑了16～19层深的神经网络。在错误率大大降低的同时扩展性很强，迁移到其它图像数据上的泛化能力很好，而且结构简单。

本文以VGG-NET-16为例，VGG-NET模型以顺序结构进行架构，共5个卷积层模块，3个全连接层组成[9]。图1 为VGG-NET-16网络架构。

图1 VGG-NET-16网络架构

图2为在ImageNet数据集上预训练的VGG-NET-16模型不同卷积层的特征可视化表示，与原图像进行比较可以看到，低层卷积特征1-2、2-2、3-3具有目标完整的轮廓等细节表示，高层特征4-3、5-3包含更多的语义信息，可明显看出目标所在位置。因此，为了将多层卷积特征的特性用于目标跟踪[10]，本文改进VGG-NET-16模型结构，对多层卷积特征进行深度融合，并取得了较好的跟踪效果。

图2 VGG-16各层卷积特征

2 基于卷积神经网络特征深度融合的多尺度相关滤波海上目标跟踪算法

目前基于相关滤波器的目标跟踪算法主要基于手工设计特征。深度卷积网络(convolutional neural network，CNN)在目标检测和识别领域取得了巨大成功，越来越多的研究者开始将卷积特征应用于目标跟踪。卷积网络特征具有提取简单、特征丰富、泛化能力强等优点，但也存在明显不足，如特征维度较高、特征之间存在大量冗余、信噪比低等。为了有利于解决以上问题，本文提出一种基于卷积神经网络特征深度融合的多尺度相关滤波海上目标跟踪算法。

2.1 卷积神经网络特征深度融合的模型设计

深度网络中不同卷积层特征具有不同的语义表达，这一优势使得多层卷积特征融合具有重要意义。利用多层卷积特征进行跟踪，已有相关学者取得一定成果，但是现有成果并未在深度网络内部进行融合，而是将多层特征输出进行人工线性加权融合，该方式跟踪的计算量巨大且存在冗余特征，导致跟踪速度很慢。针对多层融合的优势和现有融合方式存在的问题，本文提出一种网络内部多层融合的网络结构，如图3所示。

图3 多层特征融合结构设计

根据VGG-NET-16多层卷积特征可视化分析，本文选取第3-3层、4-3层、5-3层卷积作为融合特征的基础特征。本文网络结构设计以VGG-NET-16为基础，并在原有结构中加入图3虚线框中所示部分的特征融合结构，其中包括Pooling、Upscale、Concatenation和Convf结构。

对于Pooling和Upscale结构，在VGG-NET-16中Conv3_3、Conv4_3和Conv5_3输出的特征图大小分别为输入图像大小的1/4、1/8、1/16，对此3层特征进行融合，必须使得3层卷积特征的尺度保持一致，因此，Conv3_3和Conv5_3特征图需要降维和升维。本文对 Conv3_3输出的特征图加入Max pooling结构，Max pooling结构可将Conv3_3特征图的尺度降维至输入图像的1/8；对Conv5_3特征图的Upscale结构，传统上采样算法多是采用插值算法，但插值算法效果较为粗糙，为使上采样的效果更为精细，本文使用2×2的Deconv层来实现上采样的效果，将Conv5_3特征图的尺度变为原图像的1/8。

考虑Concatenation和Convf结构，Concatenation层将尺度一致的卷积特征以连接的方式构建为新的多通道特征；Convf层为卷积核大小1×1的卷积层，以三层卷积特征构建的多通道特征存在冗余信息，1×1的卷积核可对Concatenation层产生的冗余特征进行降维。

本文特征融合模块可实现多层特征的快速融合与降维，得到冗余信息更少的综合特征。由于迁移学习利用已有的知识来学习新知识，核心是找到已有知识和新知识之间的关系进行建模。根据已有研究，迁移学习有利于模型参数的快速收敛，而且能够提高模型的泛化能力。本文结合迁移学习的思想，使用预训练的VGG-NET-16模型参数对除融合模块之外的模型参数进行初始化，并固定此部分参数，仅对融合模块参数进行训练。完整的深度卷积融合网络架构见表1。

表1 深度卷积融合网络模型

2.2 目标定位滤波器

在网络架构中，融合模块的Convf层特征融合了Conv3_3、Conv4_3和Conv5_3的特征，使Convf层特征能够进行更好的语义表达，因此，本文以Convf层特征为基础构建目标定位滤波器。

在目标跟踪过程中，对于第t帧图像，利用本文所设计的深度网络模型对目标搜索区域进行特征提取，得到Convf层的卷积特征图，将特征图矩阵带入式(4)的滤波器中，可以得到目标区域在Convf层的相关响应图

(5)

在响应图矩阵fConvf中，最大数值所在位置的矩阵下标即为当前跟踪目标的中心位置pt=(xt,yt)

然而早上7点，玛丽的父母却发现孩子倒在卫生间里，已经停止了呼吸。医生对悲伤的父母说，玛丽可能是倒下时头部受到撞击，导致猝死。

pt=(xt,yt)=argmaxfConvf

(6)

2.3 多尺度自适应滤波器

在目标跟踪中，尺度自适应对跟踪效果至关重要，如果跟踪框大于目标尺度，则会引入背景干扰，相反，跟踪框小于目标尺度，则会丢失目标信息。本文利用基于深度卷积融合网络的定位滤波器获取目标位置后，通过建立独立于定位滤波器的尺度滤波器对目标尺度进行判别。

由于本文共设置33个尺度，尺度金字塔特征的提取需要较多运算，为实现快速尺度判别，本文选用方向梯度直方图(histogram of oriented gradient，HOG)特征作为尺度滤波器的判别特征。HOG特征不仅具有良好的特征表征能力，而且计算复杂度低，有利于实现快速尺度估计。

图4 多尺度金字塔采样

因此，在跟踪第t帧图像的目标时，按尺度等级对目标区域进行采样，提取第t帧目标的多尺度HOG特征Hs(t)，结合相关滤波算法计算各尺度的响应值fs

(7)

fs中最大的响应值所代表的尺度，即为当前目标的最优尺度估计。

2.4 模型更新

在目标跟踪过程中，随着时间的推移，目标可能出现形变、旋转等变化，而且可能受到光照、背景等条件的干扰，为了适应多种条件下的目标变化，需要对滤波参数进行实时更新。本文双滤波器的参数更新策略为

(8)

(9)

(10)

η为模板学习率，经过实验发现，初始帧的目标模板最为可靠，将当前帧的权重设置偏小时，可有效适应目标的变化。

2.5 算法流程

本文算法示意图及具体步骤分别如图5和表2所示。

3 实验结果及分析

3.1 实验环境及参数设置

图5 本文跟踪算法

表2 本文跟踪算法具体步骤

64G内存，Windows7操作系统，MATLAB 2016a实验平台环境下，采用Matconvnet框架和C++混合编程实现本文算法，并利用GPU提高运算速度。

离线训练时，为了提高深度融合卷积特征表示的泛化能力和判别能力，同时避免模型过度拟合，本文采用迁移学习思想，使用预训练的VGG-NET-16模型参数初始化本文网络模型的部分参数并固定，同时以Pascal VOC 2007数据集对本文网络模型进行预训练。Pascal VOC 2007数据集为图像识别和分类提供了一整套标准化优秀数据集，包含9963幅带标注的图像，广泛用于目标识别与跟踪的模型训练，可有效提高模型的泛化能力。

线上目标跟踪时，将预训练网络的Convf层的输出作为跟踪特征表示，定位滤波器和尺度滤波器经过多次实验得到的最优参数设置为学习率η=0.01，正则化因子λ=10-4，高斯核σ=0.1，尺度因子S=1.02，采样个数L=33，且保持参数不变。

3.2 海上移动目标跟踪效果

在图6中，跟踪的目标与浪花融为一体，而且目标尺度不断变大。图7中，海上移动目标所处的背景存在相同类型船只的干扰，而且目标尺度在不断变化。在图6、图7中跟踪框所示的本文算法的跟踪效果良好，能够自适应目标尺度变化，排除相似目标的干扰，性能稳定。

图6 海上目标跟踪实验一

图7 海上目标跟踪实验二

3.3 算法评价

为了充分验证本文跟踪算法的性能，对OTB2015跟踪数据集[12]进行测试分析，选用此数据集中的50个视频序列，包含illumination variation(IV)、out-of-plane rotation(OPR)、scale variation(SV)、occlusion(OCC)、deformation(DEF)、motion blur(MB)、fast motion(FM)、in-plane rotation(IPR)、out of view(OV)、background clutter(BC)、low resolution(LR)[12]11种复杂跟踪环境，利用这11种属性可以从光照、变形、快速变化等方面充分评价算法性能。

对于模型跟踪效果的定量分析，本文采用一次跟踪通过评估(one-pass evaluation，OPE)的平均跟踪成功率和平均跟踪精确率两个指标进行定量分析。OPE是指从视频序列第一帧到最后一帧一次跟踪完成；跟踪成功是指当算法预测跟踪框与目标跟踪框的重合率大于0.5，表示跟踪成功。跟踪成功率是指跟踪成功帧数与视频序列总帧数的比值。跟踪精确率是指中心位置误差小于给定阈值时，跟踪成功帧数与视频序列总帧数的比值。

为验证本文的深度卷积融合网络对卷积特征融合的有效性，本文以单层特征和人工线性融合多层特征设置了3组自对比实验，见表3。

表3 自对比实验成功率与精确率

在表3中，Conv5_3和Conv4_3表示以Conv5_3和Conv4_3单层特征进行跟踪的结果，Conv5_3+Conv4_3表示人工线性融合Conv5_3和Conv4_3层特征的跟踪结果，convf为本文深度卷积融合网络Convf层融合特征的跟踪结果。从表中可以看到，本文深度卷积融合网络所得到的特征的跟踪精确率和成功率明显好于其它特征，Conv5_3+Conv4_3虽然进行了多层特征融合，但人工线性融合受主观经验因素影响较大，无法高效发挥多层特征的特性。

为进一步分析本文深度卷积融合的有效性，选取多种算法进行对比实验，对比算法包括全卷积网络跟踪算法(FCNT)、多层卷积线性融合相关滤波跟踪算法(HCF)、卷积神经网络-支持向量机跟踪算法(CNN-SVM)、顺序训练卷积网络跟踪算法(STCT)[13]、自适应尺度跟踪算法(SAMF)[14]，在这些算法中，FCNT、HCF、CNN-SVM、STCT是与深度学习有关的算法，FCNT和SAMF可以适应尺度变化。这些算法对比实验结果数据均由原论文提供。

图8、图9表示包括本文算法在内的6种算法对于OTB2015(object tracking benchmark 2015)公开测试集的50组视频序列的平均精确率曲线和平均成功率曲线，图9中横轴为重合率阈值，数字为曲线下方的面积，代表跟踪的总体性能，可以看出本文算法的性能最好为0.616，比同样基于多层卷积特征融合的HCF算法提高了6.5%，在HCF算法中仅对多层卷积特征线性相加，无法充分利用各层特征的特性，而且存在特征冗余，本文方法将特征融合融入了深度网络的结构中，充分融合各层特征的特性，取得了更好的跟踪效果。对于跟踪精度，图8中横轴为中心位置误差，可以看到在误差为8到20个像素之间时，本文算法的精确率曲线明显优于其它算法，这表明本文算法预测的目标位置距离真实目标位置更近，可用于精度较高的目标跟踪，综合精度为0.815。

图8 6种算法跟踪精确率曲线

图9 6种算法跟踪成功率曲线

为了分析本文跟踪算法在不同跟踪环境下的跟踪性能，表4、表5分别为多种算法在OTB2015数据集的11种复杂跟踪环境视频下的跟踪成功率和精确率，其中第一列为11种属性的缩写，括号内为该属性下包含的视频个数，第一行为6种算法的缩写，加粗表示性能最优，下划线表示性能次优。

由表4、表5可以看到，在OTB 2015数据集的跟踪实验中，本文算法的跟踪成功率和精确率在IV、OPR、SV等9种复杂环境中优于其它5种算法，具有良好的跟踪稳定性。其中，在尺度变化(SV)环境下，相比于SAMF算法的7个尺度，本文算法同时检测33个尺度，具有更为精细的尺度判别；对于运动模糊(MB)环境的次优性能，本文算法以0.01的学习率更新滤波跟踪参数，当目标多次发生运动模糊后，滤波参数偏移过大导致跟踪性能有所减弱；在out of view(OV)类的序列中，本文效果略差，对于目标离开视频窗口时，本文算法缺乏重检测机制。

表4 6种算法在11种属性跟踪视频的跟踪精确率

表5 6种算法在11种属性跟踪视频的跟踪成功率

跟踪速度对评价跟踪算法的优劣至关重要，表6给出了本文算法与对比算法的跟踪速度。表6中基于深度学习算法运行平台为GPU，可以看到，本文跟踪速率可达到26帧/秒，比其它深度学习算法明显提升。

表6 6种算法在OTB2015数据集的平均跟踪速度

4 结束语

本文提出一种有效的海上目标跟踪算法，在现有多层特征网络的基础上，加入上下采样和1×1卷积核结构，重新设计深度网络模型结构，实现了对多层特征的深度融合，提高了特征表征能力，并用于相关滤波器算法跟踪过程中的目标定位。对于尺度变化问题，本文使用HOG特征构建尺度滤波器，对目标尺度进行判别。实验结果表明，本文算法跟踪精度高，对目标尺度可有效判别，而且跟踪速度较快。本文算法对于目标消失重现的场景下，不能有效跟踪，缺乏对重现目标的重检测机制。因此，如何检测消失目标，提高算法稳定性，将是下一步的研究工作。