融合轻量级YOLOv4与KCF算法的红外舰船目标识别

2021-07-13 03:37:50谢晓方刘厚君张龙杰张龙云

兵器装备工程学报 2021年6期

谢晓方，刘厚君，张龙杰，孙涛，张龙云

(1.海军航空大学，山东烟台 264001； 2.山东大学，济南 250000)

现代海战中，准确识别出敌方舰船并利用精确制导技术对其摧毁是削弱敌方海军战斗力的关键。红外制导由于具备全天候、高隐蔽、抗云雾等优势，在反舰导弹制导过程中作为末段制导主要方式，发挥着关键性作用[1-2]。在红外制导体系中，对红外图像中舰船目标的准确识别是关键所在，舰船目标识别的质量决定了制导过程的水平。

在复杂海天背景下对红外舰船目标进行有效的检测和稳定的跟踪显得尤为困难：一方面，红外图像是单通道灰度图像，与可见光图像相比图像的纹理信息相对较少；另一方面，还存在海天线、鱼鳞波，以及目标自身姿态、尺度变化带来的干扰，很难通过一种识别手段准确的对舰船目标进行识别。因此必须尽可能利用多个和多类传感器所收集到的多种目标属性信息、使用多种识别方法，综合给出准确的目标属性，进行目标综合识别[3]。

目标识别算法的一大难点在于目标特征的提取。传统的目标识别算法都是基于人工设置参数的方式提取特征[4-6]，但是通过这种方式提取的特征是非常低层次的特征，只适用于有明显特征且背景单一的情形，但是在实际应用中，往往待检测目标特征多变、背景复杂且存在干扰，很难通过人工特征提取完成目标识别。近年来，在深度学习理论的推动下，深度神经网络的出现解决了这一难题，它借助于深度卷积层自动提取图像的高维特征信息，对目标识别有较强的泛化能力。目前基于深度学习的目标检测算法分为两类：一类是以Fast R-CNN[7]、Faster R-CNN[8]为代表的基于分类的目标检测算法：首先通过RPN网络生成包含待检测目标的候选区域(region proposal)[9]，然后对这些候选区域进行分类和位置回归得到检测结果；另一类是以YOLO[10-12]、SSD[13]为代表的基于回归的目标检测框架，相比于前者，取消了候选区域生成机制，直接利用CNN卷积特征，产生目标的类别概率和位置坐标值，因此有着更快的检测速度，适合端到端的部署应用。

鉴于反舰导弹末制导时间短的特点，识别算法应能稳定持续地跟踪关键目标。上述基于深度学习的检测算法虽然精度高，但是检测是基于单帧图像独立进行，缺乏对视频帧中目标连续运动信息的捕捉，当检测值低于阈值时，目标的检测框会消失，无法稳定连续的跟踪目标，而基于相关滤波理论的目标跟踪算法(meanshift[14]、CSRT[15]、KCF[16])弥补了这一不足，该类算法将目标模型和背景信息同时考虑在内，在视频首帧中框选目标，在框选位置对比目标模型和背景信息的差异，训练得到一个二分类器，该分类器能够计算图像像素点的响应值；对于后续视频帧，用训练的分类器在采样位置与图像进行相关操作得到各像素点的响应值，选择响应值最强的位置点作为新的目标位置。通过上述方式对目标进行重定位，实现了稳定且连续的跟踪。但是此类算法将背景信息引入跟踪模型，存在一定的局限性：一旦目标丢失或被遮挡，采样时会引入大量的背景信息，在模型更新时产生误差，随着误差的积累，跟踪框会逐渐漂移而导致跟踪失败。

为在红外图像中准确检测出舰船目标的同时，还能够稳定连续的对其跟踪，本文提出了一种融合轻量级YOLOv4[17]与KCF[16]算法的红外舰船目标识别方法。利用YOLOv4算法对红外视频中舰船目标进行特征提取，给出目标类型，确定目标的检测框；根据YOLOv4框选的目标区域，采用KCF算法进行实时目标跟踪。另外在跟踪过程中，通过检测算法实时对跟踪框进行校正，解决由于红外导引头抖动、导弹快速机动造成的舰船目标丢失以及背景误差累积造成跟踪框漂移的问题。

1 融合检测与跟踪算法的目标识别

1.1 轻量级YOLOv4目标检测算法

YOLOV4目标检测算法是最近推出的一种基于深度学习的端到端的实时目标检测算法，在MS coco数据集上利用Tesla V100显卡进行测试，可以达到43.5%mAP(65.7% AP)的精度，且达到65FPS的速度，相比于第三代算法YOLOv3，精度AP和速度FPS分别提升了10%和12%，提升效果显著。

YOLOv4实时目标检测模型由3部分组成：CSPDarknet53、SPP +PANeT和YOLO Head。网络模型结构如图1(a)所示。

CSPDarknet53作为YOLOv4算法的主干网络，负责对原始图像进行特征提取，输出3个尺度的特征图：图1(a)中的featuremap1-3。CSPDarknet53是在Darknet53[10]的基础上将原有的残差块改为CSP(cross stage partial)网络结构[18]。如图1(b)所示，与传统的残差网络相比， CSP残差网络将浅层特征映射为2个部分，一部分经过级联残差网络，另一部分直接与级联残差网络的输出进行合并，这种先分离后合并的方式极大减少了网络参数，而且能够在轻量化的同时保证准确性、降低计算瓶颈与内存成本。

SPP+PANet负责将主干网络提取的3个尺度的特征图进行特征融合，其中SPP[19]为空间金字塔池化层(spatial pyramid pooling)，将featuremap3按照5×5、9×9、13×13、1×1四个尺度进行最大池化(1×1未作处理)，通道合并为一个特征图后通过1×1全连接层降维，目的是增加网络的感受野，分离出显著的上下文特征；PANet[20]提出了一种 bottom-up的信息传播路径增强方法，通过卷积+上采样实现自下向上的特征提取；通过下采样实现自上向下的特征提取。通过反复的特征提取实现了featuremap1-featuremap3的特征交互。

YOLO Head利用特征融合后的特征图进行预测。YOLO Head在3个检测尺度上，将输入的整幅图像分成S×S、(2S)×(2S) 、(4S)×(4S)的网格，每个网格负责所在区域的预测，预测结果包括相对网格左上顶点的偏移量(x_offset、y_offset)；检测框的尺寸(h和w)；目标位置信息的置信度(confidence)和分类结果(C)，输出的通道维度N=3×(4+1+C)。之后通过图像交并比(IOU)和非极大抑制(NMS)[10]筛选检测框，剔除重复的检测框。

由于红外图像为单通道灰度图像，与可见光三通道图像相比，可利用的有效特征信息相对较少，因此可以将特征提取网络进行压缩，在保证检测精度的同时进一步提升网络检测的实时性。本文采取的方法是将CSPDarknet53中的CSP残差模块(256，8) 、CSP残差模块(512，8)和CSP残差模块(1 024，4)的网络级联次数减半，分别改为CSP残差模块(256，4) 、CSP残差模块(512，4)和CSP残差模块(1 024，2)。裁剪后的特征提取网络减少了20个卷积层和10个残差层，结构更加紧凑。在网络输入图像分辨率为416×416时，计算量由59.585 BFLOPS下降到50.722BFLOPS，节省了约15%的内存成本。

卷积×2、×3和×5分别代表2层、3层和5层卷积层；残差模块中的M和n分别代表卷积核的个数以及该层的级联次数；1×1、3×3分别指该层采用为1×1、3×3大小的卷积核；3×3/2指该层采用大小3×3、步长为2的卷积核。

注：卷积×2、×3和×5分别代表2层、3层和5层卷积层；残差模块中的M和n分别代表卷积核的个数以及该层的级联次数；1×1、3×3分别指该层采用为1×1、3×3大小的卷积核；3×3/2指该层采用大小3×3、步长为2的卷积核。

1.2 KCF算法

KCF算法是一种典型的判别类方法，它将目标的跟踪问题巧妙地对图像中目标和背景的二分类问题，借助岭回归方法[16]将非线性问题转化为高维的线性空间中，简化了计算；另外引入循环矩阵，利用其频域对角化的性质，将计算从时域转换到频域，结合快速傅里叶变换，提升了运算速度。

KCF算法可以分为建立模型、在线匹配、模板更新3个环节。

1) 建立模型

通过岭回归的方式建立目标函数：

f(xi)=wHxi

(1)

目标是最小化采样数据与下一帧真实目标位置的距离：

(2)

式(2)对w求微分，令导数为0，损失函数即可取得最小值：

w=(XHX+λI)-1XHy

(3)

利用循环矩阵对角化的性质得到w在傅里叶域的表示：

(4)

针对大多数情况下w的求解都是非线性问题，通过引入高斯核函数φ(x)，将w的求解转化为高维空间中的高维权值α：

α=(φ(x)·φ(x)H+λI)-1y=(K+λI)-1y

(5)

其中K=φ(x)φH(x)，表示核空间的核矩阵。

α在频域的表示：

(6)

2) 在线匹配

定义Kz是在核空间表示采样样本与训练样本相似度的核矩阵，将采样样本与训练样本作相关操作，得到响应值的频域表示：

(7)

3) 模板更新

采样并结合过去时刻的模型参数，利用双线性插值的方法加入到模型参数的更新过程：

(8)

(9)

1.3 检测跟踪

YOLOv4算法的优势在于通过深层卷积网络对目标特征进行提取，能够有效检测出红外图像中的弱小目标；另外，YOLOv4是基于多尺度的目标检测，克服了检测过程中目标变尺度带来的影响，提高了目标检测的准确性与鲁棒性。但是，基于深度学习的检测算法对于前期的训练样本有很高的要求，如果待检测视频序列中的目标及背景与训练样本存在较大差异，检测算法则无法检测到目标，从而不能稳定连续地跟踪目标。

KCF算法的优势在于采用了在线训练的策略，不需要事先准备大量的目标样本对模型进行训练。在跟踪过程中基于视频当前帧训练一个目标检测器，使用该检测器确定下一帧目标位置，然后以新的目标位置更新检测器，如此迭代实现了对目标的连续跟踪。但是当目标出现尺度变换、遮挡、快速移动时，采样会引入大量背景信息，模型更新过程中累计误差，使得跟踪框漂移导致跟踪失败。

针对2种算法的不足，本研究提出了一种融合轻量级YOLOv4与KCF算法的红外舰船识别方法，识别流程如图2所示。

首先，读取到的视频帧序列(图2(a))分两路进入目标检测线程与目标跟踪线程；在目标检测线程，用YOLOv4算法对红外图像中的舰船进行目标检测(图2(b))，经过特征提取、特征融合和最后的分类、回归确定目标的类型、置信度和检测框(图2(c))；在目标跟踪线程，首先将检测算法得到的检测框作为目标区域构造训练样本，完成KCF算法的初始化(图2(d))；将后续视频帧采样的测试样本与训练样本作相关操作计算响应值，将响应值峰值Max_res与预定的阈值比较，若低于阈值，认为跟踪目标失败，此时停止参数更新，重新利用检测框进行跟踪初始化；若高于阈值，认为跟踪目标成功，以响应值峰值对应的位置点作为新的跟踪框位置，继续迭代更新目标跟踪框(图2(e))；将目标检测线程与目标跟踪线程得到的目标位置信息进行融合比较：判别同一目标的检测框和跟踪框是否同时存在，如果同时存在，比较两者的置信度track_conf和detect_conf，选择置信度高的作为最终的目标识别结果(图2(f))。

图2 融合YOLOv4检测与KCF跟踪的舰船目标识别流程框图

2 实验与分析

2.1 实验平台环境

实验红外图像采集平台采用320×240分辨率非制冷焦平面探测器，焦距50 mm，工作波段7.5～13.5 μm的红外热像仪。训练网络模型使用的硬件平台为Core i9-9980XE@3.00 GHz 处理器，128 GB内存，TITAN V 12 GB显卡的图形工作站。软件平台为Win10，CUDA10.0，CUDNN7.5.0，TensorRT7.0.0，VS2017，Pycharm2019，Pytorch1.3.1，torchvision0.4.2，OpenCV4.1.2 (CUDA编译)。

2.2 红外图像数据集

由于开源的舰船红外图像数据集很少，因此本文使用HF-160-2型红外热像仪拍摄的5个舰船视频自制红外图像数据集。以近距(100～200 m)、中距(200～500 m) 、远距(500～1 000 m)对货轮(cargo) 、游艇(yacht)和帆船(sailing boat)3种类型的舰船进行拍摄，包含了大、中、小3种尺度，特别采集了一定数量存在目标快速运动、建筑物遮挡的红外舰船图像，以测试目标识别模型的环境适应性和鲁棒性。自制数据集包括3 000幅舰船红外图像，选取其中2 500幅作为训练集，500幅作为测试集，选取其中一段视频用于测试模型的跟踪稳定性与帧率，数据集的部分样本图像如图3所示。

图3 不同距离拍摄的舰船红外图像

2.3 目标检测网络训练

由于自建的红外数据集与其他开源的图像数据集差异较大，因此采用重新学习的方式训练YOLOv4网络模型。训练采用Adam算法，动量momentum=0.949，初始学习率learning_rate = 0.001 5，训练迭代次数steps=5 500，在step=4 000和5 000时，学习率在前一阶段学习率的基础上衰减10倍；训练批尺寸batch=64，每个batch分组subdivisions=16，每次向网络中输入batch/subdivisions=4张图像以减轻显存占用的压力；输入图像尺寸为416×416，在Nvidia TITAN V 显卡(显存12G)部署网络进行训练，占用显存 7.6G。训练过程中损失函数loss和训练集上的均值平均精度mAP的变化曲线如图4。

由图4可知，当step=4 800时，网络模型趋于稳定，经过5 500次的迭代训练，最终模型的loss收敛到0.113 8，mAP为86.7%。

图4 损失函数loss和均值平均精度mAP的变化曲线

2.4 评价指标

选取检测准确率P(precision)、召回率R(recall)和调和均值H(harmonic mean)作为检测精度的评价指标：

(10)

(11)

(12)

式中：Tp为正确检测出舰船的数量；Fp为将非舰船目标检测为舰船目标的数量；Fn为未能检测到舰船目标的数量。

选取目标跟踪框与人工标定框的中心位置误差(center location error，CLE)和跟踪框与标定框的重叠率(overlap rate，OR)以及目标丢失次数作为跟踪稳定性的评价指标：

(13)

(14)

其中：(xi，yi)和(xgt，ygt)分别为第i帧中跟踪框与标定框的中心位置；Rt和Ra分别为跟踪框与标定框框选的目标区域。然后选取阈值thres，当OR>thres时认为跟踪成功；当低于阈值，则认为跟踪失败，失败次数加1，并初始化目标跟踪框，重新跟踪目标。

关于阈值thres的选取，如果取值太小，即使跟踪框Rt与Ra只有少部分重叠，未能框选住目标，却判定为跟踪成功，如图5(a)所示；如果取值太大，即使跟踪框Rt能较好地与Ra重叠，完全框选住目标，却判定为跟踪失败，使得跟踪判定失败的次数大大增加，需要不断重新初始化跟踪框，不尽合理。经过多次实验测试，thres取0.5时效果较好，能够保证Rt较完整框选住目标的同时，尽量减少判定跟踪失败的次数。

图5 thres取不同值对跟踪判定结果的影响示意图

另外选取处理视频序列的平均帧速(avg Fps)作为衡量检测跟踪速度的指标。

2.5 舰船目标识别结果及分析

选取处理视频序列的平均帧速(avg Fps)作为衡量检测跟踪速度的指标。围绕目标检测的精度、目标跟踪的稳定性以及检测跟踪的速度3个方面，将融合轻量级YOLOv4与KCF的识别算法(yolo-kcf)与传统的目标跟踪算法(meanshift、CSRT)以及基于深度学习的目标跟踪算法(centerTrack)[21]进行比较。其中对原始YOLOv4网络和CenterNet网络使用相同的数据集与训练参数进行训练。

首先，在红外图像测试集上选取近、中、远不同尺度的舰船目标，将裁剪后的YOLOv4网络与原始YOLOv4网络、CenterNet网络进行测试，结果如图6所示。

图6 不同神经网络对红外图像舰船目标的识别结果示意图

图6可见，在测试的3幅舰船红外图像中，原始的YOLOv4网络和裁剪的YOLOv4网络均能正确检测出舰船目标；CenterNet在最后一幅图中将背景干扰误检为帆船(sailing_boat)，说明YOLOv4算法在对小尺度的目标检测方面更具优势。表1给出了3种网络在舰船红外测试集上的检测精度指标。

表1 检测精度评价指标 %

根据表1可知，CenterNet网络由于在红外测试集中误检测数Fp较大，从而导致P较低，影响了总体的检测精度；经过裁剪后的YOLOv4网络模型与原始的YOLOv4网络模型相比，检测的准确率P和召回率R分别下降了1.5和2.3个百分点，检测精度下降不大。

另外，为了验证本文提出的识别方法在复杂环境下的鲁棒性，特别选取了一段远距离拍摄、热像仪快速转动镜头、红外视景中存在建筑物遮挡的视频，对各算法目标跟踪的稳定性与帧速进行测试。测试视频中包含13 027帧红外图像，图7展示了其中6帧的测试结果。在第1 000帧，目标运动平稳，4种方法均能有效跟踪目标；在镜头快速转动的第3 709和9 995帧，目标的位置快速移动，meanshift的跟踪框发生较大漂移，无法成功跟踪目标，CSRT和centerTrack可以跟踪货轮和游艇，但未能跟踪帆船，只有yolo-kcf实现了对三类目标的稳定跟踪；在有建筑物遮挡的第5 723和6 322帧，受建筑物的影响，目标与背景的红外辐射对比度发生了较大变化， meanshift、CSRT与centerTrack的跟踪均受到了影响，但是yolo-kcf仍能够稳定地跟踪目标；在游艇与帆船存在重叠的第11 554帧，meanshift跟踪框发生了较大漂移，centerTrack只成功跟踪了游艇，而未识别出帆船，CSRT和yolo-kcf虽识别出了帆船，但是跟踪框发生了微小漂移。

从表2可以看出，本文提出的yolo-kcf算法与其他算法相比，CLE最小、OR最高，目标跟丢的次数最少，跟踪稳定性最强。从算法运行的效率来看，本文方法目标跟踪的平均帧率仅次于meanshift算法，有较高的实时性。

表2 复杂背景下不同算法的跟踪性能指标

3 结论

本研究充分利用检测算法检测准确度高、跟踪算法跟踪效果稳定的特点，提出了一种融合轻量级的YOLOv4与KCF算法的红外舰船识别方法。根据红外图像特征有效信息少的特点，对原始YOLOv4网络进行裁剪压缩得到轻量级的YOLOv4检测网络，利用训练得到的检测网络对红外视频中舰船目标进行特征提取，给出目标类型并确定目标的检测框；将检测框框选的目标位置信息作为KCF多目标跟踪算法的初始化信息，并行运行YOLOv4检测算法与KCF跟踪算法，比较2种算法得到目标框的置信度，选取置信度大的目标框作为最终的识别结果。通过实验与传统目标跟踪算法(menashift与CSRT)和基于深度学习的目标跟踪算法(centerTrack)对比测试，本文提出的方法在检测精度、跟踪稳定性和实时性均取得了最优或次优的结果，具有较强的鲁棒性与实时性，适合复杂背景条件下的舰船红外目标识别。