陶承阳,袁 杰,回 天,加尔肯别克
(1.新疆大学 电气工程学院,新疆 乌鲁木齐 830046;2.西北工业大学 无人系统技术研究院,陕西 西安 710072)
空中加油技术是指在飞行过程中通过加油机向受油机传输燃油的技术。空中加油技术可以有效延长飞机滞空时间、扩大作战半径,在军事方面具有重要的作用。
目前,空中加油技术较为成熟的实现方式分别为软管式和硬管式。由于硬管式空中加油技术使用的加油设备体积庞大、通用性差且加油管数量少,因此我国普遍采用软管式空中加油方式。但相较于硬管式空中加油技术,软管式空中加油技术由于采用柔性结构的加油软管-锥套组合体,其运动状态一方面取决于加油机的运动状态,另一方面则受到加油机尾流以及大气湍流的影响,在多种因素的综合作用下,加油锥套出现不规则的摆动现象,因此,在成像端易出现退化帧(运动模糊、失焦、遮挡等)。
随着卷积神经网络在目标检测领域的应用越来越广泛,目前的目标检测算法如SSD、Faster R-CNN、Yolo系列等,相较于传统方法取得了优秀的检测效果。近年来,受到需求的牵引,基于深度学习技术的空中加油锥套检测技术逐渐成为研究热点,国内外学者通过不同的方法开展了大量研究工作,取得了重大的突破。文献[1]通过融合多尺度特征改进了SSD算法,增强了算法对大分辨率特征图全局语义信息的理解能力,提高了加油锥套检测的准确率;文献[2]通过改进的Yolov3算法实现了对加油锥套的检测与跟踪;文献[10]提出了改进的双边滤波方法,并引入多次迭代计算图像双门限高低阈值,有效降低图像噪声的同时保留了更多边缘信息,提高了图像中弱边缘的检测准确度,有效地检测出加油锥套。
然而,目前的加油锥套检测算法主要基于静态图像目标检测算法,没有充分利用视频中临近帧之间的时空上下文信息。当成像端出现退化帧现象时,现有算法提取的特征质量下降,检测效果随之变差,出现误检、漏检、置信度下降等情况,给受油机与加油锥套对接的过程带来了潜在的风险。
综上所述,本文在Yolov3算法的基础上进行改进,在保留Yolov3算法强大的空间特征提取能力的同时结合光流估计网络将临近帧特征聚合到当前帧,增强网络对时空上下文的利用能力,提高算法在退化帧上的检测效果。具体研究内容包括以下三方面:
1)引入特征聚合机制。通过光流估计网络将临近帧与当前帧联系起来,获得含有加油锥套运动信息的光流场,根据光流场进行特征对齐及特征聚合。
2)将光流估计网络与Yolov3网络结合,构建端到端的网络模型,增强算法在复杂环境下的抗干扰能力,不需要单独对光流估计网络进行训练。
3)设计检测结果稳定性的评价指标。通过分析检测结果的稳定性与目标边界框面积的变化关系,设计适合空中加油任务的检测结果稳定性评价指标,验证不同算法检测结果的稳定性。
特征聚合广泛地应用于动作识别以及视频描述领域。利用循环神经网络(RNN)将连续帧中的特征进行聚合,增强网络对视频时空上下文信息的利用能力,但此类算法普遍内存占用量较大。利用时空卷积层可以直接提取时空特征,尽管此类方法内存占用量较小,但卷积核尺寸较大时会极大地增加参数数量,带来过拟合、计算量增大等问题;卷积核尺寸较小时会限制模型对快速移动目标时空特征的提取能力,容易造成目标丢失。考虑到自主空中加油过程中加油锥套目标会产生不规则位移,因此本文基于光流场实现临近帧之间的特征聚合,以适应不同类型的加油锥套目标位移。
光流估计是利用视频中临近帧之间的相关性,寻找临近帧中对应像素的位移,从而计算出物体运动信息的一种方法。
针对目标位移问题,如图1所示,物体在空间中运动时会产生三维运动场,运动前后空间对应点在成像端上投影的运动会形成一个二维运动场,也被称为光流场,光流场中包含物体结构及运动参数等信息。
图1 运动场与光流场对应关系
设视频帧的宽、高像素值分别为、,则光流估计得到的光流场维度为(2,,),其中2个通道分别记录了对应像素位移在轴的分量及其在轴的分量。为了直观地表示出光流场中物体的位移,首先将像素的位移转换为极坐标的形式,转换公式为:
式中:为极径,表示位移的大小;为极角,表示位移的方向。为了更直观地表示光流场,本文将维度为(2,,)的光流场转化为维度为(3,,)的HSV图像,其中通道(色调)表示对应像素点的位移方向,通道(饱和度)表示对应像素点位移大小,通道(明度)取固定值255。
转化后形成的HSV图像的颜色与像素位移的对应关系如图2所示,加油锥套对接过程中的光流场可视化图像如图3所示。
图2 位移矢量与HSV图像颜色对应关系图
图3 光流场估计示意图
在进行特征聚合之前,需要先根据光流场中物体的运动信息将目标特征的空间位置进行对齐。给定输入视频的当前帧I以及临近帧I,光流场M=ℱ()I,I通过FlowNet进行估计。对齐方程定义为:
式中:f表示临近帧I经过神经网络主干网提取的特征图;()使用双线性插值算法在特征图每个通道的每个位置进行运算;f表示特征图f经过对齐后产生的特征图。
式中:以及表示特征图上的空间位置;(,)表示双线性插值核。
经过特征对齐后,由于物体运动导致的当前帧特征与临近帧特征之间的空间位置差异被缩小,为特征聚合做好准备。
对齐后的特征图按照式(7)进行聚合,聚合时特征图上不同空间位置的权重不同,相同特征图的不同通道之间共享权重。
式中:表示参与聚合的临近帧范围(本文设置为1);w表示特征图f参与聚合时的权重,其宽高与f相同。特征聚合过程如图4所示。
图4 特征聚合示意图
原Yolov3算法的网络架构按照功能可以划分为两个部分:
1)特征提取网络:Yolov3使用Darknet-53作为主干网络对图像特征进行提取,该主干网共包含53个卷积层以及5个最大值池化层,每个卷积层后进行批归一化操作提高网络训练速度,输入图像经过该网络提取出相应的特征图;
2)检测网络:基于特征图生成检测结果,检测网络对三种不同尺寸的特征图进行回归,在每个位置上产生多个预测的目标边界框,然后通过非极大值抑制算法(Non-maximum Suppression,NMS)剔除置信度较低以及重合度较高的目标边界框。
本文针对空中加油锥套检测任务对Yolov3网络进行改进,引入光流估计网络以及特征聚合模块,增强网络对时空上下文的利用能力,改进后的网络结构图如图5所示,光流场数据从光流估计网络(FlowNet)往特征对齐模块(Warp)方向流动,特征对齐模块以及特征聚合模块均在Feature aggregation虚线框内。
图5 改进后的Yolov3网络结构图
损失函数计算公式如式(8)所示,由4个部分组合而成,分别为中心坐标误差、宽高误差、置信度误差以及分类误差。
训练时使用的硬件配置如表1所示,软件环境为:Windows 10系统、CUDA 10.2、Python 3.7、PyTorch 1.6等。
表1 硬件配置
主干网络的权重使用预训练的DarkNet-53网络权重进行初始化,使用自建的11 379张空中加油锥套图片作为训练集对模型进行训练,989张空中加油锥套图片作为测试集对模型进行评估。训练时每次从训练集中随机抽取两张临近帧图片作为模型输入,训练参数设置如表2所示。
表2 训练参数
在目标检测领域,常用的评价指标有精确率(Precision)、召回率(Recall)、(Score)、mAP(mean Average Precision)等。但在加油锥套检测任务中,除了通过上述指标对本文算法以及对比算法进行评价以外,还需要设计一个评价指标对检测结果的稳定性进行评价,从而保证加油锥套对接过程的平稳进行。
设连续帧I,I,I之间的时间间隔为,对应预测的目标边界框面积为S,S,S。在理想情况下,若受油机与加油锥套之间的距离不断接近,则目标边界框之间面积的关系应为S<S<S;若受油机与加油锥套之间的距离不断远离,则目标边界框之间面积的关系应为S>S>S;若受油机与加油锥套之间的距离保持不变,则目标边界框之间的面积关系应为S≈S≈S。
综上所述,可将连续帧检测出的目标边界框面积之间的关系用式(9)来描述。
式中:表示所有样本数即视频总帧数;S表示第帧的面积。理想情况下,受油机与锥套之间的距离均匀变化,则检测出的锥套面积应均匀增大、均匀减小或不变,此时SE取值应接近0。但SE的值不仅与受油机与加油锥套之间的距离有关,还与检测算法的稳定性有关。当检测算法不稳定,检测出的加油锥套目标边界框忽大忽小时,SE的取值将会增大,当检测出的加油锥套目标边界框均匀变化或不变时,SE将仅受到受油机与加油锥套之间距离变化的影响。综上所述,对于同一个视频数据来说,SE可以反映不同算法检测结果的稳定性差异。
图6为在加油锥套测试集上的部分实验结果,从左到右依次对应模糊、遮挡、正常三种空中加油情景,自上而下分别对应Yolov3算法、Yolov3-SPP算法、Faster-RCNN算法以及本文算法的检测结果。
图6 不同情景下检测结果对比
由图6可以看出:在图像模糊的情况下Yolov3算法会出现误检测的现象,Faster R-CNN以及Yolov3-SPP尽管可以正确检测到加油锥套,但是置信度较低,而本文算法则能够在模糊帧上得到高置信度的正确检测结果;在锥套目标被大面积遮挡的情况下,只有Faster R-CNN以及本文算法正确检测到了加油锥套,且本文算法检测置信度高于Faster R-CNN;在正常情况下,Faster R-CNN、Yolov3、Yolov3-SPP以及本文算法均能正确检测出加油锥套目标,且本文算法对加油锥套目标检测的置信度高于其他对比算法。
将对比算法与本文算法在加油锥套测试集上进行实验后,详细评价指标见表3,结果显示在平均检测精度方面,Faster R-CNN算法平均精度为82.29%,Yolov3算法的平均精度为75.94%,Yolov3-SPP算法平均精度为79.46%,本文算法平均精度为85.81%,相较于Yolov3算法提高了9.87%,相较于Faster R-CNN算法提升了3.52%。在召回率方面,本文算法相较于Yolov3算法提高了8.06%,相较于Faster R-CNN算法提高了4.77%。在检测结果稳定性方面,本文算法相较于Yolov3算法提高了20.14%,相较于Faster R-CNN算法提高了15.14%。
表3 实验结果对比
自主空中加油过程中,加油锥套检测算法精度的高低以及对劣化帧处理能力的有无直接决定了受油机与加油锥套对接过程风险的大小。因此本文基于Yolov3算法进行改进,加入光流估计网络,并根据光流场将临近帧提取的特征对齐并聚合到当前帧,增强网络对成像端时空上下文信息的提取能力,使网络遇到劣化帧时能够通过临近帧提取的特征来提升当前劣化帧提取的特征质量,从而提高算法在劣化帧上的检测精度以及稳定性。通过不同算法在加油锥套测试集上的对比实验,实验结果表明本文算法对加油锥套的平均检测精度相较于原Yolov3算法提高了9.87%,在召回率方面相较于原Yolov3算法提高了8.06%,在检测结果稳定性方面相较于原Yolov3算法提高了20.14%,而且本文算法降低了误检测、漏检测等情况发生的概率,为加油锥套自主对接过程的安全顺利进行提供了保障。
针对光流网络运算量大的问题,在未来的研究中,对光流估计网络进行参数优化以及特征聚合机制进行改进,提高光流估计的精度以及速度,进一步增强算法特征聚合后的特征图质量。