基于多级特征增强融合的红外飞机目标检测方法

2024-01-20 08:25张毅张焱张宇张勇刘荻

航空学报 2023年22期

张毅，张焱，张宇，张勇，刘荻

国防科技大学电子科学学院，长沙 410073

对地面飞机目标的动态监测和准确识别，在军事侦察、航班监控以及安全预警等领域具有重要的研究意义与应用价值［1-2］。在军事领域，飞机作为夺取制空权的重要手段，在战争中具有极大的威慑力和杀伤力，是执行航空侦察、地面攻击、对空拦截等重大军事任务的重要武器［3-4］。在战场之外，飞机同样具有重要作用，其是完成快速运输和快速救援的重要手段，通过对地面飞机目标的识别，可实现机场流量监控、飞机救援、航空路线规划等［5-6］。因此，掌握地面飞机目标的动态信息对国防安全和经济发展都具有重要意义。然而，飞机作为高价值目标，往往被有意无意的淹没于自然背景或人为干扰中，通用的识别技术难以应对复杂的背景和多样的气候变化。随着红外探测技术的飞速发展，红外技术已具备作用距离远、抗干扰能力强、可全天候工作等特点［7］，利用红外探测技术进行地面飞机目标识别可更准确、全天候获取目标特征，进一步提高地面飞机目标检测识别能力，但相较于一般目标检测识别，对地面红外飞机目标检测识别仍具有以下几个特点：①目标类间差异小。现代战争中飞机目标种类繁多，重要程度不一，各类飞机形状外形差异并不是很大，且目标成像尺寸变化大、成像角度变化多，加之地面红外飞机目标所处环境复杂多样，检测识别精确度和实时性难以保障。② 红外飞机目标分辨率低，可利用特征少。红外背景复杂多变，尤其是在地面红外目标检测识别中，目标往往淹没于云层、山地、车辆、建筑等背景杂波干扰中，易产生虚警和漏检。③数据量小。红外飞机目标检测识别任务中，数据一直是限制其发展的重要因素。尤其是基于深度学习的目标检测方法，由于红外飞机目标公开数据集的缺少，仍远远落后于可见光图像飞机目标检测识别方法。

为实现地面飞机目标的识别，研究人员提出了一系列的方法来完成飞机目标识别任务，主要可分为基于传统飞机目标识别方法和基于深度学习飞机目标识别方法。传统的飞机目标识别采取人工特征设计的方法来进行检测识别，重点依赖于候选区域的准确提取和人工特征的精确设计。蔡红苹等［8］提出了一种基于圆周频率滤波的飞机目标识别方法，通过飞机形态特征在圆周滤波上灰度呈现亮-暗周期规律来检测地面飞机目标。An 等［9］在圆周频率滤波提取特征的基础上，增加梯度直方图特征和AdaBoost 分类器对飞机目标进行识别，以减少对飞机目标先验知识的依赖。李萍等［10］采用尺度不变、特征变换和奇异值分解算法提取飞机红外图像的识别特征，提高了红外飞机目标识别的识别率和鲁棒性。模板匹配的方法［11-14］也常用于飞机型号识别。Xu 等［11］提出一种带边势函数的人工蜂群算法优化形状匹配实现地面飞机目标识别。Zhao 等［12］将关键点检测与模板匹配相结合，利用关键点匹配对地面飞机进行识别。传统算法虽然不需要庞大数据集，且具有计算简单等优点，但地面红外飞机目标识别背景复杂多变，杂波干扰多，且目标类间差异小，传统算法依赖于先验知识以及固定参数来进行目标识别难以应对复杂背景和杂波，极易产生虚警，存在检测精度低、虚警率高、鲁棒性差等问题。

随着深度学习在目标检测识别中的快速发展，相比于传统算法，基于深度学习的飞机目标检测识别算法取得了更优异的性能。方涛［15］提出了一种基于显著性与卷积神经网络相结合的红外飞机识别方法，先通过显著性检测提取目标区域，然后通过卷积神经网络识别飞机类型。Zuo 等［16］利用分割网络和关键点检测网络实现飞机目标的分割，然后使用模板匹配方式实现飞机目标识别；刘思婷［17］在此基础上，结合条件随机场对飞机目标掩膜进行精化，使分割更为精确，进一步提高了识别准确率。沙苗苗等［18］提出了一种基于多尺度卷积神经网络的飞机目标识别方法，通过多层级特征融合以及RPN 机制，提高了飞机目标定位能力。吴杰等［19］将密集连接结构与YOLOv4 算法相结合，构建了多组多尺度融合预测层结构，来解决现有网络对飞机目标细节信息提取不足问题。基于深度学习的方法虽一定程度上提高了飞机目标的识别能力，但由于红外飞机目标数据集的受限，基于深度学习的方法往往只作为识别算法中一部分，仍需配合模板匹配、显著性检测等传统方法，这在很大程度上制约了端到端网络识别飞机类型的研究。此外，现有基于深度学习的飞机目标检测识别算法大多基于可见光图像，未充分考虑地面红外飞机目标识别环境更为复杂，可利用特征少等特性，对地面红外飞机目标特征利用和判别能力有限。

针对以上问题，本文提出了一种基于多级特征增强融合的红外飞机目标识别网络（MFEFNet）。网络的核心为局部和全局特征增强融合策略（LGFE）和全局拓展策略（GEM）。针对地面红外飞机目标识别中目标分辨率低，可利用特征少等问题，LGFE 通过设计坐标注意力机制（CA）和全局像素注意力机制（GPA）分别对深层特征和底层特征进行全局增强，然后用深层语义特征指导底层细节特征进行特征融合，使深层的语义信息动态作用于底层细节信息，进而自适应强化特征图对地面红外飞机目标位置信息的表征，提升网络对红外飞机目标的特征利用和检测能力。针对地面红外飞机目标类间差异小、种类繁多、精确识别难度高等问题，GEM 在FPN［20］结构上进行上下文扩展，将FPN 结构中深层特征进行全局聚合，然后与多层扩展后的底层特征进行融合，通过融合多层上下文信息，可使网络生成鉴别性更强的特征，从而提升网络下游的分类决策能力。此外，MFEFNet 采用级联的思想，将LGFE 模块与GEM 模块进行级联，保持特征长距离的依赖关系（Long-Range Dependencies），通过端到端网络优化整合LGFE 和GEM 的联合效应，使网络对地面红外飞机目标具有更强的模型表现力和检测精准性。为了验证本文方法和模块的有效性，本文进行了详细的消融实验，并在红外飞机数据集上与其他先进的基于深度学习的目标检测识别算法进行了对比实验。实验表明，与其他先进的目标检测识别算法相比，本文方法对红外飞机类型的识别精度更高。

1 多级特征增强融合网络

由于地面红外飞机目标呈现出多种类、低分辩、特征少等特点，直接运用现有通用的目标识别网络进行红外目标识别难以取得满意效果。因此，针对红外飞机目标特点进行网络设计，使其充分增强并融合目标的多级特征，生成更具鉴别力特征图成为了复杂地面条件下红外飞机目标检测识别的关键。

1.1 网络整体结构

MEFENet 的整体结构如图1 所示。网络主要由特征提取、特征增强融合以及分类回归3 部分组成。特征提取部分采用ResNet-50 骨干网络提取多尺度特征。特征增强融合部分采用LGFE模块和GEM 模块进行多级特征增强融合。首先，将红外图像输入至特征提取网络中，特征提取网络配置如表1 所示，选取特征提取网络第3、4、5 卷积组的最后1 层输出作为基础特征，生成3种不同尺度的特征图（C3、C4、C5）。然后，将生成的特征图输入至LGFE 模块中，通过CA 和GPA 分别自适应增强深层语义特征和底层细节特征，将增强后的特征图进行自顶向下融合，构建包含特征图M3、M4、M5 的中间特征金字塔，以实现网络对目标特征的初次增强与融合。为提高网络对小目标的检测能力，在中间特征图M5 的基础上采用卷积方法增加特征图M6、M7，以提取地面飞机多尺度特征，实现更小目标的检测识别。之后，将中间特征金字塔中M3、M4、M5、M6 输入至GEM 模块，获取融合特征图上下文信息，保持长距离依赖关系，产生双模块级联联合效应，构建用于最终目标检测识别的预测特征金字塔。最后，在预测特征图上进行目标分类和坐标回归，并通过非极大值抑制（NMS）、置信度约束等后处理操作，实现地面红外飞机目标检测识别。

图1 MFEFNet 整体结构Fig.1 Overall structure of MFEFNet

1.2 局部与全局特征增强融合模块

本文提出了一种新的特征增强融合模块LGFE。LGFE 模块由GPA 和CA 组成。地面红外飞机目标常位于复杂背景环境下，存在自然和人为干扰，且颜色、纹理等物理特征缺乏。因此，位于深层的目标语义特征和底层的位置特征对目标识别都具有重要作用。为更有效利用深层语义特征和底层位置特征，本文以底层特征为基准，设计全局像素注意力机制，分别将全局像素注意力机制和坐标注意力机制作用于底层特征和深层特征，生成相应的全局增强权重，进一步对底层位置信息和深层语义信息进行提取和筛选。通过逐元素相乘方式，将深层权重与底层权重相融合，融合的特征权重通过逐元素相加作用于基准的底层特征，以自顶向下方式实现深层语义动态指导底层局部特征增强，进而自适应强化基准特征图对地面红外飞机目标位置信息的表征。

模块的整体结构如图2 所示，其计算过程为

图2 特征增强融合模块结构Fig.2 Structure of feature enhancement fusion module

式中：χ为全局平均池化；χh为x轴1D 平均池化；χw为y轴1D 平均池化；β为BN 归一化；λ为Relu激活函数；δ为Sigmoid 函数；ω为2D 卷积；pwc为Point-wise 逐点卷积；spl 为分割操作；☉为拼接操作；·为逐元素相乘；x代表底层特征图；y代表深层上采样后特征图。

输入该模块的底层特征图x采用全局平均池化聚合全局特征信息，使网络更好地学习红外飞机目标和背景之间的关系，随后通过逐点卷积将各通道位置信息进行聚合，来增强背景和目标的区分度，再通过Sigmoid 函数生成底层特征增强权重；深层特征图采用1D 全局平均池化获取水平和垂直方向的全局特征，利用水平和垂直2 方向进行位置坐标编码，进一步将深层语义作用于位置特征，然后采用Sigmoid 函数生成深层特征增强权重。将底层特征增强权重与深层特征增强权重相乘结合后，采用元素相加方式将增强的全局特征融合至底层局部特征中，最终生成具有局部与全局特征的增强特征图。该模块生成的F(x，y)∈RC×H×W与x，y∈RC×H×W具有相同的大小，因此可直接用于生成中间特征金字塔。

1.2.1 全局像素注意力机制（GPA）

在地面红外飞机目标检测识别任务中，图像具有低对比度和高噪声的特点，特征提取网络难以准确的提取目标的特征，目标与背景的特征将混合存储在特征图中。为提升网络对目标特征的提取能力，LGFE 设计了GPA，其结构如图3所示，权重P（x）计算过程为

图3 GPA 结构Fig.3 Structure of GPA

当底层特征图进入GPA 后，背景和目标信息存储在特征图中，故先设计全局平均池化对特征图进行处理，以获取背景与目标的全局关系，再通过逐点卷积构造一个瓶颈结构来聚合局部通道上下文，与局部通道的空间信息相互作用，使网络更加关注全局特征中目标的局部信息特征，突出红外飞机目标。然后，经过Sigmoid 激活函数得到输出范围为（0，1）的底层特征增强权重，并将生成的增强权重作用于底层基础特征图中，以增强基础特征图对全局信息中目标局部信息的感知能力。

1.2.2 坐标注意力机制（CA）

随着网络层数的加深，网络可以更好地理解场景的含义，提取更好的语义特征，从而有助于网络更准确地区分背景和目标，但在地面红外飞机检测识别中，目标分辨率低、可利用特征少，随着网络的加深，特征图逐步变小，红外飞机目标特征可能消失于深层特征中，无法形成有效的位置编码，甚至产生语义消失。在地面红外飞机目标检测识别网络设计上，为解决上述问题，LGFE设计了CA 增强深层特征语义信息，进行坐标位置编码，并形成相应权重引导网络动态选择底层细节。其过程如图4 所示。其权重C（y）计算过程为

图4 CA 结构Fig.4 Structure of CA

式中：χh为x轴1D 平均池化；χw为y轴1D 平均池化。

LGFE 的核心是通过增强的深层语义特征动态指导底层位置特征增强，使网络提高对地面红外飞机目标分类能力的同时强化目标定位能力，目标深层语义的提取与增强是该自顶向下特征增强融合的关键。CA 通过将注意力转化为水平和垂直2 个方向，在构建通道注意力时捕捉到准确的位置，通过语义增强和位置编码，实现对复杂场景下红外飞机目标形成有效注意。上采样后的特征图输入到CA 后，为解决红外飞机图像纹理、颜色特征缺失，空间信息相对较弱问题，先采用1D 平均池化来捕获红外图像空间结构的位置信息。然后，采用拼接分割操作对2 个方向信息进行交互，以减少红外飞机目标特征在深层特征图中的湮灭。最后，在水平和垂直方向同时形成注意权重，作用于深层特征实现语义增强和位置编码。值得注意的是，CA 最终生成的注意权重图C（y）与底层特征图具有相同的大小，因此LGFE 直接采用逐元素相加进行自顶向下特征融合，实现深层语义权重对底层位置信息的直接指导。

1.3 全局扩展模块（GEM）

红外飞机目标种类繁多，外形特征相似，对网络的分类决策提出高的要求。因此，为提高网络的鉴别能力，本文将网络中间特征金字塔与上下文结构相结合，设计了全局扩展模块。以预测特征图P3 生成为例，如图5 所示，网络以中间特征金字塔中的3 层特征图（M3、M4、M5）为基础，该3 层特征层经过之前的金字塔结构和特征融合增强模块，保持着长距离的依赖关系，能有效提升下游的分类回归能力，GEM 将3 层特征图进行合并，特征图M5 经全局池化操作并进行广播，扩展成与底层特征图M3 同样大小的融合特征图，实现深层语义特征的全局聚合，然后对特征图M4 进行上采样操作，使扩展的3 个融合特征图形状一致。此外，经过LGFE 后，特征金字塔具有相同的通道数，可直接对3 层融合特征图上下文信息进行聚合，生成预测特征图P3。

图5 GEM 结构Fig.5 Structure of GEM

GEM 进一步利用了特征增强融合后的特征图，聚合多尺度局部信息和全局信息，生成鉴别性更强的特征，以提高网络分类决策能力。但由于深层特征感受野较大，语义信息丰富，鉴别性较强，且GEM 结构使网络计算量有较大增加，因此，本研究只在网络预测金字塔的最低2 层生成时使用GEM，提高底层特征的鉴别能力，同时增强大尺度目标检测识别能力。

1.4 损失函数

MFEFNet 的损失函数Loss 由分类损失和回归损失2 部分组成，其计算过程为

式中：Lcls为目标分类损失；Lreg为目标预测位置回归损失；NPOS为正样本个数；i为所有正负样本；j为所有正样本。网络采用Focal loss 损失函数对目标类别预测进行优化，其表达式为

式中：y∈{±1}为标签值；p为预测样本属于1 的概率；α为平衡权重因子，用于平衡正负样本的损失权重，实验中设置为0.75；γ为可调节因子，当γ＞0 时，可以减小简单易分样本的损失，使模型聚焦于难分样本，实验中设置为2。

采用Smooth L1 函数对目标预测位置进行优化，其表达式为

式中：tj为预测框的参数化坐标；为真值框的参数化坐标；x、y、w、h分别为预测框参数化的中心横坐标、中心纵坐标和预测框的宽和高；smoothL1函数表达式为

2 基于迁移的地面红外飞机数据集

2.1 数据集介绍

受限于红外飞机目标数据集的缺少，基于深度学习的红外飞机识别的方法发展一直较为缓慢。现有机载下视地面红外飞机目标数据极少，其极其有限的数据容量、数据的多样性阻碍了该领域的进一步发展。因此，我们基于迁移开发了一个地面红外飞机数据集，该数据集有较多目标类别、丰富的目标大小和不同的机场背景，其部分数据样本如图6 所示。

图6 地面红外飞机数据集示例Fig.6 Example of ground infrared aircraft dataset

地面红外飞机数据集包括部署在多个机场的23 类军用飞机以及民航飞机共24 类飞机目标。目标包括B1 轰炸机、B2 轰炸机、B52 轰炸机、TU-134 轰炸机、TU-22 轰炸机、F35 战斗机、F22战斗机、F18战斗机、F16战斗机、F15战斗机、SU-27 战斗机、A-10 攻击机、C17 运输机、C5运输机、C130 运输机、AN-70 运输机、KC-10 空中加油机、KC-135 空中加油机、IL-38 反潜巡逻机、空中指挥预警飞机、直升机、民用机以及其他类型飞机共24 个类别，共1 755 幅分辨率为640 pixel×512 pixel 的红外图像。数据集目标分布情况如图7 所示，图7（a）为数据集每张图像飞机目标个数的分布比例，其中，数据集中只有一个目标的图像占总数据集的28.55%，2 个目标的图像占比为23.93%，3 个目标的图像占比为12.14%，≥4 个目标的图像占比为35.38%；图7（b）为数据集中每张图像飞机目标像素占比情况，目标像素占比为0～3%的图像占总数据集的9.59%，3%～9% 的占比为44.18%，9%～15% 的占比为25.17%，＞15% 的图像占比为21.06%，从每张图像飞机目标数量以及每张图像飞机目标像素占比情况可以看出，地面红外飞机数据集中目标数量以及目标尺寸大小分布多样，能较好验证算法的多目标检测性能和多尺度检测能力。

2.2 迁移数据与红外数据一致性分析

为验证迁移的地面红外飞机数据集与真实红外数据集的一致性，本文采用Gram 距离（Gram 矩阵的L-1 距离）从特征层面来进行度量。Gram 矩阵是特征图矢量化映射的内积，可以体现2 个向量之间的相似性，其计算公式为

式中：l表示选定的特征层；i、j表示特征张量中不同通道；为特征张量的第i个通道的第k个元素；为特征张量的第j个通道的第k个元素。Gram 矩阵是一种位置无关量，表征了特征张量各元素之间的相关性，在计算迁移图像和红外图像在选定特征层的Gram 矩阵后，采用Gram 距离值可定量判断图像的一致性，Gram 距离的计算公式为

分别计算未迁移的原始图像和迁移图像与红外图像的Gram 距离，其结果如表2 所示，从定量结果可以看到，选取MFEFNet 特征提取网络中卷积组2～5 的特征张量（C2、C3、C4、C5）计算Gram 距离，随着网络层数的加深，Gram 距离呈下降趋势，且原始图像与红外图像的Gram 距离相较于迁移图像与红外图像的Gram 距离存在数量级上的差距，这证明迁移后图像在特征层面上有效地迁移了红外图像特征。MFEFNet 中运用的是特征提取网络的C3、C4、C5 这3 种不同尺度特征图，从结果中可以看到，网络运用的特征张量与红外图像的Gram 距离值达到10-7层级，极其微小，其表明了迁移数据集和真实的红外数据集在特征层面上的一致性。

表2 迁移图像格拉姆距离Table 2 Gram distance for image transfer

3 实验与分析

本节通过实验来验证MFEFNet 的有效性。首先，给出了实验设置，包括对比网络、评价指标和实现细节，然后将 MFEFNet 与其他先进的基于深度学习的方法进行了定量和定性的对比，进一步证明MFEFNet 检测识别地面红外飞机目标的能力，最后对网络的各个模块进行消融研究，验证其有效性。

3.1 实验设置

3.1.1 对比网络

为证明MFEFNet 的有效性，本文将所提出的方法与其他先进的基于深度学习的目标检测识别算法进行了比较。选择经典的双阶段目标检测识别算法Faster-RCNN 网络［21］和影响较广的级联检测Cascade-RCNN 网络［22］进行比较。在单阶段目标检测识别算法中，选择YOLOv3 网络［23］、YOLOX 网络［24］、YOLOv8 网络、SSD 网络［25］、RetinaNet 网络［26］和无锚框（anchor free）代表网络FCOS［27］进行比较。选择上述目标识别算法进行对比实验，是因为上述算法性能优异且影响广泛。因此，选择上述网络作为基准，进行对比，证明本文提出的模型和思想的优异性能。

3.1.2 评价指标

为充分验证模型对红外飞机目标的检测能力，选取平均精度（AP）、帧率（FPS）、参数量（Params）以及精确率-召回率（PR）曲线来客观地评估所提出的网络的性能。其中，AP 是目标检测识别任务中衡量算法检测识别能力的重要指标；帧率（FPS）和参数量（Params）是评估网络速度和轻量化的关键指标；PR 曲线是记录随着IoU阈值变化时，精确率与召回率值变化关系的曲线。AP 具体计算公式为

式中：N为目标的类别数；为算法对第c类目标在特定IoU 阈值时的平均精度；XIoU为交并比阈值。MS COCO（Microsoft common objects in context）将传统的mAP 定义为AP，其值越高，表明算法对目标的检测识别性能越优。此外，MS COCO 指标中根据目标大小设置APs、APm和APl，分别表示面积＜322pixel、介于322～962pixel和＞962pixel 的目标在不同IoU 阈值条件下的AP 值，以检验算法对小、中、大目标的检测识别能力。根据IoU 阈值的不同，设置AP0.5、AP0.75，分别表示IoU 为0.5 和0.75 时算法对所有类目标检测的AP 值，以检验算法在不同交叠率约束条件下对目标的判别与定位能力。

参数量为模型所有带参数的层的权重参数总量，其主要包括卷积层、BN 层、全连接层等参数数量，用来衡量模型的大小。

FPS 为每秒传输帧数，即每秒内可以处理的图像数量，其定义为

式中：T为算法处理一幅图像的平均耗时。

3.1.3 实现细节

Faster-RCNN、Cascade-RCNN、YOLOv3、YOLOX、YOLOv8、SSD、RetinaNet、FCOS 以及本文提出的MFEFNet 在装有Ubuntu16.04 操作系统的服务器上进行训练和测试，使用NVIDIA TITAN Xp GPU 进行加速，代码基于PyTorch 框架，使用Python 语言编写。训练时，优化器使用SGD 优化器，其中动量设置为0.9，权重衰减系数设置为0.000 5。初始学习率设置为0.005，采用StepLR 机制的衰减策略。批处理大小设置为4。在模型训练过程中，每个Epoch都会将模型保存并使用验证集评估模型性能，最终选取在验证集上表现最佳的模型进行测试。实验具体的超参数设置如表3 所示。

表3 实验超参数设置Table 3 Experimental hyperparameter setting

3.2 对比实验

为证明本文方法的优越性，将MFEFNet 与其他先进的基于深度学习的目标检测识别方法进行了定量和定性比较，结果如表4 和图8～图10所示。从定量的结果中可以看到，本文提出的MFEFNet 网络相较于其他网络在检测精度上有显著提高。其中，相比于Faster RCNN 和Cascade RCNN 等双阶段算法，MFEFNet 的AP 分别提升了10.6%、4.3%，AP0.75分别提升了8.4%、2.9%。得益于LGFE 和GEM 这2 种特征增强融合策略，MFEFNet 能针对性解决红外飞机目标可用特征少、目标类型多、精确识别难度高等问题，有效提升红外飞机目标检测能力。但从结果可以看到，MFEFNet 对中型红外飞机目标提升效果相对较弱，这是因为深层特征语义信息强，能准确鉴别多类型目标，对小目标检测识别能力较强，同时MFEFNet 采用GME 模块对多级特征进行扩展融合并应用于最低两层预测特征层，有效增强了大尺度目标检测能力，因此，MFEFNet 对小型和大型目标相对于其他网络提升较大。Faster RCNN 虽然采用RPN 机制提取了候选区域，但其基于简单特征金字塔提取特征进行检测，未采用有效特征增强策略应对地面红外飞机目标特有特点，检测性能难以提升。Cascade RCNN 采用了级联模式能有效提升目标检测识别性能，但与MFEFNet 将2 种特征增强融合模块进行级联不同的是，Cascade RCNN 是将检测模块进行级联，且未对特征进行融合，限制了其对红外目标的检测能力。相比于FCOS、SSD、YOLOv3、YOLOX、YOLOv8、RetinaNet等单阶段算法，MFEFNet 精度提升更为显著，AP 分别提升了18.5%、23.4%、11.9%、7.6%、5.1%、6.5%，AP0.75分别提升了 16.1%、21.9%、8.5%、4.4%、0.6%、3.2%。其中，由于FCOS 采用了无锚框策略，对小目标的检测相对于其他算法不受锚框尺寸的限制，取得了最佳效果。但单阶段算法总体性能较差，这是因为模型训练时存在正负样本不平衡问题。YOLOv3 未采用FPN 机制提取多尺度特征图，限制了其对多尺度目标的检测能力，虽然SSD、FCOS、Reti naNet 网络都采用了FPN 机制来提高精确度，但均未进行特征增强，一定程度弱化了底层特征图对目标抽象特征的表征能力。其中，SSD 性能表现最差，这是由于FCOS 和RetinaNet 采用了Focal loss 进行分类优化，一定程度上缓解了正负样本不平衡问题。与现阶段被认为最先进的单阶段检测模型YOLOX、YOLOv8 相比，MFEFNet在地面红外飞机目标检测上仍取得了一定优势，AP 分别提升了7.6%、5.1%。虽然YOLOv8 在通用目标检测上表现出了优异的性能，且采用了解耦头分别计算分类和定位分支，一定程度上提高了分类能力，但地面红外飞机目标分辨率低，可用特征少，不针对地面红外飞机目标特性进行网络结构调整，直接运用现有通用的目标识别网络来检测地面红外飞机目标，将难以解决目标类间差异小、可用特征少以及地面背景复杂等问题。相比于以上单阶段网络，MFEFNet 采用FPN 机制与多级特征增强融合机制有效提升红外目标的特征表征能力，同时采用Focal loss 优化分类分支，取得了最优效果。

表4 不同检测识别算法对比Table 4 Comparison of different detection and recognition algorithms

图8 不同IoU 阈值条件下算法的精确率-召回率曲线Fig.8 Precision-recall curves of algorithms at different IoU thresholds

在 IoU 阈值为0.5 和0.75 时，不同算法的PR 曲线如图8 所示。可以发现，当IoU=0.5 且召回率＜0.8 时，MFEFNet 的PR 曲线位置最高且下降速率较为缓慢，召回率＞0.8 时，MFEFNet 检测精确率稍低于YOLOv8，但总体检测性能仍为最优。当IoU=0.75 时，MFEFNet、Cascade RCNN 和YOLOv8 有较多重叠，检测性能相当，其他算法对目标检测精确率较低。无论IoU 阈值取0.5 或0.75 时，MFEFNet 的PR 曲线与坐标轴围成的面积均最大，与定量结果一致，这表明其对红外飞机目标检测识别性能最好。

不同算法对数据集中部分图像的识别结果如图9 和图10 所示。可以发现，对于尺度较小的战斗机目标，除MFEFNet 外，各算法均出现了不同程度的误检以及漏检现象，而MFEFNet 通过LGFE 和GEM 将深层语义特征与底层细节特征进行增强并将深层语义特征融合至底层细节特征图中，提升了目标特征的表征能力，有效提高了目标的定位能力的同时减少了误检和漏检的现象。对于尺度较大的加油机目标，除FCOS 和SSD 算法外，MFEFNet 与其他算法都表现出较为优异的检测识别效果，这是由于大尺度目标本身特征较为明显，可用特征较多，在深层特征图中不易消失，通用目标识别网络特征提取与识别已达到检测识别能力。但可以看到，FCOS 和SSD 算法仍会出现部分漏检现象，表明识别红外飞机目标，仍需要针对红外目标特征进行网络优化，强化目标特征表示，以提升多尺度红外目标的检测识别能力。

图9 较小尺度红外飞机目标检测识别结果对比Fig.9 Comparison of detection and recognition results of small-scale infrared aircraft targets

图10 较大尺度红外飞机目标检测识别结果对比Fig.10 Comparison of detection and recognition results of large-scale infrared aircraft targets

3.3 消融实验

为了更好地展示MFEFNet 网络每个部分的性能，通过移除MFEFNet 的几个特定部分来进行消融实验。其结果如表5 所示。其中，w/o 表示移除对应模块。从表5 中可以看出，GPA、CA、LGFE 与GEM 对网络检测识别红外飞机目标均有影响。

表5 网络内部模块对检测识别性能的影响Table 5 Effect of network internal modules on detection and identification performance

1）GPA 的影响：移除GPA 模块后，AP、APm、APl分别下降了1.0%、8.2%、4.3%。GPA通过全局像素注意力机制对底层特征进行增强，突出目标的位置信息。将GPA 移除后，网络对检测识别中大型目标的性能下降明显，这是因为GPA 主要作用于底层特征，而底层特征对目标定位精度和中大型目标检测识别影响比较突出。值得注意的是，当单独移除GPA 模块时，APs和AP0.75值反而分别上升了5.1%和3.1%，这是因为移除GPA 后，LGFE 模块进行特征初次增强主要由CA 作用。CA 作用于深层特征，主要解决小目标深层特征湮灭问题。CA 和GPA 逐元素相乘融合后作用与特征增强，与CA 单独作用于特征增强相比，小目标增强效能将会被GPA 稍降低，同时IoU 阈值取0.75 的检测性能受小目标和复杂度的影响也会有所降低。但GPA 对网络整体性能和中大型目标检测性能的提升却不能忽略，从移除LGFE 模块结果可以看到，当同时没有GPA 和CA 增强融合后，网络对各尺度目标检测性能都将下降，因此，针对地面红外飞机多尺度目标检测，采用GPA 和CA 分别对底层特征和深层特征进行增强后融合，是提升网络整体性能的最佳策略。

2）CA 的影响：移除CA 模块后，AP、APs分别下降了0.5%，12.3%。相比于GPA，CA 对小目标的影响更为明显，CA 主要作用于深层特征，利用坐标注意力构建位置编码，可对目标特征进行水平和垂直方向的深度汇聚，显著增强深层小目标的语义特征和定位能力。

3）LGFE 的影响：移除LGFE 模块后，网络性能下降显著。LGFE 通过CA 和GPA 双重注意力机制分别增强深层特征和底层特征，并通过逐元素相加方式将深层语义特征融入底层特征中，进一步强化目标特征表征能力。从结果可以看出，单独移除GPA 或CA，网络性能下降幅度比移除LGFE 模块小很多，这是因为GPA 和CA主要作用于底层特征和深层特征的增强，而LGFE 模块将增强后的特征进行融合，使融合特征图既有深层语义特征又有底层细节特征，单独移除GPA 或CA 后消除的是特征增强的效能，特征融合仍然存在，由此可以看出，LGFE 的融合策略能有效应对地面红外飞机目标特征少、分辨率低等特性，显著提高检测识别效果。

4）GEM 的影响：移除GEM 模块后，AP、APl分别下降了1.2%、3.3%。红外飞机目标类别多，类间差异小，网络分类决策要求高，GEM 可充分利用特征图的上下文信息并聚合多尺度局部信息和全局信息，从而提升网络分类决策能力，强化目标深层语义特征对目标定位以及分类的贡献。此外，通过将LGFE 和GEM 两特征融合模块进行级联，可保持特征长距离依赖关系，发挥双模块的联合效应，进一步提升网络对红外飞机目标的定位以及分类能力。

4 结论

1）提出了局部和全局特征增强融合策略（LGFE）和全局拓展策略（GEM），设计了基于多级特征增强融合的红外飞机目标检测模型，从而形成了一种面向多类型地面红外飞机目标识别方法。

2）基于迁移开发了一套红外飞机目标检测数据集，并通过Gram 距离分析了迁移数据集与真实红外数据集在特征层面上的一致性，使其更适用于基于深度学习的检测方法。

3）提出的方法解决了由地面红外飞机目标类间差异小、目标分辨率低、可用特征少导致的目标类型精确识别难的问题，能够有效排除地面背景复杂、自然和人为遮挡等因素的干扰，与现有最先进的识别方法相比，本文方法实现了更高准确率的地面红外飞机目标识别。

4）本文方法实现地面红外飞机目标高准确率识别的原因为：局部和全局特征增强融合策略可针对性解决红外飞机目标可用特征少、目标定位难的问题；GEM 提高了模型分类决策能力；面向实际问题的模型架构和双模块级联策略可进一步产生联合效应，提高目标的表征和分类能力。

5）本文提出的方法在检测速度上不具有优势，数据集容量大小较小，为实现地面红外飞机目标高精度的实时检测和识别，下一步的改进方向是进行网络模型优化，提高模型检测速度，并对数据集进行扩充升级，使其更好适用于红外飞机目标的研究。