用于遥感图像目标检测的少样本算法

2024-03-26 03:53薛杨义周立凡龚声蓉
计算机与现代化 2024年2期
关键词:微调卷积样本

薛杨义,周立凡,龚声蓉,

(1.东北石油大学计算机与信息技术学院,黑龙江 大庆 163000;2.常熟理工学院计算机科学与工程学院,江苏 苏州 215500)

0 引 言

随着航天技术的发展,目标检测成为遥感场景下的重点研究课题之一,已被广泛地应用于环境监测、灾害预防、城市规划[1]等领域。近十年来,深度学习为计算机视觉任务提供了新的解决思路,深度卷积神经网络依靠强大的特征提取能力,在常规目标检测中取得了长足的进步[2-4],且在准确性和效率方面都表现优异。然而,在实际应用中遥感图像获取难度大,不易标注,导致训练样本稀缺,而深度卷积神经网络普遍需要大量的训练样本,所以检测效果不佳,在数据集较小的情况下容易出现过拟合现象[5-6]。

为了改善少样本问题,通常采用图像翻转、裁剪、滤波和添加噪声等数据增强方法。尽管这些转换很容易增加训练数据规模,但是不能生成新的有效语义信息来增加训练数据的多样性,因而不能很好地利用有限样本提取出本质特征,对模型的检测效果提升有限。随着少样本学习概念被提出,与目标检测技术融合的算法成为研究热点。相比于传统监督学习算法[7-8],少样本图像检测[9-10]仅需要少量待测类样本,通过设计合理的网络结构、训练策略以及损失函数就能高效地对新类进行泛化。但是,上述方法均针对普通自然图像,而在遥感图像处理领域,由于遥感成像机制不同于一般图像,具有以下几点特性:1)地物尺度存在较大差异,过多的负样本会损害定位精度;2)复杂的地形背景等干扰因素,使得检测器分类能力不足导致类间区分度不够,易造成类别混淆。

针对上述问题,本文以Faster RCNN 作为基础检测模型,设计一种多尺度对比微调网络(Muti-scale Contrastive Fintuning Network,MCFN)。该算法首先使用深度反转卷积优化骨干网络,利用其空间特异性,使分类器能够关注遥感图像中不同空间位置的特征,增强图片精细化识别的线索,以从复杂背景中提取更丰富的语义。在训练阶段,融入对象级特征,补充遥感多目标在不同特征层级上各尺度的正样本数量,增强原始特征,使模型从中学习更鲁棒的先验知识。最后,通过改进有监督对比分支和均衡微调策略,大幅提高该网络在有限遥感集上的分类精度和抗过拟合能力。实验选择2 类多标签遥感数据集,在与基于元学习和微调的主流少样本算法对比实验中,平均精准度分别提升了3.8个百分点和2.5个百分点。

1 相关研究

1.1 基于深度学习的目标检测网络

传统的目标检测研究通常采用滑动窗口方法[11-12],但随着计算机硬件性能的大幅度提高,近年来,深度卷积神经网络被广泛用于目标检测。现有主流方法的结构可分为:一阶段检测器和二阶段检测器。YOLO 系列[8,13-14]是最成功的一阶段物体检测器之一,在YOLO 模型中,输入的图像被划分成若干网格单元,每个单元负责检测固定数量的对象,最终得到对象类别相应的置信度;另一种代表性的一阶段检测器SSD[15]则通过在不同深度特征图下对先验框回归,并采用空洞卷积捕捉多尺度上下文信息。它们结构相对简单,能够直接预测出物体的类别概率和位置,因此推理速度更快但也损失了一定精度。二阶段检测器以R-CNN[16]、Faster RCNN[7]为代表,采用全卷积网络构建候选区域网络(Region Proposal Network,RPN),提取池化后的特征图并生成多个候选框,计算关联对象得分并按相应比例映射回特征层,在经过区域池化层ROI第二次筛选后,得分高的对象特征用于最终分类和定位。由于二阶段检测器结构更加复杂精密,网络精准度更高。但是,无论是一阶段还是二阶段检测方法都需要大量的数据进行训练,在少样本的情境下效果欠佳。

1.2 少样本学习

为了从具有监督信息的有限样本中学习到有效特征,研究人员提出了新兴的机器学习范式——少样本学习(Few-Shot Learning,FSL)。自深度学习推广以来,最早关注以度量学习方法为主的分类任务,例如Siamese网络[17]、匹配网络[18]、原型网络[19],设计不同的度量方式将数据映射到特征空间中,根据度量的距离对图像进行分类。尽管FSL 在分类上的研究日趋成熟,但它们不能直接应用于需要定位和识别目标的检测任务。近年来,将少样本和传统目标检测结合的算法主要分成2 类:元学习法和微调策略法。具体而言,数据集被划分成基类(base)和新类(novel)[20-21]。其中,元学习方法设计了一个由元训练和元测试组成的框架,以训练元学习者将知识从基类转移到新类。2019 年,Yan 等人[9]在Faster RCNN 的ROI 区域融入元知识设计了Meta RCNN,提出了一种预测头重构网络(PRN)来推断类注意向量,以检测新类;Meta-Det[22]使用基类样本和权重预测元模型训练类别不可知参数,以从少量镜头样本中学习类别特定参数。该类算法以跨任务式学习为主,从不同任务中习得表现良好的元知识,在解决不同类型的学习问题时变得更加灵活,但由于网络学习参数过多,且结构过于复杂不易训练,常常在迭代学习过程中无法收敛。微调技术属于迁移学习范畴,旨在从已知样本中学习知识扩展至未知样本。2020 年,Wang 等人[23]开创性地将微调与少样本结合并提出新的二阶段微调训练方法(Two-stage Fine-tuning Approach,TFA),证明从基类中学习到的特征会转移到新的类中而无需进一步更新参数。它简单地冻结在基础类别上学习到的网络参数,通过迁移学习将新类随机初始化的权值分配给预测网络,再微调分类和回归网络以减少新类的方差,并重新调整特征的组合权重,从而适应新的类别也显示出更好的检测结果。

2 改进的算法MCFN

在机载或星载条件下以俯视图的形式拍摄而成的遥感图像,数据获取难度大并且物地目标尺度变化大、背景复杂,图像间的差异十分显著。基于上述问题,本文对Faster RCNN 部分结构进行改进,提出了一种基于特征增强的MCFN 网络结构,整体流程如图1所示。

图1 改进后的MCFN网络结构

本文提出算法的改进主要如下:1)传统卷积受感受野的限制难以对全局上下文信息建模,受Involution[2]启发,本文在原始特征提取主干网络中融入部分反转卷积算子,构建一种新型反转骨干网络,旨在增强特征提取器在空间维度上的分类能力和抗干扰性,弥补遥感目标在空间细节上的匮乏;2)为在遥感场景下能使模型自适应多尺度对象级特征,本文融入正样本细化分支模块(Positive Object Enhancement Module,POEM)[24],缓解遥感在有限样本下目标尺度分布稀疏问题从而帮助模型在基础训练阶段从基类中提取多维先验知识;3)改进损失函数,本文融入监督对比学习思想[25],对ROI 候选特征进行编码,度量目标编码之间的相似性以提高实例级类别的内紧致性并扩大类间差异,使少样本回归更精确;4)本文利用改进后的均衡微调法(Balanced Fine-Tuning Approach,BFA)训练网络,缓解少量样本下存在的样本不平衡问题。

2.1 反转骨干网络

在Faster RCNN 主 流 的 特 征 提 取 结 构Resnet[26]中,通过不同方式堆叠了多个传统卷积块(Convolution),在每一个像素点上共享相同的卷积核,即利用平移不变性简化对特征的计算,得到高层语义特征。这种卷积每个通道的卷积核相对独立,具有丰富的通道信息,但在一定程度上忽视了空间上下文信息,即无法很好地有效应对俯视视角下目标存在的纹理特征,并割裂遥感对象之间的特征联系,使得网络难以提取到更加精细、准确的特征;同时,这种卷积方式一定程度地限制了感受野,因提取的特征单一使得数据产生冗余,易出现过拟合现象,不利于少量样本条件下的遥感目标检测任务。为此,本文在主干Resnet101中融入部分反转卷积,同时移除其中对应位置的3×3传统卷积,但保留主干结构中原有的位于头尾位置且用于通道映射和融合的1×1卷积块,构建一种新型反转骨干网络作为MCFN网络的特征提取主干。

反转卷积具体结构如图2 所示,对于输入特征图Χ∈RH×W×C,H为高,W为宽,C为通道数,取出在某一像素(i,j)处的特征向量Χi,j∈RC对其重新排列,通过ψ函数线性变换将其重新编码生成K2维特征向量Χψ(i,j)∈RK2并展开成K维核方阵Hij,即:

图2 反转卷积示意图

其中FC(·)表示全连接运算,ReLU(·)表示ReLU 线性激活函数,BN(·)表示批归一化计算。将核与Χi,j周围相邻■K/■2 范围内的像素逐点相乘,使得初始像素通道维上的信息编码隐性地分散到其空间附近来收集丰富的感受野中的信息。设:

则最终输出:

式中Υ为经过反转后的特征。由于反转卷积在通道维度上共享核,以一个滑动窗口的方式对输入特征映射进行乘加运算,得到反转卷积的输出特征映射,使之在广阔的空间结构中总结上下文并获得更大的感受野。可见,反转卷积能对空间信息建模,通过与普通卷积穿插使用构建的新型主干,聚合了通道语义信息与空间上下文信息,更易于捕获遥感特征,有助于对少样本遥感目标分类,在一定程度上缓解过拟合。

2.2 POEM 模块

由于在遥感场景下的不同类别的待检测物体在相同的分辨率下相对于自然图像的目标尺度变化更大,例如飞机、车辆尺度较小,而球场、桥梁等尺度较大,仅通过单一的特征映射难以捕捉原始图像的全局信息。因此,主流网络FPN[27]以一种特征融合的方式融合不同层级上的特征,但这种语义级信息在下采样过程中被逐步稀释,导致遥感目标易被复杂的背景掩盖,产生过多的负样本。为了在语义特征中更加充分地融入合理的对象级特征,本文在反转主干网络结构基础上利用POEM 方法,增强了每一尺度下的遥感对象的正样本原始特征,结构如图1 虚线框内所示。首先将输入遥感图像的真值对象进行裁剪,尺寸变为32×32,64×64,128×128,256×256,512×512,800×800,使它们和FPN每一特征层对应锚框的大小一一对应。再经过Resnet 提取至p2~p6 不同的特征阶段,从中选取2 张相应尺度的特征图分别输入到RPN 和ROI 结构中,通过优化RPN[7]筛选出的建议框(proposal)提高了对遥感目标区域的关注度,使得网络对于多尺度目标的定位更精确。

具体来说,送入RPN的特征经过一个3×3卷积和1×1 卷积后直接作为正样本计算出前景特征矩阵与反转骨干网络提取后的候选特征矩阵聚合叠加,改善遥感前景对象的计算得分;同时,进入ROI 的特征下采样到14×14 大小与前一阶段筛选出的建议区域融合输入到Faster RCNN 的检测头进行解码,增强各个尺度下正样本的特征信息从而提升检测效果。

2.3 有监督对比损失

为了克服以上网络在对少样本微调过程中易分类混淆的缺陷,根据文献[28]的发现,在原有神经网络中利用继承对比学习思想可以缓解这类问题。如图1 所示,在经过2 层MLP 特征处理后,除了解码先前的类别信息和回归位置外,额外增加一个并行的对比分支头从而让网络自发地关注同类特征,逐渐学习到一个能有效区别不同类别图像的高级语义层次特征。如图3 所示,ROI 特征提取出的所有proposal(建议框)在展平后分别经过2个全连接层映射到1024维的特征向量p。为了优化对比目标使建议框之间更方便地比较,通过L2 正则化编码降维到128 维的嵌入特征p͂。为了明确建模特征p͂的实例级类内相似度和类间区分度,两两之间通过计算余弦投影空间下的相似度来刻画当前目标属于该类的可能性。相似度包含了p͂之间的对比信息,值越大表示越趋于同类。因此在训练时损失函数L要使得任意p͂i与它所属同类的其他特征p͂j相似度总和越大时越小;反之,与它异类的p͂k相似度总和越小时越小。根据以上分析,损失函数设计为:

图3 对比检测头示意图

其中:

式中N代表图3中嵌入特征p͂的总数,yi是特征p͂i对应的真值,Nyi为真值是yi的特征数量,σ是一个恒大于0的超参数,在本文实验中设为0.2。

综上所述,定义整个MCFN 网络的损失函数由2个用于优化前景对象和分类的二元交叉熵损失LRPN、Lcls,一个预测回归值的平滑L1损失Lreg以及Lextra组成:

2.4 均衡微调法

针对少样本训练深度网络样本不平衡的问题,本节在TFA[23]微调策略基础上改进,融入一种均衡微调法(BFA),具体如下:

1)由于样本稀缺,微调开始阶段的新类正样本proposal 在RPN 中易获得较低的前景置信度而导致正样本遭到NMS[5]的错误过滤而被忽略。基于此,将RPN和ROI特征提取器在目标监督下联合训练,倍增通过NMS 的候选框数量,同时减半ROI 中用于计算损失的候选框,抑制过多仅包含背景上下文的负样本干扰。

2)定义均衡梯度下降替代TFA 传统随机梯度下降(SGD)进行反向传播训练网络。计算微调训练的优化目标函数:

其中:

式中gn与gb代表新类和基类分别经训练得到的原始梯度,g͂n,g͂b为更新后的梯度值。

由于训练时基类数据庞大而新类样本稀少,优化后的网络难以记忆新类特征。传统梯度更新难以找到最佳的反向传播方向,均衡梯度g͂自适应根据基类和新类数据梯度重新加权,计算gn与gb的加权平均值,即:

使得网络快速地从有限的数据中获取个类信息,高效地对新类进行泛化。改进后的微调流程见图4。

图4 微调流程示意图

3 实验结果与分析

3.1 数据准备

本文选取NWPU-VHR[29]和DIOR[1]数据集进行实验验证。NWPU-VHR 共包含800 张空间分辨率0.5~2.0 m 的光遥感图像,分为10 个地理空间对象类:飞机、棒球场、篮球场、桥梁、港口、田径场、船舶、储罐、网球场和车辆。其中有650 张正样本,至少包含一个待检测对象;剩余150 张负样本只包含背景,大小均为500×500至1100×1100。

DIOR 数据集规模更大,包含5862 张训练集、5863 张验证集以及11738 张测试集。空间分辨率与NWPU-VHR 相同但图像大小是800×800,同时拥有更多的20 个类别,增加了机场、烟囱、大坝、高速公路服务区、高速公路收费站、高尔夫球场、立交桥、体育场、火车站、风车,各类部分样本如图5所示。

图5 数据集样本示意图

3.2 实验环境和设计

本文基于开源框架Detectron2[30]实现MCFN 网络,具体软件和硬件配置见表1。在实验中,将数据集都划分成基类和新类。为了保证网络能学习到足够的特征,NWPU-VHR 划分3 个新类:飞机、棒球场、网球场;DIOR划分5个新类:飞机、棒球场、网球场、火车站、风车,剩下其余类视为基类全部参与基础训练。

表1 实验配置

在微调时,NWPU-VHR 在所有类中随机挑选出1、3、5、10 个带注释的样本用于构成第二阶段小型训练集。除去已经参与训练的样本,剩余的新类样本组成测试集检测网络性能。但DIOR 新类总样本数量更大,网络需要学习更加复杂的特征,因此为了进行公平的比较,微调时随机取5、10、20、30 个带注释样本进行实验。

基类训练时,学习率参数设为0.02,批量大小batch-size 为8。第一阶段训练最大迭代32000 次,到第20 轮时损失值在某一值附近上下波动,设置学习率衰减率gamma 为0.1,使得损失进一步逐渐收敛至最小值;第二阶段迭代7000 次,学习率设为2.5×10-4,采用随机梯度下降优化器反向传播,动量系数设置为0.9,权重衰减为10-4。NWPU-VHR 图像整体经过预处理重新调整到1024×1024 px 输入网络模型中,DIOR图像维持原始尺寸不变。

3.3 评价指标

目标检测的常用评价指标平均检测精度(mAP)统计了所有类的检测精度(AP),而本文实验将基类图像用作辅助信息,更关心在新类上模型的性能表现,因此使用新类平均检测精度(nAP)评估网络有效性。每个新类包含K个标注实例,定义为K-shot(K=1,3,5,10,…),每个K-shot对应一个nAPK映射,如公式(10)所示:

其中N代表新类类别的总数,APK i代表某一新类下的K-shot检测精度。

3.4 实验结果对比分析

为验证MCFN 网络的有效性,将本文提出的算法与3 类不同网络进行性能对比,实验均采用相同的数据划分作为训练集。选用的对比网络如下:

1)Faster RCNN-ft 表示融合传统微调策略的二阶段基线检测器Faster RCNN。

2)主流少样本微调网络TFA。

3)常见基于元学习的少样本算法网络,包括Meta RCNN、FR[31]、FSDetView[32]。

实验结果如表2和表3所示。

表2 NWPU-VHR数据集上实验数据对比

表3 DIOR数据集上实验数据对比

实验表明,基线检测器在面对遥感场景中新类样本极少的情况时,一方面因无法从复杂背景的上下文中有效提取遥感目标特征而导致网络无法收敛,使得准确度均小于10%;另一方面,过度在有限样本下训练发生过拟合,传统的微调方法仍难以从源领域中记忆足够的先验知识,因此总体在测试集上的表现不佳。另外,TFA 在NWPU-VHR 上的期望值普遍低于Meta RCNN 等基于元学习的检测算法,而在DIOR 数据集上表现出相反的特征,进一步表明传统微调法需要更多基类数据拟合特征。相比之下,表2 中本文的改进方法在少样本条件下检测复杂背景的遥感目标相较于其他网络均有不同程度的提升。尽管DIOR数据集挑战性更大,图中对象更密集、类间差异更大,本文方法准确率仍在所有K-shot 下普遍高于其他检测模型,表现出更优秀的泛化能力。

为了更加直观地比较各算法的检测效果,分别对2 个数据集在新类上的测试集预测结果进行可视化。如图6和图7所示,亮白色框代表检测出正样本,灰黑色框代表负样本而未正确识别。

图6 NWPU-VHR数据10shot下新类预测结果

图7 DIOR数据20shot下新类预测结果

第一行显示出Faster RCNN-ft 存在大量漏检、误检的情况,无法适应遥感应用场景;第2~4行表明,基于元学习的算法网络可以检测出少量待测物体,复杂的元参数使网络定位损失难以收敛至最佳区间,漏检较多;TFA 能够基本检测出新类对象,验证了使用微调的训练方法可以更有效地从其他类获取信息,但由于遥感图像复杂的背景、尺度的变化和类间的相似性,容易将形状相似且大小不同的物体识别成车辆、棒球场和船,篮球场识别成网球场,大小型飞机漏检等。最后一行观察到本文方法能检测出大多数新类对象,进一步证明了MCFN 网络能够通过特征增强和对比监督更全面地提取和识别遥感新类对象的特征。借助这些类别特征信息,减少了特征之间的相互干扰,提高了模型的检测精度,在一定程度上弥补了其他检测网络的缺陷。

3.5 消融实验

为了验证本文MCFN 网络各模块的合理性,本文在DIOR 数据集上使用与3.1 节中相同的数据划分进行4步消融实验,结果如表4所示。

表4 DIOR上各模块消融实验

可见,传统卷积构建的骨干网络受限于感受野的大小,浅层特征语义信息不足无法有效学习,深层特征分辨率不足丢失细节信息导致小尺度目标检测困难。使用新型反转卷积替换掉骨干网络中传统卷积部分,本质上提升了原基线的特征表征能力,从有限样本中学到的有效特征更多。表4 第2 行显示,使用反转卷积在所有shot下比原先略微提升了1.5个百分点左右。

原基线的关键问题,在于对新类的过拟合和遥感复杂背景下外观相似类之间的相互混淆,在加入BFA以及相应的对比损失分支后,大大提高了检测性能。从第3 行可以看出,nAP 在5-shot、10-shot、20-shot、30-shot 下分别提高了15.6 个百分点、19.6 个百分点、16.0 个百分点、20.9 个百分点,该模块的引入明显加深了对少样本分类的敏感程度。继续观察表4第3和第4行,在POEM 模块的优化下,检测结果较第3行又分别提升了2.7 个百分点、2.1 个百分点、2.8 个百分点、2.4 个百分点。原因是通过融合了额外的对象级尺度特征信息之后,原先的遥感正样本目标特征得到显著增强,使之在复杂的背景中更具辨识度从而达到辅助特征定位的目的。

为了进一步探究反转卷积在遥感检测中对主干网络的适应性,在本文提出的MCFN 网络上分别选取6 组可行性实验对主干101 层的3×3 卷积进行替换。表5 显示了在缩放DIOR 数据集至800×800 大小的遥感图像输入下,替换率r对主干ResNet101的性能影响。

表5 替换率r对反转卷积主干性能的影响

可见,替换率r与模型的参数量和计算量呈负相关,反转卷积在细节上对算力进行了重新分配,使得模型将算力调整到能最佳发挥性能的位置从而在不同程度上提升性能。其中,当r=0 时,模型的参数量庞大、计算量复杂,且普通卷积难以利用遥感空间上下文信息;而完全使用反转卷积代替普通卷积性能欠佳,这主要是由于反转卷积的通道不变性在一定程度上忽视了RGB 图像的语义信息,反而对检测不利。当r设定在1/6 到1/4 区间时,MCFN 在各新类上的表现最佳,这可能是因为穿插使用对空间信息建模的反转卷积与普通卷积能兼顾空间与信道间的信息传递,实现效率与精确度间的平衡。

4 结束语

针对遥感条件下少样本目标检测困难的问题,本文以经典Faster RCNN 框架为原型,分别引入反转卷积算子、POEM 以及监督对比思想,增强了提取特征的辨识度和对比度,从而提高了模型的检测性能。另外,微调训练法能够有效解决少样本存在的过拟合现象,有助于提升模型的泛化能力。在NWPU-VHR 和DIOR数据集上的实验结果表明,在使用NWPU-VHR数据集的5和10个训练样本时,新类样本上的平均检测精度达到了53.3%和63.1%;在使用DIOR 数据集的20 和30 个训练样本时,新类样本上的平均检测精度达到了45.7%和53.5%。通过与3 种主流的目标检测模型和2 种表现良好的少样本检测网络进行比较,本文算法网络性能有了不错的提升,具备较好的少样本遥感目标检测能力。

尽管如此,实际应用与理想状态下的数据不同,在实际应用中遥感图像的拍摄可能存在强干扰因素,如云、雾的遮挡等问题。因此在未来的研究中,如何能在少样本条件下实时地抗干扰并有效检测出遥感目标是本文下一步工作的重点。

猜你喜欢
微调卷积样本
基于3D-Winograd的快速卷积算法设计及FPGA实现
用样本估计总体复习点拨
从滤波器理解卷积
推动医改的“直销样本”
一种新型微调挤塑模具的设计及应用
基于傅里叶域卷积表示的目标跟踪算法
灵活易用,结合自动和手动微调达到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
一种基于卷积神经网络的性别识别方法