基于改进级联RCNN的遥感图像目标检测

2023-01-31 03:36王子琦管振玉朱轶昇刘光灿
计算机工程与设计 2023年1期
关键词:卷积特征图像

王子琦,管振玉,朱轶昇,刘光灿

(南京信息工程大学 自动化学院,江苏 南京 210044)

0 引 言

遥感图像目标检测是当前目标检测领域一大热门问题,其任务是对遥感图像(图1)中感兴趣的物体,判断类别并给出其在图像中的位置[1,2]。伴随着深度学习模型的大规模应用,研究者尝试在深度学习的基础上设计目标检测模型。目前,这种模型主要包括基于区域推荐(region proposal)的模型和基于回归(regression)的模型[3]。

基于以上两类模型,近年来一系列创新方法被提出。二阶段网络方面有Zhong等[4]提出的改进型R-FCN,Ding等[5]提出的融合迁移学习、在线困难样本挖掘机制、多尺度特征表示及空洞卷积等方法的Faster RCNN,Ma等[6]提出的一种基于门控循环单元的融合子网络,Yan等[7]提出的一种基于可变形卷积的Faster RCNN的IOU自适应模型及Wang等[8]提出的一种端到端多尺度视觉注意网络等。一阶段网络方面有Liu等[9]在YOLO网络的基础上设计的一种简单的多类目标检测体系结构,杨耘等[10]结合对训练数据的挖掘的YOLOv3网络等。以上诸多方法推动了遥感目标检测领域的发展,但我们认为仍存在一些需深入研究的问题。①一些方法的目标针对性比较强。如曹旭等[11]在目标标注之外增加了目标精细掩膜和语义分割图,虽在飞机目标的检测上大幅提升了精度,但生成精细掩膜的方法较复杂,且在其它类别上难以应用。其它诸如针对船只、车辆、建筑物等的算法也存在类似问题,其特殊方法难以泛化到多目标的遥感目标检测上。②一些模型的训练策略比较复杂,针对训练样本需调整的超参数多,且需要大量的数据增强,训练效率低。③针对多分类且目标数量和尺度变化大的大规模遥感数据集的目标检测方法,相比针对单类的方法,目前的研究较少。因此我们希望在更大、更具难度的大规模遥感目标数据集的检测问题上取得更好的效果。

基于上述分析,本文工作有以下方面:

(1)以在目标检测领域检测效果较好的级联RCNN(Cascade RCNN)网络为基础,引入姿态估计领域中表现优秀的HRnet。对网络增加多重感知域和通道注意力机制,增强主干网络对目标特征的获取能力。

(2)采用串并联的RCNN训练模式,对RPN网络生成的感兴趣区域(region of interest,ROI)进行多重特征的学习。

(3)本文方法在两个大规模的、目标类别分别是15和20的遥感目标检测数据集上进行实验,结果显示:相比原Cascade RCNN网络,本文方法在平均精确度上均有更优表现,并超过了一些其它新型的目标检测模型。

1 Cascade RCNN算法框架

Cascade RCNN[12]是多重级联结构的二阶段目标检测网络,其基本结构如图2所示。第一部分为主干网络部分(backbone),从目标图像中提取深度特征。主干网络大多辅以特征金字塔网络模块(FPN),生成多尺度多级别特征图。第二部分为区域提议网络(RPN)部分,在主干网络获取的特征图上生成锚框(anchor),对这些锚框进行二分类(是否为目标)和位置回归,并进行置信度的筛选,获取可能存在目标的感兴趣区域(ROI)。第三部分为RCNN部分,对前一部分获取的ROI进行分类和回归。Cascade RCNN设置了多重级联的RCNN,前一阶段的输出结果被送入下一阶段进行更高质量的提炼,设置更高的交并比(IOU),以使预测目标更加接近实际目标的位置。

图2 Cascade RCNN基本结构

2 本文改进方法

光学遥感图像的目标检测存在如下问题:待检测目标的数量多、目标尺度和纵横比的分布非常广泛、许多目标与背景的相似性很大等。若仅用一个IOU阈值来划分正负样本,则难以获得较好的ROI。为获取较高质量的目标位置,本文选择Cascade RCNN为基本检测框架。在此基础上,我们考虑到遥感图像所包含目标的特点,结合Cascade RCNN中各部分功能,对其主干网络和级联的RCNN进行改进。

2.1 主干网络改进方法

2.1.1 多感知域的HRnet

主干网络是整个检测网络最基础亦为最核心的部分,Cascade RCNN一般使用ResNet-50或ResNet-101网络,其总体结构是自顶向下(top-down)的,即从输入图像开始,随着网络层级变深,其特征图尺寸不断缩小,特征维数不断增加。然该结构忽略了高分辨率的表示。高分辨率表示在目标检测中起着至关重要的作用,为保持高分辨率的深层特征图,Sun等提出HRnet[13],对高分辨率特征图进行卷积操作以保持高分辨率表示,同时用并行的低分辨率特征图以加强表示。不同层级特征之间又大量增设信息交互通道,将不同尺寸的特征广泛结合起来,获取更好的目标分类特征和空间位置。我们认为这一结构适用于遥感图像的目标检测。

所有层级的特征图通过卷积核获取,HRnet特征图的获取手段较单一,均使用3×3卷积域的卷积核。遥感图像目标具备两个特点:①空间分布广泛。我们感兴趣的目标可能会出现在图片中的任意位置;②变化的几何形状。同一类的物体在自然图像中表现的形状大多一致,而在遥感图像中其形状变化多。基于以上两点,我们认为若使用调整卷积域的卷积核,利用多样化的感受野对同一目标的特征进行观察,获取的综合信息将比单一卷积核所获取的信息更广,有利于RPN和RCNN的决策。为此,我们在改进模型中引入多种卷积核。

普通卷积核每步长可扫描3×3范围的特征。首先我们引入空洞卷积,扩散系数dilatation设定为2,则感知域由原先的3×3扩大到5×5。扩大感受野对于小目标有更好的捕获能力,减少遗漏;对于大目标则可通过多样化的感受野获取多尺度的信息,故有利于各个目标特征的获取。另外,如何使模型学习目标在几何形状及方向上的多样性也应加以考虑,为此我们引入了可变形卷积[14],公式为

(1)

可变形卷积相比传统卷积核需多学习3K的参数,其中Δpk为一个二维向量,表示各个位置采样点在x、y方向上的偏移, Δwk为整体尺度上的偏移,这些参数通过一个增加的卷积单元进行学习。可变形卷积核的大小和位置能根据目标进行动态调整,故对于图像的几何形状和方向等信息具备更强的感知能力。将以上3种卷积核融合bottleneck结构(图3)形成基本单元,W为宽度(width)。

图3 3类bottleneck

小目标的特征在高分辨率特征图上较为明显,大目标的特征在低分辨率特征图上仍有较多保留,故我们以HRnet-W32为基础,第一级别特征图用空洞卷积bottleneck结构获取,第二级别不变,第三级别和第四级别特征图用可变形卷积bottleneck结构。其余细节结构和原HRnet相同,总体网络结构如图4所示。

图4 改进的多感知域HRnet

2.1.2 结合轻量级通道注意力的HRfpn

为增强HRnet,Sun等提出了HRfpn[13],该结构将高分辨率特征和低分辨率特征全部结合,使获取输出特征图的种类多元化,但我们认为其未考虑到各级别特征中各通道之间相互关系,因不同维度的特征图其在后续分类和回归操作中所占比重很可能存在差别。为此我们引入了注意力机制解决这一问题。在此方面,HRfpn面临一个新问题:以使用bottleneck宽度32的HRfpn为例,将各层输出通道组合起来,共得1920通道,显然这样数量级的模型其尺寸将大幅增加。故我们设计了轻量化的、融合通道注意力机制的HRfpn。

改进HRfpn总体结构如图5所示。首先,我们将主干网络获取的4级别特征图F1~F4用步长为1,卷积核尺寸为3×3的卷积层进行维度变换。因众多遥感目标检测相关研究结果表明,低层特征图包含更多小目标的位置信息,高层特征图感受野更大,包含更多有益于分类的语义信息[15],故我们以此操作重设高低层特征图的数量:两个较低层特征图为208通道;两个较高层特征图为304通道。此时,通道总数由1920降低至1080,接着引入ECA(efficient channel attention)模块[16]提取通道注意力,该设计可在减少模型规模的条件下,实现针对HRfpn的通道注意力机制。

图5 改进的结合轻量级注意力的HRfpn

ECA模块结构如图6所示。先将所有通道的卷积特征用全局平均池化GAP聚合,得到1×1×C的特征向量,C为通道数。用一个1维卷积层学习注意力矩阵,其卷积核尺寸为k(本文设k=5)。注意力权重矩阵Wk参数为k×C,采用一维卷积层的ECA模块使各个通道共享权重,仅学习k个参数,达到了网络轻量化的目的。该操作连接Sigmoid激活函数将权重映射到[0,1],获取最终的空间域注意力权值w,上述操作为公式

图6 ECA模块

w=σ(Conv1dk(y))

(2)

y为1×1×C的特征向量,将权值w与中间特征图相乘可实现通道特征优化。将优化后的组合特征图利用步长为1,卷积核尺寸为3×3的卷积层降维,后续做多次平均池化即获取多尺度特征。分别用步长为1,卷积核尺寸为3×3的卷积层获取最终输出特征图Gi(i=1,2,…,5), 这些特征将用于后续RPN和RCNN的相关操作。

2.2 级联型RCNN改进方法

Cascade RCNN通过感兴趣区域对齐(ROI Align)操作将ROI映射为固定尺度的特征图块,接着对具有不同IOU阈值的检测器进行级联,可实现整体检测性能的提高(图2)。

图7 串并联RCNN结构

我们所设计网络的总损失函数是

(3)

其中,LRPN是RPN模块损失函数;Lbi是第一阶段各并联分支的损失函数,分支总数为n,本文中n=2;LRCNN是第二阶段RCNN的损失函数。λ为各损失的权重,本文λRPN设为1,λbi(bi=1,2) 均设为0.5,λRCNN设为2。

与原Cascade RCNN一致,各部分损失均为分类损失与回归损失之和。分类损失使用交叉熵损失(RPN模块中使用二分类的sigmoid的交叉熵损失),回归损失为smooth L1损失,其具体内容如下

(4)

3 实 验

3.1 实验数据集及预处理

为体现研究的可信性,我们认为实验数据集应满足:①数据集所包含的图像数量要多,场景要尽量复杂;②数据集所包含的目标种类多,且目标的尺度变化尽量大,即目标定位和分类的难度较大。故使用当前公开的遥感图像目标检测数据集中规模最大、难度最高的两个数据集——DIOR数据集[18]和DOTA数据集[19]进行实验。

DIOR数据集为20分类的遥感目标检测数据集,类别为飞机(airplane)、机场(airport)和棒球场(baseball field)等20类。图片总数为23 463幅,本文所用训练集和测试集由官方划分,其中“trainval”部分共11 725幅用于训练,“test”部分共11 738幅用于测试。所有图像的尺寸固定,为800×800像素。我们使用少量简单的数据增强方法:对于各训练数据,首先将其尺寸扩大到原来的1.5倍,接着进行步长为400像素的水平-垂直方向上的滑动切割,切割子图像的尺寸仍为800×800。将切割子图像与原图像结合起来,训练数据为原来的5倍。对于切割边缘的实例,保留剩余为原先70%以上大小的实例。

DOTA数据集为15分类的遥感目标检测数据集,类别为飞机(plane)、棒球场(baseball-diamond)和桥梁(bridge)等15类。图片总数为2806幅。我们仍使用官方划分的训练集和测试集,“trainval”部分共1869幅用于训练,“test”部分共937幅用于测试。因该数据集图片尺寸从800×800到4000×4000不等,故我们使用滑动切割方法,步长为600,在相邻子图片重叠区不超过25%的前提下,获取800×800的子图像,用这些子图像进行训练和测试。子图像测试结果将通过拼接的方法返回到原图(拼接后需做NMS操作)。对于切割边缘的实例,保留剩余为原先70%以上大小的实例。

本文研究以水平框为主,故以上两数据集的目标标注方式均采用水平框标注。位置标注为水平边框4个顶点坐标(图8)。

图8 水平框标注图示

3.2 实验环境和评价指标

本文实验在搭载NVIDIA GTX2080 ti的Ubuntu 18.04.5工作台上进行,各模型使用单张显卡训练。软件环境为Python3.7和pytorch1.4.0。实验的批处理量(batch size)设为2,迭代次数(epoch)为24。实验采用SGD优化方法,学习率为0.001,动量(momentum)为0.9,权值衰减(weight decay)为0.0001。学习率在第16和第20 epoch各下降至1/10。

对于各数据集,我们选取 IOU=0.5下的平均精度(average precision,AP)值作为主要评估指标。AP是精度-召回曲线(precision-recall curve)下方的面积。各类别的AP值取平均即为mAP,较好的检测器mAP较高。

3.3 实验结果

3.3.1 DIOR数据集上实验结果

为验证本文方法的有效性,本文在DIOR数据集上以Cascade RCNN为基准进行实验,渐次增加改进方案。模型不设预训练参数,卷积层使用kaiming初始化,其余层用常值初始化。我们取IOU各为0.5和0.7情况下的AP进行评估。实验结果见表1。

表1 DIOR数据集上改进模型实验结果

上述实验结果表明本文改进模型在相同实验条件下,在AP值上比两类不同主干网络的Cascade RCNN均有提升,IOU为0.5时,mAP分别提升13.03个百分点和4.1个百分点。各个类别上,改进模型比改进前在20个类别中的18类有提升,这说明我们的改进网络兼顾了各类目标的尺寸、纵横比和几何形状等特点,适用于多分类的目标检测。

IOU为0.7时,对检测位置的精确度有更高的要求。在此条件下,我们的模型比起改进前的使用ResNet101+FPN及使用HRnet+HRfpn的Cascade RCNN在mAP上分别提升14.47和5.19个百分点。当IOU阈值从0.5调整至0.7时,改进前模型的mAP分别下降了13.11和12.76个百分点,而我们改进模型下降11.67个百分点。说明改进模型无论在分类准确度还是定位准确度,均优于基准模型。

我们的改进模型在大多数类别上表现良好,但在个别类别上表现欠佳。如桥梁、储油罐、车辆等。我们认为原因可能有以下几点:①目标纵横比变化巨大,预设目标框难以拟合;②目标小且密集,在图像中表现模糊难以区分;③样本数量不平衡等。我们所设计的模型虽比起原模型在上述问题上有所改善,但在个别类别上仍有不足。且训练和测试时存在部分目标因数据处理被截断的现象,这些不完整的目标会削弱检测效果。

此外,我们的网络设计亦顾及到模型尺寸,避免过度膨胀。原Cascade RCNN的保存模型大小为673 MB,本文最终改进模型为672 MB,模型尺寸基本相同。

3.3.2 级联RCNN分析实验

本小节以一组实验验证本文所使用的串并联RCNN结构的有效性,分别单独使用第一阶段和第二阶段的RCNN及串并联的RCNN用于检测,以IOU为0.5的mAP为基准观察各自的性能,实验结果见表2。

表2显示仅使用第一阶段的RCNN时,网络结构类似于Faster RCNN,此时两独立分支的mAP均在64%左右。仅使用第二阶段的RCNN时,mAP提高了1.43个百分点。我们认为原因有三:①第二阶段受益于级联结构,定位精度提升;②使用卷积层,增强了特征获取能力;③串并联结构使第二阶段所获取的样本数量增加。当结合第一、第二阶段,形成完整的串并联结构时,检测精度最优。实验结果表明了我们的串并联结构的设计思路。

表2 不同级联RCNN实验结果

3.3.3 DIOR数据集上结果对比

为验证本文所提出模型的性能,我们将本文模型实验结果与当前其它目标检测模型进行对比。其它模型的结果数据来自DIOR数据集官方提供的文献[19]。以IOU=0.5时的mAP为评价指标,实验结果见表3。

如表3所示,本文的优化模型在DIOR数据集上达到的mAP均超过这些当前流行的目标检测模型。其中,SSD和YOLOv3是一阶段模型,Mask RCNN和RIFD-CNN为二阶段模型,CornerNet为关键点检测模型。本文通过改进的多感知域HRnet提取深度特征,用结合轻量注意力机制的HRfpn融合多级别特征。采用改进结构的级联的RCNN对特征进行多次分类和回归,故无论在特征的挖掘及使用上均更优。此外,文献[19]未给出其它模型的具体训练方法,而本文模型仅以DIOR数据集为训练集,无预训练模型及其它数据集的迁移学习。且使用的数据增强方法简单,训练策略是端到端的,训练简捷。通过网络设计的改善,我们在有限的数据集上仅以24个epoch的训练,即在mAP上超过了这些模型。

表3 对比实验结果

3.3.4 DOTA数据集上实验结果

为验证本文方法的泛化性,我们在DOTA数据集上进行实验。因DOTA数据集未提供测试集标注,所有实验结果在官方服务器上获取。我们分别训练并测试了改进前后模型以及两个新型的目标检测模型:HTC[20]和Mask RCNN+HRnet[13,21],以mAP为指标评估表现,实验结果见表4。

表4 DOTA数据集上实验结果

从表4可知,本文的改进方法在DOTA数据集上依然有效,相比于两个改进前模型在mAP上分别提升了7.92和2.94个百分点;相比于两个新型的结合了语义分割模块的二阶段检测网络,在相同的训练和测试条件下,本文模型的mAP更高。以上数据说明本文改进模型相比其它模型在特征学习和RCNN决策方面更优。然而,由于实验使用水平框标注,因此目标框标注内不可避免地夹杂多余的背景信息,对深度特征的学习存在干扰,我们认为这是水平框目标检测的一大局限性。图9是实际检测效果,显示被检测目标的位置和类别。

图9 检测结果图示(上:改进前 下:改进后)

4 结束语

本文针对遥感图像目标检测问题,以Cascade RCNN为基本框架,针对其主干网络部分设计了多感知域的高分辨率主干网络,并结合了一个融合轻量级通道注意力机制的HRfpn,强化了网络对深度特征的获取;针对其RCNN部分,设计了串并联的RCNN级联模型对各ROI多次学习和优化。模型在两个大规模的遥感目标检测数据集上的实验结果均优于基准模型和其它一些深度学习目标检测模型,验证了本文设计模型及设计思路的有效性。本文着眼于网络的设计和优化,在无预训练模型、较简单的训练策略和有限的数据集等条件下,取得了较好的检测结果。然而,实验中我们发现水平框目标检测存在两个局限性:①对于较密集的目标,水平框难以对各目标准确区分;②水平框标注框内存在大量背景部分,干扰训练。我们期望将来以旋转框目标检测方法,结合本文网络设计思路解决上述问题。

猜你喜欢
卷积特征图像
根据方程特征选解法
基于3D-Winograd的快速卷积算法设计及FPGA实现
巧用图像中的点、线、面解题
有趣的图像诗
卷积神经网络的分析与设计
从滤波器理解卷积
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
抓住特征巧观察
遥感图像几何纠正中GCP选取