刘恩海,许佳音,李 妍,樊世燕
1.河北工业大学 人工智能与数据科学学院,天津 300401
2.河北工业大学 河北省大数据计算重点实验室,天津 300401
随着对地观测技术的不断发展,高质量的遥感图像日益增多,极大地促进了遥感领域[1-2]的发展。目标检测作为遥感领域的应用之一,旨在图像中找出感兴趣的区域,确定它们的类别和位置。它在人脸识别[3]、军事侦察[4]、环境监测[5]等各个领域中都起着至关重要的作用。然而,与自然场景不同,遥感图像通常是在不同海拔高度俯视视角拍摄,其背景复杂、任意方向、密集排列的特点增大了检测难度,导致难以实现准确的预测。
近年来,深度学习算法在遥感图像目标检测任务中展露出很好的表现。针对遥感图像中目标任意方向排列的问题,一些研究者[6-8]提出在常规水平边界框表示基础上添加额外的角度信息,设计旋转框检测模型。Zhang等[9]提出一种基于相交圆和可变形感兴趣区域的新型定向舰船检测方法。Liu等[10]提出一个近乎封闭的舰船旋转包围盒空间用于船舶检测。Xiao 等[11]提出了一种新的长宽比感知定位中心方法来表示多方向目标。Liu 等[12]迫使网络学习目标的正确角度,有效定位旋转目标从而实现旋转不变性。Jiang 等[13]专门设计的旋转候选区域生成网络,生成任意方向的候选区域,从而有效检测出旋转目标。王明阳等[14]在网络结构中加入旋转因子为检测框提供角度信息。但是上述方法表示旋转矩形易受边界问题的影响,CSL[15]通过将角度的回归问题转换成分类问题,限制预测结果的范围来消除这一问题。CSL 过于厚重的预测层以及对类正方形目标检测的不友好,Yang等[16]对其做出改进提出密集编码标签,提高了模型检测的效率。Ma 等[17]提出了一种倾斜候选框生成方式,将角度信息引入锚框,通过预先设置的带角度的锚框生成任意方向的候选框,以此来检测有向对象。Ding等[18]提出了RoI Transformer,利用可学习的模块将水平框转化为旋转框,避免了大量锚框的操作。朱煜等[19]提出一种积分与面积插值法相结合的感兴趣区域特征提取办法得到旋转框,再精细调整旋转框位置,得到更好的检测结果。针对遥感图像背景复杂,目标尺度小的特点,Yang等[20]提出了一种有监督的多维注意网络来突出物体特征。Zhang等[21]设计了一种语义提取网络,通过获取全局语义和局部语义来增强场景与目标之间的联系。Guo等[22]提出凸包特征适应算法,将目标区域的点集定义为凸包,通过惩罚相邻目标间的凸包,改善网络对感兴趣目标的检测效果。刘万涛等[23]提出在Faster RCNN基础上加入图像尺寸扩张,提升目标的空间特征。Pan 等[24]设计了一个特征选择模块,使网络可以动态地调整神经元的感受野,从而提取更多目标的细节特征。
尽管上述方法取得了一定的成功,但是还有很大的改进空间。首先,多尺度特征金字塔只能提取目标区域相对规则的特征,对于复杂背景下的目标,提取特征时更容易受到背景信息的干扰,缺乏细节噪声较大,影响特征提取的表达能力。其次,遥感图像中任意方向的物体较为常见,普通卷积是在固定位置均匀采样,忽略了有向目标与特征之间的空间相关性,造成有向目标与特征之间的空间错位问题,尤其在密集排列的物体中更为突出。因此,本文考虑依靠卷积运算的可叠加性来检测有向目标,丰富特征空间并突出具有判别力的特征,增强骨干网的特征提取能力。根据物体形状和方向自适应调整特征采样位置,加强有向目标与特征之间的空间对齐。
为了解决上述问题,本文提出了一种基于自适应特征细化的有向目标检测网络,旨在通过高质量的有向候选框来提高检测精度。网络主要由三个模块组成:特征增强模块、自适应特征对齐模块和解耦检测头模块。为了增强骨干网的特征提取能力,本文利用人类视觉感知系统的相关知识,设计特征增强模块,将非对称卷积融合标准卷积,在不增加参数量的情况下增强特征表示。并在此基础上引入了规范化的注意模块,利用上下文信息抑制不重要的背景信息。其次,自适应特征细化模块引导锚点朝着物体方向采样,实现不同物体与特征的外部对齐,同时考虑同一物体内部的对齐,从而生成适应于物体方向的细化候选框。解耦检测头模块设计并行分支来解耦分类和定位任务,使得每个分支都可以学习到更多特定任务的功能。
本文主要创新包括以下几个方面:
(1)设计了特征增强模块,丰富特征空间信息增强具有判别力的特征,提升网络细节捕捉能力。
(2)提出了自适应特征对齐模块,根据物体形状和方向自适应调整特征采样位置,加强有向目标与特征之间的空间对齐。
(3)设计了一个端到端的网络AFR-Net,并在DIOR-R和HRSC2016数据集上证明其有效性。
AFR-Net网络的整体架构如图1所示。整个网络由三部分组成:特征提取骨干网络、自适应特征对齐模块AFM(adaptive feature alignment module)和解耦检测头模块DHM(decoupling head module)。首先,本文采用ResNet50[25]作为整体架构的主干,从原始图像中提取多尺度特征,为抑制背景噪声突出目标特征,本文设计了特征增强模块FEM(feature enhancement module)来对卷积层提取的浅层特征和深层特征进行增强,通过构建更大的感受野块来结合更具辨别力的特征表示,扩大特征空间并惩罚不重要的通道特征。然后,自适应特征对齐模块在有向候选框指导下自适应地调整不同物体卷积采样的位置并考虑同一物体内部采样点的对齐,提取旋转不变特征,减少有向候选框和真实物体之间的差距。最后,通过全连接层和卷积层结合的解耦检测头模块细化目标的分类和回归。
图1 AFR-Net整体架构Fig.1 Overall architecture of AFR-Net
一些方法采用新颖的结构来提取并丰富目标的特征。例如,MSRN[26]使用具有不同内核的卷积层。LPNet[27]沿着通道维度分割特征,然后分别通过不同数量的卷积层提取特征,MRSN与LPNet方法都可以获取更多的特征表示。然而,这些方法的特征提取能力是低效的,卷积核生成大量参数,分割操作会阻碍通道之间的信息交互,降低特征表示。本文提出的特征增强模块可以很好地提取和利用这些特征,克服了金字塔结构的不一致性,增强了浅层细粒度信息与深层语义信息之间的交流,简单高效。如图2所示。特征增强模块被嵌入到金字塔结构的每一层以充分提取特征并减少冗余特征。
图2 特征增强模块结构示意图Fig.2 Structure of feature enhancement module
具体而言,首先,本文利用人类视觉感知系统的相关知识,通过构建更大的感受野来结合更具判别力的特征表示,增加特征多样性。引入一维非对称卷积[28]扩展了FPN中的3×3的卷积核,即在3×3的卷积核中加入并行的1×3和3×1的矩形卷积核,利用卷积可加性将不同形状的卷积核进行元素求和,可增强方形卷积内核特征表达能力,同时获取更大感受野处理不同对象的形状,增强模型对旋转扭曲的鲁棒性,扩充细节特征,丰富特征空间。
注意,各分支卷积的输出特征图大小一致才能拼接,所以本文在卷积后加入了BN层。总体流程如下:
其中,Fi表示第i层输出的特征图,I表示输入特征图,K3×3表示3×3卷积,K1×3表示1×3卷积,K3×1表示3×1卷积。
引入1×3 的水平卷积核可以提升模型对图像上下翻转的鲁棒性,但在水平方向上缺乏对称性。引入3×1的竖直卷积核可以提升模型对图像左右翻转的鲁棒性,但在竖直方向上缺乏对称性。因此本文将三组不同卷积核和各自的批量归一化参数进行融合,增强特征表达能力。加入批处理归一化层后,输出通道变为:
其中,μ是平均通道值,σ是批量归一化的方差,γ和β是可学习的尺度和偏移。
其次,通过调节特征权重来增强目标特征通道信息,突出网络感兴趣目标的特征信息。
其次,在聚合不同感受野的特征基础上引入基于规范化的注意力模块NAM,如图3 所示。对输入特征图进行权重稀疏惩罚,根据BN中的缩放因子反应各个通道的变化,突出网络感兴趣区域的特征通道,抑制背景信息。具体来说,输入特征图经过BN层得到一组比例因子ri,在比例因子指导下计算权重Wr,经过一个Sigmoid激活函数得到最终的权重系数Mc,最后和原来的特征相乘得到一组反应通道信息重要程度的新特征。如公式(3)所示,使用批归一化中的比例因子衡量通道方差并表明其重要性。
图3 基于规范化的注意模块结构示意图Fig.3 Structure of normalization-based attention module
其中,μB和分别是最小批次B 的均值和标准差;r和β是可训练的仿射变换参数(尺度和位移)。
基于规范化的注意力模块公式如下:
其中,Mc是输出特征,r是缩放因子,F1是输入特征图,权重Wr为
值得注意的是,FPN 不同特征图的感受野是不同的,不适合使用共享权重来学习多尺度对象的定位信息。因此,本文采用独立的特征增强模块对多尺度特征的每一层进行特征增强。
遥感图像中有很多任意方向和密集排列的物体,但是通用的目标检测器都是采用一组预定义比例和宽高比的锚框均匀采样,这会导致采样的特征与任意方向的物体并不匹配。为了解决这个问题,本文设计了自适应特征对齐模块即AFM,在有向框指导下自适应的引导锚点采样,提取旋转不变特征,缓解特征与物体的不对齐问题,从而生成高质量的细化候选框。
图4 详细展示了自适应特征对齐模块的结构。该模块采用一个全卷积网络,输入特征图送入预测模块,在特征图的每个位置都会得到角度、分类得分、框的位置信息。根据预测的角度和位置信息学习有向物体锚点的偏移,然后在有向框指导下根据锚点形状调整特征采样点的位置,实现特征对齐。
图4 自适应特征对齐模块结构示意图Fig.4 Structure of adaptive feature alignment module
其中,x,y是θ的坐标,k表示卷积核大小。
其次,对位置p对应的锚框解码为(x,y,w,h,θ),r为规则网格中的向量元素R={(-1,-1),(-1,0),…,(1,1)},对于每个位置r,使用调整后的角度计算采样位置,定义如下:
其中,k表示卷积核大小,S表示特征图的步长,RT(θ)是旋转矩阵(cosθ,-sinθ;sinθ,cosθ)T,那么,当前空间位置p的偏移量O(offset)为:
从预测分支的输出中得到一组偏移量O,即基于预测锚框的采样位置和规则的采样位置之间的偏差。然后通过一个3×3的可变形卷积[29]在带有偏移量的原始特征图上进行特征对齐。不同于从规则网格的特征图上采样的可变形卷积,本文是从有向边界框中获取偏移量(18 维)。对于每一个位置向量p∈{0,1,…,H-1}×{0,1,…,W-1},一个标准的3×3 可变形卷积运算可以表示为:
其中,X、Y为输入输出特征,W为可变形卷积的核权值。
最后得到适应于物体方向的旋转卷积特征。特征对齐后采集到的特征缺乏角度信息,因此将预测模块的角度经过3×3 的卷积和对齐后框的特征信息生成细化后的有向边界框。为了在预测模块捕捉更多的信息,本文使用超参数将预测阶段的角度损失和框损失进行了缩小。
现有的两阶段目标检测器大多都共享一个检测头,对相同的输出特征进行分类和回归预测。但是分类任务和回归任务之间的冲突是一个众所周知的问题,尤其是对于遥感图像中密集排列的物体,目标间的空间错位会严重影响训练过程。受Wu 等[30]启发,本文把分类和回归进行解耦。针对遥感图像有向目标的检测,采用对空间敏感的全连接头进行分类任务,它对候选框的不同部分赋予不同的参数,可以更好地区分一个完整的对象和对象的一部分,便于进行分类。而回归问题对于边界框是敏感的,卷积头预测的边界周围的特征有利于定位精确的边界盒以及边界框的方向信息,因此采用卷积提取旋转敏感特征。
解耦检测头DHM将特征图P2~P5和一组有向候选框作为输入,对于每个有向候选框,本文使用RRoIAlign从其对应的特征图中提取一个7×7×256 大小的特征向量。由解耦检测头模块转换成两个特征向量(每个维度为1 024),分别用于分类和边界框回归。图5 展示了解耦检测头的具体过程。包含并行分类分支和定位分支。分类分支使用两个1 024的全连接层串行连接。回归分支采用四个3×3的卷积层,最后进行全局平均池化。分类和回归提取的特征是不同的,使用两个分支有利于不同检测头更多的关注各自的任务。
图5 解耦检测头模块结构示意图Fig.5 Structure of decoupled detection head module
AFR-Net网络损失是一个多任务损失,可以表述为:
Lcls与Lreg分别表示分类损失和回归损失,本文使用交叉熵损失作为分类损失,Smooth L1 损失作为回归损失。λi表示两阶段重要性权重,对预测阶段的角度损失和框损失进行缩小。通过在验证集上的实验将超参数λi设置为0.2。
此外,本文使用以下方法进行边界框的回归,公式(10)表示真实框、公式(11)表示预测框:
其中x、xa、x*分别为真实框、锚框和预测框。y、w、h、θ也是一样的。
为评估本文提出算法的有效性,本文分别在两个遥感图像公开检测数据集HRSC2016[31]和DIOR-R[32]上进行实验验证。
HRSC2016 是一个具有挑战性的高分辨率船舶检测数据集,包含任意方向大长宽比的船舶,标注为有向边界框,共有1 061 张图像。图像分辨率在0.4~2 m,图像大小范围从300×300到1 500×900。本文使用训练集(436 张图像)和验证集(181 张图像)进行训练,测试集(444张图像)用于测试。对于HRSC2016数据集上的检测精度,本文采用平均精度mAP作为评价标准,与PASCAL VOC07 和PASCAL VOC12 一致。在训练和测试时将图片大小在不改变纵横比条件下调整为800×1 333。
DIOR-R 是一个用于有向目标检测的遥感数据集,共有23 463张图像,包含192 518个实例样本,涵盖广泛的场景和20个类别,分别为飞机(APL)、机场(APO)、棒球场(BF)、篮球场(BC)、桥梁(BR)、烟囱(CH)、高速公路服务区(ESA)、高速公路收费站(ETS)、水坝(DAM)、高尔夫球场(GF)、田径场(GTF)、港口(HA)、立交桥(OP)、船舶(SH)、体育场(STA)、储罐(STO)、网球场(TC)、火车站(TS)、车辆(VE)和风车(WM)。图像大小为800×800。其中训练集包括11 725 张图像,测试集包括11 738张图像。在训练和测试时,保持原有图像大小不变。
2.2.1 实验环境
本文采用ResNet50 作为骨干网络。所有的实验都是在NVIDIA GeForce GTX 2080 Ti 上进行的。利用在ImageNet[33]数据集预训练的模型参数对网络进行初始化。本文的网络是基于Pytorch 框架,实验平台为mmdetection,版本号为2.2.0。选取SGD 作为网络优化器,动量设为0.9,初始学习率设为0.005,衰减系数为0.000 1,Batch Size 为2。对于HRSC2016 数据集,将图像的大小调整为(800,1 333),训练36 个epoch。对于DIOR-R数据集,本文保持图像大小为原始大小为800×800,训练36个epoch。
2.2.2 评估指标
本文采用广泛使用的目标检测评估指标平均精度(mean average precision,mAP)作为量化评估模型性能的标准。mAP 是指多个类别的平均精度(average precision,AP)的平均值,AP 指标是用Precision-Recall曲线下的面积来衡量的,它综合衡量某一类的准确率和召回率。每个类别都可以根据准确率(Precision)和召回率(Recall)绘制一条曲线,其在0到1区间内绘制的曲线与坐标轴所围成的面积即为平均精度,表示为AP=。其中,准确率和召回率的定义如公式(12)、(13)所示:
式中,TP代表真正例,FN代表假反例,FP代表假正例。精度Precision反映了检测器预测的正样本中TP的比例,召回率Recall反映了检测器正确预测的正样本占总的正样本的比例。
本文在训练过程中保存训练日志同时更新权重,根据损失函数对网络进行调参至最优,选择loss收敛时的权重作为最终权重,进行检测。分类损失和回归损失的加权的变化曲线如图6所示。
图6 Loss曲线图Fig.6 Loss curve
其中,训练使用ResNet50作为骨干网络在HRSC数据集上训练36 个批次共10 000 多次迭代。从图6 中可以看出,模型经过2 000 次迭代后loss 大幅下降,8 000次迭代左右loss 曲线趋于平滑,说明模型已较为收敛。因此选择训练结束时的权重进行实验。
为了更好地理解AFR-Net网络,本文分析了所提方法每个组成部分的贡献,包括FEM 和AFM。本文首先评估DIOR-R 数据集上的基线,然后逐步整合这些技术。表1 总结了实验结果,并展示了各个类别的AP 及mAP。如表1 所示,采用以下模型在消融研究中训练,基线+FEM:仅包含FEM 的基线网络;基线+AFM:仅包含AFM的基线网络。
表1 本文算法在DIOR-R数据集的消融实验结果Table 1 Ablation studies on DIOR-R dataset
为验证特征增强模块的有效性,本文在基准上嵌入FEM 模块。所有的消融实验均以ResNet50 为骨干网络,并在DIOR-R数据集上进行训练和测试。实验结果如表1 所示,嵌入FEM 模块,mAP 达到65.60%,相较于基线提高了1.19 个百分点。对于大多数物体,如棒球场、篮球场、烟囱、水坝、高速公路服务区、高尔夫球场、田径场、港口、船舶、储罐、网球场和风车检测结果都有所改善。基线+FEM 的船舶检测精度相较于基线提升了7.49个百分点,这是由于本文对低层特征和高层特征的感受野增强,并强化感兴趣目标的特征,捕捉到更精细的船舶信息,减少了漏检和误检。
为验证自适应特征细化模块的有效性,本文在基准上嵌入AFM模块。实验结果如表1所示,基准+AFM的mAP 从64.41%提升到65.53%。对于大多数物体嵌入AFM 模块精度都有一些提高,尤其是那些大型物体的类别(如储罐、网球场)。最终在基线上同时嵌入本文提出的FEM 和AFM 模块后,平均精度mAP 可以达到66.71%,相较于基线模型提高了2.3个百分点。
为进一步证明AFR-Net的有效性,本文将其与目前几种先进的遥感图像有向目标检测器进行比较。在HRSC2016数据集上,比较了FasterRCNN-O[34]、RetinaNet-O[35]、Oriented RCNN[36]、FCOS[37]、S2ANet[38]、AOPG[39]、Gliding Vertex[40]、Double Head、Roi Transformer 等方法。其中Double Head 采用PASCAL VOC07 评价标准,其余的采用PASCAL VOC07 和PASCAL VOC12 两种评价标准。表2为本文在HRSC2016数据集上与目前先进方法的对比实验。
表2 与HRSC2016数据集上先进方法的比较Table 2 Comparison with state-of-the-art methods on HRSC2016 dataset 单位:%
与其他方法相比,本文方法检测效果最优。在VOC07指标下,本文的方法达到了90.40%的mAP。在VOC12指标下,本文的方法达到了97.12%的mAP。此外,本文还给出了FasterRCNN-O、RetinaNet-O、S2ANet、Gliding Vertex、Oriented RCNN、FCOS、Roi Transformer和AOPG的查准率和查全率(Precision-Recall)曲线,如图7所示。其中与x轴围成的面积越大表明效果越好,即Precision在当前点的值越大效果越好。图中可以看出,在0.9 到1.0 之间,AFR-Net 的效果虽然效果要低于Oriented RCNN,但是整体性能来说要优于Oriented RCNN与其他模型。本文进一步可视化了HRSC2016 数据集上的检测结果,如图8所示。本文模型可以在复杂场景的遥感图像中准确地检测遥感船舶。即使对于难以检测的密集排列的狭长船舶,本文的方法仍具有良好的性能。
图7 不同方法在HRSC2016数据集查准率和查全率曲线Fig.7 Precision-Recall curves of different methods on HRSC2016 dataset
图8 本文方法在HRSC2016数据集上的检测结果样例Fig.8 Some detection results of proposed method on HRSC2016 dataset
为了验证不同超参数所带来的影响,在验证集中对损失函数中的两阶段重要性权重λi进行对比实验。以AOPG 作为基础模型,采用HRSC2016 数据集,在训练集上进行训练,验证集上验证效果,训练过程中仅改变预测阶段的超参数λi。表3为不同λi取值的效果对比,实验结果表明当λi的值为0.2 时,效果最好,因此本文将损失函数中的超参数λi设置为0.2。
表3 不同λi 取值的效果对比Table 3 Effect comparison among different λi values
本文将AFR-Net 与目前几种先进的遥感图像有向目标检测器比较后,进一步分析模型的参数量和计算量如表4所示。表4展示了每种算法参数量以及模型大小的对比,本文采用网络模型固定输入大小为3×1 280×800,以ResNet50 作为骨干网络,在相同实验环境下进行实验。其中FCOS 参数量最少,Roi Transformer参数量最多,本文在AOPG 方法上增加了特征增强等模块,相比于AOPG 方法在参数量上增加了9×105,浮点运算次数增加了2.17 GFLOPs。虽然参数量和计算量有所增加,但是在准确度上超过了其他算法。相比于其他模型,本文模型使用有限的参数量获得了更好的效果。
表4 参数量与模型大小的比较Table 4 Comparison of parameters and model size
在DIOR-R 数据集上,比较了FasterRCNN-O、RetinaNet-O、Gliding Vertex、Roi Transformer、AOPG 等先进方法。所有检测器均采用ResNet50 作为骨干网络。表5为本文在DIOR-R数据集上与目前先进方法的对比实验,其中展示了各个类别的AP及mAP。实验表明,AFR-Net在DIOR-R数据集上达到了66.71%的mAP,与其他网络相比,AFR-Net具有最佳的实验性能。在分析DIOR-R数据集特定类别的AP时,可以得出结论,其他方法的检测结果对于车辆(例如RetinaNet-O 中的38.01%)、棒球场(例如AOPG 中的71.62%)和水坝(例如FasterRCNN-O 中的18.95%)而言并不理想,本文方法在这些具有挑战性的类别上mAP 为52.21%、77.48%和31.20%。此外,与其他方法相比,本文方法在检测飞机、棒球场、篮球场、烟囱、高速公路服务区等多数类别上获得了最佳的实验结果。可视化检测结果如图9 所示。从图9中可以看出,本文方法对于大型物体的检测效果优异,例如田径场和桥梁,这归因于本文扩大感受野增强了特征定位的能力。
图9 本文方法在DIOR-R数据集上的检测结果样例Fig.9 Some detection results of proposed method on DIOR-R dataset
在本文中,针对遥感图像存在复杂背景,任意方向的特点,提出了一种新颖的自适应特征细化网络AFR-Net,其中包括特征增强模块、自适应特征对齐模块和解耦检测头。特征增强模块通过扩大感受野,增强网络感兴趣目标的特征信息提升复杂背景下的目标提取能力。自适应特征对齐模块根据目标的形状和方向自适应调整特征采样的位置,得到适应于任意方向物体的特征信息。最后采用全连接和卷积结合的解耦检测头,提取旋转敏感特征,进一步提升检测精度。实验表明,与最近提出的深度学习目标检测算法相比,AFR-Net具有先进的性能。在遥感图像公开数据集DIOR-R和HRSC2016上也进行了测试,相较于基准模型,本文方法分别提高了0.9 个百分点和2.3 个百分点,mAP 分别为97.12%和66.71%。