基于Mask R-CNN的雾天场景目标检测

2023-01-14 05:58张芯睿赵清华董旭彬
电光与控制 2022年12期
关键词:候选框透射率尺寸

张芯睿, 赵清华, 王 雷, 董旭彬

(1.太原理工大学,太原 030000; 2.中国科学院空天信息研究院,北京 100000)

0 引言

遥感图像目标检测在计算机视觉领域一直都占据着十分重要的地位。近年来,随着航空遥感技术的快速发展,我国的遥感技术在光谱分辨率和空间分辨率等方面都取得了巨大的进步。目前,高分辨率遥感图像在遥感图像目标检测方面已经得到广泛应用,高分辨率遥感图像为城市规划、环境监测等民用方面提供了非常大的便利,同时在军事作战方面也发挥着重要的作用。

随着目标检测技术的不断发展,基于深度学习的目标检测算法逐渐进入研究人员的视线[1-5]。目前,目标检测算法主要分为两类:一类是基于回归的目标检测算法,典型的有YOLOv1~YOLOv3[6-8],SSD[9],此类算法不生成候选区域,采用直接回归目标区域的检测策略;另一类是以R-CNN系列为代表的基于区域建议的目标检测算法。这两类算法都在目标识别中得到广泛应用,并且取得了不错的效果,但遥感图像成像容易受天气因素影响,图像常有云雾遮挡的现象;且遥感目标种类繁多,形状大小各异,小目标分布密集,受这两种情况的影响,检测结果会发生误检、漏检以及生成掩膜质量不高等情况。

针对上述问题,本文提出一种基于Mask R-CNN的遥感图像目标检测改进算法。

1 网络框架

Mask R-CNN[10]是R-CNN系列算法中目标识别和语义分割能力最优秀的目标检测技术之一,是在Faster R-CNN基础上开发的一种新型模型,并在其基础上做了诸多改进,如图1所示,Mask R-CNN模型的特征提取网络将特征金字塔与残差网络相结合,利用自下而上和自上而下两条路径结合多个尺度的信息来防止网络退化,并将兴趣区域池化层(Region of Interest Pooling,RoI Pooling)改为兴趣区域匹配层(Region of Interest Align,RoI Align),RoI Align 采用双线性插值法运算,结果采用浮点数的形式,解决了之前Faster R-CNN[11]中RoI Pooling两次量化所产生的区域不匹配问题,最后在输出部分增加了掩膜支路,不仅能够对图像进行分类和回归,还实现了对目标的实例分割掩膜。

2 改进的算法

2.1 雾天图像还原

为解决在雾天识别困难的问题,本文在Mask R-CNN的基础上加入去雾算法,还原出清晰的图像。HE等[12]提出的暗通道先验算法(Dark Channel Prior,DCP)在去雾中有良好的表现,但该算法计算量较大,去雾之后图像偏暗,容易发生局部过亮或局部过暗的情况,如图2所示。

图2 暗通道去雾结果Fig.2 Results of dark channel defogging

在有雾图像中,雾气浓度分布往往是不均匀的,因此,本文根据文献[13],利用有雾图像颜色衰减先验原理,提取图像在HSV空间亮度分量V(x)和饱和分量S(x)的关系,定义了一种自适应雾浓度分布模型,其表达式为

G(x)=θ0+θ1V(x)+θ2S(x)-εg(x)

(1)

g(x)=edge(I(x))

(2)

式中:θ0=0.121 779;θ1=0.959 710;θ2=-0.780 245;ε为纹理系数;g(x)为Canny算子检测得到的雾气浓度纹理分布;edge(·)为检测函数;I(x)为已知的有雾图像。

根据本文提出的自适应雾浓度分布模型,采用局部大气光估计,区分明暗区域修正大气透射率,改善因大气光估计和透射率估计不准确导致的颜色失真与偏移,并且减少算法计算量,尽可能保证目标检测运算速率[14]。

2.1.1 修正透射率

HE等提出的暗通道先验方法是利用暗通道先验信息粗略估计透射率,再使用软抠图算法对透射率细化,计算量大,消耗的时间过长,本文采用导向滤波优化透射率,再利用容差机制对透射率修正,引入容差阈值M进行判别。将大气透射率重新定义为

(3)

2.1.2 优化大气光估计

在图像去雾时,大气光估计不准确会导致去雾之后图像产生局部过亮或局部过暗的问题,因此本文采用局部大气光估计,相较于全局大气光估计更加准确。具体方法是首先提取图像HSV空间的亮度分量,选取两个不同尺寸的圆形滤波核,做形态学闭运算,结果使用交叉双边滤波进行平滑处理,防止大气光存在的局部过亮问题。形态学闭运算如下

A1=close(V(x),C1)

(4)

A2=close(V(x),C2)。

(5)

滤波核半径分别为C1=min(W,H)/10,C2=min(W,H)/20,单一尺度的滤波核很难适应亮度特征不同的图像,因此本文设计两个不同尺寸的形态滤波核,其中,W,H分别为有雾图像的宽和高,最终得到的大气光表达式为

(6)

2.1.3 图像还原

在图像处理领域中,有雾图像数学模型被定义为

I(x)=J(x)t(x)+A(1-t(x))

(7)

式中:I(x)为接收到的有雾图像;J(x)为去雾之后的清晰图像;t(x)为大气透射率;A为全局大气光。

利用文献[12]暗通道先验理论,将上述修正后的透射率及大气光值代入式(7)模型得到去雾之后的清晰图像J(x),即

(8)

为防止透射率过小、去雾后图像泛白,所以为透射率t设置了一个下限t0,取t0=0.1,当t

2.2 改进的特征金字塔结构

传统的特征金字塔网络都是由人工设计的,通过卷积层堆叠和不同分辨率大小特征层融合为目标提供更好的特征提取网络,Mask R-CNN中的特征金字塔只融合了更深层次的特征,对其他层次的特征并没有充分融合,并且在信息传递的过程中特征信息会有所流失,这样的网络结构并不能达到最优的效果。因此,本文使用神经架构搜索(Neural Architecture Search,NAS)[15-16]的方式,如图3所示,利用循环神经网络(Recurrent Neural Network,RNN)作为控制器。在训练过程中将不同网络结构的精确度P作为反馈信号反馈给控制器,并更新控制器中的网络结构和精确度。通过不断迭代实验,从而得到一个最优的特征组合方式。

图3 神经架构搜索Fig.3 Neural architecture search

运用上述方式改进后新的特征金字塔结构示意图见图4,本文采用ResNet101作为主干网络,其中,R-C-B表示ReLU-Conv-BatchNorm,{P2,P3,P4,P5,P6}是由ResNet101输出的不同尺度的特征层,经过重新融合之后得到与P2~P6尺寸相同的特征映射图{N2,N3,N4,N5,N6},在两个特征层尺寸不同的情况下采用全局池化(Global Pooling,GP)统一分辨率之后逐像素点相加。改进后新生成的特征映射图融合了更多层次的语义信息,图像纹理信息保留更加完整,其具体操作如图5所示。

图4 改进后的特征金字塔结构示意图Fig.4 Schematic diagram of the improved feature pyramid structure

图5 操作流程图Fig.5 Flow chart of operation

2.3 改进区域建议网络

考虑到遥感图像中目标种类不同,大小各异,每个特征图上生成固定尺寸、比例的anchor会造成定位偏移或漏检现象。因此,本文调整anchor的大小,对不同深度的特征映射图生成不同尺寸的建议区域[17]。如表1所示,N2,N3特征图尺寸相对较大,小目标特征表现明显,所以在这两层的特征图上分别增加了小尺寸的anchor,N5,N6特征图尺寸较小,因此只生成两种尺寸偏大的anchor,并将N6层的滑动窗口调整为5×5,以适应大目标的检测,其余层的滑动窗口保持不变。

表1 各层anchor框尺寸Table 1 Dimensions of anchor boxes on each layer

调整anchor大小后,每个尺寸的anchor仍然会生成对应3种比例(1∶1,1∶2,2∶1)的anchor,其中,势必也会生成大量重叠冗余的候选框,Mask R-CNN网络使用非极大值抑制(NMS)直接过滤得到得分最高的候选框,而遥感图像中的目标分布较为密集,并且所占像素较小,采用NMS筛选候选框会导致密集目标的漏检情况,因此本文选择Soft-NMS筛选候选框,利用线性函数抑制重叠候选框的得分,提升模型的召回率,即

(9)

式中:Si为检测得分;M为最大得分检测框;bi为其余候选框;μ为IoU阈值。

3 实验结果与分析

3.1 实验设计

实验数据由DOTA数据集[18]以及国内研究机构制作的同视场环境下GF-2卫星拍摄的遥感数据组成,总计5000张,包含飞机、轮船、储罐、棒球场、网球场、桥梁、车辆等15类目标,平均每张图像中大约含有7个目标,图像尺寸从800像素×800像素到4000像素×4000像素不等,涵盖了雾天和正常天气状况的遥感图像,并使用Labelme对图像目标进行标注,实验所用的硬件环境如表2所示。

表2 实验环境Table 2 Lab environment

实验将各个改进的策略与Mask R-CNN相结合并进行对比实验,分析各个方案的效果以及可行性,最后调整各个方案并分别与Mask R-CNN结合,对整体的算法进行测评,与其他深度学习目标检测算法进行比较。在对本文改进后的Mask R-CNN算法进行训练时,卷积层采用ReLU激活函数,学习率由0.001逐渐降低为0.000 01,衰减系数设为0.95,最大迭代次数设为4000。

3.2 实验结果对比

将大约5000张数据集图像随机划分,80%作为训练集,20%作为测试集。使用目前较主流的目标检测算法分别对有雾图像和清晰图像进行实验,并进行比较,实验选取平均准确率均值(mAP)和检测速率作为评价指标,实验结果如表 3所示。

表3 不同算法的检测结果Table 3 Detection results of different algorithms

从表3中可以看出,YOLO,SSD这类基于回归的一阶段目标检测算法由于不需要生成建议区域,因此检测速率快,但是在检测精度上不如Faster R-CNN,Mask R-CNN和Cascade R-CNN算法。本文算法的检测精度均优于其他几种传统目标检测算法,同时也优于YOLOv4 tiny,YOLO X这类最先进的轻量化算法,相较于原始Mask R-CNN算法,对清晰图像和有雾图像的检测精度分别提升了5.37%和18.71%,在加入去雾算法之后,有雾图像的目标检测精度得到了明显提升,由于增加额外计算量,检测速率稍有下降,但基本不影响实际检测需求。

3.3 雾天场景检测实验结果

雾天场景的检测实验结果如图6所示。

图6 加入去雾网络的检测结果Fig.6 Detection results with the addition of defogging network

由图6(a)~6(c)可以看出,图6(a)雾天图像成像对比度低,图6(b)直接用Mask R-CNN算法检测效果较差,很容易造成误检和漏检的情况。图6(c)在加入暗通道算法去雾之后,虽然检测结果得到了改善,但暗通道去雾之后图像整体偏暗,造成的图像失真现象会导致识别误差。图6(d)为本文算法检测后的结果,改进后的算法有效改善了暗通道先验方法去雾之后图像偏暗和失真的情况,图像还原得更加真实,并且识别出的目标轮廓信息更加清晰,掩膜更加完整,减少了漏检和误检的情况发生。

从主观角度可以直观地看出,本文算法有效改善了暗通道去雾之后局部过暗或过亮的情况,但为了进一步验证本文算法的有效性,从客观角度出发,实验选择新增可见边e、峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标,对应的数学表达式分别为

(10)

(11)

(12)

与原本HE暗通道先验算法对比实验结果如表4所示,随机选取不同类别的200张图像作为测试集,并取这200张图像的均值作为最终评价标准,综合分析以上3种评价指标,从表4可以看出,本文算法均取得了更加理想的效果。

表4 基于暗通道去雾的优化算法对比Table 4 Comparison of optimization algorithms based on dark channel defogging

3.4 基于Mask R-CNN的优化算法对比

为进一步验证本文改进策略的有效性,选取清晰无雾的图像对改进前后的Mask R-CNN算法进行分析,结果如表5所示。

表5 基于Mask R-CNN的优化算法对比Table 5 Comparison of optimization algorithms based on Mask R-CNN %

实验以Mask R-CNN为基础,分别加入不同改进策略分析各个策略对Mask R-CNN检测结果的影响,从表5中可以看出,本文对特征金字塔以及区域建议网络改进之后mAP和召回率均有提升,这是由于改进后的特征金字塔结构优化了特征信息的传播路径,使各个尺度的特征信息得到充分利用,减少图像纹理信息的流失。并且,改进之后的区域建议网络针对不同尺度的特征映射图设计不同尺寸的anchor并且使用Soft-NMS筛选候选框,抑制重叠候选框的得分,使目标回归更加精准,有效提升了模型的召回率。

对比改进前后图像可以直观地看出,原本Mask R-CNN算法由于特征金字塔信息在传递过程中流失严重,生成的掩膜质量较差,候选框回归有所偏差;如图7所示,改进后Mask R-CNN算法检测结果更加精确,生成的掩膜在细节上表现更好、质量更高,区域建议网络中生成的多尺度anchor尺寸能够适应不同大小的目标,定位也更加准确。

图7 基于Mask R-CNN的优化算法的清晰图像检测结果Fig.7 Detection results of clear images based on optimited Mask R-CNN

4 结束语

针对目前遥感图像目标检测中所存在的问题,本文采用改进的 Mask R-CNN 算法对遥感图像目标检测进行研究,在Mask R-CNN网络中加入了一种基于暗通道先验的去雾网络,并对其中的透射率以及大气光值进行了优化,防止暗通道算法去雾之后图片失真现象,该网络解决了雾霾天气时识别困难的问题,本文改进了特征金字塔结构,使得各个尺寸特征信息得到充分利用,并且调整了区域建议网络中锚框的尺寸,使目标的分类、回归更加准确,与目前多种目标检测算法相比较,本文的检测结果更加优秀,准确率更高。在后续研究中,将致力于优化卷积神经网络,提升目标检测的精度和速率。

猜你喜欢
候选框透射率尺寸
噪声对相干衍射成像重构物体图像的影响
面向自然场景文本检测的改进NMS算法
CIIE Shows Positive Energy of Chinese Economy
基于深度学习的重叠人脸检测
基于单帧标注的弱监督动作定位
一种针对特定目标的提议算法
D90:全尺寸硬派SUV
图像去雾中的大气光强度自适应恢复算法研究
电流变液光学性能的研究
佳石选赏