改进Mask R-CNN在航空影像目标检测的研究应用

2021-04-23 04:30:46董旭彬赵清华
计算机工程与应用 2021年8期
关键词:滑动尺度卷积

董旭彬,赵清华

太原理工大学 信息与计算机学院&新型传感器和智能控制教育部(山西)重点实验室 微纳系统研究中心,太原030600

航空影像对地目标检测技术在国防领域受到高度重视,通过卫星部署高分辨率成像传感器,采集包括可见光在内各个波段的大视场影像,主要用于情报监视和侦查。传统的航空影像目标检测方法有基于灰度统计的检测[1]、基于几何特征的检测[2]以及基于模型的匹配检测[3]等方法,这些方法普遍存在人为设计模板、鲁棒性差和泛化能力低等问题,难以做到对目标快速精准地识别。

2012 年Krizhevsky 等人[4]提出AlexNet 网络用于图像分类任务,性能表现优异,自此以卷积神经网络(Convolutional Neural Network,CNN)为原型产生的各种深度学习方法被广泛用于目标检测。目前基于深度学习的目标检测方法大体分为两类,一类是以Fast RCNN[5]、Faster R-CNN[6]、R-FCN[7]为代表的基于候选区域的区域卷积神经网络(Regions with Convolutional Neural Network,R-CNN),另一类是以YOLO[8]、SSD[9]、Retina-Net[10]为代表将目标检测这种分类问题转换为回归的形式去求解的一体化卷积网络。

1 相关工作

一体化检测算法速度明显优于基于候选区域的检测算法,但检测精度逊于后者[11-12]。随着技术的普及,不少学者将上述深度学习方法应用于航空影像目标检测,文献[13]将改进的R-FCN用于检测遥感图像中的飞机,取得了较好的检测结果。文献[14]将深度置信网络和CNN 相结合,构建用于搜寻航空影像中飞机位置的模型,实现了特定化高精度实时检测。文献[15]针对空中目标成像特点对Faster R-CNN 进行改进,弥补了对弱小目标和被遮挡目标不敏感的缺陷并提升了检测精度。以上研究表明,基于候选区域的算法是目前航空影像目标检测的主流方法,尤其是Faster R-CNN 被广泛应用。但上述学者均未对航空影像中的小目标检测进行深入研究,要想高效地完成检测,往往需要在大视野和较低分辨率下进行,目标尺度常为小型,因此针对小目标的检测研究十分重要。Faster R-CNN 虽然在小目标检测上比一体化算法精度更高,但存在网络退化、单一尺度的特征提取,定位框误差大等问题。2017年何恺明等[16]在Faster R-CNN 的基础上推出改进版的算法Mask R-CNN,诸多学者又在其基础上进行了改进,但将其运用在航空影像的目标检测性能提升不明显或者不具有泛化性,如文献[17]将Mask R-CNN中非极大值抑制方法用软极大值抑制的方法进行替换,虽然处理速度上得到了些许提升,但精度和原始算法持平;文献[18]改进了特征金字塔增加反向侧边连接的支路,虽然更好地利用低层信息,但送入后续网络的特征依旧是从支路中选择的单一尺度特征,缺乏对不同尺度特征的针对性利用,在处理多尺度目标丰富的航空影像时,精度提升效果不显著。

为解决在实际应用中的问题,本文针对Mask R-CNN算法进行改进,使其在检测航空影像中各尺寸目标的性能都得到提升,尤其是在小目标检测上有较大改善。

2 Mask R-CNN原理

Mask R-CNN 是在Faster R-CNN 的基础上加入诸多改进,结构如图1 所示;将特征提取网络的主干从VGG 改为残差网络(ResNet),并采取特征金字塔网络(Feature Pyramid Network,FPN)的结构搭建,在解决网络退化的同时加入了多尺度信息;兴趣区域池化阶段采用兴趣区匹配层(Region of Interesting Align,Rol Align)替换Rol Pooling,利用双线性插值法进行兴趣区域的池化,解决了池化时四舍五入取整所造成的量化不匹配问题,提高了定位精度;还能生成检测对象的高质量掩码,从而实现分割的效果。

2.1 特征提取网络

Mask R-CNN 的特征提取网络分为自下而上和自上而下两个路径。自下而上的路径是由不同尺寸的残差结构组成的模块,负责对图像进行特征提取。以ResNet-101 为例,如图2 所示,残差模块记为C1、C2、C3、C4、C5,每个模块的输出包含不同层次的特征信息,模块之间通过残差结构第一层步长为2的卷积,使模块输出映射图的尺寸自下而上逐模块减半。自上而下的路径将强语义信息的抽象特征和低层细节特征融合,通过将高层特征映射图2 倍上采样还原成与自下而上支路特征映射图对应的分辨率,并与其逐像素点相加,经过3×3 的卷积得到新的特征映射图P1、P2、P3、P4、P5,使得高层语义信息在映射图像更好地体现。

2.2 区域建议网络

区域建议网络采取锚(Anchor)的方式在特征图上计算物体候选框的位置,Anchor 生成原理如图3 所示,在特征图上设置n×n的滑动窗口,生成与特征图中每个点相对应的k个同中心的初始建议区域;为适应各种尺寸的目标,Anchor 被设置为3 种面积大小以及3 种长宽比例,共9 种尺寸,因此k=9。然后利用滑动窗口对特征图进行卷积,经过中间层分别输入由全连接网络构成的分类层与回归层,来描述Anchor的位置类型信息。

分类层输出2k个前后景概率值,回归层输出4k个坐标值。RPN根据回归计算出的修正值对每个Anchor的长、宽和中心进行修正,修正后的候选区经过筛选送入后续网络。

图1 Mask R-CNN流程图

图2 特征提取网络结构图

图3 区域建议网络结构

2.3 兴趣匹配层

ROI Align 将候选区域从特征图中裁剪出来,并将其池化成7×7和14×14的特征图,这两种尺寸分别为目标分类定位和掩码生成阶段的指定输入尺寸,具体操作如图4所示;首先对候选区域的边界保持浮点状态不做量化处理,然后将其分成k×k个边缘不做量化处理的单元,最后对每个单元进行四等分并找到四个中心,用双线性内插的方法计算出这四个位置的坐标值,之后进行最大池化操作。ROI Align从而将整个特征聚集过程由离散转化为连续的操作,解决了ROI Pooling 操作中两次量化不匹配造成误差的问题。

图4 兴趣匹配过程

2.4 分类边界框及掩码生成

分类边界框及掩码生成过程如图5所示,分类和边界框的生成依靠核为7×7,通道数为256 的卷积层将特征映射图展为一维向量,再通过两个1 024 维的全连接层完成分类和回归。掩码的生成是先经过5层核为14×14,通道数256的卷积层,再利用2×2的反卷积将特征图尺寸扩充28×28,最后再经过卷积和激励函数,得到掩码特征图,此时图中每个点代表候选类别形状的前后景置信度,用0.5作为置信度阈值获取目标形状掩码,最终将预测的掩码放大到与ROI边框同尺寸。

3 改进Mask R-CNN网路结构

尽管Mask R-CNN 的检测性能是目前世界顶尖水平,但直接将Mask R-CNN用于航空影像的目标检测会存在诸多弊端,主要存在的问题有3个:

图5 兴趣匹配过程

(1)目标遮蔽问题

航空影像的目标检测会受到光照、云雾和遮挡等多种因素的影响,诸多学者对高曝光与云雾环境下的目标检测做出深入研究,但对障碍物遮蔽(例如树木、阴影的遮挡)所导致的检测性能下降问题,并没有深入研究,目标被遮蔽会导致漏检和精度下降,如图6所示。

图6 障碍物遮蔽下检测性能

(2)特征映射图利用不充分

尽管FPN在检测多尺度目标上有良好表现,但侧边连接仅增强了路径中低层特征的语义表达,而送入到RPN 网络是从路径中选择出的单一尺寸的特征映射图。这样的结构存在两个潜在问题:其一低层特征包含丰富的位置信息,但最高层和最低层之间信息流动的路径太长,增加了获取精准定位信息的难度,导致如图7(a)~(c)所示,原始信息在深层卷积网络中逐步流失,最高层中的边缘和纹理特征损失严重;其二最终送入RPN 的单一尺寸映射图,它所携带的特征信息主要来自于本层和高层,这样设计一定程度上忽视了更低层级信息,没能充分糅合利用各尺度特征信息,导致检测精度降低。

图7 特征映射图可视化

(3)建议区域位置提取不精准

如图8 所示,航空影像中可能存在多种尺度的目标,尽管RPN 利用滑动窗口生成共9 种初始建议区域,但建议区域的生成只在一种深度的特征映射图中进行,导致Anchor 无法涵盖所有待检测目标的尺度要求,生成的目标框与真实边框差距过大,造成对建议区域位置的提取不够精确,最终产生漏检和定位偏移的现象。

图8 anchor与实际定位的偏差

图9 改进后的Mask R-CNN总体框架图

图10 红外和可见光图像融合网络结构

为解决上述问题,本文对Mask R-CNN进行针对性改进,改进后的结构如图9所示。首先增加图像融合网络,如图9(a)所示,将红外图像和可见光图像进行融合,充分发挥红外成像穿透力强的特点,同时弥补其分辨率低、对比度差和视觉模糊等缺点,解决了目标被遮蔽影响检测的问题。然后通过在特征金字塔结构中增加自下而上的支路,如图9(b)所示,改善了信息传递的路径,生成新的特征映射图,充分融合了低层位置信息和高层语义信息。最后提出了SD-RPN结构,在不同深度的特征图生成不同类型目标的建议区域,如图9(d)所示,使后续网络得到更精准的建议区域。

3.1 红外和可见光图像融合网络

为实现良好的融合效果和速度,利用CNN 进行图像提取特征和融合重构的方法被广泛使用,但大多数提取信息的方法过于简单,无法提取出深层特征信息,同时融合重构时会丢失中间层特征信息,导致融合的结果失真。因此本文在以参考文献[19]所设计的融合思路为基础,利用深度可分离卷积层和残差块重新设计了编码器和解码器的结构,在简化计算复杂度的同时使更多深层特征进入融合层,该网络主要由三部分组成:编码器、融合层和解码器。编码器从卷积结构被替换为两层深度可分离卷积层和残差块(C1,Residual Block,C2)对两种图像进行特征提取,在简化计算复杂度的同时使更多深层特征进入融合层;融合层将提取到的红外特征A1m和可见光特征Am2运用L1-norm 相似度融合策略进行融合,将两种图像特征整合为含有显著特征的映射图f m;解码器利用4 层深度可分离卷积层对融合后的特征进行图像重构,最终得到融合结果Yfused,融合网络如图10所示。

融合层的融合策略是先将特征图Amk通过L1 范数(L1-norm)得到初始活动水平图Ck并利用平均算子计算最终活动水平图,然后将运用归一化计算出初始权重wk,通过计算两种光谱图像的相似度S,依据相似度选择融合规则,最后得到融合特征f m,融合过程如图11所示,详细步骤如下所示。

图11 融合策略图

(2)然后利用基于窗口的平均算子计算最终活动水平图,使得融合具有鲁棒性。

其中r决定窗口大小,在本文的算法中,由于航空影像中小尺度目标丰富,采用较小的r虽然会减弱特征信息的相关性,但体现了更多的细节效果更好,因此本文选取r=1。

(3)根据活动水平图,通过softmax计算初始权重图wk。

(4)通过初始活动水平图Ck,来计算相似度S。

(5)根据相似度S选择融合规则,得到融合特征f m。

当S(x,y)≥T时:

当S(x,y)<T时:T为阈值,经过验证,T=0.6 时融合效果最好。(i,j)表示位置坐标,A1k:M(i,j)是一个M维向量,表示特征图(i,j)位置处Amk的取值。

3.2 改进特征金字塔结构

为缩短低层特征传递到高层映射的路径,减少传递过程中的信息流失,同时尽可能充分利用各层特征信息。本文对原始FPN结构进行改进,增加自上而下兼具侧边连接的支路,如图9(c)所示。它将下层高分辨率特征Ni和上层高分辨率特征Pi+1相结合,生成更充分融合低层位置信息和高层语义信息的新特征图Ni+1。具体步骤如式(7)和图12 所示,首先利用核为3×3 步长为2的卷积对Ni进行尺寸缩减得到,得到与Pi同分辨率的特征映射图,然后利用侧边连接将得到的特征映射图与Pi逐像素点相加,再经过3×3 步长为1 的卷积得到新的特征映射图Ni+1,以上所有卷积操作的通道数都为256,新生成的特征图N2~N5充分融合高层和低层特征。

图12 具体操作

3.3 改进区域提案层

尽管上述两种改进方法有效地提高了各尺度目标的检测精度,同时减少漏检的现象。但没有完全解决RPN 提取位置不够精准,小目标的定位还存在一定程度上偏差,如图13所示。

图13 上述两种方法改进后的结果以及存在的问题

针对此问题,本文提出一种尺度依赖建议网络(Scale-Dependent RPN,SD-RPN)。通过分析数据集中各类目标的尺度信息,将目标依据尺度划分为小型、中型和大型三类,利用3条支路分别在不同深度的卷积层输出(N2、N3和N4)上设置大小适合的滑动窗口,分别对三种尺度类型目标进行建议区域的生成。最后将产生的建议区域进行池化,分别送入3个检测子网进行后续的分类、回归和掩码生成,最后将结果汇总融合并反馈到原始图像,具体如图9(d)所示。

3.3.1 目标尺度划分

SD-RPN 是在不同深度的卷积层生成不同尺度类型目标的建议区域,因此需要将目标按照尺度进行划分。以本文实验所用VEDAI 数据集为例,将数据集涵盖的9 种目标按尺寸划分为小型、中型和大型三类,如表1所示,使SD-RPN分别在N2、N3和N4层,完成三类目标建议区域的生成。

表1 目标尺度划分

3.3.2 理论RF与修正RF

滑动窗口和anchor 的设计是提高建议区域质量的关键。感受野(Receptive Field,RF)是特征映射图中某点或某区域对应图像映射区域的范围,设置anchor要严格对应感受野,anchor 与感受野差距过大,会导致定位框无法回归修正到真实边界,严重影响检测性能,因此本文将RF用作设置滑动窗口的重要参考指标。

RF的大小与经过卷积核和池化的大小与步长有关,映射图中像素点的RF 随着网络深度的加深而增大,计算理论感受野(Theory RF,TRF)需要自上而下逐层计算。

其中,TRFl和TRFl+1分别为第l和第l+1 层特征映图上任意点或区域理论感受野大小,和分别为第l+1 层卷积核或池化的步长和大小。

以Resnet-101 网络为例,将网络参数代入式(8),得到N2、N3和N4层中点或区域的TRF,如表2 所示。Luo等[20]和Zhou等[21]研究表明,实际感受野是卷积特征与映射区域关系最紧密的区域,其小于TRF,随着卷积深度的增加,二者的差距逐渐增大。二者成非线性关系,除与卷积层和池化大小和步长有关,还与激励函数和训练饱和度有关,充分训练后的残差网络,二者的比值接近于,p为经过池化的次数。因此本文采取修正系数对TRF进行修正,得到N2、N3和N4层特征图中点或区域的实际感受野(Modify RF,MRF),如表2所示。

表2 TRF和MRF

3.3.3 滑动窗口与anchor的设计

检测子网络具有处理大于自身TRF 范围建议区域的能力,但如果输入的anchor 远大于TRF,会出现定位误差过大的现象。本文设置滑动窗口与anchor 的原则是先依照目标尺度确定Sanchor,然后通过TRF 与MRF为约束反推滑动窗口大小,即利用最大感知与最有效感知范围来限制滑动窗口,小型目标的滑动窗口的选择优先考虑anchor的MRF,采用更有效的RF提升RPN对小目标定位准确度;对于大目标优先考虑anchor 的TRF,采用更大的RF获取更广泛的区域;中型目标要兼顾anchor的TRF与MRF,网络中第l层卷积层上滑动窗口的设计规则如式(9)所示:

其中,MRFln×n和TRFln×n分别表示第l卷积层上n×n滑动窗口的修正感受野和理论感受野,Sanchor为该n×n滑动窗口对应的anchor尺寸。

3种类型的anchor分别由N2、N3和N4层的滑动窗口产生。由于N2层的特征图较大,为减少计算量,该层只设置1种尺度的滑动窗口,N3和N4层设置2种尺度的滑动窗口。同时,根据表1 中对各类目标的尺度划分,本文对anchor的尺寸设置如下:

由于anchor的中心对应滑动窗口的中心,因此滑动窗口的大小一般设置为奇数。当n取不同大小时,N2、N3和N4上n×n滑动窗口的TRF 和MRF 以及其与Sanchor的关系,如图14 所示。根据图14 并按照式(9)所示的设计原则,N2、N3和N4层滑动窗口大小和步长的设计结果如表3所示,为减少计算量,滑动窗口在N2层的步长设为2,其他层步长均设置为1。

表3 各层滑动窗口大小及步长

4 实验结果与分析

为验证算法有效性,本文利用VEDAI 航空影像[19]作为数据集,使用python语言在PyCharm进行代码的编译,如图15 所示。对主流目标检测算法、Mask R-CNN和本文算法进行对比实验。VEDAI数据集是将原始大视场卫星航拍图像分割成1 024×1 024 pixel的图像,包含各尺寸类型的目标、背景和混淆对象等。本文选取数据集中car、vans、pickup、truck、fighter、boat、airplane、factory 和house 共9 种目标进行训练和测试,硬件环境如表4所示。

4.1 网络训练

图14 n×n滑动窗口的TRF与MRF

图15 软件环境展示

表4 训练和测试环境

本文算法在训练过程中,分别选用不同的激励函数,并采用随机梯度下降法优化模型,训练结果如图16所示。为使损失函数达到理想收敛效果,训练采用变学习速率,初始阶段学习率设为5×10-4,衰减系数为0.95,当训练迭代次数分别为2×104和3×104次时,将学习率分别降为1×10-4和1×10-5,最大迭代次数为4×104次;为加快收敛同时防止过拟合,设置动量因子为9×10-1,正则化权重衰减系数为1×10-4。实验结果表明,选择sigmoid为激励函数时,损失函数很难收敛,而其余函数损失函数收敛的值都达到0.01左右,但elu的收敛速度稍快,因此本文在卷积层上选择elu作为激励函数。

图16 不同激励函数的损失函数曲线

为取得最优的检测性能,分别选取残差网络的五种不同结构作为特征提取的主干网络进行训练,结果如图17 所示。以Resnet101 为主干网络时平均准确率均值最高,因此本文选取Resnet101 作为特征提取网络的主干网络,表5 详细列出了以ResNet101 为主干网络的特征提取网络结构参数。

图17 不同残差结构的损失函数曲线

4.2 框架性能分析比较

从VEDAI 数据集中选取900 张图片对原始网络和本文改进网络训练,使用100 张图片进行测试,平均每张包含6个目标,训练集和测试集涵盖小中大三类尺度目标,每种尺度又包含3种物体类别。同时使用主流目标检测算法作对比实验,选取平均准确率均值(mAP)作为衡量模型精度的指标,每种目标都可以根据召回率(recall)和准确率(precision)绘制一条曲线,准确率均值(AP)就是该曲线下的面积,如式(10)所示,而mAP是多类目标的AP平均值。

同时本文采用每秒帧率(Frame Per Second,FPS)用来评估检测的速度,即每秒可以处理的图片数量。实验性能结果如表6所示。

表6显示,本文改进后的算法检测各型目标的mAP值比原始网络平均提高2.98个百分点,且相对于其他主流目标检测算法有显著提升,尤其小目标检测的精度显著提高,平均提升8.32个百分点。本文算法虽然极大提升了精度,却额外增加了计算量,在平均检测速度上相比主流算法有一定劣势,检测速率稳定在4 frame/s,完全可以满足大视野场多光谱航空影像的检测需求。

4.2.1 采用不同策略训练网络时的效果

为进一步验证本文改进方法的有效性,使用不同策略对算法训练和测试,效果如表7所示。

从表7 中可知采取不同改进策略对Mask R-CNN检测性能的影响,通过策略5 与策略1、策略3 与策略1和策略2 与策略1 相比较,平均准确率均值分别提升1.47个百分点、0.8个百分点和0.83个百分点,可证明三种改进策略的有效性。同时策略2与策略1、策略4与策略2 和策略8 与策略4 相比,平均准确率均值分别提升0.83个百分点、0.85个百分点和1.3个百分点,可以证明将三种改进策略结合一起可有效发挥每种改进策略的功效,且互相不受影响。

4.2.2 可见光与红外融合网络效果分析

为验证本文融合网络的效果,本文从主观视觉效果和客观数值评价两方面验证,主观视觉效果如图18 所示,图中展示了融合过程中各阶段详细的仿真实验结果,其中图(a)到图(e)展示了融合网络从图像的提取特征到特征融合再到图像重建的完整过程,通过将图(e)融合重建后图像与图(a)原始两种光谱图像比较,融合重建后的图像既保留了较多的纹理细节和背景信息,同时也很好地获取到被遮蔽的红色小车的特征信息。通过图(f)融合改进后的检测结果和图(g)原始检测结果相比较,利用融合重构后的图像可以有效地检测被树木阴影遮蔽的目标。

表5 以ResNet101为主干网络的特征提取网络结构参数

表6 不同框架的性能评估

表7 使用不同策略的网络测试效果

本文从测试集中随机选取10 组图像,分别对本文方法和文献[19]原始方法,以及文献[22]、文献[23]、文献[24]三种传统融合方法进行实验,同时分别选取多个评价指标对最终融合的结果进行客观数值评价,主要包括:图像熵(EN)、结构相似性(SSIM)、相关系数(CC)、用时(T)。其中,图像熵用于衡量图像包含的信息量,结构相似性用于衡量融合图像相较于红外图像与可见光图像的失真和信息损失,相关系数表明了融合结果与源图像的线性相关度,具体数值比较如表8所示。

图18 可见光与红外融合检测结果

表8 实验结果客观评价指标

从表8可以看出,本文方法和文献[19]在图像熵、结构相似性、相关系数这三个融合评价指标上明显优于其他传统融合算法。在处理速度上,本文方法和文献[19]的融合方式是基于卷积神经网络并采用CUDN 并行加速计算,与传统融合方式相比具有极大优势,本文方法是在文献[19]的基础上采用深度可分离卷积网络缩减了卷积计算中参数的数量,在保持融合效果的同时减少了近一半的计算时间。因此本文采用的图像融合的改进策略,实现了快速有效的图像融合,解决了被树木阴影遮蔽的目标的检测问题。

4.2.3 改进特征金字塔效果分析

本文通过将FPN 的输出可视化来分析改进特征金字塔的效果,如图19所示,第一行为未改进输出的特征映射图P2~P5,第二行为增加新支路后的FPN特征映射图N2~N5,第三行为改进前后检测的实际效果。通过对比发现,N2~N5比P2~P5中包含更丰富的特征信息,特征图的纹理和边缘细节体现得更丰富准确,这是由于改进后的FPN优化并缩短了特征传播的路径,使低层位置信息与高层语义特征更好地融合,从而使小目标在检测过程中得到更多信息,提升了中、小目标的识别精度,如表6 和图19 中小车漏检现象的消失所示。同时大目标在特征图中边缘细节更加清晰,使得定位的回归和掩码的生成更加精准,如第三行(d)中房子的掩码质量的提升。

图19 特征映射图可视化

图20 采用SD-RPN后检测结果

4.2.4 采用SD-RPN效果分析

为比较采用SD-RPN结构对检测性能的提升,本文对大中小三类目标的检测效果进行比较,从图20 所示的实际检测效果可知,采用SD-RPN 后,由于生成的建议区域质量更高,减小了后续检测子网在目标的定位回归难度,使各尺寸目标的定位精度得到提高,同时生成的掩码质量更高,尤其是在小型目标的检测效果提升尤为明显。

从数值角度分析,若建议区域与标注框的大于0.7,则认为该建议被成功召回,将RPN产生排名前300的建议区域送入后续网络,当建议区域的数量均设置为300时,本文采用召回率(recall)比较SD-RPN 与原始RPN对各尺度目标预选能力进行比较,召回率公式如式(11)所示:

其中,TP为预测正确的数量,FN为漏检的数量,它主要反映网络的查全能力,结果如表9所示。

表9 SD-RPN与RPN建议区域各尺度目标的召回率

从表9 可知,SD-RPN 在处理各分支与该分支所在特征图滑动窗口所对应anchor尺度相匹配的目标时,具有较高的召回率,而对与该分支对应anchor尺度差异较大目标的召回率较低。这是SD-RPN 在训练不同分支时,基本只采用了满足本层尺度的训练样本。对于大目标的召回,SD-RPN 相比RPN 并没有大幅度提升,但对中、小型目标,SD-RPN召回率明显高于RPN,且目标尺度越小,二者召回率的差距越明显,尤其是对尺度小于36的小目标的召回率存在明显差距(约8%)。主要因为对小目标而言,低层特征远比高层特征包含的信息更具价值,因此SD-RPN比在单一特征映射图生成建议区域的RPN 具有更加优秀的查全能力,可以获得更精准的建议区域,并有效减少漏检的发生。

5 结束语

本文从实际应用角度出发,提出改进的Mask RCNN 算法用于航空影像目标检测,通过增加图像融合网络,将可见光和红外光图像融合进行预处理,解决被遮蔽目标检测困难的问题;采用改进特征金字塔结构,优化特征信息传播路径,充分利用各层特征信息,使输出的特征映射图包含的信息更加准确丰富;同时提出SD-RPN 在多个卷积层上分别进行不同尺寸类型目标的建议区域生成,有效地解决了建议区域位置提取不精准的问题,各尺度目标检测性能得到提升,尤其是小目标的定位精度得到了大幅提高。本文分别从理论和实验角度阐述验证方法的有效性,实验结果表明算法性能提升显著,但复杂度有少许增加,后续将致力于提高目标检测速率。

猜你喜欢
滑动尺度卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
一种新型滑动叉拉花键夹具
Big Little lies: No One Is Perfect
基于傅里叶域卷积表示的目标跟踪算法
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
滑动供电系统在城市轨道交通中的应用
9
一种基于变换域的滑动聚束SAR调频率估计方法
雷达学报(2014年4期)2014-04-23 07:43:07