熊风光,董 彪,张 鑫,刘欢乐,韩 燮,况立群
(1.中北大学 大数据学院,山西 太原 030051; 2.中北大学 山西省视觉信息处理及智能机器人工程研究中心,山西 太原 030051)
随着图像处理及计算机视觉学科的发展,对图像、视频这些可视媒体的信息实现分类、定位及分割,并根据这些信息分析逻辑关系,已成为现在计算机领域的研究热点。高分遥感影像纹理和特征丰富,且建筑物是地表人类聚集的常见地物,实现该类目标的检测识别在现代工业、城市规划等领域具有重要的应用价值[1-3],传统的矩形识别框已无法满足对不规则遥感建筑物的精确检测需求,在原先“分类+回归”模式下的检测已经不适用,基于Faster RCNN的Mask RCNN以“分类+回归+分割”的特性广泛应用于遥感建筑物的检测当中。国内外对此已有相关研究,如文献[4]提出一种基于Mask RCNN算法的建筑物检测分割方法,将对象检测、对象分类、边界框定位和语义分割相结合达到像素级的检测分割;文献[5]将Mask RCNN算法中区域建议网络(RPN)损失函数进行优化,减少预测框坐标与实际目标的位置偏差,提取到更精确的船舶坐标信息。遥感领域的重要任务之一就是从图像中检测地表建筑物,但由于遥感图像本身由于设备的局限性,导致缺乏纹理信息,且目标建筑物形状不规则,故本文借鉴深度学习的思想,参考国内外相关学者对于Mask RCNN算法的改进,以FPN和RPN网络结构的改进及掩膜mask的参数优化为研究方向,充分利用空间信息,有效抑制干扰像素,实现更完整的模型提取[6]。
RCNN类算法首先对样本分割,得到大量包含目标的区域,然后再输入特征提取网络,因此该类算法作为基于区域检测的代表算法。这类算法通过神经网络对样本提取特征,对特征映射反复训练并不断调整参数,得到训练模型,再根据该网络模型实现分类识别[7,8]。国外学者首先提出RCNN思想,将检测问题划分成定位与分类两个阶段,并以此设计出相关算法[9],该算法在公共数据集中达到较高准确率,并对之后基于RCNN的改进及应用提供了思路;之后有学者借鉴RCNN思想,简化特征提取,在池化层中计算感兴趣区域,有效加快了检测速度,这就是Fast RCNN算法,但是由于产生候选区域导致训练时间过长,不利于模型收敛[10];之后有研究人员针对Fast RCNN进行网络结构优化,提出Faster RCNN算法,在卷积神经网络中生成多尺度特征,然后进一步筛选出多尺度特征图的预测框,加快模型收敛,提高检测效率[11];有研究人员在文献中指出,将语义分割与目标检测结合,提出一种新的检测框架,这就是Mask RCNN算法,增加mask掩膜用来分割目标,并且优化之前的池化操作,抑制非目标像素的干扰,既保证了高精度检测率,又实现语义分割的任务,尤其对于人体数据集表现良好[12]。
YOLO(you only look once)系列是基于端到端的目标检测算法,该类算法不产生候选框,在神经网络中完成特征提取,实现对目标的分类及定位的同时预测。国外研究人员提出Yolo v1算法,文献中采用深层网络提取特征,由于对分类和定位同时处理,因此大大加快了检测时间[13];但由于Yolo v1算法在检测精度上存在不足,许多学者对此进行研究,有相关文献提出Yolo v2算法,作者首先提高预训练分类网络的分辨率,并移除了全连接层,采用先验框预测类别和坐标,既提升了定位的准确度,同时保持分类的准确度[14];有研究团队提出Yolo v3算法,优化特征图的提取,加快神经网络的训练,运行速度达到22.2 ms,且mAP为28.2%,在检测精度及检测速度上都有了明显提高[15]。
本文以不规则的遥感建筑物为研究对象,为提高检测分割效果,对Mask RCNN算法中FPN和RPN网络结构的改进及掩膜mask的参数优化展开研究,提出一种改进的Mask RCNN检测算法。
本节首先对Mask RCNN算法作出相关介绍,并结合本文所做工作的创新性展开说明,主要针对网络结构的改进优化,提出一种新的网络结构用于本文检测场景。
Mask RCNN算法结合了检测与分割,以RCNN检测网络为基础,多尺度提取特征,再通过候选框对特征图筛选,不仅可以对目标实现分类定位,而且通过添加掩膜mask对检测目标实现分割[16],也就是把人或其它对象从图像中检测出来,并对每个检测到的目标实例生成一个分割遮罩[17,18],检测流程如图1所示。
图1 Mask RCNN检测流程
首先,对输入图片预处理,在检测网络中,图片以二维矩阵形式存储;在特征金字塔网络(FPN)中,不同尺度的卷积核与图像二维矩阵做内积运算,得到不同尺度特征图;然后,根据特征图中每一点实现预测,得到大量感兴趣区域(ROI),在RPN网络中对这些ROI筛选,进一步提取得到最有可能的目标区域;接着,对这些目标区域实现ROI Align操作,即对特征向量统一尺度;最后对特征向量进行映射,得到3个输出分支,实现分类、定位及分割任务。
原Mask RCNN算法虽然在检测及分割方面都表现良好,但是对于遥感领域的应用仍存在不足,遥感图像本身背景复杂,视角特殊,这给计算机视觉检测任务带来极大困难,因此结合应用场景做分析改进。首先FPN网络基于特征金字塔,通过不同尺度的分辨率对输入样本实现特征提取,得到多尺度的特征图,再对特征图完成融合,但是自顶向下的特征融合过程十分繁琐,导致有效信息丢失,检测精度下降;其次RPN网络通过候选区域对特征图实现初步预测,得到大量候选框,并对部分越界或偏移值大的候选框去除,进一步提升精度,加快模型收敛,但是RPN网络候选框长宽比不适合本文研究场景,导致计算冗余;而原算法中mask掩膜对遥感影像的分割效果表现不好,由于目标与背景轮廓存在遮挡等情况,导致像素丢失,无法提取目标轮廓。
对于Mask RCNN算法的应用,许多研究人员已提出很多相关的应用及改进。如文献[19]以车辆为数据集,对残差网络(ResNet)进行优化,并调整区域建议网络(RPN)中锚点的比例和阈值,提高了平均检测精度;文献[20]中提出一种优化的ROI Align操作,在双线性插值基础上调节阈值,显著提高指针式仪表识别读数的准确性,同时在光照不均等自然环境下具有较好的鲁棒性。
本文的创新性主要有三方面:对FPN网络结构的改进,保留语义信息,完善特征融合,有效提高检测准确率;简化RPN网络结构,对先验框聚类分析,减少算法计算量,加快模型收敛;优化掩膜mask参数,抑制干扰像素,增强对目标像素的提取能力。
2.2.1 FPN网络的改进
FPN网络是Mask RCNN算法中的主干网络,基于多尺度金字塔,以不同分辨率模拟人眼由远及近的观察效果,可以得到对样本提取的不同尺度特征图,这种由不同尺度组成的提取网络被称为金字塔,实现对不同尺寸目标的完整特征提取。FPN网络通过上述提取方式得到不同尺度的特征,又通过自顶向下的方式实现特征融合,在金字塔不同层特征融合的过程中开始预测,并最后对预测结果进行融合。
在本文遥感数据集应用场景中,只有建筑物这一类目标,该方法特征融合过于繁琐,首先需要对不同尺度的特征图做统一操作,得到相同尺度特征图,再对特征图做预测,最后融合预测结果,但由于特征图分辨率的多次缩放,导致损失了大量有效信息,不适用于本文遥感数据集,故本文不经过横向连接,直接在每一层进行相应的预测,再对预测结果做空洞卷积,提高精确定位,避免原算法中为扩大感受野导致分辨率下降,最后对预测结果融合,修改网络结构如图2所示。
图2 修改后的FPN网络结构
经实验验证,本文通过改进FPN网络,保留了完整语义信息,优化预测结果的融合,有效提高了检测精度和目标的检出率。
2.2.2 RPN网络的改进
针对本文采用的遥感图像训练数据集,RPN网络的候选框尺寸并不适用,对同一尺度特征图重复计算,产生冗余预测框,且预测框与真实框的位置信息及尺寸相差较大,导致模型收敛难度较大,故针对本文数据集,通过特征相似性,对候选框聚类分析,将长宽设定为64×64、128×128、256×256,减少计算量,提高目标的检测和分割效果,提高目标框的检出率,结构如图3所示。
图3 修改后的RPN网络结构
经实验验证,改进RPN网络对于目标的位置信息更加准确,可以提取到置信度更高的ROI区域,简化了计算量,加快了模型的收敛。
2.2.3 掩膜mask的改进
掩膜mask是一种用于图像分割的操作,通过设置阈值对样本进行划分,得到不同像素区域,再对这些像素区域做逻辑运算,区域内像素与预测框像素接近的设置为目标像素,其它判断为干扰像素,从而实现对目标的突出或隐藏。
在本文遥感数据集中,遥感图像本身颜色信息缺乏,目标像素与背景像素差异不大,且目标建筑物形状不规则,导致掩膜mask对目标轮廓无法精细区分,造成目标缺失。故通过对原算法中14×14与28×28的mask掩膜调参,得到适合本文遥感建筑物数据集适用的参数:32×32与64×64像素,结构如图4所示。
图4 修改后的mask像素值
经实验验证,通过调节mask掩膜参数有利于提取更多细节信息,提高掩膜效果,有效优化建筑物的分割效果。
本节表明实验数据集来源,对实验结果进行评估,并通过大量样例分析,与多种检测算法横向对比,验证本文工作的优越性。
本文使用的数据集来自SpaceNet数据集中的AOI_2_Vegas,在原数据集基础上对图像重新裁剪及筛选,使用标注工具labelme进行标注,标注类别为建筑物(building),以此作为本文的数据集;labelme是一个图形界面的图像标注工具,利用该标注工具,手动完成各种形状(矩形、圆形、不规则形状等)标注,得到标注图像及对应文件,如图5所示,对建筑物进行标注。
图5 标注目标
本文开发平台为台式机,配置为Intel i9-9700H处理器,2070显卡,16 GB内存,开发环境为Python 3.6,Pytorch 1.3;本文对相关参数不断调整,如学习率调整至0.0001,最后迭代次数为25 000~30 000次时,loss值趋于稳定,如图6所示。
图6 训练过程
3.3.1 样例分析
本文基于Mask RCNN算法,针对不规则建筑物检测难度大的问题进行研究,通过改进FPN网络和RPN网络,并调节mask掩膜参数,加强对不规则建筑物的检测,有效解决该应用场景中的问题。经过本文改进算法检测,选取形状不规则、背景复杂度高的建筑物检测场景做样例分析,检测样例如图7所示。
图7 本文方法检测样例
从检测结果可以看出,对图7样例场景中不规则的建筑物做到了很好的检测分割效果,在有道路、树木等干扰信息的场景中也做到了精准分割,尤其对于目标建筑物的空隙分割效果良好。故本文对Mask RCNN算法进行了有效改进,通过修改FPN和RPN网络结构及优化mask掩膜参数提高了对不规则建筑物的检测分割能力。
3.3.2 评价指标
本文采用平均检测精度(mAP)、平均检测时间(time)、回归率(recall)作为检测评价指标。其中精度和召回率分别定义为
(1)
(2)
式(1)表示目标的平均检测准确率,precision为样本准确率,N是样本总数,是目标检测领域常见的评价指标,直观反映检测效果;式(2)表示回归率,其中相关变量表示检测正确与误检的样本数,评价算法收敛程度;并对算法的平均检测时间time做对比分析,评估算法效率。
3.3.3 实验对照
本文选取遥感场景中常见的场景,如背景复杂度高的场景(a)和建筑物空隙分割效果差的场景(b),并与相同场景下原Mask RCNN算法检测结果做对比,如图8所示。
图8 对照检测结果
对检测结果做定性分析,在背景复杂度高的场景(a)中,对于相同目标的检测,本文改进算法(article method)相比原Mask RCNN算法的检测精度有较明显提高;在建筑物之间的空隙分割效果差的场景(b)中,本文改进算法(article method)对不规则目标建筑物的检测分割效果很好,对细节信息做到了很好的语义分割。
实验对照如下:本文改进算法(article method)与原Mask RCNN算法、Yolo v3算法、以及Faster RCNN算法和最新的Yolo v4算法做效率分析,见表1。
表1 效率分析
由表1可知,首先在平均检测精度(mAP)方面,本文改进算法(article method)平均精度为99.80%,相比原Mask RCNN算法98.26%、Yolo v3算法86.47%、Yolo v4算法98.01%、Faster RCNN算法97.54%,本文提出的改进算法表现良好;再对时间效率方面进行分析,本文改进算法(article method)为1.19 s,检测速度较基于端到端的Yolo v3算法0.32 s和 Yolo v4算法0.28 s较慢,但优于同样基于区域检测的原Mask RCNN算法1.48 s和Faster RCNN算法2.09 s;在召回率(recall)方面,本文改进算法(article method)为97.88%,相比原Mask RCNN算法96.23%、Yolo v3算法84.69%、Yolo v4算法95.98%、Faster RCNN算法96.14%,本文改进算法高于其它算法,依然表现良好。
本文通过对Mask RCNN算法改进得到一种适合遥感不规则建筑物的网络模型,有效改善了该类目标的检测分割效果,提高了检测精度。因此,可认为本文基于Mask RCNN的改进算法(article method)优于其它算法。
本文对Mask RCNN算法改进FPN和RPN网络结构,并对掩膜mask参数优化,提出适用于遥感领域建筑物的检测算法。实验结果表明,本文提出的改进Mask RCNN算法表现良好,不仅检测精度高,计算量小,且加强了目标的分割效果。但对于遥感影像中飞机等空中目标仍无法做到精确分割,故下一步拟解决该类目标的检测分割问题。