优化Mask-RCNN的高分遥感影像建筑物提取

2022-09-10 13:53:36林娜黄韬孙鹏林王玉莹
遥感信息 2022年3期
关键词:特征提取建筑物卷积

林娜,黄韬,孙鹏林,王玉莹

(重庆交通大学 智慧城市学院,重庆 400074)

0 引言

近年来,高空间分辨率遥感影像的获取越来越便捷,建筑物作为最常见、最复杂的地物信息之一,基于高分遥感影像的建筑物提取对遥感影像制图、地理信息系统的数据获取和智慧城市建设具有重要的应用价值。

传统建筑物提取方法需要人工设计特征。2014年,胡荣明等[1]提出了增强形态学建筑物指数,利用该指数和几何形状约束提取了高分辨率建筑物轮廓。2017年,林雨准等[2]综合利用光谱、形状、纹理特征和多尺度分割的建筑物分级提取方法进行建筑物提取。传统建筑物提取方法难以适用于复杂场景且提取精度较低。

卷积神经网络拥有强大的特征提取能力,能够通过训练大量的数据集自动学习特征,使得建筑物自动提取成为可能。2015年,出现了全卷积神经网络[3](fully convolutional networks,FCN),将全连接结构改为卷积结构,可以处理任意尺寸的图像。2018年,张欢等[4]提出一种深层密集反卷积神经网络,实现了像素级别的建筑物提取。2020年,宋廷强等[5]基于SegNet网络,增加了空间注意力融合模块和增强的空间金字塔池化模块,对建筑物进行提取。

上述都是基于全卷积网络的建筑物提取,采用语义分割提取建筑物的二值图。2017年,Ren[6]提出Faster-RCNN网络,利用区域生成网络(region proposal network,RPN),减少了候选框的数量,提高了检测速度。而He等[7]提出的Mask-RCNN是在Faster-RCNN的基础上,添加了掩膜分支,能够实现检测与提取的并行处理,精度更高。2020年,何代毅等[8]在Mask-RCNN网络的设计中添加了路径聚合网络和特征增强功能。2020年,徐胜军等[9]提出了多尺度特征融合的空洞卷积残差网络,改善了复杂场景下建筑物分割边界不清晰等问题。2020年,瑚敏君等[10]在Mask-RCNN的基础上,在特征金字塔后再增加一层卷积操作,以降低混叠效应,但是大小不一的建筑物仍存在轮廓不完整的情况。

综上,基于Mask-RCNN的相关改进能够实现检测与提取的并行处理,提高建筑物提取精度。本文制作了高分遥感影像建筑物提取数据集,并提出基于Mask-RCNN的优化算法,解决尺寸不一的建筑物提取轮廓不清晰、不完整的问题。

1 研究区数据

本文以重庆市渝北区为研究区,WorldView-2高分辨率遥感影像为数据源,其多光谱数据空间分辨率为1 m,全色数据空间分辨率为0.5 m。影像预处理及数据集制作流程如图1所示。

1.1 数据集制作

本文选择均匀分布、类别充分、具有代表性的区域制作标签。图2为代表区域的数据集可视化效果对比图,其中,每个子图的上图为原图,下图为标签图。

1.2 数据集增强

本文对原图和黑白二值图标签同步进行数据增强,图3为数据增强后的原图与标签对比图。

2 基于优化Mask-RCNN的建筑物提取算法

2.1 Mask-RCNN基本原理

Mask-RCNN是一种结构清晰的分割网络,分为特征提取部分、RPN生成候选框、头部预测分支3个部分,包含边界框回归、分类预测和二值掩膜。整体网络结构如图4所示。

特征提取部分由ResNet与特征金字塔网络(feature pyramid networks,FPN)构成。ResNet网络通过添加批量归一化层和恒等映射结构,良好地解决了网络退化问题,即当网络只使用卷积层和池化层,网络层数不断加深时,经过梯度反向传播,梯度消失或梯度爆炸的情况。

FPN特征金字塔网络主要在特征提取的基础上增加了自上而下的结构,让不同尺度的特征图之间进行特征融合,来增强特征图表征能力,输入和输出的特征图都是多个不同尺度的特征图。

2.2 优化Mask-RCNN

1)优化FPN结构。FPN在特征融合之前,特征提取主干网络的不同阶段提取到的特征先经过1×1卷积进行降维,降到通道数相同后进行特征融合。但是,不同阶段的特征感受野大小不一样。感受野即特征图上的点对应回原图上的大小,包含的语义信息不同,将他们的特征直接相加,会减弱特征提取能力,特别是尺度差别较大的场景,提取效果下降。

因此,本文提出了一种优化特征金字塔网格,添加了更多的横向连接、恒等连接、自上而下和自下而上的路径。图5为优化特征金字塔网络的网络结构图,在每个特征图上使用1×1卷积来与相邻路径中的相应特征融合,蓝色虚线部分为恒等连接,横向的蓝色实线表示经过1×1的卷积改变通道数。竖向的蓝色实线是自下而上的路径,为了缩短从浅层路径中的低层特征到深层路径中的高层特征的路径,低层特征图通过步长为2的3×3卷积降采样为一半大小,然后与高级特征图融合。绿色实线为跨层上采样连接,使用最邻近上采样对高层特征图进行上采样,然后使用3×3卷积使上采样特征图与低层特征图相融合。最后和FPN类似,输出5个特征图送入后续RPN网络和ROI Align层。比起传统FPN,优化FPN将更多的低层几何信息与高层语义信息相融合,提高尺度较小建筑物的识别精度与尺度较大建筑物的定位精度,并且避免了直接相加造成的特征表达能力减弱。

2)优化NMS算法。非极大值抑制(non-maximum suppression,NMS)的作用是去除预测阶段产生的重叠检测边界框。NMS的不足是当建筑物较为密集的时候,由于重叠度很高的两个建筑物会被当作是同一个物体,导致删除掉其中得分较低的建筑物而出现漏检。

本文用Soft-NMS替换原始NMS算法。Soft-NMS算法是在每轮迭代时,先选择分数最高的预测框作为M框,并对每一个有重叠度相邻检测边界框bi分数重新计算,越是与M框重叠度高的检测边界框,得分减少越多,当该框的新分数低于某设定阈值时,将该框删除。重新计算分数用到的高斯权重函数如式(1)所示。

(1)

式中:bi为待处理的边界框;si为bi框更新得分;σ为设置的超参数。

Soft-NMS可以在不增加计算量的前提下改善NMS的不足。

3 实验与分析

本次实验的硬件环境如下:中央处理器为AMD R7 3700X @ 3.60 GHz,内存为16 GB,显卡为NVIDIA RTX2060。

3.1 实验方法

采用迁移学习与交叉验证的方法,使用ImageNet数据集上的ResNet-50预训练模型的参数,节省训练时间。交叉验证可以有效地避免因数据集划分的随机性而引起的模型不稳定问题,提升模型的鲁棒性。

实验数据采用自制的重庆市渝北区数据集,一共有大小为1 024像素×1 024像素的图片2 900张。本次实验选取5折交叉验证,即利用固定随机种子将原图和标签图同时化分成5等份,即每份为580张影像,每次轮流将其中4份作为训练集,1份作为验证集,一共进行5次实验,每次实验都会得出相应的模型和精度,5次结果的平均值作为对算法精度的估计。依据经验初始学习率设为0.002 5,训练过程使用SGD优化方法,迭代次数设为30 000次。

3.2 评价指标

选取准确率ACC、平均精确率AP、损失值Loss为评价指标,Mask-RCNN的损失函数分为分类损失函数、回归损失函数与mask损失函数,表达式如式(2)至式(5)所示。

Loss=Lcls+Lbbox+Lmask

(2)

(3)

(4)

(5)

式中:TP是预测为正,实际为正的数目;TN是预测为负,实际为负的数目;FP是预测为正,实际为负的数目;FN是预测为负,实际为正的数目;ACC准确率为所有的预测中预测正确的占比;Precision精确率是从预测角度来看,正类被预测为正类的个数占总的正类预测个数的比例,也叫查准率;AP为在不同IoU下的平均精确值。

3.3 结果分析

本次实验将原始的以ResNet-50为特征提取主干网络的Mask-RCNN称为Mask-RCNN+ResNet-50,将本文提出的优化FPN结构与优化NMS算法称为优化Mask-RCNN,二者共同在数据集上进行实验。

图6为训练过程损失值变化曲线图,图中蓝色线为Mask-RCNN+ResNet-50算法,橙色线为优化Mask-RCNN算法。可以看出,优化Mask-RCNN的曲线震荡幅度更小,最后得到的损失值更低,说明优化后的算法提升了稳定性,得到了更高的提取精度。

图7为两种算法在同一测试集上的结果对比图,上面为Mask-RCNN+ResNet-50算法的建筑物提取结果,下面为优化Mask-RCNN算法的建筑物提取结果,黄色边框为检测的类别与得分,内部紫色为建筑物轮廓掩膜。图7(a)为尺度较大的厂房区,Mask-RCNN+ResNet-50算法存在漏检且边界超出厂房范围,导致掩膜不准确,优化后的算法很好地解决了此问题。图7(b)为高层建筑物区,算法都很好地进行了提取,优化后的算法边界框得分更高,表示精度更高,且没有出现建筑物粘连的情况。图7(c)为尺度较小的别墅区,Mask-RCNN+ResNet-50算法存在漏检的建筑物,优化算法在添加更多的路径融合后,提升了特征提取的能力,漏检数明显减少。图7(d)为密集的乡镇区,背景复杂,土地纹理特征类似,建筑物尺寸小且密集,Mask-RCNN+ResNet-50算法存在较多误检和漏检,优化算法漏检数减少,在面对复杂背景区域的影响下,鲁棒性更强。

表1为算法在数据集上交叉验证实验的定量结果对比。从表1可以看出,本文提出的优化Mask-RCNN算法准确率为93.01%,与Mask-RCNN+ResNet-50相比提高了4.84个百分点,在IoU阈值为0.5时,优化Mask-RCNN算法的平均精确率为88.4%,与Mask-RCNN+ResNet-50相比提高了4.9个百分点,IoU阈值越大,对算法定位的准确性要求越高,所以平均精确率有所下降,但是依然优于原始Mask-RCNN算法,优化算法的整体分类、定位与掩膜精度更高。

表1 交叉验证测试结果对比 %

4 结束语

本文针对国内高分辨率遥感影像建筑物数据集不足的情况,选取了重庆市渝北区0.5 m分辨率的遥感影像,制作了实地面积约70 km2建筑物提取数据集。本文在Mask-RCNN的特征融合阶段,融合更多的横向连接、自下而上和自上而下路径,更有利于大建筑物和小建筑物的统一识别。对于在数据集上的交叉验证实验结果,本文所提出的优化Mask-RCNN算法平均精度AP为88.4%,与Mask-RCNN+ResNet-50相比提高了4.9个百分点,漏检更少,边界框更贴合,建筑物轮廓掩膜效果更好。

本文的不足之处为采用的二阶段检测计算量大,相比一阶段检测计算速度慢、显存占用大。如何在保证精度的前提下,对高分遥感影像建筑物进行实时检测与分割是研究的重点与难点。

猜你喜欢
特征提取建筑物卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
邻近既有建筑物全套管回转钻机拔桩技术
描写建筑物的词语
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法
火柴游戏
基于MED和循环域解调的多故障特征提取
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20