建筑物指数与对抗网络结合的检测样本增广

2024-02-28 13:50王伟陆冬华高岩张怡婷
科学技术与工程 2024年3期
关键词:建筑物精度样本

王伟, 陆冬华, 高岩, 张怡婷

(核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室, 北京 100029)

随着遥感技术的发展,影像空间分辨率得到极大的提升,纹理细节特征更加丰富,因此近年来结合遥感数据和深度学习算法进行地物制图和目标检测成为了研究的热点[1]。利用深度学习进行目标检测,其理论精度的提升依赖于足够复杂的网络模型和足够多且随机训练的训练样本。因此具有足够代表性的样本集构建是高精度目标检测精度的先决条件。卫星数量和影像获取途径井喷式的增长带来海量多样的数据地同时,也带来了信息的冗余和混杂,如何利用现有数据构建具有足够表征能力的样本集是目标检测必须解决的问题。

部分研究者为了解决常规数据集无法满足训练任务的情况,利用可获得的影像数据或视频帧数据进行标注,构建了诸如港口车船目标,油田作业平台等特殊关注目标的检测数据集,并进行检测应用[2-3],具有一定可行性。但对于小样本特殊地物,其样本量有限,因此简单采集标注可能仍无法满足模型对于检测精度要求。

通过多源数据进行增广,可以有效提高检测模型的精度。闫皓炜等[4]基于天地图、Pleiades、Worldview-2等多源数据建立了输电塔地物的目标检测数据集;孙震笙等[5]则利用合成孔径雷达(synthetic aperture radar, SAR)影像构造了基于GF-3的输电设施样本集;韩永赛等[6]通过Google Earth Pro软件从不同卫星,不同拍摄角度,对多个机场区域进行图像采样,建立了关于机场区域的检测数据集。

而对于原始样本进行变换的数据增广策略一定程度上可以缓解因样本量不足带来的训练结果不理想问题[7]。已有研究通过诸如几何尺度变换、色域变换、噪声注入[8]等单数据或Mosaic多数据混合方式进行增广,均取得了显著的精度提升。通过训练已有样本的潜在的数据分布特征,从而生成相似新样本的生成式对抗网络[9]是除了传统增广方式外另一种优秀的数据增广方法。除此之外,通过对于检测目标进行形态学运算增强其形态特征以生成新样本也能够对目标检测精度进行提升[10]。

针对上文提出的有些地物样本集获取难度较大从而导致检测模型泛化效果一般的问题,使用GF-2以及Google Earth影像数据构建不同类型的发电设施以及附属建筑样本集,通过基于形态学建筑物指数对原始样本进行建筑物提取,丰富其结构及纹理特征,同时,利用生成式对抗网络进行目标增广,将新的数据集通过CutMix[11]方式进行合成,在此基础上与原始样本集一同在YOLOv5、EfficientDet、RetinaDet等模型进行训练,经过增强后的样本集检测精度在各模型上均有不同程度的提升,证明该增广研究对于遥感影像中的小类别目标检测的模型精度提升具有直接意义。

1 理论基础

1.1 形态学建筑物指数

对于遥感目标的特征提取,尤其是建筑物目标而言,结构纹理信息的重要性不可忽视。目前已有很多使用包括灰度共生矩阵[12]以及Gabor纹理特征[13]作为空间信息增强方式的研究,也不乏一些通过基于空间注意力[14]的深度学习方法对结构特征进行增强。

而形态学建筑物指数[15](morphological buil-ding index, MBI)基于图像的形态学特征,综合考察了建筑物的空间特征,从而表现出建筑物内部亮度较高而环境亮度较低的特征,其对于建筑目标的结构及纹理特征增强有着显著的效果,尤其是对于诸如停车场,发电网等目标的纹理信息具有较好的增强效果。通过选择各像元中可见光波段亮度最大值作为该像元的亮度值。在此基础上建立微分形态剖面(DMPTH),以有效突出建筑物明亮的形态轮廓结构。表达式为

DMPTH={ΔTH(d,s),d∈D,s∈S}

(1)

式(1)中:ΔTH(d,s)为经过亮度重建后的图像在各方向上进行白帽变换的结果;D和S分别为形态学开运算算子中的结构元素的各尺度和各方向。由于建筑物方向较多,而道路方向较为单一,为了区分道路和建筑物,在此基础上通过计算不同方向(d,s)的DMPTH均值便可以定义建筑物指数。表达式为

(2)

式(2)中:其中求和参数d分别取1、3、5、7、9的结构尺度,s分别取30°、60°、90°、120°、150°、180°、210°、240°、270°的结构方向;Nd和Ns分别为不同结构元素的尺度和方向。由于建筑物内部各向同性,因此在微分形态学剖面中绝大多数尺度和方向上有着更大的特征值,所以MBI值较大的结构则更有可能是建筑物。通过设定一定阈值,便可以提取出MBI纹理中的建筑物信息。

1.2 深度卷积对抗神经网络

生成式对抗网络[16](generative adversarial network, GAN)由生成器和判别器两个网络构成,其结构如图1所示。其中生成器网络用于从随机噪声中生成图像数据,而判别器网络将生成器网络生成的数据与真实数据相比较进行辨别。通过二者的对抗,最终达到平衡,生成器能够生成更加真实的数据,而判别器则能够更好地区分真假数据。

图1 GAN与DCGAN示意图Fig.1 Structure of GAN and DCGAN

DCGAN (deep convolutional GAN, DCGAN)主要是在原始对抗网络的基础上将其中的生成器和判别器替换卷积网络。通过添加卷积层以及批量正则化层,使得生成的样本质量以及模型的收敛速度得到了提高。

为了使DCGAN技能区别真图像又能区分假图像,因此判别器的损失函数定义为

(3)

1.3 CutMix与Mosaic

CutMix作为一种样本增强的手段,通过随机裁剪某一样本的某一区域,然后利用另一样本相同区域补充形成新的样本,以提高检测模型对于样本的泛化能力,样本合成的具体过程表示为

(4)

Mosaic增强方法作为CutMix的改进版,通过将四幅样本进行随机翻转缩放裁剪再拼接到一幅图像上进行训练,通过此方法不仅丰富了背景样本,且在批正则化时同时考虑了四幅图像的数据,可以有效泛化模型从局部识别对象的能力。

2 数据处理

2.1 数据集制作

以GF-2以及Google Earth上的可见光高分辨率遥感影像为数据源,按照不同成像时间,不同拍摄角度采集228个发电站数据。对于GF-2采集的影像进行数字正射校正,融合裁剪预处理。将所有样本裁剪至763×763大小后,按照VOC2007数据集格式进行样本标注。经过样本标注后得到包含2 128个不同场景下的发电设施样本集,总共涵盖烟囱、变电设施、停车场、发电网、冷却塔八类地物,共3 990个标签,每幅图像中至少包含一个地物目标。数据集示意图如图2所示。

图2 数据集中样本Fig.2 Samples in dataset

2.2 数据增广

2.2.1 MBI增广

形态学中的开运算包括腐蚀和膨胀两部分,通过二者结合,可有效去除图像中的噪声,并保留原有信息。经实验效果验证,设定腐蚀算子dmin尺度为3,膨胀算子dmax尺度为20可取得较好的图像平滑效果。同时在45°、90°、135°各方向上对图像亮度进行微分形态学剖面重建。通过计算各尺度各方向上的微分形态剖面均值,可有效提高道路和建筑物间的差异,得到形态学建筑物指数提取的结果如图3(b)所示。

图3 形态学建筑物指数增强过程Fig.3 MBI enhancement process

为了更好地反映建筑物形状,利用skimage库中的threshold_otsu阈值分割方法,对提取得到的MBI指数进行自动阈值分割,得到如图3(c)所示的建筑物区域二值图像。

最后将原始图像[图3(a)]与建筑物提取结果逐像元逐通道相加。同时设定亮度上下界为0和255。最终得到如图3(d)所示的纹理叠加增强结果。

2.2.2 DCGAN增广

由于DCGAN对于复杂的地物训练效果不佳,难以收敛。但是对于结构较为简单的目标地物通过训练可以生成满足要求的结果。通过使用初始学习率0.001,Adam优化器,动量0.5、150个世代数,输出尺寸64和128,对两类蒸发塔进行训练,得到图4所示两类蒸发塔在DCGAN中的训练过程。其中每行分别为两类蒸发塔在第0、10、50、100、150个世代的训练结果。

图4 利用DCGAN对两类蒸发塔的训练过程Fig.4 Training process of two types of evaporation towers using DCGAN

2.2.3 MBI-CutMix增广

CutMix通过将原始样本进行随机裁剪拼接,在一定程度上能够提高模型的检测精度。通过将MBI增广后的样本进行随机翻转,裁剪作为背景样本,并将之与DCGAN生成的样本以及部分原始标签样本进行CutMix增广,使用该复合增广方法,不仅可以复用利用已有的样本,同时也加入了新的检测信息,相比仅用原始样本集中的样本训练,其检测效果更好。原始样本集中包含2 128个训练样本,206个验证样本,经过MBI-CutMix增广后,训练样本集扩充至4 253,验证样本集扩充至402。部分MBI-CutMix增广结果如图5所示。

图5 MBI-CutMix与原始样本对比Fig.5 Comparison between MBI-CutMix and original sample

3 结果分析

3.1 模型损失变化

YOLOv5是一种常用的单阶段目标检测网络,其基本思路就是将一幅图像各特征层分成若干网格,如果某个对象中心落于该网格中,那么该网格就负责预测该对象的类别及预测框信息,由于该网络在速度与精度方面取得较好的平衡,因此选择该网络作为增广方法检测模型。

分别将原始样本,Mosaic增广后的样本, MBI-CutMix增广的样本输入到YOLOv5-s模型中进行训练。模型训练超参数设置如表1所示。

表1 检测模型超参数设置Table 1 Detection model hyperparameters setting

模型训练过程损失变化如图6所示,由图6可知,开始时,三个样本集损失迅速下降,50个epoch后,三者损失均趋于稳定。使用MBI-CutMix增广的数据集损失下降速度要快于另外两种方法,Mosaic增广方法的损失下降速度于三者中最慢。

图6 三种增广方法损失变化Fig.6 Loss variation of three augmentation methods

3.2 总体检测精度分析

三种方法在YOLOv5-s上训练得到的检测精度如表2所示,其中模型的精度衡量使用所有类别的平均精度值表示。

表2 三类数据集在YOLOv5-s上的检测精度Table 2 Accuracy of three types of datasets on YOLOv5-s

其中Mosaic增广方法训练的模型对于样本集的检测精度仅有64.71%,比原始数据训练方法降低了5%。而使用MBI-CutMix方法相比原始数据方法训练的模型,整体精度提升了2%。Mosaic虽然可以有效增加背景样本的复杂性以及提高批正则化标签数量,但对于遥感图像的复杂样本,合成过程中可能反而会导致某些样本信息的丢失,造成特征提取能力下降,目标检测效果不理想。因此,在对于不同类型的目标数据集进行样本增广策略研究时,应当有不同的取舍,不当的使用增广策略可能反而会导致训练精度的下降。

Faster RCNN继承于RCNN,是使用最为广泛的两阶段检测模型。而SSD、RetinaDet、EfficientDet相是除YOLO模型外,目前较为优秀的目标检测模型,尤其在小目标地物检测中有较多应用[17-18]。为了验证MBI-CutMix数据增广方法在不同模型上的表现,分别将原始样本和经MBI-CutMix方法增广后的样本,输入到Faster RCNN、SSD、RetinaDet、EfficientDet模型中,设定200个世代数进行训练,最终得到各模型检测精度如表3所示。通过观察两种方法的训练结果,可以看到MBI-CutMix方法相比原始样本集,在各类型的检测模型中,均有一定程度的精度提升,其中EfficientDet模型的总体精度提升了5.61%,效果最好。通过在多个模型上对MBI-CutMix增广方法进行验证,结果表明该增广方法对于目标检测模型精度有明显的提升效果。

表3 MBI-CutMix方法在不同检测模型上的精度Table 3 Precision of MBI-CutMix method on different detection models

3.3 各类别检测精度分析

表4分别描述了原始样本以及利用MBI-CutMix方法增广后样本集中的各类别验证样本在EfficientDet模型上的平均精度。

表4 各类别地物平均精度对比Table 4 Comparison of average accuracy of different classes

表4所示结果,一方面可以证明利用MBI-CutMix增广方法对于样本集的总体精度有一定提升;另一方面可以看出使用增广后样本对于Reactor-1、Reactor-2复杂目标样本的精度提升明显,具体精度相比原始模型分别由0.89、0.83提升至0.93、0.94,由于Cooling-1以及Power Grid类别自身精度较高且地物目标相对简单,因此改进模型对于这类地物的检测精度提升不甚明显。由于自身样本数量的限制以及类别目标特征较复杂,地物组成较难判别等因素导致针对Cooling-2的小目标检测精度仍相对较低。

3.4 实际检测效果对比

为了从检测结果角度观察各增广方法的提升效果,分别将测试样本输入到以原始样本集训练,MBI-CutMix样本集训练的EfficientDet模型中进行检测,得到如图7的检测结果。

图7 原始训练模型与MBI-CutMix训练模型检测效果对比Fig.7 Comparison of detection effects between the original training model and MBI-CutMix training model

MBI-CutMix方法增强了样本的相关纹理信息,模型通过学习相关特征,使其对于纹理特征明显的地物检测更为敏感。因此对于待检图像中纹理信息突出的地物召回情况有所改善,提升召回情况的同时,对于目标的置信度也有一定程度改善。在检测结果1中关于停车场的置信度由0.55提升至0.67,发电网置信度由0.74提升至0.90。经过MBI-CutMix数据增广后训练得到的模型在针对于纹理信息较为突出的目标检测时,其检测效果相比于原始训练集训练的模型确实有一定的优势,突出体现在对于含纹理对象的召回检出的提升,这对于从大范围影像中检出感兴趣目标而言,具有积极意义。

4 结论

遥感图像的目标检测,往往因其样本获取难度较大,结构纹理信息不足等因素导致其识别精度较低。单纯使用传统的数据增广方法,对于模型的精度提升能力有限。针对已有问题,提出基于形态学建筑物指数结合生成式对抗网络的数据增广方法,并验证其在不同模型上的检测效果。得出以下主要结论。

(1)通过形态学建筑物指数对已有的样本进行预处理,能够有效提升样本的纹理信息。而生成式对抗网络对于烟囱,蒸发塔等一些结构简单的地物,其生成效果较好。利用CutMix方法对二者进行合成,能够有效的提升遥感目标检测的样本集数量,增强模型训练检测的鲁棒性,对比原始检测方法,利用增广后的样本进行训练,尤其对于停车场和发电网的召回情况有所改善。

(2)对于发电设施等数据集,通过将挖掘得到的信息与原始信息进行增广,相比直接利用Mosaic方法进行学习的效果更好。利用该方法改善了由于模型对原始样本集特征学习不足导致的精度过低。通过实验验证,利用形态学建筑物指数结合生成式对抗网络的数据增广方法,对于诸如发电设施相关的遥感目标检测模型提升显著,在多个检测模型上均有2%~5%的精度提高,对于待检目标的召回情况以及置信度均有一定的提升,这对于针对大范围的遥感图像目标检测具有积极意义。

本文提出的基于形态学建筑物指数结合生成式对抗网络的数据增广策略,对于一些基于遥感影像的目标识别,尤其是对于样本量较少的特殊感兴趣地物的目标识别具有一定借鉴意义。

猜你喜欢
建筑物精度样本
邻近既有建筑物全套管回转钻机拔桩技术
用样本估计总体复习点拨
描写建筑物的词语
推动医改的“直销样本”
基于DSPIC33F微处理器的采集精度的提高
随机微分方程的样本Lyapunov二次型估计
GPS/GLONASS/BDS组合PPP精度分析
村企共赢的样本
火柴游戏
改进的Goldschmidt双精度浮点除法器