摘 "要: 针对现有真实场景遥感建筑轮廓数据集存在数据丰富度有限、复杂形状数据样本量少,影响模型性能等问题,文中提出一种基于扩散模型的有限遥感数据增强方法,对合成数据和真实数据进行训练,从而得到形状更加丰富的建筑物数据,扩充建筑物数据的多样性。首先,使用扩散模型DDPM对合成建筑数据和真实场景数据训练集进行训练,生成大量与真实数据分布更接近、形状更多样的数据;然后,使用基于Transformer改进的轮廓提取模型在合成数据集上进行预训练;最后,在真实数据集上进行建筑物轮廓提取。实验结果表明:使用预训练模型训练与未使用预训练模型相比,在交并比、顶点检测精确率、顶点检测召回率、顶点检测[F1]分数、角度预测精确率、角度预测召回率、角度预测[F1]分数上分别提升了1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%,表明在大规模合成数据上预训练有助于提升建筑物轮廓提取模型在真实数据上的表现;同时使用1.2×105合成数据预训练比2.4×104合成数据预训练在上述指标上提升0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%,验证了预训练数据量增加对模型性能提升的有效性。
关键词: 遥感数据; 合成数据; 建筑物轮廓提取; 数据生成; 数据增强; 扩散模型
中图分类号: TN911⁃34; TP751.1 " " " " " " " " " " 文献标识码: A " " " " " " " " "文章编号: 1004⁃373X(2024)21⁃0106⁃07
Remote sensing building contour data augmentation method based on DDPM
MA Xiaodong1, ZHU Lingjie2, XIE Zexiao1, GAO Xiang3
(1. College of Engineering, Ocean University of China, Qingdao 266100, China;
2. Cenozoic Robotics, Hangzhou 310052, China;
3. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)
Abstract: In view of the limited data richness in the existing real scene remote sensing building contour data sets and the insufficient samples of complex⁃shaped data, which affects model performance, a limited remote sensing data enhancement method based on diffusion model is proposed. In the method, the synthetic data and real data are trained to obtain buildings with richer shapes and expand the diversity of building data. First, the denoising diffusion probabilistic model (DDPM) is used to train the synthetic building data and real scene data training set, which in turn generates a large amount of data with closer distribution and more diverse shapes than the real data. Then, the improved contour extraction model based on Transformer is used for pre⁃training on the synthetic dataset. Finally, the building contour extraction is performed on the real dataset. The experimental results indicate that the training with pre⁃trained models improves the performance in comparison with the training without pre⁃training on the synthetic dataset, with respective increases of 1.7%, 2.4%, 2.5%, 2.5%, 7.3%, 8.2% and 7.7% in intersection over union (IoU), vertex detection precision, vertex detection recall, vertex detection [F1] score, angle prediction precision, angle prediction recall, and angle prediction [F1] score, which demonstrates that the pre⁃training on large⁃scale synthetic data helps improve the performance of building contour extraction models on real data. Additionally, the pre⁃training with 1.2×105 synthetic data improves the above mentioned indicators by 0.8%, 0.9%, 1.3%, 1.1%, 1.1%, 0.7% and 0.9%, respectively, in comparison with the results of the pre⁃training with 2.4×104 synthetic data, which validates that the increase of pre⁃training data is effective in improving the performance of the model.
Keywords: remote sensing data; synthetic data; building contour extraction; data generation; data augmentation; diffusion model
0 "引 "言
从遥感图像中提取矢量化表示的建筑物轮廓对于三维城市建模[1⁃2]、地籍地形测绘[3]、地图更新[4]等方面具有重要意义。目前这项任务大都基于深度神经网络,有很多遥感图像数据集[5⁃6]用于模型训练。但现有数据集丰富度有限,对于某些复杂形状的建筑,难以获得足够的样本来训练模型;除此之外,真实场景数据集中存在部分复杂形状数据标注不准确的情况,影响模型的性能。
为解决上述问题,可以合成大量复杂形状数据来训练模型。合成数据可以覆盖更广泛的场景和情况,提高数据丰富度,使模型在面对新的、未见过的情况时具有更好的泛化能力,从而提高建筑物轮廓提取的准确性和鲁棒性。在图像生成方面,生成式模型是当前主流方法,其主要目标是学习并模拟数据的生成过程,从而能够生成与原始数据类似的新样本。生成式模型应用非常广泛,在图像生成、自然语言处理、音频生成等领域取得了显著的成就。文献[7]提出了变分自编码器(Variational Autoencoder, VAE),它是一种基于概率图模型的生成式模型,通过编码器和解码器的结合学习数据的潜在表示,并从中生成新的样本。文献[8]提出了生成对抗网络(Generative Adversarial Network, GAN),其中包含一个生成器网络和一个判别器网络,通过对抗训练的方式,使得生成器网络能够生成逼真的样本,从而模拟数据的真实分布。与VAE相比,GAN能生成更清晰和更多样的数据。文献[9]提出了扩散模型(Diffusion Probabilistic Model, DPM),它基于马尔科夫链(Markov Chain),在一系列随机扩散步骤中不断添加高斯噪声,逐渐将数据的分布代入简单的高斯分布;之后使用神经网络学习这个随机过程的反向过程,将随机采样的高斯噪声作为输入,逐步去噪,从高斯分布逼近感兴趣的分布,实现对数据的建模。DPM训练时只需要训练生成器即可,而GAN还需要训练判别器。文献[10]提出了去噪概率扩散模型(Denoising Diffusion Probabilistic Model, DDPM),它优化了DPM,提高了生成图像的质量,奠定了扩散模型在图像生成领域应用的基础。
本文提出了一种基于DDPM的遥感数据增强方法。首先使用DDPM对初始建筑数据进行训练,生成大规模合成建筑物轮廓数据,增加数据丰富度;然后基于Transformer[11]的建筑物轮廓提取模型[12]在合成建筑数据集上进行预训练;最后使用预训练模型在真实数据集上微调。该方法能增加数据丰富度及数量,用于提升建筑物轮廓提取模型性能,整体流程如图1所示。
1 "数据生成
1.1 "去噪概率扩散模型DDPM
DDPM的基本原理可以概括为两个过程:前向扩散过程和反向过程,如图2所示。
1.1.1 "前向扩散过程
设初始数据分布为[x0~qx],DDPM的正向扩散过程将向该分布中逐步添加高斯噪声,随着时间步长的增大,最终数据的分布[xT]变成了一个高斯分布。前向扩散过程可以看作一个马尔科夫链,表示为:
[px0:T=qx0t=1Tqxtxt-1] (1)
式中[p(x0:T)]表示整个网络的联合概率分布。由于概率密度函数[q(x)]无法确定但是[x0]已知,根据链式法则,可以将联合概率分布转换为条件概率分布:
[qx1:Tx0=t=1Tqxtxt-1qxtxt-1=Nαtxt-1,(1-αt)I] (2)
式中[qxtxt-1]可以看作是在[αtxt-1]上增加了随机高斯噪声数据[ϵ]。
[xt=αtxt-1+N0,(1-αt)I=αtxt-1+1-αtϵ, " "ϵ~N(0,I)] (3)
式中[αtlt;1]。由式(3)可知,DDPM的前向扩散过程中,随着时间步的增加,[xt]最终将接近标准正态分布。原则上[xt]的获取需要经过循环运算,但是经过重参数化,可将[xt]变为:
[xt=αtx0+1-αtϵ, " "xt~Nαtx0,(1-αt)Iαt=i=1tαi, " "ϵ~N(0,I)] (4)
由式(4)可以直接从[x0]计算任意时刻的[x],提高运算效率。
1.1.2 "反向过程
DDPM的反向过程是一个去噪的过程。对于从标准正态分布中随机采样得到的高斯噪声[xT]进行逐步去噪,最终得到和初始数据分布一致的图像[x0]。同样,按照链式法则,反向过程可分解为:
[p(x0:T)=p(xT)t=T-10pxtxt+1] (5)
式中条件概率[pxtxt+1]计算比较困难,因此,DDPM采用神经网络去拟合它,得到一个近似分布,定义为[pθxtxt+1],[θ]为模型参数,通过以下目标函数来优化。
[argminθϵθ(xt,t)-ϵ22] (6)
式中[ϵθ(xt,t)]表示从时间步[t]-1~[t]添加的随机高斯噪声。
1.2 "DDPM训练用数据
训练DDPM所使用的数据包括基础合成数据以及3.1.1节中数据训练集。本文定义的合成多边形数据集包括八种形状的建筑模板,即矩形(Rec)、L形、T形、H形、C形、Z形、塔形(Tower)及交叉形(Cross),如图3所示。
2 "建筑轮廓提取模型
RoomFormer[12]是一个基于Transformer改进的网络,如图4所示,用于对室内场景进行矢量化建模。建筑物结构化轮廓提取与室内场景平面图重建相似,为序列预测问题,输入是图片,输出是多边形序列;同时RoomFormer为Transformer架构,对大数量具有更好的适配性,因此本文使用RoomFormer作为建筑物轮廓提取的基线方法进行相关实验。
RoomFormer将室内场景矢量化建模看作是多边形序列预测问题,场景中每个房间被看作是一个有序顶点序列,利用Transformer对序列建模的有效性,引入了两级查询,使得网络可以直接输出室内场景中每个房间的顶点序列。RoomFormer基本组成可分为以下几个部分。
2.1 "特征提取网络
特征提取网络为CNN,对输入图像进行卷积得到多尺度特征图[xl∈RC×Hl×Wl],其中[l]表示特征图层级,[C]表示特征维度,[H]、[W]表示图像高和宽;然后,对每层特征图进行逐像素位置编码,将编码后的位置信息[el∈RC×Hl×Wl]与特征图相加,得到多尺度融合特征[fl∈RC×Hl×Wl];最后,将各个尺度的融合特征图展平进行拼接得到Transformer编码器的输入。
2.2 "Transformer编码器
Transformer编码器输入为多尺度特征图,输出为相同分辨率的增强特征图。每个编码器层由多尺度可变形自注意力(Multi⁃Scale Deformable Self⁃Attention, MS⁃DSA)模块和前馈网络(Feed Forward Network, FFN)组成。在MS⁃DSA模块中,查询和键元素都来自多尺度特征图的像素特征。参考点是每个查询像素的坐标。特征表示中还加入了可学习的尺度级别嵌入,以确定每个查询像素位于哪个特征级别。
MS⁃DSA与传统注意力机制对输入特征图所有位置进行运算不同,只对参考点周围的关键采样点进行运算,减少了计算复杂度。
2.3 "Transformer解码器
解码器中的每个解码器层由自注意力模块、多尺度可变交叉注意力模块(Multi⁃Scale Deformable Cross Attention, MS⁃DCA)和FFN组成。Transformer解码器输入为编码器的增强特征图和上一解码器层的多边形查询向量[Qi-1∈RM×N×C],输出为不断迭代细化后的多边形查询向量[Qi∈RM×N×C]。最终,细化后的多边形查询向量经过一个FFN,得到密度图的矢量化表达[S∈RM×N×3],[M]表示设置的最大多边形查询数量,[N]表示设置的每个多边形轮廓的最大长度,3表示预测顶点的信息,包括用于判断是否为顶点的标志(1表示顶点,0表示非顶点)及坐标([x]、[y])。
3 "实验与分析
3.1 "数据集及评价指标
3.1.1 "数据集
本文使用的数据集来自Building3D数据集[13],Building3D数据集是首个城市级建筑物数据集,其数据为真实建筑数据,包含了大部分房屋类型,可用于大规模城市场景建模。Building3D数据集中的样本为来自爱沙尼亚城市的超过1.6×105栋建筑的激光雷达点云数据,包括建筑物点云和屋顶点云,标签为使用商业软件建模得到的网格(Mesh)和线框(Wireframe)模型。由于建筑物轮廓提取模型输入为图片,因此需要对Building3D数据集进行处理。将点云转换成二值化点云投影图,如图5第一行所示;对Mesh进行渲染,提取轮廓,得到轮廓数组作为标签,如图5第二行所示。
3.1.2 "评价指标
本文使用FID(Fréchet Inception Distance)[14]和最大平均差异(Maximum Mean Discrepancy, MMD)[15]来评估DDPM生成样本的效果,使用交并比(Intersection over Union, IoU)、精确率、召回率和[F1]分数评价建筑物轮廓提取模型的性能[12]。
FID是一种用于评估生成式模型生成图像质量的指标,通过计算生成图像的特征分布与真实图像的特征分布之间的Fréchet距离来度量生成图像的质量。计算式如下:
[FID(X,Y)=μX-μY2+TrCX+CY-2CXCY] (7)
式中:[μX]、[μY]分别是数据集[X={x1,x2,…,xm}]和数据集[Y={y1,y2,…,yn}]的特征向量的均值;[CX]、[CY]分别是数据集[X]和数据集[Y]的特征向量的协方差矩阵;Tr表示矩阵的迹;[⋅2]表示[L2]范数。FID的值越低表示生成图像与真实图像之间的分布越接近,即生成的图像质量越高。与FID类似,MMD也是对生成数据和真实数据分布差异的一种度量,但是MMD是将数据映射到希尔伯特空间中进行度量的。MMD将图像输入预训练的CNN中获得高维特征向量,然后使用核函数(一般为高斯核函数)将两个分布映射到希尔伯特空间,计算它们距离的均值。MMD的计算公式如下:
[MMD2(X,Y)=1mi=1mf(xi)-1nj=1nf(yj)2H] (8)
式中:[m]和[n]表示数据集[X]、[Y]的样本数量;[f(⋅)]表示高斯核函数。MMD值越小表示两个数据集之间的分布越相似。
[P](精确率,Precision)、[R](召回率,Recall)和[F1]分数计算式分别如下:
[P=TP(TP+FP)R=TP(TP+FN)F1=2PR(P+R)] (9)
式中:TP表示样本被分为正样本且分类正确;FP表示样本被分为正样本但分类错误;FN表示样本被分为负样本但分类错误。
3.2 "实验设置
DDPM使用Adam优化器[16]进行模型训练,学习率为8×10-5,损失函数为MSE(Mean Squared Error),在DDPM中,参数[βt=1-αt],通常用于调整噪声水平,以控制模型的生成过程。优化[βt]的策略通常是通过训练过程中的学习,使得模型学习到最优的[βt]值,以最大程度地减少生成样本的噪声,提高生成质量。DDPM中使用Sigmoid动态增长策略,前向扩散步数为1 000。
RoomFormer使用AdamW优化器[17]进行模型训练,学习率为5×10-5,采用多步长学习率调度器动态调整学习率,权重衰减因子为1×10-4,训练周期为400。
3.3 "DDPM相关实验
对DDPM的训练策略进行了相关对比实验,实验结果如表1所示。其中,Nof为Number of的缩写,RTR(Random Transform Ratio)表示合成数据中变形数据占总数据量的比例,变形数据是对合成数据中随机选取的边进行拉伸或收缩,拉伸或收缩的长度为该边长度的[15~12];Real Data表示在DDPM的训练过程中是否加入真实数据的训练集。
由定量结果可知,训练DDPM的合成数据量为1.28×105或2.56×105时,模型在FID和MMD上的表现是近似的。在合成数据量为1.28×105的基础上,加入Random Transform后,模型生成数据的性能有了一定的提高,当比例设置为0.2时,DDPM的FID和MMD较之前分别降低了4.21和0.028。在当前基础上加入真实数据的训练集训练DDPM,模型生成数据与真实数据的FID和MMD为36.41和0.443,比之前下降了1.84和0.032。本节最终选取1.28×105合成真实数据、RTR=0.2以及加入真实数据条件下训练的DDPM模型来生成新的合成数据,部分生成结果如图6所示。
3.4 "RoomFormer实验
3.4.1 "实验一
在使用与真实数据训练集规模相当的合成数据量的条件下,对RoomFormer的训练策略进行了相关对比实验,实验结果如表2所示。
表2中,Pre⁃Train Epochs表示RoomFormer在使用DDPM生成的数据集上预训练的轮数,Train Epochs表示RoomFormer在真实数据上的训练轮数。
由表2结果可知,使用预训练的RoomFormer在真实数据集上进行微调后,在各个指标上的综合表现优于未进行微调的模型。当微调轮数不变,预训练轮数增加时,RoomFormer的性能也随之提高;当预训练轮数不变,微调轮数设置在200时,模型的性能最优。当预训练轮数设置为400,微调轮数设置为200时,RoomFormer模型在测试集上的表现最优,在IoU、顶点精确率、顶点召回率、顶点[F1]分数、角度精确率、角度召回率、角度[F1]分数上的表现比只训练200轮的Roomformer分别高1.7%、2.4%、2.5%、2.5%、7.3%、8.2%、7.7%。
实验一的部分定性结果如图7所示。其中,w/Pre⁃train表示RoomFormer在合成数据集上预训练400轮,在真实数据集上微调200轮,w/o Pre⁃train表示RoomFormer在真实数据集上训练200轮。由定性结果可知,经过预训练的RoomFormer模型所提取的轮廓在轮廓点数以及轮廓形状方面比未经过预训练的模型更接近真值。
3.4.2 "实验二
在实验一得到的最优训练策略的基础上,对预训练模型所用数据量进行相关实验,验证合成数据的数据量对于RoomFormer性能的提升效果。定量结果如表3所示。
由表3结果可知,随着预训练使用的数据量增加,RoomFormer在真实数据集上的性能不断提高,当预训练数据为1.2×105时,模型各项指标比预训练数据量为2.4×104时分别高0.8%、0.9%、1.3%、1.1%、1.1%、0.7%、0.9%。当预训练使用的合成数据量为1.2×105时,部分定性结果如图8所示,由定性结果可知,使用数据量为1.2×105时,预测的建筑物轮廓更加精确。
4 "结 "语
本文针对建筑物轮廓提取任务中遥感数据丰富度有限及数据量有限的问题,提出一种基于扩散模型DDPM的遥感数据增强方法。该方法使用基础合成数据及真实数据训练集训练DDPM,生成大量随机形状数据,然后使用RoomFormer在合成数据上进行预训练,最后迁移到真实数据上进行微调。定量和定性的实验结果表明,该方法可以增加数据丰富度及复杂形状数据的数量,提高建筑物轮廓提取的准确性和鲁棒性。但使用DDPM进行建筑物轮廓数据合成时,会出现一些不合理的数据,如自交多边形等,后续应当考虑对模型结构进行改进,或者在训练时加入相关条件引导,降低模型产生不合理数据的比例。
注:本文通讯作者为高翔。
参考文献
[1] LAFARGE F, DESCOMBES X, ZERUBIA J, et al. Automatic building extraction from DEMs using an object approach and application to the 3D⁃city modeling [J]. ISPRS journal of photogrammetry and remote sensing, 2008, 63(3): 365⁃381.
[2] ZHU L J, SHEN S H, GAO X, et al. Large scale urban scene modeling from MVS meshes [C]// Proceedings of the European Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 640⁃655.
[3] TURKER M, KOC⁃SAN D. Building extraction from high⁃resolution optical spaceborne images using the integration of support vector machine (SVM) classification, Hough transformation and perceptual grouping [J]. International journal of applied earth observation and geoinformation, 2015, 34: 58⁃69.
[4] SUN X, ZHAO W, MARETTO R V, et al. Building outline extraction from aerial imagery and digital surface model with a frame field learning framework [J]. The international archives of the photogrammetry, remote sensing and spatial information sciences, 2021, 43: 487⁃493.
[5] VAN ETTEN A, LINDENBAUM D, BACASTOW T M. SpaceNet: A remote sensing dataset and challenge series [EB/OL]. [2018⁃08⁃13]. http://arxiv.org/abs/1807.01232.
[6] MOHANTY S P, CZAKON J, KACZMAREK K A, et al. Deep learning for understanding satellite imagery: An experimental survey [J]. Frontiers in artificial intelligence, 2020, 3: 534696.
[7] KINGMA D P, WELLING M. Auto⁃encoding variational Bayes [EB/OL]. [2019⁃08⁃04]. http://arxiv.org/abs/1312.6114.
[8] GOODFELLOW I, POUGET⁃ABADIE J, MIRZA M, et al. Generative adversarial networks [J]. Communications of the ACM, 2020, 63(11): 139⁃144.
[9] SOHL⁃DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proceedings of the International Conference on Machine Learning. [S.l.: s.n.], 2015: 2256⁃2265.
[10] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.: s.n.], 2020: 6840⁃6851.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the Advances in Neural Information Processing Systems. [S.l.: s.n.], 2017: 5998⁃6008.
[12] YUE Y W, KONTOGIANNI T, SCHINDLER K, et al. Connecting the dots: Floorplan reconstruction using two⁃level queries [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 845⁃854.
[13] WANG R S, HUANG S F, YANG H X. Building3D: An urban⁃scale dataset and benchmarks for learning roof structures from point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2023: 20019⁃20029.
[14] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time⁃scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 6626⁃6637.
[15] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two⁃sample test [J]. The journal of machine learning research, 2012, 13(1): 723⁃773.
[16] KINGMA D P, BA J. Adam: A method for stochastic optimization [EB/OL]. [2019⁃06⁃25]. http://arxiv.org/abs/1412.6980.
[17] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. [2019⁃01⁃04]. https://arxiv.org/abs/1711.05101.
作者简介:马孝冬(1999—),男,山东德州人,硕士研究生,研究方向为三维计算机视觉。
朱灵杰(1992—),男,湖北黄冈人,博士研究生,算法工程师,研究方向为三维计算机视觉。
解则晓(1968—),男,山东临沂人,博士研究生,教授,研究方向为机器视觉与视觉测量。
高 "翔(1989—),男,山东临沂人,博士研究生,副研究员,研究方向为三维计算机视觉。