方政,付莹,刘利雄
北京理工大学计算机学院,北京 100081
地图在现代社会中发挥着十分重要的作用,无论是人民群众日常生活出行,还是交通物流路线规划等,都离不开地图的帮助。然而,现有的地图通常是由地图矢量数据通过专业的地图绘制专家绘制得到(Haunold 和Kuhn,1993;Ablameyko 等,1993)。地图矢量数据的收集与更新、专家的聘请和地图的绘制都需要花费大量的时间和金钱。现如今城市的变化日新月异,传统地图绘制方法已经难以满足地图更新的需要,尤其是在地震、泥石流等突发地质灾难下,快速更新地图显得尤为重要。因此,如何快速且低成本地制作地图是一个亟需解决的问题。
相比于地图矢量数据的收集,遥感图像在蕴含大量地图相关信息的同时采集更加快速与便宜。遥感图像可以由无人机、卫星和飞机拍摄得到,若能利用遥感图像生成对应的地图图像,则可以大幅降低地图制作成本,提高地图更新速度。随着深度学习的发展,已经出现了许多图像生成的方法,如Pix2pix(pixel-to-pixel)(Isola 等,2017),Pix2pixHD(pixel-topixel high definition)(Wang 等,2018)和CycleGAN(cycle-consistent adversarial networks)(Zhu 等,2017)等,其本质是将图像从一个域转移至另一个域。这些方法是利用生成对抗网络(generative adversarial network,GAN)(Goodfellow等,2014)实现的,它们将一类图像作为生成器的输入,利用生成器生成对应的图像。为了确保生成的图像能够更加接近目标域图像,采用判别器对生成的地图进行判别。利用遥感图像生成对应的地图图像可视做一种特殊的图像生成任务。目前已经有研究者提出了GeoGAN(geographic generative adversarial network)(Ganguli 等,2019)、SMAPGAN(semisupervised generation of styled map tiles based on the generative adversarial network)(Chen等,2021)、CreativeGAN(creative generative adversarial network)(Fu 等,2022)和LAMG-CAMG(levelaware map generator-consistency-aware map generator)(Chen等,2022)等方法专门用于从遥感图像生成地图图像。其中GeoGAN 和SMAPGAN 基本上只是沿用图像生成的思路,没有针对地图生成任务的特性进行优化。而后来的CreativeGAN 针对生成的地图中地理要素容易混淆的问题,提出了一个结合语义信息的生成模型,但依旧考虑到当语义信息不准确时导致地图生成误差,这使得该模型仍具有一定的局限性。LAMG-CAMG 则是一种针对多层级地图的生成模型,利用多层级地图之间的关系来生成高质量地图,并没有分析讨论地图生成任务本身的难点。
为此,需要进一步分析和讨论地图生成任务的难点,即地理要素类内差异性和地理要素域间差异性。地理要素类内差异性指的是遥感图像中同类地理要素具有各式各样的外观,难以分辨;而地图图像中同类地理要素呈现的外观具有一致性,如图1 所示。将类内差异明显的地理要素正确划分为对应的类别是地图生成中的一大难点。地理要素域间差异性指的是遥感图像和地图图像中对应地理要素存在几何形状上的差异。如遥感图像中植被要素边缘不平整,而地图图像中对应的植被要素边缘平整。如何使得生成地图中地理要素符合实际地图中要素几何特点是地图生成中的另一大难点。
图1 数据集例图Fig.1 Dataset examples((a)remote sensing images;(b)map images;(c)segmentation images)
本文提出了一种Transformer特征引导的双阶段地图智能生成方法,用于解决地图生成任务中的难点,使用一个统一的模型便可从遥感图像中生成高质量地图图像。总的来说,本文的主要工作如下:1)设计使用基于Transformer 的特征提取模块,该模块可以提供类内一致性更好的地理要素特征用于指导生成器生成高质量地图,有效减轻了地理要素类内差异性导致的地图生成困难问题。2)设计双阶段生成框架,在初步地图的基础上进行二次生成,缓解了由于地理要素域间差异性导致的生成地图地理要素不准确情况,提高了生成地图的质量。3)在AIDOMG(aerial image dataset for online map generation)(Fu 等,2022)数据集上进行测试,与先进的地图生成方法和一般图像生成方法进行比较,结果表明,此方法能有效提高生成地图的质量。
传统方法中地图需要专家从地图矢量数据中利用专业软件进行地图绘制(陶陶 等,2007),而地图矢量数据的获取则需要专业人员在现场使用设备进行收集(Haunold 和Kuhn,1993;Ablameyko 等,1993)。该地图制作方法的优点是地图精度高,质量好;缺点是制作过程需要花费大量的人力物力,难以做到大范围地图的快速更新。
现如今城市建设速度日新月异,一两年的时间很多地方已经面目全非。对于主要的城市来说,或许能够花费大量人力物力在数月内更新地图。但是对于大部分城市或乡镇地图而言,地图的更新时间长达一年(Zhong 等,2021)。这种地图的更新速度难以满足现在城市建设变化的速度。尤其是在遇到突发地质灾难导致的地貌地形变化时,一张有效的地图能帮助不计其数的受难人民。现有的传统地图生成方法难以满足地图更新的需求,需要有一种快速又价格低廉的地图生成方法用于生成地图。
基于深度学习的图像生成方法能够利用一个域的图像生成另一个域的图像。如利用素描图像生成已经上色的图像(Xiang 等,2022),或利用年老时人脸图像生成年轻时人脸图像(宋昊泽和吴小俊,2019)。地图生成任务可以看成是一种特殊的图像生成任务,该任务利用遥感图像生成地图图像。因此,图像生成方法可以用于地图生成,下面将介绍基于深度学习的经典图像生成方法。
Pix2pix(Isola 等,2017)提出了一个统一的框架用于解决图像生成问题,使用CGAN(conditional generative adversarial network)(Mirza 和Osindero,2014)完成分割图转换街景图、边缘图转换真实图和遥感图转换地图任务。Pix2pixHD(Wang 等,2018)则在Pix2pix 的基础上进行改进,使用多尺度的判别器和生成器解决了高分辨率图像的生成问题。虽然Pix2pix 和Pix2pixHD 在生成任务上效果不错,但是要求具备配对数据。CycleGAN(Zhu 等,2017)的提出则解决不配对数据的图像生成问题,它引入循环一致性,利用不配对的数据完成图像生成任务。为了解决多域图像迁移问题,StarGAN(star generative adversarial network)(Choi 等,2018)利用一个生成器完成多域之间的图像生成工作,能够有效利用多域的数据信息。
地图生成本质上是一种图像生成,利用一个域的图像生成另一个域的图像。但是因为图像生成方法没有考虑并解决地图生成任务的难点,即地理要素类内差异性和地理要素域间差异性。因此,直接将图像生成的方法用到地图生成任务上难以获得高质量的地图图像。
目前,已有研究人员针对地图生成任务,提出了专门用于地图生成的模型,如GeoGAN(Ganguli 等,2019)、SMAPGAN(Chen 等,2021)和CreativeGAN(Fu 等,2022)等。这些方法用对抗生成学习遥感图像到地图图像的映射关系,用于从遥感图像生成地图图像。其中,GeoGAN 沿用了CGAN 的结构,设计了为遥感生成地图的网络。SMAPGAN 则提出了一个半监督的生成模型,解决了不完全配对的遥感—地图数据进行地图生成问题,但是并没有解决生成质量差的问题。CreativeGAN 则是一个结合语义信息的生成模型,利用语义信息指导生成器生成更加准确的地图图像。
上述方法均基于生成对抗网络,可以在生成器和判别器持续的对抗训练下不断优化输出,判别器判断图像是否真实,并学习损失来惩罚输出与目标之间的差异。然而,上述方法没有深入分析并解决地图生成任务中由地理要素类内差异性和地理要素域间差异性导致的地图生成困难问题,这使得上述方法仍具有一定的局限性。
利用遥感图像生成地图是一项具有挑战性的工作。其核心难点有两个:1)地理要素类内差异性。实际环境中的地理要素种类繁多,同种地理要素之间的差异过大,即便同样都是建筑,其外部样式也不一样。如图1 中遥感图像所示,有灰顶建筑、蓝顶建筑、褐顶建筑和红顶建筑等。这使得模型难以生成地理要素对应准确的地图。2)地理要素域间差异性。遥感图像中的地理要素边缘并不都是光滑整齐的,存在大量参差不齐的现象,而地图图像中对应的地理要素边缘平滑连贯。这使得利用遥感图像生成的地图图像地理要素存在不准确的情况。如图1 中遥感图像所示,植被要素边缘明显凹凸不平,但是在地图图像中,植被要素呈现光滑平整的边缘。直接利用遥感图像生成地图图像没有考虑上述问题的解决,导致生成的地图图像中地理要素几何外观生成不准确。
为了缓解上述问题,本文提出了一个基于遥感图像的Transformer(Dosovitskiy 等,2021)特征引导地图智能生成方法。对于第1 个难点,即地理要素类内差异性,提出方法利用一个基于Transformer 结构的特征提取模块提取高质量地理要素特征,用于辅助地图生成。该模块将多样的地理要素进行简化提炼,去除无用的外观纹理等类内差异大的信息,将其划分为地图中普遍存在的5 类主要地理要素特征,即道路、建筑、水域、植被和其他背景这5 个类别。增加具有明确语义信息的主要地理要素特征作为输入,相比于单独的遥感图像更利于指导生成器生成高质量地图。对于第2 个难点,即地理要素域间差异性,提出方法利用双阶段生成框架缓解地理要素域间差异性导致的地图地理要素几何外观生成不准确情况。遥感图像和地图图像的地物信息不完全对应,存在几何形状上的差异,仅使用一个生成器难以生成准确的地图图像。双阶段生成框架利用第1个生成器生成初步地图图像,然后利用第2个生成器对初步生成的地图进行修正,使用实际地图作为约束,显式学习初步生成地图到实际地图地物信息的几何形状修复任务。双阶段生成框架能够修正初步地图中存在的几何形状不正确的地理要素,缓解地理要素域间差异性导致的地图地理要素几何外观生成不准确情况,使其更加贴近实际地图。提出方法模型如图2 所示,具体可以分为基于Transformer的特征提取模块、初步对抗生成模块和精修对抗生成模块这3个模块。
图2 本文方法模型结构图Fig.2 The model structure chart of the proposed method((a)model process;(b)structure of feature extraction module based on Transformer;(c)structure of preliminary/refined generative adversarial module)
地图图像中存在一些频繁出现的地理要素,称为主要地理要素,如道路、水域、植被、建筑和其他背景。主要地理要素占据地图绝大部分面积,对地图的准确性和质量影响较大。
为了使得特征提取模块能够有效提取出对应的特征信息,数据集中提供了包含这5 种主要地理要素的分割图。图1(c)为可视化的分割图,分割图中所有地理要素均为同一颜色,如在地图图像中建筑有两种颜色,而分割图像中建筑仅表示建筑这个种类,故用一种颜色标识。模型将利用特征提取模块提取包含主要地理要素的特征,使得生成器能关注这些主要的地理要素。特征提取模块最重要的作用是提取出有效的地理要素特征,其本质上类似一种语义分割网络,需要将不同语义信息赋予像素。考虑到特征提取模块需要尽可能准确地提取出有效的特征,因此采用最新的Transformer 结构作为特征提取骨干网络。为了从复杂的遥感图像中提取有效的地理要素特征,需要较大的感受野以覆盖物体整体,提取较强的语义信息。Transformer 结构基于自注意力机制,构建了图像各像素之间的关系,具有更广的感受野,能更有效地提取特征信息(Dosovitskiy 等,2021)。具体来说,该模块分为两个部分,第1 部分为骨干网络,用于提取有效的特征信息。骨干网络采 用Swin-Transformer(Liu 等,2021)结 构,利 用Transformer 强大的建模能力,能够有效地提取出遥感图像特征。第2 部分为分割网络,包括主干分割网络和辅助分割网络两个组成部分。主干分割网络由金字塔池化模块(pyramid pooling module,PPM)(Zhao 等,2017)和特征金字塔(feature pyramid network,FPN)(Lin 等,2017)组成,利用特征金字塔提取多层次的特征信息,将高层地理要素语义信息融入中层和低层地理要素语义信息中,同时利用PPM引入全局语义信息,进而获取更有效的地理要素特征。辅助分割网络由一个轻量级的全卷积网络(fully convolutional network,FCN)(Long 等,2015)组成,该网络对骨干网络提取特征进行处理,生成辅助标签信息,用于在训练时进一步约束骨干网络,使其提取的特征信息更加准确。
初步对抗生成模块用于实现地图生成,其结构基于CGAN(Mirza 和Osindero,2014),在判别器中加入实际地图作为约束,使其生成匹配实际地图的图像。该模块的作用是生成初步地图图像,用于后续的精修对抗生成。该模块分为初步生成器和判别器。考虑到生成图像的高分辨率,该模块设计为一种多尺度的初步生成器和判别器,用于处理高分辨率的遥感图像。
初步生成器的输入包括遥感图像和主要地理要素特征,输出为初步地图图像,其中遥感图像和主要地理要素特征进行concat 合并,如图2(a)所示。该生成器由两个子网络组成,即一个全局生成器和一个局部生成器。全局生成器的输入是下采样的遥感图像和主要地理要素特征,这增大了感受野,使得模型关注到更大范围的信息。局部生成器关注地图细节特征的生成,输入的尺度为原始分辨率,并通过相加融合全局生成器生成的低分辨率地图,如图2(c)所示。基于这种结构,生成器能更好地利用高分辨率图像的特征,生成高质量的图像。
判别器的输入为初步地图图像和遥感图像,输出为单通道置信度图,用于约束地图生成,提高生成地图的质量。为了处理高分辨率图像,判别器也设计为多尺度形式。判别器由3 个子判别器组成,它们具有相同的结构,接收不同尺寸的地图图像和遥感图像。3 个子判别器输入的图像尺寸分别为原始尺寸、2倍下采样和4倍下采样。每个子判别器均由3 个步幅为2 的下采样卷积层和两个步幅为1 的卷积层组成。
通过使用初步对抗生成模块,可以得到初步地图图像,该初步地图由于真实环境中存在的地理要素层叠问题,地理要素难以准确分布,因此需要进一步提高地图图像质量。
初步地图由于地理要素域间差异性,往往存在局部地图生成不准确的情况。精修对抗生成模块的作用是学习实际地图中地理要素的几何特征,用于修正初步地图中存在的地理要素几何外观不准确的情况,进而得到高质量的精修地图图像。该模块分为精修生成器和精修判别器。
精修生成器的输入为初步地图图像,输出为精修地图图像。该生成器结构与初步生成器相同,都由全局生成器和局部生成器组成,用于处理高分辨率的遥感图像。精修判别器的输入输出和功能均与初步判别器相同,为了减少模型参数量,精修对抗生成模块与初步对抗生成模块共用同一个判别器。
通过使用精修对抗生成模块,可以对初步地图中不准确的地理要素进行修正,得到更准确的地图图像。
对于该模型的各个模块,分别设计了对应的损失函数。整个模型的损失函数可以分为两个部分,对抗生成损失函数Lgan和特征提取损失函数Lextr。Lgan为模型中初步对抗生成模块和精修对抗生成模块的损失函数,位于图2中绿色部分。Lextr为模型中基于Transformer 的特征提取模块的损失函数,位于图2中紫色部分。
2.4.1 对抗生成损失函数
对于对抗生成损失函数Lgan而言,它由两部分组成,分别是初步生成对抗网络的损失函数和精修生成对抗网络的损失函数,即
式中,λ′和λ″为损失函数的比例系数,分别设置为1和4。
式中,λcon、λadv、λper和λfm分别是各损失函数的比例系数,令λadv为1,λcon、λper和λfm为10 进行平衡损失。下面将逐个介绍该模型使用的损失函数。
1)内容损失函数Lcon计算的是生成图像与真实图像之间的像素差距,添加该损失函数可以使生成器生成更精确的图像,具体为
式中,N是图像的像素数,Im是实际地图,Ir是遥感图像,G1是初步生成器。
2)对抗损失函数Ladv是生成对抗网络的基础损失函数,用于生成器和判别器的训练,可以使得生成的图像细节更加逼真,具体为
式中,D是判别器。
3)感知损失函数Lper关注特征图之间的距离,常用于提升生成的地图的整体视觉质量,具体为
式中,F为特征提取网络,i用于指定F的第i层特征图,n为特征提取网络层数。该损失函数使用VGG16(Visual Geometry Group 16-layer)(Simonyan和Zisserman,2015)作为特征提取网络。
4)特征匹配损失函数Lfm有助于稳定训练。它计算的是判别器中提取的真实图像和生成图像之间的差异,具体为
式中,n表示判别器总层数。
2.4.2 特征提取损失函数
对于特征提取网络而言,其本质上是一个像素级语义分割任务。因此,可以选择使用交叉熵损失函数(de Boer 等,2005)作为特征提取损失函数,即
式中,Ldec作为交叉熵损失函数,计算的是最终输出和实际标签之间的距离,而Laux作为交叉熵损失函数,计算的是辅助FCN 分支的输出和实际标签之间的距离。令λdec=1和λaux=0.4进行平衡损失。
Ldec交叉熵损失函数计算为
式中,N为样本量,M为分割的类别数量,y为实际标签的分布,p为最终输出的标签分布。Laux的计算与Ldec相似,不同之处在于输入是辅助分割网络得到的标签分布。
在Ubuntu20.04 64位系统上搭建深度学习开发环境,选用PyCharm 作为集成开发环境,实验框架基于Python 语言实现,选用深度学习框架为Pytorch。主要配置为64.0 GB 内存,Intel Core i9-10850 @ 3.60 GHz CPU,显 卡(GPU)型号为NVIDIA GeForce RTX 3090,显存24 GB。深度学习开发环境为Python 3.7.9和PyTorch 1.7.1。
为了充分验证提出的方法,实验在AIDOMG(Fu等,2022)数据集上进行。它是目前最大的用于遥感图像生成地图的数据集。该数据集包含6 个不同大洲的9 个不同区域的数据。数据包括遥感图像、地图图像和语义分割标签。不同地区的城市具有不同的光照条件、植被类型和建筑风格,这使得不同区域的遥感图像的地貌特征差异较大。
此外,为了定量准确地评估模型的生成效果,实验使用FID(Frechet inception distance)、WD(Wasserstein distance)和1-NN(1-nearest neighbor)score 作为度量。这些指标通常用来评价GAN 的生成结果,并且这些指标在辨别性、健壮性和效率方面效果不错。此外,为了更全面评价,实验还采用经典的峰值信噪比(peak signal to noise ratio,PSNR)作为评价指标。FID 和WD 越低,1-NN 越接近0.5,PSNR 越高,结果越好。
对于基于Transformer的特征提取模块和两个对抗生成模块选用不同的优化器针对性地训练。使用AdamW(adaptive moment estimation with weight decay)对基于Transformer 的特征提取模块进行优化,并设置β1=0.9,β2=0.999,设置初始化学习率为0.000 015,采用热启动的方式,热启动步数设置为1 500。同时,使用在ImageNet(Deng 等,2009)上预训练的Swin-Transformer 模型初始化骨干网络,并随机初始化其余部分。对于两个对抗生成模块,使用Adam 优化器进行优化,并设置β1=0.5,β2=0.999。对抗生成模块的参数进行随机初始化。模型训练100个epoch。
为了证明提出方法的有效性,实验部分将提出方法与现有的图像生成方法和地图生成方法进行比较。此外,还对提出方法进行了消融实验,用于说明模型各个模块的作用以及基于Transformer的特征提取模块的优越性。
3.4.1 对比实验
在对比实验中,选取数据集中地貌特征较复杂的城市海口和较简单的城市巴黎进行主要的对比实验。为了使得实验更全面和更有说服力,对比方法选取了7 种图像生成方法:Pix2pix(pixel-to-pixel)(Isola等,2017),Pix2pixHD(pixel-to-pixel high definition)(Wang 等,2018)、CycleGAN(cycle-consistent adversarial network)(Zhu等,2017)、SPADE(spatiallyadaptive DE)(Park 等,2019),SelectionGAN(multichannel attention selection generative adversarial network)(Tang 等,2019)、TSIT(two-stream image to image translation)(Jiang 等,2020)和LPTN(laplacian pyramid translation network)(Liang 等,2021)以及现有最新的两种地图生成方法SMAPGAN(generative adversarial network-based semisupervised styled map tile generation method)(Chen 等,2021)和CreativeGAN(creative generative adversarial network)(Fu等,2022)。
不同算法在海口和巴黎区域的地图生成结果如表1 和表2 所示。可以看出,提出方法在这两个城市上的大部分指标结果均取得了最优。在海口城市上,提出方法的FID 指标结果为97.99,WD 指标结果为9.701,1-NN 指标结果为0.874 9,PSNR指标结果为27.594 dB。在巴黎城市上,提出方法的FID 指标结果为76.35,WD 指标结果为8.520,1-NN 指标结果 为0.681 9,PSNR指标结果为27.183 dB。可以发现,提出方法的结果在这些GAN评价指标上远超其他方法,这足以证明提出方法的有效性。至于PSNR 指标,因为该指标统计的是像素级别,所以往往值越高并不能代表效果越好。
表1 不同算法在海口区域的地图生成结果Table 1 Quantification of map generation results of different algorithms in Haikou area
表2 不同算法在巴黎区域的地图生成结果Table 2 Quantification of map generation results of different algorithms in Paris area
图3 和图4 分别展示了对比方法与提出方法在海口和巴黎两个城市上的可视化结果图。可以发现,大部分的方法难以生成准确的且较为对应的道路、建筑和植被等地理要素。提出方法无论是在地理要素的完整程度上,还是分布位置上均显著超过其他方法生成的地图图像。这说明了提出方法生成的地图能更准确贴合实际地理情况,具有较高的实际应用价值。在表1 和表2 中,PSNR 指标最高的算法为SMAPGAN,但是从图3 和图4 中可以明显发现,SMAPGAN 的视觉效果不如提出方法。目前有一些研究(Ledig 等,2017)也发现传统指标PSNR 等难以准确描述生成的图像质量。仍保留PSNR 指标的原因是该指标虽然不能有效比较不同模型的结果优劣,但是在消融实验部分仍能说明模块改动的有效性。
图3 生成地图在海口区域的可视化结果Fig.3 Visualization results of each method in Haikou area experiment((a)remote sensing image;(b)image of Pix2pix;(c)image of Pix2pixHD;(d)image of CycleGAN;(e)image of CreativeGAN;(f)image of SMAPGAN;(g)image of SPADE;(h)image of SelectionGAN;(i)image of TSIT;(j)image of LPTN;(k)ours;(l)real map image)
图4 生成地图在巴黎区域的可视化结果Fig.4 Visualization results of each method in Paris area experiment((a)remote sensing image;(b)image of Pix2pix;(c)image of Pix2pixHD;(d)image of CycleGAN;(e)image of CreativeGAN;(f)image of SMAPGAN;(g)image of SPADE;(h)image of SelectionGAN;(i)image of TSIT;(j)image of LPTN;(k)ours;(l)real map image)
此外,为了进一步说明提出方法的泛化性,选取了在海口和巴黎区域上除提出方法模型外表现最优的模型CreativeGAN,在AIDOMG 数据集的其他城市上与提出方法进一步比较。如表3 所示,提出方法在其他7 个区域上各指标几乎都能够达到最优。模型在不同区域生成地图可能会得到不同的效果,特别是当城市地貌特征相差很大时。提出方法在这些不同区域上均取得了最优效果,这证明了提出方法相比对比方法的优越性。
表3 提出方法与CreativeGAN在其他区域上的生成结果Table 3 Quantification of the generation results of our method and CreativeGAN on other regions
3.4.2 消融实验
消融实验分为两个部分,实验1 基于初步对抗生成模块逐步添加模块,用于说明提出方法中各个模块的效果及带来的影响;实验2 替换不同的特征提取模块,用于说明基于Transformer 的特征提取模块的优越性。
实验1 基于初步对抗生成模块逐步添加模块,表4 展示了在初步对抗生成模块上逐步添加基于Transformer 的特征提取模块和精修对抗生成模块的消融实验结果。可以发现,随着模块的添加,FID、WD 和1NN 指标的数值均比不添加该模块的时候更低,PSNR 指标的数值比不添加该模块的时候更高,这说明了实验结果随着模块的添加而变好。
表4 模型各模块消融实验结果量化情况Table 4 Quantification of ablation experimental results of each module of the model
在加入了基于Transformer 的特征提取模块之后,FID 指标为113.97,效果提高了32.5%,WD 指标为10.008,效果提高了16.6%,1-NN指标为0.899 3,效果提高了9.3%,PSNR 指标为27.361 dB,效果提高了0.49%。这证明了特征提取模块的有效性,具有明确语义信息的主要地理要素特征比单独的遥感图像更能指导生成器生成高质量地图。基于Transformer 的特征提取模块的作用是提供主要地理要素特征,将遥感图像中复杂多样的地理要素进行简化,赋予明确的语义信息,使得模型关注到地图中的主要地理要素生成,生成质量更好的地图。
消融实验可视化结果如图5 所示,其中,图5(c)是加入初步对抗生成模块和特征提取模块的可视化结果,图5(d)是加入初步对抗生成模块、特征提取模块和精修对抗生成模块的可视化结果。从图5 可以发现,添加特征提取模块后道路的分布情况更加准确,建筑部分不应该存在的连接部分被去除,建筑分布更符合实际地图中的建筑分布情况,背景也更符合实际地图背景分布,没有占据道路的分布位置。
图5 消融实验可视化结果Fig.5 Visualization results of ablation experiment((a)remote sensing images;(b)images of preliminary generative adversarial module;(c)images of preliminary generative adversarial module+feature extraction module;(d)images of preliminary generative adversarial module+feature extraction module+refined generative adversarial module;(e)real map)
在加入了精修对抗生成模块之后,FID 指标为97.99,提高了14.0%,WD 指标为9.701,提高了3.1%,1-NN 指标为0.874 9,提高了2.7%,PSNR 指标为27.594 dB,提高了0.9%。结果表明,精修对抗生成模块能有效修正不准确的地理要素,缓解了地理要素域间差异性导致的地理要素分布不准确问题,进而得到更好的地图图像。从图5 中可以发现,添加该模块后视觉效果整体更接近真实地图,原本地图中地理要素存在边缘不平滑现象得到了修正,使得地图更加贴近真实地图。
图6 展示了一些PSNR 指标与视觉效果和FID指标相反的例图,进一步说明PSNR 并不能很好地评估图像质量,需要结合其他评价指标共同评价。
图6 视觉效果与指标结果相反例图Fig.6 Examples of the opposite of visual effect and metrics
实验2 选择了多种语义分割网络作为模型中的特征提取模块,表5 展示了提出方法使用不同特征提取模块的实验结果。可以发现,当使用基于Transformer 的特征提取模块时,实验结果在大部分评价指标上取得了最优,这证明了Transformer 具有更强的建模能力,能够有效提取出特征信息,指导生成器生成高质量的地图图像。
表5 模型选用不同特征提取模块消融实验结果量化情况Table 5 Quantification of ablation experimental results with different feature extraction modules
本文提出了一种Transformer特征引导的双阶段地图智能生成方法。本文方法提出了基于Transformer 的特征提取模块和双阶段生成框架,缓解了地图生成任务中地理要素类内差异性和地理要素域间差异性导致的高质量地图生成困难问题。本文方法利用基于Transformer的特征提取模块提取有效且类内一致的地理要素特征,用于指导生成器生成地图,有效缓解了地理要素类内差异性导致的地图生成困难的情况。同时,本文方法利用双阶段生成框架,以实际地图为监督,显式学习初步生成地图到实际地图地物信息的几何形状修复任务,缓解了地理要素域间差异性导致的地理要素几何外观不准确的情况,得到更高质量的地图图像。本文方法在多个城市数据集上表现效果优于对比方法,在多个数据集上效果最佳,大部分的地理要素在生成地图上均能对应。但是本文方法所生成的地图质量距离实际应用仍存在一定差距,尤其是存在严重遮挡问题时,如图7 所示。其原因可能是当地理要素遮挡严重的时候,特征提取模块难以准确提取出有效的特征信息用于辅助地图生成。后续工作将考虑在方法中添加额外的约束条件,辅助特征信息的提取,以提高地图生成质量。
图7 生成失败例图Fig.7 Examples of failure generation((a)remote sensing images;(b)generated images;(c)map images)