MtSCCD:面向深度学习的土地利用场景分类与变化检测数据集

2024-03-20 01:08周维勋刘京雷彭代锋管海燕邵振峰
遥感学报 2024年2期
关键词:变化检测时相土地利用

周维勋,刘京雷,彭代锋,管海燕,邵振峰

1.南京信息工程大学 遥感与测绘工程学院,南京 210044;

2.北京师范大学 遥感科学国家重点实验室,北京 100875;

3.武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079

1 引言

高空间分辨率遥感影像能够获取地物的纹理、结构等细节信息,因此广泛应用于土地利用/土地覆盖相关任务,其中土地利用场景分类与变化检测是广受遥感领域研究人员关注的研究热点。土地利用场景分类是从高分影像中提取图像的语义信息从而识别场景对应的土地利用类型(白坤 等,2022;钱晓亮 等,2018),土地利用场景变化检测则是利用多时相的遥感影像监测土地利用类型的变化情况(眭海刚 等,2018;张良培和武辰,2017),二者对于城市发展规划和土地利用优化具有重要的指导意义(袁静文 等,2020)。

土地利用场景分类与变化检测的关键在于获取表征能力强的图像特征。深度学习通过层次化的深层网络结构能够实现特征的自适应学习(LeCun等,2015),因此面向自然图像的众多方法和模型被借鉴并用于遥感领域,形成一种新的基于数据驱动的遥感信息提取范式(Ma 等,2019;Zhang等,2016;Zhu等,2017)。对于一个有效的深度学习模型来说,高质量、大规模的遥感图像标注样本是必不可少的(冯权泷 等,2022)。在这一背景下,国内外学者发布了多个面向深度学习的遥感数据集,包括遥感图像军用飞机目标识别数据集MAR20(禹文奇 等,2022)、SAR 建筑数据集SARBuD1.0(吴樊 等,2022)、点云基准数据集WHU-TLS 和WHU-MLS(杨必胜 等,2021)。对于土地利用场景分类,当前有多个包含土地利用场景的数据集,如UC Merced(Yang 和Newsam,2010)、WHU-RS19(Xia 等,2010)、RSSCN7(Zou 等,2015)、AID(Xia 等,2017)、NWPURESISC45(Cheng 等,2017)、PatternNet(Zhou等,2018)、天宫一号高光谱数据集(刘康 等,2020)。但上述数据集仅包含少部分土地利用类别,且数据集侧重的是目标而非土地利用类型。例如,PatternNet 数据集中包含飞机、飞机跑道、桥梁、篮球场、足球场等目标,不能直接反应土地利用类型。作为土地利用类型变化的有效监测方法,当前的变化检测研究大多是像素级的(Cheng 等,2022)。然而,从土地利用的角度来说,场景内部一些地物的变化并不会直接导致场景类别发生变化。例如,一幅居住用地场景内部分房屋变成了裸地,虽然发生了像素级变化,但该场景仍然属于居住用地。因此,从标注成本和实际需求的角度来说,图像级的变化检测数据集更适合土地利用类型监测。现有的图像级土地利用变化检测数据集包括MtS-WH(Wu 等,2017,2016)和WH-MAVS(Yuan 等,2022)。其中,MtS-WH 数据集各时相包括190 幅训练集影像、1920 幅测试集影像,由于样本数量较少,不适合基于深度学习的土地利用变化检测研究。与MtSWH 不同,WH-MAVS 数据集的样本数量更多,各时相包括16496 幅训练集影像、4713 幅验证集影像和2356 幅测试集影像,且包含的更多的土地利用类型。但WH-MAVS 数据集存在以下几个局限:(1)部分土地利用类型划分粒度过细。例如,一类、二类和三类居住用地的主要区别在于建筑物的高度或者密度,无论是前期样本构建还是后期的土地利用类型识别,三者都是比较容易混淆的,因此将3个类别合并为居住用地更为合理。(2)数据集中的样本仅包括武汉市中心城区的土地利用场景,由于不同城市的土地利用规划与景观格局存在差异,因此构建覆盖更多城市的土地利用数据集有利于训练泛化性能更好的深度学习模型。(3)数据集中训练集、验证集与测试集是按一定比例随机划分的,这种划分方式不符合真实的业务需求,且不能评估模型的泛化性能。例如,实际业务应用中,往往是将训练好的深度学习模型用于和训练集不重合的区域,这样不仅可以实现模型的重复利用,而且可以验证模型的泛化性能。(4)数据集不开源,不能用于模型训练和算法评估。

为了推动高分辨率土地利用场景分类与变化检测的研究进展,针对现有土地利用分类与变化检测数据集存在的局限性,本文利用高分辨率遥感影像构建了面向深度学习的大规模场景分类与变化检测数据集MtSCCD(Multi-temporal Scene Classification and Change Detection)。该数据集具体包 括MtSCCD_LUSC(MtSCCD Land Use Scene Classification)和MtSCCD_LUCD(MtSCCD Land Use Change Detection)两个子数据集,分别用于土地利用场景分类与变化检测研究。基于两个子数据集,本文进一步评估了多个场景分类与变化检测深度学习方法,为后续研究提供了参考基准。MtSCCD 的两个子数据集MtSCCD_LUSC 和MtSCCD_LUCD 分别与现有场景分类和变化检测数据集的对比如表1所示。可以看出,对于土地利用场景分类和变化检测两个任务来说,MtSCCD 数据集在图像分辨率、样本数量、数据组织方式、开放获取等方面具有明显的优势。

表1 MtSCCD数据集与现有的场景分类与变化检测数据集对比Table 1 Comparison between MtSCCD and the existing datasets

2 MtSCCD数据集

2.1 数据来源与标注

为了保证MtSCCD 数据集中土地利用场景图像的多样性以便更好地评估土地利用场景分类与变化检测算法,本文选择杭州、合肥、南京、上海和武汉5个城市中心区域的高分影像作为数据源,并且每个城市的数据均包含同区域两个时相的影像。高分辨率影像来自World Imagery(https://livingatlas.arcgis.com/wayback[2023-06-13]),空间分辨率大约为1 m,包括R、G、B这3个波段。

对大尺寸高分辨率影像按照300×300像素大小进行裁剪得到土地利用场景图像,图像的命名格式为:xx_yyyymm_nx_ny_c。其中,xx 表示城市的首字母缩写,yyyymm表示影像获取的年份和月份,nx 和ny 表示图像裁切时在原影像中的位置编号,c表示场景类别。

本文参考城市用地分类与规划建设用地标准(GB50137-2011)(http://www.risn.org.cn/Xxbz/ShowForceStandard.aspa?Guid=61387[2023-06-13])和现有公开的城市土地利用数据(Wu 等,2016;Yuan 等,2022),确定了MtSCCD 数据集中土地利用场景的分类体系,具体包括居住用地(residential land)、公商用地(public service and commercial land)、教育用地(educational land)、工业用地(industrial land)、交通用地(transportation land)、农业用地(agricultural land)、水体(water body)、绿地(green space)、林地(woodland)、裸地(bare land)共10种类别。杭州、合肥、南京、上海和武汉5个城市的土地利用场景经目视解译后分别划分到上述10 个土地利用类别。为了保证数据集质量,人工标注过程中丢弃成像质量不高的场景图像(如不清晰、云雾遮挡等),并对难以确定类别的土地利用场景借助Google Earth影像进行解译。

MtSCCD 数据集中5 个城市两个时相各类别场景的数目、标签(类别编号)、影像的获取时间如表2 所示。由表2 可知,各城市两个时相的影像的获取月份比较接近,这样可以充分降低季节因素对地物的影响,便于后续构建土地利用场景分类与变化检测数据集。但由于裁剪获取土地利用场景样本时去掉了样本的坐标信息,因此无法绘制各城市的采样点分布图,导致不能展现采样时的空间分异性以及评估样本空间分布的合理性,这是MtSCCD数据集的一个缺陷。

表2 MtSCCD数据集各城市土地利用数据概况Table 2 Overview of the land use data of each city in the MtSCCD dataset

2.2 数据集的构建

2.2.1 MtSCCD_LUSC子数据集

由表2可知,各城市同一类别的土地利用场景均包括两个时相,而两个时相的同类别场景必然是有差异的。因此,为了增加每个土地利用类别的图像数目且使图像库更具挑战性,将两个时相的数据合并构建MtSCCD_LUSC 子数据集。首先,把每个城市两个时相的数据按照类别进行合并得到单时相场景数据;然后,分别将杭州、上海、武汉3 个城市各类别数据按照80%和20%的比例划分为训练集与验证集;最后,将南京与合肥两个城市的数据作为两个测试集,其中,测试集A和测试集B分别为合肥和南京的土地利用数据。

表3 给出了MtSCCD_LUSC 数据集中训练集、验证集以及测试集的划分情况,可以看到,训练集和验证集分别包含36215 和9053 幅图像,测试集A 和B 分别包含10156 和10124 幅图像。同时,从图1给出的各土地利用类别的样本图像可以看出MtSCCD_LUSC 数据集类内差异较大(如交通用地、公商用地)。因此,MtSCCD_LUSC 是一个大规模且具有挑战性的土地利用场景分类图像库,可用于基于深度学习的场景分类方法研究。

图1 MtSCCD_LUSC数据集各类别图像实例Fig.1 Example images of each category in the MtSCCD_LUSC dataset

表3 MtSCCD_LUSC数据集划分Table 3 Data splits in MtSCCD_LUSC dataset

2.2.2 MtSCCD_LUCD子数据集

MtSCCD 数据集中每个城市均包含两个时相的土地利用场景数据,因此可以利用各城市的数据直接构建MtSCCD_LUCD 子数据集。首先,分别将5个城市时相1和时相2的各类别数据合并在一起,得到各城市时相1 和时相2 的数据;然后,按照80%和20%的比例依次将杭州、上海、武汉3个城市的时相1 与时相2 的数据随机划分为训练集与验证集,划分时需保证训练集与验证集中同一地面区域两个时相的场景图像同时划分到训练集或验证集;最后,将南京与合肥两个城市的数据作为测试集,其中,测试集A和测试集B分别为合肥和南京的土地利用数据。MtSCCD_LUCD 是图像级的变化检测数据集,支持二值变化(即场景类别是否发生变化)和类别变化(即场景的变化类别)两种检测任务。表4 给出了MtSCCD_LUCD 数据集中训练集、验证集以及测试集的划分情况,可以看到,训练集和验证集分别包含18108 和4526 幅图像对,测试集A 和B 分别包含5078 和5062 幅图像对,各类别变化与未变化图像实例如图2所示。

图2 MtSCCD_LUCD 数据集各类别变化与未变化图像实例Fig.2 Changed and unchanged example images of each category in the MtSCCD_LUCD dataset

表4 MtSCCD_LUCD数据集中训练集、验证集与测试集的划分Table 4 Data splits of training set,validation set and testing set in MtSCCD_LUCD dataset

此外,由表5给出的土地利用场景变化矩阵可知,MtSCCD_LUCD 数据集包含丰富的土地利用变化,共有14.52%的场景发生了变化。具体来说,时相1 中4.27%的居住用地发生了变化,6.81%的交通用地发生了变化,18.68%的绿地发生了变化。此外,工业用地、农业用地、绿地和裸地的变化比例较高,分别为20.04%、36.77%、18.68%和79.26%。因此,MtSCCD_LUCD 是一个大规模的土地利用场景变化检测图像库,包含丰富的土地利用场景变化信息,可用于基于深度学习的场景变化检测方法研究。

表5 MtSCCD_LUCD数据集土地利用场景变化矩阵Table 5 Land use scene change matrix of MtSCCD_LUCD dataset

2.3 数据集的特点

MtSCCD 数据集是一个面向深度学习的高分辨率遥感土地利用场景数据集,支持场景分类与变化检测研究,具有以下特点:(1)图像数量大规模:MtSCCD 是目前公开的规模最大的高分辨率土地利用场景分类与变化检测数据集,MtSCCD_LUSC和MtSCCD_LUCD 两个子数据集均包含65548 幅图像和10 种土地利用类型。(2)高度可扩展性:MtSCCD 数据集是根据城市分别划分训练集、验证集以及测试集,因此具有较高的可扩展性。后续对于新增的城市土地利用数据,可以按照一定比例划分到训练集与验证集,或直接作为测试集,实现数据集的灵活扩充。(3)符合实际应用场景:MtSCCD_LUSC 和MtSCCD_LUCD 两个子数据集中训练集和验证集与测试集不重合,即模型训练和测试所用的数据来自不同区域,因此更符合实际应用场景。此外,这种不重合的数据集划分方式也有利于验证模型的泛化性能。(4)场景类内差异大:MtSCCD 数据集包含5 个城市的土地利用数据,而不同城市的同类别土地利用场景受成像条件等因素的影响存在较大的视觉差异。同时,MtSCCD 数据集构建分类体系时,对于相近的类别进行了合并,进一步增加了场景的类内差异性。例如一类、二类、三类居住用地统一划分到居住用地,道路、铁路、桥梁统一划分到交通用地。类内差异大使得MtSCCD 数据集对训练的模型更具挑战性。

3 MtSCCD数据实验与分析

本节以MtSCCD 数据集为基础,对基于深度学习的土地利用场景分类与变化检测方法进行评估。

3.1 评价指标

为了评价土地利用场景分类与变化检测方法的精度,本文基于混淆矩阵,采用总体精度OA(Overall Accuracy)和Kappa 系数作为评价指标。其中,对于场景变化检测,由于本文研究的是二值变化检测(即土地利用类型发生变化和未发生变化两类),因此以变化场景为正类、未变化场景为负类,采用二分类混淆矩阵来计算总体精度和Kappa系数。

3.2 实验设置

对于土地利用场景分类任务,本文选择常用的网络,包括AlexNet(Krizhevsky 等,2012)、VGG网络(VGG16 和VGG19)(Simonyan 和Zisserman,2015)、GoogLeNet(Szegedy等,2015)、ResNet系列网络(ResNet18、ResNet50、ResNet101)(He 等,2016)、DenseNet(Huang 等,2017)、EfficientNet(Tan 和Le,2019)、SENet(Hu 等,2018)、ViT(Vision Transformer)(Dosovitskiy 等,2021)和SwinT(Swin Transformer)(Liu 等,2021)进行分类。其中,AlexNet 和VGG 网络提取第一个全连接层的输出作为特征,GoogLeNet 和ResNet 网络提取最后一个池化层的输出作为特征,训练SVM 分类器进行分类,其余网络直接用自带的分类器进行分类。具体训练时,以预训练网络为基础进行训练。其中,AlexNet、VGG、GoogLeNet、ResNet 的学习率设置为8E-5,批次大小50,优化器sgdm。DenseNet 和EfficientNet 的学习率为1E-3,批次大小分别为50 和128,优化器sgdm,预训练网络分别采用densenet201 和efficientnetb0。SENet、ViT和SwinT 的学习率为1E-4,批次大小32,优化器sgd(SwinT 采用AdamW),采用的预训练网络分别为se_resnet50、vit_base_patch16_224_in21k 和swin_tiny_patch4_window7_224。

对于土地利用场景变化检测任务,本文选择两种变化检测方法,一是常规的基于分类的“先分类后检测”方法CDC(Change Detection after Classification),二是基于场景相似度的变化检测方法,包括CNN 特征相似性度量方法CFSM(CNN Feature Similarity Measure)和基于相似性学习的变化检测方法SSCD(黄宇鸿和周维勋,2022)。图3给出了两种变化检测方法的基本流程,可以看出利用场景对相似性进行变化检测是一种更为简单的方法,能够避免基于分类的方法中的两次分类过程。

图3 基于分类和相似性的变化检测基本流程Fig.3 Flowchart of classification-based and similarity-based change detection

CDC方法包括两个:一是利用场景分类任务中训练的AlexNet、VGG19、GoogLeNet和ResNet101提取时相1和时相2土地利用场景的特征训练SVM 进行变化检测,或利用训练的DenseNet、EfficientNet、SENet、ViT、SwinT 直接分类进行变化检测,记为CDC_1;二是参考手工特征与视觉词袋模型BoVW(Bag of Visual Words)结合的思路(Wu等,2016),利用上述4个网络提取最后一个卷积层的特征,并采用BoVW对卷积层特征进行编码得到特征向量用于训练SVM 进行变化检测,记为CDC_2,其中字典大小设置为128。CFSM 方法同CDC_1 方法,不同之处在于提取特征后通过欧氏距离计算两个时相场景的相似度进行变化检测。其中,DenseNet、EfficientNet、SENet、ViT、SwinT 网络从分类层的前一层提取特征计算相似度。SSCD 方法也是利用场景相似度进行变化检测,但与CFSM 方法不同,SSCD 是通过网络直接学习场景的相似度。此外,对于CFSM 和SSCD 两种相似性变化检测方法,本文采用相似度阈值搜索方法(黄宇鸿和周维勋,2022)获取相似度阈值,且相似度阈值通过验证集获取。

3.3 MtSCCD_LUSC数据集实验结果

表6 给出了各网络对MtSCCD_LUSC 的测试集A 和B 的分类结果,可以看出网络层较浅的AlexNet 在测试集A 和B 上的效果最差,但简单增加网络深度并不能明显提升分类精度,例如ResNet18、ResNet50 和ResNet101 分类性能基本一致,且和VGG16、VGG19、GoogLeNet 相比,也并没有表现出明显优势。ResNet 之后提出的新型网络结构,如DenseNet 和EfficientNet,取得了更好的分类结果,尤其是DenseNet,在两个测试集上的精度最高。此外,SENet、ViT 和SwinT 等3 个网络均在特征提取时考虑了注意力,整体上分类效果比传统网络更好。若采用更优的预训练网络,有望进一步提升分类精度。

表6 MtSCCD_LUSC数据集不同网络分类结果Table 6 Scene classification results of different networks on MtSCCD_LUSC dataset

为了进一步分析MtSCCD_LUSC数据集的分类结果,选择AlexNet、VGG19、GoogLeNet、ResNet101、DenseNet、EfficientNet、SENet、SwinT绘制了在测试集A和B上分类结果的混淆矩阵(行表示真实结果,列表示分类结果,方格颜色越深表示数值越大),分别如图4 和图5 所示。图4、图5 中AL 表示农业用地、BL 表示裸地、EL 表示教育用地、GS 表示绿地、IL 表示工业用地、PSCL 表示公商用地、RL表示居住用地、TL 表示交通用地、WB 表示水体、WL 表示林地。由混淆矩阵可知,公商用地与工业用地、居住用地以及交通用地混淆严重,从而分类精度相对较低,这与土地利用场景的实际情况一致,即4种土地利用类型视觉上相似性较高,如图1所示。

图4 MtSCCD_LUSC测试集A各网络的分类结果混淆矩阵Fig.4 Confusion matrixes for each network on testing set A in MtSCCD_LUSC dataset

图5 MtSCCD_LUSC测试集B各网络的分类结果混淆矩阵Fig.5 Confusion matrixes for each network on testing set B in MtSCCD_LUSC dataset

3.4 MtSCCD_LUCD数据集实验结果

表7 给出了传统分类后检测方法(CDC_1 和CDC_2)和基于相似度的变化检测方法(CFSM 和SSCD)对MtSCCD_LUCD 数据的变化检测结果。由表7 中结果可知,对于测试集A 和B,基于相似度的变化检测方法优于传统的基于分类的变化检测方法。这是因为基于分类的变化检测方法需要对两个时相的场景各做一次分类,从而导致最终的变化检测结果受两次分类的影响较大。与之相反,基于相似度的变化检测利用两个时相场景的相似度阈值判断场景是否发生变化,避免了两次分类带来的误差累积,从而能够得到更好的变化检测结果。此外,对于两种相似度变化检测方法,CFSM(SwinT)的总体精度和Kappa 系数均高于SSCD 方法,尤其是显著提升了SSCD 方法的Kappa系数。然而,SSCD 是更具潜力的变化检测方法,主要体现在SSCD 虽然使用VGG16 作为骨干网络提取特征,但总体精度和CFSM(SwinT)相差较小,因此,若以ResNet或Transformer作为骨干网络进行特征提取,SSCD的变化检测精度有望进一步提升。

表7 MtSCCD_LUCD数据集不同方法场景变化检测结果Table 7 Change detection results of different methods on MtSCCD_LUCD dataset

为了直观分析各方法的检测效果,表8给出了MtSCCD_LUCD 数据集部分检测实例。可以看出,对于同一网络,基于相似度方法的检测效果优于传统的基于分类的检测方法。

表8 MtSCCD_LUCD数据集变化检测实例Table 8 Change detection examples of MtSCCD_LUCD dataset

4 结论

本文利用中国5 个城市中心区域的高分影像,构建了目前规模最大的场景分类与变化检测数据集MtSCCD。该数据集包括MtSCCD_LUSC 和MtSCCD_LUCD 两个子数据集,两个子数据集均包含10 种土地利用类型,共65548 幅图像。基于上述两个子数据集,本文评估了多个深度学习网络的场景分类与变化检测效果,为相关研究人员提供了重要参考。最后,希望本文构建的MtSCCD 数据集能够促进土地利用类型识别与监测领域的研究进展。

猜你喜欢
变化检测时相土地利用
关于“生命早期因素与女生青春发动时相的关联分析”一文的专家点评
用于遥感图像变化检测的全尺度特征聚合网络
心房颤动患者单心动周期绝对时相收缩末期冠状动脉CT成像研究
基于多尺度纹理特征的SAR影像变化检测
基于稀疏表示的视网膜图像对变化检测
基于Landsat影像的黄丰桥林场森林变化检测研究
土地利用生态系统服务研究进展及启示
抑郁症患者急性时相反应蛋白水平检测及其临床意义
滨海县土地利用挖潜方向在哪里
3D VOI 技术在SPECT三时相骨显像对股骨头坏死早期诊断的应用