土地利用/覆被深度学习遥感分类研究综述

2022-04-07 13:55:26冯权泷牛博文朱德海陈泊安杨建宇

农业机械学报 2022年3期

冯权泷牛博文朱德海陈泊安张超杨建宇

(1.中国农业大学土地科学与技术学院，北京 100193； 2.自然资源部农用地质量与监控重点实验室，北京 100193)

0 引言

土地利用/覆被(Land use and land cover, LULC)专题图，是表达自然土地类型以及人类开发利用土地状况的专题要素地图，在资源调查、环境监测、生态保护、城市规划、农业生产等领域具有十分重要的作用。由于遥感具有大范围同步观测等优势，已经成为土地利用/覆被制图的主要数据来源，如何基于遥感影像实现土地利用/覆被的自动分类成为研究热点问题[1-8]。

在深度学习技术[9]兴起以前，土地利用/覆被遥感分类多依赖于人工设计特征与机器学习分类器[10-11]。其中人工设计特征包括归一化植被指数等光谱指数、纹理特征、缨帽变换特征等[12-13]，而机器学习分类器多以决策树、随机森林和支持向量机为主[14-17]。人工设计特征对专家知识的要求很高，同时其鲁棒性和泛化能力存在一定缺陷，导致更换研究区和数据后，已有的遥感分类模型往往不能取得较好的分类结果。

相比于经典机器学习算法，深度学习不需要人工设计特征的环节，而是能够根据损失函数自动提取与目标任务最相关的特征，具有鲁棒性强、模型易于迁移等优势，成为了遥感领域的一个研究热点，并已经应用在城市土地利用分类、滨海湿地土地覆被分类、作物精细分类、道路及建筑等专题要素制图等领域[18-22]。鉴于深度学习的相关研究成果日益增多，本文拟从样本数据集、模型结构、算法策略方面对深度学习在土地利用/覆被遥感分类中的研究进展进行综述，为相关研究人员提供参考。

首先介绍人工智能与深度学习的相关知识，包括卷积神经网络、循环神经网络等常用网络模型；然后从样本角度出发，对现有的土地利用/覆被遥感分类样本集进行综述；其次从深度学习模型的角度出发，综述土地利用/覆被遥感分类中用到的各种深度神经网络模型；再次从模型泛化能力的角度出发，对稀疏样本下深度学习模型的学习策略进行综述；最后对未来研究方向进行展望。深度学习样本-模型-算法总体框架如图1所示。

图1 深度学习样本-模型-算法框架图Fig.1 Flow chart of sample-model-strategy for deep learning

1 人工智能与深度学习技术概述

1.1 人工智能

人工智能是研究用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学[23]。随着大数据技术以及高性能计算的发展和成熟，以深度学习为代表的人工智能已经在语音识别、目标检测、机器翻译等领域取得了超过传统算法的性能，并逐渐受到遥感与地学领域专家的关注和重视。具体而言，人工智能包括许多研究分支，其中机器学习是实现人工智能的一种重要方法，而深度学习作为机器学习的一个分支，通过构建深度神经网络实现对人类大脑认知过程的模拟[9]。

1.2 深度学习

深度学习可以看作经典人工神经网络的“深度”版本，通过增加隐含层数量，从而提高特征学习和表达能力。实际上，深度学习是深度神经网络的同义词，常用的深度学习模型包括卷积神经网络、循环神经网络、生成对抗网络，以及用于语义分割的全卷积神经网络等。

1.2.1卷积神经网络

卷积神经网络(Convolutional neural network, CNN)主要用于计算机视觉(Computer vison, CV)领域[24-27]，通过卷积、池化等操作，对图像的高层语义特征进行提取。

一个典型的卷积神经网络为VGG[25]，主要包含卷积层、池化层、全连接层和分类层。其中，卷积层主要利用卷积算子实现特征向量的计算，并通过多层卷积堆叠，实现多层级的图像特征提取；池化层包括均值池化、最大值池化等，主要为了减小特征图的尺寸；全连接层中所有神经元以全连接的形式进行连接；分类层主要采用softmax分类器。

以自然图像分类为例，相比于经典的机器学习模型，卷积神经网络的优势是将图像特征提取与分类任务集成到一个模型中，通过端到端训练，可以使模型自动学习到最具代表性的图像特征，进而提高分类精度。

1.2.2循环神经网络

循环神经网络(Recurrent neural network, RNN)的输入一般为序列数据(如文本、视频等)，其隐含层之间是存在连接的，t时刻隐含层的输入不仅来自输入层，同时来自t-1时刻隐含层的输出。

循环神经网络的输入是一个序列数据Xt，t时刻隐含层的输出是ht，A表示循环神经网络当前的状态[31]。常用的循环神经网络包括长短时记忆网络(Long short term memory, LSTM)[28]、门控循环单元(Gated recurrent unit, GRU)[29]、Transformer[30]等。由于循环神经网络在处理序列数据方面具有天然的优势[31]，已经被应用在多时相遥感影像分析、高光谱图像分类中，用于建模多时相数据之间以及高光谱不同波段之间的相互依赖关系。

1.2.3生成对抗网络

生成对抗网络(Generative adversarial network, GAN)[32]包括：生成器(Generator, G)和判别器(Discriminator, D)。其中生成器G主要用来学习真实图像的分布，从而使生成的图像更加接近于真实图像；而判别器D主要对生成的图像进行真假判断。生成对抗网络的训练过程是一个min-max的优化问题。

随着网络的迭代训练，生成器G与判别器D不断进行对抗，并最终达到一种动态平衡：生成器G生成的图像十分接近真实情况，判别器D无法判断出图像真假，对于给定图像预测为真的概率为50%。在遥感领域，生成对抗网络主要用于模拟样本的生成和模型的对抗训练。

1.2.4全卷积神经网络

全卷积神经网络(Fully convolutional network, FCN)是将卷积神经网络CNN中的全连接层替换为卷积层所形成的，被用于图像语义分割任务中，并在医学图像分割等领域[33-36]得到应用。相比于基于中心像素所在图像块的分类方式，全卷积神经网络可以减少冗余计算、提高大范围土地利用/覆被制图的效率，受到了广泛关注[37-38]。经典的全卷积神经网络包括FCN[39]、UNet[40-42]、DeepLab[43-46]等模型。

2 土地利用/覆被遥感分类样本研究进展

从样本角度来综述土地利用/覆被遥感分类中样本数据集的研究进展。随着深度学习的快速发展，卷积神经网络[47-49]、循环神经网络[50-51]、全卷积神经网络[52-53]等模型均被应用到土地利用/覆被遥感分类中。然而如何验证不同模型之间的可比性，从而进一步评价模型优劣，成为关键问题。因此，开源样本数据集的构建具有十分重要的意义。

近年来，各国学者、机构发布了一系列土地利用/覆被遥感分类样本数据集，涵盖了不同尺度、传感器类型、时间/空间/光谱分辨率等，为相关研究提供了基准数据支持。本文将其分为两个类型：图像块级样本和像素级样本。其中图像块级样本多来自于遥感场景识别数据集，用一个N×N大小图像块(image-patch)表示一种土地利用/覆被类型。而像素级样本多来自于遥感语义分割数据集，对不同土地利用/覆被的边界进行像素级别的标注。

2.1 图像块级土地利用/覆被遥感分类样本集

基于图像块的土地利用/覆被样本集与遥感场景识别数据集类似，其标注过程表现为对一个N×N的图像块赋以特定的土地利用/覆被类别(图2)。该样本集对应的深度学习模型多为基于CNN或RNN的图像分类模型，优势是标注过程简单，劣势是并不能获取特定地物的边界信息。

图2 图像块级土地利用/覆被样本示例[54]Fig.2 LULC sample based on image-patch[54]

表1列举了广泛使用且具有影响力的图像块级样本数据集，并给出了相关元数据。

如表1所示，图像块级样本集多以航空影像(如UC Merced[54]、SAT-4/SAT-6[58])和高分辨率的Google Earth卫星影像(如WHU-RS19[55]、AID[60]等)为主，空间分辨率多在0.3～2 m之间，然而其光谱分辨率较低，多为RGB或RGB-NIR影像。考虑到深度学习模型训练对于海量标签样本的需求，数据集整体呈现出样本数量不断增加的趋势，从几千发展到几十万不等。此外，少部分数据集以Sentinel-2等多光谱卫星影像作为数据源，其光谱分辨率有所提升，然而其空间分辨率相对较低。

表1 图像块级土地利用/覆被遥感分类样本集Tab.1 Commonly used LULC sample dataset based on image-patch

上述样本集在土地利用/覆被类别数量的设定上存在两种分化。一方面，部分数据集只关心少数概要性的地物类别，如SAT-4数据集仅包含裸地、森林、草地和其它共4类土地覆被类型；另一方面，部分数据集则更关注土地利用/覆被的精细分类，如UC Merced、WHU-RS19、AID等包含几十种具有特定语义的土地利用/覆被类别。

2.2 像素级土地利用/覆被遥感分类样本集

基于像素的土地利用/覆被样本集与遥感语义分割数据集类似，其标注过程表现为对某一特定地物涵盖的所有像素进行标注(图3)。该样本集对应的深度学习模型多为语义分割模型，优势是可以获取地物的准确边界，劣势是标注工作量较大。

图3 像素级土地利用/覆被样本集示例[62]Fig.3 LULC sample based on pixel[62]

由于逐像素的土地利用/覆被制图能够提供更为精细的地物分布情况，对气候、生态、水文等多领域的研究有着重要意义[63]，其样本数据集的发布也日益增加。

常用的像素级样本集如表2所示。可以看出，大部分样本集拥有更多的波段数，但在样本数量、类别等方面都存在局限性。同时，受到光谱分辨率的制约，这类数据集的空间分辨率较低。同时大部分数据集仅为指定研究区内的单幅影像与标注，只有一些最近发布的数据集(如DeepGlobe、GID)其样本数量和空间分辨率较高，但仅为一般的RGB或RGB-NIR影像，光谱分辨率较低。

表2 像素级土地利用/覆被遥感分类样本集Tab.2 Commonly used LULC sample dataset based on pixel

像素级样本集一般具有更为精细的土地利用/覆被类别设定，如GIC发布的Indian pines数据集供包含玉米、小麦等共16种土地覆被类别，GID数据集则包含了工厂、居民区、灌丛等共15种土地利用/覆被类别。

总体而言，相比于图像块级样本集，像素级样本集仍缺乏标注质量高的大规模数据集，且现有的大部分数据集仅针对特定区域，普适性有待提升。

2.3 土地利用/覆被遥感分类样本集影响力分析

以Google Scholar中的论文引用次数作为影响力指标，对常用土地利用/覆被遥感分类样本集进行影响力分析(图4)。如图4所示，基于像素尺度的样本集影响力较大，以GIC发布的Indian pines[65-66]和University of Pavia[65]数据集为代表，且由该团队发布的Salinas[65]和KSC[65]数据集也具有较高的影响力。在图像块尺度的样本集中，经典数据集UC Merced[54]具有最高影响力，国内学者提出的AID[60]和RSSCN7[56]数据集发布时间相对较晚，但由于其在样本数量、质量、尺寸等方面的优势，其近两年影响力逐渐提升。

图4 常用土地利用/覆被遥感分类样本集影响力统计结果Fig.4 Impact statistics of commonly used LULC sample dataset

同时，图4表明国内外学者更多关注基于多/高光谱影像的逐像素分类。一方面由于更多光谱信息的引入，可以有效提高地物的类间可分性，提升分类精度；另一方面，逐像素分类结果能够对土地利用/覆被情况进行更精细的刻画，也利于后续变化检测等任务。同时，图像块级分类受限于大范围制图时的“棋盘效应”，其在遥感场景分类中更受关注。

3 基于深度学习的土地利用/覆被遥感分类模型研究进展

从模型角度，综述土地利用/覆被遥感分类中常用的深度学习模型，包括卷积神经网络(CNN)、循环神经网络(RNN)、全卷积神经网络(FCN)等。

3.1 基于卷积神经网络的土地利用/覆被分类

卷积神经网络因其强大的图像特征提取能力，在土地利用/覆被分类中被广泛应用。在前期研究中，研究人员多倾向于直接使用计算机视觉领域内的经典模型(AlexNet、VGG、ResNet等)或者自行搭建一个简单网络，通过训练基于图像块的分类模型，然后在整个研究区的影像上以滑窗(sliding window)方式得到逐像素或逐图像块的预测结果。其中REZAEE等[69]采用在ImageNet上预训练的AlexNet网络进行了湿地土地覆被制图的研究，并将其与随机森林等经典机器学习模型进行比较，结果表明卷积神经网络可以有效改善湿地土地覆被分类精度。类似的研究如文献[70-76]。

然而上述研究仅仅是借用CV经典模型，并没有考虑到遥感多谱段成像的特点。针对这一问题，研究人员转向了双路(或双分支)卷积神经网络的研究，用于同时学习遥感影像的空间特征和光谱特征。在一个典型的双路神经网络中，包含两个分支或子网络，即空间特征提取子网络和光谱特征提取子网络。其中HUANG等[77]设计了一个双路卷积神经网络模型用于城市土地利用制图，该模型的第1个分支是在ImageNet上预训练的AlexNet网络，用于提取空间特征，第2个分支是由几个卷积层级联形成的小卷积网络(small DCNN)，用于提取光谱特征，最后采用特征堆叠的方法进行空间-光谱特征的融合，并基于WorldView高分辨率影像实现了香港和深圳的城市土地利用制图，取得了91.25%的分类精度。类似的研究如文献[78-80]。

笔者针对城市土地利用遥感分类问题，对双路卷积神经网络进行改进，构建了多尺度残差模块以增强空间特征的代表性和可分性，从而有效提高了分类精度。同时针对滨海湿地土地覆被分类问题[81]，通过引入多源光学、雷达遥感影像，提出了一个多路卷积神经网络模型(图5)，该模型通过多尺度可变形卷积模块提高其对于地物尺寸和形状变异的鲁棒性，并设计了一个深度特征自适应融合模型，用于融合多传感器、多时相的光学和雷达数据，在黄河三角洲取得了93.78%的分类精度，并验证了多传感器数据的融合可以有效增加滨海湿地土地覆被类型之间的可分性。此外，笔者还针对农业塑料覆被[82]、城中村[83]等土地利用/覆被中的专题要素进行了提取。

图5 多路卷积神经网络模型[81]Fig.5 Multi-branch convolutional neural network model[81]

3.2 基于循环神经网络的土地利用/覆被分类

循环神经网络的优势在于对序列信号进行建模，虽然不能像CNN那样对遥感影像的空间特征进行提取，但RNN对光谱特征和时序特征的学习能力要强于CNN，同样被广泛应用于土地利用/覆被的遥感分类研究中[84-92]。

在光谱特征提取方面，RNN被用于多光谱和高光谱影像的分类中，用于建模不同波段之间的相互依赖关系。MOU等[85]针对高光谱影像的土地利用/覆被分类问题，较早使用LSTM、GRU等循环神经网络构建了分类模型。其中模型的输入为单个像素对应的光谱曲线，模型的输出则为对应的土地利用/覆被类别，并在3个航空高光谱数据集上验证了RNN模型的分类效果。后续研究则集中在如何继续优化RNN模型结构，从而提高光谱特征提取能力。文献[86]研究具有典型性，通过构建级联RNN模型进行高光谱分类，该模型由2个RNN级联而成，其中第1个RNN用于去除高光谱影像中的冗余波段，第2个RNN则利用剩余波段进行影像分类。通过上述级联的方式，可以进一步提高模型的分类精度。相关研究还包括文献[87]。

在时序特征提取方面，RNN被用于多时相遥感影像的分类研究中，通过学习多时相影像之间的时序依赖关系，从而提高不同地物的类间可分性以改善土地利用/覆被分类精度。其中，RUΒWURM等[88]基于多时相Sentinel-2号影像，分别采用LSTM和GRU构建了土地覆被分类模型，并在17种地物分类中取得了90%的精度，验证了RNN在时序特征提取中的有效性。类似研究有文献[89-91]，均采用RNN对耕地中的农作物进行了精细分类。

3.3 基于卷积-循环神经网络的土地利用/覆被分类

考虑到CNN的优势在于遥感影像的空间特征提取，而RNN的优势在于光谱特征和时序特征提取，因此将CNN和RNN进行耦合可以实现空间、时序、光谱特征之间的有效融合，并进一步提高土地利用/覆被分类的精度。其中，MEI等[93]基于高光谱影像，分别构建了空间注意力卷积神经网络和光谱注意力循环神经网络模型，分别对高光谱的空间特征和光谱特征进行提取，并通过特征融合进一步提高分类精度。MOU等[94]构建了一个CNN-RNN耦合模型实现了光谱-空间-时序特征的有效提取，其中CNN用于提取遥感影像的光谱-空间特征，而RNN用于提取多时相影像的时序特征，通过级联CNN和RNN模型，实现了土地利用/覆被的变化检测。类似的研究还包括文献[95-98]。

笔者针对小尺度的土地利用/覆被精细分类问题，构建了一种基于循环注意力网络的CNN-RNN耦合模型[99]，并应用在多时相无人机可见光影像的分类中(图6)。具体而言，考虑到无人机影像具有丰富几何结构信息的特点，首先构建多尺度可变形卷积神经网络，对无人机影像进行空间特征提取，以提高模型对于地块形状和尺度变异的鲁棒性；同时构建融合注意力机制的循环神经网络，实现多时相无人机影像空间特征和时序特征的自适应融合；该模型取得了92.80%的分类精度，并验证了循环注意力融合模型在学习多时相特征依赖关系方面的有效性。

图6 循环注意力网络模型[99]Fig.6 Attention-based recurrent convolutional neural network[99]

3.4 基于全卷积神经网络的土地利用/覆被分类

相比于CNN、RNN等模型以基于图像块的方式进行土地利用/覆被分类，全卷积神经网络可以实现像素级的地物分类，在大范围土地利用/覆被制图时其计算效率高的优势较为明显。其中FCN是计算机视觉领域最早提出的全卷积神经网络模型，被广泛应用于土地利用/覆被分类领域。其中张宏鸣等[100]利用FCN-8s模型对灌区无人机影像进行了渠系提取，杨亚男等[101]基于FCN-8s模型对无人机影像中的梯田进行了提取，都取得了较好分类结果。同时，研究人员在FCN的基础上进行了模型改进，如孙钰等[102]针对无人机影像农业塑料覆被分类任务对FCN模型进行了改进，SHRESTHA等[103]提出了一种增强的FCN模型用于提高建筑物的分类精度。相关研究还包括文献[104-105]。

同时，UNet以模型结构简洁、鲁棒性高等优势，受到了遥感领域研究人员的关注，其模型也被不断改进，并广泛应用于土地利用/覆被分类中。DIAKOGIANNIS等[106]提出了一种UNet的改进模型，将残差连接、空洞卷积、金字塔池化以及多任务学习方法进行组合，同时改进Dice损失以解决样本不平衡问题，提高了土地利用/覆被的分类精度。YE等[107]将空间-光谱注意力机制应用于UNet模型，以提升不同卷积层之间的特征表达一致性，实现了建筑物的高精度提取。类似的研究还包括文献[106-113]。

DeepLab系列模型也在土地利用/覆被分类中得到了广泛应用。其中LIN等[114]利用通道注意力模块对DeepLab模型进行改进，以提升模型对光谱特征的敏感性，并将其应用于道路提取。吴永静等[115]采用ResNet-50作为特征提取网络对DeepLab进行改进，并基于高分辨率遥感影像实现了光伏用地的高精度分类。相关研究还包括文献[72,115-119]。

4 样本稀疏条件下土地利用/覆被遥感分类算法研究进展

相比于计算机视觉领域，土地利用/覆被遥感分类中的样本标注对专家知识的要求更高，必要时还需要进行野外考察，从而造成了训练样本的稀疏性。如果仅使用有限的标签样本，将容易造成分类模型的过拟合，降低模型的时空泛化能力，因此如何综合利用有限的标签样本和海量无标签样本进行模型训练，就成为了一个关键技术问题。下面主要阐述样本稀疏条件下的土地利用/覆被遥感分类算法的研究进展，所涉及的算法包括主动学习、半监督学习、弱监督学习、自监督学习、迁移学习等。

4.1 基于主动学习的土地利用/覆被遥感分类

主动学习最早见于机器学习领域，是目前解决标签样本稀疏的常用学习策略之一。其核心思想为：首先使用少量标签样本训练分类模型，再利用该模型从无标签样本集中选择最具代表性或最易错分的样本，由专家对其进行标注，再加入到标签样本集中，并迭代训练模型，从而使模型具有更高的精度和泛化能力[120-122]。

主动学习的核心问题在于如何选取无标签样本。其选择策略种类较多，主要划分为3类：基于无标签样本的不确定性，如委员会查询[123]；基于无标签样本对模型的影响程度，如Fisher信息比[124]；基于无标签样本的分布情况，如流形学习[125]、KL散度[126]等。

主动学习备受遥感领域研究人员的关注[127-135]，并被应用到土地利用/覆被遥感分类中。HAUT等[131]设计了一种主动学习策略，用于贝叶斯卷积神经网络的训练，通过构建多维贝叶斯卷积神经网络以适应多种高光谱影像，在Indian Pines、Salinas等公开数据集上实现了较好的分类结果。杨承文等[132]将深度贝叶斯网络与主动学习策略相结合，先基于有限的标签样本对模型进行预训练，再筛选出不确定性高的样本对模型进行进一步训练，从而增强了模型在样本稀疏条件下的泛化性。相关研究还包括文献[130,133-134]。

上述方法均采用预先设计好的策略或准则对无标签样本进行选取，然而这些策略或准则的泛化性仍难以得到保证。为了解决这些问题，部分学者将度量学习与主动学习相结合，通过优化损失函数的设计以提高无标签样本选择的合理性。其中ZHANG等[135]提出了一种结合主动学习的多度量学习方法，通过多个度量指标的分配，以学习并优化损失函数，在Houston和Indian Pines数据上验证了该方法的有效性。

4.2 基于半监督学习的土地利用/覆被遥感分类

与主动学习类似，半监督学习旨在利用少量标签样本和大量无标签样本对模型进行训练。不同的是，半监督学习更强调训练过程的自动化，而不是主动学习中大量的人工干预[136-137]。半监督学习主要包括两大类：基于伪标签的方法和基于一致性正则化的方法。前者主要利用为无标签样本赋予伪标签的思想，利用当前模型给予无标签样本最有可能被预测的类别作为其伪标签，之后将伪标签加入标签数据集对模型进行继续训练[138]；后者主要依赖对干扰不变性的假设，即对同一样本进行数据增强，而增强后的样本之间，其预测标签应当保持一致[139]。

由于土地利用/覆被分类往往难以获得海量、高质量的标签样本，因此半监督学习受到了广大研究人员的关注。其中，在基于伪标签的半监督学习方面，CENGGORO等[140]采用了一种变分半监督学习框架，同时利用标签样本和无标签样本对深度学习模型进行优化，以解决土地利用/覆被分类中的样本不平衡问题。相关研究还包括文献[141]。

笔者在伪标签法方面开展了半监督深度学习的相关研究。针对半干旱区的土地覆被分类问题，提出了一种多门控机制的半监督深度学习框架[142]，通过概率门、不确定性门和抗噪性门的联合使用，以筛选并生成高质量的伪标签样本(图7)，并通过消融实验证实了不同门控机制的有效性。同时，针对城市防尘绿网的遥感分类问题，构建了一种two-step的半监督深度学习算法[143]，首先筛选高概率的无标签样本，然后将其与标签样本进行特征相似度计算，若top-k的标签样本具有相同的类别，则将该类别赋给当前无标签样本。

图7 多门控机制的半监督深度学习框架[142]Fig.7 Multi-gate semi-supervised learning method[142]

除了上述伪标签样本方法外，一致性正则化方法也得到了研究。其中ZHANG等[144]提出了一种基于半监督学习的语义分割网络(S4Net)，在对标签样本进行特征提取的同时，对无标签样本施加随机变换或扰动，并利用组合的损失函数训练模型，在DeepGlobe数据集上取得了具有竞争力的结果。文献[145]进行了类似研究。

4.3 基于弱监督学习的土地利用/覆被遥感分类

本文所指的弱监督学习主要针对不确切监督(Inexact supervision)问题[146]，即基于粗粒度的上游标签实现细粒度的下游任务。在土地利用/覆被遥感分类中，常见的弱监督学习表述如下：如何在只有图像块级别或低分辨率的土地利用/覆被标注的情况下，去实现像素级别或高分辨率的土地利用/覆被遥感分类任务。

弱监督学习可以一定程度上实现粗粒度标注样本的复用，对于样本稀疏引起的模型过拟合具有一定的缓解作用，在近期受到了遥感研究人员的关注[147-151]。其中，SCHMITT等[147]探索了如何使用低分辨率的土地覆被样本去生成高分辨率的土地覆被分类图，首先采用MODIS的500 m分辨率的全球土地覆被数据集作为低分辨率样本集，然后利用DeepLab v3+和UNet语义分割模型在高分辨率Sentinel影像数据集SEN12MS上进行训练，并在DFC2020数据集的验证集上进行精度评估。虽然作者指出上述方法的精度并不能令人满意，但是其技术路线可以给人以启发，因为低分辨率的土地利用/覆被样本比较容易获得，相似的研究还包括文献[148]。相比于SCHMITT等[147]直接使用低分辨率的样本对模型进行训练，WANG等[149]则利用图像块级的标签样本和类激活图(Class activation maps, CAMs)的方法获取像素级的伪标签，并将伪标签加入标签样本集，对UNet语义分割模型进行重新训练，证明了上述弱监督方法在土地覆被分类中的有效性。针对跨领域的土地利用/覆被分类问题，LI等[150]提出了一个基于弱监督约束的语义分割模型，通过弱监督迁移不变性约束、弱监督伪标签约束以及弱监督旋转一致性约束，改善了模型的分类效果。

4.4 基于自监督学习的土地利用/覆被遥感分类

自监督学习属于无监督学习的一种[152]，可在没有明确人工监督信息的情况下(如标签)，从数据本身出发构建学习算法[153]。主要通过设计辅助任务(如灰度图像上色[154]、拼图游戏[155]、图像修复[156]等)来对模型进行预训练，从而更好完成下游任务(如目标检测、语义分割等)。近年来，随着各种辅助任务的提出，自监督策略的训练效果越来越接近全监督学习，引起了越来越多国内外研究者的关注。

目前将自监督学习应用到土地利用/覆被遥感分类中的研究较少，国内外相关研究均处于起步阶段。其中AYUSH等[157]提出了地理感知自监督对比学习策略，该方法通过时序正样本对在空间上对齐的方式，并结合影像拍摄地点的知识，在Map of the World数据集上较MoCo-v2模型提升了8%的精度。REN等[158]提出一种基于相互信息的自监督模型，并首次将自监督学习应用于PolSAR土地覆被分类任务中，通过辅助任务的设计，提高了土地覆被制图的性能。文献[159-160]进行了类似研究。

4.5 基于迁移学习的土地利用/覆被遥感分类

迁移学习主要解决不同域(源域和目标域)之间的模型对齐问题[161]。考虑到遥感影像具有天然的多域性，即在时间、空间、光谱等维度上存在天然差异，因此如何将源域学习到的知识迁移至目标域，并利用有限的目标域样本提升遥感分类模型的性能，就依赖于迁移学习的深入研究。

迁移学习主要包括基于模型参数的迁移、基于域适应的迁移、基于对抗学习的迁移等。其中基于模型参数的迁移属于早期被广泛应用的方法，深度学习网络的微调法(fine tune)即属于此类方法。其中WURM等[162]利用在QuickBird上训练好的模型迁移至具有不同光谱波段的Sentinel-2和TerrasSAR-X中，并对贫民窟这一独特的土地利用类型进行分类，结果表明基于模型参数的迁移对异源传感器(QuickBird与SAR)之间的学习效果较差，而对于同源传感器(QuickBird与Sentinel-2)之间的分类结果具有提升作用。

在基于域适应的迁移方面，QIN等[163]提出了一种基于张量对齐的域适应(Domain adaptation, DA)方法。首先将源域和目标域的遥感影像分割成超像素，然后通过对齐矩阵实现源域和目标域之间的子空间对齐，并通过投影矩阵完成特征重映射，从而提高了目标域内土地利用/覆被分类的精度。文献[164-165]进行了类似研究。

在基于对抗学习的迁移方面，XU等[166]采用对抗学习策略提出了一种可转移注意力的对齐方法，以增加细粒度特征，并在语义分割模型中使用域适应方法，以缓解类间不平衡问题。文献[167-168]进行了类似研究。

5 研究展望

5.1 大规模遥感样本数据集构建

深度学习本质上属于数据驱动模型，其在土地利用/覆被遥感分类中的性能很大程度上取决于样本数据的规模、标注质量、地物类别的多样性与完备性等。虽然研究人员相继发布了一些土地利用/覆被分类遥感样本数据集，然而大部分样本仅采样自某一地区和某一时相，这将导致训练出的深度学习分类模型的时空泛化能力较差，如果直接将上述分类模型用于其他地区或时相，分类精度往往难以得到保证。

为了解决土地利用/覆被遥感分类中深度学习模型的时空泛化问题，一个最直接有效的办法是构建大规模遥感样本数据集，并进行公开发布，从而有助于广大研究人员利用其进行深度学习模型构建与训练。实际上，在计算机视觉领域，正是由于ImageNet等大规模开源样本数据集的发布，才有效促进了深度学习在自然图像分类、目标检测等领域的发展和落地应用。

在未来研究中，可以优先考虑以下两种类型的遥感样本数据集：图像块级样本数据集；像素级样本数据集。其中图像块级样本数据集的构建方法与UC Merced、AID等场景识别数据集类似，用一个遥感图像块来表示某一种特定的土地利用/覆被类型，样本标注的过程较为简单，标注人员直接对该遥感图像块的类别进行赋值即可。然而这种样本并不能提供精确的地物边界信息，导致大区域制图结果出现明显的边缘锯齿效应；此外一个遥感图像块中往往同时存在多种地物类型，这种场景复杂性也将增加分类难度。相比于图像块级样本数据集，像素级样本数据集可以提供每一种土地利用/覆被类型的边界信息，然而标注工作量较高，较为费时费力。同时，在构建上述两类样本数据集时，还需要考虑遥感影像的多源性，尽可能覆盖多尺度、多传感器、多时相、多区域的遥感影像，进而提高样本数据集的完备性和可用性。

5.2 深度学习模型结构优化

在当前土地利用/覆被遥感分类研究中，研究人员或直接采用计算机视觉领域较为成熟的深度学习模型、或在经典模型上进行结构改进，在各自数据集上取得了较好的分类精度。虽然也有相关研究人员针对遥感影像的特点进行模型结构优化，但其适用范围往往需要进一步验证。

在未来的研究中，一方面可以继续借鉴计算机视觉领域的最新研究成果，但更重要的是需要分析遥感影像自身特点，有针对性地对深度学习的网络结构进行改进。相比于计算机视觉领域关注的自然图像，遥感影像具有天然的多源、多传感器、多谱段、多尺度、多时相等特征。在设计分类网络时，多光谱影像、高光谱影像、雷达影像的特征提取网络是否需要单独设计，不同波段之间的特征是否需要融合，厘米级的无人机影像、亚米级的高分辨率卫星影像以及中低分辨率卫星影像，其特征提取网络有何不同，多时相影像、多传感器影像之间如何进行特征融合，从而进一步提高分类的精度和可靠性，同时，相比于自然图像，遥感影像更多揭示的是宏观地学现象，因此在设计深度学习模型结构时，如何考虑增加地学的先验知识，从而提高模型结构的合理性，也是一个需要思考的问题。

此外，还可以研究深度神经网络结构的自动寻优方法，即网络结构也是从样本数据集中学习得到的。需要注意的是，网络结构的自动寻优需要海量的训练样本，如果样本集的规模较小，其学习到的网络结构仅是局部最优解，其时空泛化能力仍存在缺陷。

5.3 稀疏样本下深度学习模型泛化性能提升

通过构建大规模遥感样本数据集，可以一定程度上解决深度学习模型的时空泛化能力问题。然而大规模样本集的构建费时费力，同时在实际的土地利用/覆被遥感分类中，可用的样本数量总是较少的，因此稀疏样本是遥感领域研究者需要面对的一个重要议题。稀疏样本可以从时间和空间两方面去理解，即已有的样本数据集往往是基于某一特定时间、特定空间的影像进行标注的，那么在这一时空范围以外的遥感影像，如果不进行大规模重新标注，那么其样本必然是稀疏的。此外，对历史影像而言，如果没有对应时间段的野外采样记录，其样本类别只能通过遥感影像目视解译的方法进行判读，其不确定性较高。

为了解决稀疏样本问题，在未来的研究中，可以重点考虑无监督学习、半监督学习和迁移学习等算法。其中无监督学习对标签样本的依赖度最低，其通过海量无标签样本的训练，从而将原始影像数据转换到一个类间可分性高的特征空间。而自监督学习属于无监督学习中的一个热门方向，其相关思想也可以被遥感领域研究人员所借鉴。这是因为遥感影像作为天然的无标签样本库，可为无监督学习提供海量无标签训练样本。同时，半监督学习由于同时考虑了有限的标签样本和海量的无标签样本，也可以缓解因稀疏样本造成的遥感分类模型的过拟合问题。迁移学习则重点考虑不同光谱、空间、时间分辨率遥感影像之间的样本复用问题，可以采用域适应的方法实现遥感分类模型的时空谱迁移，提高模型泛化能力。

综上，随着深度学习技术的不断发展，土地利用/覆被样本集的种类和数量将持续上升，为模型训练和精度对比提供数据支撑；深度学习模型的结构也将得到进一步优化，并更能适应遥感影像的特点；各种学习策略的不断改进，将会提高模型在样本稀疏条件下的时空泛化能力。上述样本-模型-算法的改进将持续推动深度学习在土地利用/覆被制图中的广泛应用。