融合空间和时序遥感信息的深度学习水稻提取

2022-03-11 06:41周佳玮涂理林陈洪建林佳佳

地理空间信息 2022年2期

周佳玮，涂理林，陈洪建，江挺，林佳佳

（1.宁波市鄞州区测绘院，浙江宁波 315192；2.武汉大学遥感信息工程学院，湖北武汉 430079）

当前的水稻提取研究多基于中低分辨率的多时序影像，如MODIS、Landsat-8、Sentinel-2等，而高分辨率（如：米级、亚米级）遥感影像包含了更多的纹理、结构等细节信息，有潜力得到更加精细的水稻提取结果。但目前基于高分辨率遥感影像的水稻提取研究较为少见，而且将高分辨率影像与多时序影像相结合的水稻提取研究更为鲜见。因此，本文提出一种结合高分辨率和多时序影像深度学习的水稻提取方法，利用北京2号（BJ-2）高分辨率遥感影像和Sentinel-2多时序遥感影像得到了高分辨率的水稻提取结果[1-8]。

1 研究区概况与数据预处理

研究区为浙江省宁波市鄞州区的主要水稻种植区域（121°26’E～121°37’E，29°41’E～29°49’N），该地区属于亚热带季风性湿润气候，年平均气温16.2℃，年平均降水量1 538.8 mm，适宜水稻作物生长。该地区种植的水稻为二季稻，其生长季第一季约为3～6月，第二季约为7～11月。

采用的BJ-2高分辨率影像拍摄时间为2020年4月，包含RGB3个波段，空间分辨率为1m。采用的Sentinel-2影像共包含2019-01-24、2019-03-17、2019-04-01、2019-05-11、2019-06-05、2019-07-30、2019-08-27、2019-09-26、2019-10-31、2019-11-15、2019-12-10共11个时相，覆盖了水稻的2个生长季，选取了第2（B）、3（G）、4（R）、8（近红外）、8A（近红外）、11（短波红外）共6个波段，并通过重采样将每个波段的空间分辨率统一到10 m。

将BJ-2影像与Sentinel-2影像进行空间配准，统一至WGS-84 UTMZone 51N投影坐标系中，并通过实地考察，选择了水稻及其他地物的样本，包括水稻、林地、草地、不透水层、其他旱地、其他水田、水体共7个类别，2 925个地块；其中水稻样本包含1 885个地块，占总样本量的81.1%。在所有样本中以地块为单位按照7:3的比例选取训练和测试样本。

2 算法步骤

本文的水稻提取方法流程如图1所示。

图1 水稻提取方法流程

2.1 基于全卷积网络FCN的BJ-2高分辨率遥感影像分类

传统的卷积神经网络CNN通过一系列的卷积层和池化层对输入的影像块进行特征提取，之后将提取的特征展平为向量输入全连接层进行最终的分类。与传统的卷积神经网络相比，全卷积网络FCN最大的特点在于不含有全连接层，可以适应任意尺寸影像的输入，因而可以将整个影像作为输入，以直接得到整个影像的分类结果。

本文采用了U-Net全卷积网络[11]来对BJ-2高分辨率遥感影像进行分类，其网络结构如图2所示。共包括了5个下采样模块和5个上采样模块，每一个下采样模块包括2个卷积层和1个池化层，每一个上采样模块包括1个反卷积层和2个卷积层。

图2 U-Net全卷积网络结构

卷积层采用了二维卷积的方式，其过程为：

池化层采用最大值池化的方式，用一个p×p的窗口遍历输入的特征图，每次取窗口中所有元素的最大值作为输出，从而对输入的特征图进行下采样。反卷积又称转置卷积，是卷积的逆运算，经过反卷积之后输入影像尺寸变大，可以达到对影像上采样的效果。

网络中各个卷积层和反卷积层的卷积核尺寸均为3×3，均采用ReLU激活函数：

5个上采样模块卷积层的通道数分别为64、128、256、512、1 024，池化层均采用2×2池化。每个下采样模块的卷积层的通道数与相同输出特征图尺寸的上采样模块相同，并通过跳跃连接的方式将每个下采样模块输出的特征图与对应上采样模块输出的相同尺寸的特征图进行叠加，从而起到使分类结果能够保留原始影像中更多细节的作用。

通过所有上采样和下采样模块之后，得到的特征图将经过一个卷积核尺寸为1×1、通道数与类别数（本文为7）相同的卷积层，来得到最终的分类结果图。该卷积层采用Softmax激活函数：

本文首先以256×256尺寸裁剪BJ-2影像和训练样本，得到若干样本块输入网络进行训练，再将整景BJ-2影像输入训练好的网络进行预测，得到影像的分类结果。

2.2 Sentinel-2多时序遥感影像分类

长短期记忆网络LSTM是循环神经网络RNN的一种。RNN是专门用于处理序列数据的深度网络，与传统的神经网络相比，RNN以自循环为主要特色，即它隐含层的各个节点之间存在着关联，若每一个时刻的输入为xt，则每一个时刻的隐含层输出ht由该时刻的输入xt和上一个时刻的隐含层输出ht-1共同决定[12]：

式中，U、W为权重矩阵，对各个时刻来说是一致的；f为激活函数。每一个时刻的输出为该时刻的隐含层输出ht得到的概率向量o t：

式中，V为权重矩阵，对各个时刻来说是一致的；C为类别数。

与传统的RNN相比，LSTM通过精巧的设计循环体的结构来有效地解决信息的长期依赖[13]，它由3个部分组成：遗忘门、输入门、输出门。

遗忘门和输入门用来控制单元状态c，遗忘门决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct：

输入门决定了当前时刻网络的输入xt有多少保存到单元状态：

输出门控制了单元状态ct有多少输出到当前时刻的输出值ht，从而决定了最终该时刻隐含层的输出：

以上各式中U f、U i、U z、U o以及W f、W i、W z、W o均为权重矩阵，每一时刻的输出依然可以由式（5）得到。

本文采用了2层LSTM的网络结构来得到Sentinel-2多时序影像的分类结果之一，每层通道数为32，如图3所示。

随机森林RF分类器由一系列的决策回归树CART组成，对于每一个输入数据，采用了其终端的叶子节点多数投票的方法来得到对该输入的类别的预测。随机森林能以较小的计算代价处理高维度的数据，并且对训练样本中存在的噪声不敏感，是一种准确度较高且高度灵活的机器学习算法[14]。本文采用随机森林RF分类器得到Sentinel-2多时序影像的分类结果，随机森林中决策树的数量设置为100。

2.3 面向对象投票及后处理

首先采用多尺度分割算法[15]来对BJ-2高分辨率遥感影像进行面向对象分割，本文选取的分割尺度为50，形状权值和紧致度权值分别设置为0.1和0.5，每个对象由一系列的同质性像素组成。将前文得到的3种分类结果（即：基于FCN的BJ-2高分辨率影像分类结果、基于LSTM和RF的Sentinel-2多时序影像分类结果）通过重采样统一为1m分辨率，并将每一种分类方法得到的分类结果投影到对象中：即对于每一个对象，若对象中属于某一类的像素占比最高，则该对象属于这一类别。

随后，对3种分类结果进行面向对象的筛选，其最终的类别为被3种分类方法筛选占比最高的类别，并统计该对象被分为水稻的次数，从而可以得到3种分类方法融合后的分类结果图以及水稻的投票结果图。水稻的投票结果图中的对象分为0票、1票、2票和3票4种，其中0票为非水稻，其余为确定度不同的水稻对象。

由于票数为1的水稻对象确定度较低，因此需要进一步处理。采用了几何约束的方式来从票数为1的对象中剔除不符合稻田几何形状的对象，设置了长宽比LW、面积Area和矩形度Rec3个指标，并分别设定阈值TLW、TArea和TRec，将满足以下条件的对象剔除：

其中：

AreaMER为对象的最小外接矩形的面积。

本文设置的阈值为TLW=5、TArea=500 m2、TRec=0.5。进行了几何约束后处理后，便得到了最终的水稻提取结果。

3 实验结果与分析

3.1 实验设置

本文利用Python语言的Pytorch深度学习框架来构建FCN和LSTM深度网络，硬件环境为Intel(R)Core(TM)i7-4790K CPU和NVIDIA GeoForce RTX 1080 Ti GPU；随机森林RF分类器利用Python语言中sklearn库实现；BJ-2高分辨率遥感影像面向对象分割使用eCognition软件实现；分类结果面向对象投票及水稻提取结果后处理利用MATLAB语言编程实现。

3.2 结果与分析

分别利用测试样本对本文采用的3种分类方法——FCN、LSTM、RF以及通过面向对象投票进行融合后得到的水稻提取精度进行了评价，总共评价了总体精度、生产者精度、用户精度、F1分数、Kappa系数几个指标。精度评价结果如表1所示。

表1 水稻提取精度评价

从表1中我们可以得出以下结论：

1）从面向对象分割前的精度来看，3种分类方法都发挥了其优势。LSTM的用户精度最高，为98.4%，得到了最为准确的水稻提取结果；RF的生产者精度最高，为98.7%，得到了遗漏最少的水稻提取结果；与提取时序和光谱特征的LSTM和RF不同，FCN主要提取了水稻的空间特征，得到了空间细节最为完善的水稻提取结果，且各项精度指标与LSTM和RF相当。

2）3种分类方法在面向对象分割前的水稻提取总体精度分别为96.3%、95.9%和97.7%，而面向对象分割后的精度分别为96.7%、97.6%和97.9%时，分别提高了0.4%、1.5%和0.2%。基于高分辨率的BJ-2影像的面向对象分割可以完善水稻提取结果中的边缘细节信息，并在一定程度上减少了同质性区域内部存在的椒盐噪声，从而带来了精度的提升。

3）通过面向对象投票而得到的3种分类方法融合后的水稻提取结果的精度总体优于每一种分类方法的精度，特别是评价总体提取效果的OA、F1-score和Kappa系数分别为98.1%、98.2%和96.1%，都达到了最高，可见空间、光谱和时序特征的结合能达到最好的分类效果。

图4展示了最终融合后得到的影像分类结果图以及水稻提取结果图，图5对图4中的部分区域进行了局部放大展示。

图4 最终分类结果及水稻提取结果

图5 最终分类结果及水稻提取结果（局部放大图）

从水稻提取结果图来看，融合多时序和高分辨率影像方法得到的水稻提取结果，可以很好地将水稻与其他地物（特别是林地、草地及其他农作物）区分，且影像中的边缘等细节信息也较好地得到了保留。

总之，提出的融合高分辨率和多时序遥感影像的方法能够得到较高的水稻提取精度，以及空间分辨率较高、空间细节保留较为完整的水稻制图结果。

4 结语

本文提出了一种融合高分辨率遥感影像和多时序遥感影像的深度学习水稻提取方法。利用BJ-2高分辨率遥感影像和Sentinel-2多时序遥感影像，基于全卷积网络（FCN）、长短期记忆网络（LSTM）、随机森林（RF）分类器以及面向对象分割技术，对宁波市鄞州区这一实验区域进行了水稻提取。实验结果表明提出的方法可以得到较高的水稻提取精度，能够较好地将水稻与其他地物区分开，且提取结果中边缘等空间细节保留得较为完整。

本文提出的方法依然存在着深度网络训练较为耗时以及需要大量人工水稻样本标注的问题，今后将进一步提高深度网络训练的效率以及水稻提取的自动化程度，以满足实际应用需求。