基于SE-UNet的冬小麦种植区域提取方法

2022-11-08 02:44:44赵晋陵詹媛媛黄林生

农业机械学报 2022年9期

赵晋陵詹媛媛王娟黄林生

(1.安徽大学农业生态大数据分析与应用技术国家地方联合工程研究中心，合肥 230601； 2.安徽大学电子信息工程学院，合肥 230601)

0 引言

中国是传统农业大国，城镇化的快速发展和人口数量的不断增加，使得粮食的供给压力不断增加。作物生长、覆盖度、种植面积估算是农业监测的重要内容[1]，其中及时、准确地获取作物的空间分布和种植面积是调整农作物种植结构的重要依据。依照传统的方法，层层上报统计或者抽样调查[2]，既浪费大量的人力物力，且效率较低，存在人为误差，无法实现动态监测。

遥感技术以其大面积同时观测、低成本、时空动态监测等优势被广泛应用。目前，用于作物种植面积监测的影像有高、中、低分辨率影像，黄健熙等[3]以时序MODIS数据作为数据源提取冬小麦的空间分布，但由于数据源为中低分辨率遥感影像，不能很好地满足应用需求；李晓慧等[4]利用多时相Landsat-8 OLI影像，基于光谱角填图结合决策树分类方法提取农作物分布情况，总体精度达到85.34%；赵叶等[5]基于Landsat-8 OLI影像，利用HSV阈值划分方法区分冬小麦和非冬小麦，实现了河南省中南部冬小麦种植面积提取；李长春等[6]使用多生育期的Sentinel数据，采用随机森林算法对河南省扶沟县冬小麦进行提取；王冬利等[7]基于GF-1卫星数据以归一化植被指数(Normalized difference vegetation index，NDVI)为判别指标，利用非监督分类方法对河北省辛集市的冬小麦进行提取。传统的监督分类方法和非监督分类方法只能提取作物图像的纹理和颜色结构等特征对作物种植区进行分类，不能提取更高层语义特征，鲁棒性较差，分类结果不理想。

近几年来，深度学习在图像处理、自然语言处理、数据分析等领域取得了大量关键性突破[8-9]。目前，很多学者也在尝试将深度学习应用到遥感领域，探究其在遥感分类中的适用性[10-12]。FU等[13]利用FCN网络对高分辨率遥感影像中的道路、植被、建筑物、水体进行分类识别，正确分割精度大于85%；HUANG等[14]利用Sentinel-2遥感影像，对SegNet进行改进，对河南省新蔡县的花生种植面积进行提取，测试精度达到83.3%；CHEN等[15]对SegNet进行改进，用于遥感影像中建筑物的提取，在Inria数据集上进行测试，整体表现较好；ZHU等[16]利用GF-2和BJ-2遥感影像，对多时相遥感图像进行分块融合，利用Deeplabv3+网络对甘蔗田进行提取，准确率达到94.32%；DU等[17]基于多时相Landsat数据，利用U-Net网络对美国阿肯色州的水稻进行分类，模型表现较好；ZHENG等[18]利用GF-2遥感影像，用U-Net网络对5种类型地物进行分割，测试总体精度达到82.27%。其中，U-Net网络因模型较小、参数量少被广泛应用，但U-Net因多次降采样与上采样会引起边缘信息丢失问题，李万琦等[19]在U-Net中加入SE模块用于数值地表模型(Digital surface model，DSM)与RGB图像融合的图像语义分割。为避免因融合不同数据导致的数据丢失及引入噪声问题，本文提出一种基于深度学习的小麦种植区域分类方法。利用Landsat-8 OLI卫星数据为实验数据，进行预处理后，标注小麦种植区制作标签数据集。基于Pytorch平台搭建改进U-Net分割模型，对测试影像进行分类，从而获得分类结果。采用GF-6数据和Sentinel-2数据作为对比验证数据，以验证不同分辨率下冬小麦种植区域提取的效果。

1 研究区概况与研究数据

1.1 研究区概况

选取河北省石家庄市中部的正定县和藁城区增村镇作为研究区(图1)[20]。其中，正定县位于38°6′～38°22′N，114°23′～114°43′E，藁城区位于37°51′～38°18′N，114°39′～114°59′E。研究区属温带半湿润半干旱大陆性季风气候，大部分地区四季分明。年平均气温为12.9℃，年平均降水量为550 mm。耕地是本区域最主要的土地利用类型，冬小麦是最主要的粮食作物之一。

1.2 数据来源

本研究主要获取了Landsat-8、哨兵二号(Sentinel-2)和高分六号(GF-6)3种卫星遥感数据，相关波段信息见表1。Landsat-8卫星携带陆地成像仪(Operational land imager，OLI)和热红外传感器(Thermal infrared sensor，TIRS)。本文使用OLI数据，OLI陆地成像仪以空间分辨率30 m(全色波段为15 m)在9个光谱波段捕捉地球表面的图像，成像宽幅为185 km×185 km。河北省冬小麦大多于10月播种，次年6月收割，整个发育时期一般分为播种期、出苗期、分蘖期、越冬期、返青期、拔节期、抽穗期、灌浆期和成熟期9个阶段，根据冬小麦的物候特征，处于灌浆期时长势较好，而其他作物尚未播种或刚播种，此时冬小麦与其他地物差别较大，能够实现小麦种植区高精度分割提取，因此本文获取遥感影像数据日期均选择小麦灌浆乳熟期，即5月中下旬左右。在地理空间数据云(http:∥www.gscloud.cn/)下载Landsat-8 OLI河北省石家庄正定县和藁城区的增村镇2019年5月20日的影像。本研究主要用波段2、3、4、8。

表1 选用的卫星影像相关波段信息Tab.1 Band information of selected satellite imagery

Sentinel-2是一颗重访周期为5 d的高分辨率多光谱成像卫星，搭载一台多光谱成像仪(Multi-spectral imagery，MSI)，包括2颗卫星(2A和2B)。以空间分辨率10、20、60 m在13个光谱波段捕捉地球表面的图像。本文使用的哨兵数据为Sentinel-2的Level-1C数据产品，来源于欧洲航天局的数据共享网络(https:∥scihub.copernicus.eu/dhus/#/home)，下载2019年5月28日拍摄的哨兵二号遥感影像，本文主要用Sentinel-2A的波段2、3、4。

GF-6卫星配备了一台2 m全色/8 m多光谱高分辨率相机(PMS)和一台16 m多光谱中分辨率宽幅相机(WFV)，具有高分辨率和宽覆盖等特点，PMS观测幅宽90 km，WFV观测幅宽800 km。实验选取2019年5月6日的高分影像，本研究主要用GF-6 PMS的波段B1、B2、B3。

1.3 数据处理

利用ENVI(Environment for visualizing images)软件分别对获取的Landsat-8 OLI影像、Sentinel-2A影像和GF-6 (PMS)影像进行预处理，预处理步骤包括：辐射定标、大气校正、图像镶嵌与裁剪和波段合成等，并对Landsat-8 OLI影像进行影像融合处理[21]。使用Gram-Schmidt Pan Sharpening方法将Landsat-8 OLI 15 m全色影像和30 m多光谱影像进行融合，得到分辨率为15 m的Landsat-8 OLI多光谱影像。

1.4 数据集构建

选取正定县和增村镇范围内的影像作为原始数据源，其中，正定县包含10个镇的3种不同分辨率的遥感影像(Landsat-8 OLI、Sentinel-2、GF-6)，每种卫星在每个镇上各获取1幅遥感影像，分别各获得10幅遥感影像，增村镇包含1幅遥感影像(Landsat-8 OLI)。首先，利用ArcGIS 软件打开遥感影像，在原始影像上勾画小麦区域矢量，并以PNG格式输出生成标签，其中小麦类为白色，其像素为1，非小麦(背景)为黑色，像素为0。同时将原始遥感影像保存为JPG格式输出，再将原始影像数据和标签数据随机裁剪为256像素×256像素，原始影像数据与标签数据文件名一一对应，同时进行了数据增强操作[22]：原始和标签图像旋转90°、180°、270°；原始和标签图像沿Y轴进行镜像操作；对原始影像进行模糊处理、对原始影像进行调光处理、对原始影像进行加噪操作(高斯噪声、椒盐噪声)。将正定县和增村镇的影像分别作为训练数据与测试数据，以Landsat-8 OLI训练数据为例，将正定县Landsat-8 OLI训练数据随机裁剪为2 000个256像素×256像素的图像-标签对，经过数据增强至5 000个图像-标签对，并按照9∶1划分训练集和验证集，另外将增村镇Landsat-8 OLI测试数据裁剪为294幅256像素×256像素的图像。数据制作流程如图2所示。

图2 实验数据制作方法Fig.2 Production method of experimental data

2 SE-UNet模型构建

2.1 U-Net模型改进

U-Net采用对称的编码器-解码器结构，如图3所示，首先编码器部分由4个卷积层组成，每个卷积层有两个尺寸为3×3的卷积核。相邻卷积层通过最大池化操作进行下采样，通过多次卷积和池化来提取特征信息。对应地，其解码器也相应通过转置卷积进行4次上采样将特征图恢复到原图分辨率。同时使用跳跃链接的方式将高级语义特征与浅层特征相融合，保留了更多的信息。遥感影像与医学图像相比往往具有更复杂的场景，目标尺度大小不一、分布不均衡，为了更好地利用特征图中的有效信息，可以选择注意力机制结构，抑制无用信息的利用，增加重要信息的权重，提高模型的预测性能。为了更准确实现小麦区域的提取，本文引入了SE(Squeeze and excitation)模块[23]。

图3 U-Net架构示意图Fig.3 Schematic of U-Net structure

压缩(Squeeze)和激励(Excitation)是模块中的两个关键操作，其模块结构如图4所示。压缩操作对尺寸为H×W×C的特征图进行全局平均池化，压缩为1×1×C向量。激励操作使用一个全连接神经网络，对压缩之后的结果做一个非线性变换，将该操作得到的结果作为每个通道的权重。

图4 SE模块结构示意图Fig.4 Schematic of SE module

图4中，U为输入特征图，尺寸为(H,W,C)，H、W、C分别为高、宽和通道数。首先将第c维特征图uc进行压缩操作(记为Fsq)，输出zc，计算式为

(1)

式中i、j——特征图在空间维的坐标

将所有特征图经过压缩操作输出记为z。将z进行激励操作(记为Fex)，结果为s，计算式为

s=Fex(z,w)=σ(w2,δ(w1,z))

(2)

式中w、w1、w2——全连接层中的权重

σ、δ——Sigmoid和ReLU激活函数

(3)

式中Fscale(uc,sc)——标量sc与特征uc之间的对应通道乘积

改进后的网络整体架构图如图5所示。实验输入图像尺寸为256×256×3，输入图像通过两个3×3的卷积操作，然后是一个校正线性单元(ReLU)和一个2×2最大池化操作，步长为2，用于下采样。在每层激活函数前加入BN(Batch normalization)层[24]，抑制过拟合，提升训练稳定性。与文献[19]相比，在编码和解码路径中每2个3×3卷积层后均添加SE模块，它通过模型学习自动获取每个特征通道的重要性，降低特征表达能力较弱的通道，加强特征表达能力强的通道。添加注意力模块如图6所示。下采样后的特征图再经过扩张路径中的上采样得到高分辨率的特征图。将低层特征图与高层特征图相结合，用于恢复特征信息，提高分类精度。在最后一层使用Softmax作为分类层，利用一个1×1卷积将每个64分量特征向量映射到所需的类数，将图像分割为2类，一类为背景，另一类是小麦区域。

图5 SE-UNet架构示意图Fig.5 Schematic of proposed SE-UNet structure

图6 注意力模块Fig.6 Attention blocks

2.2 分割精度评价指标

采用平均像素精度(Mean pixel accuracy，MPA)与平均交并比(Mean intersection over union，MIoU)作为小麦分割的评价指标[25]。指标越大，表示模型分割效果越好。设数据集中可供分割的对象类别为k，则总的类别为k+1，其中1代表背景。本实验包括小麦和背景两类。

3 实验与结果分析

3.1 实验环境与模型训练

实验环境为Intel Xeon Gold 6248R处理器，192 GB内存，NVIDIA Quadro P4000显卡，GPU加速库采用CUDA 10.0，深度学习框架使用Pytorch。模型训练中，选择Adam optimizer函数作为参数优化器，采用交叉熵函数作为模型训练的损失函数，初始学习率为0.000 1，训练迭代次数为100，步长为8。

3.2 实验结果分析

为了验证本文方法，选取SegNet、Deeplabv3+、U-Net作为对比模型，其中3个对比模型与SE-UNet均使用相同训练数据和测试数据，使用平均像素精度和平均交并比作为评价方法的指标。利用训练好的网络模型对测试集中的数据进行预测，基于3个数据集不同预测模型对应的评价指标如表2所示。实验均以Landsat-8藁城区增村镇影像为测试集，以3种不同分辨率的正定县各镇影像构成训练集分别进行模型训练，GF-6、Sentinel-2训练集构成方法与Landsat-8一致，以GF-6作为训练影像在增村镇Landsat-8测试集上不同模型预测结果如图7所示；以Sentinel-2作为训练影像在增村镇Landsat-8测试集上不同模型预测结果如图8所示；以Landsat-8作为训练影像在增村镇Landsat-8测试集上不同模型预测结果如图9所示。由于Landsat-8、Sentinel-2和GF-6 3种数据的分辨率分别为15、10、8 m，所以图中分辨率较高的小麦区域结果会比分辨率较低的区域大。在实验结果中，选择2幅具有代表性的结果图，一幅为小麦较多，另一幅为小麦较少，且建筑物、裸土区域较多。从预测结果来看，SegNet分割方法明显存在错分漏分问题，分割结果图在较多地方出现零散的预测部分，分割结果不太理想。Deeplabv3+的分割结果图相对于其他方法明显较为圆滑，小麦区域大面积的连在一起，不能很好地展现小麦田地棱角形状，小麦区域的边缘信息缺失严重。Deeplabv3+在用于识别建筑物等较大对象时效果较好，但用于识别冬小麦时，由于冬小麦种植区域的像素块内细节变化不大，可供利用的信息较少，不能很好地应用于小面积的田状、块状物的提取。U-Net整体效果表现较好，但依然存在部分边缘信息缺失问题，尤其是当小麦区域较少、裸土或建筑物较多情况时，通过加入SE模块，突出关键特征，使得分割结果有较明显的改善，缓解了复杂环境条件下少分、错分问题的发生。

表2 不同模型分类效果对比Tab.2 Comparison of classification results by using different models %

图7 基于GF-6数据不同模型预测增村镇小麦区域Fig.7 Prediction of wheat areas in Zengcun Town based on different models from GF-6 data

图8 基于Sentinel-2数据不同模型预测增村镇小麦区域Fig.8 Prediction of wheat areas in Zengcun Town based on different models from Sentinel-2 data

图9 基于Landsat-8数据不同模型预测增村镇小麦区域Fig.9 Prediction of wheat areas in Zengcun Town based on different models from Landsat-8 data

整体来看，本文提出的方法在基于3个不同数据训练模型的测试效果都优于其他方法，MPA和MIoU均为最高，以Landsat-8影像模型预测的MPA、MIoU分别达到89.88%和81.44%，以Sentinel-2影像模型预测的MPA、MIoU分别达到88.38%和76.15%，以GF-6影像模型预测的MPA、MIoU分别达到86.37%和75.03%。因分辨率不同的缘故，导致Sentinel-2和GF-6的预测小麦区域会偏大，以Landsat-8标签来计算MPA和MIoU会有所偏差，但从预测结果看，整体小麦区域位置基本没有较大偏差，从而验证了预测结果的真实性。

图10为增村镇Landsat-8整体预测图，基于Landsat-8影像训练数据，SE-UNet方法预测的增村镇整体结果如图10c所示。部分小面积小麦区域以及夹杂其他作物的地方，出现少量少分情况，但从整体效果来看，该模型表现较好。

图10 增村镇Landsat-8整体预测结果Fig.10 Landsat-8 overall prediction results of Zengcun Town

4 结论

(1)针对传统遥感分类方法的缺陷，采用深度学习方法进行研究，在U-Net网络中添加注意力模块，充分地考虑了特征的不同通道间的信息，改善小麦种植区的边缘分割效果。

(2)利用不同分辨率的遥感影像对提取结果进行验证，基于3种不同分辨率的预测模型测试结果均表现较好，与对比实验方法相比，MPA、MIoU指标均为最高。其中，以正定县各镇的Landsat-8影像为训练数据模型预测的MPA、MIoU分别达到89.88%和81.44%，实验结果表明其在遥感影像小麦提取方面的可行性，但人工标注样本始终会存在一些误差性，后续将继续完善数据集，并尝试分类器模型集成学习策略，进一步提高遥感影像小麦区域提取的精度和效率，以应对更加复杂的应用场景。