陈诗扬,刘 佳
基于GF-6时序数据的农作物识别深度学习算法评估
陈诗扬,刘 佳※
(中国农业科学院农业资源与农业区划研究所,北京 100081)
农作物类型制图是农情遥感的重要内容。该研究利用GF-6时序数据,在黑龙江省对基于卷积、递归和注意力3种机制的6个深度学习模型在农作物类型制图中的性能进行了定性和定量的评估。结果表明:所有模型对大豆、玉米和水稻3类主要农作物的1值不低于89%、84%和97%,总体分类精度达到了93%~95%。将模型异地迁移后,各模型的总体分类精度下降7.2%~41.0%,基于卷积或递归的深度学习模型仍保持了较强的农作物识别能力,优于基于注意力的深度学习模型和随机森林模型。在时间消耗上,各深度学习模型相比于随机森林模型,训练与推理时间不超过6.2倍。GF-6时序数据结合深度学习模型在分类精度和运行效率上满足高精度大范围农作物制图的需要,且迁移性优于传统模型。研究结果可为深度学习在黑龙江农作物遥感分类任务中的应用提供参考。
农作物;遥感;识别;深度学习;GF-6;时间序列;黑龙江
基于中高空间分辨率遥感数据的农作物类型制图是农业监测业务中最重要的管理工具之一。黑龙江省是中国粮食主产区,在粮食安全中占有重要地位,及时准确地掌握黑龙江农作物种植分布及面积,对农作物估产和农业生产政策的制定具有重要意义。近年来,GF-6卫星稳定在轨运行并以4 d的重访周期不断提供优质的有效数据,包含更多农作物生育时期的时间序列数据在提高农作物识别精度[1]的同时也使数据处理量成倍增加,因此寻找高效高能的机器学习分类算法变得更为重要。国内外许多学者已对遥感农作物分类进行了大量研究,但使用的最小距离、支持向量机、随机森林(Random Forest,RF)等传统分类方法存在以下问题:首先,难以提取到深层次的特征,特征提取都为层次较低的单一或少量的浅层特征,其次,传统方法只能在特定的区域、时间下使用,迁移性差[2]。近年来,利用深度学习方法分析时间序列遥感数据的方法迅速增加。深度学习算法的运用为复杂数据的分析提供了有效支持,特别是,卷积神经网络(Convolutional Neural Network,CNN)[3]和递归神经网络(Recurrent Neural Network,RNN)[4]已被证明可以有效探索空间结构与时间结构,并应用于农作物遥感识别中。
卷积神经网络已广泛应用于各种遥感任务,包括超高分辨率影像的地物分类[5-6]、语义分割[7]、对象检测[8]、数据插补[9]和融合[10]等,在这些工作中,CNN通过在不同维度应用卷积来充分利用数据的空间结构或时间结构。对于地物分类,CNN包括跨越光谱或时间维度的1D-CNN[11-12]、跨越空间维度的2D-CNN[13]、跨越光谱和空间维度的3D-CNN[14]以及跨越时间和空间维度的3D-CNN[15]等。尽管1D-CNN已在时间序列分类中广泛应用[16],但直到近年才在土地覆盖制图领域有所应用[17],如Pelletier等[12]开发了一种在时域应用卷积的1D-CNN,以便定性和定量地评估网络结构对农作物制图的影响。递归神经网络以序列数据为输入,在前进方向进行递归并保持来自先前上下文的特征。RNN是时间序列分类研究使用最多的体系结构,已成功运用于时间序列光学数据[18-20]以及多时相合成孔径雷达数据[21]的地物分类,如Campos-Taberner等[22]利用Sentinel-2数据和基于两层双向长短期记忆网络的RNN,在西班牙巴伦西亚省农作物制图中达到了98.7%的总体精度,并在时域和谱域中采用噪声置换方法,评估了不同光谱和时间特征对分类精度的影响。此外,也有学者将CNN与RNN结合,用于农作物分类任务[23]和遥感变化检测任务[24-25]。注意力机制(Attention Mechanism,AM)[26]不同于传统的CNN或RNN,仅由自注意力和前馈神经网络组成。在遥感图像处理中,注意力机制已被用于改进超高分辨率图像分类[27-28]以及捕获空间与光谱的依赖关系[29]。Rußwurm等[23]提出了一种具有卷积递归层的编码器结构,并引入注意力机制利用Sentinel-2时间序列数据在德国巴伐利亚进行了农作物分类试验,定性地展示了自注意力如何提取与分类相关的特征。
近年来,研究人员已对农作物分类算法进行了广泛的研究,但对GF-6卫星宽视场(GF-6 Satellite Wide Field of View,GF-6/WFV)相机时间序列数据的利用较少,没有在农作物遥感分类中发挥GF-6/WFV高时间分辨率的优势。此外,多数农作物分类研究所使用的深度学习模型基于计算机视觉领域的语义分割模型,缺少对时间序列领域深度学习模型的利用,后者可识别农作物不同生育时期提供的独特时间信号,作为区分各种类型农作物的关键特征来构建判别函数。本文拟针对GF-6/WFV时间序列数据和时间序列深度学习模型,评估与比较卷积神经网络、递归神经网络、注意力机制以及传统算法在黑龙江农作物分类制图中的性能表现,为深度学习在农作物遥感分类中的应用提供参考。
选择黑龙江省林甸县和海伦市作为研究区域,两地主要农作物均为水稻、玉米和大豆,种植结构在黑龙江省平原地区具有代表性,适用于模型迁移性评估。研究区主要农作物物候历如表1所示。研究区位于松嫩平原东北端,属北温带大陆季风性气候,年平均气温4℃,无霜期120 d左右,年降水量400~600 mm。其中,林甸县县域面积3 503 km²,耕地面积约为166 000 hm2;海伦市东距林甸县145 km,幅员面积4 667 km²,耕地面积约为294 000 hm2。研究区在黑龙江省的具体位置如图1所示,GF-6/WFV假彩色合成影像如图2所示。
表1 研究区主要农作物物候历
GF-6/WFV空间分辨率16 m,观测幅宽800 km,重访周期4 d,较其他“高分”卫星新增红边、黄等波段,是国内首颗精准农业观测的高分卫星,其光谱响应函数如图3所示。
注:绿框区域用于目视分析。
Note: Green square areas were analyzed visually.
图2 研究区GF-6/WFV假彩色(近红外,红,绿)影像
Fig.2 GF-6/WFV image in false color (near infra-red, red, green) composite of study areas
为提取3类农作物不同生育时期的分类特征,数据获取时间为2020年4月初至11月初。林甸研究区和海伦研究区所用时间序列数据分别由41景和48景GF-6/WFV数据组合而成,如图4所示,研究区大部分区域均有35景以上的高质量晴空数据覆盖。
数据预处理过程包括辐射定标、大气表观反射率计算、6S大气校正、RPC(Rational Polynomial Coefficient)校正,预处理相关代码存放于在线仓库https://github.com/GenghisYoung233/Gaofen-Batch。设定目标时间序列长度,长度不足的像元随机复制部分时域或全部丢弃,长度超出的像元随机丢弃部分时域,以解决部分数据未覆盖研究区以及两个研究区时间序列长度不一致无法迁移的问题。最终,两个研究区形成长度为35景的时间序列数据。
对时间序列数据采用全局最大/最小值归一化,以减少网络隐藏层数据分布的改变对神经网络参数训练的影响, 从而加快神经网络的收敛速度和稳定性。对于插值后时间序列数据,将所有时相的第一波段的所有像元作为整体,去除2%极端值后得到最大值与最小值,对第一波段所有像元进行归一化,依次类推,对所有8个波段进行归一化。不同于Z-score归一化,结果保留了数据中对农作物识别中起到关键作用的量纲与量级信息,保留了时间序列的变化趋势,并避免了极端值的影响。
地表真实数据根据地面调查数据结合GF-2高分辨率数据目视解译结果获得。在地面调查中,利用安装奥维地图软件的移动设备记录每个样点的位置与地物类型,地物类型包括大豆、水稻、玉米、杂粮等农作物和水体、城镇、草地等非农作物。然后通过GF-2数据目视解译获取样点所在地块的边界,绘制样方。最终,将样方数据分为水稻、玉米、大豆、水体、城镇和其他(草地、林地等自然地物)6类。其中林甸共854个样方,覆盖像元2 003 629个,海伦共631个样方,覆盖像元935 679个,如表2所示。
表2 各地物类别在样方与像元级别的实例数量
从林甸县地面数据中对每个地物类别随机选取70%的样方,从中提取所有的像元及其对应的地物类别作为模型训练数据集,从其余30%样方中对每一类地物随机抽取1 000个像元及其对应的地物类别作为模型验证数据集,各类地物的像元数量保持均衡以避免对精度验证产生较大干扰。该过程重复5次,生成5组不同的训练/验证集供后续试验需要,各组数据集相互独立。海伦研究区生成方法相同,后续试验仅使用验证数据集。
本试验使用了基于卷积、基于递归和基于注意力3种机制的6个深度学习模型以及作为基准的随机森林模型,均为农作物遥感分类中的常用模型或最新模型。试验相关代码存放于在线仓库https://github.com/GenghisYoung233/ DongbeiCrops。
针对基于卷积的分类机制,本文选择了3种不同的卷积神经网络模型,分别是TempCNN(Temporal Convolutional Neural Network)[12]、MSResNet(Multi Scale 1D Residual Network)和OmniscaleCNN(Omniscale Convolutional Neural Network)[30]。TempCNN堆叠了3个具有相同卷积滤波器大小的卷积层,其后跟随着全连接层和softmax激活层。MSResNet首先连接一个卷积层与最大池化层,并向3个分支传递,通过6个不同长度的连续卷积滤波器和全局池化层。各个分支中,每3个卷积层中间加入ResNet残差网络连接以解决梯度消失或梯度爆炸的问题。最后级联各个分支的结果并通过完全连接层和softmax激活层。OmniscaleCNN由3个卷积层、全局池化层和softmax激活层组成。
针对基于递归的分类机制,本文选择了两种不同的递归神经网络模型:LSTM(Long Short-Term Memory)[31]和StarRNN(Star Recurrent Neural Network)[32]。LSTM单元由记忆细胞、输入门、输出门和忘记门组成,记忆细胞负责存储历史信息,3个门控制着进出单元的信息流。StarRNN与LSTM或门控循环单元(Gated Recurrent Unit,GRU)相比所需要的参数更少,并对梯度消失问题进行了优化。
针对基于注意力的分类机制,本文选择了Transformer模型[26]。Transformer模型作为序列到序列、编码器-解码器模型,最初用于自然语言翻译,对于遥感农作物识别,本试验仅保留编码器。
针对传统分类算法,本文选择了随机森林。随机森林利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果[33]。随机森林算法可以处理时间序列数据的高维度特征、易于调整参数[34]、对于错误标签数据具有鲁棒性[35],目前与支持向量机算法在传统算法中占主导地位。
模型架构和训练过程依赖于各种超参数,这些超参数可能根据目标和数据集而有所不同。对于深度学习模型,这些超参数包括隐藏向量的维数、层数、自注意力头数、卷积核大小、丢弃率、学习速率和权值衰减率等,通过对模型的不同超参数分别设计多种选项并排列组合,进行参数优选。对于TempCNN,超参数选项为卷积滤波器大小(convolution filter size)、隐式表达层数量(number of hidden layer)、丢弃率(dropout rate)(选择5个,呈对数正态分布);对于MS-ResNet模型,超参数选项为;对于OmniscaleCNN,本文遵循模型作者的建议[30],不修改任何超参数,为1 024;对于LSTM和StarRNN,超参数选项为、、级联层数量(number of cascade layer),并针对LSTM,加入了单向/双向(bidirectional)选项;对于Transformer,超参数选项为、自注意力头数(number of self-attention heads);对于RF,已有研究发现调整其参数只会带来轻微的性能提升[34],故本文采用标准设置:决策树数量(number of decision tree)为500、最大深度(maximum depth)为30。将各模型超参数组合后,得到不同超参数的TempCNN模型45个,MS-ResNet模型5个,OmniscaleCNN模型1个,LSTM模型120个,StarRNN模型60个,Transfromer模型40个,RF模型1个。对所有超参数组合,首先在林甸研究区训练数据集与验证数据集上进行参数优选,根据总体分类精度选择最佳参数组合。
确定最佳超参数组合后,首先在林甸研究区的训练数据集和验证数据集上进行训练与验证,得到训练后模型、林甸分类后影像与总体分类精度、制图精度、用户精度、1值4种精度指标。然后利用林甸训练后模型在海伦研究区的验证数据集上进行迁移性测试,获取海伦分类后影像和精度指标。为避免统计学误差[36],该过程在5组不同的数据集上进行评估,取其中值为最终结果。最后对所有模型最终的评估结果进行比较与分析。
对各个超参数组合的训练结果进行比对后确定最终结果,如表3所示。
表3 各模型最终超参数
利用林甸训练数据集和验证数据集训练模型并对林甸研究区影像进行分类,所有模型在绿框区域的分类结果图5a所示,模型经林甸数据集训练后迁移至海伦,对海伦研究区的影像进行分类,利用海伦验证数据集进行精度验证,所有模型的分类结果如图5b所示。精度指标如表4和表5所示。
表4 各模型在林甸的精度
注:UA、PA、1分别代表用户精度、制图精度、1值。下同。
Note: UA, PA and1 represent the user's accuracy, the producer's accuracy and the1 score. Same below.
在林甸研究区,各模型的分类结果在视觉上十分相似,都取得了93%~95%的总体分类精度,对大豆、玉米和水稻3类主要农作物的1值均不低于89%、84%和97%,没有表现出大的性能差异,较好地反映了3类农作物与其余地物的空间分布趋势。存在的共同问题是大豆与玉米像元的错分,由于大豆、玉米混种的情况较为常见,GF-6/WFV数据较低的空间分辨率使得大豆与玉米像元容易混淆,同时因为大豆与玉米生育期相近、光谱响应相似,采用原始波段数据分离两者的难度较大,导致大豆与玉米的制图精度和用户精度降低,需要提高遥感数据分辨率、添加植被指数波段来进一步提高大豆、玉米的识别精度。
受样本量较小、云污染、自然地物类型和数据时相组成发生改变等因素影响,模型在迁移后出现了不同程度的过拟合现象,总体分类精度下降7.2%~41.0%。由总体精度和1值可以看出,在卷积模型中,MSResNet对3类农作物均保持了较好的分类性能,由于时间序列插值使得不同区域的像元具有不同的时相组成,MSResNet良好的拟合性或许是因为相对较复杂的网络结构和较大的参数量使其具有更强的数据泛化能力。OmniScaleCNN在分类过程中可根据数据特征自动调整卷积滤波器大小,从而更好地从时间序列数据中捕获分类特征,迁移后对3类农作物的识别能力优于卷积滤波器大小固定的TempCNN。递归模型中,LSTM和StarRNN通过引入门控单元对抗分类过程中梯度爆炸和梯度消失的问题,迁移后总体精度下降幅度均小于10%。基于注意力的Transformer对3类农作物的识别能力大幅下降,误分错分明显,或许是因为Transformer依赖弱归纳偏置、缺少条件计算使其对超长时间序列建模能力较差,导致模型在迁移后出现严重过拟合;RF由于在训练过程仅能提取少量浅层特征,迁移后精度损失最大。在其他类中,林甸以草地为主,海伦以林地为主,所有模型对其他类的识别能力都有所下降。综上,所有模型在数据空间位置和时相组成不变的情况下均能较好地对像元进行判断、反映3类农作物的分布趋势;但在数据的空间位置与时相组成变化的情况下,只有部分基于卷积或递归的深度学习模型能够反映各类地物的大致分布趋势。由于不同地区的农作物种植结构与地物类型有所差异,该结论在其他地区的适用性仍有待论证。
表5 各模型在海伦的精度
对于计算效率,在搭载Inter Xeon 4114处理器和GeForce RTX 2080Ti显卡的图形工作站上,以训练模型并利用模型对覆盖面积约10 000 km²的海伦研究区影像进行推理作为全过程,各个深度学习模型与随机森林模型的运行时间比值均在6.2倍以内,1 h内即可完成全过程,如表6所示。此外,由于GF-6/WFV时间序列数据获取与预处理较为耗时,难以让时间序列深度学习模型和GF-6/WFV数据在农作物分类中得到充分应用,后续将优化时序数据组合和波段组合以提高计算效率。
表6 各模型的运行时间
GF-6是中国第一颗具备红边和黄等农作物识别特征波段的中高空间分辨率卫星,同时具有高时间分辨率的特点。本文定性和定量地评估了多个时间序列深度学习模型在GF-6/WFV时间序列数据农作物识别中的性能,对基于卷积、递归和注意力机制的6个深度学习模型和随机森林模型的分类结果进行了目视分析以及精度评价,得出如下结论:
1)在空间位置不变的情况下,所有模型对大豆、玉米和水稻3类主要农作物的1值均不低于89%、84%和97%,表现出较强的农作物识别能力,能满足高精度农作物制图的业务需要。尽管卷积、递归和注意力机制间存在较大差别,各模型均取得了93%~95%的总体分类精度,表明在不进行空间位置迁移,即测试数据与训练数据来自于同一分布时,农作物识别精度与模型的分类机制的相关性较小。
2)在空间位置变化的情况下,由于自然地物类型和数据时相组成发生改变,各个模型的总体分类精度下降了7.2%~41.0%。其中,基于卷积的MSResNet的农作物识别能力没有明显变化,基于递归的LSTM和StarRNN总体精度下降幅度小于10%,而基于注意力的Transformer和随机森林对3类农作物的识别能力都出现了明显减弱,表明在空间位置迁移使得测试数据与训练数据处于不同分布后,分类机制对农作物识别精度影响较大,基于卷积或递归的模型优于基于注意力的模型和随机森林模型。该结论仅适用于黑龙江省平原地区,其他地区仍需进一步测试。
3)在时间消耗上,各个深度学习模型与随机森林模型的运行时间比值均在6.2倍以内,在较短时间内即可完成训练与推理的全过程。
基于3种机制可构建大量不同网络结构的深度学习模型,分类机制与农作物识别能力的关系仍需进一步探索。后续工作将侧重于深度学习模型的可解释性,研究各分类机制如何选择性地提取少数与农作物识别相关的特征。
[1] 王鹏新,荀兰,李俐,等. 基于时间序列叶面积指数稀疏表示的作物种植区域提取[J]. 遥感学报,2018,24(5):121-129.
Wang Pengxin, Xun Lan, Li Li, et al. Extraction of planting areas of main crops based on sparse representation of time-series leaf area index[J]. Journal of Remote Sensing, 2018, 24(5): 121-129. (in Chinese with English abstract)
[2] 赵红伟,陈仲新,刘佳. 深度学习方法在作物遥感分类中的应用和挑战[J]. 中国农业资源与区划,2020,41(2):35-49.
Zhao Hongwei, Chen Zhongxin, Liu Jia. Deep learning for crop classification of remote sensing data: Applications and challenges[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2020, 41(2): 35-49. (in Chinese with English abstract)
[3] Lecun Y, Bottou L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[4] Hinton E, Williams J. Learning representations by back propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[5] Maggiori E, Tarabalka Y, Charpiat G, et al. Convolutional neural networks for large-scale remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(2):645-657.
[6] Postadjian T, Bris L, Sahbi H, et al. Investigating the potential of deep neural networks for large-scale classification of very high resolution satellite images[J]. Remote Sensing and Spatial Information Sciences, 2017, 31(5): 11-25.
[7] 赵斐,张文凯,闫志远,等. 基于多特征图金字塔融合深度网络的遥感图像语义分割[J]. 电子与信息学报,2019,41(10):44-50.
Zhao Fei, Zhang Wenkai, Yan Zhiyuan, et al. Multi-feature map pyramid fusion deep network for semantic segmentation on remote sensing data[J]. Journal of Electronics and Information Technology, 2019, 41(10): 44-50. (in Chinese with English abstract)
[8] 陈洋,范荣双,王竞雪,等. 基于深度学习的资源三号卫星遥感影像云检测方法[J]. 光学学报,2018,38(1):32-42.
Chen Yang, Fan Rongshuang, Wang Jingxue, et al. Cloud detection of ZY-3 satellite remote sensing images based on deep learning[J]. Acta Optica Sinica, 2018, 38(1): 32-42. (in Chinese with English abstract)
[9] Zhang Q, Yuan Q, Zeng C, et al. Missing data reconstruction in remote sensing image with a unified spatial-temporal-spectral deep convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(8):4274-4288.
[10] Ozcelik F, Alganci U, Sertel E, et al. Rethinking CNN-based pansharpening: Guided colorization of panchromatic images via GANS[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(4): 3486-3501.
[11] 赵红伟,陈仲新,姜浩,等. 基于Sentinel-1A影像和一维CNN的中国南方生长季早期作物种类识别[J]. 农业工程学报,2020,36(3):169-177.
Zhao Hongwei, Chen Zhongxin, Jiang Hao, et al. Early growing stage crop species identification in southern China based on sentinel-1A time series imagery and one-dimensional CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(3): 169-177. (in Chinese with English abstract)
[12] Pelletier C, Webb G I, Petitjean F. Temporal convolutional neural network for the classification of satellite image time series[J]. Remote Sensing, 2019, 11(5): 3154-3166.
[13] Heming L, Qi L. Hyperspectral imagery classification using sparse representations of convolutional neural network features[J]. Remote Sensing, 2016, 8(2):99-110.
[14] Ji S, Zhang Z, Zhang C, et al. Learning discriminative spatiotemporal features for precise crop classification from multi-temporal satellite images[J]. International Journal of Remote Sensing, 2020, 41(8): 3162-3174.
[15] Shunping J, Chi Z, Anjian X, et al. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images[J]. Remote Sensing, 2018, 10(2):75-89.
[16] Ismail H, Forestier G, Weber J, et al. Deep learning for time series classification: A review[J]. Data Mining and Knowledge Discovery, 2019, 24(2): 57-69.
[17] Zhong L, Hu L, Zhou H. Deep learning based multi-temporal crop classification[J]. Remote Sensing of Environment, 2018, 221(3): 430-443.
[18] Rußwurm M, Korner M. Temporal vegetation modelling using long short-term memory networks for crop identification from medium-resolution multi-spectral satellite images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. IEEE Computer Society, 2017: 11-19.
[19] 杨泽宇,张洪艳,明金,等. 深度学习在高分辨率遥感影像冬油菜提取中的应用[J]. 测绘通报,2020,522(9):113-116.
Yang Zeyu, Zhang Hongyan, Ming Jin, et al. Extraction of winter rapeseed from high-resolution remote sensing imagery via deep learning[J]. Bulletin of Surveying and Mapping, 2020, 522(9): 113-116. (in Chinese with English abstract)
[20] Ienco D, Gaetano R, Dupaquier C, et al. Land cover classification via multitemporal spatial data by deep recurrent neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1685-1689.
[21] Ndikumana E, Minh DHT, Baghdadi N, et al. Deep recurrent neural network for agricultural classification using multitemporal SAR Sentinel-1 for Camargue, France[J]. Remote Sensing, 2018, 10(8): 1217-1230.
[22] Campos-Taberner M, García-Haro F J, Martínez B, et al. Understanding deep learning in land use classification based on Sentinel-2 time series[J]. Scientific Reports, 2020, 10(1): 1-12.
[23] Rußwurm M, Körner M. Multi-temporal land cover classification with sequential recurrent encoders[J]. ISPRS International Journal of Geo-Information, 2018, 7(4): 129-143.
[24] Haobo L, Hui L, Lichao M. Learning a transferable change rule from a recurrent neural network for land cover change detection[J]. Remote Sensing, 2016, 8(6):506-513.
[25] Mou L, Bruzzone L, Zhu X X. Learning spectral-spatial- temporal features via a recurrent convolutional neural network for change detection in multispectral imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 57(2): 924-935.
[26] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. NIPS, 2017: 5998-6008.
[27] Xu R, Tao Y, Lu Z, et al. Attention-mechanism-containing neural networks for high-resolution remote sensing image classification[J]. Remote Sensing, 2018, 10(10): 1602-1611.
[28] Liu R, Cheng Z, Zhang L, et al. Remote sensing image change detection based on information transmission and attention mechanism[J]. IEEE Access, 2019, 7: 156349-156359.
[29] Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3146-3154.
[30] Tang W, Long G, Liu L, et al. Rethinking 1d-cnn for time series classification: A stronger baseline[EB/OL]. (2021-01-12)[2021-04-20]https://arxiv.org/abs/2002.10061.
[31] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
[32] Turkoglu M O, D'Aronco S, Wegner J, et al. Gating revisited: Deep multi-layer rnns that can be trained[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 8(12): 2145-2160.
[33] 吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.
Wu Jianbin, Zhu Jianping, Xie Bangchang. A review of technologies on random forests[J]. Journal of Statistics and Information, 2011, 26(3): 32-38. (in Chinese with English abstract)
[34] Pelletier C, Valero S, Inglada J, et al. Assessing the robustness of Random Forests to map land cover with high resolution satellite image time series over large areas[J]. Remote Sensing of Environment, 2016, 187: 156-168.
[35] Pelletier C, Valero S, Inglada J, et al. Effect of training class label noise on classification performances for land cover mapping with satellite image time series[J]. Remote Sensing, 2017, 9(2): 173-180.
[36] Lyons M B, Keith D A, Phinn S R, et al. A comparison of resampling methods for remote sensing classification and accuracy assessment[J]. Remote Sensing of Environment, 2018, 208: 145-153.
Evaluation of deep learning algorithm for crop identification based on GF-6 time series images
Chen Shiyang, Liu Jia※
(,,100081,)
Crop type mapping is one of the most important tools with medium and high spatial resolution satellite images in monitoring services of modern agriculture. Taking Heilongjiang Province of northeast China as a study area, this study aims to evaluate the state-of-the-art deep learning in crop type classification. A comparison was made on the Convolution Neural Network (CNN), Recurrent Neural Network (RNN), and Attention Mechanism (AM) for the application in crop type classification, while the traditional random forest (RF) model was also used as the control. Six models of deep learning were Temporal Convolutional Neural Network (TempCNN), Multi Scale 1D Residual Network (MSResNet), Omniscale Convolutional Neural Network (OmniscaleCNN), Long Short-Term Memory (LSTM), STAR Recurrent Neural Network (StarRNN), and Transformer. The specific procedure was as follows. First, GF-6 wide-field view image time series was acquired between April and November in the Lindian and Hailun study area, northeast of China, in order to extract the features of three types of crops at different growth stages. The resulting image time series used in the Lindian and the Hailun was composed of 41 and 48 GF-6 images, respectively. The preprocessing workflow included RPC correction, radiometric calibration, convert to top-of-atmospheric and surface reflectance using 6S atmospheric correction. The image interpolation and global min-max normalization were also applied to fill the empty pixel, further improving the convergence speed and stability of neural networks. The ground truth data was manually labelled using a field survey combined with GF-2 high-resolution image to generate datasets for train and evaluation. The datasets included six crops, such as rice, maize, soybean, water, urban and rest, covering 2 003 629 pixels in Lindian, 935 679 pixels in Hailun. Second, all models were trained and evaluated in Lindian, according to the differences between CNN, RNN, AM, and RF. All models achieved an overall accuracy of 93%-95%, and1-score above 89%, 84%, and 97% for soybean, maize, and rice, respectively, where three major crops were from both study areas. Thirdly, the trained model in Lindian was transferred to that in Hailun, where the overall classification accuracy of each model declined between 7.2% to 41.0%, due to the differences of land cover classes and temporal composition of the data. Among CNNs, the accuracy of MSResNet barely changed to recognize three types of crops after transfer. Since OmniScaleCNN was automatically adjusted the size of the convolution filter, the accuracy of OmniScaleCNN after the transfer was better than that of TempCNN. A forget gate was utilized in the LSTM and StarRNN among RNNs, in order to avoid gradient explosion and disappearance in the classification, where the overall accuracy declined less than 10% after transfer. However, the accuracy of attention-based Transformer and RF dropped significantly. All models performed better on the distribution of three types of crops under the condition that the spatial location and temporal composition of data remain unchanged, in terms of visual analysis of classified images. Two CNN or RNN models were expected to accurately identify the general distribution of all land cover classes, under the varying spatial location and temporal composition. Furthermore, the run time of each deep learning was within 1 h, less than 6.2 times of random forest. Time consumption in the whole process was associated with the model training, as well as the image treatment for the Hailun study area covering an area of about 10 000 km². Correspondingly, deep learning presented a high-precision and large-scale crop mapping, in terms of classification accuracy and operating efficiency, particularly that the transfer learning performed better than before.
crops; remote sensing; recognition; deep learning; GF-6; time series; Heilongjiang
陈诗扬,刘佳. 基于GF-6时序数据的农作物识别深度学习算法评估[J]. 农业工程学报,2021,37(15):161-168.doi:10.11975/j.issn.1002-6819.2021.15.020 http://www.tcsae.org
Chen Shiyang, Liu Jia. Evaluation of deep learning algorithm for crop identification based on GF-6 time series images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 161-168. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.15.020 http://www.tcsae.org
2021-05-08
2021-07-13
高分农业遥感监测与评价示范系统(二期)(09-Y30F01-9001-20/22)
陈诗扬,研究方向为基于深度学习的农作物遥感分类。Email:genghisyang@outlook.com
刘佳,研究员,研究方向为遥感监测业务运行。Email:liujia06@caas.cn
10.11975/j.issn.1002-6819.2021.15.020
S127
A
1002-6819(2021)-15-0161-08