基于深度学习和多源遥感数据的玉米种植面积提取

2023-02-24 09:47吕伟宋轩杨欢
江苏农业科学 2023年23期
关键词:卷积神经网络深度学习玉米

吕伟 宋轩 杨欢

摘要:玉米作为我国主要粮食作物之一,及时准确监测其种植范围及面积对农业产能评估、保障粮食安全具有重要意义。以华北平原典型农业区——原阳县为例,基于欧空局Sentinel-1 SAR和Sentinel-2 MSI遥感影像数据,在谷歌地球引擎云平台的支持下通过提取雷达后向散射系数时序曲線以及归一化植被指数(NDVI)时序曲线,搭建卷积神经网络(CNN)模型,并将时序数据输入模型得到典型地物分类结果,提取了研究区玉米种植区域,利用野外调查数据进行精度验证,并与随机森林分类对种植区的提取结果进行对比。结果表明,基于光学和SAR融合遥感影像数据的识别效果最佳,总体精度达到93.33%,κ系数为0.911;与随机森林分类法相比,卷积神经网络分类的总体精度更高,分类效果更好。因此,采用卷积神经网络以及多源遥感数据的融合能够实现玉米种植面积的准确监测。

关键词:深度学习;多源遥感;融合数据;卷积神经网络;种植识别;时序数据;玉米

中图分类号:TP79;S127  文献标志码:A

文章编号:1002-1302(2023)23-0171-07

玉米作为我国主要粮食作物之一,及时准确监测玉米的种植面积对掌握玉米产量、保障粮食安全以及经济和环境的可持续发展有至关重要的意义[1]。传统玉米种植面积监测主要通过问卷调查和实地访谈统计信息并逐层上报,需要大量的人力物力[2],且耗时较长[3]。遥感分类法是基于1幅或多幅玉米种植影像进行面积提取的方法[4],卫星遥感技术以其覆盖面大、重访周期短、多时空分辨率等优势,在植被面积监测方面取得了巨大成就[5]。遥感分类法主要包括2种,一种选取作物光谱特征差异明显的1期影像来实现分类,另一种是基于多期遥感影像,提取作物生育期内光谱变化的时序特征进行面积提取。后者精度更高,是目前作物精细分类的主要方式[6],但是需要人工预处理并提取相关特征[7],数据重建工作复杂,不利于快速与自动化分类作物。近年来,深度学习作为机器学习和数据挖掘领域的突破性技术,广泛应用于图像分类、目标识别等领域。深度学习在特征表示方面具有特有的灵活性,基于原始输入数据和输入标签,使用卷积运算自动提取特征,实现模型端到端训练,不需要专家先验知识即可实现高精度、自动化分类[8]。Kussul等基于多源多时序遥感数据对比分析后认为,卷积神经网络(CNNs)要优于随机森林方法,各种作物的目标分类精度均在85%以上[9]。Garnot等使用CNN、RNN、R-CNN对时序哨兵二号数据进行分类,发现所有深度学习模型均优于随机森林模型,突出了深度学习模型在农业地块分类方面的潜力[10]。目前国内外作物面积提取主要采用多光谱遥感影像,但是夏季作物生长关键期云雨天气频繁[11],难以获得有效的多时相遥感数据[12]。相比之下,合成孔径雷达能穿透云、雾,不受天气影响,但雷达影像中存在很大的散斑噪声[13]和几何形变现象(如透视收缩、叠掩和阴影等)[14],会影响地物识别的精度。如何将多光谱和雷达图像进行融合,从而提高作物种植面积提取精度显得尤为重要。因此,本研究以华北平原典型玉米种植区的识别为例,基于Sentinel-1 SAR和Sentinel-2 MSI融合的时间序列遥感数据,采用卷积神经网络算法(CNN),评估CNN在时间序列分类任务中的适用性,探索光学和雷达遥感融合数据在作物种植类型识别中的优势。

1 研究区域和数据处理

1.1 研究区域概况

研究区选择河南省新乡市原阳县,该县地处豫北平原,南临黄河,位于34.55°~35.11°N、113.36°~114.15°E,东接封丘县,西邻武陟县、获嘉县,背靠新乡县、延津县,南与郑州市隔河相望,总面积1 022 km2。地貌属冲积平原,地势西南高、东北低。温带大陆性季风气候,年均气温约为14.3 ℃,平均降水量为556  mm,全年无霜期227 d。

原阳县农业发达,是华北平原主要农作物种植区之一,以1年2熟的作物轮作模式为主,玉米为夏季主要作物之一,一般于6月中上旬播种,8月进入生长旺盛期,10月中下旬收获,生育期为每年的6—10月(图1)。

1.2 数据来源及预处理

1.2.1 遥感影像数据

选取哨兵一号雷达影像(Sentinel-1 SAR )和哨兵二号多光谱影像(Sentinel-2 MSI),数据访问、处理及模型构建通过谷歌地球引擎(Google Earth Engine,GEE)云平台进行。哨兵系列影像具有重访周期短、空间分辨率高、影像覆盖范围大、数据免费等优点,是现今较有优势的一种对地观测数据。

1.2.1.1 Sentinel-1 SAR GRD数据

该数据通过GEE云平台获取,采用干涉测量宽幅模式(interferometric wide swath,IW)下的VH (垂直发射水平接收)极化方式和VV(垂直发射垂直接收)极化方式,利用Sentinel-1 Toolbox (S1TBX)工具进行预处理,包括热噪声去除、辐射定标、地形校正等,空间分辨率为 10 m,重访周期为12 d。

1.2.1.2 Sentinel-2 MSI数据

Sentinel-2 MSI采用Level-1C产品,共13个波段,其中分辨率为10 m的波段有4个,分辨率为20 m的有6个,分辨率为60 m的有3个,光谱覆盖范围从可见光到近红外、短波红外波段[15],时间分辨率 5 d,其自带质量评估(QA)波段识别云像元。本研究通过GEE云平台筛选出作物生长期云量少于25%的8幅影像。

1.2.2 野外数据

为准确获取样本信息,2020年7月利用GPS采集作物分布信息,同时利用Sentinel-1/2 数据选取其他地物典型像元作为样本,并将所选样本导入 Google Earth,调用同年份高分辨率影像,检查样本正确性。最终获得的样本信息见表1。以6 ∶[KG-*3]2 ∶[KG-*3]2的比例从中选择720个样本进行训练,240个样本用于验证分类精度,240个样本用于测试模型准确性。

2 研究方法和技术路线

2.1 技术路线

本研究技术路线见图2。第一,数据集的构建,利用GEE云计算平台对Sentinel-1/2数据进行预处理,并根据样本坐标点信息提取各种地物类型的不同遥感数据作物生长期时序曲线。第二,对各类时序数据进行组合,在GEE云平台上基于不同组合数据集构建单变量或多变量卷积神经网络,对数据进行作物分类,对比试验采用随机森林方法。第三,分析测试数据的分类结果,得到作物分类识别的最优数据组合。

2.2 时间序列NDVI/后向散射曲线提取

2.2.1 GEE提取时序数据

归一化植被指数(normalized difference vegetation index,NDVI)能较好地反映植被绿度变化,是植被生长状态及植被覆盖度的最佳指示因子[16],其结果在[-1,1]之间。计算公式为

NDVI=(ρNIR-ρR)/(ρNIR+ρR)。(1)

式中:NDVI表示归一化植被指数;ρNIR表示近红外波段反射率;ρR表示红外波段反射率。

将样本坐标点处理成shp文件,上传至GEE云平台显示标注地图,提取每一地物样本数据集(以实地考察样点为主)相应的时序数据。并通过光学影像质量标识剔除因云雨天气导致质量不高的数据[17],最终得到相应的NDVI、VV后向散射系数、VH后向散射系数时序数据。

对不同时序数据进行组合,共产生5组数据集:NDVI数据、交叉极化数据(VH数据)、单一极化数据(VV数据)、融合2类极化数据(VH+VV数据)、融合2类影像提取的NDVI和极化数据得到的融合数据(NDVI+VV+VH)。

2.2.2 Savitzky-Golay滤波平滑

由于云、气溶胶、太阳高度角等因素,原始遥感数据集存在很多噪声,在此情况下提取的时序曲线,波动性较大,不具有代表性。因此,需要对时间序列进行去噪处理。Savitzky-Golay(S-G)滤波被广泛应用于数据流平滑去噪,可以在消除噪声的同时确保信号的形状、宽度不变,是遥感植被指数时间序列的主要滤波方法。它是一种时域低通滤波法,通过局部多项式回归模型平滑时序数据,是移动窗口的加权平均算法,通过将给定高阶多项式的最小二乘法在滑动窗口内拟合得到加权系数。基本思想是:基于多项式在滤波窗口内利用最小二乘法对数据进行拟合[18]。

式中:Y表示原始數值;Y′表示拟合值;Ci表示第i个点的权重;N=2n+1表示滤波窗口的大小。

进行数据清洗后,将每类地物所有样本的时序数据在同一时间上分别求平均,通过 S-G 滤波器对平均时序数据进行滤波处理,得到较平滑的时序曲线[19]。为得到较好的平滑结果,经多次试验后,滤波核左右各选取5点,设平滑多项式次数为 2,最终的标准时序曲线分别见图3、图4、图5。

2.3 卷积神经网络

卷积神经网络(CNN)是深度学习方法中最成功的网络架构之一,是建立在传统人工神经网络上的一种深度学习算法,也是第1个成功训练多层网络的算法[20]。CNN具有局部连接、权值共享和池化层降采样的特点,与传统神经网络相比,可以减少参数量、降低模型复杂度,并赋予模型对平移和形变的容忍性[21]。卷积层通过计算卷积核与覆盖区域信号值的点击来确定神经元的输出。

CNN一般由用于分层提取特征的卷积滤波层和用于计算输出值的全连接层2个部分组成。网络层数的选择、卷积核的数量和大小、激活函数等,在CNN结构设计中尤为重要。经多次调参尝试,本研究选择4层Conv1D来提取特征值,每2层Conv1D后添加1层MaxPooling1D保留主要特征,减少计算量。每层卷积层使用修正线性单元ReLU函数作为激活函数来提高神经网络对模型的表达能力。池化层被固定为最大池化层,窗口大小为2。后面接1个全连接层、1个Dropout层、1个Dense层进行Softmax分类。模型训练选择Adam优化器,损失函数采用交叉熵损失函数(CEloss),公式如下[22]。

式中:N表示每批训练样本的数量;C表示所有类别的集合;I(n)c表示当前批次第n个样本独热标签类;P(n)c表示模型预测样本n为c类的概率,ln P(n)c用来表示惩罚模型对错误分类的样本的预测。

Dropout是一种正则化技术,通过随机失活一些神经元,防止数据集较小时容易造成过拟合[23-24],以提高神经网络的性能,设置为0.5。全连接层经过Dropout层后,输入Softmax层,最终输出4种类别的概率结果。经过滤波处理的5组不同特征组合的时序数据集均输入该模型,模型架构见图6。

2.4 精度评价指标

构建混淆矩阵时选取用户精度(user accuracy,UA)、生产者精度(producer accuracy,PA)、总体精度(overall accuracy,OA)、κ系数、F1分数(F1-score,

别称平衡F分数)5个评价指标。其中,OA用于描述验证样本与分类结果一致的概率;PA表示地面的某类别被正确分类的概率;UA表示正确分类某类别的概率,主要用来评价分类结果的可信度;F1分数指标为综合考虑PA和UA的调和值[24];κ系数用于描述混淆矩阵的一致性,表征分类结果的可信度,当κ>80%时,表示分类精度最高;当 40%<κ<80%时,表示分类精度中等;当κ<40%时,表示分类精度最差[25]。

3 结果与分析

整体而言,采用1D-CNN分类方法的各种组合数据集均获得较好的分类效果,总体分类精度均高于85%,κ系数高于80%,所有试验结果中,NDVI数据与SAR极化数据融合分类效果最好。分类结果分别见表2、表3。随机森林分类效果较差,其总体分类精度及κ系数结果见表3。

3.1 基于时序NDVI数据的典型地物分类

由表3可知,基于时序NDVI数据的典型地物分类总精度为92.08%,κ系数为0.894,高于SAR极化数据分类精度。从单个类别的分类效果看,采用NDVI数据分类在水稻、玉米、建筑等3类地物的提取中有较好的分类效果,仅低于NDVI数据和极化数据融合的分类效果,其中玉米提取的F1分数为87.3%,但在水体提取上效果最差。

3.2 基于时序SAR后向散射数据的典型地物分类

首先比较2种极化方式分类结果,发现VV极化数据分类效果最差,基于时序VV极化数据的识别总精度为86.25%,κ系数0.817;VH极化数据分类效果较好,优于VV极化效果,识别总精度为89.17%, κ系数0.856; 与单一VH极化数据相比,VH+VV的组合数据分类效果更好,总精度为91.21%,κ系数为0.883,相比于单独利用VH或VV极化数据,VH+VV的组合分类总精度分别提高4.96、2.04百分点,κ系数分别提高0.066、0.027。从单个类别的分类效果来看,后向散射系数对水体的分类效果较好,因为水体与其他地物后向散射系数差异明显,单独使用VV极化数据和单独使用VH极化数据,对水体分类的F1分数均能达到99%以上,但是对玉米这类旱地作物分类效果较差,尤其是VV极化数据,对玉米分类的F1分数仅能达到76.34%,但VH极化数据对玉米分类的F1分数能达到86.21%,说明在提取玉米面积时,雷达图像具有可分性。

3.3 基于融合时序NDVI和SAR后向散射数据的典型地物分类

由表3可知,融合数据分类总精度为93.33%,κ系数为0.911。相比NDVI数据总精度提高1.25百分点,κ系数提高约0.017;相对于单一极化数据,融合数据总精度分别提高7.08、4.86百分点,κ系数分别提高0.094、0.055;相对于VV+VH组合数据,融合数据总精度提高了2.12百分点,κ系数提高0.028。融合数据的玉米提取的F1分数为88.71%,较其他数据方案均有明显提升。综上,融合2类遥感影像提取出的数据用于作物分类效果更佳,对玉米提取精度的提高有明显效果。

3.4 CNN在玉米面积提取中的表现

整体而言,利用CNN对5类组合数据进行地物分类,均得到较好的分类效果,总体分类精度均高于85%,高于随机森林分类方法,κ系数均高于80%,说明使用卷积神经网络能够有效地应用于典型地物识别。各数据组合方案中,除单一VV极化数据外,玉米提取F1分数均在85%以上,说明卷积神经网络能有效区分玉米,能達到玉米识别精度要求。不同数据集整体分类结果较接近,但NDVI数据分类结果有一定的错分现象,含有后向散射系数数据的分类结果椒盐现象较明显,这是因为雷达影像存在斑点噪声,单个像元受噪声影响较大,影响了时序曲线的构建。结合NDVI时序数据以及后向散射系数数据的分类精度更高,椒盐现象及错分现象都得到明显改善,减少了将建筑错分为玉米的现象,有利于玉米的遥感提取与制图。

3.5 玉米面积提取

综上,本研究采用卷积神经网络和多源遥感时序数据,获取原阳县的玉米种植面积及分布(图7),可见玉米为原阳县主要夏季农作物,主要分布于除太平镇和葛埠口乡以外的大部分地区。《2021年新乡统计年鉴》记录原阳县2020年的玉米种植面积为477.2 km2,分类结果中玉米种植面积为 446.1 km2,提取玉米面积与统计数据的一致性为93.5%。

4 结论与讨论

4.1 结论

本研究基于Sentinel-1/2数据,采用5种组合数据方案,结合GEE云平台以及1D CNN分类器,以华北平原典型农作物种植区为例,通过多光谱和雷达影像的数据融合,基于深度学习对玉米种植面积进行识别与提取,主要结论如下:(1)不同数据组合方式对分类识别结果存在差异,融合数据效果最好,总精度为93.33%,κ系数为0.911。SAR极化数据识别总精度均在85%以上,VV+VH的组合识别总精度最高,为91.21%,κ系数为0.883;NDVI数据分类精度高于SAR极化数据,总精度为92.08%,κ系数为0.894。(2)针对玉米提取,除VV极化数据效果较差,另外4种方案的F1分数均能达到85%以上。(3)采用卷积神经网络,总体精度均在85%以上,κ系数均在0.8以上,分类效果均高于随机森林的分类效果。

4.2 讨论

本研究充分利用GEE云平台强大的计算能力,通过建立研究区遥感地物分类模型,分析采用CNN算法使用Sentinel-1/2数据对华北平原玉米种植面积进行提取的效果。从方法上看,采用卷积神经网络,使用光学遥感数据或SAR后向散射系数数据,均能有效提取玉米种植面积,相较于随机森林算法而言,卷积神经网络能更好地提取作物时序信息,5种数据组合分类效果均高于随机森林的分类效果,总体分类精度均高于85%,κ系数均高于80%,说明使用卷积神经网络能够有效地应用于典型地物识别。玉米提取的F1分数除采用VV数据的分类方式外,均能达到85%以上,说明卷积神经网络能有效提取玉米种植面积,满足精细农业种植面积提取的需求,证明卷积神经网络在作物分类等应用中具有巨大的潜力。从数据上看,光学遥感数据分类效果比SAR后向散射系数数据分类效果更好。光学遥感数据对作物提取更有效,水体的后向散射系数与其他地物后向散射系数差异明显,故雷达影像数据对水体的提取效果更好。另外,在光学数据缺失的情况下,采用雷达后向散射时序数据也能达到较好的识别精度,对玉米的提取效果满足精细农业种植面积提取的需求,说明雷达影像在玉米面积提取上具备可分性。融合数据分类精度较单一数据分类精度更高,NDVI数据分类结果有一定的错分现象,含有后向散射系数数据的分类结果椒盐现象较明显,这是因为雷达影像存在斑点噪声,单个像元受噪声影响较大,会影响时序曲线的构建。但是,SAR数据的地物后向散射特征不同于光学影像,其穿透性不仅能获取植被的表面信息,对植被的茎、枝、叶等信息也有一定的反应,结合光学影像的光谱特性,能增加作物种植区的识别精度。结合NDVI时序数据以及后向散射系数数据椒盐现象及错分现象都得到明显的改善,降低将建筑错分为玉米的现象,有利于玉米的遥感提取与制图。综上,数据融合在一定程度上可以提高作物可分性,对提高作物分类精度有一定的效果。

参考文献:

[1]李 俐,孔庆玲,王鹏新,等. 基于时间序列Sentinel-1A数据的玉米种植面积监测研究[J]. 资源科学,2018,40(8):1608-1621.

[2]Sonobe R,Yamaya Y,Tani H,et al. Assessing the suitability of data from Sentinel-1A and 2A for crop classification[J]. GIScience & Remote Sensing,2017,54(6):918-938.

[4]潘 力,夏浩铭,王瑞萌,等. 基于Google Earth Engine的淮河流域越冬作物种植面积制图[J]. 农业工程学报,2021,37(18):211-218.

[4]魏鹏飞,徐新刚,杨贵军,等. 基于多时相影像植被指数变化特征的作物遥感分类[J]. 中国农业科技导报,2019,21(2):54-61.

[5]黄启厅,曾志康,谢国雪,等. 基于高时空分辨率遥感数据协同的作物种植结构调查[J]. 南方农业学报,2017,48(3):552-560.

[6]罗 明,陆 洲,徐飞飞,等. 基于快速设定决策阈值的大范围作物种植分布的遥感监测研究[J]. 中国农业资源与区划,2019,40(6):27-33.

[7]王庚泽,靳海亮,顾晓鹤,等. 基于改进分离阈值特征优选的秋季作物遥感分类[J]. 农业机械学报,2021,52(2):199-210.

[8]Zou Q,Ni L H,Zhang T,et al. Deep learning based feature selection for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters,2015,12(11):2321-2325.

[9]Kussul N,Lavreniuk M,Skakun S,et al. Deep learning classification of land cover and crop types using remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters,2017,14(5):778-782.

[10]Garnot V S F,Landrieu L,Giordano S,et al. Time-space tradeoff in deep learning models for crop classification on satellite multi-spectral image time series[C]//2019 IEEE International Geoscience and Remote Sensing Symposium.Yokohama,2019:6247-6250.

[11]朱凤敏,吴 迪,杨佳琪. 基于Sentinel-1B SAR数据的农作物分类方法研究[J]. 测绘与空间地理信息,2020,43(5):105-108.

[12]谢新乔,杨继周,邓邵文,等. 多时相Sentinel-1影像反演玉溪典型烟区烤烟种植分布的方法[J]. 农业资源与环境学报,2023,40(1):188-195.

[13]Ndikumana E,Minh D H T,Baghdadi N,et al. Deep recurrent neural network for agricultural classification using multitemporal SAR sentinel-1 for Camargue,France[J]. Remote Sensing,2018,10(8):1217.

[14]郭 交,朱 琳,靳 标. 基于Sentinel-1和Sentinel-2数据融合的农作物分类[J]. 农业机械学报,2018,49(4):192-198. [HJ2mm]

[15]成科扬,荣 兰,蒋森林,等. 基于深度学习的遥感图像超分辨率重建方法综述[J]. 郑州大学学报(工学版),2022,43(5):8-16.

[16]姜伊兰,陈保旺,黄玉芳,等. 基于Google Earth Engine和NDVI时序差异指数的作物种植区提取[J]. 地球信息科学学报,2021,23(5):938-947.

[17]张 淼,吴炳方,于名召,等. 未种植耕地动态变化遥感识别——以阿根廷为例[J]. 遥感学报,2015,19(4):550-559.

[18]杨泽航,王 文,鲍健雄. 融合多源遥感数据的黑河中游地区生长季早期作物识别[J]. 地球信息科学学报,2022,24(5):996-1008.

[19]陈思宁,赵艳霞,申双和. 基于波谱分析技术的遥感作物分类方法[J]. 农业工程学报,2012,28(5):154-160.

[20]赵子娟,刘 东,杭中桥. 作物遥感识别方法研究现状及展望[J]. 江苏农业科学,2019,47(16):45-51.

[21]羅荣辉,袁 航,钟发海,等. 基于卷积神经网络的道路拥堵识别研究[J]. 郑州大学学报(工学版),2019,40(2):18-22.

[22]Kampffmeyer M,Salberg A B,Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Las Vegas,2016:680-688.

[23]屈 炀,袁占良,赵文智,等. 基于多时序特征和卷积神经网络的农作物分类[J]. 遥感技术与应用,2021,36(2):304-313.

[24]Zhong L H,Hu L N,Zhou H. Deep learning based multi-temporal crop classification[J]. Remote Sensing of Environment,2019,221:430-443.

[25]王小慧,姜雨林,傅漫琪,等. 海河低平原典型县种植制度与农田景观格局变化遥感监测[J]. 农业工程学报,2022,38(1):297-304.

猜你喜欢
卷积神经网络深度学习玉米
收玉米啦!
我的玉米送给你
基于深度卷积神经网络的物体识别算法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究
最饱满的玉米