基于CNN-BiLSTM的棉花产量预测方法

2021-11-25 13:20戴建国薛金利张国顺何相良
农业工程学报 2021年17期
关键词:时序生育期卷积

戴建国,蒋 楠,薛金利,张国顺,何相良

(1. 石河子大学信息科学与技术学院,石河子 832003;2. 兵团空间信息工程技术研究中心,石河子 832003)

0 引 言

棉花产量是影响区域经济发展的重要因素,在国民经济中占有重要地位。及时、动态、准确的产量预测,在棉田经营管理、农业决策制定等方面具有极其重要的价值和意义[1-2]。目前,传统卫星遥感技术主要应用于大尺度地表信息采集,在宏观决策方面具有独特优势[3];但其受空间分辨率、卫星运行周期、气象条件等因素影响,在农田尺度农情监测的实际作业管理中难以满足实时性、高精度等需求。无人机遥感平台作为一种新兴的遥感信息获取手段,具有高时效、高分辨率、作业成本低、灵活性高和复用性强等优点[4-5],可实时获取农田尺度的遥感影像,有效地协助管理人员进行作业管理与调控。

目前,国内外相关学者已经开展了一些无人机遥感估产研究,且现有方法中多采用线性回归、经验模型等传统算法[6-8]。如张美娜等[9]从图像中提取了颜色特征、植被覆盖率和植被指数3个特征与棉花产量分别建立回归模型,结果表明,由多个变量建立的模型效果最佳,平均绝对百分比误差为4%,然而模型所用特征比较依赖人工设计与提取,泛化能力较差,难以拓展应用。朱婉雪等[8]基于冬小麦不同生育期影像数据以及植被指数,构建了多个估产模型,最终确定最佳估产时期和植被指数为抽穗灌浆期和增强型植被指数(Enhanced Vegetation Index,EVI),决定系数达到0.70,但作物产量是一个有机物不断积累的结果,单生育期产量预测忽略了作物在时间维度的隐藏特征。韩文霆等[10]将各生育期植被指数进行牛顿-梯形积分,再基于其积分值构建了夏玉米产量估算模型,决定系数为0.87,然而模型所用特征相对比较单一,在复杂背景下可靠性较低。

近年来,深度学习方法凭借其自动学习并提取特征的能力,在机器视觉、自然语言处理等[11-13]领域取得了巨大突破,在遥感影像处理方面也得到广泛应用[14-15]。在时间特征提取方面,双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)网络[16]通过双向重叠计算,弥补了长短期记忆(Long Short-Term Memory,LSTM)网络[17]无法同时提取从后向前的信息的不足,可以更好的捕捉双向的时序特征,在时序数据分析中取得了更为显著的效果[18-20]。但BiLSTM网络在表达数据的空间维度特征方面适用性较差,难以充分挖掘数据的空间特性。为此,本研究提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和BiLSTM网络串行结构的棉花估产模型,以棉花苗期、蕾期和花期的影像为输入,将CNN网络在空间特征提取的优势与LSTM网络在时序特征提取的优势相结合,充分利用其空间和时间两个方面的联系,增强模型的数据挖掘能力,以实现农田尺度的棉花产量预测。

1 材料与方法

1.1 研究区概况

研究区位于新疆塔城地区沙湾县蘑菇湖村(85°52′02″E~85°52′31″E, 44°20′14″N~44°20′25″N),如图1所示,地处古尔班通古特大沙漠南缘,属于典型温带大陆性气候,冬季长而严寒,夏季短而炎热,一年中降水较多的月份主要出现在4—7月,年均降水量125.0~207.7 mm[21],非常适宜棉花生长。研究区为沙性土壤,棉花种植品种为天云0769号,采用机采棉播种方式(1膜6行、每米15穴、1穴1粒),并于2019年4月20日滴出苗水。根据五点采样法要求在研究区划分5个采样区域,每个区域设置5个样方,共25个样方,样方大小为2.3 m×2.3 m。待棉花成熟后,人工获取每个样方的产量数据。

1.2 试验数据采集

1.2.1 无人机遥感影像获取与预处理

研究区范围如图1所示,该区域大小(长×宽)为46 m×40 m,共占20个地膜。于2019年6月5日、6月29日、7月12日通过无人机平台分别采集棉花苗期、现蕾期、开花期的遥感影像。无人机(悟1 Pro,大疆创新科技有限公司,中国)最大起飞质量3.5 kg,最大水平飞行速度18 m/s,轴距559 mm,起重限额3.5 kg,最大飞行时间15 min。可见光相机(禅思X5,大疆创新科技有限公司,中国)有效分辨率为1 600万像素,支持自动对焦、曝光锁定等功能。影像采集时间为12:00,相机焦距15 mm,镜头垂直于主航线,飞行航线任务高度40 m,速度4 m/s,航向重叠率70%,旁向重叠率70%,地面分辨率1 cm,拍摄模式为悬停拍照。采用Pix4D mapper 摄影测量软件对无人机遥感影像进行拼接。首先导入原始图像数据,读取全球定位系统(Global Positioning System,GPS)信息和无人机姿态数据,设定相机飞行时的配置信息,将拼接校准特征点数量设置为10 000,输出影像类型设置为三维地图,经自动化处理输出数字正射影像。为进行后续深度学习数据集制作,需对拼接完成的正射影像进行裁剪,以去除非研究区影像以及边缘异常值。影像裁剪软件为ArcGIS map 10.6,裁剪流程分为3个步骤,1)根据地面控制点确定研究区范围,划分研究区掩模;2)采用提取工具进行掩模裁剪,生成研究区栅格数据;3)将栅格数据转换矢量数据,输出研究区遥感影像。

1.2.2 数据集制作

根据地面采样点对无人机遥感影像进行切片分割,获取棉花苗期、蕾期和花期共225张遥感影像样本。为扩大数据集增强模型学习能力,再对影像样本分别添加如下变化:1)旋转与对称。将原始图像分别进行90°、180°、270°旋转以及水平和垂直翻转;2)对比度与亮度。将红绿蓝(Red Green Bule,RGB)颜色空间转换为色调饱和度亮度(Hue Saturation Value,HSV)颜色空间,调整亮度、对比度、色度和饱和度,模拟光照以及气候的变化;3)噪声与模糊。考虑棉田复杂环境,对图像添加适当噪声。通过以上扩展,共得到2 700条样本数据,其调整效果如图2所示。将数据集按照7:2:1划分为训练集(1 890张)、验证集(540张)、测试集(270张)。

1.3 研究方法

1.3.1 卷积神经网络和双向长短期记忆(CNN-BiLSTM)模型构建

本研究提出的CNN-BiLSTM模型结构主要由CNN模块、BiLSTM模块和输出模块3部分(图3)。其中CNN模块包含3个独立分支的卷积神经网络结构,且3个卷积神经网络的参数相同,分别进行3个棉花生育期的影像空间特征提取,以避免不同生育期影像混合,从而确保输入数据时序信息的完整性。CNN结构的第一部分是卷积层,进行卷积运算提取局部空间特征。本研究通过堆叠卷积层数量改变CNN结构的深度,进而调整空间特征的提取程度。卷积层中,卷积核大小为3×3,数量为16,卷积步长为1,边缘填充方式为SAME,激活函数为ReLU。CNN结构第二部分是池化层,进行特征降维,剔除冗余特征,提高CNN结构的容错性。池化层中,采样模式为最大池化,卷积核大小为2×2,数量为16,卷积步长为2。空间特征提取完成后将3个CNN模块得到的特征向量输入到BiLSTM网络中。

BiLSTM网络的主体隐藏层结构是在LSTM网络的基础上由正向输入运算的LSTM网络和反向输入运算的LSTM网络上下叠加构成,在保留了LSTM单元结构特点的同时,更加关注时序数据的前后关联性,确保时序特征的提取。同样,通过不断调整BiLSTM隐藏层数量以探索最佳的时序特征提取模式。隐藏层包括3个输出节点,对应棉花苗期、蕾期和花期3个生育期的特征输出。CNN-BiLSTM模型的输出模块由全连接神经网络组成,网络输入向量包含CNN提取的空间特征和BiLSTM网络提取的时序特征,其隐藏层数量为1,神经元个数为500,激活函数为ReLU,最终输出为估产结果。

1.3.2 评价指标

将模型估算结果与地面采集数据进行线性回归分析,使用决定系数(coefficient of determination,R2)、均方根误差(Root Mean Square Error,RMSE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE,%)作为评价指标[9,22],定量评价模型的准确率。其中,MAPE的计算数学表达式如式(1)所示:

式中n为样本总数量,i表示样本集中第i个样本,yi为真实值,yˆi为预测值。

1.3.3 训练环境与要求

试验运算环境如下:操作系统为Windows 10,处理器为Intel(R)Core i7 7800X CPU@3.5GHz,运行内存32 GB,显卡为NVIDIA GeForce GTX1080Ti,22 GB显存,程序编写语言为Python3,开发框架为TensorFlow 1.9。模型优化采用自适应梯度下降算法,以均方误差作为模型损失函数,学习率设为0.001,最大迭代次数为 15 000,模型稳定后停止迭代。为防止模型过拟合,每迭代10次进行1次验证。

2 结果与分析

2.1 双向长短期记忆(BiLSTM)网络性能验证与分析

为比较BiLSTM与LSTM在棉花估产方面的性能差异,本研究先将二者进行对比分析。方法是在数据集完全相同的情况下,通过调整隐藏层数量改变网络深度,然后对预测结果进行比较。在试验中分别设置了隐藏层数为1、2、4的LSTM模型和BiLSTM模型,其对应名称为LSTM1、LSTM2、LSTM4和BiLSTM1、BiLSTM2、BiLSTM4。为保证时序信息完整性,将棉花苗期、蕾期和花期的图像通过维度重塑转换为时间窗长度为3的输入张量。

LSTM模型和BiLSTM模型的性能对比如表1所示。由表1可知,2种模型的预测结果决定系数都在0.8以上。在LSTM模型中LSTM2最优,R2为0.844,RMSE为163.322 g,MAPE为7.482%。在BiLSTM模型中,BiLSTM1的预测效果最好,其R2为0.851,RMSE为161.911 g,MAPE为7.304%。以上数据还表明,对于LSTM和BiLSTM模型,网络深度分别在2和1的情况下,随着隐藏层数量的增加,模型的性能均不断降低,说明增加网络深度并不能提高模型的准确率。

表1 长短期记忆模型和双向长短期记忆模型的预测结果Table 1 Prediction results of Long Short-Term Memory (LSTM)model and Bidirectional Long Short-Term Memory (BiLSTM)model

综合分析表1的数据还可以发现,BiLSTM1模型的性能在以上6个模型中最佳,LSTM2模型预测效果次之,LSTM1、LSTM4、BiLSTM2和BiLSTM4模型预测精度依次下降。通过分析LSTM网络与BiLSTM网络的结构可以得出,由于BiLSTM网络是由正向传输的LSTM网络与反向传输的LSTM网络上下叠加构成,1个隐藏层的BiLSTM模型在网络深度上与隐藏层数量为2的LSTM模型相同,并且BiLSTM网络提取的时序特征包含时序数据的前后信息,因此优于LSTM网络的单向特征提取。同时,由于棉花的生长是有机物积累的过程,各生育期间生长信息相互关联,无论是从苗期到花期还是从花期到苗期均存在时序特性方面的联系。因此,双向运算的BiLSTM网络提取的时序特征更加丰富、完整,模型性能更优。基于以上试验结果,本研究将接下来要构建的CNN-BiLSTM模型中BiLSTM网络隐藏层数量固定为1。

2.2 卷积神经网络和双向长短期记忆(CNN-BiLSTM)模型结果分析

由于CNN网络卷积层数对特征提取具有很大影响,因此本研究同样设定了不同卷积层数量的CNN结构。以CNNm-BiLSTM表示m个卷积层的CNN-BiLSTM模型,本研究设计了卷积层数量为1、10、14、16、18和20共6种CNN-BiLSTM模型进行训练。模型训练过程中损失曲线如图4所示,其中图4a与图4b相同分别为整体损失曲线和最后200次迭代的损失曲线。由图4a可知,随着迭代次数增加,模型的损失值均不断减少,且在迭代1 200次左右所有模型都达到收敛。由图4b可知,随着网络深度的增加,模型收敛的能力不断提高,损失值分布在20 000~70 000范围左右,除CNN1-BiLSTM模型波动幅度较大外,其他5个模型的波动幅度较小,其中CNN14-BiLSTM模型的损失值小,且波动幅度较小。

将训练完成的CNN-BiLSTM模型应用于测试集进行测试,预测产量与实测产量的线性回归分析如图5所示。由图5可知,CNN-BiLSTM模型的估算结果与地面实测产量间具有较好的线性关系。对比6个模型的网络结构和各项指标可知,CNN1-BiLSTM模型效果最差,其决定系数R2为0.812,RMSE为207.350 g,MAPE为7.980%,这说明当CNN网络的卷积层较少时,其提取的浅层特征无助于模型精度的提升,甚至会造成干扰。但随着卷积层数量的增加,预测精度逐渐提高,当卷积层增加到10层时,CNN10-BiLSTM模型的R2达到0.857,MAPE降低至7.256%。到卷积层数量为14时,性能指标到达顶峰,其R2为0.885,RMSE为147.167 g,MAPE为6.711%。但当卷积层数量超过14时,CNN卷积层数的增加对模型性能提升不但没有帮助,反而出现下降趋势,如CNN20-BiLSTM模型的R2为0.870,RMSE为155.583 g,MAPE为7.067%。

3 讨 论

综合将LSTM、BiLSTM和CNN-BiLSTM模型性能指标进行对比分析发现,当CNN卷积层数在10以上时,CNN-BiLSTM模型的性能指标明显优于LSTM模型和BiLSTM模型。由此可知,使用CNN提取空间特征后的确可以有效改善BiLSTM网络的性能,进而提高棉花估产精度。

由图5可知,对于棉花产量高于 3 200 g的采样点,CNN-BiLSTM模型预测效果均优于产量低于3 200 g的采样点,尤其是3 400 g以上样本,其预测结果波动幅度小,聚拢于拟合曲线附近,与 3 200 g以下的样本相比预测效果明显更好。为分析原因,将不同产量的花期影像进行对比可知(图6),产量较低的样方长势不匀,棉花冠层没有达到完全封垄,图像中仍存在部分裸土区域,导致低产区影像比高产区影像更加复杂,噪声更多。同时,在本研究所选的3个生育期中,花期作为最接近成熟期的生育期,在估产模型训练中占有更加重要的地位,所以不同产量水平反映在遥感影像上的不同可能导致模型预测结果出现较大差异。因此,本研究将在后续试验中尝试在CNN卷积层中使用多个不同大小的卷积核进行特征提取,以使模型能够提取不同感受野下的影像特征,提高特征提取的丰富性,降低图像背景的影响,提升在产量较低水平下的预测精度。

此外,与Sumesh等[23]使用株高等生长参数为特征建立的估产模型相比,CNN-BiLSTM模型通过采用CNN模块实现了抽象隐藏特征的自动提取;与Zhou等[24-25]单独使用CNN进行估产相比,CNN-BiLSTM模型提取了影像数据的时序特征。但与张美娜等[9,26]的研究结果相比,CNN-BiLSTM模型的预测精度仍有一定提升空间,分析原因主要包括以下两方面:1)现有模型赋予各生育期影像相同的权重,忽视了不同生育期棉花长势对棉花产量具有不同程度的影响;2)模型结构方面,CNN-BiLSTM模型是依据串行结构组成,CNN提取的空间特征没有直接应用于产量预测,实际作用受到限制。针对以上问题,在后续试验中可以进行如下两方面的改进;1)在模型中引入注意力(Attention)机制,给各生育期影像分配不同注意力,调整模型对棉花不同生育期影像的关注度,以提高估产精度;2)以并行结构混合CNN和BiLSTM网络,使其各自独立的提取空间特征和时序特征,提高空间特征的使用率,从而提升估产精度。

4 结 论

本研究基于卷积神经网络(Convolutional Neural Network,CNN)和双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络构建CNN-BiLSTM混合模型,使用棉花苗期、蕾期和花期的无人机可见光遥感影像进行棉花产量预测。研究结果表明,通过将空间特征和时序特征两者结合,可以更深入地挖掘棉花不同关键生育期长势情况及其关联关系,从棉花产量形成过程的角度来看,该方法可靠性良好。主要结论如下:

1)长短期记忆网络(Long Short-Term Memory,LSTM)的确能够有效提取数据的时序特征,而BiLSTM效果更好,其中网络深度为1的BiLSTM模型在棉花估产方面性能最优。

2)在提取时序特征之前增加CNN提取影像数据的空间特征,能够有效地减少影像中冗余信息对BiLSTM网络的干扰,进而提高模型性能。其中CNN卷积层数为14的CNN14-BiLSTM模型性能最佳,实测产量与预测产量的拟合决定系数为0.885,均方根误差(Root Mean Square Error,RMSE)为147.167 g,平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)为6.711%。

3)相较于单独使用BiLSTM网络,卷积神经网络和双向长短期记忆网络混合模型(CNN-BiLSTM)可同时提取空间和时间2个维度的特征,在针对具有一定时间跨度的问题研究方面具备优势,该方法可对类似的农作物监测预测问题研究提供参考。

猜你喜欢
时序生育期卷积
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
吉林水稻关键生育期延迟型/障碍型冷害时空变化*
不同生育期干旱与氮肥施用对花生氮素吸收利用的影响
中国大豆生育期组零点标识落成仪式在黑河举行
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
你不能把整个春天都搬到冬天来
从滤波器理解卷积