基于深度学习的湘赣鄂地区植被变化及其影响因子关系模型

2019-08-10 04:20李懿超沈润平黄安奇
江苏农业科学 2019年3期
关键词:影响因子深度学习预测

李懿超 沈润平 黄安奇

摘要:构建NDVI及其影响因子之间的关系模型是对区域植被变化进行预测的重要方法之一,然而传统的模型大多通过线性回归方法构建,且主要选取单一影响因子进行模型构建。深度学习是一种有效训练深层神经网络的机器学习算法,具有训练速度快、预测精度高的优点,近年来被应用于图像识别、回归分析等各领域。笔者引入深度学习方法,以气象、土壤、地形等多因子为模型自变量,以MODIS-NDVI为因变量构建关系模型,应用于湘赣鄂地区2005—2015年植被变化的预测中,对所建模型的适用性进行了评价。结果表明:深度学习模型与线性回归模型相比预测精度更高,预测效果更好,NDVI深度学习预测值与原始MODIS-NDVI值的相关系数达到0.804。可见,深度学习具有较强的模型构建及预测能力,能够地对区域植被变化进行有效的预测,进而为作物产量估算、冻害监测、植被覆盖度监测等研究提供帮助。

关键词:植被变化;影响因子;深度学习;关系模型;预测

中图分类号: S181; S127  文献标志码: A  文章编号:1002-1302(2019)03-0213-06

归一化植被指数(normalized difference vegetation index,NDVI)是目前最常用的反映植被状况的指标,可以较准确地反映植被的覆盖程度和生长状况[1]。NDVI是遥感影像近红外波段反射值(near infrared,NIR)和红光波段反射值(red,R)之差与NIR和R之和的比值,在全球及区域植被研究中得到了普遍的应用[2]。NDVI在农业、林业、土地利用等领域具有重要作用。在农业应用中,NDVI能够用来较准确地估算作物产量与作物叶面积指数,对作物的冻害及病虫害状况进行监测[3]。在林业应用中,NDVI可用于对森林覆盖进行遥感监测,估算区域植被覆盖度,对不同林地覆盖类别进行识别与提取[4]。NDVI在农林业中的应用对相关生产实践及科学研究具有實际的指导意义。NDVI的时空变化受到多种影响因子的影响,学者在NDVI与降水量、气温等气象因子的相关性及其关系模型等领域已经做了一些研究[5-7]。Ma等对秦岭山地NDVI变化与气温的关系进行了研究,指出气温对NDVI变化的影响存在2~3旬左右的滞后效应[8];韩雅等对中国区域AVHRR-NDVI与气温和降水量的相关关系进行了分析,建立了NDVI与气温和降水量的线性回归模型,指出气象因子对NDVI的影响有显著的空间差异[9];Yang等对甘肃地区降水量、气温与NDVI的关系进行了研究,发现降水量是影响该地区植被生长的主导气象因子[10]。现有研究着重探讨了降水量、气温2种气象因子与NDVI的相关关系,而忽视其他影响因子与NDVI的关系。同时,相关研究构建的NDVI及其影响因子的关系模型以线性回归模型为主,较少利用其他方法构建模型。深度学习算法的基本结构是深度神经网络,最早由Hinton等于2006年在深度置信网络(DBN)的基础上提出,解决了深层结构的优化问题,可用于对数据进行高层抽象建模[11-12]。与传统的神经网络模型相比,深度学习模型拥有5~10层甚至更多的神经网络,并引入了更有效的训练机制,能够模仿人类大脑高效准确地表示信息[13]。深度学习已应用于图像识别、自然语言处理等领域[14],但在遥感建模等方面还鲜少运用。本研究将采用领域前沿的深度学习方法,以 16 d 为时间尺度构建NDVI与多影响因子之间的关系模型来对湘赣鄂地区NDVI进行预测并对预测精度和预测效果进行评估与比较,以探究深度学习模型对不同空间尺度NDVI的预测能力,从而提高对区域植被覆盖变化的预测水平,以期在农林业相关领域研究应用中提高作物产量、叶面积指数、病虫害状况等指标的估算水平,为科研和生产活动提供有效的科学依据和参考数据。

1 材料与方法

1.1 研究区概况

湘赣鄂地区位于我国长江中游地区(108°21′42″~118°28′58″E、24°29′14″~33°6′47″N),包含湖南省、江西省、湖北省3省的行政区域。该区域属于亚热带湿润季风气候,山多地广,河流湖泊分布较多,降水充沛,光照充足,热量丰富,无霜期较长并且水热同期,区域年平均气温为9~19 ℃,年日照时数在850~1 850 h之间。区域植被覆盖面积达5399万km2,植被覆盖率为95.62%,区域植被覆盖率较高。其中,林地面积为32.21万km2,草地面积为1087万km2,农业用地面积为10.91万km2,该地区主要植被类型为亚热带常绿阔叶林。

1.2 数据源与预处理

归一化植被指数NDVI来自美国航空航天局NASA提供的MOD13A2级2005—2015年空间分辨率为1 km的16 d合成MODIS-NDVI产品数据集。该数据集经过严格大气矫正、几何校正、大气矫正等处理,可保证NDVI数据的质量。本研究利用MODIS重投影工具MRT(MODIS Reprojection Tool)对NDVI数据产品进行投影转换、图像拼接和裁剪等处理。为了进一步降低噪声并提高数据质量,对逐期的NDVI时序数据集通过IDL 7.0提供的Savitzky-Goaly滤波方法重建高质量NDVI时间序列数据。气象数据来源于国家气象科学数据共享服务平台提供的中国地面气候资料日值数据集(V3.0),选取湘赣鄂地区27个气象站点2005—2015年的气象要素日值数据(图1),包括降水量、气温、日照时数、相对湿度4个气象要素,计算各站点在研究时段内以16 d(1期)为时间尺度的平均值,得到2005—2015年气象要素时间序列。地形数据来源于美国国家航空航天局NASA和美国国家测绘局NIMA联合测量绘制的空间分辨率为90 m的SRTM-DEM数据,根据研究区行政边界矢量进行裁剪,得到研究区DEM数据,利用ArcGIS 10.0计算处理得到研究区坡度和坡向数据,再根据各气象站点的经纬度坐标提取得到各站点的海拔、坡度、坡向数据。土壤质地数据来源于北京师范大学发布的空间分辨率为1 km的中国区域土壤参数数据产品,根据经纬度坐标提取得到各站点的土壤质地数据。地表覆盖数据来源于分辨率为1 km的MCD12Q1产品数据,本研究使用IGBP国际地圈生物圈计划的全球植被分类方案。

1.3 研究方法

利用相关性分析方法对湘赣鄂地区2005—2015年NDVI与各气象因子的相关性进行分析,对各气象因子对NDVI影响的时间滞后效应进行探讨。在参考前人研究的基础上结合研究区实际情况选取土壤质地、地形、经纬度作为NDVI的其他影响因子,对NDVI与其他影响因子的相关性进行分析。在考虑气象因子影响作用滞后效应的基础上,运用深度学习方法和线性回归方法在基于站点尺度上建立研究区2005—2015年NDVI及其影响因子的关系模型来对NDVI进行预测,并对预测精度进行评估和比较。利用深度学习方法在基于空间尺度上预测2015年NDVI面数据,并对预测精度进行评估。本研究采用深度学习方法中的深度前馈神经网络(dynamic feedforward neural network,DFNN)进行模型训练。前馈神经网络的各神经元分层排布,各神经元只与前一层的神经元连接,接收前一层的输出结果,并输出给下一层,是目前应用较广泛,发展较迅速的神经网络之一。DNFF是一种由多个前馈神经网络组成的深度学习神经网络,相比于传统的前馈神经网络,它的多层结构使其具有更强的模拟能力,能够提取大量变量之间的深层特征以获得高预测精度[15]。深度学习训练的具体过程如下:(1)采用自下而上的非监督方式进行特征学习。先用无定标数据训练隐藏层的最底层,训练时先学习最底层的参数,使获得的模型可以学习到数据自身的结构特征,从而获得比输入具备更强表达特征的能力;在学习获得第n-1层后,将n-1层的输出作为第n层的输入来训练第n层,最终分别获得各层的参数。(2)采用自上而下的方式进行监督学习。利用含有标签的数据进行训练,误差自上向下传输,对结构进行细微调整,调整层与层之间的权重。

2 结果与分析

2.1 NDVI与气象因子的相关性

由湘赣鄂地区NDVI与对应不同时期的气象因子的相关性(表1)可知,降水量、气温、日照时数、相对湿度均对研究区NDVI变化存在比较明显的影响,并且各气象因子对NDVI的影响作用均存在一定的滞后效应。NDVI与对应各期降水量的相关性在0.171~0.328之间变化,相关性最大值在对应前3期,说明降水量对NDVI的影响存在3期(48 d)的滞后期;NDVI与对应各期气温的相关性在0.329~0.682之间变化,相关性最大值在对应前1期,说明气温对NDVI的影响存在1期(16 d)的滞后期;NDVI与对应各期日照时数的相关性在0.175~0.455之间变化,相关性最大值在对应前1期,说明日照时数对NDVI的影响存在1期(16 d)的滞后期;NDVI与对应各期相对湿度的相关性在0.115~0.179之间变化,相关性最大值在对应前3期,说明相对湿度对NDVI的影响存在3期(48 d)的滞后期。总体来看,热量条件的变化对NDVI的影响作用相较于水分条件更为明显一些,且影响作用的滞后期更短,这可能是因为湘赣鄂地区气候较湿润,降水量较大,从而对比水分条件来看,植被生长对热量条件的变化更为敏感。

2.2 NDVI與其他影响因子的相关性

由湘赣鄂地区多年平均NDVI与其他影响因子的相关性(表2)可知,各地形因子对NDVI均存在一定程度的影响,各因子与NDVI相关性的大小为海拔>坡度>坡向,说明在地形因子中,海拔对于NDVI影响最大,其次是坡度,影响最小的是坡向;土壤质地因子对NDVI存在一定程度的影响,各因子与NDVI相关性的大小为:黏粒>沙粒,说明在土壤质地因子中黏粒对NDVI的影响大于沙粒;经纬度因子对NDVI存在一定程度的影响,各因子与NDVI相关性大小为:经度>纬度,说明在经纬度因子中经度对NDVI的影响大于纬度。总体来看,其他影响因子均对研究区NDVI产生一定的影响,同时不同的影响因子对NDVI的影响存在一定差异。

2.3 基于站点的NDVI及影响因子关系模型的构建与精度评估

2.3.1 模型的构建 研究时段为2005—2015年,研究区域为湘赣鄂地区,以每16 d的NDVI均值作为因变量,以气温(temperature,TEM)、降水量(precipitation,PRE)、日照时数(sunshine duration,SSD)、相对湿度(relative humidity,RHU)、地形(digital elevation model,DEM)、土壤质地(soil texture,ST)、经度(longitude,LON)、纬度(latitude,LAT)作为自变量,构建以NDVI=f(TEM,PRE,SSD,RHU,DEM,ST,LON,LAT)为形式的关系模型,模型中NDVI与气象因子的对应将气象因子影响的滞后效应纳入考虑。本研究以2005—2014年数据为训练集,2015年数据为测试集。

2.3.1.1 深度学习模型 本研究在深度学习MXNET框架下利用R语言下的MXNET R包实现,模型的训练及预测过程如下:(1)因子输入。将研究时段内各自变量数值和因变量NDVI数值作为输入因子输入模型。(2)模型训练。对输入模型的训练集数据进行训练。通过对模型参数进行调整设置,包括调整隐藏层的层数m、每个隐藏层中神经元的数量n和训练的迭代次数p,以获得最优训练效果,研究经过多次参数调整,确定设置:隐藏层数m为6,神经元数量n为500,训练迭代次数p为1 000次,以全连接的方式链接,此时模型训练可以达到最优效果。(3)NDVI预测。模型训练结束后分别对训练集和测试集因变量NDVI进行预测,得到NDVI预测值。

2.3.1.2 线性回归模型 在训练集数据的基础上,构建以NDVI影响因子为自变量,NDVI为因变量的线性回归模型,如下所示:

式中:y为NDVI值;x1为NDVI对应前3期的降水量;x2为NDVI对应前1期的气温;x3为NDVI对应前1期的日照时数;x4为NDVI对应前3期的相对湿度;x5为经度;x6为纬度;x7为海拔;x8为土壤黏粒;x9为土壤沙粒;x10为坡向;x11为坡度。通过线性模型统计检验可知,NDVI与影响因子之间具有较好的线性关系,模型的置信度为99%(模型线性关系的显著性水平为99%)。最后将训练集和测试集自变量数据输入构建的线性回归模型中,分别得到训练集和测试集的NDVI预测值。

2.3.2 模型预测精度评估 分别将深度学习模型和线性回归模型的NDVI预测值与原始MODIS-NDVI值进行比较分析,通过计算相关系数(R)、均方根误差(RMSE)、平均相对误差(MRE)对模型预测值进行精度评估,并且对2种模型的预测精度进行比较(表3至表5)。

由表3可知,线性回归模型训练集NDVI预测值与原始MODIS-NDVI值的相关系数为0.754,测试集的相关系数为0.711,虽比训练集稍低,但达到显著相关。训练集和测试集的均方根误差较小,说明模型具备一定的模拟精度。测试集的平均相对误差未超过训练集,说明模型对于新数据具有一定的预测能力。

由表4可知,深度学习模型训练集NDVI预测值与原始MODIS-NDVI值的相关系数为0.877,测试集的相关系数为0.804,均达到显著相关。训练集和测试集的均方根误差较小,模型的预测精度较高,训练集和测试集的平均相对误差较小,且测试集的平均相对误差小于训练集,说明深度学习模型对新数据的预测精度较高,预测能力较强。

由表5可知,在测试集的比较中,深度学习模型NDVI预测值与MODIS-NDVI的相关系数明显高于线性回归模型,同时深度学习模型平均相对误差与均方根误差这2项指标明显低于线性回归模型,可见深度学习模型的3项预测精度评估指标均优于线性回归模型,说明深度学习模型的预测能力显著优于线性回归模型,更加适用于研究区NDVI的预测。

对训练集和测试集的深度学习模型与多元线性回归模型NDVI预测值分别与原始MODIS-NDVI值绘制散点图,对散点图线性趋势进行分析,见图2和图3。

由图2可看出,训练集深度学习模型预测值与MODIS-NDVI值散点图中散点分布比较集中,大多贴近在相关线附近,而线性回归模型散点图中散点分布的集中程度明显不如深度学习模型,偏离相关线较远的点也比较多,散点图的线性趋势较深度学习模型差。深度学习模型散点图的拟合优度R2为0.769,明显高于线性回归模型。说明深度学习模型对训练集NDVI的预测效果明显好于线性回归模型,稳定性较高。由图3可以看出测试集深度学习模型与MODIS-NDVI值散点图中散点的集中程度高于线性回归模型,偏离相关性的散点较线性回归模型少,散点图线性趋势较线性回归模型明显。深度学习模型散点图拟合优度R2为0.646,显著高于线性回归模型。可见深度学习模型对测试集NDVI的预测效果也明显优于线性回归模型,说明深度学习模型在大样本数据预测方面优势明显,显著提高了NDVI的预测精度,能够更加准确地模拟预测区域植被变化状况,从而为农林业科研及生产提供更加精确的指导与帮助。

2.4 基于空间的NDVI及影响因子关系模型的构建与精度评估

2.4.1 基于空间的气象因子的模拟 对研究区2015年23期(1期为16 d)的各站点气象因子包括PRE、TEM、SSD、RHU与其他影响因子包括DEM、ST、LON、LAT利用深度学习进行模型训练,分别建立23期以气象因子(PRE,TEM,SSD,RHU)=f(DEM,ST,LON,LAT)为形式的气象因子模拟模型,然后将模型各自变量的遥感图像(geotiff)格式文件通过交互式数据语言(interactive data language,IDL)转换成逐像元面模拟值的逗号分隔值文件格式(comma-separated values,CSV)输入模型中,得到研究区2015年各期的气象因子逐像元面模拟值CSV文件,通过IDL转换为geotiff图像。

由图4可见,降水量面模拟空间分布自西北向东南方向递增,湖北、湖南降水量较低,江西降水量较高,研究区降水量平均值为1 780 mm,研究区整体降水量较高,符合该地区气候特征;气温空间分布在整体上自西北向东南逐渐上升,气温在海拔较高的山地地區相较于平原地区偏低,湖北西部、湖南西部、江西西部较低,湖北东部、湖南东部、江西东部较高,研究区气温平均值为14.5 ℃;日照时数空间分布自东北向东南方向递减,湖北大部分地区、江西北部、湖南北部为高值区,江西、湖南南部为低值区,研究区日照时数平均值为1 550 h;相对湿度空间分布特征为自东北向西南逐渐递减,高值区位于湖北中部,低值区位于江西、湖南南部,研究区相对湿度平均值为 78%,研究区整体相对湿度较高,符合湘赣鄂地区气候

特征。研究区各气象因子面模拟值空间分布特征与艾治勇等人[16]的研究结论较为吻合,结论比较可靠。

2.4.2 基于空间的NDVI预测精度评估 将研究区2015年各期气象因子的面模拟数据与其他影响因子的面数据转换为CSV文件输入到之前通过深度学习训练构建的NDVI及其影响因子关系模型中,预测得到各期NDVI面预测数据的CSV文件,可通过IDL转换成geotiff影像。对研究区2015年23期原始MODIS-NDVI影像和23期面预测NDVI影像逐像元计算2组NDVI值的相关系数,得到逐像元的相关系数CSV文件,通过IDL将其转换成geotif图像,得到2015年23期NDVI面预测值与原始MODIS-NDVI值逐项元相关系数空间分布图(图5)。

由图5可知,NDVI面预测值与原始MODIS-NDVI值的相关性整体上比较高,研究区相关系数在0.004~0.983范围内变化,湖南西部、北部、中部,江西大部分地区,湖北西部、东部地区相关系数较高,说明深度学习模型对这些区域NDVI空间预测效果比较好,湖北省中部、东南部、湖北江西交界处、江西西北部东南部相关系数相对较低,说明模型对这些区域NDVI年内各期预测能力稍弱一些,研究区绝大部分地区达到显著相关水平。从研究区整体来看,深度学习模型对该区域NDVI整体预测能力较强,预测效果较好,可以将该模型推广到整个长江中游地区。

根据本研究实际需要,借鉴夏文韬等的方法[17],对几种植被相关地表覆盖类型进行合并,归并为3个主要类别,土地覆盖类别重分类规则见表6。

由表7可以看出,在2015年面预测逐项元相关系数空间分布主要地物分类统计中,林地平均相关性为0.665,草地平均相关性为0.731,农地平均相关性为0.766,研究区平均相关性为0.724。各地表覆盖类型像元的预测结果与原始MODIS-NDVI相关性大小为:农地>草地>研究区>林地。这可能是由于农地NDVI在年内各期时间序列变化中,受到降水量、气温、日照时数、相对湿度这些气象因子的综合影响更为显著,而林地和草地受到各气象因子的综合影响比农作物稍弱一些,该结论与苗晨的研究结论[18]较为吻合。整个研究区的平均相关系数较高,说明模型对研究区NDVI年内变化预测能力较强,预测效果比较好,适用于该地区NDVI的空间预测。

由此可见,深度学习方法可以构建较为可靠的基于站点和基于空间的NDVI及影响因子关系模型来对研究区NDVI进行有效预测,预测结果精度较高,预测能力较强。因此,通过深度学习方法对各地表覆盖类型植被变化基于不同时间尺度和空间尺度的预测,能够有效提高区域植被变化的预测水平,从而显著提高农作物产量、叶面积指数、病虫害状况等农林业指标的估算精度,为相关管理部门的决策规划和科学研究活动提供可靠的科学依据和数据参考。

3 结论

研究区NDVI与不同气象因子的相关性不同,并且各气象因子对NDVI的影响都存在一定的滞后效应,NDVI与降水量的相关性最大值出现在对应前3期,与气温的相关性最大值出现在对应前1期,与日照时数的相关性最大值出现在对应前1期,与相对湿度的相关性最大值出现在对应前3期。NDVI与各气象因子的最大相关性大小比较为:气温>日照时数>降水量>相对湿度,研究区热量条件的变化对植被变化的影响较水分条件更加显著。

在基于站点的NDVI预测中,深度学习模型预测NDVI值与原始MODIS-NDVI值相关系数为0.804,且模型测试集的平均相对误差(MRE)未超过训练集,模型泛化能力较好;深度学习模型的各项预测精度评估指标均明显优于线性回归模型,说明深度学习方法显著提高了NDVI的预测精度,预测能力更强,更加适用于研究区植被变化的预测。

在基于空间的深度学习NDVI预测中,不同地表覆盖类型的NDVI预测值与原始MODIS-NDVI值的平均相关性不同,林地平均相关性为0.665,草地为0.731,农地为0.766,研究区平均相关性为0.724。研究区整体NDVI预测精度较高,不同地表覆盖类型的预测精度大小为:农地>草地>研究 区> 林地,可见不同地表覆盖类型NDVI对各影响因子变化的敏感程度不同,NDVI预测精度也有所不同。

参考文献:

[1]殷守敬,陈晓玲,吴传庆,等. 基于时序NDVI的江西省植被覆盖时空变化分析[J]. 华中师范大学学报(自然科学版),2013,47(1):129-135.

[2]熊小菊,廖春贵,胡宝清. 基于遥感数据的广西植被变化特征分析[J]. 科学技术与工程,2018,18(11):123-128.

[3]王 磊,王 贺,卢艳丽,等. NDVI在农作物监测中的研究与应用[J]. 中国农业资源与区划,2013,34(4):43-50.

[4]吴昌广,周志翔,肖文发,等. 基于MODIS NDVI的三峡库区植被覆盖度动态监测[J]. 林业科学,2012,48(1):22-28.

[5]何 月,樊高峰,张小伟,等. 浙江省植被物候变化及其对气候变化的响应[J]. 自然资源学报,2013,28(2):220-233.

[6]李惠敏,刘洪斌,武 伟. 近10年重庆市归一化植被指数变化分析[J]. 地理科学,2010,30(1):119-123.

[7]Weiss J L,Gutzler D S,Jea C,et al. Long-term vegetation monitoring with NDVI in a diverse semi-arid setting,central New Mexico,USA[J]. Journal of Arid Environments,2004,58(2):249-272.

[8]Ma M,Veroustraete F. Reconstructing pathfinder AVHRR land NDVI time-series data for the northwest of China[J]. Advances in Space Research,2010,37(4):835-840.

[9]韩 雅,朱文博,李双成. 基于GWR模型的中国NDVI与气候因子的相关分析[J]. 北京大学学报(自然科学版),2016,52(6):1125-1133.

[10]Yang S W,Zhang B. Vegetation cover change and its response to climatic factors using SPOT NDVI in Hedong of Gansu Province[J]. Chinese Journal of Ecology,2014,32(10):455-461.

[11]Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(9):504-507.

[12]Schmidhuber J. Deep learning in neural networks:an overview[J]. Neural Networks,2015,61:85-117.

[13]Dahl G E,Yu D,Deng L,et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio Speech & Language Processing,2012,20(1):30-42.

[14]Hinton G E,Osindero S,Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2014,18(7):1527-1554.

[15]Zhu Z,Wang S,Woodcock C E. Improvement and expansion of the fMask algorithm:cloud,cloud shadow,and snow detection for Landsats 4-7,8,and Sentinel 2 images[J]. Remote Sensing of Environment,2015,159:269-277.

[16]艾治勇. 長江中游地区气候变化特点及双季稻适应性高产栽培技术研究[D]. 长沙:湖南农业大学,2012.

[17]夏文韬,王 莺,冯琦胜,等. 甘南地区MODIS土地覆盖产品精度评价[J]. 草业科学,2010,27(9):11-18.

[18]苗 晨. 华北平原不同生长发育期农田长势对气候因子的响应研究[D]. 南京:南京信息工程大学,2014.张丽娅,马志林. 南水北调中线渠坡不同季节不同盖度草地土壤氮素和有机质变化[J]. 江苏农业科学,2019,47(3):219-223.

猜你喜欢
影响因子深度学习预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
“影响因子”是用来赚大钱的