林陈捷,刘振华,张小媛,胡月明,4,5,刘 洛
(1.华南农业大学资源环境学院,广东广州 510642;2.广东省土地信息工程技术研究中心,广东广州 510642;3.广东省土地利用与整治重点实验室,广东广州 510642;4.广州市华南自然资源科学技术研究院,广东广州 510642;5.海南大学热带作物学院,海南海口 570228)
耕地是经过开垦用以种植农作物并经常耕耘的土地,是农业生产的重要资源,对保障粮食安全、生态安全及可持续发展具有重要作用[1]。耕地质量评价是保障耕地可持续利用的重要手段[2],传统的耕地质量制图主要是通过野外采样、实验室化验,再借助数理统计方法,以点带面来评价区域耕地质量状况[3-4]。该方法依赖大量监测样点,样点布设主观性强、费时费力、效率较低,难以满足现代农业高效管理的需要。随着遥感技术的快速发展,给精确高效评价耕地质量带来了新思路。
目前,耕地质量遥感评价研究主要是基于作物光谱的耕地质量制图,已有学者尝试利用可见光、近红外植被指数进行耕地质量预测研究。如Liu等使用增强植被指数(EVI)和温度植被干旱指数(TVDI),结合坡度、道路通达度等构建了基于PSR框架的耕地质量评价模型,并与传统指标下的压力—状态—响应(PSR)框架耕地质量评价结果精度进行对比,证明了遥感耕地质量制图的可行性[5]。李因帅等从影像中提取地表含水量指数(SWCI)和归一化植被指数(NDVI)作为特征变量,构建了小麦种植区的耕地质量评价模型[6]。官炎俊等从Landsat影像中研究区的NDVI并结合研究区的粮食产量数据进行修正,构建了基于粮食产量修正的NDVI耕地质量评价模型[7]。此外,一些学者使用植被光谱遥感产品进行耕地质量制图研究。如马佳妮等利用时间序列的MODIS数据结合气象数据,通过光能利用率(VPM)模型获取研究区作物的植被净初级生产力(NPP),进而得到多年NPP的均值,并以此进行耕地质量评价制图[8]。Zhu等使用经验贝叶斯克里金插值(EBK)算法对水稻不同生育期的MODIS总初级生产力(GPP)产品进行降尺度,构建了基于水稻生长期GPP的耕地质量评价模型[9]。
尽管这些方法提供了宝贵的科学经验,但仍没有统一耕地质量的光谱响应指标,需要引入更多的植被光谱,获取对耕地质量更为敏感的光谱指标。因此本研究引入植被红边指数,筛选对耕地质量敏感的最佳红边指数,构建基于红边指数的耕地质量关联模型,并以广东省广州市增城区为例进行耕地质量遥感制图。
研究区位于广东省广州市增城区(23°05′~23°37′N,113°32′~114°00′E),属于南亚热带海洋性季风气候,炎热多雨,长夏无冬,全年可种植作物。增城区是全国著名的丝苗米之乡,2019年增城区统计年鉴显示,研究区耕地的主要作物为水稻,因此,本研究选择种植水稻的耕地作为研究对象。在研究区内,根据分层抽样的方法采集400个耕地样点,并利用随机抽样按3 ∶1的比例对样点划分建模集(图1-c中的红点)和验证集(图1-c中的黑点)。样点的耕地质量数据从2018年增城区耕地质量数据库获得。样点布设过程中,充分考虑了耕地质量的分布情况,并通过耕地利用现状数据库和影像目视解译确定样点耕地的利用类型。此外,为了验证基于红边指数的耕地质量制图精度,另选取了100个样点作为制图精度验证点(图1-c中的黄点)。
Sentinel-2是携带多光谱成像仪(MSI)的高分辨率多光谱成像卫星,MSI可覆盖13个光谱波段(从可见光和近红外到短波红外,具有不同的空间分辨率),幅宽可达290 km(表1)。Sentinel-2影像是唯一在红边范围含有3个波段的遥感数据,可高效监测植被健康信息。根据前人的研究,水稻抽穗期的影像是评价耕地质量的最佳时期[10],因此,本研究选择覆盖研究区的抽穗期Sentinel-2影像(影像获取于2018年10月7日)作为遥感数据来源。Sentinel-2影像来源于哥白尼开放访问中心(https://scihub.copernicus.eu/dhus/#/home)。
为了尽量减小大气的影响,还需对影像进行大气校正。大气校正在sen2cor插件上完成,得到消除大气影响、较真实反映地物的Level-2A数据。Sentinel-2的红边波段分辨率为20 m,为了提高精度,本研究在snap上对Level-2A数据影像进行重采样,得到红边波段10 m分辨率的影像。然后将其各波段的像元亮度(DN)值除以10 000,还原为地表反射率。计算公式如下:
ρλ=Qλ/10 000。
(1)
式中:ρλ为λ波段地表反射率;Qλ为λ波段DN值。
1.3.1 红边指数 红边是绿色植物在670~760 nm 之间反射率增高最快的点,也是一阶导数光谱在该区间内的拐点[11]。它与植被的各种理化参数是紧密相关的,间接反映着耕地状态的信息,因此本研究从遥感红边波段出发,获取耕地质量光谱响应的遥感指标。红边指数的计算公式如表2所示。根据上述红边指数计算公式,本研究通过ENVI 5.3的band math模块从Sentinel-2影像中获取14个红边指数。
表1 Sentinel-2影像多光谱波段主要参数信息
1.3.2 耕地质量最佳红边光谱指标筛选 本研究利用梯度提升树(GBDT)算法对14个红边指数进行筛选。GBDT是一种基于Booting改进的决策树算法,其进行特征选择的主要原理是通过计算每个红边指数在单棵树中重要度的平均值,将其作为红边指数的特征重要度(FI),并根据重要度进行特征选择[21-22]。特征重要度的公式如下:
(2)
式中:Ij(Tm)是红边指数在单棵树的重要度;M为树的数量。单棵树的特征重要度通过计算按这个特征分裂之后损失的减少值得出。公式如下:
(3)
式中:L为叶子节点的数量;即L-1为非叶子节点的数量;vt是和节点t关联的特征;it是节点分裂之后损失值的平方。
表2 红边指数及计算公式
此外,本研究利用方差膨胀因子(VIF)进一步筛选红边指数,从而消减变量间的共线性。当0 1.3.3 耕地质量预测模型构建 本研究基于所筛选的最佳红边指数,采用偏最小二乘回归(PLSR)法、岭回归(RR)法和BP神经网络(BPNN)构建红边指数和耕地质量的关联模型。偏最小二乘回归法是由伍德和阿巴诺等在1983年提出的一种新型的多元分析方法,该方法结合了多元线性回归分析、典型相关分析以及主成分分析的特点[22]。偏最小二乘回归算法通过对系统中的数据信息进行分解和筛选,从而达到消除变量多重共线性的效果,因此偏最小二乘回归可以用于解决很多普通多元回归无法解决的问题。该算法的最终目标是输出一个线性模型,如公式(4)所示。 Y=Xβ+ε。 (4) 式中:Y为经过归一化的因变量(耕地利用等指数);X为经过归一化处理的自变量(红边指数);β为系数矩阵;ε为残差矩阵。 岭回归是一种基于最小二乘法的改良算法,其通过放弃最小二乘的无偏性,以损失部分精度为代价,获得普适性更高的回归模型[23-24],其模型可表示为 Y=Xγ(k)+e。 (5) 式中:Y为经过归一化的因变量(耕地利用等指数);X为经过归一化处理的自变量(红边指数);e为耕地利用等指数观测误差;γ(k)为岭回归系数;γ(k) 的解法如下: γ(k)=(XTX+kI)-1XTY。 (6) 式中:Y为经过归一化的因变量(耕地利用等指数);X为经过归一化处理的自变量(红边指数);I是单位矩阵;k是参数,通过岭迹图确认。 BP神经网络由Rumelhart和McClelland为首的科学家于1986年提出,该算法利用梯度下降法搜索权值,并使用反向传播来传播偏差反复调整网络,直到模型的仿真性尽可能高时结束学习[25-26]。网络主要包含输入层、隐含层、输出层3个部分,隐含层和输出层之间的传输函数如公式(7)所示。 (7) 式中:Oi为输入层信息,即红边指数;Oj为隐含层信息;ωjt表示输入层对隐含层的权值;fi为输入层对隐含层的传递函数,在本研究中选用Trainlm 函数;θj为隐含层阈值;m为输入层节点数量。 (8) 式中:Ok为耕地利用等指数预测值;fi为隐含层对输出层传递函数,在本研究中选用Purelin 函数;ωkj表示隐含层对输出层的权值;θk为输出层的阈值;w为隐含层节点数量。 如果隐含层神经元数量过少,网络不能具有必要的学习能力和信息处理能力。反之,会大大增加网络结构的复杂性,并且更易陷入局部极小点,使网络的学习速度变得很慢。本研究所选用的隐含层神经元数量由经验公式确定。 ni≤nh≤2ni+1。 (9) 式中:ni为红边指数数量;本研究为7;nh为隐含层神经元数量。 若预测值与实测值相差较大,则进行误差前馈,由输出层向输入层逐层修正连接权值,从而减小均方误差。如公式(10)所示: (10) 式中:O为实测耕地利用等指数;Ok为耕地利用指数预测值;N为训练次数;n为样点数量。 1.3.4 精度验证 本研究利用决定系数(R2)和归一化均方根误差(NRMSE)评估模型预测效果。其中,R2[公式(11)]用于表明预测值与实测值之间的线性拟合程度,而NRMSE[公式(12)]用于衡量预测值与实测值之间的偏差。 (11) (12) 本研究利用Python 3.7软件中scikit-learn模块的网格调参(Grid Search)确定梯度提升树算法的最佳参数后,对14个红边指数进行特征选取,根据多次试验结果对比分析,设定特征重要度的阈值为0.080 。当红边指数的重要度<0.080时,该指数将被去除,然后使用VIF检验红边指数的共线性,检验标准为去除VIF>10的变量[29],得到了7个与耕地质量有高相关性的红边指数(最佳红边指数),分别为X1:MCARI2、X2:MTCI、X3:NDVIRE2、X4:NDVIRE3、X5:PSRI、X6:REP、X7:SRRE1,如图2所示。 本研究将最佳红边指数作为自变量,耕地利用等指数作为因变量,使用PLSR、RR和BPNN构建两者的关系模型。其中,基于PLSR的耕地质量关系模型为 Y=-0.053 2×X1-0.006 0×X2+0.128 7×X3-0.123 3×X4+0.078 2×X5-0.009 5×X6-0.050 3×X7。 (13) 基于RR的耕地质量关系模型为 Y=-0.319 0×X1-0.103 8×X2-1.121 0×X3-1.012 4×X4+0.773 4×X5-0.089 0×X6-0.208 9×X7。 (14) 本研究中,BPNN包含了3个隐含层和9个神经元节点,迭代次数为1 000次,模型的建立和运行在MATLAB R2017a上完成。3个模型预测结果如图3所示。其中,基于BPNN模型所建立的预测模型表现出了最好的预测能力,其R2、NRMSE分别为0.70,10.00%;PLSR模型和RR模型的拟合精度较为接近,R2均小于0.45。 本研究使用100个样点作为验证集,验证结果见图4。BPNN模型(R2=0.63)的验证效果明显优于其他2种模型,这与训练集的精度结果相似,进一步说明了建模效果的可靠性。 由图3和图4可知,BPNN模型散点分布更为接近1 ∶1线,这说明在本研究中,BPNN模型具有较高的预测能力。PLSR模型和RR模型在耕地利用指数为1 500~1 700区间具有较好的拟合能力,而对于两端的数据(利用指数小于1 500或大于 1 700)的偏差值较大。已有研究表明,BPNN在处理复杂的非线性建模时有着很好的拟合能力[23,30],而PLSR和RR通常用来确定自变量和因变量之间的线性关系。本研究中,非线性模型(BPNN)的验证精度明显高于其他2种线性模型(PLSR和 RR),其原因可能是耕地质量和红边指数之间存在明显的非线性的关联关系。 本研究利用REI-BPNN模型对影像进行耕地质量遥感空间制图,并根据农用地分等定级规程(GB/T 28407—2012《农业用地质量分级规定》)将结果划分为4个等级(图5-a)。结果表明,研究区的西南部耕地等级较高,10等耕地主要集中在西南部,9等耕地分布较为均匀,研究区北部耕地等级相较于南部偏低,遥感耕地制图的耕地等级分布趋势与耕地质量数据库(图5-b)较为一致。为了验证使用BPNN模型进行耕地质量制图的精度,本研究选取了100个样点(图1-c中的黄点)计算其R2和NRMSE。结果显示,REI-BPNN模型的耕地质量制图精度R2为0.60,NRMSE为14.80%,表明利用REI-BPNN模型进行耕地质量遥感空间制图具有可行性(图6)。 耕地质量评价是保护耕地的重要措施,高效、快速监测耕地质量具有重要意义。针对当前耕地质量评价费时费力的问题,已有学者尝试使用遥感技术进行耕地质量评价。当前已有研究利用作物光谱进行耕地质量评价,本研究首次引入了红边指数进行耕地质量预测,其构建的耕地质量光谱响应预测模型,NRMSE为10.00%,与前人的研究[4]相比,精度有所提高。 通过对比3种模型(PLSR、RR、BPNN),BPNN模型表现出最佳的预测效果),而RR和PLSR等2种线性模型,在建模精度上较为接近。这表明耕地质量与光谱变量之间可能存在非线性关系,这与前人的研究[4,9]基本一致。 为了验证模型在区域尺度预测耕地质量的精度,将REI-BPNN模型运用与Sentinel-2影像相结合,对研究区进行基于红边指数的耕地质量制图。对比前人的研究[4],制图精度有所提高(R2=0.60,NRMSE=14.80%),红边指数的加入在一定程度上提高了耕地质量预测的精度,说明红边指数在耕地质量预测上具有一定优势。 由于BPNN模型的初始参数(如神经元节点数)具有很大不确定性,可能出现过拟合或欠拟合的情况,对模型的精度和稳定性产生一定影响[31]。因此,下一步研究中,将考虑对BPNN模型进行优化改进(如粒子群优化),以提高其精度和稳定性。 尽管本研究证明了红边波段驱动下遥感耕地质量评价具有极大的潜力,但仅以水稻种植区为研究对象,为了进一步验证红边波段和耕地质量的关系,在下一步研究中,我们将把研究范围扩大到其他利用类型的耕地(如花生地、玉米地)中,建立普适性更强的耕地质量评价模型。 利用遥感技术实现快速、高效耕地质量评价对于保护耕地具有重要意义,本研究以广州市增城区为研究对象,利用3种算法(PLSR、RR、BPNN)构建红边指数与耕地质量的关联模型,在此基础上,利用Sentinel-2影像进行耕地质量制图。结果表明:(1)本研究利用GBDT算法和VIF筛选的7个最佳红边指数是可靠的。(2)基于最佳红边指数,利用PLSR、RR、BPNN等3种算法构建的模型中,BP神经网络构建的模型表现出了最佳的精度(R2、NRMSE分别为0.70,10.00%),反映了耕地质量和红边指数之间存在非线性关联关系。(3)基于耕地质量遥感最佳光谱响应模型,利用Sentinel-2影像进行空间尺度的耕地质量制图,其制图精度可靠(R2为0.60,NRMSE为14.80%)。本研究为耕地质量提供了一种新的评价方式,为耕地质量快速精准评价提供新的思路。2 结果与分析
2.1 耕地质量光谱响应的最佳红边指数
2.2 耕地质量最佳预测模型
2.3 研究区耕地质量遥感空间制图
3 讨论
4 结论