田宸宇,鲁逸飞,刘永建,简思春,曾银锐,杨兴有,鲁黎明*
(1.四川农业大学 农学院,成都 611130;2.成都淞幸科技有限责任公司,成都 610225;3.中国烟草总公司四川省公司,成都 610041)
农业遥感辐射传输建模,其实质就是通过建立一种定量的模型,用来描述遥感观测信号与地表农作物的特征与属性之间的关系,是对地表农作物的特征参量进行定量反演的前提[1]。
传统检测方法,例如野外实地采样,或者实验室分析测试,虽然测量精度高但存在较强的破坏性且难以实现大面积、高通量的动态监测;而卫星遥感影像受大气等因素的影响较大,反演精度不理想。近年来,作为新型低空遥感平台,无人机很好地弥补了卫星遥感的不足,其体积小、重量轻、分辨率高且成本低,可以实现实时监测,适合中小尺度范围和高频次的调查研究。所以,利用无人机遥感,开展农作物的长势与表型特征的高通量分析,就成为了当前农业遥感应用的热门领域[2]。随着图像识别技术的不断进步及各类数学模型的开发,农作物多种特征参量反演模型的构建也越来越成熟。本文就常见的建模方法进行介绍,以期为高效、高精度建模方法的探索提供参考。
回归分析,是揭示呈因果关系的相关变量间的联系形式,建立变量之间的回归方程,利用所建立的回归方程,由自变量预测、控制因变量。一元回归分析,是研究1个自变量与1个因变量的回归分析;而多元回归分析(MLR)则是研究多个自变量与1个因变量的回归分析。在实际应用中,一般以光谱参数/植被参数/纹理参数/颜色参数为自变量x,某一个农艺参数的实测值为因变量y,通过建立多元回归分析模型来估测实测值y[3]。
陶惠林等[4]利用多元线性回归,构建了冬小麦挑旗期、开花期与灌浆期3个不同生育期叶面积指数(LAI)的估测模型。在7种光谱参数中,与LAI相关性最高的参数分别是NDVI(r=0.738)、SR(r=0.819)、NDVI×SR(r=0.835),LAI-MLR为冬小麦LAI的最佳估测模型,其中,开花期拟合性最好,精度最高。
刘帅兵等[5]基于无人机图像数据,建立了能够反演冬小麦氮素含量的多元线性回归模型。通过决定系数(R2)、均方根误差(RMSE)和归一化的均方根误差(nRMSE)3个指标,明确该模型是最佳模型,反演精度较高,能够应用于冬小麦氮肥管理决策。
偏最小二乘回归法(PLSR)在某种意义上结合了多元线性回归分析、典型的相关分析及主成分分析等较为经典的统计学方法,是通过用最小化误差的平方和而筛选出能够匹配特定函数的另外一组数据最佳数据。现阶段的很多优化问题,可用最小二乘法来加以解决。
朱婉雪等[6]及赵晓庆等[7]分别采用PLSR建立了不同植被指数与产量之间的回归模型。模型的检测结果表明,其对产量的反演精度均较高。
在利用高光谱数据反演冬小麦全蚀病病情指数的研究中,郭伟等[8]将3类光谱指数与DI构建偏最小二乘回归模型,得到较为理想的结果。
值得注意的是,由于PLSR包含主成分分析,建模时要对数据进行降维,入选变量的物理意义较难理解,建立的模型相对复杂,不利于模型的推广与应用。
逐步回归分析,在建立回归方程时,采用的是逐步引入自变量的方式。在所有可能的自变量中,按照自变量对因变量作用的显著程度,从大到小依次逐个引入拟建立的回归方程中。在所建立的最终回归方程中,所有的自变量的偏回归平方和经过检验都是显著的。
陈浩等[9]采用与实测叶绿素含量极显著相关的9种植被指数,构建了基于遥感光谱指数的夏玉米冠层叶绿素含量遥感监测模型。结果表明,绿色归一化植被指数与叶绿素含量的相关性系数最高,达到了0.892。采用逐步回归分析方法建立的模型表现最优,决定系数为0.87,均方根误差及相对误差分别为0.15和2.68%。
田明璐等[10]和魏青等[11]也分别采用多元逐步回归法,构建了棉花与冬小麦的植物相对叶绿素含量(Soil and Plant Analyzer Development,SPAD)反演模型,建模效果较好。
支持向量机,也叫支持向量网络(support vector machines,SVM),于1964年提出,20世纪90年代后得到快速发展,并被逐步理论化而成为统计学习理论的一个分支。近年来,SVM在高光谱数据反演建模中得到了较为广泛的应用。
王瑛[12]将NDVI、RVI、DVI、SAVI和TVI植被指数组合作为输入量,叶面积指数为输出量,进行支持向量机模型的构建,对小麦的叶面积指数进行反演,并对模型进行精度评价。结果表明,支持向量机模型效果较好,决定系数达0.828,均方根误差为0.411。
田军仓等[13]采用偏最小二乘、支持向量机及BP神经网络模型,进行了番茄冠层不同位置SPAD值的预测建模及验证。结果表明,番茄冠层上层叶片SPAD值与植被指数相关性程度及线性敏感程度,优于冠层中层和下层叶片;基于番茄冠层上、中、下层及整个冠层SPAD值建立的支持向量机预测模型的R2高于偏最小二乘和BP神经网络预测模型。
BP神经网络(back propagation neuron network,BPNN),是目前无人机高光谱遥感反演模型较为常见的建模方法之一。同时,也是应用范围较为广泛的神经网络模型。在农业遥感建模实践中,运用较多的是反向传播神经网络。
纪伟帅等[14]在棉花冠层SPAD的遥感定量反演建模中,采用BP神经网络(BPNN)、多元逐步回归(MSR)和支持向量机(SVM)方法构建棉花SPAD值定量分析模型。结果表明,基于BP神经网络模型进行棉花叶片SPAD的空间分布反演,反演值与实测值具有高度一致性,BPNN模型精度最高,拟合结果较好。
乔浪等[15]建立了能够反演大田玉米叶绿素含量的BP神经网络模型。利用该模型,能够反演出大田玉米冠层的叶绿素含量,并可以通过可视化技术,绘制出大田玉米叶绿素含量分布图。通过分析田间玉米冠层叶绿素含量分布图,可以直观区分田间道路与冠层区域,显示地块叶绿素分布差异,可为田间作物长势评价和精细化管理提供技术支持。
随机森林(random forest,RF)也是一种算法模型,2001年由Breiman和Cutler提出,是优于传统机器学习,如BP神经网络的新一代模型算法。RF算法的基础是分类树或者叫决策树。随机森林模型的运算速度快、预测精度高,尤其在进行大数据运算时,其优势更为突出。同时,RF避免了多元共线性等问题,也不需要进行变量的选择。因此,随机森林在农业遥感实践中得到了较为广泛的应用。
孔繁昌等[16]使用随机森林算法,对高寒地区粳稻穗颈瘟的无人机高光谱遥感识别进行了分类建模具有可行性分析。在所有输入参数中,使用多种植被指数构成的CVIs作为输入参量的建模验证精度最高为90%,建模结果可以用来识别大田穗颈瘟。
马怡茹等[17]发现,棉花冠层LAI敏感响应波段集中在可见光(400~780 nm)和近红外(900 nm之后)波段;使用RFR建立的LAI监测模型精度最高,稳定性最好,其中以FDR-SFLA-RFR模型最佳。建模集的决定系数为0.74,均方根误差为1.648 3,相对均方根误差为26.39%;验证集的决定系数、均方根误差分别为0.67、1.622 0,相对均方根误差为25.97%。
王玉娜等[18]发现,任意冬小麦2波段光谱指数对氮素营养指数更为敏感,与氮素营养指数均达到了极显著性相关;基于差值光谱指数和红边归一化指数的单个光谱参数构建的模型,具有粗略估算氮素营养指数的能力,相对预测偏差分别为1.53和1.56;基于随机森林回归构建的多变量冬小麦氮素营养指数估算模型具有极好的预测能力,模型决定系数为0.79,均方根误差为0.13,相对预测偏差为2.25。
目前,我国基于低空光谱成像技术获取农情信息还处于起步阶段,低空光谱成像遥感机理性研究比较缺乏,特定信息遥感解析模型有待完善,不同因素对特定信息解析模型的影响规律有待深入研究。采用的反演方法均为传统经验统计模型或机器学习回归模型,模型的精度受数据集划分的影响,且对不同地区和条件普适性有待研究。下一步,可以考虑物理模型或建立混合模型,同时,引入深度学习等模型,以提高模型的适用能力与稳定性。
随着农业遥感技术水平的不断进步,在智慧农业应用场景中,利用无人机平台对农作物进行长势监控,获取多元遥感数据,将会成为常态化的趋势。而对所获取的海量的光谱数据进行处理与分析,将会对算法模型提出越来越高的要求。可以预见的是,在不久的将来,更加适合于农情监测的、速度更快、精度更高的新算法模型必将不断涌现,农作物生长的实时监测将会越来越普遍,并且将会越来越智能化、轻简化。