依尔夏提•阿不来提 买买提•沙吾提,3,* 白灯莎•买买提艾力 安申群 马春玥
基于随机森林法的棉花叶片叶绿素含量估算
依尔夏提•阿不来提1,2买买提•沙吾提1,2,3,*白灯莎•买买提艾力4安申群1,2马春玥1,2
1新疆大学资源与环境科学学院, 新疆乌鲁木齐 830046;2新疆绿洲生态教育部重点实验室, 新疆乌鲁木齐 830046;3新疆智慧城市与环境建模普通高校重点实验室, 新疆乌鲁木齐 830046;4新疆农业科学院核技术生物技术研究所, 新疆乌鲁木齐 830046
为了高效和无损地估算棉花叶片的叶绿素含量, 本研究测定了棉花光谱反射率及叶绿素含量(soil and plant analyzer development, SPAD)值, 对光谱数据进行包络线去除处理、立方根转换和倒数转换, 以SPAD值与反射光谱之间的相关性为基础, 通过随机森林法筛选出对棉花叶片SPAD值影响较大的特征波段, 构建估算棉花叶片SPAD值的BP神经网络(back propagation artificial neural networks, BP ANN)、偏最小二乘回归(partial least squares regression, PLSR)两个模型。结果表明, 在605~690 nm范围内的反射率与SPAD值相关性达0.01显著水平, 均呈负相关, 相关系数最高值为-0.619。与原始光谱相比, 经过变换后的棉花反射率与SPAD值相关性结果相差较大, 其中去除包络线光谱在550~750 nm波段范围有效提高了相关性, 相关性效果优于倒数转换数据和立方根转换数据。随机森林法能够有效评出对SPAD值影响较大的特征波段, 进而提高模型估算精度。在两种模型中, 基于去除包络线光谱建立的PLSR和BP神经网络模型的决定系数2分别为0.92、0.83, 说明这两种模型的估算能力较好; 两种模型RMSE分别为0.88、1.26, RE分别为1.30%、1.89%, 表明PLSR模型的估算精度比BP神经网络模型高。从模型的验证效果来看, PLSR模型在估算棉花SPAD值方面有一定的优势和参考价值。
SPAD值; 棉花; 随机森林法; 高光谱估算模型
叶绿素在植物光合作用中起着能量传递和捕获的作用, 且可反映植物氮、磷利用效率以及光合速率的强弱[1-3], 并指示植物生长发育状况。高光谱遥感技术作为一种无损、廉价、无污染的技术方法, 近年来广泛应用于叶绿素信息在植被长势、生理胁迫状况中的监测及作物估产[4-5]。
国内外学者在高光谱估算农作物叶绿素含量方面取得了一定的成果, 估算方法可概括为以下两类。一类是经验模型。从原始光谱或各种转换数据的基础上选取敏感波段或以建立的植被指数为变量, 构建估算模型[6]; 第二类是物理模型。通过冠层和地物特性来反演光谱, 将获取的结果通过辐射传输等物理模型进行解释[7]。Li等[8]通过自创新技术(WREP)从连续小波转换的水稻和小麦反射光谱中提取红边参数, 并估算两种作物的叶片叶绿素含量; 毛博慧等[9]采用遗传算法寻优选出486、599、699和762 nm波长处的光谱反射值, 组合计算了12 个植被指数, 并以DVI (726, 699)、SAVI (762, 599)指数构建苗期冬小麦叶绿素含量估算模型。丁永军等[10]对番茄叶绿素含量进行估算, 并将原始光谱数据进行一阶导数转换、吸光度光谱转换和包络线去除处理, 采取多种共线性诊断选取四类光谱的敏感波段, 构建多元线性回归模型, 其中, 在去包络线模型中, 建模集2为0.88, 检验集决定系数2为0.82, 即模型具有较好的预测能力。姚霞等[11]对红边位置进行提取, 分析比较利用不同算法所提取的红边位置对氮素营养监测模型的准确性和可靠性产生的影响。Yi等[12]人对水稻光谱进行主成份分析再建立估算水稻氮含量的线性回归模型和人工神经网络回归模型,发现通过主成份分析和人工神经网络结合建立的回归模型估算能力更强。上述研究丰富了农作物参数反演方法, 为今后大尺度估算作物叶绿素含量的准确性提供了一定的科学依据。
以往研究大部分直接选取相关系数较高的特征参数建立估算模型, 这可能导致变量的选择随机和单一, 缺乏定量化, 模型估算能力并未达到最佳效果。用随机森林法可计算SPAD值对特征波段的重要性评分并选出最佳估算参数, 对参数进行定量化, 提高模型估算精度。因此本研究以棉花叶绿素相对含量为研究对象, 对原始光谱数据进行包络线去除处理、立方根转换和倒数转换, 通过相关性分析选取跟SPAD值相关性较高的特征波段, 并用随机森林法寻优选择最佳估算参数, 建立偏最小二乘回归模型和BP神经网络回归模型。
新疆玛纳斯县新疆农业科学院试验站位于新疆玛纳斯县中部的包家店镇(85°19′~86°25′E, 44°16′~ 44°22′ N), 面积为0.4 hm2, 属于典型的中温带大陆性气候区, 其特点是冬季时间长, 寒冷; 夏季时间短, 酷热。该地区光照较强, 昼夜温差较大, 年均气温7.2℃, 年均降水量193.3 mm, 年平均无霜期168.5 d。试验田被划分为60个小区, 供试棉花主要品种为新陆早57号、新陆中21号、农垦5号等。种植模式为“1膜3带6行”, 膜宽为2.35 m, 行距为60 cm, 株距为10 cm。2017年4月28日播种, 5月5日灌出苗水, 化学调控与其他管理措施按照当地高产栽培要求进行。研究区位置和采样点分布情况如图1所示。
对花铃期的棉花, 使用ASD FieldSpecHandHeld便携式光谱仪在晴朗无云无风条件下测取北京时间11:30-15:30, 波长为350~1050 nm的光谱, 光谱仪探头距离棉花叶片冠层高度25 cm, 并保持垂直向下, 设置光谱扫描时间为8 s, 每个样点测6次。其间, 每测3次进行一次白板标定, 确保数据的精确性, 并用Viewspec PRO计算出每样点6条曲线的平均值作为该点光谱反射值。
为减少光照条件引起的乘性因素, 对光谱数进行包络线去除处理(continuum-removal transformation, Rcr)、倒数转换(Reciprocal transformation, 1/R)和立方根转换(cube-root transformation, ∛R)。此3种光谱转换可增强可见光区域光谱差异, 突出光谱的吸收、反射特征[11]。其中去除包络线处理可压抑背景光谱, 并扩大弱吸收特征信息[13-15]。
图1 研究区位置和采样点分布图
在60个样区内用叶绿素计(SPAD-502Plus, Konica Minoita, Japan)测定棉花冠层叶片SPAD值, 每个样点随机测量5~6次, 取平均值作为该样点最终叶片叶绿素含量值。测定时间与光谱测定同步, 位置与光谱测定保持一致。
随机森林法(random forest, RF)是高维学数据分析方法之一, 主要用于高维数据分类和回归, 并可计算出自变量对因变量重要性评分[16-18], 本文以DPS数据处理系统计算随机森林变量重要性评分。首先对棉花SPAD值与四类反射光谱数据的相关性进行分析, 在原始光谱和转换光谱中分别选取12个特征波段, 运用随机森林法对光谱进行敏感波段寻优, 并建立偏最小二乘回归模型和BP神经网络模型。进行随机森林重要性评分时, 以袋外数据对b棵回归树进行测试分析, 可分别得均方残差MMSE,1、MMSE,2、MMSE,3、……、MMSE,b, 在各袋外数据集中, 将随机扰动方法对变量进行置换, 形成新袋外测试集[19-20]。用袋外测试集对b棵回归树进行测试, 得出随机置换后的均方误差矩阵。
第个输入变量重要性评分为MMSE,1、MMSE,2、MMSE,3、……、MMSE,b与均方误差矩阵第行之差的均值与b棵回归树标准误差SE的比值, 可得变量的均方残差平均减小量。
采用DPS数据处理系统, 通过随机森林法筛选出来的特征波段建立估算棉花冠层叶绿素含量的偏最小二乘法回归(PLSR)模型和BP神经网络(BP ANN)回归模型。其中, PLSR方法在回归建模过程中采用数据降维、信息综合和筛选技术。在估算叶绿素含量时, 其主要思想为, 减少光谱维数的同时, 明确叶绿素含量变化的主控因子, 使模型具备更好的鲁棒性[21-22]。BP神经网络模型主要由输入层、隐含层和输出层3层组成[23], 通过调整权值将网络误差最小化, 把学习结果反馈到隐含层, 改变其权系数矩阵, 进而达到预期学习目的[24]。将通过相关性分析选出来的, 跟SPAD值相关性较高的高光谱参数作为神经网络的输入层, SPAD值作为输出层, 经过多次训练, 隐含层节点数和最大代次数调节为最佳估算精度, 建立估算棉花叶片SPAD值BP神经网络回归模型。分别采用决定系数(2)、均方根误差(RMSE)、相对误差(RE)对模型评估, 以保证模型稳定性和估算精度。2越接近1, 表明模型的稳定性越好, 且精度高; RMSE和RE越小, 模型的估算能力越精确, 预测方程所得预测值与实测值拟合效果更好。PLSR模型中, 原始光谱和包络线光谱的6个特征波段分别作为自变量, SPAD值作为因变量, 在已获取的60组数据中随机选取29组数据作为训练样本, 24组作为检验样本创建回归模型; BP神经网络模型将通过随机森林法选出的原始光谱和去除包络线光谱的特征波段作为神经网络的输入层, SPAD值作为输出层, 经过多次训练, 隐含层节点数定为10, 训练时最大代次数定为1000。
由图2可看出, 不同SPAD值的棉花反射率曲线变化趋势基本相同, 且具有明显变化规律。在350~680 nm波段范围内的反射率比680~1050 nm波段范围内低, 总体上继承了棉花叶片光谱反射率的特征。在350~680 nm波段范围内随着SPAD值的增加, 光谱反射率显著降低, 光谱差异较大, 其中在490~550 nm波段范围反射率平稳上升, 绿光区域的550 nm处出现绿色强反射, 产生峰值, 678 nm处形成叶绿素吸收谷; 在680~1050 nm范围内, 680~750 nm处反射率随波长呈现急剧增高趋势, 而在750~1050 nm波段范围内反射率随SPAD值增高未表现出明显梯度型差异, 光谱曲线变化趋于平稳。棉叶的健康状况直接决定了SPAD值的大小, 而SPAD值直接影响着叶片的反射率。由此可知, 叶绿素含量的差异会引起棉花叶片光谱曲线特征的变化, 叶片反射率会随着SPAD值的增加而降低, 呈负相关。
图2 棉花叶片光谱
为了进一步明确棉花SPAD值相应的敏感波段, 将棉花叶片SPAD值和原始光谱在内的四类光谱数据做Pearson相关性分析和波段之间的自相关性分析, 由图3和图4所示, 棉花叶片SPAD值和反射率紧密相关。在605~690 nm和745~1050 nm区域内的反射率与SPAD值相关性达0.01的显著水平, 相关系数最高值为-0.619, 此波段范围主要受叶绿素吸收的影响, 均呈负相关。与原始光谱相 比, 经过变换后的棉花反射率与SPAD值相关性相差较大, 其中去除包络线光谱和SPAD值呈极显著相关, 相关系数峰值的绝对值为0.799, 相关性最高值的呈现区域跟原始光谱数据大致相似, 相关性效果优于倒数转换数据和立方根转换数据。去除包络线光谱达0.01显著水平的敏感波段均集中于570~730 nm波段范围内, 可知, 包络线去除法更有利于发现棉花SPAD值相应的敏感波段。倒数光谱和立方根光谱虽然增强效果不明显, 但是敏感波段的出现区域跟原始光谱和去除包络线光谱保持一致, 从图可看出四类光谱数据的相关性最高值均出现在550~750 nm波段范围内, 说明此光谱范围与棉花SPAD值之间存在着高度相关, 为选取特征波段的最佳区间。
对原始光谱和去除包络线光谱的751个波段进行两两组合, 得出决定系数2, 并用Matlab-R2016a绘制相对决定系数等值线图。图中颜色从深蓝色到深红色表示决定系数由小到大, 相同色调越深说明相关系数越大。由图4可知, 基于自相关性分析的原始光谱和去除包络线光谱的决定系数最高值均在620~690 nm和740~920 nm范围, 其余波段范围2较小, 即相关性较低。去除包络线光谱在可见光波段范围内颜色最深, 即相关性显著, 且在570~750 nm波段范围内, 数据冗余最小, 信息含量最丰富, 结果与Pearson相关性结果吻合。
经相关分析可选出相关性较高的波段作为随机森林分类的参考值, 经过反复实验和比较分析, 最后随机森林生成树的变量(NTree)设置为300, 节点处变量数设置3, 对敏感波段重要性VIM值(variable importance measure)进行了评价。由表1和图5可知, VIM值越大, 说明敏感波段(自变量)在估算SPAD值(因变量)时有更重要的作用。原始光谱数据中, VIM值最大的波段为614 nm, VIM值最小的波段为689 nm和786 nm, VIM值最大的6个波段对应的变量依次为12、1、6、3、4、11, 这些特征波段均出现在610~700 nm和900~950 nm波段范围内; 在去除包络线光谱中, VIM值最大的波段为695 nm, VIM值最小的波段为612 nm, VIM值最大的6个波段对应的变量依次为'10、'12、'1、'11、'4、'8, 相比原始光谱敏感波段的出现范围较分散。通过随机森林法筛选出来的这些敏感波段可视为对模型贡献较大的变量。
图3 不同转换光谱曲线与叶SPAD值的相关性
R: 相关系数; RR: 原始光谱; Rcr: 包络线光谱; ∛R: 立方根光谱; 1/R: 倒数光谱。
R: correlation coefficient; RR: raw reflectance; Rcr: continuum-removal reflectance; ∛R: cube-root reflectance; 1/R: reciprocal reflectance.
图4 光谱自相关矩阵
表1 特征波段的选取
: 原始光谱特征波段的变量名;': 包络线光谱特征波段的变量名; RR: 原始光谱; Rcr: 包络线光谱。
: characteristic band’s variable name of the raw reflectance;': characteristic band’s variable name of the continuum-removal reflectance; RR: raw reflectance; Rcr: continuum-removal reflectance.
图5 变量重要性评估
运用随机森林法选出的6 个特征波段和建模样本实测叶绿素含量数据分别建立PLSR模型和BP神经网络模型, 模型评价参数如表2所示。从建模效果看, 基于原始光谱建立的两种模型中2都低于0.8, RMSE相差不大, 说明两种模型的稳定性较低, 预测效果接近; 基于包络线数据的两 种模型中BP神经网络模型的2为0.90, RMSE降低至0.91, 表明数据转换后模型的稳定性和估算精度有了一定的提高。从预测值和实测值之间的拟合分析可以看出(图6), 基于去除包络线数据的点和原始光谱相对均匀地分布在1︰1直线的两侧, 表明利用去除包络线光谱建立的两种模型的拟合效果更好。
表2 建模结果比较
2: 决定系数; RMSE: 均方根误差; RE: 相对误差; RR: 原始光谱; Rcr: 包络线光谱。
2: coefficient of determination; RMSE: relative root mean-squared error; RE: relative error; RR: raw reflectance; Rcr: continuum-removal reflectance.
为了进一步验证模型的估算精度, 利用验证样本对两种模型进行验证(表 1), 从验证效果看, 基于原始建立的两种模型中2分别为0.64、0.78, 均小于0.8, 与建模效果保持一致, RE分别为3.01%、2.27%, 说明这两种模型稳定性和估算能力都较低, 不能作为估算棉花叶片叶绿素含量的最佳模型, 这可能是由于实测光谱受外界因素干扰, 因目标物的粒度、密度、纹理、粗糙度等物理特性所故; 包络线光谱建立的PLSR和BP神经网络模型2分别为0.92和0.83, 说明两种模型的稳定性较好; 在PLSR模型中, RMSE从原始光谱的2.06降到0.88, RE从3.01%降到1.30%, 说明PLSR模型的估算能力比BP神经网络模型更优异。从模型的验证效果来看, PLSR模型效果比BP神经网络更好。因此, 本研究选取PLSR模型对棉花SPAD值进行估算。从预测值和实测值的拟合度可以看出(图6), 基于原始光谱的数据点与包络线相比分布较为离散, 估算精度较低。
冠层尺度的叶绿素含量的统计估算方法有不同的表现形式, 最常用的办法就是构建地面实测生化要素含量和田间、机载或者星载传感器测得的冠层反射率的统计关系[25-27]。另一种办法是将叶片尺度上的光谱指数与色素含量的关系直接用在冠层尺度上[28-30]。本研究按照第一种方法, 以田间测定来获取光谱数据和SPAD值, 进行了冠层尺度上的叶绿素相对含量估算。以田间尺度的光谱反射率作为应用条件建立了估算模型, 其中, PLSR模型具有运算量小、速度快、变量更少的特点, 且适用于对模型精度要求不高的场合; 神经网络模型是依赖于大量输入的统计学算法的数学模型, 与线性方法相比, 神经网络模型在解决非线性问题上的应用较为广泛, 且能够识别叶片色素和光谱指数之间复杂非线性关系[31]; 至于两种模型的样本数, 贾学勤等学者利用PLSR模型对180组冬小麦样进行地上干生物量高光谱估测, 其模型的决定系数2为0.692; 尼加提等人采用PLSR模型估算春小麦叶片叶绿素含量, 其样本数为55, 模型的决定系数2达到0.8; 郭云开等学者利用BP神经网络模型对40个土壤样本进行铜含量高光谱反演, 最后模型的拟合度为0.721; 余蛟洋等使用BP神经网络模型估算苹果叶片SPAD值, 采用的样本数总共是120组, 模型最后的决定系数达到0.95, 总之, 应用这两种模型的研究者们采用的样本数都不一致[20,32-36]。因此本研究按照以往研究者们的经验具备了53组样本, 29组为建模, 24组为检验, 最后两种模型的估算精度分别为PLSR模型2为0.92; BP神经网路模型2为0.83, 估算效果均优异, 但是如何控制样本数才能达到最佳效果需进一步探讨。在植被光谱分析中, 对原始光谱的预处理可更好地挖掘生物参量特征波段, 从而建立更加稳定精确的回归模型。本文对原始光谱数据进行倒数转换、立方根和去除包络线处理, 通过相关性分析可知, 包络线光谱较原始光谱在特征波段与棉花SPAD值的相关性更好, 基于去除包络线光谱所构建模型的验证精度高于原始光谱特征参数建立的模型, 去除包络线光谱更适合估算棉花叶片的SPAD值, 且倒数转换和立方根转换对光谱信息的获取未表现出明显的作用, 相关系数也未得到显著提高, 此结果对棉花SPAD值估算的研究意义较小。综合以上研究结果发现, 高光谱数据的衍生变化对模型的估算效果起到了一定的优化作用。
图6 PLSR和BP神经网络模型对实测值与预测值的拟合分析结果
高光谱数据特征选择常用的方法主要有PCA、判别分析、光谱微分处理技术与ICA等, 其中随机森林法具有容易实现、简捷、调整参数少、经济等优点[37-39]。因此本研究通过随机森林法进行了变量重要性选择, 且对特征波段进行了定量化处理, 更精确地评估出了对SPAD值影响较大的特征波段, 有效地提高了模型的估算精度。
不同建模算法对估算模型预测精度的影响较大, 验证结果说明PLSR模型的估算精度高于BP神经网络模型, 估算效果较为优异。主要是因为包络线去除法对数据进归一化处理, 可释放一些原本被遮蔽的光谱吸收特征信息, 从而改善模型精度, 此结果与众多学者的研究相一致[40-42]。而BP神经网络算法的网络权值初始化随机, 且其程序运行结果、选用的输入参数均存在差异, 致使其模型精度较低[43]。因此在以后的研究中, 需要重点考虑BP神经网络输入参数的选择。
(1) 在605~690 nm和745~1050 nm区域内, 反射率与SPAD值极显著负相关(<0.01), 此波段范围主要受叶绿素吸收的影响。
(2) 经去除包络线光谱变换和立方根转换后的棉花反射率与SPAD值相关性比原始光谱高, 且以去除包络线光谱变换最高; 倒数转换后棉花反射率与SPAD值相关性较原始光谱低。
(3) 通过随机森林法筛选出的去除包络线光谱波段建立的PLSR和BP神经网络模型的估算能力均高于原始光谱波段; 且PLSR估算能力高于BP神经网络模型。
[1] 史典义, 刘忠香, 金危危. 植物叶绿素合成、分解代谢及信号调控. 遗传, 2009, 31: 698–704. Shi D Y, Liu Z X, Jin W W. Biosynthesis, catabolism and related signal regulations of plant chlorophyll., 2009, 31: 698–704 (in Chinese with English abstract).
[2] 刘燕婕, 李建设, 高艳明. 可见光波段不同氮处理生菜叶片光谱反射率与叶片全氮、叶绿素的相关性研究. 北方园艺, 2015, 39(22): 12–16. Liu Y J, Li J S, Gao Y M. Correlation between lettuce leaf spectral reflectance in visible light area and leaf nitrogen content and leaf chlorophyll content under different levels of nitrogen.,2015, 39(22): 12–16 (in Chinese with English abstract).
[3] 姜海玲, 杨杭, 陈小平, 王树东, 李雪轲, 刘凯. 利用光谱指数反演植被叶绿素含量的精度及稳定性研究. 光谱学与光谱分析, 2015, 35: 975–981. Jiang H L, Yang H, Chen X P, Wang S D, Li X K, Liu K. Research on accuracy and stability of inversing vegetation chlorophyll content by spectral index method., 2015, 35: 975–981 (in Chinese with English abstract).
[4] Inoue Y, Guérif M, Baret F, Skidmore A, Gitelson A, Schlerf M. Simple and robust methods for remote sensing of canopy chlorophyll content: a comparative analysis of hyper-spectral data for different types of vegetation., 2016, 39: 2609–2623.
[5] Vane G, Goetz A. Terrestrial imaging spectrometry: Current status, future trends., 1993, 44: 117–126.
[6] Curran P J. Remote sensing of foliar chemistry., 1989, 30: 271–278.
[7] Jacquemoud S, Baret F. PROSPECT: a model of leaf optical properties spectra., 1990, 34: 75–91.
[8] Li D, Cheng T, Zhou K, Zheng H, Yao X, Tian Y. WREP: a wavelet-based technique for extracting the red edge position from reflectance spectra for estimating leaf and canopy chlorophyll contents of cereal crops., 2017: 103–117.
[9] 毛博慧, 李民赞, 孙红, 刘豪杰, 张俊逸, Zhang Q. 冬小麦苗期叶绿素含量检测光谱学参数寻优. 农业工程学报, 2017, 33(S1): 164–169. Mao B H, Li M Z, Sun H, Liu H J, Zhang J Y, Zhang Q. Optimization of spectroscopy parameters and prediction of chlorophyll content at seeding stage of winter wheat., 2017, 33(S1): 164–169 (in Chinese with English abstract).
[10] 丁永军, 张晶晶, 孙红, 李修华. 玻璃温室环境下番茄叶绿素含量敏感光谱波段提取及估测模型. 光谱学与光谱分析, 2017, 37: 194–199. Ding Y J, Zhang J J, Sun H, Li X H. Sensitive bands extraction and prediction model of tomato chlorophyll in glass green house., 2017, 37: 194–199 (in Chinese with English abstract).
[11] 姚霞, 田永超, 刘小军, 曹卫星, 朱艳. 不同算法红边位置监测小麦冠层氮素营养指标的比较. 中国农业科学, 2010, 43: 2661–2667. Yao X, Tian Y C, Liu X J, Cao W X, Zhu Y. Comparative study on monitoring canopy leaf nitrogen status on red edge position with different algorithms in wheat., 2010, 43: 2661–2667 (in Chinese with English abstract).
[12] Yi Q X, Huang J F, Wang F M, Wang X Z. Evaluating the performance of PC-ANN for the estimation of rice nitrogen concentration from canopy hyperspectral reflectance., 2010, 31: 931–940.
[13] Curran P J, Dungan J L, Peterson D L. Estimating the foliar biochemical concentration of leaves with reflectance spectrometry: testing the Kokaly and Clark methodologies., 2001, 76: 349–359.
[14] 郭超凡, 郭逍宇. 基于可见光波段包络线去除的湿地植物叶片叶绿素估算. 生态学报, 2016, 36: 6538–6546. Guo C F, Guo X Y. Estimation of wetland plant leaf chlorophyll content based on continuum removal on visible domain., 2016, 36: 6538–6546 (in Chinese with English abstract).
[15] Mielke C, Boesche N K, Rogass C, Kaufmann H, Gauert C. New geometric hull continuum removal algorithm for automatic absorption band detection from spectroscopic data., 2015, 6: 97–105.
[16] Breiman L. Random forests., 2001, 45: 5–32.
[17] 李振国, 杨德森. 生活质量与临床医学. 中国社会医学, 1994, (3): 34–35. Li Z G, Yang D S. Quality of life and clinical medicine., 1994, (3): 34–35 (in Chinese).
[18] Donnelly S, Walsh D. Quality of life assessment in advanced cancer., 2000, 2: 338–342.
[19] Grömping U. Variable importance assessment in regression: linear regression versus random forest., 2009, 63: 308–319.
[20] 梁智, 孙国强, 卫志农, 臧海祥. 基于变量选择与高斯过程回归的短期负荷预测. 电力建设, 2017, 38(2): 122–128. Liang Z, Sun G Q, Wei Z N, Zang H X, Short-term load forecasting based on variable selection and gaussian process regression., 2017, 38(2): 122–128 (in Chinese with English abstract).
[21] 尼加提·卡斯木, 师庆东, 王敬哲, 茹克亚·萨吾提, 依力亚斯江·努尔麦麦提, 古丽努尔·依沙克. 基于高光谱特征和偏最小二乘法的春小麦叶绿素含量估算.农业工程学报,2017, 33(22): 208–216. Nijat K, Shi Q D, Wang J Z, Rukeya S, Ilyas N, Gulnur I. Estimation of spring wheat chlorophyll content based on hyper-spectral features and PLSR model., 2017, 33(22): 208–216 (in Chinese with English abstract).
[22] 翁永玲, 戚浩平, 方洪宾, 赵福岳, 路云阁. 基于PLSR方法的青海茶卡-共和盆地土壤盐分高光谱遥感反演. 土壤学报, 2010, 47: 1255–1263. Weng Y L, Qi H P, Fang H B, Zhao F Y, Lu Y G. PLSR-Based hyper-spectral remote sensing retrieval of soil salinity of Chaka-gonghe basin in Qinghai province., 2010, 47: 1255–1263(in Chinese with English abstract).
[23] 刘全明, 成秋明, 王学, 李相君. 河套灌区土壤盐渍化微波雷达反演. 农业工程学报, 2016, 32(16): 109–114. Liu Q M, Cheng Q M, Wang X, Li X J. Soil salinity inversion in Hetao Irrigation district using microwave radar., 2016, 32(16): 109–114 (in Chinese with English abstract).
[24] 王静, 刘湘南, 黄方, 唐吉龙, 赵冷冰. 基于ANN技术和高光谱遥感的盐渍土盐分预测. 农业工程学报, 2009, 25(12): 161–166. Wang J, Liu X N, Huang F, Tang J L, Zhao L B. Salinity forecasting of saline soil based on ANN and hyper-spectral remote sensing., 2009, 25(12): 161–166 (in Chinese with English abstract).
[25] Johnson L F, Hlavka C A, Peterson D L. Multivariate analysis of AVIRIS data for canopy biochemical estimation along the oregon transect., 1994, 47: 216–230.
[26] Matson P, Johnson L, Billow C, Miller J, Pu R. Seasonal patterns and remote spectral estimation of canopy chemistry across the oregon transect., 1994, 4: 280–298.
[27] Curran P J, Kupiec J A, Smith G M. Remote sensing the biochemical composition of a slash pine canopy., 1997, 35: 415–420.
[28] Peterson D L, Aber J D, Matson P A, Card D H, Swanberg N, Wessman C. Remote sensing of forest canopy and leaf biochemical contents., 1988, 24: 85–108.
[29] Yoder B J, Pettigrew-Crosby R E. Predicting nitrogen and chlorophyll content and concentrations from reflectance spectra (400–2500 nm) at leaf and canopy scales., 1995, 53: 199–211.
[30] Chen L, Huang J F, Wang F M. Comparison between back propagation neural network and regression models for the estimation of pigment content in rice leaves and panicles using hyper-spectral data., 2007, 28: 3457–3478.
[31] 刘平, 马美湖. 基于高光谱技术检测全蛋粉掺假的研究. 光谱学与光谱分析, 2018, 38: 246–252. Liu P, Ma M F. Application of hyper-spectral technology for detecting adulterated whole egg powder., 2018, 38: 246–252 (in Chinese with English abstract).
[32] 贾学勤, 冯美臣, 杨武德, 王超, 肖璐洁, 孙慧, 武改红, 张松. 基于多植被指数组合的冬小麦地上干生物量高光谱估测. 生态学杂志, 2018, 37: 424–429. Jia X Q, Feng M C, Yang W D, Wang C, Xiao L J, Sun H, Wu G H, Zhang S. Hyper-spectral estimation of aboveground dry biomass of winter wheat based on the combination of vegetation indices., 2018, 37: 424–429 (in Chinese with English abstract).
[33] 孙红, 郑涛, 刘宁, 程萌, 李民赞, Zhang Q. 高光谱图像检测马铃薯植株叶绿素含量垂直分布. 农业工程学报, 2018, 34(1): 149–156. Sun H, Zheng T, Liu N, Cheng M, Li M Z, Zhang Q. Vertical distribution of chlorophyll in potato plants based on hyper-spectral imaging., 2018, 34(1): 149–156 (in Chinese with English abstract).
[34] 郭云开, 刘宁, 刘磊, 李丹娜, 朱善宽. 土壤Cu含量高光谱反演的BP神经网络模型. 测绘科学, 2018, 43(1): 135–139.Guo Y K, Liu N, Liu L, Li D N, Zhu S K. Hyper-spectral inversion of soil Cu content based on BP neural network model., 2018, 43(1): 135–139 (in Chinese with English abstract).
[35] 余蛟洋, 常庆瑞, 由明明, 张卓然, 罗丹. 基于高光谱和BP神经网络模型苹果叶片SPAD值遥感估算. 西北林学院学报, 2018, 33(2): 156–165. Yu J Y, Chang Q R, You M M, Zhang Z R, Luo D. Estimation of apple leaf SPAD value based on hyperspectrum and BP Neural Network., 2018, 33(2): 156–165 (in Chinese with English abstract).
[36] Zagolski F, Pinel V, Romier J, Alcayde D, Fontanari J, Gastellu-Etchegorry J P. Forest canopy chemistry with high spectral resolution remote sensing., 1996, 17: 1107–1128.
[37] Pal M. Random forest classifier for remote sensing classification., 2005, 26: 217–222.
[38] Deschamps B, Mcnairn H, Shang J, Jiao X. Towards operational radar-only crop type classification: comparison of a traditional decision tree with a random forest classifier., 2012, 38: 60–68.
[39] 黄健熙, 侯矞焯, 苏伟, 刘峻明, 朱德海. 基于GF-1 WFV数据的玉米与大豆种植面积提取方法. 农业工程学报, 2017, 33(7): 164–170. Huang J X, Hou Y Z, Su W, Liu J M, Zhu D H. Mapping corn and soybean cropped area with GF-1 WFV data., 2017, 33(7): 164–170 (in Chinese with English abstract).
[40] 陈纪波, 胡慧, 陈克垚, 王桂芝. 基于非线性PLSR模型的气候变化对粮食产量的影响分析. 中国农业气象, 2016, 37: 674–681. Chen J B, Hu H, Chen K Y, Wang G Z. Effects of climate change on the grain yield based on nonlinear PLSR model., 2016, 37: 674–681 (in Chinese with English abstract).
[41] 于雷, 洪永胜, 耿雷, 周勇, 朱强, 曹隽隽, 聂艳. 基于偏最小二乘回归的土壤有机质含量高光谱估算, 农业工程学报, 2015, 31(14): 103–109. Yu L, Hong Y S, Geng L, Zhou Y, Zhu Q, Cao J J, Nie Y. Hyperspectral estimation of soil organic matter content based on partial least squares regression., 2015, 31(14): 103–109 (in Chinese with English abstract).
[42] Gomez C, Lagacherie P, Coulouma G. Continuum removal versus PLSR method for clay and calcium carbonate content estimation from laboratory and airborne hyperspectral measurements., 2008, 148: 141–148.
[43] 刘晓莉, 杨灵娥, 宋春玲. 提高多目标输出神经网络模型泛化能力和预测精度的方法. 佛山科学技术学院学报(自然科学版), 2008, 26(1): 31–33. Liu X L, Yang L E, Song C L. Improvement of the genera and the learn enlcienin BP network models.(Nat Sci Edn), 2008, 26(1): 31–33 (in Chinese with English abstract).
Estimation of leaf chlorophyll content in cotton based on the random forest approach
Ershat ABLET1,2, Mamat SAWUT1,2,3,*, Baidengsha MAIMAITIAILI4, AN Shen-Qun1,2, and MA Chun-Yue1,2
1College of Resources and Environmental Science, Xinjiang University, Urumqi 830064, Xinjiang, China;2Key Laboratory of Oasis Ecology of Ministry of Education, Urumqi 830064, Xinjiang, China;3Key Laboratory for Wisdom City and Environmental Modeling, Xinjiang University, Urumqi 830064, Xinjiang, China;4Institute of Nuclear and Biotechnologies, Xinjiang Academy of Agricultural Sciences, Urumqi 830064, Xinjiang, China
The main objective of this study is the estimation of the leaf chlorophyll content efficiently and harmlessly. SPAD values and spectral data were collected from field observation. Original spectra processed to continuum-removal transformation, cube-root transformation and reciprocal transformation. Based on the correlation between SPAD values and canopy spectral reflectance, we selected characteristic bands by random forest approach to establish two kinds of estimating models, including back propagation artificial neural network (BP ANN) model and partial least squares regression (PLSR) model. The reflectivity in the range of 605-690 nm was negatively correlated with the SPAD value at< 0.01, with the correlation coefficient of-0.619. After transformations, the spectral reflectance exhibited different correlations with SPAD value, continuum-removal spectra improved the correlation in the range of 550-750 nm, and had a better correlation with SPAD value than cube-root and reciprocal transformations. Random forest approach effectively evaluated the characteristic bands with large influence on SPAD value, which can help improve the estimation accuracy of the model.2of the PLSR and BP neural network model based on continuum-removal spectra was 0.92 and 0.83 respectively, show the two models with good stability in estimation of cotton SPAD values. The RMSE of the two models was 0.88, 1.26, and RE was 1.30% and 1.89% respectively, which indicates that estimation accuracy of PLSR model is higher that of BP neural network model. From the validation of the model, PLSR model has certain advantages and reference value in estimating chlorophyll content of cotton.
SPAD value; cotton; random forest method; hyper-spectral estimation model
2018-04-22;
2018-08-20;
2018-09-20.
10.3724/SP.J.1006.2019.84058
通信作者(Corresponding author): 买买提·沙吾提, E-mail: korxat@xju.edu.cn
E-mail: 13201349501@163.com
本研究由国家自然科学基金项目(41361016, 41461051)和大学生创新训练计划项目(201710755058)资助。
This study was supported by the National Natural Science Foundation of China (41361016, 41461051) and the Student Innovation Training Program (201710755058).
URL:http://kns.cnki.net/kcms/detail/11.1809.S.20180918.1712.012.html