吴剑飞
(安徽理工大学空间信息与测绘工程学院,安徽 淮南 232001)
叶片含水率是作物生长发育的诊断指标,影响其生理功能,最终影响作物品质和产量[1]。传统的物理干燥方法,具有耗时费力等缺点[2]。遥感技术中的高光谱分析技术,有着精确、快捷等优势,成为地表作物观测的强有力工具[3]。
高光谱遥感获取地物信息的同时,也存在信息冗余问题,导致模型过拟合现象,影响预测模型的运行速度和精度。国内外学者针对光谱变换处理和最优波段组合提取方法在建立预测模型上的应用开展了大量研究。如,孙俊等[4]采用多种波段筛选方法获取不同水分胁迫下油麦菜含水率模型,模型预测决定系数达0.9214;张珏等[5]采用改进离散粒子群算法获取青贮玉米含水率的特征波段适应度函数,预测决定系数达0.80。
本研究以孕穗-抽穗期冬小麦为主要试验样品,通过采集其高光谱数据和叶片含水率,并选择4种高光谱数据类型,以与叶片含水率(LWC)相关性为判定标准,由4种波段筛选方法获取敏感波段组合,结合偏最小二乘回归(PLSR)、BP神经网络和支持向量机回归(SVR)构建波段组合特征与含水率的反演模型,并分析评价预测效果,以达到冬小麦叶片含水率的精准、快捷监测。
研究区位于安徽省颍上县谢桥镇(E115°56′~116°38′,N32°27′~32°4′),属于温带与亚热带过渡型气候。地处淮北冲击平原,土地肥沃,农村自然条件良好,土地类型主要为砂礓黑土和潮土。作为该地区主要粮食作物,小麦是当地农业经济收入主要来源,且在饮食结构中有重要地位。因此,实现该地区农作物含水率的动态检测,能够为实时、定量判断农作物生长状态,指导农业生产建设提供理论依据。
2019年5月2日和5月3日,利用ASD FieldSpec4光谱仪(波长范围为350~1000nm和1000~2500nm,采样间隔分别为1.4nm和2nm)获取当地孕穗-抽穗期冬小麦的冠层光谱。采样时间为11∶00—13∶00。当天天气晴朗,技术人员着深色衣物工作,并收集了96组冬小麦的高光谱数据。仪器为每样本获取了20条光谱曲线,在去除所有异常光谱之后,取平均值作为该样品的标准光谱。
取光谱采集位置处的小麦装入采样包,保证水分不受损失。在实验室中,先分离出冬小麦的叶片和茎,再用电子天平秤称取其饱和鲜重,放在烘干箱105℃烘2h,然后再放置于75℃下烘干至恒重,测定干重。叶片含水率(Leaf Water Content,LWC)的计算公式:
(1)
式中,FWleaf为叶片鲜质量;DWleaf为叶片干质量。
表1 冬小麦叶片含水率的统计特征
表1表示冬小麦样品中叶片含水率的最大值、最小值、均值和方差。
对原始光谱和冬小麦叶片含水率进行Pearson相关性分析,并保留了相关系数较高的波段[6]。利用MATLAB 2019a软件对小麦原始光谱(OS)进行了光谱预处理操作,包括一阶导数(FD)、二阶导数(SD)和多元散射校正(MSC)[7.8]。并利用Origin软件制图。
图1 经不同降噪方法预处理后的光谱
图1显示了预处理操作后的光谱曲线,可以看出,FD与SD消除与波长无关的漂移,MSC消弱粒径散射影响。
为获取所有波段组合情况,将波段范围内任意2个波段构建光谱指数[9],主要有归一化光谱指数(NDSI)、比值光谱指数(RSI)和差值光谱指数(DSI),以等势图形式呈现。
(2)
(3)
DWI=Rλ1-Rλ2
(4)
式中,Rλ1和Rλ2分在数植上等于该波段对应的反射率。
连续投影法是一种前向变量选取方法,可以使矢量空间共线性问题最小化[10],该算法的具体步骤如下[11]:在样品数据中选择一条光谱列向量作为初始矢量;估计其他列向量在该初始矢量上的投影;选取出最小投影值对应的列向量作为下一个投影的初始向量,直到选取波段数达到所需数量;将提取的所有波段组合进行多元线性回归,在局部最小的RMSE中选择R2最大的波段组合作为最优波段组合。
为降低起始向量选取的随机性,本研究采用MCU Araújo[11]等提出的选取起始光谱向量的方法。
在MATLAB 2019a软件中采用支持向量机回归[12]、BP神经网络[13]和偏最小二乘回归[14]构建预测模型。在本研究中,决定系数R2、均方根误差RMSE等统计参数用于综合评定模型精度。其中,R2越接近于1;RMSE越小,表明模型反演效果越好,反之则越差。
以原始光谱信号OS、一阶导数变换FD、二阶导数变换SD和多元散射校正MSC处理后的曲线为基准,构建双波段光谱指数与冬小麦叶片含水率的等势图如图2所示,在等势图中每个位置横坐标x和纵坐标y分别对应输入波长数据λ1和λ2,根据右侧数轴,每个位置对应的值表示与叶片含水率的相关系数,其中相关性最高的双波段作为敏感波段组合。
图2 冬小麦叶片含水率与光谱指数相关性等势图
表2显示了模型反演结果,结合图2得出,同一类型光谱变换后的数据构建相关系数等势图在分布上有一定相似,表明与叶片含水率相关的敏感波段固定于特定波段区间。相同波段组合下,比值植被指数与叶片含水率的相关系数高于归一化植被指数,经过多元散射校正变换后光谱所建模型的决定系数更加平稳。其中,孕穗-抽穗期冬小麦含水率的MSC-NDSI-BP模型预测精度最高,其中R2为0.8082,RMSE为0.7937%。
图3显示了连续投影算法提取叶片含水率敏感波段的运行过程。SPA法在运行过程中通过分析投影向量的大小进行特征波段变量的筛选,通过计算校正模型的RMSE值确定的波段子集即为优选波段[19]。
由图3可以看出,随变量数的增加,RMSE值逐渐减小,图中红色正方形圈出点表示确定的RMSE值,对应的即为最优特征波段变量。敏感波段组合最终确定为816nm、919nm、932nm、1407nm、1410nm、1415nm、1438nm、2235nm、2346nm、2358nm、2386nm,压缩率达99.39%。
表2 双波段指数回归模型预测精度对比
图3 SPA优选波段过程
表3 优选波段组合回归模型预测精度对比
基于SPA筛选出的敏感波段组合构建的模型预测结果如表3所示,结合表2对比可以看出,使用SPA算法优选特征波段后,所建模型精度均有所提高。其中,OS-SPA-PLSR精度最高,R2为0.9020,RMSE为0.3762%;PLSR建模方法相较于SVR与BP神经网络,更适用于孕穗-抽穗期冬小麦LWC的预测。
表2显示了利用全波段波长构建的冬小麦叶片含水率反演模型的结果,比较而言,敏感波段优选后所建模型的反演精度和稳定性均有所提升。经过对比研究发现,应用连续投影算法优选敏感波段后,通过偏最小二乘回归建立与叶片含水率反演模型的R2分别提高了0.0758,进一步确定连续投影算法对模型反演效果的提高。
结合表2、表3与表4对比可知,SPA算法在筛选与冬小麦叶片含水率相关性较高的敏感波段上表现更佳,降低了模型的复杂度,避免了双波段指数模型存在的信息“丢失”问题和全波段模型存在的运行速度慢与过拟合问题,最终优选的预测模型以高压缩率的数据获取了优于全波段模型的PLSR模型,以高精度优于双波段指数模型。
表4 全波段与优选波段所建模型预测精度对比
本研究同步获取了孕穗-抽穗期冬小高光谱数据和叶片含水率,经过多种光谱预处理方法,采用双波段指数和连续投影算法筛选敏感波段,采用多种建模方法建立含水率预测模型,经对比后得出以下结论。
对冬小麦原始光谱进行变换处理可以有效提高双波段组合与冬小麦叶片含水率的相关性。其中,由600~700nm、1400~1600nm附近和1900~2000nm波段范围内的光谱数据构成的双波段指数与冬小麦含水率的相关性较高。
由双波段指数、敏感波段组合和全波段所建含水率反演模型中,PLSR模型反演效果优于SVR和BP神经网络回归,其中对孕穗-抽穗期小麦叶片含水率的最佳预测模型为FD-SPA-PLSR。
连续投影算法有效降低了模型构建所需波段数,敏感波段分布在800~950nm、1400~1450nm和2230~2400nm,表明了小麦叶片含水率敏感波段多固定于特定波段范围,为后续进一步研究波段与含水率关系提供参考。本研究采用压缩率98%的波段建立了含水率反演模型并有较好的建模效果,模型预测R2达到0.9453。