吴剑飞
(安徽理工大学空间信息与测绘工程学院,安徽 淮南 232001)
叶片含水率是农作物主要质量指数,其变化直接影响着作物生理功能,最终影响其生长品质和产量[1]。传统的植物含水率检测如电烘箱升温、红外线加温、微波加热等物理干燥方式,虽测量准确度较高,但具有耗时费力、流程冗长复杂、样品容易损坏、时效性较差等缺点[2],而且无法适应农作物生长过程中对大区域目标含水率真实、无损的测量要求。此外,含水率受多个因素影响,导致测量结果与实际含量相比常出现一定的误差[3]。
遥感技术的出现和发展给农作物含水率的动态无损检测带来全新的技术手段,农作物的光谱反射特性与其本身的理化性质紧密相关,这种联系形成了农业遥感技术应用的物理基础。遥感技术中高光谱分析技术[4]具有快捷、有效、无害的优势,可以提取大量的地物光谱信息,从而预测作物的生物参数,进而检测作物的健康状态,被认为是快速获取含水率从而观察农作物生长状态的有效技术。
实际科研和使用中,高光谱数遥感在获取大量目标有效信息的同时,也出现随机噪声、数据污染、信息重复度高等问题,影响预测模型的运行速度和精度。特征波段的筛选算法可实现对高光谱数据的降维,保证模型输入数据的有效性和非共线性,这在当前高光谱遥感技术应用于农业方面越来越重要,已经成为影响精度的重要指标。
国内外研究者针对于将不同光谱变换处理和最优波长组合的技术方法在建立判别模型中的实际应用开展了大量研究。Dai Q等[5]利用SNV-SPA建模判断冷冻和无冷冻条件下虾的新鲜程度,模型预测正确率高达95%。Zhu Z等[6]根据标准正太变换SNV等三种光谱预处理方法对400个蛹的光谱数据进行动态运算,确定了基于二阶导数光谱形式结合偏最小二乘建模实现了活蛹性别判定。任怡等[7]采用竞争性自适应重加权采样CARS算法进行了香葱含水率和株体含水率的高光谱遥感数据获取和敏感光谱波段筛选,压缩率均超过了96%,采用PLSR法和SVMR等方法分别构建了含水率定量分析模型,反演的均方根误差分别为0.904 6和0.914 3。Qiao X X等[8]分析了包含原始光谱变换形式在内的6种预处理方法,结合多种建模方法,有效凸显了光谱信息,获取了土壤多种参量的特征波段。第五鹏瑶等[9]采用4大类共计12小类预处理方法,通过MATLAB程序实现120种预处理变换组合,对9组数据集的光谱进行预处理,显示出不同处理方法的效果。Andreas S等[10]研究了不同梯度环境下,土壤光谱曲线与其有机质含量的关系,通过包络线去除显现了光谱潜藏信息,最终确定以反射率倒数的对数处理而建立的PLSR模型反演精度最高。Wen Y L等[11]利用相关系数法,检测出与马尾松冠层叶绿素成分含量高度关联的植被指数,从而对马尾松冠层叶绿素浓度作出有效评估。
高光谱数据在显示光谱信息的同时,隐藏了部分关键信息,同时由于仪器暗电流和环境背景噪声等影响,数据本身有不稳定性。因此,数据的预先处理,可以达到凸显目标某生化参量或去除影响的目的,对于高光谱技术精确反演农作物信息具有重要意义。目前被认为较有效的预处理变换方法有基线校正、散射校正、平滑处理和归一化处理。
基线校正可在一定程度上降低仪器背景噪声,削弱漂移对信号质量的影响,包括一阶导数(FD)、二阶导数(SD),效果如图1所示,提高了光谱分辨率,消除了与波长无关的漂移,基本公式如式(1)、式(2)所示。
图1 经基线校正后的小麦光谱曲线
如图2所示,散射校正能够减少因粒度大小不一致及颗粒不均匀性而产生的散射对光谱信号的影响,其中较为常用的校正方法为多元散射校正(MSC)。MSC可以校正因目标表面分布不均匀产生的散射效应,光谱的随机变异将尽可能地被消除,从而减弱粒径散射影响。计算公式如下:
图2 经散射校正后的小麦光谱曲线
式中,mi、bi分别表示第i个样本的光谱曲线经一元线性回归后的斜率和截距。
光谱信号的噪声来源广泛,很大程度上影响了信噪比,平滑处理有效解决了噪声问题。Savitzky-Golay(SG)平滑法,是指使用多项式计算对原始光谱移动视窗内的反射率数据采用多项式分解,并利用最小二乘进行数据拟合,其实质是一种加权平均法。
如图3所示,把光谱全波段中一个区域内等波段间隔的n个点记为X集合,本研究选择n为5,而多项式平滑法则是利用在波段点为Xm-2、Xm-1、Xm、Xm+1、Xm+2的数据的多项式拟合值来代替Xm,之后顺序移动,直至把光谱遍历完毕,图4为经过平滑处理后的小麦光谱曲线。
图3 平滑处理原理图
图4 经平滑处理后的小麦光谱曲线
如图5所示,归一化处理可以减小各个样品之间的差异引起的误差。
图5 经归一化处理后的小麦光谱曲线
双波段光谱指数法的本质是搭配波段范围内任意两个波段[12],进行作差、作商和归一化的运算,然后与农作物的生化参量进行相关系数分析,得出相关系数矩阵,即等势图形式。如图6所示,该矩阵的每个坐标值的大小表明该点x和y进行运算后,与对应生化参量的相关性大小,该坐标值的绝对值较大时,说明该坐标的x和y对应的波段可以提供有效信息。式(4)、(5)、(6)分别为归一化光谱指数、比值光谱指数和差值光谱指数的公式。
图6 相关系数等势图
其中,Rλ1和Rλ2分别在数值上等于该波段对应的反射率。
随机蛙跳算法(Random Frog, RF)是一种以候补变量集合反复迭代选择的算法,先随机确定候补集合,然后对总变量进行选择,不断替换集合内概率低的变量,最终获取少量变量的高维数据变量选择方法。每一次迭代分为以下主要步骤:1)确定一个包含N1个变量的变量子集V0;2)基于V0中变量的特征和选择概率,提出包含N2个变量的候补子集V1替代V0;3)计算每个变量的选取概率[13]。
基于RF算法提取小麦含水率的特征波长的运行结果,如图7所示,每个波段对应的柱状图的高度表示该波段被选择的概率,实际应用中,通常结合波段共线性和BP神经网络等机器学习算法进行RF特征波段的选择。
图7 RF优选波段过程
连续投影法是一种前向变量选取的方法,能够使矢量空间共线性的问题最小化[14],该算法的具体步骤如下:1)在样品数据中选择一条光谱列向量作为初始矢量;2)接着估计其他列向量在该初始矢量上的投影;3)选取出最小投影值对应的列向量作为下一个投影的初始向量,直到选取波段数达到所需数量;4)将提取的所有波段组合进行多元线性回归,在局部最小的RMSE中选择R2最大的波段组合作为最优波段组合。为降低起始向量选取的随机性,本研究采用文献[14]提出的选取起始光谱向量的方法。
SPA算法提取小麦叶片含水率的特征波长的计算步骤如图8(a)所示。SPA法在运算流程中利用投影向量的大小实现特征波段变量的过滤,然后利用计算模型的均方根误差值RMSE选定的波段子集合即为优选波长。图8(b)中正方形圈出点,表示为最优特征波段变量。
图8 SPA优选波段过程
竞争性自适应重加权采样算法(Competitive Adaptive Reweighting Sampling Algorithm, CARS)[15]是以达尔文进化论的“适者生存”为指导思想,利用了蒙特卡洛抽样算法和偏最小二乘回归法的特征波段优选方法。CARS法需要迭代多个周期,当超过一定周期数时,该方法会逐渐收敛,运行过程中出现的均方根误差最低值即为变量数目最佳值。每个采样周期可分为以下步骤[16]:
1)使用蒙特卡洛抽样法(Monte Carlo Sampling,MCS)从校正集中选取样品,再通过偏最小二乘建模;
2)计算波段回归系数的绝对值权重,删除绝对值小于阈值的波长变量,删除的变量个数由衰减指数法(Exponentially Decreasing Function, EDF)确定;
3)剩余波段变量使用自适应加权算法(Adaptive Reweighted Sampling, ARS)选取波长,以实现偏最小二乘拟合建模;
4)选取交叉验证的均方根误差RMSECV最小的模型对应的波长变量作为选择的特征波长变量。
基于CARS算法,获取小麦叶片含水率的特征波段的运行过程,如图9(a)所示。由于CARS中的蒙特卡洛抽样随着抽样频次的递增呈现不同的计算结果,本研究选择不同抽样频次后分别展开计算并选择相对比较具有优势的波长变量组合。如图9(b)所示,抽样次数较少时,因衰减指数的影响,使用CARS法所筛选的波段变量数从总波段变量数快速下降到较低水平,随着采样次数增加,所选取变量数的曲线斜率下降。交叉验证均方根误差RMSECV,随着运行次数的增加而呈现出交替降低和上升的态势,图中“*”竖线标出最小RMSEVC值对应的采样次数,是欠拟合与过拟合的交汇点,故判定该点处为最优波段。由于有效信息被过滤,图中“*”竖线之后交叉验证均方根误差RMSECV逐渐上升。
图9 CARS优选波段过程
波段优选算法是机器学习结合高光谱遥感应用于农作物生化参量反演领域的研究热点,该类算法提取了有效波段,剔除了无效信息和干扰信息,同时也避免了基于单波段的信息“缺失”问题。小麦的高光谱信息中大部分信息对于模型的识别起到“误导”作用,不能作为反演的根据。优选波段多位于吸收谷的最低点(吸收谷深度),或是吸收谷斜率最大或斜率变化率最大的波段处,表明了高光谱曲线的波谷和波峰是反演农作物生化参量的关键,采用竞争性自适应重加权算法、连续投影法和随机蛙跳算法优选出的波段低于全波段总数的1%,较明显地压缩了波段量,提取了有效信息,为小麦叶片含水率的反演提供技术支撑。同时,为高光谱技术应用于其他农作物的多种生化参量反演具有一定参考意义。