SPA-PLS和GA-PLS算法预测胡杨叶片含水量的对比

2018-11-08 06:05白铁成喻彩丽张楠楠王莎莎
江苏农业科学 2018年19期
关键词:胡杨波长含水量

王 涛, 白铁成, 喻彩丽, 张楠楠, 王莎莎

(1.塔里木大学信息工程学院/新疆南疆农业信息化研究中心,新疆阿拉尔 843300; 2.西北大学现代教育技术中心,陕西西安 710127)

塔里木河流域的胡杨林对阻挡塔克拉玛干沙漠的风沙侵袭、维护区域生态平衡和保障绿洲农业起着重要作用。但近年来由于受干旱和虫害的影响,沿河两岸天然植被大幅削减和破坏,我国塔里木河流域的珍贵树种胡杨面临着生存危机[1],因此须要对胡杨林的健康状况进行及时有效的监测,胡杨叶片水分状况为胡杨干旱胁迫提供了指示作用,对胡杨林实施有效的保护具有重要的现实意义。

近红外光谱技术是一种高效率、稳定、低成本的检测方法。近年来,使用近红外方法对农产品品质进行测定主要以漫反射和透射光谱检测为主,包括蔬菜、小麦、玉米、水稻等主要农产品中水分、淀粉、蛋白质等成分含量的测定[2-6]。方美红等利用高光谱数据反演作物叶片含水量,采用小波分析方法,综合利用多波段信息的作物叶片含水量反演模型,提高了预测精度[7]。刘明博等基于连续投影算法结合主成分回归与偏最小二乘法(partial least squares regression,PLS)预测水稻叶片含氮量,证明了连续投影算法进行有效波长的选取是可行的[8]。Li等基于遗传算法结合偏最小二乘法在植物水分近红外光谱分析模型中进行谱区选择,优化了预测模型,增强了模型的稳定性[9]。王加华等采用遗传算法用于PLS建立西洋梨糖度校正模型前的数据优化筛选是可行的,有效提高测量精度,减少建模变量[10]。前人利用各种光谱预处理方法,主要包括多元散射校正,矢量归一化、一阶导数、二阶导数等[11-13],分析了农产品关键成分与光谱的关系,证实了使用连续投影算法[14-16]与遗传算法[17-18]选取特征波长的可行性,而采用近红外波段的光谱信息检测胡杨叶片含水量研究鲜有报道。

本试验选用SavitZky-Golay一阶导数对样本的原始光谱进行预处理,然后分别使用连续投影算法(successive projection algorithm,SPA)和遗传算法(genetic algorithm,GA)[19]筛选特征波长,并结合偏最小二乘法[20]建立胡杨叶片含水量光谱预测模型,通过试验验证,该方法有效地剔除了噪声的影响,增加了特征波长的选择能力,提高了胡杨叶片含水量估测精度,从而为基于高光谱技术检测胡杨叶片含水量提供依据。

1 材料与方法

1.1 光谱采集

试验采用Zolix Gaia Sorter近红外成像高光谱仪,光谱测定范围900~1 700 nm(实际测量到1 750 nm),光谱分辨率 5 nm,光谱采样点4 nm,共256个波段。样本在室内20~25 ℃ 环境下进行扫描,获取一维影像和光谱信息,通过自带软件获取每张叶片的平均光谱值,每个样本数据测量5次取平均值,共采集100个样本,表1是根据Kennard-Stone(K-S)算法[21]挑选出30份胡杨样品作为预测集,剩下的70份样品作为定标集。叶片水分采用烘干法进行测量,按如下公式计算:

1.2 光谱变量选择与建模方法

1.2.1 SPA-PLS方法 使用SPA-PLS方法进行特征波长选取和建立预测模型,其算法分为4个阶段:第一阶段,筛选出共线性最小的若干组备选波长变量子集。第二阶段,分别使用各子集中的变量建立多元线性回归(MLR)模型,选出均方根误差(RMSE)最小的子集。第三阶段,对第二阶段选出的子集进行逐步回归建模,在尽量不损失预测准确度的前提下,得到1个变量数目较少的集合,该集合中的波长变量即是所选有效波长。第四阶段,对第三阶段中所选的有效波长作偏最小二乘法(PLS)的输入变量,叶片含水量作为输出变量进行预测模型的建立。SPA-PLS具体算法过程可参阅文献[21-22]。

表1 胡杨叶片校正集和预测集含水量统计

1.2.2 GA-PLS方法 GA算法引入染色体概念,将变量视为染色体内的基因。通过随机建立种群,利用适宜度(fitness)评价种群内个体优劣并繁衍后代,模拟自然界遗传选择规律,以优胜劣汰机制选择更适宜的基因。另外,引入交叉机制模拟种群间的基因交叉,生成新的个体保证了寻优过程的收敛,同时引入变异机制以避免结果终止于局部最优。GA-PLS具体算法过程可参阅文献[23-24]。

1.2.3 模型精度检验 采用预测集相关系数(r)、预测集均方根误差(RMSEP)、预测精度(precision)以及交叉验证均方根误差(RMSPCV),对胡杨叶片含水量进行精度评价。模型r和Precision越高,RMSEP和RMSEP越小,则模型的预测性能越好。

2 结果与分析

2.1 光谱预处理

利用Zolix Gaia Sorter近红外成像高光谱仪采集了100组胡杨叶片样本的近红外光谱吸收谱图,结果发现,在1 280、1 420、1 620 nm附近有明显的吸收峰、吸收谷存在,其中 1 420 nm 附近对应H—O键的1倍频波长位置[16](图1)。光谱仪中得到的光谱信号既包括对建模有用的光谱信息,又包含不利于建模的噪声,会影响到特征波长的选取,因此对光谱信号进行消除噪声等预处理是十分必要的。试验中应用SavitZky-Golay一阶导数对原始光谱进行预处理,图1是原始光谱与一阶导数预处理后的光谱图。

2.2 特征波长选取

2.2.1 SPA选取特征波长 使用连续投影算法(SPA)分别对胡杨叶片的原始光谱与一阶导数光谱数据的校正集与验证集进行SPA特征波长选择,SPA选择变量数的最优区间是[2,50][15],其中基于原始光谱选择的波长数为21个,且在1 280、1 460、1 620 nm附近集中了多数的波长,它们分布在平滑光谱中各个峰值的位置;基于SavitZky-Golay一阶导数选择的波长数为16个,且在1 360、1 650 nm附近集中了多数的波长,分布在一阶导数谱中各个峰值的位置,无信息的平缓区域没有波长被选取,这正是连续投影算法的优点(图2)。

2.2.2 GA选取特征波长 分别对原始光谱和一阶导数光谱使用GA方法进行特征波长的选取和对256个波段变量进行GA运算,设定遗传算法迭代次数为100,种群大小为30个数据点,变异概率为0.01、遗传概率为0.6,依变量被选中的频率对变量排序。为了防止算法运行过程中随机性对结果的影响,研究共进行5次运算,最后挑选出其中性能最好的模型所选用的频率变量作为最佳变量。每次迭代过程中,波段特征变量(优势基因)在所设定的竞争模式下保留。通过GA所选的特征波段主要集中在900~1 600 nm之间,并且在900~1 300 nm 之前特别集中(图3)。这是由于GA算法在寻优路径上的随机性造成特征波段选择数目的不确定性,即每次运行结果之间具有差异,甚至存在陷入局部最优的概率,所以基于每种预处理选择的最佳变量数存在差异,并且存在陷入900~1 300 nm局部最优波段的可能。

2.3 模型的建立和预测

2.3.1 SPA-PLS模型建立与预测 通过SPA和PLS算法,分别对胡杨叶片原始光谱和一阶导数光谱进行建模,将SPA算法提取的特征波长,作为PLS的输入变量,叶片含水量作为输出变量。结果发现,基于一阶导数光谱与SPA算法提取的特征波长进行建模的精度、相关性均明显提高,交叉验证预测均方差(RMSPCV)由0.666 38降低到 0.026 633,预测均方根误差(RMSEP)由0.020 228降低到 0.014 391,预测精度由0.973 61提高到0.981 23,相关系数(r)由0.779 93提高到0.793 63(图4)。试验结果表明,基于SavitZky-Golay一阶导数使用连续投影算法(SPA)能够有效地对光谱数据进行压缩,提取特征波长,消了散射影响,降低噪声干扰、提高建模精度。

2.3.2 GA-PLS模型建立与预测 通过GA和PLS算法,分别对胡杨叶片原始光谱和一阶导数光谱进行建模,在PLS方法交叉验证计算过程中,依变量负载值对变量排序,通过逐一计算误差值RMSPCV,选取最小RMSPCV所对应的特征变量数即是最优拟合特征数。结果发现,基于一阶导数光谱与GA算法提取的特征波长进行建模的精度、相关性均明显提高,交叉验证预测均方差(RMSPCV)由0.037 63降低到0.033 348,预测均方根误差(RMSEP)由 0.021 69 降低到 0.019 726,预测精度由0.971 21提高到 0.975 13,相关系数(r)由0.702 1提高到0.758 38(图5)。试验结果表明,基于SavitZky-Golay一阶导数使用遗传算法(GA)能够有效地对光谱数据进行压缩,提取特征波长,消了散射影响,降低噪声干扰、提高建模精度。

综合比较SPA-PLS和GA-PLS算法在同一预处理结果上的建模指数,SPA-PLS总体要优于GA-PLS。SPA-PLS选择的变量只用了18个,而GA-PLS用了29个,并且评价指数均优于GA-PLS,较少的波段能够提高运算速度,同时减少成本。因此,选择SPA-PLS算法为胡杨叶片含水量最佳预测模型。

3 结论

在胡杨叶片含水量近红外光谱监测中使用连续投影算法(SPA)与遗传算法(GA)进行有效波长的选取是可行的。对SavitZky-Golay一阶导数光谱数据使用SPA选取的有效波长基本上都分布在1 360、1 650 nm附近,并且所选波长与含水量有较好的相关性。利用SPA可以有效地降低光谱矩阵的维数。基于相同预处理光谱采用SPA-PLS的结果要优于GA-PLS,预测精度达到了0.981 23,相关系数达到了 0.793 63,为研制胡杨叶片水分便携式检测仪提供了理论依据。

猜你喜欢
胡杨波长含水量
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
千年胡杨
结合Sentinel- 1B和Landsat8数据的针叶林叶片含水量反演研究
一次冰雹过程成雹机理的数值模拟
家风伴我成长
双波长激光治疗慢性牙周炎的疗效观察
胡杨颂
日本研发出可完全覆盖可见光波长的LED光源
基于两相混合流理论PEMFC含水量特性分析
便携式多用途光波波长测量仪