玉米籽粒蛋白光谱预处理方法比较研究

2020-08-18 12:15孙晶京杨武德冯美臣肖璐洁
农业技术与装备 2020年7期
关键词:二阶校正预处理

孙晶京 ,杨武德 ,冯美臣 ,肖璐洁

(1.山西农业大学农学院,山西 太谷 030801;2.山西农业大学文理学院,山西 太谷 030801)

在对样品进行光谱测量时,由于仪器、样品本身和测量环境条件的影响,往往不能获取样品理想的光谱信息。另外,采集的近红外光谱不仅包含了样品待分析化学成分浓度的信息,也含有与待分析成分无关的其他一些物理化学信息。这些信息的存在使得光谱的吸光度与待分析成分浓度之间呈现了复杂的非线性关系,不符合Lambert-Beer定律[1],后续数据的分析带来很大的影响。因此通常需要对光谱数据进行预处理,以减少噪声或背景信息来增加化学信息的信号,确保光谱的高信噪比,进一步改善光谱信号和分析浓度之间的线性关系。

大量研究文献[2-6]表明光谱建模之前对光谱进行预处理可以提高模型的预测精度,但在如何选择光谱预处理技术方面仍存在一些问题。对光谱预处理方法的选择完全由个人主观喜好来决定,而不是基于大多数预处理方法的比较或者严格的光谱观察分析。另外关于预处理方法对数据集划分的影响也没有系统的研究报道。

因此,本文以玉米籽粒光谱数据为例,系统地探讨S-G平滑、S-G一阶和二阶导数、多元散射校正(MSC)、标准正态变换(SNV)和去趋势等不同预处理技术对数据集划分的影响,以期为光谱的预处理方法的选择提供依据。

1 数据获取

本文采用的数据集是玉米的一个标准近红外光谱数据集,由80个玉米样品组成,每个样品在三种不同的近红外光谱仪上进行了测量。每条光谱的光谱范围是1 100~2 498 nm,光谱间隔为2 nm。本文使用的是在m5光谱仪上测得的光谱数据,该玉米的蛋白含量作为光谱响应值。

2 预处理方法的评价

用预处理后的光谱进行PLS建模,通过RMSEP和RMSEC对预处理方法进行综合评价。

3 结果与分析

本研究采用Kennard Stone(K-S)采样方法[7]对数据集进行划分。将数据集划分成11种比例(即校正集样本数占全部样本数的百分比),分别为 40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%。

3.1 S-G平滑及其导数对数据集划分的影响

传统的有限差分导数对噪声非常敏感,一般通过S-G系数和窗口内点值的点积来计算导数,为此将导数和平滑一起进行讨论。

窗口大小和拟合多项式次数的选择会影响S-G平滑的效果,通过尝试两者的多种不同组合,得出拟合多项式的次数对模型的结果影响不大,所以将拟合多项式次数都设置为2。而对于窗口大小,当窗口大小为13时,S-G平滑和S-G一阶导数的结果比较好,当窗口大小为5时,S-G二阶导数的模型性能较好,但其光谱曲线出现严重的噪声。图1为采用S-G平滑及一阶、二阶导数处理后的光谱曲线图。从图上可以看出,经过S-G平滑后,光谱曲线的形状几乎没有发生变化,而经过光谱一阶、二阶导数处理后,光谱形状跟原始光谱完全不同。一阶导数将原始光谱中的重叠峰突显了出来,而且相比原始光谱,基线偏移得到了很好地改善。二阶导数消除了光谱的基线漂移,但由于窗口大小选择太小,出现了严重的噪声。通过综合比较,设定S-G平滑和一阶导窗口大小为13,S-G二阶导窗口大小为11。

将不做任何预处理的情况作为对照,比较三种预处理方法对数据集划分的影响。得出在同一划分比例下,三种不同预处理方法对数据集划分的情况完全不同。其中S-G一阶导和二阶导与原始光谱划分的结果差异比较大,尤其是在划分比例较小的时候。这是因为对原始数据进行预处理后,各原始样本点之间的距离已经发生变化,这就表明在建模之前对数据集的划分要在预处理之后,否则由于模型训练时样本的代表性不显著,容易导致模型出现过拟合或欠拟合的现象。

三种不同预处理方法在不同的校正集和验证集划分比例下,模型性能不同。经过三种预处理方法,模型性能都有所改善,其中S-G一阶导预测性能最好。对于S-G平滑来说,当校正集的比例较小时,模型预测性能较差。当校正集比例达到60%时,模型校正集和验证集误差都开始下降,但是超过80%时,模型预测性能又开始下降。与无预处理光谱相比,S-G一阶导,模型校正集和验证集误差都明显降低,而且模型预测性能随校正集比例的增加不断改善,在校正集比例为90%时,模型性能最优,表明通过对光谱进行S-G一阶导数预处理能较好地刻画出光谱的特征信息,校正集样本数的增加有助于模型的建立。S-G二阶导,除了在校正集比例超过90%时,模型性能得到改善外,其他情况模型性能较差,存在模型过拟合的现象。相比S-G一阶导,S-G二阶导需要较多的训练样本得到较优的模型。正如前面所述,经过预处理后,有可能会改变原始光谱数据点之间的相对距离,对于S-G平滑处理,如果先划分后处理,模型预测性能跟原始光谱结果非常相似,没有得到改善;如果先处理后划分,在校正集比例超过60%时,模型性能有所改善。对于S-G一、二阶导,先划分后预处理,导致模型预测性能随校正集比例的增加忽高忽低,尤其在校正集比例较小时更明显。

3.2 散射校正法对数据集划分的影响

图2是MSC、SNV、去趋势和SNV+去趋势法预处理后的光谱曲线,从图上可以看出,原始光谱经过MSC和SNV处理后,光谱吸光度值的范围发生了变化,但处理后的光谱曲线形状极其相似。跟原始光谱相似,两者都能很好地辨别出原始光谱吸收峰。而经过去趋势处理或SNV+去趋势处理后,光谱吸光度值在0点上下浮动,原始光谱的吸收峰特征变得不明显。另外,MSC、SNV、去趋势在同一校正集和验证集划分比例下,选择样本点的情况与原始光谱也有较大差异。其中MSC和SNV不管在哪一种划分比例下,都选择了相同的校正集和验证集,这表明经过MSC和SNV处理后的样本点在空间位置上极其相似,两者表现出相似的数据处理功能。不同数据集划分比例对模型性能的影响也不相同。MSC和SNV在模型预测方面表现出相似的结果,当校正集比例低于60%时,模型出现严重的过拟合;当校正集比例在70%~80%时,模型性能相对较好,优于无预处理的模型性能,超过85%模型性能开始有所下降。这表明MSC和SNV对校正集样本数不能太少也不宜太多。去趋势法和结合SNV的去趋势法表现较差,在大多数情况下,模型性能都不如无处理操作下的模型性能,这个从其处理后的光谱可以看到,光谱的特征细节都被不同程度地弱化,导致模型性能下降。但其模型性能受校正集样本数的影响较小,随校正集样本数的增加略有改善。为此预处理操作之后,再对数据集划分更有利于模型的建立。模型性能不再像先数据集划分后预处理忽高忽低变化,而是随校正集样本的变化比较稳定有规律地变化。

4 结论

通过以上对不同预处理方法的对比分析,发现预处理方法对数据集划分有着非常重要的影响。为了增强模型的泛化能力,提高预测精度,对校正集和验证集的划分应该放到数据预处理之后,这主要是因为预处理后原始光谱样本点之间的距离发生了变化,从而使得提前划分好的校正集样本可能不具有代表性,这种情况尤其在校正样本数量较少时容易发生。另外,模型性能也受校正集和验证集划分比例大小的影响,而划分比例大小的设置受不同的预处理方法的影响,S-G平滑、MSC、SNV在校正集划分比例超过60%时,模型的性能相对比较稳定;SNV和去趋势结合的方法随校正集划分比例影响相对较大,其模型预测误差随校正集划分比例的增大而减小。S-G一阶导和S-G二阶导随校正集划分比例影响相对较小,其中S-G一阶导在90%时达到最低预测误差。

猜你喜欢
二阶校正预处理
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
二阶整线性递归数列的性质及应用
粉末预处理对钨坩埚应用性能的影响
污泥预处理及其在硅酸盐制品中的运用
劉光第《南旋記》校正
基于特征分解的方位向多通道SAR相位失配校正方法
二阶矩阵、二阶行列式和向量的关系分析
一种具有自动校正装置的陶瓷切边机
基于在线约束限制的飞行器预测校正制导