近红外光谱样本集划分以及预处理的方法研究＊

2023-04-06 10:41:20陈方方丁跃武李四海

甘肃科技 2023年1期

陈方方，丁跃武，杨友，李四海

（甘肃中医药大学信息工程学院，甘肃兰州 730000）

近红外光谱技术是介于可见光与中红外光谱之间的一种电磁波，光谱范围为780～2 520 nm，主要信息来源于对氢基团的倍频和合频的吸收，不同的基团产生的信息不相同，相同的基团在不同的环境下产生的信息也不相同。因近红外光谱技术具有操作便捷、效率高、无污染等特点得到广泛应用[1-3]。

以研究过程中的方法选择、数据处理为主要研究内容，提取最大限度的化学和分析信息，不仅能够提高操作中的效率，还可以提高模型的预测精度。异常样本识别、样本集划分、光谱预处理是建立分析模型的基础，良好的数据处理方法是建立稳定性好、预测能力强的分析模型的重要条件。褚小立等[4]、闵顺耕等[5]分别对异常样本识别、预处理等一些化学计量学方法进行总结，然而这些算法已是多年之前的研究，随着技术的发展，近些年产生了大量的新算法，文章在此基础上介绍了近几年近红外光谱的异常样本识别、样本集划分、光谱预处理算法原理及应用。

1 近红外光谱异常样本识别

近红外光谱分析的对象通常都是较为复杂的对象，在对数据进行化学分析时，常常由于环境问题、操作人员的失误、取样不均以及样本的复杂度等问题，导致检测结果不可靠或异常样本的出现，会对模型精确度产生影响。因此，为建立一个更加稳定可靠的模型，在进行定量分析之前需要对样本的异常值进行识别和剔除。

1.1 常用的异常样本识别方法

光谱数据中的异常样本可以通过观察光谱数据本身进行剔除，但由于会受人为等一些其他因素的干扰，难以实现对光谱数据客观、准确地分析，选择适合的方法对样本进行异常值筛选，能更好地保证模型的稳定性。目前，常用的方法主要有Cook距离、马氏距离、样本杠杆值、学生化残差、浓度残差值、光谱残差值、蒙特卡洛交叉验证（Monte-Carlo Cross Validation，MCCV）等[6-9]。

1.1.1 Cook距离

Cook距离主要用来检验某样本的存在对模型回归系数产生的影响，其距离计算如下：

1.1.2 样本杠杆值和学生化残差

在多元回归模型中，光谱矩阵Xc存在:

H通常被称为“帽子矩阵”，对角线上的元素Hi表示第i个样本杠杆值（Leverage）。当杠杆值大于的样本被认为是异常样本，p是光谱波数个数，n是样本个数。样本杠杆值表示样本值对模型的影响程度，杠杆值越小代表该样本有利于模型的建立，但样本杠杆值大的不一定是异常样本，需要结合学生化残差来进行综合考虑。

学生化残差考虑了样本性质矩阵的预测能力，其表达式为：

式中：yi是第i个样本的真实值是第i个样本的预测值，si是剔除第i个样本后拟合回归的均方根误差。学生化残差表示样本杠杆值对应的样本浓度预测能力的优劣，如果样若样本的学生化残差和杠杆值都很大，判断该样本为异常样本的可能性较大。

1.1.3 马氏距离

马氏距离是指样本光谱集与标准光谱集的平均光谱距离，用来衡量某一个样本对整个样本集产生的影响，如果马氏距离大于阈值，表明该样本影响模型的稳定性，此样本可能是异常样本。

马氏距离的算法步骤如下：

式中：ti是样本集的主成分得分向量，是标准光谱集的主成分得分的平均值，V-1是标准光谱数据集的协方差的逆矩阵。

1.1.4 浓度化残差

浓度残差法通过计算样本的化学绝对值误差的方差与整个数据集各样本的绝对方差的平均值，用F检验来判别，大于阈值可判定为异常样本。

当Fi＞F0.05（1，n-1）可以判断第i个样本为异常样本。光谱化残差是指计算原始光谱与重构光谱的残差谱的方差，可用来判断光谱异常值和特征峰的异常。

1.1.5 蒙特卡洛异常值采样

MCCV利用蒙特卡洛交叉验证中奇异样本的统计规律来识别奇异样本，通过MCCV计算出模型中预测残差平方和（PRESS），再建立定量分析模型，如果样本在具有小的PRESS的分析模型中的出现次数明显偏离则表明为奇异样本。具体过程如下：

（1）对样本建立PLS模型确定最佳主成分数；

（2）采用蒙特卡洛随机取样法选取80%的样本作为校正集，20%作为验证集，确定最佳主成分数，对校正集建立PLS回归模型，用验证集进行预测，得到验证集样本的预测值；

（3）对步骤（2）进行循环，得到预测误差分布；

（4）计算样本预测残差的均值和方差，确定在一定的方差下，具有较大残差下的样本数，将这些样本视为异常样本。

此外，在对数据进行异常样本剔除时，可能会存在异常样本点的误判，不能实现对样本数据完全剔除，针对这种现象祝诗平等[10]提出对可疑样本进行二次验证，即“二审”剔除法，其基本思想是指在对样本进行一次异常样本检验时，如果被检测为可疑样本，不马上对其进行剔除，而是继续对其进行二次计算，如果仍被判定为异常样本，就对其进行剔除，否则，进行保留，通过“二审”剔除法，使模型更具有代表性和稳定性，进一步提高近红外光谱模型定量分析的精度。

2 近红外光谱样本集划分

在对样本数据集进行分析时，选取合适有效的样本进行化学建模不仅可以提高模型的精准度，还为后续模型的维护和更新提供更为便捷的方法。目前，常用的样本集划分方法有随机抽样（Random Sampling，RS）法[11]、常规选择（Conventional Selection，CS）法[12]、Kennard-stone（KS）法[13]、X-Y联合距离的样本集划分（Sample Set Portioning base on joint xy distance，SPXY）[14]等。詹雪艳等[15]比较了三种校正集选择方法并对积雪草中的积雪草苷的含量建立NIR定量分析模型。陈奕云等[16]以江汉平原洪湖地区水稻土为研究对象，采用KS法，SPXY法构建样本数占总校正集不同比例的子校正集，建立定量分析模型。

2.1 常用的样本集划分方法

CS法在对样本进行划分时，增强样本中的某些特征如：厂家、产地等一些因素的变异，对样本的化学含量值进行测量、筛选、按大小进行排序，以校正集和测试集比例选择化学测量值最高或最低的样本进行分配。RS法是指对光谱数据集进行随机挑选，筛选出来的一部分样本作为校正集，其余的作为测试集。RS方法具有操作简单，不需要对数据进行挑选、排序、计算等特点，此方法适用于样本数量比较大的样本集，当用于样本集较少的情况下会导致样本划分不均匀，影响模型的预测精度。

2.1.1 KS法

在近红外光谱分析模型分析中，样本集较少的情况下可选择KS法，根据计算样本间光谱的欧式距离来计算样本间差异。采用KS算法不仅可以起到降低算法计算代价，加快学习速度之作用外，还可以避免过拟合现象发生。KS算法的具体步骤如下：

（1）将所有的样本都视为训练集，计算整个样本集中的欧式距离，选择欧式距离最大的2个样本做为训练集；

（2）计算剩余样本与已选样本之间的距离，最短距离选为训练集，待所有的剩余样本计算过后，选择这些最短距离中的最长距离所对应的样本选作训练集；

（3）重复步骤2，直至所选的样本集样本个数等于事先确定的数目为止。

欧式距离为欧几里得度量（Euclidean Metric）指在n维空间中两点之间的真实距离，或者向量的自然长度。其公式如下：

式中：xp和xq表示2个不同的样本，N表示样本的光谱波点数量。

2.1.2 SPXY

SPXY算法是在KS的基础上发展而来的，是一种均匀的采样方法，在计算样本间距离时综合考虑了数据变量和化学测量值之间的欧式距离，能够改善所建模型的预测能力。其计算公式如下：

将光谱数据x和化学测量值y同时考虑在内，p、q之间的距离为dxy(p,q)，公式如下：

为确保x和y在每个样本上具有相同的权重，对数据集中的最大距离值dx（p，q）和dy（p，q）进行归一化。然后，采用类似于KS算法逐步选择，直到选择出需要的数据为止。

3 近红外光谱预处理方法

近红外光谱在采集过程中由于光的散射、背景干扰以及仪器误差等原因，对建立的分析模型产生影响，因此，有必要对已经获得的光谱信息进行预处理。常用的预处理方法主要分为基线校正、散射校正、平滑处理、尺度缩放[17]四类。其中，基线校正包括一阶导数、二阶导数、小波变换等，主要是消除仪器背景干扰以及光线漂移对信号产生的影响。尺度缩放包括均值中心化[18]、最大最小归一化、标准化、矢量归一化等，主要是通过消除尺度差异过大带来的影响。散射校正主要包括多元散射校正（Multiplicative Scatter Correction，MSC）[19]、标准正态变量变换（Standard Normalized Variate，SNV）[20]、正交信号校正（Orthogonal Signal Correction，OSC）[21]、去趋势算法（Dr-trending）等，主要通过消除由于样品颗粒不均匀及颗粒大小不同而产生的散射。平滑处理包括移动窗口平滑、Savitzky-Golay（SG）平滑[22]等，主要消除光谱中随机噪声产生的影响。

3.1 基线校正

光谱数据采集时会受到由基线漂移以及光谱重叠的影响，进而在数据建模中产生较多的随机误差。对光谱数据进行求导可以消除光谱数据集中不重要的基线漂移。一阶导数可以用来消除同波长无关漂移；二阶导数可以消除同波长线性相关的漂移，同时提高光谱的分辨率，但也会降低光谱的信噪比。此外，对光谱的求导方法包括直接差分法和Savitzky-Golay卷积求导法。当获得的数据具有高分辨率、波长点数量多的情况下，直接差分法和Savitzky-Golay卷积求导存在误差较小。

小波变换主要包括离散小波变换（Discrete Wavelet Transform,DWT）和连续小波变换（Continuous Wavelet Transform,CWT）是一种有效的数值求导方法，不仅可以提高光谱分辨率还可以保证光谱的信噪比。通过对原始光谱进行分解，得到时域和频域的信息，进一步对信号进行滤噪和平滑，消除低频背景和高频噪声。小波变换常用的小波函数具有多样性，不同的小波函数处理相同的问题得到的结果相差也较大，其小波函数的正确使用也是当前研究的一大热点之一。

3.2 散射校正

在对数据进行采集时由于颗粒大小、形状、分布不均匀等会引起光的散射漂移，导致相同的样本在不同光谱图中存在差异，这种现象称为光的散射现象。MSC和SNV正是用来消除这种现象对光谱造成的影响，MSC计算校正集所有光谱的平均值，将每条光谱与平均光谱做一元线性回归，得到线性回归的斜率和截距，以此对原始光谱进行校正，但对于光谱数据来说将每条光谱都视为线性相关是难以实现的。相对于MSC，SNV是从原始光谱中减去该光谱的平均值，再除以标准差，以此来消除光的散射效应。SNV可以减少散射、粒度以及多重线性对近红外光谱中的一些影响，但这些情况是需要保证整个光谱范围是均匀的。去趋势算法[5]通过消除光谱漫反射产生的基线漂移，提高模型的预测效果，该方法不仅可以单独使用，还可以跟其他预处理方法进行结合使用。

3.3 平滑处理

平滑处理是一种低通滤波器，可以用来消除光谱信号中的随机噪声，提高信号的信噪比。移动窗口算法会对光谱信息的边界点造成损失，此外，在进行移动窗口时对其宽度需要设置一个恰当的参数。当移动窗口过小时不能更好地减少噪声，过大则会对波谱的波峰平滑过多，造成有用信号失真。因此，提出了SG卷积平滑算法，其实质是一种加权平均算法，主要是利用多项式对原始光谱移动窗口内的数据进行多项式分解并对其进行最小二乘拟合。SG平滑算法是目前使用较为广泛的去噪方法，但对移动窗口宽度及多项式次数的选择仍需进行优化选择。

3.4 尺度缩放

尺度缩放的作用就是用来消除数据由于尺度差异过大而带来的一些影响。均值中心化是将每个样品光谱减去校正集的平均光谱，用以消除光谱的绝对吸收，能够增强样本光谱之间的差异，提高建模时光谱特征的识别，减少数据之间的线性和相互作用项之间的协方差。光谱标准化又称均值标准化，将数据经过均值中心化后再除以校正集光谱阵的标准偏差，能够赋予所有波长变量相同的权重，这对低浓度组分样品建模有较大帮助。其中，均值中心化和标准化是最常用的2种方法，这2种方法在对光谱数据进行处理的同时，往往对目标函数也进行同样的变换。归一化通常用于校正微小光程差异带来的光谱变化，是将每个光谱点减去所在变量列的最小值后，再除以光谱所在列最大值和最小值的差值。最大最小归一化具有可以提高模型收敛速度和模型精度的特点。

目前，有学者提出对近红外光谱预处理方法进行组合，以提高模型预测效果[23]。张朱珊莹[24]等对选取的血液样本分别进行无预处理和单一预处理，将每类最优的预处理再进行组合研究，并根据建模后的交互验证均方根误差选出最优的预处理方法。实验表明将预处理方法按照效果进行分类并组合可得到最佳的预处理效果。罗曦等[25]对62份水稻抗性淀粉含量进行测定，通过比较未进行预处理、MSC+1thD、1thD+SNV预处理效果，表明经过结合的预处理方法无论内部验证还是外部验证都具有较高的决定系数和较低的误差值，模型精度更高，误差更小。

4 结束语

近红外光谱技术在现代分析技术中的重要地位已经不言而喻，文章综述了多达几十种的选择算法，这些方法都有各自的优点和缺点。然而，在实际应用中还需要考虑如何选取最优方案等问题，尽管有规律可循，但不同方法进行结合，产生的结果也不尽相同，需要对这些方法进行比较，以获得最优效果。现如今，近红外光谱化学计量学算法也是未来发展的一个重要方向，也为近红外光谱的发展提供一定的借鉴意义。