基于LSSVM的土壤重金属定量分析

2020-05-29 08:22:12林晓梅黄玉涛林京君陶思宇车长金

光谱学与光谱分析 2020年5期

林晓梅，黄玉涛，林京君，陶思宇，车长金

1. 长春工业大学电气与电子工程学院，吉林长春 130012 2. 长春工业大学机电工程学院，吉林长春 130012

引言

土壤是维持人类生存和生活的重要组成部分。随着工业化程度的不断提高，工业生产中产生的重金属废弃物也越来越多，并在土壤中不断累积，对土壤造成很严重的污染。同时这些重金属还会通过动植物进入食物链，最终进入人体，对身体健康造成很大的影响[1]。因此，提高土壤重金属定量分析的精确度和稳定性意义重大。

在检测土壤成分含量的过程中，常用的方法有原子吸收分光光度法、X射线荧光光谱法、电感耦合等离子体质谱法和中子活化法等。激光诱导等离子体技术(LIBS)是一种成分含量分析光谱技术[2]。相对于以上几种检测方法，LIBS技术具有无需制样、检测时间短、可多元素同时检测等优势[3]，被逐渐应用于土壤定性、定量分析领域。Ramli Muliadi等[4]用LIBS技术检测土壤中的Cs元素，检测限为0.3 ppm。Edilene C Ferreira等[5]用人工神经网络对Cu元素的定标曲线进行校准，使Cu的检测限降到2.3 ppm。Li等[6]通过把电火花放电和LIBS技术相结合，进行土壤中Cr等元素的检测，把光谱的信噪比提高了2～3倍。谷艳红等[7]把CF-LIBS与LIBS技术相结合，提高了土壤中Cr元素含量分布的准确度。这些研究侧重于检测技术的结合和样品检出限的提高，但对样品精确度和稳定性的研究较少。由于土壤的基体效应较大[8]，会对定量分析产生很大影响，降低LIBS的分析精度。本工作主要研究了偏最小二乘法(PLS)和最小二乘支持向量机(LSSVM)算法在提高土壤精确度和稳定性检测方面的效果。

首先研究了能量和延时对谱线强度和信噪比的影响，同时为了降低土壤基体效应对谱线的影响，提高LIBS的重复性和检测精度，在最佳实验条件下，分析对比了PLS和LSSVM算法对定标模型的影响。通过拟合系数，均方根误差和平均相对误差等参数对结果进行评价，得到最佳的定标模型。

1 实验部分

1.1 装置

实验装置如图1所示。用输出波长为1 064 nm，脉冲宽度为8 ns，脉冲频率为1～10 Hz的Nd∶YAG激光器(Nimma-400型，中国镭宝光电)作为光源。激光经过焦距为150 mm的聚焦透镜，将能量聚焦在样品表面，使样品激发产生等离子体，等离子体的光谱信号经光纤探头耦合至具有CCD的四通道光谱仪(Avaspec-ULS2048CL-4-EVO型，荷兰Avantes)进行分光等处理。实验中用三维移动平台(YMC400，中国江云光电)来控制样品的移动，激光器与光谱仪由数字延时发生器(BNC575，美国Berkeley Nucleonics Corp)同步控制，触发信号为激光器的调Q信号。光谱仪的探测延时为0.9 μs。为了降低因能量波动对实验带来的影响，取不同位置光谱的平均值作为实验最终谱线。

图1 实验系统原理图Fig.1 Schematic diagram of the experimental system

1.2 样品制备

实验中所用的样品由标准土壤样品GBW07403和结晶状的Cu(NO3)2混合而成。先将混合好的样品反复研磨，再对样品进行烘干处理。取5 g样品放入模具中，用压片机施加30 MPa的压强，持续30 min，压制成直径30 mm，厚度3 mm的圆饼形薄片。压制好的样品如图2所示，样品浓度如表1所示。

1.3 算法

偏最小二乘法(PLS)是一种多元线性回归方法，通过提取元素浓度和谱线强度的主成分，实现多因变量对多自变量的回归建模。最小二乘支持向量机(LSSVM)是基于支持向量机(SVM)发展而来的机器学习方法，把SVM中的不等式

图2 实验样品图Fig.2 Pictures of experimental samples

表1 样品中Cu元素的浓度Table 1 Certified concentration (Wt%) of Cu in the samples

约束替换为等式约束，训练过程的复杂度大大降低，并且能够较好地解决高维度和非线性的问题[9]。在LSSVM算法中，把径向基函数作为核函数，用留一验证法进行参数寻优。该模型的优化问题可以表示为

(1)

式(1)中，w为权向量，ei为误差向量，λ为正则化参数，用来平衡最优超平面与最小偏差量，该式的约束条件为

yi[wTφ(xi)+b]=1-ei，i=1，…，N

(2)

式(2)中，b为偏差向量，φ(xi)为核空间映射函数，提取原始空间中的数据特征，把原始样本数据映射到高维空间中进行处理。

最终可得LSSVM回归模型为

(3)

式(3)中，αi为Lagrange乘子，k(x，xi)为满足mercer条件下的核函数。

本实验对每种浓度样品取9组数据，其中6组作为训练集，3组作为预测集，建立定标摸型。并对数据进行Lorenz拟合，用预测集的偏离程度验证两种算法在降低基体效应和自吸收效应方面的效果。

2 结果与讨论

2.1 特征谱线选取

实验检测了样品在190～557 nm范围内的光谱数据[10]。由于土壤中Cu元素的特征谱线受附近谱线的影响较大，因此对比各特征谱线受影响程度，选择Cu Ⅰ 324.75 nm和Cu Ⅰ 327.40 nm两条较好的特征谱线进行分析。对Cu Ⅰ 324.75 nm谱线产生影响的是Ti Ⅱ 324.86 nm谱线，由于选取的GBW07403标准土样含Ti量很低，且衰减很快，因此把Ti Ⅱ 324.86 nm对Cu Ⅰ 324.75 nm的影响忽略不计。综合光谱强度和美国原子光谱数据库(NIST)的部分参数，选择Cu Ⅰ 324.75 nm谱线作为Cu的分析线。两条Cu线的参数对比如表2所示。由于Cu在土壤中属于微量元素，而Fe是土壤中的基体元素，含量相对稳定，因此选择Fe Ⅰ 393.26 nm作为内标元素。

表2 Cu Ⅰ 324.75 nm与Cu Ⅰ 327.40 nm的参数对比Table 2 Comparison of the parameters of Cu Ⅰ 324.75 nm and Cu Ⅰ 327.40 nm

2.2 参数优化

2.2.1 激光能量对特征谱线的影响

激光诱导产生等离子体的过程中，激光能量的大小会对特征谱线和信噪比(SNR)产生影响[11]。Cu Ⅰ 324.75 nm的谱线强度和信噪比随激光能量的变化如图3所示。由图可以看出，能量在30～90 mJ之间，谱线强度和信噪比随能量的增加而增加。分析认为在此过程中，等离子体密度不断增加，并逐渐达到临界值。激光能量在到达90 mJ后，谱线强度和信噪比开始趋于平缓。这是由于过高的能量使等离子体产生屏蔽效应，对后沿激光产生一定程度的散射，激光能量不能完全到达样品表面。因此，选择90 mJ作为本实验使用的最佳能量。

图3 激光能量对谱线强度和SNR的影响Fig.3 The influence of laser energy onthe spectral intensity and SNR

2.2.2 采集延时对特征谱线的影响

在等离子体光谱信号的采集过程中，采集延时对光谱强度和信噪比会产生很大的影响[12]。具体变化如图4所示，采集延时在0 ns时，光谱的信噪比比较低。推测等离子体产生初期，由于韧致辐射和复合辐射的作用，信号光谱会有很高的背景噪声。随着采集延时的不断增加，韧致辐射和复合辐射的逐渐衰减，并且衰减速度比原子发射光谱的衰减速度快，因此，采集延时在0～1 000 ns时，信噪比逐渐增加并达到最高值。采集延时在1 000 ns之后，由于等离子体不断冷却扩散，使得谱线强度和信噪比不断降低。因此，选择1 000 ns作为本次使用的最佳采集延时。后续实验均在最佳能量和最佳延时条件下进行。

图4 采集延时对谱线强度和SNR的影响Fig.4 The influence of delay time onthe spectral intensity and SNR

2.3 定量分析

2.3.1 基于内标法的定标模型

内标法是最常用来的定量分析方法之一，尤其是土壤的基体效应比较明显，内标法可以在一定程度上抑制基体效应，降低实验环境变动对谱线的影响[13]。在用内标法做定标模型时，把每个浓度的样品各采集9组数据，以其中6组数据做训练集，3组数据做预测集。把训练集和预测集的全部数据拟合在一起，通过拟合系数R2来观察模型的拟合效果。拟合结果如图5所示。由图可知，训练集的均方根误差(RMSEC)为3.448 8 Wt%，预测集的均方根误差(RMSEP)为1.280 7 Wt%，表明该模型的精确度较低。平均相对误差(ARE)为13.340 0%，说明该模型的稳定性不高，而且从拟合系数可以看出，拟合效果还有待提高，特别是浓度在2 Wt%和4 Wt%时，预测集浓度出现大幅度的偏离。

图5 基于内标法的定标模型Fig.5 Calibration model based on internal standard method

2.3.2 基于PLS的定标模型

偏最小二乘法是一种常用的数学优化方法，可以在一定程度上降低土壤基体效应带来的误差，对定标模型进行校准。用实验采集的所有数据建立实际浓度与预测浓度之间的关系曲线。拟合结果如图6所示。由图可以看出，定标曲线的R2有了很大幅度的提高，提高到了0.985 1，RMSEC和RMSEP均有了很大程度的降低，降低到了0.1 Wt%量级，大大提高了模型的精确度。同时该模型的ARE降低到了7.455 6%，说明该模型的稳定性有了一定的提升，但仍然无法满足实验要求，需要进一步优化。

图6 基于PLS的定标模型Fig.6 Calibration model based on PLS

2.3.3 基于LSSVM的定标模型

PLS算法的引入虽然在一定程度上提高了模型的精确度和稳定性，但提高程度仍然不够，因此引入了LSSVM算法来对定标模型进行校准。校准结果如图7所示。从图中可以看出，定标曲线的R2有了明显的提高，提高到了0.997 6，拟合效果较好。同时，RMSEC和RMSEP分别下降到了0.018 7 Wt%和0.149 1 Wt%，ARE下降到了2.137 0%。相比于内定标法和PLS，LSSVM的RMSE和ASE均得到了很大程度的降低，模型的稳定性和精确度都得到大幅度的提高，基本消除了因基体效应和自吸收效应给实验结果带来的影响。具体对比结果如表3所示。

图7 基于LSSVM的定标模型Fig.7 Calibration model based on LSSVM

表3 内标法、PLS和LSSVM数据对比Table 3 Internal standard method， PLS and LSSVM data comparison

3 结论

实验首先对激光能量和采集延时进行优化，选取最佳能量为90 mJ，最佳延时为1 000 ns，在此最佳实验条件下分别利用内标法、PLS和LSSVM对土壤中的Cu元素建立定标模型。对比可以看出，内标法定标模型的稳定性和精确度都很不理想，拟合系数R2只有0.870 1，RMSEC和RMSEP分别为3.448 8 Wt%和1.280 7 Wt%。说明实验结果波动性较大，而ARE高达13.340 0%，说明模型稳定性较差，很难实现定标曲线的精确校准。用PLS建立的定标模型，R2提高到了0.985 1，RMSEC和RMSEP分别降低为0.111 4 Wt%和0.251 1 Wt%，和内标法相比精确度有了很大的提高。ARE相比于内标法虽然也有了很大降低，但是模型的稳定性依然较差，无法满足实验要求。而用LSSVM建立的定标模型，与内标法和PLS相比，模型的精确度和稳定性都有很好的提高。R2提高到0.997 6，RMSEC和RMSEP分别下降到0.018 7 Wt%和0.149 1 Wt%。同时，ARE与内标法的相比提高了6.24倍，说明LSSVM的稳定性较好，能够满足实验要求，适合用以提高定标模型的精确度和稳定性。