基于主元提取神经网络LIBS光谱分析

2018-03-20 11:28徐送宁宁日波韩艳丽
沈阳理工大学学报 2018年6期
关键词:主元定标谱线

袁 备,徐送宁,宁日波,李 倩,韩艳丽

(沈阳理工大学 理学院,沈阳 110159)

对于物质含量的定量分析是LIBS(激光诱导击穿光谱)技术的重要应用,进一步提高LIBS光谱定量分析精度是LIBS技术进入实际应用的关键。近年来基于梯度下降法的BP-ANN(误差反向传播神经网络)具有较强的预测功能,有利于减弱基体效应的影响,在光谱分析中具有重要的应用价值和前景[1-3],逐渐被国外的一些研究者用于LIBS定量分析中。Inakollu等[4]将BP-ANN与传统一元定标方法进行对比研究,发现大部分情况下BP-ANN性能更好。在光谱分析中,特征提取方法对定量分析结果起着重要作用[5-7]。传统的峰值强度、谱峰面积、谱峰半高宽等方法应用较为广泛,但这些光谱特征提取方法存在明显缺陷;峰值强度为特征信息虽然处理简单,但数据单一,对谱线信息表征不足,且峰值强度由于仪器及实验环境引起的变化较大,稳定性较差;谱峰面积及半高宽作为特征值在出现峰重叠时提取困难,易引起计算误差,且计算量较大。许多研究者在光谱特征提取方法上做了大量工作,孙兰香等[8]将BP-ANN应用于不同种类钢中的Mn和Si定量分析研究并与普通内标法做对比,表明BP-ANN应用于LIBS定量分析能有效减小基体效应和谱线间干扰对定量分析的影响,从而提高了LIBS的检测精度。Sirven等[9]利用激光诱导击穿光谱检测三种掺Cr的土壤样品,用主元分析法和BP-ANN对不同土壤样品进行辨识,发现BP-ANN在实况分析、抗噪声干扰和抗光谱波扰方面呈现更强的辨识能力;之后利用BP-ANN对样品进行定量分析,获得了近4%~5%的相对标准差。

本文基于铜合金的激光诱导击穿光谱数据,选取合金中待检测Pb元素405.78nm和基体Cu元素406.27nm特征谱线作为定量分析谱线,分别采用主元提取法和峰值强度提取法得到定量分析的数据样本,而后利用BP-ANN建立定量分析的模型,研究不同特征提取方式对光谱定量分析精度的影响。

1 实验

1.1 实验系统

实验装置如图1所示。主要包括调Q脉冲Nd:YAG固体激光器、光谱仪、衰减器、三维精密移动平台和数据采集计算机。Nd:YAG固体激光器激光波长为1064nm,脉宽为8ns,频率2Hz,激光通过衰减器衰减后稳定在100mJ。光栅光谱仪(Andor公司)光栅参数1800,检测范围为390~410nm,积分时间为15μs。激光经过衰减器与100mm焦距平凸透镜聚焦在样品表面。实验样品放置在三维精密移动平台上,光谱仪探头距离靶点约15cm,与激光束夹角45°,等离子体辐射光由光谱照明系统经光纤耦合到光谱仪。实验通过计算机中Andor-Solis软件操控ICCD(Intensified Charge-Coupled Device)进行采集信号延时和门宽的设定,将激光脉冲发出的时刻作为延时零点。使用增强型电荷耦合器件对光谱仪中的分光信号进行处理和增强,增益水平设置为0。

图1 实验装置图

1.2 样品

实验采用原冶金部的铜合金光谱标准样品(编号:ByG1906-2;牌号:HBP59-1 铅黄铜)作为标定样品,样品中Pb的含量如表1[10]所示。

1.3 光谱采集

采用LIBS实验系统获取合金样品的光谱数据,激光脉冲对一个样品点连续采集20次光谱数据,前十次激光脉冲用于祛除样品表面杂质,选取后10次的光谱数据作为定量分析所用。每个样品采集20个不同位置的光谱数据,共计产生样本光谱数目为200。图2为采集样品谱线图,选择Pb元素405.78nm灵敏线作为分析线。

图2 原始样品光谱图

由图2可知,分析线附近干扰线较少,距离分析线较远的谱线干扰较小可选择忽略,同时为使模型能对基体效应实现矫正,从光谱图中截取405.4~406.84nm作为最终分析光谱,每个样本共计158个数据点,其中406.27nm特征谱峰为基体元素Cu特征谱线。

2 结果与分析

2.1 数据预处理

2.1.1 随机平均化

在光谱采集过程中,由于仪器、能量、脉宽、温度、气压等各种实验条件会不可避免的产生随机波动,造成光谱的最终测量结果同理想光谱产生浮动偏差,极大地增加了从光谱中提取有效且准确的样品含量信息的难度,使光谱分析精度降低。因此为使最终的分析光谱样本能更大程度地反应光谱理想信息,减小光谱随机波动的影响,同时保证样本的相互独立性,采用无放回随机平均化方法对原始光谱进行预处理:将每个样品所得到的全部200个光谱数据作为一个集合R,从集合R中每次随机无放回的取出10个光谱进行平均化处理,得到一个待分析的样本放入集合F中;对每个样品的光谱数据集合进行20次此过程,则每个样品最终可得到20个样本,6个样品共可得到120个供后期光谱定量分析使用的样本集F。同一样品随机平均化预处理前后谱线浮动情况如图3所示。利用随机平均化前后Pb405.78nm谱线峰值强度的波动情况作为衡量实验误差的标准。

由图3可知,平均预处理前,上下波动为400,相对偏差为9.8%;平均预处理后,上下波动为104,相对偏差为2.6%。

2.1.2 谱线归一化

在利用BP-ANN对LIBS定量分析建立定标曲线时,为提高模型训练速度,对数据进行优化处理。本文采用单位向量化方法(将光谱数据看作一个多维空间中的向量)对120个光谱样本进行单位向量化,相当于将120个多维向量进行单位向量化,在不造成谱线形状失真的情况下达到数据归一化的目的,图4为归一化后光谱样本谱线。

图3 平均预处理前后Pb谱线强度变化情况

由图4可以看出,归一化的谱线在保留光谱特性的情况下缩减了强度范围,降低了后期训练的计算难度。

2.1.3 主元提取方法提取特征

PCA(主元提取方法)基本思想是采用一种数学降维的方法,找出几个综合变量来代替原来的众多变量,使这些综合变量能尽可能多地代表原来变量的信息量,且彼此互不相关,以达到合理地简化变量的目的。PCA的算法步骤如下。

(1)数据集Xmxn;

(2)按列计算数据集X的均值Xmeaxn,然后令Xnew=X-Xmean;

(3)求解矩阵Xnew的协方差矩阵,并将其记为Cov;

(4)计算协方差矩阵Cov的特征值和相应的特征向量;

(5)将特征值按照从大到小的排序,选择其中较大的K个,然后将其对应的K个特征向量分别作为列向量组成特征向量矩阵Wnxk;

(6)计算XnewWnxk,即将数据集Xnew投影到选取的特征向量上,XnewWnxk即为降低维数后的新数据集。

对归一化样本光谱应用主元分析方法提取足以代表光谱信息的主元个数,

根据贡献率的计算

图4 归一化后谱线图

由图5可知,当选取主元个数大于2后,贡献率增加逐渐缓慢。为检验主元提取方法对光谱主要特征提取结果质量,分别通过提取的两个主元及Pb 405.78nm和Cu 406.27nm的峰值强度对六个样品含量进行分类,分类结果如图6所示。

由图6可以看出,利用主元分类相对于利用峰值强度分类具有更显著的类别区分度,表明主元特征提取在噪声降低和信息提取程度上具有更明显的优势。

图5 贡献率随主元选取个数的变化情况

图6 不同特征提取方式含量分类结果

2.2 定标模型建立结果与分析

为减弱过拟合效应,考虑应尽量降低模型的复杂度,因此将BP-ANN的输入神经元确定为2个,隐含层神经元数量为3个,输出神经元个数为1,激活函数为tansig,训练函数采用trainlm。采用上述经过输入优化的网络对LIBS进行定量分析。将样品H1-1至H1-5的100个主成分样本作为训练集对模型进行训练,得到定标模型;将样品H1-6的20个样本作为测试集,用来评估主元提取BP-ANN模型(PCA-BP-ANN)对LIBS定量分析所得结果的优劣,定标模型如图7a所示。为检验主元提取方法对LIBS定量分析结果的优化情况,选择图4中405.78nm附近的两条谱线(Pb 405.78nm和Cu 406.3nm)的峰值强度作为输入向量,将样品H1-1至H1-5的共计100个样本作为训练集对模型进行训练,并将样品H1-6的20个样本作为测试集用来检验模型的有效性,定标模型如图7b所示。

图7 两种特征提取方法下网络训练结果

由图7可以看出,两种特征提取方式利用BP-ANN训练后均有较好的相关系数,分别为0.989和0.987,说明BP-ANN方法对光谱进行分析时表现良好。图8为两种不同特征提取方式最终建立的定标曲线用于检测训练集之外的样品含量时所得测量值的离散图。

图8 两种定标模型检测结果离散情况示意图

由图8可以直观地看出,主元提取的加入对于最终测量的稳定性和精度都有很大提高。对于未参加训练的样品H1-6,BP-ANN模型的检测值相对偏差为2.3%;而PCA-BP-ANN模型的检测值相对偏差仅为0.3%,表明主元提取方法的使用能够大大增加BP-ANN模型的泛化能力及精确度。产生这种结果的原因可能是:对Pb特征谱峰405.78nm及基体元素Cu谱峰406.27nm来说,单纯的峰值强度难以表征谱线的全部信息且峰值变化波动较大,使测试结果偏差较大;相对于选择峰值强度,主元提取方法提取整段光谱的主元,虽然输入层神经元个数仍为2个,但却是综合整段光谱的信息,而不再仅仅取决于峰值点强度,因此能够提高数据的抗干扰能力,使LIBS检测精度提高,检测误差降低。

3 结论

在利用LIBS对铜合金中Pb元素进行的定量分析中,分别采用主元提取方法和峰值强度法提取特征,结合BP-ANN方法建立了定标模型,得到的相关系数(R2)均表现良好,分别为0.989、0.986。利用建立的定标模型对未参加训练的测试集样本进行定量检测,其中利用峰值强度模型的平均相对检测偏差为2.3%,而主元提取模型平均相对检测偏差为0.3%,偏差明显降低,证明在LIBS定量分析中不同的特征选取方法会直接影响最终的检测结果。主元提取的方法由于光谱信息利用率较高和一定的降噪作用,对光谱数据波动的抗干扰能力较强,因此能够更大程度的提高激光诱导击穿光谱定量分析结果的精度与稳定性。

猜你喜欢
主元定标谱线
“羲和号”首次获得三种太阳谱线轮廓
依据不同波段光谱诊断闪电回击通道温度*
我国为世界大豆精准选种“定标”
基于恒星的电离层成像仪在轨几何定标
基于彩色CCD的棱镜摄谱实验数据处理
应用主元变换法分解因式
转换主元 解放思想
基于子空间正交的阵列干涉SAR系统相位中心位置定标方法
运用结构的齐次化,选换主元解题