陈彦铭,廉小亲,王宇乔,刘 钰
(1. 北京工商大学人工智能学院,北京100048;2. 北京工商大学中国轻工业工业互联网与大数据重点实验室,北京 100048)
电感耦合等离子体原子发射光谱法(Inductively coupled plasma atomic emission spectrometry,ICP-AES)是一种以电感耦合等离子体为激发光源的原子发射光谱分析技术,具有多元素同时检测、分析速度快以及准确度高等特点,被广泛应用于稀土、冶金、化工、无机材料和医学等众多领域[1]-[3]。然而在ICP-AES测量过程中,受仪器暗电流和光源杂散光的影响,测量所得的光谱通常存在一定程度的基线漂移现象,造成元素含量定量分析误差,因此在测量过程中往往需要对光谱进行基线校正处理[4],[5]。
常见的基线校正方法包括迭代多项式拟合法[6],[7]、导数法[8][9]、移动窗口平滑法[10][11]、小波变换法[12]以及分段拟合法等。迭代多项式拟合法的实现步骤较为简单,但是对于不同的光谱信号,多项式拟合阶数往往需要论证确定,难以建立一种通用性较强的光谱基线拟合模型。导数法和移动窗口平滑法实现原理同样相对简单,但二者均会在时域内降低光谱的分辨率,影响光谱的峰形,不利于后期的定量分析。小波变换也能够有效去除光谱基线,但需要针对不同的光谱信号建立相应的小波基函数,因此算法的运算量相对较高,应用效率也相对较低。分段拟合法分为分段线性拟合[13][14]和分段非线性拟合,分段线性拟合是将基线点依次用线段进行连接,连接得到的分段曲线即视为拟合基线;而分段非线性拟合又包括分段多项式拟合和样条拟合两种,分段多项式拟合法在一定程度上克服了迭代多项式拟合法中阶数难以确定的问题,但是相比于分段样条拟合法,分段多项式拟合法有时无法保证全波段范围下的拟合误差,临界处拟合基线的平滑性也较差,而样条拟合则需要通过人工参与以此来确定样条曲线的内接点序列和控制点序列,例如基于B样条曲线的拟合方式[15][16]。
针对以上问题,本文提出一种基于径向基函数(Radial Basis Function,RBF)神经网络和非均匀B样条(Non uniform rational B-spline,NURBS)曲线模型的ICP-AES光谱基线校正方法,该方法不仅能够避免降低光谱信号分辨率,减小光谱基线拟合误差,也能够利用RBF神经网络能够进行非线性分类[17]的优势快速筛选出合适的光谱基线点,并构造相应的NURBS曲线内节点序列,进一步通过NURBS曲线逆向计算模型计算出合适的控制点序列,有效的克服了传统B样条拟合方式中内节点序列和基线点序列难以确定的局限性,获得了更好的基线校正效果。
本文提出的基于RBF神经网络和NURBS曲线模型的ICP-AES光谱基线校正方法流程如图1所示。
图1 基线校正流程
首先利用高斯滤波对原始光谱进行去噪预处理,然后通过RBF神经网络筛选光谱基线点序列,并对基线点序列进行首尾填充,构造NURBS曲线的内节点序列;利用NURBS曲线逆向计算模型、基线点序列以及内节点序列计算NURBS曲线的控制点序列;通过内节点序列和控制点序列即可拟合出相应的NURBS曲线作为光谱基线;将滤波后的光谱与拟合的光谱基线进行对应点相减,即可消除光谱基线,达到基线校正的目的。
高斯滤波是数字信号处理中常用的滤波方式,其本质为原始信号与高斯卷积核的离散卷积运算,如式(1)所示
(1)
本文采用高斯滤波对ICP-AES光谱进行预处理,一方面由于ICP-AES光谱信号基本服从高斯分布,因此通过高斯卷积核进行卷积能够尽可能地保留谱线信息,避免降低光谱分辨率;另一方面,本文对实测的ICP-AES光谱数据进行分析,抽样统计各波段中的噪声信号分布特征,如图2所示。
图2结果表明,ICP-AES光谱中噪声信号概率密度基本服从高斯分布,因此通过高斯滤波能够有效的去除噪声信号。
图2 不同波段光谱噪声信号幅值分布统计结果
1)光谱基线点筛选总体思路
本文利用RBF神经网络筛选ICP-AES光谱基线点,基本思路如下:构造相应的数据集对RBF神经网络进行训练,使得该神经网络能够判断任意一段特定长度的光谱信号的中间点能否作为基线点;然后将该RBF神经网络模型作为扫描窗口,逐步扫描光谱信号,并对每一步窗口中的光谱中间点进行标签标注,若该窗口内的光谱中间点可视为基线点,则该点对应的标签为1,反之该点标签为0;重复上述流程,即可筛选出光谱中的基线点。需要注意的是,受扫描窗口影响,第一个扫描窗口内的前半部分光谱数据和最后一个扫描窗口内后半部分光谱数据无法进行基线点判断,因此不参与基线拟合与校正。窗口扫描示意图如图3所示。
图3 RBF神经网络筛选光谱基线点示意图
2) RBF神经网络数据集
本文首先实测了一组ICP-AES光谱作为原始数据样本,波段范围为190nm-460nm,如图4所示。
图4 光谱原始数据样本
本文设定基线点扫描判断窗口大小为11,将图4所示的全波段光谱数据按上述窗口大小进行分割并进行初步筛选,最终得到489组数据集样本;通过专家判定的方法对数据集样本进行分类,若样本光谱的中间点可视为基线点,则该数据样本对应标签为1,反之对对应标签则为0,如图5所示。
图5 RBF神经网络数据集(部分)
3) RBF神经网络模型
本文设计的RBF神经网络模型拓扑结构如图6所示。由于数据集中每组样本均为11个数据点,因此RBF神经网络的输入节点数量为11;RBF神经网络隐含层节点数量通过网络迭代训练进行确定,每轮迭代增加一个隐含层神经元节点,并调整输出权值矩阵,直至满足训练条件;本文构造的数据集输出标签仅有两类,因此RBF神经网络设置一个输出节点即可。
图6 RBF神经网络模型
本文采用NURBS曲线模型进行ICP-AES光谱基线拟合。NURBS曲线拟合的必要条件为一组特定的内节点序列和控制点序列;本文将对光谱的基线点序列进行首尾填充,以此作为NURBS曲线的内节点序列,而控制点序列的选择往往难以确定,因此本文将采用NURBS曲线逆向计算模型推算控制点序列,以此实现NURBS曲线的拟合。
1) NURBS曲线模型
记数据点序列集合为X,X={(x1|u,x1|v)},{(x2|u,x2|v)},{(x3|u,x3|v)},…,{(xn|u,xn|v)}采用节点符号t将数据点序列X进行划分,并记节点序列集合为T,T=[t-k+1,t-k+2,…,t-1,t0,t1,…,tn,tn+1,tn+2,…,tn+k],则节点序列满足以下关系
t-k+1≤t-k+2≤…≤t-1≤t0<
t1<… (2) 其中,t1到tn称为内节点,其余称之为外节点,n为内节点数,k为B样条曲线的阶数;若内节点均匀分布,则最终构成的曲线称之为均匀B样条曲线,反之则为非均匀B样条曲线。 对于k阶的B样条曲线,其表达式如式(3)所示。 (3) (4) 在计算过程中,控制点序列和曲线坐标点序列通常均以坐标的形式进行运算,因此式(3)也可写为 (5) 同理,可记控制点序列为C={(c0|u,c0|v),(c1|u,c1|v),…,(cn|u,cn|v)}。 (6) 构造出内接点序列T后即可代入式(3)或式(5)进行运算,但根据式(3)或式(5)可知,若需要构造NURBS曲线,还需要一组控制点序列C,因此本文将采用NURBS曲线逆向计算模型计算相应的控制点序列C。 (2) NURBS曲线逆向计算模型 由于基线点均位于基线上,即基线点坐标均为NURBS曲线的取值集合,因此本文将建立NURBS曲线逆向计算模型,以计算控制点序列C的取值。NURBS曲线逆向计算模型步骤如下。 已知归一化处理后的基线点序列集合为P,内节点序列集合为T。由于本文是通过式(3)或式(5)的逆向运算求解控制点序列,因此令式(3)或式(5)中的自变量输入为内节点值,建立以下方程组 (7) 其中,pi=(pi|u,pi|v),ci=(ci|u,ci|v),i=1,2,…,n将以上表达式改写为矩阵形式,如式(8)所示。 (8) 记式(8)中的基函数矩阵为N,显然r(N) 本文将扫描一组样品溶液对应的ICP-AES光谱信号,该溶液所含元素及对应的特征波长如表1 表1 样品溶液所含元素及特征波长 选取其中的294.547nm-297.400nm光谱,并将强度值进行归一化处理,以归一化后的光谱作为测试样本,如图7所示。 图7 测试样本光谱信号 1) 高斯滤波测试结果 对图7所示的原始光谱进行高斯滤波处理,消除部分噪声干扰,处理结果如图8所示。 图8 测试样本滤波处理结果 2)RBF神经网络训练结果 本文共计构造489组RBF神经网络数据集,其中标签0数据集为427组,表示中心点为非基线点,标签1数据集为62组,表示中心点为基线点;随机选择260组标签0的数据集和40组标签1的数据集共同构成训练集,其余数据集作为测试集,通过RBF神经网络进行训练,设置目标均方根误差为0.01,当迭代次数为162时,即隐含层节点数量为162时,网络输出实际均方根误差满足目标值,为9.95×10-3,神经网络分类结果对应的混淆矩阵如表2所示。 表2 神经网络分类结果混淆矩阵 根据混淆矩阵结果可以计算正确率(NetAccuracy)、精确率(Precision)以及召回率(Recall)和F1_Measure四项基本性能指标,如式(9)所示。 (9) 3)基线点序列P筛选结果 将训练完成的RBF神经网络模型作为滑动检测窗口,逐段筛选光谱中的基线点。最终筛选结果如图9所示。 图9 测试样本基线点筛选结果 4)控制点序列C计算结果 将基线点序列P作为NURBS逆向计算模型输入,计算控制点序列C。控制点序列C相对于测试样本的分布如图10所示。 图10 控制点序列C分布 5) 光谱基线拟合及校正结果 利用NURBS模型拟合测试样本对应的光谱基线,并对测试样本进行基线校正。基线拟合结果和基线校正结果如图11所示。 图11 测试样本基线拟合结果 6) 测试结果对比 本文分别利用移动窗口平滑法、分段二次多项式拟合法以及分段三次多项式拟合法对测试样本进行基线拟合和基线校正,并与本文所提出的基线校正方法进行对比。对比结果如图12所示和图13所示。 图13 移动窗口平滑法与NURBS拟合法对比 由图12可知,相比于NURBS曲线模型拟合法,分段二次多项式拟合法和分段三次多项式拟合法在分段点临界附近的拟合基线平滑性相对较差,且对于光谱基线波动较为剧烈的波段,拟合误差也相对较高;而通过图13的对比可知,相比于NURBS曲线模型拟合法,移动窗口平滑法对光谱信号时域分辨率的影响较大,且光谱信号的动态范围也有所减小,不利于后期的定量分析。 本文总结归纳了常见的光谱基线校正方法的局限性,并针对ICP-AES光谱提出一种基于RBF神经网络和NURBS曲线模型的基线校正方法。相比于传统的分段多项式拟合法和移动窗口平滑法,该方法能够拟合较为平滑的基线,且全波段范围内均能保证较小的拟合误差,并保证光谱信号时域分辨率不受影响;另一方面也能够有效快速的计算出NURBS曲线的内节点序列和控制点序列,有效提高了NURBS模型的应用效率。 然而,本文提出的方法仍具有一定的局限性,例如,RBF神经网络的训练结果决定了NURBS曲线的内节点序列和控制点序列的分布,进而直接影响最终的基线拟合效果;而本文中RBF神经网络的分类正确率和精确率尽管均达到90%以上,但召回率仅为72.58%,F1_Measure值也仅为80.36%,对于本文的数据集和分类问题而言,上述指标并未达到理想值,即网络的分类性能并非十分理想。因此在后续的工作中需要针对RBF神经网络进行优化,在保证召回率的前提下尽可能提高正确率和精确率,最终获得更为理想的分类结果。3 实验结果与分析
3.1 测试方案
3.2 测试结果
4 结论