舒开强 许应铜 高智星 樊庆文 段忆翔* 林庆宇*
(1.四川大学 机械工程学院,成都 610065;2.中国原子能科学研究院 核物理所,北京 102413)
核电是一种清洁、高效的能源,使用核电可以减少对化石燃料的依赖,有利于改善环境污染状况以及早日实现碳达峰、碳中和。铀是核能发电的主要燃料,预计在2021年至2030年期间全球对铀资源的需求将增长27%[1]。铀资源主要来源于铀矿冶炼,因此,铀矿的准确勘探和成分快速检测对铀资源的供给意义重大[2]。为实现铀矿的快速检测,核领域迫切需要一种样品制备简单、操作安全、检测快速且准确的分析技术,以达到快速完成勘探优质矿产资源的目的。
传统元素分析方法主要有滴定法、分光光度法、电感耦合等离子体质谱法、X射线荧光光谱法等,它们大多需要复杂样品制备过程,对检测环境有较高要求,检测耗时较长,传统分析方法更胜任实验室精准分析场景,对目标元素的现场快速检测能力略显不足[3]。激光诱导击穿光谱(Laser-induced breakdown spectroscopy,简称LIBS)是一种基于激光等离子体的原子发射光谱技术,具有样品制备简单、分析速度快[4]、多元素同时检测[5]、远程分析[6]等突出优点,广泛应用于材料科学、生命科学、地质学、生物医学等诸多科学领域[7-9]。LIBS探测铀的可行性于1987年由 WACHTER等[10]首次进行了报道,当前LIBS在核工业中已被用于核材料检测(如矿石、氧化铀、裂变产物等)[11]、同位素分析[12]、钢及合金分析[13]、核聚变设施检测[14]等方面。近年来,极限学习机、人工神经网络、支持向量机、随机森林等机器学习算法被用于LIBS定性和定量分析,在诸多场景都展现出了良好的效果[15]。
本工作以自行搭建的LIBS系统为实验平台,结合机器学习对铀矿中U进行了定量分析。采用偏最小二乘(Partial least squares,PLS)和随机森林(Random forest,RF)算法优化建立定量模型,通过综合对比两种模型在铀矿中对U的定量效果,建立并优化适合U定量分析的机器学习算法,以期望达到快速、准确定量目的。本工作的数据处理和模型构建均基于Python(3.8.8版)的Scikit-learn(1.2.2版)机器学习模块完成。
LIBS系统采用Nd:YAG激光器(Litron lasers,Nano100,UK)作为激发源,激光波长1 064 nm、脉冲宽度6 ns、脉冲频率10 Hz。光谱仪采用中阶梯光谱仪(Aryelle 200,Lasertechnik Berlin GmbH,Germany),光谱范围194 ~ 840 nm,分辨率为λ/Δλ= 9000,配备ICCD相机(iStar DH334T,Andor,UK)。激光束经10倍聚焦物镜聚焦到样品表面,等离子体光谱由准直透镜和光纤传输到光谱仪。在采集光谱数据时,将光谱仪延迟时间设置为2.0 μs,激光能量为100 mJ。
铀矿粉末标准样品,编号分别为GBW04101、GBW04103及GBW04104,来自核工业部北京第五研究所(中国北京)与湖南铀厂(中国衡阳)。实验样本由粉末标样按一定比例配制,再经压片机16 MPa压强压制成直径为20 mm的片状样本,一共压制12组实验样本,标号为1#~12#,样本中U质量百分数如表1所示。光谱采集过程中,为减小激光脉冲能量波动的影响,每一个光谱由脉冲激光烧蚀样本200次,每个样本采集15个光谱。
表1 样本中铀元素质量百分比Table 1 Mass percentage of U in the sample /%
PLS算法结合了主成分分析、典型相关分析和多元线性回归分析的优点,能够有效克服多重共线性问题。RF是集成学习算法的典型代表,在分类和回归问题上都有较好表现。本工作在构建铀矿中U的LIBS定量模型时,首先对PLS和RF两种机器学习算法的超参数进行优化,再用合适的超参数建立PLS模型和RF模型。
模型的定量效果用预测决定系数(The coefficient of determination,R2)、预测均方根误差(Root mean square error of prediction,RMSEP)、相对偏差(Relative standard deviation,RSD)和相对误差(Relative error,RE)等作为评判指标[16],评估出适用于铀矿中铀元素的定量模型,以到达快速、准确定量目的。
采用PLS和RF两种算法构建定量模型时,将表1中3#、6#及9#三个样本设为验证集,不参与模型的训练,只用于验证两个模型的定量效果;其余所有样本设为训练集,主要被用于两种算法的超参数优化以及定量模型训练。在前期对铀的定量研究中[17],构建定量模型时采用全部光谱数据作为输入特征矩阵,数据维度庞大,致使参数优化耗时较久,因此,本工作选用波长350 ~ 450 nm的光谱数据作为输入特征矩阵,共7 427个特征值,极大降低了输入数据维度的同时,充分保留U的特征峰,对U进行定量分析具有较好的代表性,该波段内的光谱如图1所示。
图1 波长350 ~ 450 nm的U特征光谱图Figure 1 Spectral diagram in the wavelength 350—450 nm.
主成分数是影响PLS模型定量效果的关键因素,过多或过少的主成分数都会影响定量准确度;而影响RF模型定量结果的主要超参数则是模型中树的数量,恰当数量的树可以提升模型定量准确度。在参数优化过程中,采用10折交叉验证方法,以交叉验证均方根误差(Root mean square error of cross validation,RMSECV)为评估指标,最终选择RMSECV最小时所对应超参数作为模型参数。RMSECV表达式如下:
(1)
(2)
图2 基于交叉验证均方根误差的偏最小二乘和随机森林模型参数优化Figure 2 Parameter optimization of PLS and RF based on cross-validation RMSECV.
基于PLS和RF两种机器学习算法的超参数优化结果,构建U的LIBS定量模型,模型校准曲线如图3所示。PLS模型和RF模型的线性相关系数分别达到了0.997和0.996,展现出两种定量模型均具有较好的线性相关性。图3的误差棒结果显示,训练集预测值的RSD均较小,表明两个模型均具有良好的模型稳定性。
图3 U元素预测含量与真实含量的定标曲线图Figure 3 Calibration curves of predicted and true content of U.
使用三个验证集数据对PLS模型和RF模型的定量效果进行验证,结果如表2所示。对于三个验证集,两种模型计算出的RMSEP都较高,表明两种模型对验证集中U的15次预测含量与真实含量之间具有一定的偏差;三个验证集RMSEP指标方面,RF模型在低含量时表现稍好,RMSEP为24.76%,PLS模型则是在中高含量时表现稍强,RMSEP分别为26.76%和33.05%。此外,验证集预测含量值的RSD整体稍高,表明同一个验证集的15次预测含量值比较分散,这种结果是由于LIBS采集到的光谱数据本身就具有较大波动性造成的,这也是LIBS仍需攻克的难题之一。在定量准确度方面,PLS模型对三个验证集的RE分别是4.33%、6.63%和6.85%,RF模型的RE分别为22.33%、12.79%和12.04%,验证结果表明PLS模型对验证集15次预测含量的平均值与真实值更为接近,定量准确度更高。另一方面,超参数优化过程中,RF模型所消耗的时间远多于PLS模型,这主要是因为两种定量算法本身复杂度不同而造成的。
表2 PLS和RF定量模型验证结果Table 2 Results of PLS and RF quantitative model validation
综合对比PLS模型和RF模型,发现两种模型都具有较好的稳定性,在验证集定量准确度方面,PLS模型效果更好,并且PLS模型的超参数优化过程更快速,因此,在本研究中PLS模型更适合用于铀矿中U的现场快速定量分析。
本工作结合机器学习开展了铀矿中U的LIBS定量分析方法研究,对比了PLS和RF两种算法对U的定量效果。结果显示,PLS模型比RF模型获得了更好的定量准确度,同时PLS算法的检测速率更快,因此,PLS比RF更适合在铀矿中U的LIBS定量分析。本工作为后续研发铀矿中U的LIBS现场分析仪器奠定了理论基础,后续将面向不同铀矿基质,开展复杂基质中如何提高LIBS信号稳定性和定量准确度的相关研究工作。