王菊香,韩 晓,邢志娜
(1.海军航空大学,山东烟台264001;2.海军装备部驻北京地区第三军事代表室,北京100071)
近红外光谱分析模型是借助化学计量学方法而建立的分析指标和近红外光谱的多元校正模型。通过基础方法测定每个样品各组分和物理性质的相关数据并在光谱仪上采集光谱数据,利用化学计量学算法有效提取光谱信息,建立近红外光谱与分析指标的关联关系,实现多个分析项目(组分或性质)的同时快速分析。近红外光谱分析最大的特点是光谱信息丰富但吸收强度较低,样品不须进行稀释、转化等预处理,不须使用大量的化学试剂,可直接取样测定,一般几分钟就能测出结果,有效避免了环境污染和人身伤害。近红外光谱分析可应用于在石油、农业、食品、化工、药品等行业实验室的定性和定量分析,还可用于现场和生产车间的在线检测[1-4]。
近红外光谱分析属于建立在数学算法基础上的二次分析,采集的光谱包含了仪器参数和测量条件等信息,同一样品在不同仪器、不同测量环境下的光谱是不一致的。因此,近红外光谱分析模型不能在2 台仪器上同时使用。目前,实现实际应用中模型共享的1个快速有效的手段是模型传递。模型传递通过数学的方法使同一样品在不同仪器或不同测试条件下测定的光谱尽可能一致,减少重新建模所消耗的大量人力、财力和时间。目前,比较常用的模型传递算法有Slope/Bias 算法、DS 算法、PDS 算法等[5-7],以及对这些方法的优化和改进[8-11]。本文采用DS算法对混胺燃料的近红外光谱分析模型进行传递研究,重点比较奇异值分解(Singular Value Decomposition,SVD)算法和偏最小二乘法(Partial Least Squares,PLS)计算得到的转换矩阵的效果。
通过收集和配制等方法获得一定浓度差异的混胺样品48 个,形成样品集,对混胺燃料的密度及三乙胺、二甲苯胺、水分、二乙胺的含量进行定量检测,取至少2 次满足平行要求的结果的平均值作为基础数据。采用5 cm 光程的玻璃样品池,在2台波长范围为700~1 100 nm(2 002 波长点)的近红外光谱仪器(用于建模的是主仪器,用于传递的是从仪器)上,以空气为参比,分别对混胺样品进行光谱扫描,以10 次扫描的平均值作为光谱数据。
采用K/S 算法将样品集分为校正集、预测集和转换集。校正集用于建模和转换集样品选择,预测集用来检验建模和模型传递效果,转换集用于模型传递。
对主仪器的40个校正集样品的光谱进行平滑、微分等处理,采用偏最小二乘法建立校正模型,采用交互验证方法确定最佳主成分数,通过校正集标准偏差(SEC)、相关系数(R2)和预测集标准偏差(SEP)评价模型优劣,确定最佳分析模型。
采用DS算法建立主仪器和从仪器测量光谱信号的函数关系,尽可能使从仪器上测定的谱图与主仪器测定的同一样品的谱图相同。通过光谱平均差异(ARMS)、光谱校正率(Prcorrected)及SEP 评价传递性能[9-10]。
DS 算法是利用全谱区的光谱数据计算主仪器光谱S1和从仪器光谱S1之间的转换矩阵F ,使得从仪器光谱与主仪器光谱基本一致[12-14]。文中采用奇异值分解[15-16]和偏最小二乘法[17]2 种算法计算转换矩阵。转换集样本通过K/S 算法[18]获得,转换集样品的数量通过计算ARMS确定。模型传递的基本流程见图1。
图1 DS传递算法流程图Fig.1 Flow chart of DS algorithm
K/S算法是一种通过计算样本之间的欧氏距离来选择转换集样品的常用方法。为了选出合适的转换集样品,分别采用DS-SVD 和DS-PLS算法计算主、从仪器间的转换矩阵,在对从仪器采集的光谱进行校正的基础上,绘制2 种算法所得样品数与ARMS 和Prcorrected的关系图,分别如图2、3所示。
由图2可见,随着转换集样品数的增多,ARMS逐渐下降,当选择的转换集样品数增至16 时,ARMS 变化幅度很小,处于平稳状态。由图2 和图3 可见,DSPLS 算法的光谱校正效果好于DS-SVD,其光谱校正率可达到97.5%。
图2 ARMS与转换集样品数的关系Fig.2 Relationship between ARMS and the number of transfer samples
图3 转换集样品数对光谱校正率的影响Fig.3 Impact of the number of transfer samples on Prcorrected
主因子数对使用PLS 算法所转换矩阵的校正效果的好坏有重要影响。为挑选最佳主因子数,将ARMS 值随主因子数的变化作图。设定主因子数范围1~10,计算不同主因子数下的校正参数,并对从仪器预测集光谱进行校正,计算校正后与主仪器光谱的ARMS 值。ARMS 随主因子数变化如图4 所示,整体趋势为:先变大,再变小,后趋于平稳。当主因子数为3 时,ARMS 最小,校正效果最好。因此,最佳主因子数为3。
图4 主因子数对ARMS的影响Fig.4 Impact of principal factor number on ARMS
选择转换集样品数为16,采用最佳主因子数为3的DS-PLS 算法建立转换矩阵。主、从仪器及校正后的光谱如图5所示,从仪器光谱经过DS-PLS校正后与主仪器间光谱的差异基本消除。
图5 主仪器、从仪器以及校正后的光谱图Fig.5 Spectra of reference instrument,target instrument and corrected spectrum
分别用主仪器所建模型对主、从仪器的15个混胺样品光谱以及从仪器校正光谱进行预测,获得3 种情况混胺样品的密度、三乙胺、二甲苯胺、水分和二乙胺指标的预测结果的标准偏差,结果如表1所示。由表1可见,采用DS-PLS算法对从仪器光谱进行校正后,密度、水分、三乙胺、二甲苯胺和二乙胺的预测结果的SEP 明显降低,接近主仪器模型的预测效果,这说明DS-PLS算法对混胺燃料近红外光谱分析模型传递是有效的。图6 分别是密度、三乙胺含量、二甲苯胺含量、水分含量、二乙胺含量的主仪器光谱分析结果与真值的误差(A)、模型校正前从仪器预测结果误差(B)和模型校正后从仪器预测结果误差(C)分布图。由图可见,模型校正前误差值较大且容易偏向一边,而模型校正后从仪器和主仪器预测结果的误差接近且正负误差分布较均匀,基本满足误差分析要求。
表1 DS-PLS模型传递前后混胺样品的预测结果Tab.1 Prediction results of mixed-amine sample
图6 各分析指标近红外光谱预测结果误差分布图Fig.6 Error distribution of analytical items determined by NIR
模型传递是解决实际应用中近红外光谱分析模型在不同仪器间共享的一个快速有效的手段,通过比较奇异值或PLS 算法,确定DS-PLS 算法能更好地消除不同仪器间光谱差异,光谱校正率达到97.5%,通过计算ARMS 确定了最佳转换集样品数和PLS 算法的主因子数。对混胺样品数的分析结果表明,模型传递后,密度、水分、三乙胺、二甲苯胺和二乙胺的预测结果的SEP 大大降低,相关系数明显提高,与主仪器模型的预测结果差距较小,基本实现了近红外光谱分析模型在主从仪器间的共享,为其他样品的模型传递提供了依据。