基于荧光光谱的五维数据处理方法

2016-12-15 06:09:57王玉田苑媛媛
发光学报 2016年11期
关键词:平行残差乘法

王玉田, 赵 煦, 潘 钊, 苑媛媛

(燕山大学 河北省测试计量技术及仪器重点实验室, 河北 秦皇岛 066004)



基于荧光光谱的五维数据处理方法

王玉田, 赵 煦, 潘 钊*, 苑媛媛

(燕山大学 河北省测试计量技术及仪器重点实验室, 河北 秦皇岛 066004)

石油是一种成分复杂的混合物,通过常规的检测方法很难对其进行定性识别。本文用汽、煤、柴油的混合物来模拟环境中的油类污染物。汽、煤、柴油在特定波长范围的激发下可以发出含有物质自身信息的荧光,根据朗伯-比尔定律可知荧光强度与物质浓度成正比,利用该性质对特定物质进行识别。通过FS920稳态荧光光谱仪对样本进行测量,将实验所得的三维数据拓展为五维数据,提出了一种将展开偏最小二乘耦合到残差四线性的五维数据处理方法,同时采用五维平行因子法和该算法分解数据,实现了对汽、煤油的定量分析,并恢复出了其激发和发射光谱。结果表明,展开偏最小二乘法的分析效果更好。

定性识别; 五维数据; 展开偏最小二乘法; 平行因子法

1 引 言

随着先进仪器的发展,我们可以获取多样的含有分析物信息的数据。如何对数据进行有效的提取是科研人员一直努力研究的方向[1-6]。近年来,在该方向的研究已取得不少成就。其中多维校正分析是被研究最多的一种方法。目前出现的多维校正分析包括二阶校正法和三阶校正法。二阶校正在文章中被描述的比较多,主要有平行因子法、多维偏最小二乘法等。三阶校正是二阶校正的拓展,主要针对三阶数据。

三阶数据可以通过许多不同的方法来获取。一种常见的方法是记录单样本三维荧光光谱动力学演化。三阶校正包括一个相似的二阶优势,也就是说,在未校干扰物存在时,该组分可以被量化。根据相关文章[7]我们了解到,它还有许多其他的优点,如单个样本的三阶数组分解、改进了针对共线数据算法的精度、提高了灵敏度和分离度等。然而在提高灵敏度和分离度方面并没有达成普遍的共识。

三阶数据通常通过平行因子法进行处理。三线性偏最小二乘与残差三线性相结合作为一种新的算法被提出来处理四维数据[8],在复杂样本中证明了其有效性[9-10]。其他基于使用潜在变量的方法也被提出来处理三阶数据,如多维偏最小二乘和展开偏最小二乘方法,它们都缺乏二阶优势。然而当展开偏最小二乘和多维偏最小二乘耦合到单独的过程残差三线性时,它们也可以达到二阶优势。基于矩阵的方法也可以应用于三阶数据,首先把它们展开成矩阵,再将多元曲线分辨耦合到交替最小二乘实现。只有在少数情况下,三阶数据被记录并用于构造定量校正模型同时开发分析方法。

四阶数据相对于二阶和三阶数据拥有更加全面的样本信息。针对干扰和基体效应,该方法更稳定。在外界环境干扰下,四阶数据不容易发生微小的变化,预测精度得到改进。虽然如今已经有四阶数据出现,但关于四阶数据分析应用的报道还较少。

本文描述了两种四阶多元校正模型。一种为将展开偏最小二乘耦合到残差四线性的方法,另一种为五维平行因子法。将新提出的方法与拓展的平行因子法相比较,根据分析结果判定其优势。这种新的多维校正方法理论为解决应用中的复杂分析问题提供了一种新的思路。

2 理论基础

2.1 平行因子法

本文将平行因子法[11-12]模型拓展至五维,可以得出更多优势,如精确度高、低背景干扰等。首先使每个Ical组成的矩阵Xi,cal与未知样本的矩阵Xu结合成一个五维数组X(大小(Ical+1)×J×K×L×M)。此时的X遵循一个四线性平行因子模型,它可以用5个相应的向量形式来描述,分别为an、bn、cn、dn和fn,收集相对应的浓度(Ical+1)×1分别来确定组分数n和各向量(J×1,K×1,L×1,M×1)。给定元素X的特定表达式为:

(1)

其中N是组分总数,ain是组分为n时第i个样本的相关浓度,bjn、ckn、dln和fmn分别是j、k、l和m方向上的相关强度,eijklm的值是矩阵E中的元素,E是与X维度相同的剩余误差项。列向量an被收集到相关的得分矩阵A,向量bn、cn、dn和fn被收集到载荷矩阵B、C、D和F。无论其化学含量是已知还是未知,都可以通过最小二乘法对X进行分解,求出(Ical+1)混合物中每个组分的相对浓度A。这构成了二阶优势的基础。

关于平行因子模型在五维数据校正中的应用有几个相干问题:(1)初始化算法;(2)应用受限制的最小二乘拟合;(3)建立相应组件数量;(4)从模型和所提供的信息中识别特定的组件;(5)校准模型以获取未知样本中特定成分的绝对浓度。

采用初始化平行因子法来研究五维数组,在平行因子中可以通过使用以下几种方式来实现:(1)奇异值分解(SVD)向量;(2)随机正交值;(3)几次迭代后选出最佳拟合模型。本文采用第一种方法。

平行因子法拟合中的限制条件被用来在所有的维度中获取物理识别的对应向量。然而,在目前情况下这种限制是没有必要的。

组分数N可以通过几种方法估算出来,比较常用的一种是核一致诊断法。考虑到平行因子内部参数的诊断手段被称为核一致性。另一种方法考虑的是平行因子法的误差平方和(SSE),也就是矩阵E中元素的平方和:

(2)

该参数随着N的增加而减小,直到稳定在一个值,此时N对应于最佳组分数。

通过对各个方向矩阵的评估实现化学成分的识别,得到主要的激发和发射光谱,让它们与标准的分析物浓度相比较。根据它们对整个光谱方差的贡献,将分解X获得的组件分类。当未知样本改变时,这个分类顺序也会改变。

五维数组分解值提供的是相对的值A,校准后得到的是分析物的绝对浓度。通过已知浓度的分析物的集合(包含在一个大小为(Ical+1)的向量y中)可以对分析物的浓度集完成校准。Ical中第一个元素列向量an(对应于校正样本)回归与y相对:

(3)

其中,‘+’表示广义逆。通过an(相对应测试样本)的最后一个元素除以校准曲线的斜率k进行未知样本中绝对浓度的相对转换:

(4)

重复上述过程对每个测试样本进行分析。

一个分析物可能发生几种情况,向量y中的值是总的分析物的浓度。相比之下,得分向量an是特定的对于一个给定的分析物种类。因此,针对分析物的浓度,回归每种分析物种类的得分向量,在原则上可以构造出几个伪单变量图。科研人员选择精度最高的图表来预测分析物的浓度。

2.2 展开偏最小二乘

展开偏最小二乘[13]算法的本质为先把校准数据展开成一维数组再利用常规偏最小二乘法对该数组建模。将该模型拓展至对五维数据的处理,使光谱数据信息得到最大限度的利用。首先把四维校正数组矩阵(大小J×K×L×M)展开成一维数组(大小JKLM×1),结合偏最小二乘用该数组和浓度向量y(大小I×1)建模。此时,得到一组载荷矩阵P和W(大小JKLM×A)和一个回归系数v(大小A×1)。A表示组分数,可以用核一致法诊断出。当待测样本中的组分与校正样本一致时,通过式(5)可以得出待测样品个组分含量:

(5)

(6)

先将未知样本Xu矢量化,再将其转换到A个组分的空间,式中vet(g)表示矢量化。

若待测样本Xu中含有其他未知组分时,上述过程不能用于测量分析。并且,该算法预测结果的残差值sp(见式(7))超出了正常范围。

(7)

‖·‖为范数符号。

当含有未知组分时,可以将典型的残差双线性化方法延伸到第四维,用于不包括样本维时的四维数据信号的处理。此时得到的残差四线性化将整个信号按照式(8)中的形式分解,主要为建模信号和干扰物信号,另外eu表示其余未能建模的误差向量。

vec(Xu)=

Modeled signal+Interferent signal+eu.

(8)

残差四线性化中将模型拓展来描述四维测试样本数据。该方法能够利用潜在结构对测试样本中的未知组分建模。其中模型分解得到的载荷矩阵是未知组分的真实光谱。该方法使式(8)中表达式在成立的条件下,残差值达到最小。

vec(Xu)=Ptu+vec[Tucker3(Ep)]+eu,

(9)

Ep=reshape(ep),

(10)

reshape(·)为矢量化操作vet(g)的逆向过程,即矢量转化数组的操作符。ep对应的是vec(Xu)-Ptu。残差四线性化方法对于不同样本能够预测出其中各个成分的含量。

su的表达式为:

(11)

式中的eu来源于式(8)。

通过以上过程,我们可以判断出该算法的本质是求出tu使残差su取得最小值。tu的表达式为:

tu=min‖vec(Xu)-Ptu-vec[Tucker(Ep)]‖.

(12)

按照上述过程处理完测试样本数据之后,su达到最小值。该模型中的载荷向量包括潜在未知组分,因此,最终的得分向量tu不受未知组分物质的干扰。将tu代入式(5)对待测样本进行预测。

在当前的预测分析过程中,应当注意到两条特性:(1)不管有无干扰成分,预测式(1)是唯一的;(2)该算法中存在的潜变量结构使其对于非四线性数据同样适用。这两条特性使其与之前描述的平行因子相比更具优势。

3 实验及结果

3.1 实验样本

将从加油站购买的汽油和煤油混合作为校准

样本,用CCL4作为溶剂,分别配制5组样本浓度为(1.0,2.5,3.0,4.0,5.0)×10-3g/mL的溶液置于容量瓶中。用振荡器将样本振荡2 min,待混合物溶解均匀再进行测量。按照表1的浓度配制测试样本,并分别编号1~9,将柴油作为干扰物混入样本中。

表1 用平行因子法预测样本得出的结果

3.2 实验仪器

所有的荧光测量都是通过快速扫描仪来获得,扫描速度为1 200 nm/min。在室温为20 ℃的环境中,设置激发-发射荧光矩阵按照下面的范围扫描:激发波长:230~480 nm,间距为5 nm;发射波长:250~500 nm,间距为2 nm。完整的数据收集到三维数组中:大小为9(样本个数)×51×126。

3.3 数据处理

用Savitzky-Golay多项式将实验得到的三维数组按照x和y的方向分别求导[14],此时三维数组叠加为五维数组,属于四阶数据。由于处理过程重复且太过繁琐,本文以9个样本中的第1、5、9号测试样本为例,分别利用上述平行因子法和展开偏最小二乘法进行处理。

4 结果与讨论

4.1 平行因子法处理结果

当处理由一组样本信号组成的五维数据时,要求数据遵从四线性条件才能用平行因子法对该数据成功分解。这就意味着所有模式中分解出的光谱图都是相互独立的,常见于所有的样本给定一个组分数。由于发射波长与激发波长有关,而激发波长为设定的数值,所以恢复出的各数据点之间互不干扰。在原则上,激发和发射光谱符合这个条件。

第一次尝试五维数组处理只包含校准样本,使用双组分平行因子模型是为了测试实验的四线性损失的严重性。初始化是使用包含在平行因子分解中的SVD向量,没有具体限制在最小二乘阶段,结果成功地分析出了混合物的激发和发射光谱,如图1所示。应该注意到,式(2)中的SSE参数对于五维平行因子(原始数据)是约3×106单位。类似于仪器噪声水平,获得更好的建模精度的原因是通过降低维数获得了一个多线性数据。

最好的平行因子模型对应于四维数组,用于在测试样本中预测分析物。因此,每个测试样本五维数据与校准样本相结合,该五维数组被提交给平行因子用于分解,并像前面交代的那样分析预测。在这种情况下,模型由3部分组成:单组分和所需的两个校准样本(表1)。多余组分作为相应的干扰物质,其光谱图通过平行因子法被成功地恢复出来。图1、2显示了从样本1、5、9中恢复出来的激发和发射光谱。其中干扰物质被成功地定义为柴油。剩余测试样本的预测效果也能满足要求。

图1 利用平行因子法恢复出的1、5、9号测试样本的荧光激发光谱。

Fig.1 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.

图2 利用平行因子法恢复出的1、5、9号测试样本的荧光发射光谱。

Fig.2 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.

如上所述,在分析系统中两个独立的伪变量平行因子校准曲线可能量化分析物。即一种是汽油得分向量,另一种是煤油得分向量。前者显示了一个更强的荧光发射,与干扰物重叠部分较少,因此汽油得分向量被选中作为校准,因为它们提供了更好的灵敏度。在测试样本中恢复的分析物的浓度和统计指标被收集到表1中。

4.2 展开偏最小二乘法处理结果

建立展开偏最小二乘模型时,首先要确定出展开偏最小二乘法中分析物个数。当个数不少于2时,利用该方法能够对分析物建立模型。本文校正样本中的分析物为汽煤油。

首先依次处理测试样品集,通过逐步加大式(9)中的维数评估残差四线性的组分数直到式(11)中残差su的值趋于稳定。根据获取的向量信息得到了一个结果,即在残差四线性过程中Tucker3模型中的载荷向量,结果如图3所示。该结果对应于样本1、5、9,其中柴油视作干扰信号,对其建模。在任何情况下,残差四线性得到的向量几乎与平行因子法得到的相同(图2),都是通过从全部数据中分离干扰物的方式实现对分析物的预测。Tucker3模型用比较拟合残差sp和su值的方式来评估。一般情况下,拟合残差值sp(式(7))比最后稳定的su值大。通过残差四线性化过程得出的光谱图具有物理意义。图3和图4中的干扰物光谱就是4号样本中的柴油光谱,如果组分数不是1,此时的定性结果会失去效果。

图3 利用展开偏最小二乘法恢复出的1、5、9号测试样本的荧光激发光谱。

Fig.3 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.

该算法成功实现预测的基础是校正样本中的几种物质之间不存在化学反应。9组测试样本的预测结果被收集到表2当中。

表1和表2包括了展开偏最小二乘法和五维

图4 利用展开偏最小二乘法恢复出的1、5、9号测试样本的荧光发射光谱。

Fig.4 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.

平行因子法的数据处理结果。结果表明,两种五维数据处理方法都能得到相应的预测结果,但展开偏最小二乘法的REP(预测相对误差)较小,说明该方法的预测结果精度较高。其原因有以下两点:(1) 展开偏最小二乘法在进行数据处理时,具有潜在结构化方法的适应性;(2)平行因子法要求数据之间没有线性关系,若两个维度的数据相互影响时必须通过降维来实现。

表2 用展开偏最小二乘法预测样本得出的结果

5 结 论

本文用汽、煤、柴油的混合物来模拟环境中的油类污染物,汽煤油作为校准物质,柴油作为干扰物质配制校准和测试样本。通过荧光光谱仪快速扫描出该样本的三维荧光光谱数据。以Savitzky-Golay多项式将三维荧光光谱叠加为五维导数光谱为前提,分别描述了平行因子法与展开偏最小二乘法在处理五维数据时的具体步骤,并进行比较。结果表明,两种算法都能够实现对干扰物溶液的定性定量分析,但展开偏最小二乘法由于其算法的优越性,分析结果更准确。

[1] CHAO K, WU H L, YU Y J,etal.. An alternative quadrilinear decomposition algorithm for four-way calibration with application to analysis of four-way fluorescence excitation-emission-pH data array [J].Anal.Chim.Acta, 2013, 758(1):45-57.

[2] GOICOECHEA H C, CALIMAG-WILLIAMS K, CAMPIGLIA A D. Multi-way partial least-squares and residual bi-linearization for the direct determination of monohydroxy-polycyclic aromatic hydrocarbons on octadecyl membranesviaroom-temperature fluorescence excitation emission matrices [J].Anal.Chim.Acta, 2012, 717(5):100-109.

[3] CALIMAG-WILLIAMS K, KNOBEL G, GOICOECHEA H C,etal.. Achieving second order advantage with multi-way partial least squares and residual bi-linearization with total synchronous fluorescence data of monohydroxy-polycyclic aromatic hydrocarbons in urine samples [J].Anal.Chim.Acta, 2014, 811:60-69.

[4] YANG R, LIU R, XU K. Detection of adulterated milk using two-dimensional correlation spectroscopy combined with multi-way partial least squares [J].FoodBiosci., 2013, 2:61-67.

[5] SHAHLAEI M, FASSIHI A, SAGHAIE L,etal.. Prediction of partition coefficient of some 3-hydroxy pyridine-4-one derivatives using combined partial least square regression and genetic algorithm [J].Res.Pharmaceut.Sci., 2014, 9(2):143-153.

[6] HANAFI M, OUERTANI S S, BOCCARD J,etal.. Multi-way PLS regression: monotony convergence of tri-linear PLS2 and optimality of parameters [J].Computat.Stat.DataAnal., 2015, 83:129-139.

[7] OLIVIERI A C. Analytical advantages of multivariate data processing. One, two, three, infinity? [J].Adv.Nurs.Sci., 2008, 80(15):5713-5720.

[8] BRO R, ANDERSEN C M. Theory of net analyte signal vectors in inverse regression [J].J.Chemomet., 2003, 17(12):646-652.

[9] OLIVIERI A C, ARANCIBIA J A, PEA A M D L,etal.. Second-order advantage achieved with four-way fluorescence excitation-emission-kinetic data processed by parallel factor analysis and trilinear least-squares. Determination of methotrexate and leucovorin in human urine [J].Anal.Chem., 2004, 76(19):5657-5666.

[10] ARANCIBIA J A, OLIVIERI A C, GIL D B,etal.. Trilinear least-squares and unfolded-PLS coupled to residual trilinearization: new chemometric tools for the analysis of four-way instrumental data [J].Chemomet.Intel.Lab.Syst., 2006, 80(1):77-86.

[11] LEURGANS S, ROSS R T. Multilinear models: applications in spectroscopy [J].Stat.Sci., 1992, 7(3):289-310.

[12] BRO R. PARAFAC. Tutorial and applications [J].Chemomet.Intel.Lab.Syst., 1997, 38(2):149-171.

[14] 杜树新,杜阳锋,武晓莉. 基于三维荧光导数光谱的水体有机污染物浓度检测 [J]. 光谱学与光谱分析, 2010, 30(12):3268-3271. DU S X, DU Y F, WU X L. Detection of dissolved organic matter based on three-dimensional first-order derivative fluorescence spectrometry [J].Spect.Spect.Anal., 2010, 30(12):3268-3271.(in Chinese)

王玉田(1952-),男,河北秦皇岛人,教授,博士生导师,1995年于哈尔滨工业大学获得博士学位,主要从事光电检测技术、光纤传感技术等方面的研究。

E-mail: y.t.wang@163.com潘钊(1982-),男,河北石家庄人,博士,讲师,2012年于燕山大学获得博士学位,主要从事光谱分析方面的研究。

E-mail: panzh_zach@hotmail.com

Processing Method of Five-dimensional Data Based on Fluorescence Spectra

WANG Yu-tian, ZHAO Xu, PAN Zhao*, YUAN Yuan-yuan

(KeyLabofMeasurementTechnologyandInstrumentationofHebeiProvince,YanshanUniversity,Qinhuangdao066004,China)

As a complex mixture of components, petroleum is difficult to be qualitatively identified by conventional detection methods. In this paper, the mixture of gasoline, kerosene and diesel was used to simulate the oil pollutants in the environment. The gasoline, kerosene and diesel could emit fluorescence with the material self information under the excitation of the specific wavelength range, and the fluorescence intensity was directly proportional to the concentration of the substance from the Lambert-Beer law, which was used to identify the kind of the oil. These samples were measured by FS920 steady state fluorescence spectrometer. The data were added to five-dimensional array data by Savitzky-Golay method, then the fourth-order date that contained complex information is obtained to analyze applications. A fourth-order correction method, which coupled unfolded partial least-squares to residual quadrilinearization, was proposed to deal with the five-way data. In order to test its predictive ability, the parallel factor method was used as a reference. Both of them can retrieve the excitation and emission profiles from the test samples. However, the REP value shows that the new method has higher precision than parallel factor analysis.

qualitative identification; five-way data; unfolded partial least squares method; parallel factor method

1000-7032(2016)11-1436-08

2016-05-19;

2016-09-03

国家自然科学基金(61471312); 河北省自然科学基金(F2015203240,F2015203072)资助项目

O433.4

A

10.3788/fgxb20163711.1436

*CorrespondingAuthor,E-mail:panzh_zach@hotmail.com

猜你喜欢
平行残差乘法
算乘法
基于双向GRU与残差拟合的车辆跟驰建模
向量的平行与垂直
平行
我们一起来学习“乘法的初步认识”
逃离平行世界
基于残差学习的自适应无人机目标跟踪算法
《整式的乘法与因式分解》巩固练习
把加法变成乘法
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32