韩晓爽,刘德庆,栾晓宁,郭金家,刘永信,郑荣儿*
1. 中国海洋大学光学光电子实验室,山东 青岛 266100 2. 内蒙古大学电子信息工程学院,内蒙古 呼和浩特 010021
基于激光诱导时间分辨荧光的原油识别方法研究
韩晓爽1, 2,刘德庆1,栾晓宁1,郭金家1,刘永信2,郑荣儿1*
1. 中国海洋大学光学光电子实验室,山东 青岛 266100 2. 内蒙古大学电子信息工程学院,内蒙古 呼和浩特 010021
在柴油、汽油、重质燃料油等成品油和原油等溢油油源的区分方面,荧光光谱结合模式识别手段得到了广泛的应用。传统的三维荧光光谱分析方法虽然能够获得溢油样品丰富的成分信息,但难以适应现场应用的要求,目前还停留在实验室检测的阶段。发展适用于现场应用的原油识别方法,对于海洋溢油污染的快速响应与处理意义重大。面向激光雷达的需要,发展了一种基于激光诱导时间分辨荧光手段、结合支持向量机(SVM)模型的原油识别方法,从时间和波长两个不同维度出发,通过对时间窗口和波长范围的选取进行优化,获得了理想的油种识别准确率。实验结果表明通过选取ICCD探测延时为54~74 ns可以将分类正确率从全谱线数据的83.3%提高到88.1%。通过选取波长范围为387.00~608.87 nm的谱线数据,可将疑似油种的分类正确率从全谱线数据的84%提高到100%。激光荧光雷达在实际工作中,受波浪、运载平台晃动等因素的影响,探测延时会出现一定的波动。本文介绍的分类识别方法通过时间和波长两个维度的筛选,更加适用于现场探测数据的识别,并进一步凸显了原油时间分辨荧光光谱特征,为疑似油种分类识别过程中数据量的压缩提供了重要依据。
原油; 时间分辨荧光; 支持向量机; 数据缩减
海上溢油污染是当今全球海洋污染最严重的问题之一,船舶漏油、水下油井井喷等方式都会造成严重的水域污染及财产损失、人体健康损害,近年来受到了越来越多的关注。针对日益严峻的海洋溢油问题,准确快速地鉴别溢油来源将为选择适当的溢油响应措施提供重要科学依据,也是解决溢油事故中各类责任纠纷的需要。
在目前众多的海洋溢油探测手段中,激光荧光雷达是最有发展前途的技术手段之一。加拿大环境技术中心研制的SLEAF系统,美国NASA与NOAA联合研制的AOL系统[1]是目前成熟的面向海洋溢油检测的系统,中国海洋大学也研制了一套多通道激光雷达溢油检测系统[2-3]。在不同油种的识别方面,激光荧光遥感手段具有明显优势[4]。在柴油、汽油、重质燃料油等成品油和原油等溢油油源的辨别方面,荧光光谱结合模式识别手段,如主成分分析(principal component analysis, PCA)[5-7]、人工神经网络[8]、平行因子分析(parallel factor analysis, PARAFAC)[9]、软独立建模分析(soft independent modelling of class analogy, SIMCA)[10]等得到了广泛应用。尽管上述模式识别手段与激发-发射光谱矩阵相互结合,获得了比较理想的油种识别效果,但传统荧光光谱探测方法难以适应现场应用对探测距离和效率的要求,目前还停留在实验室研究阶段。此外,在现场探测中波浪、运载平台晃动会导致激光雷达的探测延时出现波动,还有实验结果表明探测延时的变化还会导致荧光光谱峰位的移动,这使得区分原本轮廓相似的原油光谱更为困难。因此,发展适合于激光雷达的原油识别方法至关重要。
针对六种不同类型原油样品的时间分辨荧光光谱,在结合支持向量机(support vector machines, SVM)模型的基础上发展了一种面向激光雷达探测数据的油种识别方法,为激光诱导荧光技术应用于海洋溢油现场探测提供支持。
1.1 仪器与样品制备
采用实验室搭建的时间分辨荧光实验装置[11],激发光源为Nd∶YAG脉冲激光器输出的三倍频激光(355 nm),光谱仪采用Andor公司的SR-303i型,光栅刻痕数150 l·mm-1,可实现的光谱分辨率为0.1 nm。ICCD采用Andor公司的DH720-18F-03型,其外触发由激光器的调Q脉冲提供,用于触发ICCD电子快门实现光谱数据采集。采集光谱的延时范围为48~102 ns,步长为1 ns。
实验所用样品为胜利油田“渤601”、“埕北305”、“史138”、“坨167”、“郑369”和“郑气3”六个井区的原油,样品经正己烷(色谱纯)萃取后配制为0.5g·L-1的溶液并装在比色皿中。
1.2 数据分析
SVM应用核函数的展开定理,通过一定的非线性映射将样本从低维的样本空间映射到一个高维的特征空间(Hilbert空间),使得在特征空间中可以应用线性方法解决样本空间中高度非线性的回归和分类问题,即实现了数据的线性化,适用于本质上是非线性的分类问题以及样本集较小的情况。由于样品溶液中的荧光猝灭、原油复杂成分之间的相互作用、仪器的噪声以及基线漂移等现象,光谱数据中带有明显的非线性特性,采用SVM可以获得良好的分类结果。
考虑到样本集较小,在模型的训练中均采用了交叉验证的方法,即选取训练集中某一个为测试样本,其余为训练样本进行测试,再依次更换测试样本直到所有的样本都经过循环。
本文选用LIBSVM工具箱实现SVM模型的建立,输入未经降维的原始光谱数据,核函数选用径向基函数(Radial Basis Function, RBF),惩罚系数c和gamma参数g的选取采用网格搜索法,即确定c和g的取值范围与步进间隔大小,然后依次取值,使得训练集识别率最高的参数设定为最佳参数,再进行检测集的验证。
为了选取光谱特征明显、便于区分的波长范围和延时区间,将时间分辨光谱数据分别降维为: 不同延时下的一系列发射光谱和不同波长下荧光强度随时间的演化,并分别对这两组数据进行分析。
2.1 光谱数据及预处理
六种原油的时间分辨光谱ICCD延时均设置为48~102 ns,间隔为1 ns,波长范围为275.54~843.17 nm。图1为实验获得的“渤601”原油样品的典型时间分辨光谱,选取275.54~691.98 nm范围内的光谱进行分析,以避免激发光(355 nm)的二级衍射对荧光光谱数据造成的干扰。对样品荧光的时间分辨光谱进行观察时,发现当荧光从最大强度开始衰减时,原油荧光光谱峰位存在红移现象。这在一定程度上反映出原油中各荧光组分荧光衰减速率存在差异,或者存在荧光组分之间的能量传递[11]。实验所用所有样品的时间分辨光谱信息如表1所示,其中荧光时域半高宽(FWHM)采用高斯线型拟合的方式获得。
Fig.1 Time-resolved fluorescence spectra of Bo601 crude oil sample
Table 1 Characteristic parameters of crude oil samples
2.2 不同延时下的发射光谱(时间筛选)
根据ICCD延时不同,可以将时间分辨光谱降维为一系列355 nm波长激发下的发射光谱,谱型随延时的变化具有规律性。为取得具有代表性的分类结果,针对每种原油,从50 ns起每间隔3 ns选取一个谱线作为检测集对分类模型进行验证,其余时间点的谱线作为训练集对模型进行训练。光谱谱线在进行强度归一化预处理后输入分类模型。由于每种原油的延时为48~102 ns,共有55个谱线,因此训练集包含谱线样本222个,检测集包含谱线108个。在分类识别问题中,属于样本集较小的情况,同时考虑到在时间筛选的过程中需要不断缩减样本集中谱线的数量,样本集中样本个数进一步缩小,同样属于样本集较小的情况,适合采用SVM模型进行训练与检测。
由于六种原油样品的轮廓相似且谱峰范围相互重叠(见表1),分类模型受到了干扰。选取参数c和g分别为18 820.27和0.000 49时,训练集交叉验证的正确率最高,为82.4%(如图2所示)。此时检测集的分类正确率为83.3%,全谱的识别结果如表2所示。
Fig.2 Grid search on c and g parameters for SVM model
Table 2 SVM classification results for different delays
观察处理结果发现在不同的延时区间内各油种的分类正确率差异很大,以正确率最低的“史138”和“郑气3”为例,ICCD延时为48~83 ns时,正确率分别为83.3%和91.7%; ICCD延时为84~102 ns时,正确率仅为50%和16.7%。因此,合理选择延时区间可以提高分类准确率。
经过多次选择最终确定取训练集与测试集样本延时区间均为54~74 ns,经过时间筛选后“渤601”原油样品的时间分辨光谱如图3所示,此时分类正确率提升为88.1%,具体的识别结果见表3所示。
Fig.3 Time-resolved fluorescence spectra of Bo601 crude oil sample after delay selection
Table 3 SVM classification results with delay selection
由于训练集谱线样本数目的减少,SVM算法不能准确提取出区分于其余种类的特征,“埕北305”和“郑气3”的分类正确率有所下降,但整体正确率有所提升。此外,当ICCD延时为54~74 ns时,对应的是时间分辨光谱强度最高的时刻,这段时间内各油种的光谱特征最为明显,易于区分。
2.3 不同波长下的荧光强度变化(波长筛选)
将时间分辨荧光光谱降维为各发射波长下强度随时间变化的谱线。每种原油的波长范围为275.54~691.98 nm,从每10个谱线中选取一个作为检测集,其余作为训练集,由于每种原油包含750个谱线,因此训练集包含谱线样本4 050个,检测集包含谱线样本450个, 对全谱的分类结果见表4所示。
Table 4 SVM classification results for different wavelength
同样,在不同的波长范围内各油种的分类正确率差异很大,经过多次选择最终确定取训练集与测试集样本波长范围为387.00~608.87 nm,经过波长筛选后的“渤601”原油样品时间分辨光谱如图4所示,该波长范围对应的时间分辨光谱荧光信号较强。此时分类结果最好,识别率为100%。
Fig.4 Time-resolved fluorescence spectra of Bo601 crude oil sample after wavelength selection
将时间分辨荧光光谱从两个不同的方向拆分为一系列二维光谱,针对这两组不同的谱线数据,分别采用SVM模型对胜利油田“渤601”、“埕北305”、“史138”、“坨167”、“郑369”、“郑气3”六个井区的原油进行识别,并通过时间筛选和波长筛选方法提高了分类正确率。筛选后采用的ICCD延时和波长范围对应的时间分辨光谱信号较强,可作为原油时间分辨光谱的特征范围,为今后时间分辨光谱的分类工作中原始数据的压缩提供参考。基于激光雷达的溢油探测,包括现场波浪、平台晃动造成的延时波动的证实,以及激光荧光雷达数据的处理与油种识别,将是下一步工作的努力方向。
[1] Brown C E, Fingas M F. Marine Pollution Bulletin, 2003, 47(9): 477.
[2] LI Xiao-long, ZHAO Chao-fang, QI Min-jun, et al(李晓龙, 赵朝方, 齐敏珺, 等). Periodical of Ocean University of China(中国海洋大学学报), 2010, (8): 145.
[3] ZHAO Chao-fang, LI Xiao-long, MA You-jun(赵朝方, 李晓龙, 马佑军). Infrared and Laser Engineering(红外与激光工程), 2011, 40(7): 1263.
[4] Leifer I, Lehr W J, Beatty D S, et al. Remote Sensing of Environment, 2012, 124: 185.
[5] Brown C E, Fingas M F. Marine Pollution Bulletin, 2003, 47(9): 477.
[6] Li J, Fuller S, Cattle J, et al. Analytica Chimica Acta, 2004, 514(1): 51.
[7] Brown C E, Marois R, Fingas, et al. International Oil Spill Conference, 2001. 917.
[8] LIN Bin, AN Ju-bai(林 彬,安居白). Marine Environmental Science(海洋环境科学), 2004, 23(1): 47.
[9] Christensen J H, Hansen A B, Mortensen J, et al. Analytical Chemistry, 2005, 77(7): 2210.
[10] Alostaz M, Biggar K, Donahue R, et al. Journal of Environmental Engineering and Science, 2008, 7(3): 183.
[11] LIU De-qing, LUAN Xiao-ning, HAN Xiao-shuang, et al (刘德庆, 栾晓宁, 韩晓爽, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(6): 1582.
*Corresponding author
Discrimination of Crude Oil Samples Using Laser-Induced Time-Resolved Fluorescence Spectroscopy
HAN Xiao-shuang1, 2, LIU De-qing1, LUAN Xiao-ning1, GUO Jin-jia1, LIU Yong-xin2, ZHENG Rong-er1*
1. Optics and Optoelectronics Laboratory, Ocean University of China, Qingdao 266100, China 2. College of Electronic Information Engineering, Inner Mongolia University, Huhhot 010021, China
The Laser-induced fluorescence spectra combined with pattern recognition method has been widely applied in discrimination of different spilled oil, such as diesel, gasoline, and crude oil. However, traditional three-dimension fluorescence analysis method, which is not adapted to requirement of field detection, is limited to laboratory investigatio ns. The development of oil identification method for field detection is significant to quick response and operation of oil spill. In this paper, a new method based on laser-induced time-resolved fluorescence combined with support vector machine (SVM) model was introduced to discriminate crude oil samples. In this method, time-resolved spectra data was descended into two dimensions with selecting appropriate range in time and wavelength domains respectively to form a SVM data base. It is found that the classification accurate rate increased with an appropriate selection. With a selected range from 54 to 74 ns in time domain, the classification accurate rate has been increased from 83.3% (without selection) to 88.1%. With a selected wavelength range of 387.00~608.87 nm, the classification accurate rate of suspect oil was improved from 84% (without selection) to 100%. Since the detection delay of fluorescence lidar fluctuates due to wave and platform swing, the identification method with optimizing in both time and wavelength domains could offer a better flexibility for field applications. It is hoped that the developed method could provide some useful reference with data reduction for classification of suspect crude oil in the future development.
Crude oil; Time-resolved fluorescence; Support vector machines; Data reduction
Oct. 31, 2014; accepted Feb. 25, 2015)
2014-10-31,
2015-02-25
国家自然科学基金项目(41406111)和国家海洋局海洋遥测工程技术研究中心创新青年基金项目(2013003)资助
韩晓爽,1990年生,内蒙古大学信息科学与工程学院硕士研究生 e-mail: xiaoshuanghan@126.com *通讯联系人 e-mail: rzheng@ouc.edu.cn
O433.4
A
10.3964/j.issn.1000-0593(2016)02-0445-04