张立国,陈至坤,王 丽,曹丽芳,严 冰,王玉田
1.燕山大学测试计量技术及仪器河北省重点实验室,河北 秦皇岛 066004 2.华北理工大学电气工程学院,河北 唐山 063009 3.河北省自动化研究所,河北 石家庄 050081
可拓神经网络模式识别对成品油的鉴别与测量
张立国1,3,陈至坤1, 2,王 丽1*,曹丽芳1,严 冰1,王玉田1
1.燕山大学测试计量技术及仪器河北省重点实验室,河北 秦皇岛 066004 2.华北理工大学电气工程学院,河北 唐山 063009 3.河北省自动化研究所,河北 石家庄 050081
燃油存在“消耗量大”、“相对低质”、“前端缺少清洁”、“末端排放缺乏控制”四大问题, 我国的空气污染60%以上来自煤和油的燃烧,雾霾问题很大程度上取决于能源问题。快速准确地实现汽油、柴油、煤油等成品油的鉴别与测量,对于实施空气污染监测及治理具有重要意义。在精确地表征成品油种类信息的基础上,为了提高网络模型的识别效率,采用主成分分析方法将高维空间进行降维处理。对最常用的三维荧光光谱基于激发-发射矩阵(excitation-emission matrix, EEM)数据进行主成分分析以提取更精细、更深层的特征参量。分类过程中应用交叉验证的方法避免发生“过拟合”现象。设计鉴别和测量双重处理的神经网络,将神经网络模式识别结果反馈到浓度网络的输入端,与相对斜率、综合本底参数、相对荧光强度一起测量相应种类的浓度输出,利用可拓神经网络模式识别技术实现成品油的鉴别与测量。应用可拓神经网络方法实现成品油种类模式识别的平均识别率达到0.99,浓度平均回收率为0.95。模式识别平均耗时为2.5 s,仅为PARAFAC模型分析方法的48.5%。该方法显著提高了运算速度,且应用效果理想。需要指出的是,在分析诸如成品油、茶叶、农药等成分复杂的混合物时,应针对具体待测物制作相应的校正样本,用以确保分析的准确性与精度。
三维荧光光谱;成品油;主成分分析;可拓神经网络
我国的空气污染60%以上来自煤和油的燃烧,快速准确地实现成品油的鉴别与测量,对于实施空气污染监测及治理具有重要意义。近年来国内许多研究者对油类荧光光谱的数学特征进行提取,应用基于表观特征的原点矩、峰度系数等统计学指标实现光谱参数化[1-2],仅能反映出三维荧光谱的总体特征。国外学者研究了油类三维荧光光谱的红移与浓度定量测量之间的关系,并且对多环芳烃进行了较多地研究[3-6]。本研究通过对EEM数据的主成分分析来提取更精细、更深层的特征参量,利用可拓神经网络模式识别技术实现成品油的鉴别与测量,显著地提高了运算速度。
主成分分析(principal component analysis, PCA)是将原变量进行转换,使数据降维。所得新变量互不相关,即正交。在m维空间中,新变量μ1,μ2, …,μm表达为式(1)
μ1=ν11x1+ν12x2+…+ν1mxm
μ2=ν21x1+ν22x2+…+ν2mxm
…
μm=νm1x1+νm2x2+…+νmmxm
(1)
(2)
WDc=0.4/P
(3)
Ei(yk,Vk)=
i=1, 2, …,L
(4)
(5)
(6)
(7)
式(6)中的Eki由式(8)表示
i=1, 2, …,L
(8)
PARAFAC平行因子分析模型或平行因子是三线性成分模型及其分解方法在化学计量学领域的简称。在荧光光谱数据分析中,平行因子分析遵循朗伯-比尔定律。经典的PARAFAC算法是应用交替最小二乘法实现三线性模型的分解,其目标是使残差平方和达到最小。
(9)
式(9)中σ为残差平方和,F为平行因子方法所选取的因子数。
在成品油的四氯化碳溶液配置过程中,按比例1∶1 000(成品油与四氯化碳体积比)配置成品油四氯化碳溶液的标准母液,将母液进行逐步稀释得到浓度各异的待测样本。
在对原始数据进行标准化以及相关系数矩阵的计算基础上,选取特征谱的维数为8。选取主成分特征谱的目的就是在保留分类信息的前提下,合理选取既少又能体现事物全貌特征的最优特征变量,进一步压缩和降低特征空间的维数以减少计算量,这样更有利于选出信息量最大、对分类最有影响的特征[7-8]。通过分析应用相关系数法计算所得的各参数之间的相关系数,最终选取主成分特征谱(PCA提取)列于表1。
表1 主成分特征谱(PCA提取)
续表1
270.54690.57250.53770.44950.76130.58120.66320.5912280.99670.00010.02510.67060.89890.75910.37670.4787290.92200.55160.57300.49940.74830.79390.79870.5112300.57500.63530.53080.57630.78320.73410.59470.4435
某一变量的载荷定义为该变量在组合式中的系数乘以相应于该主成分本征值的平方根,但实际中也常称系数本身为载荷。载荷越大说明此变量与那个主成分越“相同”。因而,载荷可视为变量与主成分的相关性。一试样相应于某主成分由组合式计算所得值称为得分。网络输入数据即主成分得分列于表2。
表2 主成分得分数据
将上述主成分得分数据作为新数据输入网络,1~20号样本为训练样本,21~30号样本为测试样本,分类过程中应用交叉验证的方法避免“过拟合”现象的发生[9]。在拥有足够信息的前提下,选取前5位特征参数(除浓度信息)。网络模型的输入节点数设置为5,输出节点数即成品油种类数设置为3。在可拓神经网络中,初始权重直接相关于训练结果。在均衡初始权重的影响下,对训练样本进行网络训练,其中学习算法中的循环迭代会产生训练误差,网络模型的训练结果表示样本与期望输出的接近程度。神经网络既可用于精确值计算,也可用于模式识别。用于模式识别时,其输出结点数与拟分的类数有关。如有两类,可用两个结点,三类为三结点等。相应地,三类时可分别表达为(1,0,0),(0,1,0)和(0,0,1),即期望输出(D1,D2,D3)。网络模型的训练结果与期望输出列于表3。模式识别误差曲线如图1所示。
表3 网络模型的训练结果与期望输出
图1 模式识别误差曲线
表4 测试样本输出结果
经过1~20号训练样本对网络模型的训练,将21~30号测试样本数据输入训练好的神经网络,输入参数增加浓度信息(相对荧光强度、相对斜率、综合本底参数),进行成品油的模式识别与测量。在浓度测量过程中,用模式识别网络输出值作为相对斜率(样本中浓度与荧光强度关系曲线的变化斜率值)的权重系数。测试样本的网络模型输出结果列于表4。相应特征统计数据列于表5。
表5 测试样本输出结果的特征统计
应用PARAFAC模型分析方法进行对比[10-11]。利用核一致诊断方法和残差平方和方法共同估计因子数,当因子数为3时,核一致系数显著下降,残差平方和呈现单调下降的趋势,选取因子数为2。混合溶液样本的PARAFAC模型分析结果如图2和图3所示,其中图2为荧光激发光谱理论与测量结果对比图,图3为荧光发射光谱理论与测量结果对比图。
图2 荧光激发光谱理论与测量结果对比图
PARAFAC模型分析方法实现成品油种类模式识别的平均识别率为98.5%,柴油和汽油的平均回收率分别为96.5%和105.7%,PARAFAC模型分析平均耗时5.15 s。
图3 荧光发射光谱理论与测量结果对比图
结合主成分分析的数据表征和可拓神经网络对混合组分体系的模式识别优势,实现了成品油的鉴别与测量。可拓神经网络模型对光谱数据矩阵进行训练,给出了模式识别误差曲线。综合分析了种类鉴别和浓度测量的数据特征,给出了平均识别率、浓度误差和平均回收率等统计信息。将PARAFAC模型分析应用于成品油光谱数据分析,建立了荧光激发、发射特征光谱理论与测量结果对比图,进一步验证了可拓神经网络用于光谱数据分析是非常有力的手段。需要指出,该方法对于汽油、柴油和煤油等光谱有一定的重叠,但光谱线形状有较大差异的体系适用性强,但对于光谱重叠严重,且光谱线形状非常相似的体系尚有一定的局限性。
[1] LÜ Gui-cai, ZHAO Wei-hong, WANG Jiang-tao(吕桂才, 赵卫红, 王江涛).Chinese Journal of Analytical Chemistry(分析化学), 2010, 38(8): 1144.
[2] ZHAO You-quan, LU Xue-feng, LIANG Ying, et al(赵友全, 路雪峰, 梁 瑛, 等).Chinese Journal of Scientific Instrument(仪器仪表学报), 2012, 23(6): 1275.
[3] ZHOU Yu, QIAN Xu, ZHANG Jun-cai, et al(周 玉, 钱 旭, 张俊彩, 等).Application Research of Computers(计算机应用研究), 2010, 27(1): 1.
[4] QIAO Jun-fei, HAN Hong-gui(乔俊飞, 韩红桂).Acta Automatica Sinica(自动化学报), 2010, 36(6): 865.
[5] WANG Yan-ni, FAN Yang-yu(王燕妮, 樊养余).Computer Engineering and Applications(计算机工程与应用), 2010, 46(17): 23.
[6] YANG Guo-wei, WANG Shou-jue(杨国为, 王守觉).Journal of Harbin Institute of Technology(哈尔滨工业大学学报), 2006, 38(7): 1129.
[7] Mas S, Anna de Juan, Tauler R.Talanta, 2010, 80(3): 1052.
[8] Wang C, Li W, Luan X.Talanta, 2010, 81(1-2): 684.
[9] LIU Ling-ling, WU Yan-wen, ZHANG Xu, et al(刘玲玲, 武彦文, 张 旭, 等).Acta Chimica Sinica(化学学报), 2012, 70(8): 995.
[10] Valderrama P, Marco P H, Locquet N, et al.Chemometrics and Intelligent Laboratory Systems, 2011, (106): 166.
[11] YANG Li-li, WANG Yu-tian, LU Xin-qiong(杨丽丽, 王玉田, 鲁信琼).Chinese Journal of Lasers(中国激光), 2013, 40(6): 0615002.
(Received Apr.17, 2015; accepted Aug.16, 2015)
*Corresponding author
Study on Refined Oil Identification and Measurement Based on the Extension Neural Network Pattern Recognition
ZHANG Li-guo1,3, CHEN Zhi-kun1, 2, WANG Li1*, CAO Li-fang1, YAN Bing1, WANG Yu-tian1
1.Measurement Technology and Instrumentation Key Laboratory of Hebei Province, Yanshan University, Qinhuangdao 066004, China 2.Electrical Engineering College, North China University of Science and Technology, Tangshan 063009, China 3.Hebei Automation Research Institute, Shijiazhuang 050081,China
There are four major problems related to fuel consumption, “large consumption”, “low quality”, “lack of front-end clean” and “lack of end emission control”, which needs to address urgently for our country.More than 60 percent of the air pollution is due to the burning of coal and oil in our country, so the haze problem depends on how much we can deal with energy issues.We should achieve the identification and measurement of gasoline, diesel, kerosene and other refined oil products rapidly and accurately, which is important for the implementation of air pollution monitoring and controlling.in order to characterize the type information of the refined oil accurately and to improve the efficiency of the network model identification, it is effective to use principal component analysis method which could achieve the data dimension reductionwhile reducing the complexity of the problem.With principal component analysis of the most commonly used three-dimensional fluorescence spectra based on excitation-emission matrix (Excitation-Emission Matrix, EEM) data, we could obtain finer, deeper characteristic parameters.During the process of classification, it could avoid the “over-fitting” phenomenon because of the application of the cross-validation method, A neural network capable of both qualitative and quantitative analysis is designed.The neural network pattern recognition result becomes feedback to the input of the concentration network, together with the relative slope, the comprehensive background parameters, and the relative fluorescence intensity, we could achieve the measurement of the concentration of the corresponding types, then use the extension neural network pattern recognition technology to achieve identification and measurement of kerosene, diesel, gasoline and other refined oil products.The results of the study show that the average recognition rate reaches 0.99, the average recovery rate of concentration reaches 0.95, the average time of pattern recognition is 2.5 seconds and this time is 48.5% of the time used by PARAFAC model analysis method.The method significantly improves the operation speed with ideal application effect .It should be pointed out that, in order to ensure the accuracy and precision of the analysis, we should make corresponding calibration samples for specific analytes in terms of the analysis of complex mixtures such as refined oil, pesticides, tea, etc.
Three-dimensional fluorescence spectra; Refined oil; Principal component analysis; Extension neural network
2015-04-17,
2015-08-16
国家自然科学基金项目(61471312),河北省自然科学基金项目(F2015203240,F2015203072,F2015203392)资助
张立国,1978年生,燕山大学仪器科学与工程系副教授 e-mail:zlgtime@163.com *通讯联系人 e-mail:lydia_smile@163.com
O657.3
A
10.3964/j.issn.1000-0593(2016)09-2901-05