近红外光谱结合小波变换-随机森林法快速定量分析甲醇汽油中甲醇含量

2019-12-20 09:41李茂刚闫春华薛佳张天龙李华
分析化学 2019年12期
关键词:近红外光谱随机森林小波变换

李茂刚 闫春华 薛佳 张天龙 李华

摘 要 建立了一种基于近红外光谱(Near infrared spectroscopy,NIR)结合小波变换-随机森林(Wavelet transform-Random forest,WT-RF)的用于甲醇汽油中甲醇含量快速定量分析的方法。采用傅里叶变换红外光谱仪采集54个甲醇汽油样品的光谱,并进行光谱解析;探究不同光谱预处理方法对样品NIR光谱的处理效果,重点探究基于不同小波基函数与小波分解层数的小波变换(Wavelet transform,WT)光谱预处理效果,并通过优化变量重要性阈值筛选随机森林RF校正模型的输入变量;基于优化后的参数及输入变量,构建了甲醇汽油NIR光谱的WT-RF模型。为了进一步验证此模型的预测性能,将其与小波变换-偏最小二乘校正模型(Wavelet transform-Partial least squares,WT-PLS)和小波变换-最小二乘支持向量机校正模型(Wavelet transform-Least square support vector machine,WT-LSSVM)进行对比。结果表明,WT-RF校正模型具有最佳的预测性能,其交叉验证决定系数(Coefficient of determination of cross-validation,R2cv)和均方根误差(Root mean square error of cross-validation,RMSECV)分别是0.9990和0.0044%,预测集决定系数(Coefficient of determination of prediction set,R2p)和均方根误差(Root mean square error of prediction set,RMSEP)分别为0.9885和0.0191%。研究结果表明,NIR光谱结合WT-RF算法是一种快速准确定量分析甲醇汽油中甲醇含量的方法。

关键词 近红外光谱; 甲醇汽油; 小波变换; 随机森林

1 引 言

随着汽车产业的飞速发展,石油资源开采速度不断加快[1,2]。石油资源的过度开发利用已带来诸多环境问题,如气候变暖、水土资源污染、大气复合污染等。针对这些问题,近年不断出现新型化石燃料替代物,其中以醇类汽油、天然气、生物柴油、醇类燃料最为突出[3]。甲醇汽油[4~6]是以一定比例将传统汽油与甲醇进行掺混而形成,具有诸多优势,如甲醇价格低廉、产量大、较高的辛烷值及较低的尾气排放量等。然而,甲醇热值约为传统汽油的1/2,过量掺入甲醇将导致发动机动力输出不足; 甲醇热稳定性差,高标号甲醇汽油将会对汽车内部件产生一定损坏[7]。因此,甲醇汽油中甲醇含量快速定量分析对于甲醇汽油品质检测具有重要意义。

目前,甲醇汽油中甲醇含量检测方法主要以色谱法和质谱法为主。然而,这些方法存在样品前处理复杂、检测耗时长且无法在线分析等缺陷[8]。近红外光谱(Near infrared spectroscopy,NIR)是基于近红外光,一种介于可见光与中红外光谱之间的电磁波,对样品进行检测,可得到样品分子含氢基团的特征信息。相较于色谱等方法,NIR具有检测速度快、样品无损或微损及可实时在线分析等优势[9,10],近年来,被普遍应用于石化、药品、食品等有机过程分析中[11~16]。NIR在油品定量分析中已有报道,欧阳爱国等[17]利用近红外光谱技术对甲醇柴油中甲醇含量进行定量分析,预测集决定系数(Coefficient of determination of prediction set,R2p)和均方根误差(Root mean square error of prediction set,RMSEP)分别为0.9989和0.0624,表明近红外光谱可很好地应用于甲醇柴油品质检测。

目前,应用于甲醇汽油近红外光谱定量分析的算法主要有偏最小二乘(Partial least squares,PLS)、主成分分析(Principal component analysis,PCA)及支持向量机(Support vector machine,SVM)等,这些算法对校正集要求较高,具有预测结果较差、建模时间长,可能过拟合等缺陷[18~20]。随机森林(Random forest,RF)[21~23]是一种新的非线性数据处理算法,具有诸多优点,如极高的准确率、不易出现过拟合及很好的抗噪能力等,通常被用于解决分类、回归等问题。它可以克服传统线性回归算法存在的精度低、拟合量大等缺点,已成功应用于近红外光谱处理[24]。对NIR光谱进行建模时,需对原始光谱进行预处理,以减少光谱采集过程中环境噪声、仪器噪声及操作误差等造成的干扰[25]。近红外光谱预处理方法主要包括标准正态变换(Standard normal variation,SNV)、多元散射校正(Multivariate scattering correction,MSC)、小波变换(Wavelet transform,WT)等[26,27]。WT是一種优于傅里叶变换的信号处理方法[28,29],能够提供一种在“时间-频率”上同时分析数据局部特征的数学方法,非常适于光谱数据平滑去噪和特征提取。Chalus等[30]利用小波变换结合人工神经网络对药品片剂的近红外光谱数据进行计算,获得的相关系数>0.9960,表明小波变换应用于药品片剂近红外光谱预处理的效果良好。

本研究考察了基于小波变换-随机森林算法的甲醇汽油近红外光谱校正模型的可行性。首先,使用傅里叶变换红外光谱仪对54组甲醇汽油样品进行光谱采集,并进行光谱解析; 其次,探究不同光谱预处理方法对甲醇汽油NIR光谱的处理效果,重点探究基于不同小波基函数与小波分解层数的小波变换光谱预处理效果,寻求最优的光谱预处理方法; 再次,以小波变换处理后的光谱数据作为输入变量,构建随机森林校正模型,并探究变量重要性阈值对RF校正模型预测性能的影响,得到最优变量重要性阈值; 最后,基于优化后的参数及输入变量构建了甲醇汽油近红外光谱的WT-RF校正模型,为了进一步验证此模型预测性能,将其与WT-PLS校正模型及WT-LSSVM校正模型的预测性能进行对比,获得一种适用于甲醇汽油中甲醇含量的快速定量分析模型。

2 实验部分

2.1 样品制备

本实验共计有54个不同浓度的甲醇汽油样品,其中1~49号样品是将甲醇与汽油以一定比例进行掺混制备而成的,50~52号样品是将甲醇、乙醇及汽油以一定比例进行掺混制备而成的,53和54号样品分别为市售M10和M15甲醇汽油。所用汽油来自陕西西安某加油站,牌号为98#; 甲醇(分析纯,>99.7%,天津市富宇精细化工有限公司); 乙醇(分析纯,>99.7%,天津天力化学试剂有限公司)。样品中甲醇体积分数如表1所示。由于甲醇可以很好地与汽油互溶,因此无需加入其它助溶剂促进混合。将配制好的甲醇汽油样品在4℃环境下保存待测。

2.2 光谱采集

使用傅里叶变换红外光谱仪(VERTEX 70,德国Bruker公司)采集甲醇汽油样品近红外光谱,仪器配有OPUS 6.5光谱软件。采集样品光谱时,仪器参数设置:光谱范围4000~12000 cm1,扫描次数32次,分辨率8 cm1,分束器选用CaF2,时间间隔设置为10 s。设置参数后,仪器预热30 min,开始检测。环境温度约为18℃,以空气为参考,检测并扣除背景光谱。使用5 mm石英比色皿进行光谱检测。为了减少光谱采集过程中的实验误差,检测时,每个样品分别采集25条光谱,每5条光谱求平均值,54个甲醇汽油样品共计获得270条光谱(每个样品收集5条光谱)。

2.3 随机森林校正模型构建及输入变量优化

在机器学习中,随机森林是由Leo Breiman和Adele Cutler开发的一种对决策树进行集成,从而构造一种统计学估计,用以构建预测模型的统计学习理论[23]。 本研究将校正集甲醇汽油近红外光谱强度与甲醇汽油样品中甲醇含量结合起来,构建随机森林校正模型,将所有回归树输出进行收集,用于预测集甲醇含量的预测。通常,随机森林校正模型的构建可以概述为:(1)从甲醇汽油近红外光谱校正集中使用Bootstraping方法有放回地选出m个样本,共计进行ntree次采样,形成ntree个校正集,分别训练ntree个决策树模型; (2)对于每个决策树模型,从随机选择的mtry特征子集中选择最佳分裂,分裂过程中不需要对决策树修剪,当每棵树在相应节点处所有训练样本都属于同一类时停止分裂; (3)将ntree棵决策树的结果组成随机森林,用于新数据预测。ntree(决策树数量)和mtry(决策树节点树数量)是随机森林算法的两个核心参数,本研究中ntree选择模型默认值500。假设校正集中有M个属性值(波数),随机选择mtry作为决策树中每个内部节点之间的候选属性值,最终以每棵单独树预测结果的平均值作为预测集样本的预测结果。

通过随机森林校正模型可以计算输入变量的重要性,变量重要性越高,则随机森林校正模型预测性能越好[31]。基于变量重要性的随机森林校正模型构建可概述为:(1)将甲醇汽油近红外光谱划分为预测集和校正集,构建初始随机森林校正模型; (2)计算输入变量的变量重要性; (3)设置变量重要性阈值,若输入变量中含有低于此阈值的变量则删去这部分变量,然后使用剩余变量重新构建随机森林校正模型; (4)重复步骤3,直到获得具有较好预测性能的模型。随机森林校正模型构建时,以表1中1~49号样品中带*号样品作为预测集,其余样品作为校正集,50~54号样品用于此模型的外部验证; 以RF校正模型的交叉验证(通过袋外误差估计计算)决定系数(Coefficient of determination of cross-validation,R2cv)和均方根误差(Root mean square error of cross-validation,RMSECV)及预测集决定系数(Coefficient of determination of prediction set,R2p)和均方根误差(Root mean square error of prediction set,RMSEP)作为模型预测性能的评价指标。

3 结果与讨论

3.1 甲醇汽油近红外光谱解析

图1所示为54组甲醇汽油样品的近红外光谱。在7800~9000 cm1波数范围内吸收峰为大多数碳水化合物与醇类中CH键的二阶倍频,在6500~7500 cm1波数范围内吸收峰为CH+CH键的一阶倍频及CH+CC键的一阶倍频的组合频,6000~7200 cm1波数范围内的吸收峰为醇类(甲醇)OH键的一阶倍频[32]。从图1可见,甲醇汽油近红外光谱存在较为明显的基线漂移,及由于杂散光等因素干扰而引起的光谱不平滑等问题,因此在进行建模分析之前,需要使用光谱预处理方法解决甲醇汽油原始近红外光谱存在的缺陷,才能确保定量分析的准确性。

3.2 甲醇汽油近红外光谱预处理方法对比

目前,应用于近红外光谱预处理的方法有多元散射校正(MSC)、标准正态变换(SNV)、归一化(Normalization)、一阶导数法(First derivative,D1st)及小波变换(WT)等。多元散射校正常用于改善样品光谱的基线漂移现象; 标准正态变换常用于校正因散射而引发的光谱误差; 归一化常用于改善因光程變化或样品稀释给光谱带来的影响; 一阶导数法常用于消除背景的常数平移; 小波变换具有多分辨特征,选择适当的小波基函数可以实现对高频非稳定信号的时域和频域同时表征。本研究将上述5种光谱预处理方法分别应用于甲醇汽油近红外光谱的预处理,以预处理后的光谱数据作为输入变量构建RF校正模型。表2所示为不同光谱预处理方法的RF校正模型预测性能(最佳参数设置时模型预测性能)。由表2可知,直接使用甲醇汽油原始近红外光谱进行RF校正模型构建,其交叉验证R2cv和RMSECV分别为0.9899和0.0136%,预测集R2p和RMSEP分别为0.9608和0.0281%; 使用归一化(Normalization)处理后的光谱构建RF校正模型时,其交叉验证和预测集预测的结果都下降; 使用多元散射校正(MSC)、标准正态变换(SNV)及一阶导数法(D1st)处理后的近红外光谱构建RF校正模型时,交叉验证结果都获得了一定的提升,但是预测集的预测性能下降; 使用小波变换(WT)处理后的光谱构建RF模型时,其模型的交叉验证R2cv和RMSECV分别为0.9990和0.0044%,预测集R2p和RMSEP分别为0.9879和0.0196%。结果表明,小波变换作为一种甲醇汽油近红外光谱预处理方法非常有效。

当小波变换用作甲醇汽油近红外光谱数据预处理时,为了获得更好的预处理效果,需要选择合适的小波基函数和小波分解层数。常用的小波基函数有Haar、Symlets(symN)及Daubechies(dbN)等[33],dbN小波基函数是由Lurid Daubechies构造的小波函数,可提供更有效的分析效果。因此,重点探究了基于不同db小波基函数(db1、db2、db3、db4和db5)和小波分解层数(1~7)的小波变换对甲醇汽油近红外光谱的预处理效果。图2为不同小波基函数(db1、db2、db3、db4和db5)和小波分解层数(1~7)与WT-RF校正模型预测性能(预测集R2p和RMSEP)之间的关系。从图2可见,当小波基函数为db5且小波分解层数为4时,WT-RF校正模型可获得最佳的分析效果,其预测集R2p和RMSEP分别为0.9879和0.0196%。因此,本研究以优化后的小波变换(小波基函数为db5,小波分解层数为4)作為甲醇汽油原始近红外光谱的预处理方法。

3.3 甲醇汽油近红外光谱WT-RF校正模型输入变量的选择与优化

使用甲醇汽油近红外光谱结合WT-RF算法对甲醇汽油进行定量分析时,变量过多,会导致建模数据量过大,从而增加运算时间,同时有可能带入无效信息,降低模型分析准确度; 变量过少,会导致甲醇汽油样品光谱有效信息无法充分利用,也会降低模型定量分析准确度。因此,建模时对输入变量进行筛选是必不可少的步骤。

图3所示为WT-RF校正模型的变量重要性与近红外光谱之间的关系。变量重要性是评价WT-RF校正模型构建时不同输入变量的贡献度,其值越高,表明这部分变量在构建WT-RF校正模型时贡献度越高,反之表明这部分变量在模型构建时贡献度越低。从图3可见,构建甲醇汽油近红外光谱的WT-RF校正模型,有许多变量的重要性均为0,表明这些变量对于WT-RF校正模型的贡献度为0。因此,可以通过对这些变量进行筛选从而优化WT-RF校正模型的预测性能。表3和图4所示为不同变量重要性阈值条件时WT-RF校正模型的预测性能。结合表3和图4可知,随着变量重要性阈值的不断增大,WT-RF校正模型的交叉验证结果变化较小,而对于预测集的预测结果呈现出一种先上升后降低的趋势,mtry值及建模时间在不断减小。由此可得,当阈值设置为0.0002时,WT-RF校正模型对于甲醇汽油中甲醇含量具有最佳的分析性能。此时,WT-RF校正模型的特征子集mtry数从734减少为133; 建模时间从15.73 s缩短为3.38 s; 交叉验证R2cv和RMSECV分别为0.9990和0.0044%; 预测集R2p从0.9879增加至0.9885; RMSEP从0.0196%减少到0.0191%。因此,本研究以0.0002作为变量重要性阈值进行甲醇汽油近红外光谱WT-RF校正模型的构建。

3.4 3种校正模型预测性能比较

为了验证WT-RF校正模型的预测性能与其它校正模型之间的差异,分别构建了甲醇汽油近红外光谱的小波变换-偏最小二乘校正模型(Wavelet transform-Partial least squares,WT-PLS)和小波变换-最小二乘支持向量机校正模型(Wavelet transform-Least square support vector machine,WT-LSSVM)。在构建WT-PLS校正模型时,采用五折交叉验证对其潜变量进行优化,确定最优潜变量为10。在构建WT-LSSVM校正模型时,选择RBF函数为核函数,采用五折交叉验证和网格搜索对γ和2进行优化,重复迭代50次,优化后的γ和2分别为3135.4523和826.3216。

表4、表5及图5为3种不同校正模型对甲醇汽油的甲醇含量预测性能的对比。结合表4和图5可知3种模型对校正集和预测集的预测结果,其中WT-RF模型的预测性能最好,其交叉验证R2cv和RMSECV分别为0.9990和0.0044%,预测集R2p和RMSEP分别为0.9885和0.0191%。通过对比表5中3种模型对于样品9和50、22和51、38和52的预测性能可知,乙醇的掺入导致3种模型对于甲醇含量的预测性能下降。通过对比表5中3种模型对于甲醇汽油、掺入乙醇的甲醇汽油及两种实际甲醇汽油样品中甲醇含量的预测结果,其中WT-RF校正模型预测性能均优于WT-PLS和WT-LSSVM校正模型,其预测平均相对误差(MRE)为0.34,此结果优于国家标准[6]中的允许误差(0.4)。由此可见,近红外光谱结合WT-RF算法可以很好地实现甲醇汽油中甲醇含量的定量分析。

4 结 论

将小波变换结合随机森林算法应用于甲醇汽油中甲醇含量的快速定量分析。采用傅里叶变换红外光谱仪对54组甲醇汽油的NIR光谱进行采集; 比较了五种不同光谱预处理方法(MSC、SNV、D1st、Normolization、WT)对甲醇汽油样品NIR光谱进行处理,最终选择小波变换(WT)作为甲醇汽油NIR光谱预处理方法; 然后,对甲醇汽油NIR光谱的WT-RF校正模型进行输入变量优化,比较了不同变量重要性阈值对模型预测性能的影响; 为了进一步探究WT-RF校正模型的预测性能,将甲醇汽油近红外光谱的WT-RF校正模型与WT-PLS校正模型、WT-LSSVM校正模型进行比较,结果表明,WT-RF校正模型具有最好的预测性能,其交叉验证R2cv和RMSECV分别为0.9990和0.0044%,预测集R2p和RMSEP分别为0.9885和0.0191%。研究表明,WT-RF可准确快速地对甲醇汽油中甲醇含量进行定量分析,本方法为甲醇汽油品质检测及石油化工等领域中其它指标分析提供了理论基础与技术支撑。

References

1 Shan Y L,Guan D B,Meng J,Liu Z,Schroeder H,Liu J H,Mi Z F. Appl. Energ.,2018,226: 494-502

2 Masum B M,Masjuki H H,Kalam M A,Rizwanul Fattah I M. Rene. Sust. Energ. Rev.,2013,24: 209-222

3 Maldonado M,Barreiro P,Gutierrez R,Vergara G. Fuel Processing Technol.,2018,171: 287-292

4 Jeczmionek L,Danek B,Paluchowska M,Krasodomski W. Energ. Fuel,2017,31(1): 504-513

5 Sharma N,Agarwal A K. Energ. Fuel.,2017,31(4): 4155-4164

6 GB/T 31776-2015,Determination Method of Methanol Content in Methanol Gasoline for Motor Vehicles. National Standards of the People's Republic of China

車用甲醇汽油中甲醇含量检测方法. 中华人民共和国国家标准. GB/T 31776-2015

7 Agarwal A K,Shukla P C,Gupta J G,Patel C,Prasad R K,Sharma N. Appl. Energ.,2015,154: 732-741

8 Pasquini C. Anal. Chim. Acta,2018: 1062: 8-36

9 CHU Xiao-Li,LU Wan-Zhen. Spectrosc. Spect. Anal., 2014,34(10): 2595-2605

褚小立,陆婉珍. 光谱学与光谱分析,2014,34(10): 2595-2605

10 Sajdak M,Kotyczka-Moranska M. Biomass Bioenerg.,2018,112: 99-109

11 Maria-Teresa S,Torres I,Maria-Jose D,Chamorro A,Varo A G,Marin D P. J. Sci. Food Agric.,2019,99: 1613-1622

12 MO Xin-Xin,SUN Tong,LIU Mu-Hua,YE Zhen-Nan. Chinese J. Anal. Chem.,2017,45(11): 1694-1702

莫欣欣,孙 通,刘木华,叶振南. 分析化学,2017,45(11): 1694-1702

13 Braz C E M,Jacinto M A C,Pereira-Filho E R,Souza G B,Nogueira A R A. Spectrochim. Acta A,2018,202: 182-186

14 XIE Yue,LI Fei-Yue,FAN Xing-Jun,HU Shui-Jin,XIAO Xin,WANG Jian-Fei. Chinese J. Anal. Chem.,2018,46(4): 609-615

谢 越,李飞跃,范行军,胡水金,肖 新,汪建飞. 分析化学,2018,46(4): 609-615

15 ZENG Yun-Long,ZHAO Min,ZHANG Min,YIShou-Jun,TANG Chun-Ran,XIA Xiao-Dong,HE Chao-Cai. Chin. J. Lumin.,2019,40(1): 115-121

曾云龙,赵 敏,张 敏,易守军,唐春然,夏晓东,贺超才. 发光学报,2019,40(1): 115-121

16 ZHU Xue-Wei,CUI Xiao-Yu,CAI Wen-Sheng,SHAO Xue-Guang. Acta Chim. Sinica,2018,76(4): 69-73

朱雪薇,崔晓宇,蔡文生,邵学广. 化学学报,2018,76(4): 69-73

17 OUYANG Ai-Guo,HUANG Zhi-Hong,LIU Yan-De. Spectrosc. Spect. Anal.,2017,37(04): 1118-1122

欧阳爱国,黄志鸿,刘燕德. 光谱学与光谱分析,2017,37(04): 1118-1122

18 Borin A,Ferrao M F,Mello C,Maretto D A,Poppi R J. Anal. Chim. Acta,2006,579(1): 25-32

19 YUAN Jing-Ze,LU Qi-Peng,WANG Jing-Li,DING Hai-Quan,GAO Hong-Zhi,WU Chun-Yang,LI Wan-Xia. Chinese J. Anal. Chem.,2017,45(9): 1291-1296

袁境泽,卢启鹏,王静丽,丁海泉,高洪智,吴春阳,李晚侠. 分析化学,2017,45(9): 1291-1296

20 Clegg S M,Sklute E,Dyar M D,Barefield J E,Wiens R C. Spectrochim. Acta B,2009,64(1): 79-88

21 Lei M,Yu X H,Li M,Zhu W X. Infrared Phys. Technol.,2018,92: 177-182

22 Xi W,Huang J H,Fan W,Lu H M. Anal. Methods,2015,7: 787-792

23 Lee S,Choi H,Cha K,Chung H. Microchem. J.,2013,110: 739-748

24 LI Sheng-Fang,JIA Min-Zhi,DONG Da-Ming. Spectrosc. Spect. Anal.,2018,38(6): 1766-1771

李盛芳,賈敏智,董大明. 光谱学与光谱分析,2018,38(6): 1766-1771

25 Matsumoto S,Ishikawa A,Kume H,Takeuchi T,Homma Y. Int. J. Urol.,2010,16(9): 760-764

26 Guo H X,Huang F R,Li Y P,Fang T,Zhu S Q. Anal. Lett.,2016,49(18): 2964-2976

27 YAO Dan,ZHENG Kai-Yuan,LIU Zi-Di,LI Jun-Hao,ZHENG Chuan-Tao,WANG Yi-Ding. Acta Optica Sinica.,2019,39(9): 0930006

姚 丹,郑凯元,刘梓迪,李俊豪,郑传涛,王一丁. 光学学报,2019,39(9): 0930006

28 Biswas S,Mallik B S. Phys. Chem. Chem. Phys.,2017,19(15): 9912-9922

29 Bin J,Li X,Fan W,Zhou J H,Wang C W. Analyst,2017,142: 2229-2238

30 Chalus P,Walter S,Ulmschneider M. Anal. Chim. Acta,2007,591(2): 219-224

31 Tang H S,Zhang T L,Yang X F,Li H. Anal. Methods,2015,7(21): 9171-9176

32 Fernandes H L,Raimundo I M,Pasquini C,Rohwedder J J R. Talanta,2008,75(3): 804-810

33 Leung A K M,Chau F T,Gao J B. Anal. Chem.,1998,70(24): 5222-5229

猜你喜欢
近红外光谱随机森林小波变换
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
MATLAB在《数字图像处理》课程中的辅助教学
基于近红外光谱法的藜麦脂肪含量快速检测
基于互信息和小波变换的图像配准的研究
基于随机森林算法的飞机发动机故障诊断方法的研究