文建辉,钟科军,杜文,银董红,刘惠民
1.湖南中烟工业有限责任公司技术研发中心,长沙市劳动路426号410007
2.中国烟草总公司郑州烟草研究院烟草行业烟草化学重点实验室,郑州高新技术产业开发区枫杨街2号450001
近年来,以现代仪器分析和化学计量学方法为基础的指纹图谱技术提高了卷烟风格和质量相关评价的科学性、可靠性和可操作性[1-5]。主成分分析(PCA)及其投影显示是指纹图谱解析中常用的化学模式识别方法[6],但采用该法难以准确评价卷烟烟气色谱。因此,进行了用结合离散的粒子群优化算法(discrete particle swarm optimization algorithm,DPSO)[7-12]和PCA投影法解析卷烟烟气色谱指纹图谱研究,旨在寻找一种客观准确评价卷烟烟气色谱的方法。
Agilent 6890N全二维气相色谱/Leco飞行时间质谱仪(美国Leco公司),配备Pegasus 4D工作站;Mettler AE100电子天平(感量:0.0001 g,瑞士Mettler公司);Milli-Q纯水机(美国Millipore公司);RM1/Plus单通道吸烟机(德国Brogwaldt公司);主流烟气在线冷阱捕集装置(自制);Binder温湿度平衡箱(德国Binder公司)。
乙酸苯乙酯(AR,汕头市精细化学品有限公司);无水乙醇、二氯甲烷和无水硫酸钠(AR,天津市化学试剂三厂);液氮(常德市畜牧水产局);YDS-3-125液氮罐(四川东亚液氮罐厂);W1和W2同一牌号两种规格卷烟各19批次样品。
1.2.1 样本制备与分析
将烟支均匀地放在温度(22±1)℃和相对湿度(60±2)%的环境条件下平衡48 h以上,挑选平均质量±0.02 g范围内的烟支为实验烟支。按照YC/T 29—1996用单通道吸烟机抽吸烟支,每次抽吸5支卷烟,烟气通入与吸烟机连接的冷阱(温度-15℃~-118℃,致冷介质无水乙醇/液氮溶液,制冷容量3.5 L)烟气捕集管(内径8 mm石英螺旋管,有效冷凝容积35 mL)中。吸毕,取出捕集管,用1 mL×4二氯甲烷常温下振荡提取15 s,合并提取液,加入0.5 g无水硫酸钠,室温下放置过夜,加入0.2 mL 1.0 mg/mL乙酸苯乙酯(内标)溶液,用二氯甲烷定容至4 mL,过滤,滤液取样进行GC/TOFMS分析。分析条件为:
色谱柱:DB-5MS(60 m,250 μm×0.25 μm)石英毛细管柱;载气:氦气,恒1.0 mL/min;进样量:2μL;分流比:20∶1;程序升温:60℃(1.0 min)(10 min);
传输线温度:280℃;电离方式:EI;电子能量:70eV;离子源温度:200℃;扫描范围(m/z):35~450;采集频率:50 scans/s;溶剂延迟:5 min;扫描方式:TIC。
1.2.2 烟气色谱的处理与DPSO-主成分投影分析[6]
先将所有烟气样品的总离子流色谱图(TIC)分段线性拟合,扣除基线[2],并用乙酸苯乙酯(内标)校正各色谱峰的保留时间,再将烟气样本的整个色谱区间依据一阶导数法[2]划分为有明显色谱峰流出的26个色谱段,依照保留时间的长短依次将这26个色谱段(二进制)编码,利用随机产生的26个仅含0与1的向量和1个所有元素都为1的向量作为DPSO法最初的一组可行解,由DPSO通过最小化目标函数式(1)得到优化的色谱区间,通过优化色谱区间的主成分投影分析进行判别。譬如,图1中A为模拟色谱信号,B为模拟信号A的一阶导数,在色谱峰流出区域,一阶导数由相邻的一个正区间和一个负区间组成,据此即可将色谱曲线中的各信号峰所在的区间一一鉴别、标记,然后再进行二进制编码,流出峰a~d可分别编码为1,1,0,1。二进制编码分别表示某次迭代优化过程中对应区间色谱峰是否参与建模(“1”参与,“0”不参与)。所有色谱峰的二进制编码序列都视为一个粒子,其总长度等于TIC中色谱区间的总数。
图1 模拟色谱信号(A)及其一阶导数(B)
使用DPSO寻找各类型卷烟产品烟气色谱图中既具专属性又能反映整体特性的特征指纹峰,最优的DPSO目标的目标函数[10]为:
式中:Xk为第k(k=1,…,K)组样本在由前几个主成分构成的空间中的均值,X为全体样本在主成分空间中的均值,函数I(·)为指示函数,当样本xi属于第k(k=1,…,K)组时,函数值为1,否则为0。WSS反映了类内样本的相互关系,而BSS则反映了类间样本的相互关系,当两者比值达到最小时,组内样本具有最大的一致性,而组间样本则达到最大的异质性。
图2 W1(红)与W2(蓝)烟气样本的全色谱区间的无基线、保留时间校正的总离子流图(TIC)
为了消除基线漂移的影响,先将W1与W2所有烟气样品的TIC谱图分段线性拟合,扣除基线,并用乙酸苯乙酯(内标)校正各色谱峰的保留时间,结果见图2。由图2可知,2类属同品牌卷烟烟气样本的全色谱区间的TIC图极为相似,难以辨别其差异。而W1与W2的38个烟气样本的全色谱区间的主成分投影分析结果(图3)显示,两组烟气样本全色谱区间的主成分投影结果间的分散度极小,两类样本严重重叠,采用全色谱区间的主成分投影分析结果亦无法考察W1与W2烟气样本之间的差异。其原因可能是两类卷烟产品在叶组及香精香料配方上差别不大,在大部分色谱区间都有很高的相似度,故全色谱区间的主成分投影分析难以区分这两类卷烟烟气样本。
为获取可区分W1与W2两组烟气样本的色谱区间,先将烟气样本的整个色谱区间依据一阶导数法[2]划分为有明显色谱峰流出的26个色谱段。每个色谱段中仅包含一个色谱峰,这个色谱峰可能代表一种成分,也可能代表保留时间相近的多个成分。然后,依照保留时间的长短依次将这26个色谱段二进制编码。考虑到数据集的大小,利用随机产生的26个仅含0与1的向量和1个所有元素都为1的向量(对应于26个色谱区间的主成分投影分析)作为DPSO法最初的一组可行解,即26个色谱区间不同组合的初始解。最优的色谱区间组合由DPSO通过最小化目标函数式(1)得到。结果表明,在26个色谱段中有6个保留时间区域的色谱峰可用于评价W1与W2烟气样品的差异。这6个色谱区域对应的保留时间段分别为395.678~399.318,556.418~562.238,704.138~712.9180,1619.338~1628.958,1962.798~1971.918,1972.258~1979.398 s。这些区域的色谱峰在W1与W2两类烟气样本组内样本间的离散度较小,而组间样本间的离散度较大,即DPSO法搜索的这6个色谱区间对鉴别W1与W2两类烟气样本是具判别力的。W1与W2的38个烟气样本在这6个保留时间区间内的色谱峰的主成分投影分析结果见图4。由此可以看出,W1与W2烟气样品在这6个色谱区间的前两个主成分构成的投影空间中,这两种高相似度的卷烟产品的烟气样本得到了各自较为清晰可分辨的投影范围,说明这6个色谱区间内的色谱峰确实能提供较多的判别信息。而且,这38个烟气样本在包含几乎所有具有明显色谱峰流出的26个色谱段的色谱区间内的主成分投影分析结果(图5)亦显示,当用具有明显色谱峰流出的这26个色谱段做主成分投影分析时,两组烟气样本在第一、第二主成分构成的投影空间中依然严重重叠,这可能是较多的不具判别信息的色谱区间的太多的无用信息干扰所致。
图3 W1与W2烟气样本的全色谱区间流出峰在第一、第二主成分上的投影图
此外,DPSO迭代搜寻特征色谱流出区间过程中的目标函数值Fit的变化情况(图6)表明,随着迭代次数的增加,Fit值呈现较好的收敛特性,且能快速收敛到最优解,在50代以内算法即收敛,从而保证了最优色谱区间的搜索效率。
图6 W1与W2烟气样本的GC/TOFMS数据的DPSO收敛曲线
为进一步考察DPSO法结合主成分投影分析搜寻的色谱区间提供的分类判别信息的可靠性和稳定性,将W1与W2的38个烟气样品随机地分成样本量大致相等完全独立的5份,取1份作测试集,其他4份作训练集,获得5种不同的训练集、测试集组合,然后在这5组数据上重复进行试验,并在最优色谱流出区间建立偏最小二乘(PLS)分类模型,获取5次独立计算结果,同时也在全色谱区间和全26个色谱段建立PLS分类模型,3种模型各次计算的结果及5次的平均结果见表1。
表1 3种色谱区间的PLS分类模型对W1与W2烟气样本的分类建模的训练与预测结果
由表1可以看出,在各次计算中,全色谱区间建立的PLS模型精度最差,每次计算中均出现预报错误的样本,而且在模型预测方面,其性能也是最差的,5次计算测试集的平均预报错误数为2个样本。可能是因为,在整个色谱区间建模,难以避免冗余色谱信息对模型训练的干扰。26个色谱段和DPSO优化色谱段上建立的PLS模型对训练集的预报基本上都能达到100%准确率,但在模型预测上26个色谱段的模型却逊色于优化色谱区间模型,优化色谱区间的PLS模型每次计算均表现出很高的训练集和测试集分类准确度,在各次计算中,训练集的预报错误数均为0,获得了很好的模型训练,测试集的5次计算中有4次预报错误数为1,一次为0。这说明,DPSO法结合主成分分析搜寻的最优色谱区间提供的判别信息是有效的,可靠的。
DPSO法结合主成分分析是一种能在复杂谱图中有效提取具有较强类别判别能力的色谱区间的方法。主成分投影分析能合理地评价不同色谱区间包含的信息对于类别的判别能力,结合DPSO法则能自动搜寻到最优的色谱流出区间并保证数据分析的效率。本方法能够快速有效地定位合理的色谱区间,且助于建立有效的主流烟气样本分类模型。
[1]闫克玉.烟草化学[M].郑州:郑州大学出版社,2002.
[2]俞汝勤.化学计量学导论[M].长沙:湖南教育出版社,1991.
[3]闫克玉,王光耀,许志杰,等.指纹图谱技术在烟草行业中的应用研究进展[J].郑州轻工业学院学报(自然科学版),2008,23(1):6-10.
[4]李军,朱苏闽,林平.固相微萃取-气相色谱-质谱指纹图谱鉴别仿冒品牌卷烟[J].烟草科技,2002(12):26-28.
[5]余苓,张怡春,周春平,等.烟丝硅烷化GC指纹图谱在卷烟质量判别中的应用[J].中国烟草学报,2007,13(3):18-20.
[6]Wu W,Massartd D L,de Jong S.The kernel PCA algorithms for wide data.Part1:Theory and algorithms[J].Chemometr Intell Lab Syst,1997,36(2):165-172.
[7]Lin W Q,Jiang J H,Yu R Q,et al.Optimized block-wise variablecombinationbyparticleswarmoptimizationfor partial least squares modeling inquantitativestructureactivity relationship studies[J].J Chem Inf and Model,2005,45(2):486-493.
[8]ShenQ,JiangJH,YuRQ,etal.Modifiedparticle swarmoptimizationalgorithmforvariableselectionin MLR and PLS modeling:QSAR studies of antagonism of angiotensin II antagonists[J].Eur J Pharm Sci,2004,22(2-3):145-152.
[9]ZhouYP,JiangJH,LinWQ,etal.Adaptive configuringofradialbasisfunctionnetworkbyhybrid particleswarmalgorithmforQSARstudiesoforganic compounds[J].J Chem Inf Model,2006,46(6):2494-2501.
[10]Krnnedy J,Eberhart R.Particleswarmoptimization[C]//Proceedings of IEEE International Conference on Neural Networks.Piscataway.IEEE Press,1995:1942-1948.
[11]Ciuprina G,Loan D,Munteanu I.Use of intelligent-particle swarm optimization in electromagnetics[J].IEEE T Magn,2002,38(2):1037-1040.
[12]Clerc M,Kennedy J.The particle swarm-explosion,stability andconvergenceinamultidimensionalcomplexspace[J].IEEE T Evolut Comput,2002,6(1):58-73.