何 琴,李各各,朱 蕾
(许昌学院 化学化工学院,河南 许昌 461000)
基于神经网络的玫瑰花挥发性有机物的定量结构色谱保留相关
何琴,李各各,朱蕾
(许昌学院 化学化工学院,河南 许昌 461000)
采用人工神经网络(Artificial Neural Network, ANN)中的误差反向传播神经网络(Error Back Propagation,BP)方法,以40种玫瑰花挥发性成分的4个拓扑指数作为输入,以保留时间作为输出,建立其定量结构-色谱保留时间(Quantitative Structure Chromatographic retention Relationship, QSRR)相关模型.采用留一交叉检验和外检验相结合的方法检验模型的稳健性和预测能力.得到的留一交叉相关系数为0.986 6;外检验时,预测集的相关系数为0.992 6;而采用多元线性回归(Multiple Linear Regressions,MLR)法所得相关系数为0.954 5.结果表明,ANN模型比MLR模型有更好的拟合效果.
玫瑰花;人工神经网络;定量结构色谱保留相关;挥发性成分
玫瑰花具有较高的食用、药用和观赏价值[1],其所含的挥发性成分(Volatile Organic Compounds, VOC)是很珍贵的工业原料,常用于高级香料、食品、酿酒等行业[2-3].玫瑰花挥发性成分的测定对玫瑰精油的提取、生产具有重要的指导作用[4-5],也能应用于其品质分析.目前,玫瑰花挥发性成分的测定多采用气相色谱或气质联用[6-7],方法繁琐费时,人力、物力、财力耗费较大.而定量结构-色谱保留相关(quantitative structure-retention relationship, QSRR)在现代色谱领域中已经受到了广泛关注,它可以建立分子结构与色谱保留的定量模型,也可以用来解释各种化合物的色谱行为、预测色谱保留时间,并对选择色谱条件和深入研究色谱保留机理具有重要意义[8-9].经典的QSRR研究多采用多元线性回归法(MLR),近年来人工神经网络法(Artificial Neural Network, ANN)备受关注[10-12].
论文拟采用ANN法,对玫瑰花挥发性成分进行QSRR研究,为玫瑰花挥发性成分的测定、VOC的提取和应用等研究奠定一定的基础.
1.1数据来源
在玫瑰花挥发性化学成分的QSRR研究中,其相应的气相色谱保留值数据源自于文献[2].
1.2研究方法
采用误差反传前向人工神经网络(BP-ANN)法进行建模,并将建模结果与经典的MLR方法进行比较.
1.3BP网络训练集与预测集的构建
BP网络由MATLAB7工具箱提供.从40种玫瑰花挥发性成分中每隔4个标*号的样本作为预测集,不带*号标记的样本作为训练集,见表1.构建训练集和预测集的输入(结构参数)、输出(色谱保留)矩阵后,进行模型的构建、优化和仿真.
1.4模型的检验
留一交叉检验(Leave-One-Out cross Validation,LOO-CV)常用来检验所建模型的稳健性,论文选取32种玫瑰花挥发性化合物为训练集,余下8种化合物为外部预测集,通过留一交叉法检验模型的稳健性.另外,通过8样本外部检验考察模型的预测能力.
2.1ANN模型构建和参数选择
2.1.1BP网络的结构
BP网络有三层,通过数据试验,优化为:4×2×1.
2.1.2网络参数的确定
隐含层节点数体现了网络的复杂程度,隐含层节点数过大,网络越复杂.一般选取输入层节点数与输出层节点数之和的一半,单因素优化,选取最合适的隐含层节点数,为2.
目标函数也被称为误差函数,即当函数达到所要求的误差时,网络停止训练,结果输出,而当达不到要求时,函数按原定路线将误差反向传递、调节权重和偏置,直到误差达到要求[9].论文通过单因素得到最优的目标函数1×10-6.
学习速率的大小也会影响到系统的稳定性.过大的学习速率会导致网络的不稳定,而学习速率过小会使学习过程太长,因此选择适当的学习速率是非常有必要的.数据试验优化后的最佳学习速率为0.1.同理得到最佳学习次数为9 000.
优化后的网络拓扑结构为4×2×1,目标函数为1×10-6、学习速度为0.1、学习次数为9 000.
2.2BP网络的预测能力
优化后,模型预测得到的预测值如表1所示.模型的自相容和泛化能力预测值以及留一交叉检验预测值与实验值较为接近,相对误差范围分别为-0.134~0.329(自相容和泛化)和-0.069~0.379(LOO-CV).而MLR法得到的预测误差在-0.179~0.495之间.由此可见,BP-ANN模型的预测能力优于MLR模型.
表1 玫瑰花挥发性化学成分的拓扑指数及其保留时间
续表1
No化合物tR/(min)BP-ANN模型预测值(自相容和泛化)Er(自相容和泛化)BP-ANN模型预测值(LOO)Er(LOO)MLR模型预测值Er(MLR)15*香叶醇13.8812.52-0.09814.040.01212.69-0.08616香叶醛14.1312.23-0.13413.56-0.04012.35-0.12617正十二烷14.5614.870.02114.700.01014.32-0.01618香叶酸甲酯14.8814.900.00114.64-0.01614.41-0.03219香茅醇乙酸酯15.2515.620.02415.510.01716.180.06120*橙花醇乙酸酯15.3815.37-0.00115.630.01716.280.05921香叶醇乙酸酯15.6514.62-0.06615.660.00015.04-0.03922丁香酚甲醚15.9715.73-0.01516.120.00915.63-0.02123雪松烯16.3715.27-0.06716.580.01314.06-0.14124石竹烯16.4016.31-0.00516.39-0.00116.25-0.00925*愈创木二烯16.5516.640.00615.98-0.03416.22-0.02026(E)-金合欢烯16.6716.930.01616.890.01317.330.04027α-蛇麻烯16.8816.82-0.00317.140.01517.960.06428大根叶烯-D17.1916.57-0.03616.79-0.02316.35-0.04929正十五烷17.2617.600.01917.18-0.00517.12-0.00830*金合欢烯17.3317.710.02216.56-0.04417.330.000311(10),11-愈创木二烯17.4316.67-0.04417.36-0.00416.24-0.06832正十六烷18.4718.45-0.00118.33-0.00718.05-0.023338-十七碳烯19.3919.32-0.00419.34-0.00318.79-0.03134正十七烷19.6319.37-0.01319.690.00318.98-0.03335*十八烷20.7221.010.01421.170.02219.90-0.040362,6,10-三甲基十四烷21.4520.92-0.02521.510.00319.92-0.071379-十九碳烯21.5221.04-0.02221.650.00620.64-0.04138正二十烷21.7722.070.01421.60-0.00821.760.00039正二十二烷22.7623.930.05123.400.02823.610.03740*9-己基十七烷23.7224.550.03524.530.03426.390.113
图1 ANN与MLR预测残差值散点图
预测相对误差散点图如图1所示,BP-ANN模型预测误差更接近与0轴,且在0轴附近均匀分布,说明BP-ANN模型的预测能力优于MLR模型.样本1“α-蒎烯”在两种方法中均是预测误差较大的样本,可能的原因有两个,一是结构提取不够全面,二是保留时间测定不够准确.具体是哪种原因,因为条件的限制没有进行深入研究.
2.3ANN模型与MLR模型的比较
优化后,对所构建的模型进行留一交叉检验(LOO-CV)和自相容、泛化能力检验,相关分析见表2、图2、图3和图4.BP-ANN模型留一交叉检验相关系数QCV为0.986 6,自相容和泛化能力的相关系数R为0.975 6,外部集交叉检验相关系数Qext为0.992 6.而用MLR法构建的模型的相关系数为0.954 5.由此可见,BP-ANN法所构建模型的稳健性优于MLR法构建的模型,模型稳健性良好;结合表1和图1可知,BP-ANN模型预测能力优良.
表2 MLR法与ANN法的比较
图2 BP-ANN模型的相关分析图(自相容和泛化值)
图3 基于MLR模型的相关分析图
2.4泛化能力
BP网络的泛化能力是指网络对集外样本的预测能力.影响泛化能力的因素很多,如训练集过少可能会导致网络的学习可靠性不强,不能很好地反映问题的本质,而过多的训练集中,跳跃性较大的样本也会影响网络的泛化能力[13].
在最优参数条件下,8样本交叉检验所得预测值与实验值相关分析如图5所示,相关系数为0.992 5,8样本的预测相对误差分别为:-0.016、0.040、-0.098、-0.001、0.006、0.022、0.014、0.035,均较小.由此可知,BP-ANN构建的模型具有良好的泛化能力.
图4 留一交叉检验法数据相关分析图
图5 预测集泛化能力相关分析图
BP-ANN结构为4×2×1,目标函数为1×10-6,学习速率为0.1,步长值为9 000,模型取得了较好的预测结果.BP-ANN法的预测相对误差分布为-0.134~0.329,而MLR法的预测相对误差分布为-0.179~0.495, BP-ANN法的预测结果要优于MLR法.另外,BP-ANN模型的相关系数为0.975 6,标准偏差SD为0.949 1,比MLR建立的模型相关关系数0.954 5、标准偏差1.234 3要好.
但BP网络还存在一些不足,如网络的不稳定性,得到的结果有时会偏差很大,需要经过大量反复的实验才能确定,而且参数的选择并没有确定的数值,都是凭经验而定.对于这些缺点,通常要对BP网络进行改进,除通常所用的多次对所建模型训练,其改进方法有待于进一步探究.
[1]胡晓燕,沈才洪,敖宗华,等.玫瑰花有效成分及玫瑰花酒的研究进展[J].酿酒科技,2014(11):68-72.
[2]陈红艳, 廖蓉苏,杨今朝.玫瑰花挥发性化学成分的分析研究[J].食品科技,2011,36(11):186-190,196.
[3]王淑敏,刘春明,邢俊鹏,等.玫瑰花中挥发油成分的超临界萃取及质谱分析[J].质谱学报,2006,27(1):45-49.
[4]陈艳,李靖.QSRR研究用于玫瑰花挥发性化学成分色谱保留值的预测[J].时珍国医国药,2013,24(11):2 573-2 576.
[5]何琴.BP网络用于香梨酒香气成分的QSRR研究[J].安徽大学学报:自然科学版,2013,37(5):86-91.
[6]Wang Cheng-Zhong, Su Yue, Wang Hao-Yang, Guo Yin-Long. Gas Chromatographic-Ion Trap Mass Spectrometric Analysis of Volatile Organic Compounds by Ion-Molecule Reactions Using the Electron-Deficient Reagent Ion CCl3+[J]. Journal of The American Society for Mass Spectrometry, 2011, 22(10): 1 839-1 850.
[7]Kang Wen-Yi, Wang Jin-Mei, Tian Pu-Yu. Analysis of volatiles in the flowers of Patrinia scabiosifolia BY HS-SPME-GC-MS[J]. Chemistry of Natural Compounds, 2011, 47(1): 101-102.
[8]Angelo Antonio D’Archivio, Maria Anna Maggi, Fabrizio Ruggieri. Artificial neural network prediction of multilinear gradient retention in reversed-phase HPLC: comprehensive QSRR-based models combining categorical or structural solute descriptors and gradient profile parameters [J]. Analytical and Bioanalytical Chemistry, 2015, 407(4): 1 181-1 190.
[9]张晓彤,国晶晶,任创,等.人工神经网络方法对卤代联苯化合物的QSRR研究[J].石油化工高等学校学报,2011,24(1):26-28.
[10]何琴.人工神经网络用于有机磷酸酯类化合物的定量结构色谱保留相关研究[J].分析科学学报,2013,29(4):483-487.
[11]张晓彤,葛翠年,孙兆林,等.烷基硫醇在不同固定相上的QSRR研究[J].计算机与应用化学,2013,30(1):21-26.
[12]张晓彤,王芳,姚岳,等.分子电性距离矢量用于FCC汽油中硫化物的QSRR研究[J].化学分析计量,2014,23(4):6-10.
[13]周文全.BP网络泛化能力的增强改进[D].广州:暨南大学,2012.
责任编辑:卫世乾
Quantitative Structure-Retention Relationship Study of the Volatile Organic Compounds of Rose Flowers Based on Neural Network
HE Qin, LI Ge-ge, ZHU Lei
(SchoolofChemistryandChemicalEngineering,XuchangUniversity,Xuchang461000,China)
When using 4 toplogical indexes of 40 volatile organic compounds of rose flowers as inputs and the retention time as output, the error back propagation algorithm (EBP)of the artificial neural network (ANN) as the model we establish the quantitative structure retention relationship (QSRR)correlation model. The stability and predictive ability of the model was analyzed by the leave-one-out cross-validation and external validation. When the correlation coefficient of the leave-one-out cross-validation check is 0.9866;when it is applied in predicting the external set, the correlation coefficient is 0.9926. For the MLR model, the correlation coefficient is 0.9545. The results showed that the performance of ANN model is better than that MLR method in terms of fitting effect.
rose; artificial neural network; quantitative structure retention relationship; volatile organic compounds
2016-05-03
许昌学院优秀青年骨干教师资助项目
何琴(1979—),女,湖北黄冈人,副教授,硕士,研究方向:定量构效关系和教学.
1671-9824(2016)05-0075-05
O659.2
A