权美平
(1.陕西师范大学生命科学学院,陕西西安710062;2.渭南师范学院化学与生命科学学院,陕西渭南714000)
物质定量构效关系(QSPR/QSAR/QSRR)的研究已成为化学、环境、生命、食品等学科研究中的一个前沿领域。作为定量结构-性质关系研究QSAR(quantitative structure-activity relationship)/QSPR(quantitative structure-property relationship)的一个重要分支,定量结构-保留相关关系(quantitative structure-retention relationship,QSRR)的研究和应用已成为色谱领域中的有用工具,用于解释与预测各种物质的色谱行为,在色谱科学领域越来越多地受到关注。溶质的性质对于气相色谱分离有着至关重要的影响,因为除了溶质本性以外的所有影响因素都可人为予以有效控制。气相色谱保留指数(RI)作为溶质分子微观结构的函数,通过物质的定量结构与RI的QSRR,可以显示分子结构的微观参数与RI的递变规律,预测保留值、选择分离条件以及探索色谱保留机理。目前,QSRR方法已渗透到食品中的各个领域,尤其在酒类及食品中挥发类成分分析受到重视。食品中香气成分极其丰富,以色谱/质谱技术检测为主的方法比较繁琐,造成了许多分析上的不便,通过很多研究[1-5]的探索,利用 QSRR 法预测食品中香气成分的保留行为,为分析工作者提供了一定的便利。在食品香味物质的分析、监测、体系评价及预报方面具有巨大的优势,能够解决食品中传统的化学研究方法难以解决的问题。因此,QSRR技术对于建立食品中此类化合物分子结构与色谱保留之间的变化规律具有重要的意义。QSRR方法包括数据的收集、分子描述符的产生和选取、相关模型的建立和评价;而数据收集多来源于前研究的目标化合物的气相色谱数据,所以后两步对于建立稳定可靠的模型至关重要。
化合物在色谱柱上的保留行为与该化合物分子结构特征密切相关,色谱保留指数(RI)的不同是基于溶质分子结构和固定相性质的宏观反映。当流动相和固定相确定时,RI则只与溶质的分子结构相关,即与溶质分子间的作用能有关。分子间作用的本质是分子间力——取向力、诱导力、色散力和氢键,通常以色散力(或氢键)为主,而这些分子结构(作用力)可用不同的描述符(子)予以表达,目前用于分子结构描述的主要有拓扑、组成、几何、静电、量子化学和各种物化参数等描述符。尽管化合物的分子结构可采用多种类型多个描述符进行描述,然而影响保留指数变化的描述符只是其中的一部分,因此QSRR的构建,化合物分子结构的描述符的获取占据着重要的位置。
多元线性回归模型(Multple Linear Regresion,MLR)[6]:是一种经典的建模方法,它对自变量和因变量加以线性拟合得到最小二乘意义下的最佳结果,模型的拟合程度用标准的统计回归方法来评价。在线性回归中,因变量与自变量间的相关方程是由各贡献项的线性组合来表示的,方程变量的选择取决于各参数对因变量的贡献大小。目前QSRR在食品中的应用很广泛[7-9]。
偏最小二乘回归模型(partial least squares regression,PLSR):是一种多因变量对多自变量的回归建模方法,是一种比较完善的基于因子分析的多变量校正方法。它在考虑自变量的同时也考虑了因变量的作用,同时通过折衷各自空间内的因子,使模型较好地同时描述自变量和因变量。该法可同时做双线性分解,并将分解所得潜隐变量再做一次最小二乘拟合得到最终模型;并可同时对多个因变量建模,特别适应在样本容量小于变量数情况下回归建模。该模型具有良好的稳定性和泛化能力,目前在定量构效关系建模中较为流行[4-5,10]。
神经网络模型(Neural Networks,NNs):神经网络是一种通过模拟生物神经信号处理系统发展起来的机器学习方法,广泛用于模式识别、函数拟合、过程控制、图形映射等领域。人工神经网络(Artificial Neural Networks,ANN)模型[1]是通过对已知类别的训练集的拟合,来建立识别模型对未知样本进行分类和预测,ANN在多元校正及QSAR/QSPR研究应用广泛。此方法有很强的自学习、自适应、处理非线性问题的能力及分布存贮与并行处理信息的能力等优点,但缺点在于拟合程度和每个自变量对因变量的贡献大小无法用标准的统计方法来评价及其外推能力较弱,在没有或远离训练样本的自变量多维空间区域,预测误差较大,所以运用ANN建模,必须正确设置网络的各参数,选择合适的拓扑结构和算法,使网络处于良好的工作状态。为克服ANN对变量的重要性不具备筛选能力而造成网络庞大繁琐的缺点,郭伟强[11]在应用ANN时建议,可有效与回归分析相结合,挑选出重要变量作为神经网络的输入,不仅能保证选入变量的有效性和重要性,还可减少多余变量的引入所带来额外误差,使模型形式简单和优化。ANN 已广泛用于 QSAR 的研究中[12-13],食品分析中也被采用[14]。
1.3.1 模型基本评价原则 构建的模型要求模型预测误差小,精度高,稳定性强,预测能力强;所需参数少,物理意义明确,使用方便;符合统计学规则(样本数n/自变量m≥5),新模型计算与预测所得到的结果与实验测定值符合程度好,能切实为色谱工作者利用描述符研究气相色谱分子保留行为提供了简单可行的方法。
1.3.2 模型预测能力及检测方法 建立QSRR模型的重要目的是为了预测未知化合物的色谱保留行为,因此模型的预测能力比拟合更为重要。QSRR中,非交叉验证系数(相关系数)与交叉验证相关系数被认为是检验所建模型质量的判定依据,非交叉验证系数值能对数据本身的精确性与准确度做出评判,交叉验证相关系数可检测模型的稳健程度。其中交叉验证相关系数(RLOO)用Jackknife法[15]对模型进行稳健性检验,也称留一法(Leave-one-out,LOO)交互校验(cross-validation,CV),是目前较广使用的模型检验方法。留一法交互检验指每次从已知样本数n中抽出1个,用余下的(n-1)个来建立模型并预测抽出的样本,直到n个样本均被预测1次为止。建模时可得到的模型的相关系数(R)和交互校验的RLOO及模型预测与实验测定值的标准偏差(S)和交互校验的标准偏差(SCV)。当RLOO值较大,而SCV值较小,可以判断出此模型稳定性和估计能力较高。
1.3.3 模型中变量的相关性检验 另一种评价模型的稳定性及是否存在自相关性方法,可用变异膨胀因子(variance inflation factors,VIF)[16]予以判定。如VIF=1,表明各自变量间完全不相关;当VIF<5时,说明变量间没有明显的自相关性,所建模型是稳定的;当VIF>5时,说明变量间存在明显的共线性,所建模型不能用于估算与预测。
分子描述符的选择在QSRR建模中至关重要。作为分子描述符,必须能够充分揭示分子的结构信息,结构选择性高,有较强的结构差异区分能力,与保留指数性质相关性好以及计算简便等特点。但是,目标化合物的不同会影响不同领域中描述子具有不同的特点,如化学与环境研究中具有致癌、致畸和剧毒作用的有机物(有机氯化物、有机磷化合物和有机磷酸酯类化合物),对这类物质的成功建模[10,17-18]可知:一种类型的指数就可以成功表征化合物的特性,源于其是一类同系物中多种同分异构体的衍生物,结构上具有相似性。而对于食品研究而言,大部分食品中呈香化合物种类繁多,仅靠一种类型的描述符难以充分表征分子结构特征,反映食品中香气成分分子的性质变化及有效地揭示影响化合物色谱保留指数的本质因素,所以,食品QSRR中的分子描述符有其特点:多为2种或以上类型的描述符进行结合[7-8,19-21]。
总结近几年关于食品QSRR研究可知:以分子连接性指数[22]、电性距离矢量[23]、分子形状指数[24]、电性拓扑状态指数[25]等描述符最为常见。分子连接性指数是根据分子结构计算得出的一种非经验性参数,是表征化合物分子中各骨架原子排列、化学键连接方式的一种指数;既能反映出分子的大小、表面积和体积,又能区分不同的异构体;电拓扑状态(E-State)指数是分子连接性理论创始人Kier和Hall提出的基于原子水平的二维分子描述子[26],它既能反映各原子的价态和在分子中的拓扑环境,又能反映原子之间的电性相互作用。由于能反映电子结构特性,可用于建立有机化合物理化、毒理性质与分子结构之间的相关关系模型[27]。电性距离矢量则表达了不同类型的非氢原子在分子环境中的不同电性和连接方式的结构特征,原子的连接关系、距离,可以反映诱导力和取向力的大小。而分子形状指数是反映分子形状或立体空间拓扑结构的一种参数;常与别的指数结合使用[24,28-29]。不管哪种类型的描述符,只要能全面较好地表征目标物质分子结构特征,所构建的分子拓扑指数包含了影响保留数据的本质因素,它们之间就必然具有优良的相关关系,最终确保模型建立的成功。
2.3.1 酒中香气成分 秦正龙等[8]利用多元线性回归方法,建立白酒中主要微量香味物质醇和酯的拓扑指数Wn和极性指数P与醇和酯的保留时间的QSRR模型,它们的相关系数均大于0.99,且模型得到的计算值与实验值较好吻合,为预测醇和酯的保留时间、研究未知微量香味物质提供了重要的参考依据。乔华等[30]由于引入描述符SEDs包含了三维分子结构的大小、形状、对称性、电荷情况以及拓扑指数等对汾酒65种香味成分进行分类并分别建立QSRR模型,结果显示,所建模型的相关系数均大于0.969,表明香味成分保留时间与建模时引用参数具有良好相关性;交互验证的相关系数均大于0.932,说明所建模型稳定性好,具有较强的预测能力。冯子雅等[31]利用计算得到的分子连接性指数和电性拓扑态指数对黑莓果酒香气成分的成功建模,堵锡华等[9,29,32]对猕猴桃果酒香气成分、香梨酒香气成分和霞多丽干白葡萄酒香气成分QSRR系列研究为研制和开发新型果酒、提高果酒品质提供一定的参考依据。
2.3.2 其它食品类香气成分 堵锡华等[24]基于多元回归获得对鱼腥草挥发性成分的保留指数作出精确估算的保留相关模型,得到回归方程的相关系数达到0.991,交叉验证系数(RLOO)0.990,随机抽取个别分子进行预测,预测值与实验值的相对平均误差仅为1.52%,说明本法的预测能力较好。表明研究所采用的分子连接性指数、分子形状指数和电性拓扑态指数能合理和有效的表征鱼腥草挥发性成分的保留指数,揭示了鱼腥草挥发性成分的保留性质变化规律。冯长君等[19]采用价连接性指数(mXtv)、电性距离矢量(Mt)与储良龙眼中挥发性化合物的保留指数(RI)关联,最佳变量子集回归建立的数学模型,模型相关系数为0.991,Jackknife法检验交叉验证系数(RLOO)0.976,证明所建立模型具有良好稳定性与预测能力,也说明这些描述子对龙眼挥发性成分的结构表征是合理的,与保留指数之间存在密切相关关系。秦正龙等[7]用电性距离矢量和分子连接性指数对29个八角茴香挥发油分子进行结构表征,通过多元线性回归及最佳变量子集方法建立QSRR模型。由于两个指数联合作用,能较全面地反映分子结构特征,揭示影响化合物色谱保留的本质因素,模型具有可接受的总体稳健性及良好的预测能力。陈艳等[33]以价分子连接性指数、电性拓扑状态指数和电性距离矢量为描述符建立的肉豆蔻精油挥发性组分QSRR模型,她以同样方法建立的罗望子挥发性组分模型都表明[20],这三种指数联合能够有效地揭示影响化合物色谱保留指数的本质因素。吴菊花等[34]仅采用分子电性距离矢量(MEDV)一种描述符对枣香味成分的成功建模,表明MEDV矢量不只是应用于具有相似结构的同一类化合物的QSRR研究,在有机物QSRR研究上有较强的普适性[35]。将其用于天然产物挥发性组分的QSRR研究,对于天然产物中挥发性有机化合物的QSRR研究具有一定参考价值。这些对不同食品香气成分QSRR研究的探索,为食品其它各种挥发性化合物保留指数的预测提供一种简便有效手段。
随着QSRR在化学、环境与生命等领域应用的日趋广泛,定量结构-保留相关(QSRR)在食品分析中也不同程度的得到了应用,为食品行业分析方法打开了新的局面、注入了新活力。但目前还处于起步阶段,为深入研究,进一步扩大QSRR的应用范围,势必需要计算机科学、数学、统计等学科领域的跟进和辅助;以更方便快捷的计算和筛选出合适的描述符,这样必将会促进QSRR进一步的发展和应用,为食品资源综合利用以及功能性食品的研发提供理论支持。
[1]何池洋,黄存富,孙益民.饱和醇结构-保留定量相关的人工神经网络模型[J].分析测试学报,2003,22(1):21-23.
[2]陈艳,冯长君.酯类化合物Kov·ts保留指数的拓扑研究[J].湖南师范大学学报,2006,29(4):53-56.
[3]王伟,张生万,李美萍.分子电性距离矢量用于酯的定量结构-色谱保留相关研究[J].化学分析计量,2008,17(1):20-22.
[4]王伟,张生万,寇建仁.脂肪醇气相色谱保留指数的预测与估算[J].计算机与应用化学,2007,24(5):678-680.
[5]杜文,张生万,寇建仁.含氧化合物气相色谱保留指数的预测[J].分析科学学报,2007,23(4):425-428.
[6]Bermejo J,GuilleM D.Prediction of Kovas retention index of saturated alcohols on stationary phases of different polarity[J].AnalChem,1987,59(1):94-100.
[7]秦正龙,冯长君.八角茴香挥发油色谱保留值的构效关系研究[J].中国调味品,2012,37(8):43-45.
[8]秦正龙,堵锡华.醇和酯的定量结构-保留相关性[J].食品与机械,2011,27(5):25-27.
[9]堵锡华,陈艳.猕猴桃果酒香气成分的定量结构-保留相关性[J].酿酒科技,2010(3):24-30.
[10]王海燕,张爱茜,孙成.应用分子全息 QSRR预测有机磷化合物的色谱保留指数[J].科学通报,2008,53(19):2292-2297.
[11]郭伟强,卢鸯,郑小明.饱和醇定量结构一保留相关研究中人工神经网络的应用[J].分析化学,2001,29(4):416-420.
[12]赵筱萍,范骁辉,余杰,等.一类基于组效关系神经网络模型的中药药效预测方法[J].中国中药杂志,2004,29(11):1082-1085.
[13]姚美村,乔延江,袁月梅,等.基于人工神经网络方法的中药功效归类研究[J].中国中药杂志,2003,28(7):689-691.
[14]刘延庆,冯长君.用Kier逆指数与神经网络研究木香花挥发性化学成分的保留时间[J].中药材,2009,32(4):539-542.
[15]Dietrich W S,Dreyer N D,Hansch C.Confidence interval estimators for parameters associated with quantitative structure/activity relationship[J].J Med Chem,1980,23(11):1201-1205.
[16]冯长君,沐来龙,杨伟华,等.有机污染物的生物富集因子与拓扑指数的数学模型[J].物理化学学报,2008,24(6):1053-1057.
[17]王宇,刘树深,赵劲松.电拓扑状态预测有机磷酸酯类化合物的气相色谱保留指数[J].化学学报,2006,64(10):1043-1050.
[18]李仁炳,胥江河,蔡强.二恶英异构体的定量结构色谱保留相关研究[J].西南师范大学学报,2005,30(5):906-913.
[19]冯长君,刘玉胜,冯惠.储良龙眼挥发性成分的定量-保留指数学[J].食品科学,2012,33(8):244-247.
[20]陈艳,岳伟.罗望子挥发性组分气相色谱保留时间的构效关系[J].武汉大学学报,2010,56(5):527-531.
[21]堵锡华,陈艳.柚子皮香精油挥发性成分的保留相关性研究[J].食品科学,2009,30(19):61-64.
[22]Kier L B,Hall L H.Molecular connectivity in structureactivityanalysis[M].New York:Wiley,John & Sons,1986:1074-1080.
[23]LIU Shushen,YIN Chunsheng,LI Zhiliang.QSAR study of steroid benchmark and dipeptides based on medv-13[J].J Chem Inf Comput Sci,2001,41(2):321-329.
[24]堵锡华,陈艳,岳玮.鱼腥草挥发性成分的定量结构与保留指数相关性研究[J].食品科学,2010,31(22):357-360.
[25]Hall L H,Kier L B.Electrotopological state indices for atom types.A novel combination of electronic,topological,and valence state information[J].J Chem Inf Comput Sci,1995,35(6):1039-1045.
[26]Kier L B,Hall L H.Molecular structure description:The elec-trotopological state[M].New York:Academic Press,1999.
[27]毛亮,高士祥,张爱茜,等.电拓扑状态指数在有机污染物理化性质和毒理学性质预测中的应用[J].化学通报,2008,71(2):118-122.
[28]王晓辉,堵锡华,陈艳.紫苏叶和紫苏子挥发油共有成分的保留相关性[J].食品科学,2010,31(18):248-251
[29]堵锡华.香梨酒香气成分保留时间的定量构效关系研究[J].食品科学,2011,32(2):218-221.
[30]乔华,李美萍,马艳红.汾酒香味成分分析及定量结构—色谱保留相关性研究[J].食品工业科技,2012,33(6):95-98.
[31]冯子雅,堵锡华.黑莓果酒香气成分的定量结构-保留相关性[J].食品科学,2010,31(24):311-313.
[32]堵锡华,陈艳,高淑云.霞多丽干白葡萄酒香气成分定量结构-色谱保留相关性研究[J].酿酒科技,2009(12):27-29.
[33]陈艳.肉豆蔻精油挥发性组分色谱保留指数的预测[J].食品科学,2011,32(12):274-277.
[34]吴菊花,张生万,张婵娟.枣香味成分的结构表征及其色谱保留值的预测[J].山西大学学报,2010,33(3):425-429.
[35]杨娟,梅虎,舒茂,等.罗望子挥发性组分的定量结构-色谱保留值关系研究[J].食品工业科技,2008(4):84-86.