韩宁娟 方欢乐 刘建利
1.西安培华学院医学院,陕西西安 710125;2.西北大学生命科学院,陕西西安 710069
大叶钩藤(Uncaria macrophylla)为茜草科,钩藤属大藤本植物,具有清热安神、镇静息风等作用[1],在2000 年的《中医大辞典》[2]成分补遗中记载大叶钩藤的叶子中含有钩藤碱、柯诺辛碱和柯诺辛碱B、非生物碱类乌索酸、表儿茶素等[3]。李春等[4]用丙酮萃取提取大叶钩藤钩茎中的挥发性成分,并用气相色谱-质谱法分析分离鉴定出58 种化合物。定量结构-色谱保留关系研究对于预测化合物的色谱保留时间,选择分离条件,协助鉴定化合物等具有重要意义[5]。在这方面,研究人员做了很多有意义的工作。廖立敏等[6]构建了饮用水中挥发性有机物结构和色谱保留时间的关系模型;何琴等[7]构建了香水百合香气成分与色谱保留时间的关系模型;堵锡华等[8]构建了乌药化学成分结构与色谱保留时间的关系模型,所建模型均有较好的稳定性和预测能力。本文对大叶钩藤钩茎的58 个挥发性成分结构用14 个描述符进行表征,并用多元线性回归(MLR)和偏最小二乘回归(PLS) 建立大叶钩藤钩茎的58 个挥发性成分的分子结构-色谱保留时间关系模型,预测色谱保留时间,采用“留一法”对模型的预测效果进行评价,为中草药中有机化合物结构的定量结构-色谱保留关系研究提供了参考。
对文献[4]中大叶钩藤钩茎中的58 个化合物进行
结构表征,可得到14 个描述符,将部分变量列于表1。
按参考文献[9-10]的方法,根据直接连接的非氢原子和其他非氢原子的直接相连的数目,将非氢原子分为4 种,例如和1 个非氢原子连接的非氢原子属第1 类非氢原子,依次类推,再根据用公式(1)算出化合物中非氢原子的参数化Zi 值。
其中ni是非氢原子i 的电子层数,qc是碳原子的电负性,qi是非氢原子i 的电负性,mi是非氢原子的价电子数i,hi是直接连接的氢原子数。
不同类型的非氢原子自身对化合物在色谱中保留时间的影响,数值x 按式(2)进行累加计算。
其中k 为非氢原子i 的原子类型。
化合物结构中非氢原子之间的关系对化合物色谱中保留时间的影响可以通过式(3)计算[11-13]。
若用n 和l 代表非氢原子的类型,rij 为两个非氢原子之间的相对距离(即非氢原子的最短路径键长之和与C-C 单键键长之比)。这样,每个化合物结构最多可以有14 个描述符进行表征,包括不同类型的非氢原子自身4 个,非氢原子之间的关系10 个描述符。
MLR 是定量结构-色谱保留关系研究中最常用的一种方法,可以直观、简便地对一组数据进行最小二乘拟合处理,建立函数关系。主要过程包括:首先将计算出的化合物结构描述用SPSS 12.0 软件进行逐步回归筛选变量,并对变量进行偏F 检验,当有显著性水平(P<0.05),则将变量作为候选变量,否则剔除,再将候选变量以相关系数(R)、标准偏差(SD)为指标[14-16],对候选变量进行逐步回归分析,建立化合物结构描述符与保留时间的关系模型。
PLS 可以很好地解决变量缺失值和多重共线性等问题。以化合物的结构描述符为变量x,文献[4]中实验测得的保留时间值为因变量Y。用simca-P 11.5软件建立大叶钩藤中的58 种有机化合物结构描述符与气相色谱保留时间的关系模型。变量重要性投影(VIP) 是一个能够反映各变量对Y 解释能力大小的重要指标,当VIP 值大于1 时,表明该自变量对Y 具有较大贡献,有较强的解释能力。
无论是MLR 模型还是PLS 模型,都要求模型有较好的拟合能力和预测能力[17-20]。因此,在选择模型时不仅要选择拟合能力较好的模型,还要选择交互检验相关系数(Rcv)较大的模型。本文采用MLR 与PLS 分别进行建模分析,并用“留一法”对模型的预测能力进行检验。一般认为模型的R 在0.60~1.00,Rcv≥0.5,提示此模型拟合能力较好,预测能力强。建模的SD与样本色谱保留时间的差值(样本色谱保留时间的最大值-最小值)的比值<10%,则认为该模型具有良好预测准确性[21-24]。用方差膨胀因子衡量模型变量之间是否存在共线性,理想模型中所有变量的方差膨胀因子应≤10[25]。
最终得到5 个变量MLR 模型结果如式(4)所示:
“留一法”交互检验结果:Rcv=0.886,SDcv=5.862,Fcv=45.687。模型R 为0.949,SD 为2.862,58 个样本色谱保留时间的差值为48.434,模型的SD 与样本保留时间差值的比值为5.91%。
PLS 模型的相关系数与“留一法”交互检验的R和Rcv 分别为0.945 和0.867;SD 为2.678,模型的SD与样本保留时间的差值的比值为5.53%。58 个样本在PLS 前2 个主成分的得分散点图见图1,超过95%的样本点落在95%置信度的Hotelling T2椭圆置信度范围内。本研究建立的模型变量x1、x2 的VIP 值都大于1,说明这2 个变量对色谱保留时间Y 的解释能力较大,该体系中第1 类原子和第2 类原子对化合物的色谱保留时间预测值关系密切。见图2。
图1 样本在前2 个主成分得分分布散点图
图2 变量重要性投影图
两个模型的预测数据都落在45°对角线附近,且都有几个点偏离对角线,两个模型的整体拟合效果较好,但个别样本的误差较大,见图3。两个模型都有3 个样品的模型预测值和实验值之间的误差略微超出2SD 范围,但不到总样品的6%,其余样品产生的误差不超过2SD 范围,在可接受的误差范围内,两个模型的质量相当。见图4。
化合物定量结构-色谱保留关系是色谱学基础理论研究的重要组成部分,研究化合物的分子结构与色谱保留时间的关联,对色谱过程中保留值的预测、探索色谱保留机制等方面具有重要意义[26]。在化合物结构参数化表征过程中,不仅考虑了非氢原子的电子层数、最外层电子数、电负性等非氢原子自身的特性,还包含了非氢原子键合的氢原子个数、连接非氢原子的基团个数等非氢原子的成键环境因素,比较全面地揭示化合物结构中每个定点非氢原子的结构特征。
图3 模型预测值与实验值相关图
图4 预测误差分布图
但是,对化合物结构描述符的表达是基于二维平面结构得到的,分子立体结构的特征如顺反异构体、旋光异构等不能区分,建模所采用的是保留时间,未能避免由设备、方法和色谱柱等因素带来的保留时间的系统性差异,需要在今后的研究中予以克服。
需要进一步说明的是,本研究中个别样本的预测误差较大,可能是由于该样品化合物的结构跨度较大,包括醇、酮、醛、酸、植物甾醇等化合物,含有氧、硫、磷、氯等杂原子,是一个复杂的样本体系。也可能是因为实验本身存在误差。但是,对于这样一个复杂的样本系统,这两个模型获得的结果应该令人满意。