刘 英,尹京晨,计惠芬,贾青竹
(1. 天津科技大学海洋与环境学院,天津 300457;2. 浙江东洋环境工程有限公司,湖州 313000)
单端孢霉烯族毒素(trichothecenes)是一类化学性质相近的真菌毒素,由镰刀菌属、单端孢属和头孢霉属等真菌产生[1-2],其结构属于倍半枯环氧化物,具有1个三环核心,在C12和C13位含有1个环氧化物,这是一个毒性必需基团(核心结构见图 1).该类毒素不仅污染小麦和玉米等禾谷类作物,也会通过食物链危害肉、奶、蛋等畜产品,WTO已将其列为天然存在的最危险的食品污染物之一[3].而且,由于该类毒素对真核细胞具有多重抑制作用,通过对蛋白质、DNA 和 RNA 合成的抑制,对线粒体功能、细胞分裂和膜功能的抑制以及促进凋亡基因的表达,对人畜健康产生免疫抑制,导致其具有典型的“致癌、致畸、致突变”作用,从而严重威胁人畜健康[4].
图1 单端孢霉烯核结构Fig. 1 Structure of the trichothecene nucleus
定量构效关系(quantitative structure-activity rela-tionship,QSAR)是研究化合物结构与生物活性相关性的典型方法,广泛应用于新药物设计以及对于毒性机制的理解探究领域[5-8].尽管已有学者对单端孢霉烯族毒素的结构与活性关系进行了考察,但是至今关于这一系列毒素的 QSAR 研究依然很少[5-6].Steinmetz等[6]基于分子比较力场分析(comparative molecular field analysis,CoMFA)方法和比较分子相似因子分析(comparative molecular similarity indices analysis,CoMSIA)方法对32个大环内酯物单端孢霉烯族毒素和 15个单端孢霉烯族毒素的毒性进行了3D(3 dimension)QSAR研究,结果表明单端孢霉烯族毒素类物质的取代基以及分子构象对其生物活性都有一定影响.
本课题组之前提出系列范数指数描述符已经成功地预测了有机物多种活性,包括麻醉性污染物的水生毒性、杂环化合物的药理学和毒理学活性等[7-10].先前的研究工作表明该系列范数描述符也许可以从本质上体现分子结构,从而反映化合物的多个物化性质.
在本课题组之前工作的基础上,本工作又提出新的描述符,并据此建立单端孢霉烯真菌毒素的毒性预测模型,对 35个单端孢霉烯真菌毒素的毒性进行了计算,采用留一法交叉验证(LOO)、外部验证和 Y随机验证手段对模型进行了验证,并对模型的应用域(AD)进行了评价.本工作深入研究此类化合物分子结构对其毒性的影响,将有助于人们采取更科学的毒素防控及清除机制.
Jarvis等[11-12]测定了大环内酯物真菌毒素在延长接种p-388白血病小鼠生命中的能力,这些数据可以从根本上反映大环内酯物真菌毒素对于小鼠白血病细胞的影响,并将测定活性定量为R,即R=100×测试集动物存活天数/对照组动物存活天数.在此工作中,包含大环内酯物真菌毒素毒性数据的化合物分子(代表性分子结构见图2)从文献中[6,13-14]获得.
图2 两种大环内酯物真菌毒素结构Fig. 2 Structure of two macrolide trichothecene mycotoxins
利用软件HyperChem 7.0构建分子的3D结构,对有机物分子结构进行优化,具体采用量子化学中的从头算法ab initio在ST0-3G进行能量最低优化,分子结构信息中包括分子中原子的种类、数量、分支度,原子之间的键连接形式以及稳定结构下的原子电荷.
在分子结构优化基础上,为了区分原子的特点和种类,本工作提出了性质矩阵.同时,欧氏空间距离矩阵是一种能够全面、有效的描述分子的方法,因此,本工作提出了不同的矩阵.
下面列出上述具体矩阵.
为了讨论上述矩阵的模,本工作使用了两类范数指数 norm(TP,1)和 norm(TP,2),其定义式如下:norm(TP,1):Fro函数
在式(8)中,操作符(.×)的含义是标量相乘.通过范数计算得到48个范数描述符,为避免描述符过多而造成模型过度拟合,对建模所用描述符进行优化筛选,最后优选了6个范数描述符,建立预测模型如下:
模型中系数b见表1.
表1 模型系数Tab. 1 Parameters of this model
通过下列参数评价本工作建立模型的稳定性:相关系数的平方(R2)、平均相对误差值.为了进一步验证模型的准确性,还使用了留一交叉验证法(Q2)、外部验证法、Y随机验证法进行验证.
同时,本工作选择了应用域验证本模型的应用范围[15],其定 义为式(15):
在上述等式中,h是杠杆值,x是变量值.
通过与阈值(h*)比较,如果h<h*,表明在这个区域内模型的预测性是稳定的;反之,这个模型的预测能力是较差的[16-17].阈值的定义为式(16)
式中:p′是自变量数量加1;n是训练集数量.
利用新建模型式(9)对 35个大环内酯物真菌毒素的毒性进行了预测,图3是大环内酯物真菌毒素毒性的实验值log10R与预测值对比散点图.
图3 log10R预测值和实验值相关性Fig. 3 Correlation between log10R predicted by this model and the experimental data
由图3可知:所有毒素的毒性预测点和实验点均位于对角线上及附近,表明本模型计算结果与实验值有很好的一致性.本预测模型相关统计数据、和 F值分别为 0.925,4、0.996,6和 78.95,说明本模型计算结果的精确性较好.
图 4是残差与实验值的对比图.从图 4可以看出所有毒素的毒性预测残差都分布在-0.3~0.3,这表明本工作的系统误差小,模型预测能力稳定;同时,可以说明本工作提出的变量能有效地反映分子结构与毒性之间的关系.
图4 残差与实验值对比图Fig. 4 Plot of the residual vs.experimental data from this model
本工作与Steinmetz等[6]对比结果见表2.由表 2可以看出文献中 CoMSIA方法和本工作得到的相关系数 R2都大于 0.900,R2均在同一数量级,但是本工作交叉验证的相关系数远大于 CoMSIA方法,说明本工作的模型更稳定.对于F值而言,本工作的F值同样远大于文献中两种方法得出的 F值,更进一步证明本模型的准确性高、稳定性好.
表2 本方法和文献方法预测结果对比Tab. 2 Statistics comparison of reference methods and this work
本工作采用多元线性回归分析法,建立关于大环内酯物真菌毒素的结构与毒性关系模型.Steinmetz等[6]利用CoMFA方法研究结果表明,空间位阻和静电因素对毒素的活性有重大影响,其中静电因素的贡献更大;同时,相比之下包含氢键供体/受体的CoMSIA方法计算结果更为精确.本工作在计算描述符的优化确定中,首先利用欧氏距离以及相关距离矩阵考虑了大环内酯物真菌毒素分子中各个组成原子的空间分布;同时,为了实现大环内酯物真菌毒素分子中不同原子对其毒性的贡献影响,提出了原子属性矩阵即增广矩阵,其中包括电负性、原子质量、原子支化度和原子电荷.由此,根据以上相关矩阵建立的范数描述符能从分子水平上反映真菌毒素分子结构特点以及真菌毒素与生物体之间的相互作用力.综上,与前人研究相比,本工作优点在于:能给出确定的模型形式,方便其他研究者验证或使用;模型预测准确性和稳定性强.
在此以第13个化合物为例,计算该化合物的毒性.化合物Baccharin B8的结构如图5所示.
首先,按照式(1—3)的定义式,根据化学图计算出该化合物的矩阵 T1、T2和性质矩阵 PE;然后依据式(6—8),计算出增广矩阵 TP1,a,b、TP2,a,b和 TP3,a,b,.表 3是上述所有矩阵的范数描述符的值.应用式(9)以及表2和表3中的参数,第13个化合物的毒性预测值计算过程如下:
第 13个化合物的 log10R预测值是 2.363,实验值是2.367,相对偏差是0.17%,.
图5 Baccharin B8的结构Fig. 5 Structure of Baccharin B8
表3 第13个化合物的相关变量值Tab. 3 Variable values of the thirteenth chemical
留一交叉验证法就是从所有的数据中每次选择一个分子作为一次测试集,用剩余的分子建立模型预测测试集分子的毒性.如果留一交叉验证的相关系数大于0.5,则认为模型是合理的[18].图6表明:留一交叉验证法的毒性预测值与实验值有较好吻合度,表明本工作建立的模型的内部预测能力较高.
图6 留一交叉验证预测值和实验值相关性Fig. 6 Correlation between the data predicted by LOOCV and the experimental data
图 7是两种模型预测结果的标准误差(SE)分布情况对比图.由图 7可知:交叉验证的误差趋势和本方法建立的模型的误差趋势一致,说明本工作建立的模型稳定、预测能力好.同时,留一交叉验证法的结果具有较高 Q2值(0.878,9),以上所有验证结果均表明本工作提出的方法可以稳定地预测大环内酯物真菌毒素的毒性.
图7 本模型和LOO模型毒性预测标准误差分布Fig. 7 Standard error distributions of the toxicity predicted by this model and LOO-CV
模型的内部验证只能说明该方法对于类似物的活性预测能力好,如果用该方法预测新的不同种类的化合物的活性,则结果有可能是不可靠的.因此,需要进行外部验证.外部验证就是将全部的分子分为训练集和测试集,训练集用于建立模型,测试集用来验证模型.有效的外部验证能确保本工作提出的方法对测试集分子预测的可预见性和适用性.
在本工作中,训练集和测试集的分子与文献[6]相同,训练集和测试集的分子毒性预测值见图 8,其结果是0.925,4、是 0.996,6.这表明预测值和实验值有很好的一致性,进而说明本工作建立的模型不仅可以很好地预测同类化合物毒性,而且对多种类化合物具有较高的预测性.
图8 训练集和测试集的实验值和预测值的散点图Fig. 8 Scatter plot predicted and experimental data of the training set and test set
Y随机验证的原理是将实验值随机扰乱、变量 不变,再建立模型,得到的结果与最初建立模型的结果进行对比.
在本工作中,进行了 5次随机验证,新模型预测R2和 Q2的结果与原模型的对比结果见表 4.由表 4可以得出,5次Y随机验证得出的新模型的R2和Q2都很低,甚至为0,说明新模型的预测能力低.由此证明,本工作建立的原始模型是稳定的,并非偶然建立.
表4 Y随机验证结果Tab. 4 Results of Y randomization test of this model
对于构效关系模型统计参数的验证来说,模型的应用域评价依然是最困难的一个评价标准.应用域评价是模型能否准确预测新化合物性质或活性的重要指标.目前,已经有多种关于模型应用域评价的方法[19-21].本工作利用杠杆方法检测计算模型的应用域,结果如图9所示.从图 9可以看出,对于35个有机物,只有 1个有机物的杠杆值小于-3,其余所有分子的杠杆值均在规定的阈值内,说明本方法建立的模型应用域较广泛.
图9 本模型的应用域Fig. 9 Application domain of this model
本工作基于有机毒素化学结构构建的距离矩阵和性质矩阵,提出了一个新范数描述符,并据此建立了预测单端孢霉烯真菌毒素毒性的 QSAR模型.研究结果表明:本工作提出的范数描述符能够有效描述化合物毒性与其结构之间的关系;本模型毒性预测值与实验值有很好的一致性,其中模型的相关性系数R2均大于 0.9,F值为 78.95,留一交叉验证测试(Q2为 0.878,9)、Y随机验证以及与文献的对比结果均证明本模型稳定性更好、预测能力更高、准确性更好.同时,应用域验证表明本模型计算结果准确、稳定、可靠、适用范围广.因此,本工作提出的方法将可能推广用于化学品的环境风险评价、生态健康评价等领域.
参考文献:
[1] Zhou T,He J W,Gong J. Microbial transformation of trichothecene mycotoxins[J]. World Mycotoxin Journal,2008,1(1):23-30.
[2] 邹忠义,贺稚非,李洪军,等. 单端孢霉烯族毒素转化降解研究进展[J]. 食品科学,2010,31(19):443-448.
[3] 周闯,何成华,司慧民,等. 2012年国内饲料及原料霉菌毒素污染调查分析[J]. 畜牧与兽医,2014,46(1):81-84.
[4] 许伟,耿芳芳,范梦雪,等. 脱氧雪腐镰刀菌烯醇毒性的研究进展[J]. 生物学杂志,2016,33(1):78-81.
[5] Betina V. Structure-activity relationships among mycotoxins[J]. Chemico-Biological Interactions,1989,71(2/3):105-146.
[6] Steinmetz W E,Rodarte C B,Lin A. 3D QSAR study of the toxicity of trichothecene mycotoxins[J]. European Journal of Medicinal Chemistry,2009,44(11):4485-4489.
[7] Zhu Z,Wang Q,Jia Q,et al. Structure-property relationship for the pharmacological and toxicological activity of heterocyclic compounds[J]. Acta Physico-chimica Sinica,2014,30(6):1086-1090.
[8] Qian H,Kanwal S,Jia Q,et al. Norm index-based quantitative structure-activity relationship to predict βcyclodextrin complex binding constants[J]. Acta Physico-chimica Sinica,2015,31(5):893-898.
[9] Wang Q,Jia Q,Yan L,et al. Quantitative structuretoxicity relationship of the aquatic toxicity for various narcotic pollutants using the norm indexes[J]. Chemosphere,2014,108:383-387.
[10] Jia Q,Cui X,Li L,et al. A Quantitative structure-activity relationship for high affinity 5-HT1A receptor ligands based on norm indexes[J]. Journal of Physical Chemistry B,2015,119(51):15561-15567.
[11] Jarvis B B,Stahly G P,Pavanasasivam G. Isolation and characterization of the trichoverroids and new roridins and verrucarins[J]. Journal of Medicinal Chemistry,1982,47(6):1117-1124.
[12] Jarvis B B,Vrudhula V M,Midiwo J O,et al. New trichoverroids from myrothecium verrucaria:Verrol and 12,13-deoxytrichodermadiene[J]. Journal of Medicinal Chemistry,1983,48(15):2576-2578.
[13] Cramer R D,Patterson D E,Bunce J D. Comparative molecular field analysis(CoMFA). 1. Effect of shape on binding of steroids to carrier proteins[J]. Journal of the American Chemical Society,1988,110(18):5959-5967.
[14] Klebe G,Abraham U,Mietzner T. Molecular similarity indices in a comparative analysis(CoMSIA)of drug molecules to correlate and predict their biological activity[J]. Journal of Medicinal Chemistry,1994,37(24):4130-4146.
[15] Netzeva T I,Worth A P,Aldenberg T,et al. Current status of methods for defining the applicability domain of(quantitative)structure-activity relationships[J]. American Theological Library Association,2005,33(2):155-173.
[16] Gramatica P. Principles of QSAR models validation:Internal and external[J]. QSAR & Combinatorial Science,2007,26(5):694-701.
[17] Gramatica P,Giani E,Papa E. Statistical external validation and consensus modeling:A QSPR case study for Kocprediction[J]. Journal of Molecular Graphics and Modelling,2007,25(6):755-766.
[18] Mihalić Z,Trinajstić N. A graph-theoretical approach to structure-property relationships[J]. Journal of Chemical Education,1992,69(9):701.
[19] Tropsha A. Best practices for QSAR model development,validation,and exploitation[J]. Molecular Informatics,2010,29(6/7):476-488.
[20] Tropsha A,Golbraikh A. Predictive QSAR modeling workflow,model applicability domains,and virtual screening[J]. Current Pharmaceutical Design,2007,13(34):3494-3504.
[21] Jaworska J,Nikolova-Jeliazkova N,Aldenberg T. QSAR applicabilty domain estimation by projection of the training set descriptor space:A review[J]. American Theological Library Association,2005,33(5):445-459.