刘红艳,李柏林,汪启兵,马 钰,易忠胜,王秀丽
(桂林理工大学a.广西高校食品安全与检测重点实验室;b.化学与生物工程学院,广西桂林 541004)
VSMVI方法预测取代芳烃类化合物淡水发光菌的毒性
刘红艳,李柏林,汪启兵,马 钰,易忠胜,王秀丽
(桂林理工大学a.广西高校食品安全与检测重点实验室;b.化学与生物工程学院,广西桂林 541004)
选取2组取代芳烃类共53个化合物为目标化合物,以Dragon描述符表征其分子结构信息,采用基于变量相互作用的变量筛选方法(VSMVI)对训练集化合物进行变量寻优。以Dragon描述符为自变量,以化合物的毒性值作为因变量,然后根据化合物样本数和奥卡姆剃刀原则,运用通用变量筛选与建模程序(GVSMP)中线性建模的最优建模法,建立了化合物分子结构与其毒性间的相互关系模型——定量结构-毒性关系 (QSTR)模型。结果表明,模型的复相关系数R2和交互验证相关系数Q2LOO均在0.90以上,所构建的模型均具有较高的拟合能力和预测能力。此外,通过模型校验方法对模型进行校验,也显示出模型具有较好的外部估计能力。
取代芳烃类化合物;定量结构-毒性关系;发光菌毒性;Dragon描述符
环境中取代苯类的污染与危害已引起广泛关注。它们是一类具有毒性、亲电性、脂溶性及不易降解等特性的化合物,种类繁多、用途广泛,可以作为重要的化工产品或中间体,是炸药、染料、农药、医药、除草剂及杀菌剂等合成的中间体,同时也是农药、医药、除草剂等的降解产物。因其含有苯环,苯环的亲电性致使其具有麻醉、致畸、致癌、致突变等作用[1]。在日常生活中,人们有意或无意地排入环境中的取代苯类化合物不计其数,无法用实验的方法一一测定各化合物的毒性,再加上传统的实验方法费时、费力、费用昂贵且具有滞后性及一些化合物尚无标准样品等,因此,寻找一种简便、快速且灵敏度高的化合物毒性检测或预测方法显得尤为重要,通过研究化合物分子结构参数(化学描述符)与其毒性间的关系即定量结构-毒性相关关系(QSTR)并构建相关QSTR模型用以预测相关化合物的毒性便成为最佳的选择[2-10]。Wang等[3]研究了24种酚类衍生物对日本长腿蛙蝌蚪的毒性作用并对其进行了QSAR研究,建立了QSAR模型;Rudra等[5]通过QSTTR技术建立了部分离子液体对绿藻和水蚤的毒性预测模型;Fatemi等[6]则比较了多种QSTR建模方法建立的46个化合物对鱼的毒性的模型优劣。
为了预测相关化合物的毒性,笔者选取文献报道的2组共53个取代芳烃类化合物为目标化合物,以化合物对淡水发光菌的生物毒性作为毒性数据,采用Dragon描述符表征化合物的分子结构信息,用基于变量相互作用的变量筛选方法(VSMVI)[11]进行变量寻优,然后采用通用变量筛选与建模程序(GVSMP)[12]中线性建模的最优建模法分别对2组不同的化合物以及同一组化合物的不同变量进行建模,探讨了不同样本集中样本的相似度(分子结构相似度),以及样本数相同且满足建模要求的情况下不同变量数建模对模型内部预测能力、拟合能力、稳定性及外部预测能力的影响,为快速、高效预测该类化合物的毒性提供理论依据。
1.1 数据来源
本文选取了2组来自不同文献的共53种取代芳烃类化合物作为研究材料。其中,第1组化合物是来自于文献[13-15]的38种取代芳烃类化合物,其对发光菌的毒性数据用-lg Ce50表示,其中Ce50为取代芳烃对淡水发光菌15 min的半数发光抑制浓度;第2组化合物是来自于文献[16]的15种取代酚,其毒性用淡水发光菌——青海弧菌Q67的半数发光抑制浓度 (EC50)的负对数pEC50表示。为了与原文献进行更好的比较,本文中两组化合物的训练集和检验集划分与原文划分相同。两组实验化合物的序号、名称及对发光菌毒性值分别见表1和表2。
1.2 分子结构描述符的计算与筛选
本研究中化合物的分子结构描述符均采用Dragon 6软件进行计算,计算后得到第1组和第2组化合物的分子结构描述符个数分别为691和633。为了提高筛选效率和质量,在用VSMVI进行变量寻优之前,对上述分子描述符依照如下规则进行预筛选:①删除相关系数大于0.95的描述符对中的一个,因为这样的描述符对几乎完全自相关,如果最终的模型中包含描述符对中保留的描述符,则会将删除的那个描述符代入模型中进行验算(本研究中没有这样的描述符存在);②删除描述符全部为零的样本,以去除部分对建模明显无用的信息。经过筛选,最后两组化合物的分子结构描述符分别剩余639和623个,然后以这些描述符为自变量,以取代芳烃对淡水发光菌的毒性数据为因变量,结合一般建模规则 (通常要求变量数不能比样本数多,一般要求样本数必须大于变量数的5倍)[17]、奥卡姆剃刀原则 (要求模型尽可能简单)及研究的实际选取变量进行变量筛选并建模,得到相应的QSTR模型。笔者采用的基于变量相互作用的变量筛选方法(VSMVI)[11]是基于变量间总是存在交互作用建立起来的。该方法有下列假设:①每一个变量不可能单独对某一系统作用,一个变量加入总会引入一定的信息;②一个变量数为vn的子集,总是由一个变量数为vn-1的子集和另外一个变量组成,变量子集循环寻优,直到变量数达到n/5或者指定值为止。寻优过程总是在上一次的结果上增加一个变量并作为下次搜索的输入,这种处理方式结合了前进法[18]和数据分组处理(group methods of data handling,GMDH)[19]的思想;③ 寻找变量数为vn-1的最优子集过程中,借鉴了基于预测的变量筛选与建模(variable selection and modeling method based on the prediction,VSMP)方法[20]引入参数rint和q2加快筛选速度的优点,这种方法融合了前进法、VSMP和GMHD的优点,极大加快了变量筛选的速度。
表1 38种取代芳烃类化合物对发光菌毒性的实验值和计算值Table 1 Experimental and calculated toxicity values of 38 substituted aromatic compounds to photobacterium phosphoreum
表2 15种取代酚pEC50的实验值和计算值Table 2 Experiment and calculated values of pEC50for 15 substituted phenols
1.3 模型的校验与评价
模型的检验遵循“OECD(organization for economic co-operation and development)规则”[21],其中OECD规则第4条规定模型的检验必须包括内部检验和外部检验。模型的内部预测能力常用复相关系数R2、交叉验证系数Q及预测误差(残差)、标准偏差(SD)、均方根误差(RMSE)来表示,一般认为R2、Q越大,预测误差、标准偏差、均方根误差越小,模型的内部预测能力越好。同时,R2越大,模型的拟合能力越强;Q越大、RMS E越小,模型的稳定性越好。而外部检验则采用检验集检验训练集模型时的Q大小来衡量模型外部估计能力的大小[21-22],一般认为Q越大,模型的外部预测能力越强。
另外,根据Golbraikh和Tropsha的研究[23-24],模型外部预测能力的好坏可用下列标准评判,一般认为一个外部预测能力好的模型应满足下列要求:
2.1 38种取代芳烃类化合物建模的结果与讨论
2.1.1 训练集建模 按文献[15]的划分方法划分本组化合物的训练集和检验集(检验集化合物以“*”表示,见表1)。以经过筛选得到的639个Dragon描述符为自变量,38种取代芳烃类化合物对淡水发光菌的毒性数据为因变量,以VSMVI方法进行变量筛选,得到训练集的最优子集模型的R2和Q2对变量数的曲线图。由图1可知,当变量数为2时,最优子集模型的R2和Q2均已超过了0.90,且第2个变量和第3个变量间的复相关系数R2之差小于5%[22]。同时,当变量数为3、4、5、6时也满足建模要求。为了讨论在满足建模要求的情况下,建模变量个数的多少对模型预测能力、拟合能力及稳定性的影响,分别选取了2个和5个变量对训练集建模。
①38种取代芳烃类化合物训练集建模模型(2个变量建模)
图1 训练集建模时R2/Q2与变量数的关系Fig.1 Relationship between R2/Q2and the number of variables in the training set ofmodeling
②38种取代芳烃类化合物训练集建模模型(5个变量建模)
其中:nt代表参与训练集建模的样本数;ntest代表检验集样本数;mt代表参与训练集建模和验证的变量数;R2表示模型的复相关系数;R2pre为预测的相关系数;Q2EXT表示留一法交叉验证的相关系数; RMSEE为建模时的均方根误差;RMSEV为交叉验证时的均方根误差;RMSEP为预测时的均方根误差;F为模型的Fisher统计量;模型括号中的“±”号表示回归系数的标准偏差。
方程(1)的2个变量分别为:分子平均范德华体积(Mv)和GETAWAY描述符(HGM)。参与方程(2)建模的5个变量分别为:2D自相关描述符(GATS2p)、边界邻接指数(Eig07_AEA(dm))、3D-MoRSE描述符(Mor18m、Mor19v)和特征值描述符(SpMin1_Bh(v))。
训练集建模时训练集的计算值、检验集的估计值与实验值的散点图如图2和图3(图中数字表示化合物的号数)所示。
不难看出,图2中训练集和检验集的“融合”度及线性关系较好,说明所建模型的外部预测能力较强。而通过比较图2和图3及式(1)和式(2)发现,虽然模型(2)的R2和Q2均高于模型(1)的R2和Q2,但是图3中检验集的结果较分散,表明模型(2)可能存在“过拟合”现象。为此按照Golbraikh和Tropsha[22-23]的研究方法,对外部样本进行验证(表3)。从表中不难看出,模型(1)的外部预测能力优于模型(2),故选取以2个变量建模的模型为最佳模型,即影响这38种取代芳烃类化合物对淡水发光菌的毒性数据的描述符为Mv和HGM,模型的实验值和计算值列于表1。从表1和图2中可以看出,仅有38号化合物(间苯二酚)的计算值与实验值差异较大,原因可能是位于间位的2个羟基的取代增加其空间位阻使得范德华体积增加,使得模型的计算值增加,而实际检测结果又偏小,从而使其误差增大。
图2 训练集建模(2个变量建模)时训练集的计算值和检验集的估计值与实验值的散点图Fig.2 Plots of experimental-lg Ce50versus calculated values of training set and test set(two variables)
图3 训练集建模(5个变量建模)时训练集的计算值和检验集的估计值与实验值的散点图Fig.3 Plots of experimental-lg Ce50versus calculated values of training set and test set(five variables)
表3 模型的校验统计参数Table 3 Statistical parameters ofmodels
2.1.2 所建模型与其他文献的比较 研究中将所建模型的参数和相关文献的统计参数进行了比较(表4):文献[14]采用遗传-偏最小二乘法(GAPLS)分别对全集和训练集进行变量筛选、寻优,然后选取了5个与化合物毒性最为相关的变量分别用多元线性回归法(MLR)和支持向量机法(SVM)建立了该组化合物结构与其对发光菌的毒性(-lg Ce50)之间的QSAR模型;文献[15]采用密度泛函法(DFT)筛选分子描述符,用逐步回归法构建了该组化合物分子结构与其对发光菌毒性间QSAR模型。由表4知,与文献[14]相比,本文模型的R2和Q2稍差一些,但是参与建模的变量数远远小于文献中的变量数,通过前面的讨论可知,变量数的增加将大大增加模型的R2和Q2,而模型R2和Q2的数值大并不能完全表明模型的外部预测能力好。与文献[15]相比,无论是全集建模,还是训练集建模,本文在变量数较少的情况下所建模型的R2和Q2均大于文献,表明本文所建的QSAR模型具有更好的拟合能力和预测能力。
表4 38种取代芳烃类化合物QSAR模型的比较Table 4 Comparison of QSARmodels of38 substituted aromatic compounds
2.2 15种取代酚类化合物建模时的结果与讨论
2.2.1 模型的构建 按照文献[16]划分训练集和检验集的方法将本组化合物进行训练集和检验集的划分 (表2)。以经过筛选得到的623个Dragon描述符为自变量,15种取代酚类化合物对淡水发光菌的毒性数据为因变量,以VSMVI方法对训练集化合物进行变量筛选,不同变量数下最优子集模型的R2/Q2对变量数作图,结果如图4所示。可知,当变量数由2增加为3时,R2和Q2增加很小,故选择变量PW5(拓扑指数)和P_VSA_log P_4(基于log P的范德华表面积)建立最佳模型,所建的2个变量的模型如下:
2.2.3 模型的预测能力、稳定性及拟合能力 由模型(3)及其参数可知,建模时模型的复相关系数R2=0.973 0,交叉验证系数Q=0.955 8,建模时的均方根误差RMSEE=0.097 2,交叉验证时的均方根误差RMSEV=0.124 5,所建模型显然具有较强的内部预测能力、拟合能力和稳定性。为直观地表示模型的内部预测能力,用化合物毒性的实验值对计算值作图,结果如图5所示。图的线性关系越好,表明该模型的内部预测能力越好。
图4 训练集建模时R2/Q2与变量数的关系Fig.4 Relationship between R2/Q2and the number of variables in the training set ofmodeling
图5 训练集建模时训练集的计算值和检验集的估计值与实验值的散点图Fig.5 Plots of experimental pEC50versus calculated values of training set and test set
本实验采用Dragon描述符表征了2组共53个取代苯类化合物的分子特征,采用基于变量相互作用的变量筛选方法(VSMVI)进行变量寻优,然后通过通用变量筛选与建模程序(GVSMP)中线性建模的最优建模法构建QSTR模型。构建的所有模型都具有较好的估计能力和预测能力。模型的复相关系数R2和交互验证相关系数Q2均在0.90以上。此外,通过模型校验方法对模型进行校验,也显示出模型具有较好的外部估计能力。通过对本文所构建的模型进行对比发现,当变量数均满足建模要求时,随着建模变量数的增加,模型的R2和Q2均增加,但模型可能会存在过拟合现象,模型的外部预测能力有可能会下降。
[1]Yao X J,Panaye A,Doucet JP,etal.Comparative classification study of toxicitymechanisms using support vectormachines and radial basis function neural networks[J].Analytica Chimia Acta,2005,535(1-2):259-273.
[2]Xie Y J,Liu H,Liu H X,et al.Determination of solubilities and n-octanol/water partition coefficients and QSPR study for substituted phenols[J].Bulletin of Environmental Contaminaion and Toxicology,2008,80(4):319-323.
[3]Wang X,Dong Y,Xu S,et al.Quantitative structure-activity relationships for the toxicity to the tadpole Rana japonica of selected phenols[J].Bulletin of Environmental Contamination and Toxicology,2000,64(6):859-865.
[4]Lu G H,Wang C,Wang P F,et al.Joint toxicity evaluation and QSARmodeling of aromatic amines and phenols to bacteria[J].Bulletin of Environmental Contaminaion and Toxicology,2009,83(1):8-14.
[5]Das R N,Roy K,Popelier P L A.Interspecies quantitative structure-toxicity-toxicity(QSTTR)relationship modeling of ionic liquids.Toxicity of ionic liquids to V.fischeri,D.magna and S.vacuolatus[J].Ecotoxicology and Environmental Safety,2015,122:497-520.
[6]FatemiM H,Shahroudi EM,Amini Z.Developmentof quantitative interspecies toxicity relationship modeling of chemicals to fish[J].Journal of Theoretical Biology,2015,380:16-23.
[7]Zhao Y S,Zhao JH,Huang Y,et al.Toxicity of ionic liquids:Database and prediction via quantitative structure-activity relationship method[J].Journal of Hazardous Materials,2014,278:320-329.
[8]Can A.Quantitative structure-toxicity relationship(QSTR) studies on the organophosphate insecticides[J].Toxicology Letters,2014,230:434-443.
[9]Mo L Y,Liu H Y,Yi Z S,et al.QSTR study on the freshwater photobacteria toxicity of substituted benzenes[J].Chinese Journal of Structure Chemistry,2011,30(10):1403-1411.
[10]吕玉银,郭伟民,刘树深,等.部分取代芳烃发光菌毒性的HQSAR分析 [J].桂林工学院学报,2007,27 (3):397-401.
[11]Yi Z S,Zhang A Q.A QSAR study of environmental estro-gens based on a novel variable selection method[J].Molecules,2012,17:6126-6145.
[12]易忠胜.通用变量筛选与建模程序 [P].中国: 2015SR123587,2015-07-03.
[13]Yu R L,Hu G R,Zhao Y H.Comparative study of four QSAR models of aromatic compounds to aquatic organisms[J].Journal of Environmental Sciences,2002,14(4): 552-557.
[14]冯琳琳,张兆志,王新颖,等.取代芳烃对发光菌急性毒性的QSAR研究 [J].常州大学学报:自然科学版,2012,24(4):8-12.
[15]顾云兰,陶建清,费正皓,等.DFT法研究取代芳烃结构与毒性的定量关系[J].计算机与应用化学,2009,26 (10):1303-1306.
[16]张辉,李娜,马梅,等.15种取代酚对淡水发光菌 Q67的毒性及定量构效分析[J].生态毒理学报,2012,7 (4):373-380.
[17]Topliss JG,Edwards R P.Chance factors in studiesofquantitative structure-activity relationships[J].Journal ofMedicinal Chemistry,1979,22(10):1238-1244.
[18]方开泰,全辉,陈庆云.实用回归分析[M].北京:科学出版社,1988.
[19]Farlow S J.The GMDH algorithm of ivakhnenko[J].The American Statistician,1981,35(4):210-215.
[20]Liu SS,Liu H L,Yin C S,et al.VSMP:A novel variable selection and modelingmethod based on the prediction[J].Journal of Chemical Information and Computer Sciences,2003,43(3):964-969.
[21]OECD principles for the validation for regulatory purposes of (quantitative)structure-Activity relationship models[EB/ OL].[2015-12-25]http://www.oecd.org/chemicalsafety/risk-assessment/37849783.pdf.
[22]崔毅,蒋军成,潘勇,等.羧酸及其衍生物急性毒性的QSAR研究[J].环境科学与技术,2010,33(4):29-34.
[23]Golbraikh A,Tropsha A.Beware of q2![J].JournalofMolecular Graphics and Modelling,2002,20(4):269-276.
[24]Tropsha A,Gramatica P,Gombar V K.The importance of being earnest:Validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR&Combinatorial Science,2003,22(1):69-77.
Toxicity predicting of substituted aromatic com pounds to freshwater lum inescent bacteria by VSMVImethed
LIU Hong-yan,LIBo-lin,WANG Qi-bing,MA Yu,YIZhong-sheng,WANG Xiu-li
(a.Guangxi University Key Laboratory of Food Safety and Detection;b.College of Chemistry and Bioengineering,Guilin University of Technology,Guilin 541004,China)
The Dragon descriptors are used to characterize themolecular structure of two groups consisting of53 substituted benzene compounds.All compounds and training sets compoundswere optimized respectively by the variable selection method based on variable interaction.On the principle of the number sample compounds and Occam'razor compounds,using Dragon descriptor as independent variable,the toxic value of the compound was used as dependent variable.Then optimal linearmodeling construction act,which is from the General Variable Select and Modeling Program(GVSMP),is used to establish the relationship between toxicant quality(dependent variable)and the compound of inter-quantitative structure-toxicity relationship.The determination coefficient(R2)and the leave-one-out cross-validated correlation coefficient(Q2)are all above 0.90.The results show that themodels have high internal predictive abilities and fitting abilities.In addition,the models were verified by the relevant verification method,and have good external estimation ability.
substituted benzene compounds;quantitative structure-toxicity relationship;luminous bacteria toxicity;Dragon descriptors;variable selection method based on variable interaction
X171.5;X172;X131
:A
2015-12-25
国家自然科学基金项目 (21467006);广西自然科学基金项目 (桂科自2014GXNSFAA118034);广西高校食品安全与检测重点实验室项目
刘红艳 (1970—),女,硕士,副教授,研究方向:环境理论化学与环境污染物化学,lhyglite@126.com。
刘红艳,李柏林,汪启兵,等.VSMVI方法预测取代芳烃类化合物淡水发光菌的毒性[J].桂林理工大学学报,2016,36(4):771-777.
1674-9057(2016)04-0771-07
10.3969/j.issn.1674-9057.2016.04.020