金 飙, 柴 欢, 金 俏
(1.沈阳化工大学 环境与安全工程学院, 辽宁 沈阳 110142; 2.北京石油化工学院 化学工程学院, 北京 102600)
硝基苯类化合物是一类重要的有机化工原料,广泛应用于杀菌剂、杀虫剂、染料、医药等化学工业.硝基苯类化合物是高毒性物质,具有致突变性,且在不同的行业和环境中普遍存在,可能造成严重的环境和健康问题.因此进行硝基苯类化合物的结构与毒性的定量构效关系研究具有重要意义[1-4].定量构效关系(quantitative structure-activity relationships,QSAR)是预测有机物分子生态毒理学的有力工具.在QSAR研究中,已经越来越多地将量化参数与其他常规的参数联合使用来构造数学模型[5-16],以往研究人员研究化合物生物毒性的定量构效关系多用多元线性回归法(MLR),MLR是经典的建模方法,该方法可获得因果模型,且模型直观明了、物理意义明确.但该方法也存在一定的不足,如要求模型变量参数相互正交、化合物或样本数大于描述变量等.近年来,应用人工神经网络构建 QSAR 模型已有报道.人工神经网络(artificial neural network,ANN)是一种信息处理技术,具有很强的非线性处理、自适应学习、自组织调整及容错抗噪声能力.其独特的结构与功能,能够模拟任何因果关系不明确、推理规则不确定的非线性问题.人工神经网络具有较强的模拟多元非线性体系的能力,在有机污染物定量构效关系研究中具有广阔的发展前景[17-20].本文分别以MLR和ANN两种建模方法对硝基苯类化合物的定量构效关系进行研究,为预测有机污染物的毒性提供理论基础.
硝基苯母体化合物的结构及其可取代位置如下:
36个硝基苯的梨形四膜虫的急性毒性数据引自参考文献[21],如表1所示.
表1 硝基苯的毒性参数和部分结构参数
注:*为预测样本
利用Gaussian09软件在B3LYP/6-311+G*水平下对分子结构进行优化计算,计算获得量子化学参数包括最高占据轨道能EHOMO、最低空轨道能ELUMO和EHOMO与ELUMO之差的绝对值ΔE、偶极矩μ、总能量E和表征微观粒子基态能量的参数-零点振动能(Zero-point vibration energy,EZP).
为寻找影响硝基苯类化合物对梨形四膜虫急性毒性与各参数之间的QSAR关系,将36个化合物分为2组,前28个化合物作为训练样本集,用于建立QSAR模型;后8个作为预测样本集,用于检验QSAR模型的预测能力.
应用SPSS17.0 统计软件分别对急性毒性与各量化参数进行多元逐步回归分析.为了控制模型的稳定性,消除变量间共线性的影响,计算每个变量的变异膨胀因子(VIF),在α=0.05的显著性水平上,剔除不显著的因素,获得急性毒性与量化参数之间的最佳方程:
-log IGC50=-0.021Ezp-43.167ELUMO-2.611
N=34,R=0.849,R2=0.721,σs=0.378,
F=40.044
计算每个变量的膨胀因子VIF,VIF均在1.0与5.0之间,说明变量之间不存在显著的共线性,方程可以接受.
硝基苯类化合物对梨形四膜虫急性毒性变异解释R2为0.721,说明回归直线与实验观测值的拟合程度良好.由方程计算得到的F值为40.044,说明因变量即急性毒性-log IGC50与零点振动能和最低空轨道能ELUMO显著相关,Ezp和ELOMO越小,化合物的急性毒性越大.结果表明所建多元线性回归方程具有统计学意义.MLR方法下硝基苯预测值与实验值的相关性和回归标准化预测值散点图如图1和图2所示.
图1 MLR方法下硝基苯预测值与实验值的相关性
图2 MLR方法下回归标准化预测值散点图
目前应用较为广泛的人工神经网络(ANN)方法是误差反向传播(BP)法,BP神经网络学习算法的学习过程由正向传播和反向传播两个过程组成.在正向传播过程中,输入信息由输入层经隐含层传向输出层,如果在输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的连接通路返回,修改各层节点间的连接权值,如此往复调整网络参数,使之误差函数达到极小为止.当训练结束时,将学习得到的规则表达在网络的权值中,利用这组权值,根据样本的输入特定参数,迅速输出预测结果.
选择36种硝基苯化合物的偶极距(μ)、分子最高占有能(EHOMO)和最低空轨道能(ELUMO)、前沿轨道能隙(ΔE=EHOMO-ELUMO)、分子总能量(E)、零点振动能(EZP)、μ2这7个结构参数作为人工神经网络的输入层节点,硝基苯的急性毒性-log IGC50作为输出层,进行分析构建多层神经网络QSAR模型,神经网络的训练终止情况、学习速率、隐藏层数和节点数等的选择对网络的学习和预测都有较大影响.
样本模拟的学习结果及其与实验值的残差分析结果见表2、图3和图4.从表2可以看出:与MLR结果相比,ANN算法得出的计算值与实验值之间的残差更小.计算值与实验值的相关系数R为0.989,标准误差σs为0.098,说明由该人工神经网络模型计算梨形四虫的急性毒性更为准确,拟合能力也比多元线性回归法更好.
表2 残差分析表
图3 ANN方法下硝基苯预测值与实验值的相关性
图4 ANN方法下回归标准化预测散点
对36种硝基苯类化合物分别采用多元线性回归(MLR)和人工神经网络(ANN)方法建立其梨形四膜虫的急性毒性的QSAR模型,所建模型稳健且预测能力强.与MLR法相比ANN方法拟合精度更好,特别适合处理复杂的非线性问题.但要提供具体的关系式来探讨化合物对梨形四膜虫的急性毒性的影响机制,只能依赖于多元线性回归分析.所建模型结果表明:梨形四膜虫的急性毒性与零点振动能Ezp和分子最高占有轨道能ELOMO成反比例关系,Ezp和ELOMO越小,-log IGC50越大.
[1] ISAYEV O,RASULEV B,GORB L,et al.Structure-toxicity Relationships of Nitroaromatic Compounds[J].Molecular Diversity,2006,10(2):233-245.
[2] BENIGNI R.Structure-activity Relationship Studies of Chemicalmutagens and Carcinogens:Mechanistic Investigations and Prediction Approaches[J].Chem Rev,2005,105(5):1767-1800.
[3] HARTTER D R.The Use and Importance of Nitroaromatic Chemicals in the Chemical Industry[C]//Rickert D E.Toxicity of Nitroaromatic Compounds.New York:Hemisphere Pub.Corp.,1985:1-13.
[4] 李俊生,徐靖,罗建武,等.硝基苯环境效应的研究综述[J].生态环境学报,2009,18(1):368-373.
[5] 陈艳,冯长君.连接性指数对脂肪醇的QSPR/QSAR研究[J].环境化学,2000,19(6):538-543.
[6] 王连生.韩朔睽.分子结构、性质与活性[M].北京:化学工业出版社,1997:1-412.
[7] HUANG H,WANG X D,OU W H,et al.Acute Toxicity of Benzene Derivatives to the Tadpoles(Rana Japonica) and QSAR Analyses[J].Chemosphere,2003,53(8):963-970.
[8] 许禄,吴亚平.硝基苯类化合物的结构/毒性定量构效关系研究[J].环境科学学报,2000,20(4):456-460.
[9] 许禄,邵学广.化学计量学方法[M].2版.北京:科学出版社,2004:1-565.
[10] CRONIN M T D,NETZEVA T I,DEARDEN J C,et al.Assessment and Modeling of the Toxicity of Organic Chemicals to Chlorella Vulgaris:Development of a Novel Database[J].Chemical Research in Toxicology,2004,17(4):545-554.
[11] HALL L H,MAYNARD E L,KIER L B.Structure-activity Relationship Studies on the Toxicity of Benzene Derivatives:Ⅲ.Predictions and Extension to New Substituents[J].Environ Toxico Chem,1989,8(5):431-436.
[12] 高硕,葛佳军.拓扑-量子方法在化学事故处置中的应用:硝基苯毒性预测[J].湖南科技大学学报(自然科学版),2011,26(2):109-112.
[13] 崔鹏,崔秀君,郭英娜,等.基于DFT和分子连接性指数方法研究醇类化合物的水溶解度和分配系数[J].分子科学学报,2008,24(3):180-183.
[14] ROY K,GHOSH G.QSTR with Extended Topochemical Atom(ETA) Indices.Ⅵ.Acute Toxicity of Benzene Derivatives to Tadpoles(RanaJaponica)[J].J Mol Model,2006,12(3):306-316.
[15] YAN X F,XIAO H M,GONG X D,et al.A Comparison of Semi Empirical and First Principle Methods for Establishing Toxicological QSARs of Nitroaromatics[J].Journal of Molecular Structure:THEOCHEM,2006,764(1/2/3):141-148.
[16] LANG P Z,MA X F,LU G H,et al.QSAR for the Acute Toxicity of Nitroaromatics to the Carp(Cyprinus Carpio)[J].Chemosphere,1996,32(8):1547-1552.
[18] 李仲.人工神经网络研究硝基苯化合物结构与毒性的关系[J].分子科学学报,2011,27(4):258-261.
[19] 崔秀君,张卓勇,袁星,等.主成分分析神经网络方法用于硝基苯及其同系物的QSAR研究[J].计算机与应用化学,2005,22(11):1038-1040.
[20] GAO J W,WANG X Y,LI X B,et al.Prediction of Polyamide Properties Using Quantum-chemical methods and BP Artificial Neural Networks[J].J Mol Mode,2006,12(4):513-520.
[21] CRONIN M T D,GREGORY B W,SCHULTZ T W.Quantitative Structure-activity Analyses of Nitrobenzene Toxicity to Tetrahymena Pyriformis[J].Chemical Research in Toxicology,1998,11(8):902-908.