部分含氯芳烃结构与孔雀鱼半数致死浓度(-logLC50)定量活性相关研究

2017-10-13 04:01李建凤黄茜雷光东
生态毒理学报 2017年3期
关键词:描述符含氯芳烃

李建凤,黄茜,雷光东

内江师范学院 化学化工学院,内江 641100

部分含氯芳烃结构与孔雀鱼半数致死浓度(-logLC50)定量活性相关研究

李建凤,黄茜,雷光东*

内江师范学院 化学化工学院,内江 641100

构建了不同类型的分子顶点之间的电性关系作为结构描述符,对部分含氯芳烃化合物结构进行了参数化表征,共得到7个与化合物结构密切相关的结构描述符。逐步回归(SMR)筛选变量后,分别运用多元线性回归(MLR)和偏最小二乘回归(PLS)建立了化合物结构与孔雀鱼半数致死浓度(-logLC50)之间的关系模型,两模型建模相关系数(r2)分别为0.871、0.862;“留一法”交互检验的相关系数(Q2)分别为0.808、0.589。结果表明分子结构描述符能恰当地表征化合物结构特征,所建模型具有良好的稳定性和预测能力。

含氯芳烃化合物;结构描述符;半数致死浓度;结构与性质的关系

Received14 November 2016accepted7 February 2017

Abstract: The electrical relationship between the different types of molecular vertices was constructed as structural descriptors. Then, structures of some chlorinated aromatic compounds were characterized. Seven structural descriptors, which were closely related to the structure of the compounds, were obtained. Two models of the relationship between the structure and half lethal concentration (-logLC50) to guppy were established through multiple linear regression (MLR) and partial least squares regression (PLS) methods. The correlation coefficients (r2) of the two models were 0.871 and 0.862. The cross-validation correlation coefficients (Q2) of "leave one out method" were 0.808 and 0.589, respectively. The results showed that the molecular structural descriptors could properly characterize the structural characteristics of the compounds. The models had good stability and prediction ability.

Keywords: chlorinated aromatic compounds; structural descriptors; half lethal concentration; structure-property relationship

含氯芳烃化合物在化工、医药等行业被广泛用作原料或溶剂,使用过程中易泄漏进入环境而成为重要的污染物。含氯芳烃化合物进入环境后危害动植物的生长、繁殖,通过食物链的传递最终对人体健康造成威胁。含氯芳烃化合物进入人体后,损害人体肝脏和肾脏,甚至产生致癌的潜在风险。研究含氯芳烃化合物的环境毒性,对于规范其生产、应用和排放具有重要意义。测定每一个化合物的环境参数,工作量大,而且还有源源不断产生的新的化合物。利用构效关系估算化合物各种参数成为环境化学中一个重要的分支,例如在有机污染物的毒性[1-2]、分配性[3-5]、溶解性[6-7]、降解性[8-9]、富集特性[10-11]等方面都取得了较好的成果。本研究选取了部分含氯芳烃化合物为研究样本,通过构建的分子顶点电性关系描述符对化合物结构进行表征,运用多元线性回归(multiple linear regression, MLR)和偏最小二乘回归(partial least squares regression)的方法建立化合物结构与毒性的关系模型,为芳烃类化合物的QSAR研究提供参考。

1 材料与方法(Materials and methods)

1.1 实验材料

选取37个含氯芳烃化合物为研究样本,化合物急性毒性以其对孔雀鱼半数致死浓度负对数(-logLC50)表示,化合物及其对孔雀鱼急性毒性值(-logLC50)取自文献[12],列于表1。

1.2 实验方法1.2.1 化合物分子结构参数化表达

在有机化合物的骨架图中,每一个非氢原子可视为分子顶点,认为分子顶点之间的电性关系对化合物外在性质产生影响。处于不同连接状态的分子顶点对化合物外在性质产生的影响可能不同,因而需要对化合物中的非氢原子(即分子顶点)进行分类。分子中的氢原子对化合物的外在性质的影响可以忽略,氢原子仅仅影响与其直接相连的分子顶点的分类。参照文献[13-14],化合物中的不同分子顶点按照式(1)分为4类。

k = 4 - hi(hi=1,2,3)

(1)

其中,k为非氢原子i所属分子顶点类型,hi为与非氢原子i直接相连的氢原子数。当hi分别为3、2、1、0时, 非氢原子i分别属于第1、2、3、4类分子顶点。

分子顶点之间的关系以分子顶点之间的电性相关性表示,一般认为2个分子顶点之间的相关程度随着两者的电负性增减呈正向变化、随着两者的距离的增减呈反向变化。只要满足上述条件的函数关系式均可用于构建分子顶点之间的电性关系,文献[13-14]中是以倒数形距离关系函数计算分子顶点之间的电性关系,这里采用Gaussian形距离关系函数式(2)进行计算。

(2)

qi、qj为分子顶点i、j的相对电负性(该原子的电负性与碳原子电负性之比值);dij为关系中的分子顶点i到分子顶点j的相对距离(两者间最短路径所经化学键键长之和/碳碳单键键长,如有多条路径,则以最短的为准);n和l为分子顶点所属类型。化合物中4类分子顶点可以组合出10种关系项:m11,m12,…,m44,简写为x1,x2,…,x10,如m13(即x3)表示第1类分子顶点跟第3类分子顶点之间的关系,依此类推,这样对于有机化合物最多将产生10个结构描述符值来描述其结构。

1.2.2 QSAR建模与检验

首先采用逐步回归(stepwise regression, SMR)依据变量显著性筛选出变量组合,然后分别采用多元线性回归(multiple linear regression, MLR)和偏最小二乘回归(partial least squares regression)的方法建立模型,运用“留一法”对模型稳定性及预测能力进行检验。一个理想的模型一般需要满足建模相关系数(r2)≥0.64、标准偏差(SD)与数值范围的比例小于10%、交互检验相关系数(Q2)≥0.50[15]。多元线性回归模型要求样本数(N)/变量数(n) ≥5;变量之间的共线性采用方差膨胀因子VIF进行评价,变量中最大VIF小于5,表明变量间没有明显共线性,方程可以接受。

2 结果(Results)

经结构表征得到化合物结构描述符值,x1、x2、x5为全“0”项,其余结构描述符值列于表1。采用逐步回归(SMR)筛选变量,以偏F检验值对应的显著水平值P为依据,当候选变量中最大偏F检验值的P≤0.05,则引入相应变量,在已进入方程的变量中,若其最小偏F检验值的P≥0.1,则剔除相应变量,变量有进有出,最终逐步回归共进行了7步运算,逐步回归结果见表2。

表1 化合物及其急性毒性值(-logLC50)Table 1 The compounds and their acute toxicity values (-logLC50)

注:x3为第1类分子顶点与第3类分子顶点之间的关系;x4为第1类分子顶点与第4类分子顶点之间的关系;x6为第2类分子顶点与第3类分子顶点之间的关系;x7为第2类分子顶点与第4类分子顶点之间的关系;x8为第3类分子顶点与第3类分子顶点之间的关系;x9为第3类分子顶点与第4类分子顶点之间的关系;x10为第4类分子顶点与第4类分子顶点之间的关系;-logLC50为急性毒性值;EXP.、MLR.、PLS.分别表示急性毒性的实验值、MLR模型预测值、PLS模型预测值。

Note: x3is the relationship between the 1st type of molecular vertices and the 3rd type of molecular vertices; x4is the relationship between the 1st type of molecular vertices and the 4th type of molecular vertices; x6is the relationship between the 2nd type of molecular vertices and the 3rd type of molecular vertices; x7is the relationship between the 2nd type of molecular vertices and the 4th type of molecular vertices; x8is the relationship between the 3rd type of molecular vertices; x9is the relationship between the 3rd type of molecular vertices and the 4th type of molecular vertices; x10is the relationship between the 4th type of molecular vertices; -logLC50is the acute toxicity value; EXP, MLR and PLS are the experimental value, MLR model predicted value and PLS model predicted value, respectively.

由表2可以看出,当逐步回归到第6步时(此时共筛选出6个变量),建模相关系数(r2)达到最大值。当逐步回归到第7步时(此时共筛选出5个变量),建模相关系数(r2)与第6步相比有所降低,但变量数减少,模型复杂程度降低了,调整相关系数(r2)达到最大值,交互检验的相关系数(Q2)达到最大值,标准偏差(SD)达到最小值,而此时变量中的最大VIF仅为2.408。综合各方面考虑,应该选择第7步所筛选出来的变量组合进行建模,多元线性回归(MLR)模型如式(3)。

-logLC50= -0.980+1.743×x3+1.577×x6+0.710×x8+0.262×x9+0.088×x10

(3)

N=37,r2=0.871,SD=0.185,F=41.798;Q2=0.808,FCV=26.035

N为建模样本数,n为变量数,r2为建模相关系数,SD为标准偏差,F为显著性检验值;Q2为交互检验的相关系数,FCV为交互检验的显著性检验值。上述模型符合样本数(N)/变量数(n)≥5的经验规则,建模相关系数(r2)达0.871,大于等于0.64,说明模型拟合效果好;交互检验的相关系数(Q2)达0.808,大于等于0.50,说明模型具有良好的稳健性和预测能力;标准偏差(SD)为0.185,而样本急性毒性值(-logLC50)的数值范围为2.12(最大值2.31-最小值0.19),0.185/2.12=8.73%,小于10%的标准,说明模型预测准确性良好。由于模型中的变量x3和x6对于大部分样本都为“0”,这样可能导致模型结果存在一定的偶然性,下面用偏最小二乘回归(PLS)建模,进一步挖掘结构描述符与化合物毒性之间的关系。

以逐步回归到第7步时筛选出5个结构描述符为自变量X,化合物对孔雀鱼急性毒性值(-logLC50)为因变量Y,建立偏最小二乘回归(PLS)模型。建模相关系数(r2)及交互检验相关系数(Q2)与建模主成分数(A)的关系如图1,由图1可知应该选择3个主成分进行建模,此时化合物及其对孔雀鱼急性毒性值(-logLC50)与原始自变量回归方程式为:-logLC50= -0.932+1.329×x3+1.257×x6+0.698×x8+0.265×x9+0.086×x10。此时建模相关系数(r2)为0.862,接近最大值,并且大于等于0.64的标准;交互检验的相关系数(Q2)达0.589,大于等于0.50的标准;标准偏差(SD)为0.198,0.198/2.12=9.34%,小于10%的标准,以上结果说明PLS模型同样具有良好的稳定性和预测能力。

图1 r2/Q2随主成分数(A)变化情况Fig. 1 r2/Q2 changes with the principal components (A)

表2 逐步回归结果Table 2 Results of the stepwise regression

图2 样本在前2个主成分得分分布Fig. 2 Compounds’ score distribution in the front two principal components

图3 偏最小二乘X空间规格化模型距离Fig. 3 Normalized distance to PLS model in X space

图2为37个样本在PLS前2个主成分得分空间散点分布图,所有的样本点都落在95%置信度Hotelling T2椭圆置信圈内,没有异常点,说明结构描述符能够恰当表现含氯芳烃化合物分子结构特征,并在统计模型中得到正确反映。为了考察样本在X空间的拟合情况,对样本在X空间的规格化模型距离作了分析(图3),同样可以发现,所有样本规格化模型距离都在95%的置信区间内,小于临界值2.135,同样没有出现异常点,说明模型质量良好。

图4为PLS中变量重要性(VIP)投影图,通常认为VIP大于1的变量与Y之间具有较大的相关性。图4中可以发现x8、x10的VIP值大于1,说明这2个变量对含氯芳烃化合物的急性毒性值(-logLC50)影响较大,而变量x8对应于第3类分子顶点之间的关系,变量x10对应于第4类分子顶点之间的关系,因而第3类原子(与1个H相连)、第4类原子(与0个H相连)对含氯芳烃化合物的急性毒性值(-logLC50)影响显著,以上说明取代基种类、数量及分布情况对化合物的急性毒性值(-logLC50)有重要影响。取代基数量及分布情况与分子体积有关,取代基数量越多,并且集中分布在分子的某一区域,可能会造成分子体积或局部体积大,分子难以通过脂质膜而产生毒性,表现出毒性较小。例如1号化合物2,3,4,5-四氯苯胺与4号化合物2,3,4-三氯苯胺相比,取代基更多,分子体积更大,因而1号化合物更难通过脂质膜而产生毒性,表现出1号化合物毒性比4号化合物毒性更小。

图4 变量重要性投影Fig. 4 Importance of variables

两模型对样本的急性毒性值(-logLC50)进行了预测,预测值分别列于表1的MLR.列和PLS.列。图5为模型预测值与实验值之间的相关图,图6为预测误差分布图(Err.1、Err.2分别对应于MLR.、PLS.模型)。从图5可以看出,绝大部分样本点都分布在45°平分线附近,说明总体预测效果好;图5中还可以发现PLS.预测的样本点较PLR.预测的样本点略显分散,同时图6中也容易发现由Err.1组成的曲线略显靠内,Err.2组成的曲线略显靠外,说明MLR模型比PLS模型更为优良。同样对比两模型的相关系数(r2/Q2),发现MLR模型相关系数(r2/Q2)比PLS模型大;对比两模型的标准偏差(SD),发现MLR模型标准偏差(SD)比PLS模型小,这些也表明了MLR模型的预测准确性优于PLS模型。考虑到化合物的急性毒性值(-logLC50)本身具有一定的误差,因而两模型预测结果都是可以接受的。

图5 计算值与实验值相关图Fig. 5 Correlation between calculated and experimental values

图6 计算误差分布Fig. 6 Distribution of calculated errors

3 讨论(Discussion)

将化合物分子隐氢图中的分子顶点按照其所连的氢原子数进行了分类,进而通过函数关系式构建了不同类型的分子顶点之间的电性关系作为结构描述符。结构描述符简单、易懂、计算方便,但是结构描述符是基于分子二维平面结构进行计算得到的2D分子结构描述符,不能反映有机化合物真实的三维立体结构特征,无法区分顺反异构体、光学异构体,因而有待改进为基于分子三维立体结构计算的3D分子结构描述符。对部分含氯芳烃化合物结构进行了参数化表征,逐步回归(SMR)筛选变量后分别运用多元线性回归(MLR)和偏最小二乘回归(PLS)建立了化合物结构-急性毒性关系模型,经检验模型具有良好的稳定性和预测能力,相对而言多元线性回归(MLR)模型较偏最小二乘回归(PLS)模型更为优良。模型在一定程度上揭示了影响化合物急性毒性的结构因素,对于有机污染物的QSAR研究具有一定的参考价值。

[1] 堵锡华, 王超. 神经网络法应用于酚类化合物对青海弧菌毒性的预测[J]. 生态毒理学报, 2016, 11(4): 90-94

Du X H, Wang C. Prediction of the toxicity of phenol derivatives to Vibrio qinghaiensis by neural network method [J]. Asian Journal of Ecotoxicology, 2016, 11(4): 90-94 (in Chinese)

[2] Liao L M, Huang X, Li J. Structural characterization and acute toxicity simulation for nitroaromatic compounds [J]. Chinese Journal of Structural Chemistry, 2016, 35 (3): 449-456

[3] 王甫洋, 张学胜, 刘辉. 卤代苯化合物水溶解度及正辛醇/水分配系数的三维构效关系研究[J]. 环境科学学报, 2015, 35(4): 1032-1039

Wang F Y, Zhang X S, Liu H. Three-dimensional quantitative structure property relationship (3D-QSPR) on aqueous solubility (-lgSw) and noctanol/water partition coefficient (lgKow) of halogeno-benzene [J]. Acta Scientiae Circumstantiae, 2015, 35(4): 1032-1039 (in Chinese)

[4] 廖立敏, 李雪谊, 邹宁, 等. 卤代烷烃正辛醇/水分配系数的模拟[J]. 计算机与应用化学, 2014, 31(5): 619-622

Liao L M, Li X Y, Zou N, et al. Octanol-water partition coefficients simulation for halogenated hydrocarbons [J]. Computers and Applied Chemistry, 2014, 31(5): 619-622 (in Chinese)

[5] 廖立敏. 卤代苯甲醚结构表征及醇/水分配系数模拟[J]. 计算机与应用化学, 2015, 32(7): 889-892

Liao L M. Structural characterization and octanol/water partition coefficient simulation for halogenated anisole compounds [J]. Computers and Applied Chemistry, 2015, 32(7): 889-892 (in Chinese)

[6] 潘善飞, 胡桂香, 吕杨, 等. 离子液体中有机物溶解度的QSPR模型分析[J]. 物理化学学报, 2010, 26(9): 2494-2502

Pan S F, Hu G X, Lv Y, et al. QSPR model analysis on the solubility of organic compounds in ionic liquids [J]. Acta Physico-Chimica Sinica, 2010, 26(9): 2494-2502 (in Chinese)

[7] 吴桂玲, 吴启勋. 用分子连接性研究有机化合物溶解度的QSPR[J]. 武汉工程大学学报, 2008, 30(4): 42-45

Wu G L, Wu Q X. Study on QSPR of organiccompounds’solubility with molecular connectivity indexes [J]. Journal of Wuhan Institute of Technology, 2008, 30(4): 42-45 (in Chinese)

[8] 程荣, 戚道铎, 王建龙. 用纳米铁降解氯酚的分子结构-性质相关性[J]. 清华大学学报: 自然科学版, 2010, 50(6): 873-876

Cheng R, Qi D D, Wang J L. Relationship between molecular structure and the degradation of chlorophenols by iron nanoparticles [J]. Journal of Tsinghua University: Science and Technology, 2010, 50(6): 873-876 (in Chinese)

[9] 秦良, 罗斯, 高树梅, 等. 零价铁降解氯代有机污染物的QSPR研究[J]. 环境化学, 2009, 28(3): 400-403

Qin L, Luo S, Gao S M, et al. The QSPR investigation of the degradation of chlorinated contamination by zero-valent iron [J]. Environmental Chemistry, 2009, 28(3): 400-403 (in Chinese)

[10] 郑玉婷, 乔显亮, 杨先海, 等. 卤代有机化合物生物富集因子的定量结构-活性关系模型[J]. 生态毒理学报, 2013, 8(5): 772-777

Zheng Y T, Qiao X L, Yang X H, et al. Quantitative structure-activity relationship model for bioconcentration factors of halogenated organic compounds [J]. Asian Journal of Ecotoxicology, 2013, 8(5): 772-777 (in Chinese)

[11] 冯长君, 杨伟华, 沐来龙. 用分子形状指数和苯环因子预测有机物在鱼体中的生物富集因子[J]. 北京工业大学学报, 2008, 34(6): 607-616

Feng C J, Yang W H, Mu L L. Estimation and prediction of bio-concentration factors of nonionic organic chemicals in fish by molecular shap index and benzene ring factor [J]. Journal of Beijing University of Technology, 2008, 34(6): 607-616 (in Chinese)

[12] Huang H, Wang X D, Dai X L, et al. Holographic quantitative structure-activity relationship for prediction acute toxicity of benzene derivative to the guppy (Peocilia reticulate) [J]. Journal of Environmental Sciences, 2004, 3(16): 423-427

[13] 廖立敏, 梅虎, 李建凤, 等. H-MEDV描述法对蒙椴树叶挥发性组分的气相色谱保留时间的预测[J]. 天然产物研究与开发, 2008, 20(1): 47-51

Liao L M, Mei H, Li J F, et al. Prediction on retention times of components from essential oil of Tiliam ongolica leaves by H-MEDV [J]. Natural Product Research and Development, 2008, 20(1): 47-51 (in Chinese)

[14] 周丽平, 李志良, 余瑜. HMEDV描述法对氨基喹啉类抗疟药活性预测[J]. 重庆医科大学学报, 2005, 30(6): 794-798

Zhou L P, Li Z L, Yu Y. Prediction on inhibitory activity of aminoquinolines on malaria by H-MEDV [J]. Journal of Chongqing Medical University, 2005, 30(6): 794-798 (in Chinese)

[15] 顾云兰, 陈鑫, 简美玲. 苯胺类化合物结构与毒性的密度泛函理论研究[J]. 化学研究与应用, 2015, 27(8): 1139-1144

Gu Y L, Cheng X, Jian M L. Study on the structure-toxicity relationship of aniline compounds by density functional theory [J]. Chemical Research and Application, 2015, 27(8): 1139-1144 (in Chinese)

StudyontheCorrelationbetweenStructureandQuantitativeActivityofHalfLethalConcentration(-logLC50)toGuppyforSomeChlorinatedAromaticCompounds

Li Jianfeng, Huang Xi, Lei Guangdong*

College of Chemistry and Chemical Engineering, Neijiang Normal University, Neijiang 641100, China

10.7524/AJE.1673-5897.20161114002

2016-11-14录用日期2017-02-07

1673-5897(2017)3-732-07

X171.5

A

雷光东(1959-),男,教授,主要从事有机物分子结构与性质的关系、分子设计及合成等方面研究,以第一作者或通讯作者在国内外发表学术论文50余篇。

四川省教育厅基金项目(14ZB0259);四川省科技厅应用基础项目(2015JY0077)

李建凤(1982-),女,硕士,实验师,研究方向为分子结构与性能,E-mail: afeng523@126.com

*通讯作者(Corresponding author), E-mail: leigdnjtc@126.com

李建凤, 黄茜, 雷光东. 部分含氯芳烃结构与孔雀鱼半数致死浓度(-logLC50)定量活性相关研究[J]. 生态毒理学报,2017, 12(3): 732-738

Li J F, Huang X, Lei G D. Study on the correlation between structure and quantitative activity of half lethal concentration (-logLC50) to guppy for some chlorinated aromatic compounds [J]. Asian Journal of Ecotoxicology, 2017, 12(3): 732-738 (in Chinese)

猜你喜欢
描述符含氯芳烃
2022年高考理综化学模拟试题B卷参考答案
基于结构信息的异源遥感图像局部特征描述符研究
合理施用含氯化肥可提高猕猴桃产量和品质
关于重芳烃轻质化与分离的若干思考
含氯消毒剂,别仅凭名字辨别
基于AKAZE的BOLD掩码描述符的匹配算法的研究
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
新型含氯(氟)的A2B型咔咯化合物的合成及其光学性质
轮胎填充油中8种多环芳烃的检测