廖立敏
内江师范学院 化学化工学院,内江 641100
酚类化合物结构与醇/水分配系数(logKow)关系研究
廖立敏*
内江师范学院 化学化工学院,内江 641100
将不同非氢原子自身及非氢原子之间的关系参数化并构建出新的结构描述符,对部分酚类化合物分子结构进行了参数化表达。采用逐步回归(SMR)与多元线性回归(MLR)相结合的方法建立了化合物结构与醇/水分配系数(logKow)之间的关系模型,模型的建模相关系数(r)为0.988,标准偏差(SD)为0.121;“留一法”交互检验的相关系数(Q2)为0.966,标准偏差(SDCV)为0.148。结果表明结构描述符能较好地表征化合物分子结构特征,所建模型稳定性好,预测能力强,对于酚类化合物QSPR研究具有一定的参考价值。
酚类化合物;醇/水分配系数(logKow) ;结构描述符;结构与性质
Received7 November 2016accepted17 December 2016
Abstract: The different non-hydrogen atoms and the relationship between them were used as new structural descriptors to describe the molecular structures of some phenolic compounds. The stepwise regression (SMR) combining the multiple linear regression (MLR) methods were used to construct a model of relationship between the structures and octanol/water partition coefficients (logKow) of the compounds. The modeling correlation coefficient (r) was 0.988 and the standard deviation (SD) was 0.121; "leave one out" cross validation correlation coefficient (Q2) was 0.966 and the standard deviation (SDCV) was 0.148, respectively. The results showed that the structural descriptors could well characterize the molecular structures of the compounds, the stability of the model was good, and the predictive power was strong. This paper shows a certain reference value for QSPR study of phenolic compounds.
Keywords: phenolic compounds; octanol/water partition coefficient (logKow); structural descriptor; structure and properties
酚类化合物用途广泛,在有机化工、医药、农药、涂料等工业被广泛应用并进入环境中。环境中酚类化合物种类繁多,具有毒性,影响动植物生长及人类健康,是环境中重要的污染物。对酚类化合物性质进行研究,对于规范其生产、排放、治理等具有重要的意义。有机化合物正辛醇/水分配系数(octanol/water partition coefficient, logKow)是污染物的环境风险评价中的重要参数之一,logKow反映了其对水、脂的亲疏性,一定程度上反映其在生物体内富集及各种环境介质中的迁移能力。由于有机污染物种类多、数量大,部分有机污染物的logKow缺乏实验数据,而QSPR可为解决这一问题提供简便易行的途径[1-3]。在有机化合物QSPR/QSAR研究中,分子结构参数化表达是关键工作之一,直接影响到QSPR/QSAR模型的成功构建,研究者们在分子结构参数化方面做过许多有意义的工作[4-8]。本文选取部分酚类化合物为研究样本,以化合物非氢原子及非氢原子之间的关系构建新的结构描述符,对化合物结构进行参数化表达,采用逐步回归(SMR)与多元线性回归(MLR)相结合的方法构建了化合物结构与logKow之间的关系模型,可望为有机污染物的QSPR/QSAR研究提供参考。
1.1 实验材料
选取36个含多种取代基的酚类化合物为研究样本,化合物正辛醇/水分配系数以logKow表示,实验值取自文献[9]。化合物及其logKow列于表1。
1.2 实验方法
1.2.1 化合物分子结构参数化表达
化合物的正辛醇/水分配系数(logKow)除了与测量因素有关外,还与分子的结构相关,取代基种类、大小及数目、杂原子、取代基分布情况等都会影响其logKow。研究认为,化合物中处于骨架地位的非氢原子及非氢原子之间的关系对化合物外在性质产生影响,而非骨架氢原子仅仅影响与其直接相连的非氢原子染色值。首先根据非氢原子电子层结构及连接的氢原子数,采用文献[10]方法为每个非氢原子进行参数化染色,采用式(1)计算。
Zi=[mi(ni-1)(XC/Xi)1/2-hi]1/2
(1)
式中mi表示其最外层电子数,ni表示非氢原子i的电子层数, XC表示碳原子电负性,Xi为非氢原子电负性,hi为与其直接连接的氢原子数。
不同种类的非氢原子,以及不同种类的非氢原子间的关系对化合物外在性质影响可能不同,因而需要对非氢原子进行分类。采用文献[7-8]方法根据非氢原子连接其他非氢原子数分为1、2、3、4四种类型,例如与3个非氢原子直接相连的叔碳原子属于第3类非氢原子。
4种类型的非氢原子自身对化合物外在性质的影响,按式(2)进行分类累加。
(2)
式中,k表示非氢原子i的原子类型;i为原子在分子中的编码;Zi为非氢原子的染色值,按式(1)计算。一个化合物中最多含有4种原子类型,因此最终可分类累加得到4个非氢原子自身对化合物性质贡献项,用x1、x2、x3及 x4表示。
对于非氢原子之间的关系对化合物外在性质的影响,首先需要构建非氢原子之间的关系。在化合物分子结构图中,2个非氢原子之间的距离越大,则两者之间的相关性越小;2个非氢原子自身染色值越大,则两者之间的相关性越大。只要满足上述条件的函数关系式均可,这里采用Gaussian形距离关系函数式(3)计算。
(3)
Zi、Zj为非氢原子的染色值,按式(1)计算;dij为关系中的非氢原子i到非氢原子j的相对距离(两者间最短路径所经化学键键长之和/碳碳单键键长,如有多条路径,则以最短的为准);n和l为非氢原子的类型;α=0.5。化合物中4类非氢原子可以组合出10种关系项: m11、m12,…,m44,简写为x5、x6,…,x14,如m12(即x6)表示第1类非氢原子跟第2类非氢原子之间的关系,以此类推。这样对有机化合物最多将产生14个结构描述符值来描述结构信息。
1.2.2 QSPR建模与检验
采用逐步回归(stepwise regression, SMR)与多元线性回归(multiple linear regression, MLR)回归相结合的方法建立模型,运用“留一法”对模型稳定性及预测能力进行检验。一般认为,建模相关系数(r)在0.80~1.0之间,表明模型高度相关;标准偏差(SD)/(研究指标的最大值-最小值)<10%时,表明模型预测准确性好;交互检验相关系数(Q2)≥0.50,表明模型稳健性和预测能力良好[11]。
表1 酚类化合物结构描述符值及logKowTable 1 Structural descriptors and logKow
注:x1、x2、x3分别为第1、2、3类非氢原子自身染色值;x5为第1类原子之间的关系;Cal.1为模型对化合物logKow的计算值;Pre.为留一法交互检验预测值;Err.1、Err.2分别为误差。
Note: x1, x2, x3are the self-dyeing values of the first, second and third types of non-hydrogen atoms respectively; x5is the relationship between the first type atoms; Cal.1 is the calculated value of the compounds’ logKowby the model; Err.1, Err.2 are the errors.
图1 相关系数(r/Q)随逐步回归变化情况Fig. 1 Change of correlation coefficients (r/Q) in the stepwise regression
图2 标准偏差(SD/SDCV)随逐步回归变化情况Fig. 2 Change of standard deviations (SD/SDCV) in the stepwise regression
将化合物结构进行参数化表征得结构描述符(变量较多,在此不全部列出,如读者需要可以直接向作者索取),由于变量较多,某些变量可能与所研究的性质不相关,某些变量之间可能存在共线性,因此在建模之前对变量进行筛选是有必要的。首先采用逐步回归(SMR)对变量进行筛选,依据变量显著性大小依次将变量引入模型。为保证模型的预测能力和稳定性,运用“留一法”对每一步得到的模型进行交互检验。变量筛选及各步建模结果见表2,为便于观察将相关系数(r/Q)及标准偏差(SD/SDCV)随逐步回归变化情况绘于图1、图2。
从表2和图1中可以发现建模相关系数(r)及交互检验的相关系数(Q)随变量的引入而变化,当逐步回归到第4步,建模相关系数(r)及交互检验的相关系数(Q)都接近最大值,继续增加变量建模相关系数(r)略微有所增大,而交互检验的相关系数(Q)还表现出减小的趋势。同样在图2中,可以发现逐步回归到第4步时,建模标准偏差(SD)和交互检验的标准偏差(SDCV)都接近最小值,继续增加变量建模标准偏差(SD)略微有所减小,但交互检验的标准偏差(SDCV)表现出了增大的趋势。因此,应该选择逐步回归到第4步所筛选的变量进行建模,此时入选的变量依次为x1、x2、x3和x5(列入表1)
变量的线性回归模型如式(4):
logKow= -3.320+0.152×x1+0.416×x2+0.492×x3-1.270×x5
(4)
模型拟合:N=36,n=4,r=0.988,SD=0.121,F=328.045;交互检验:Q2=0.966,SDCV=0.148, FCV=217.404。
表2 逐步回归变量筛选结果Table 2 The results of stepwise variable selection
N建模样本数,n为变量数,r为建模相关系数,SD为标准偏差,F为显著性检验值;Q2交互检验的相关系数,SDCV交互检验的标准偏差,FCV为交互检验的显著性检验值。上述模型符合样本数(N)/变量数(n)≥5的经验规则,建模相关系数(r)达0.988,处于0.80~1.0之间并且接近上限1,说明模型拟合效果好;交互检验的相关系数(Q2)达0.966,远大于0.50并且接近建模相关系数(r2),说明模型具有良好的稳健性和预测能力;标准偏差(SD)为0.121,交互检验的标准偏差(SDCV)为0.148,而样本logKow最大值与最小值之差为3.66,2个标准偏差(SD、SDCV)与3.66之比分别为3.31%和4.04%,远远小于10%的标准,说明模型预测准确性良好。模型对全部化合物的logKow进行了计算,计算值Cal.、误差Err.1、交互检验预测值Pre.、误差Err.2列于表1,从表中也可以大致发现模型对化合物的logKow预测准确性高、误差小,效果优良。计算值与实验值相关图见图3,误差分布见图4。图3可以发现所有样本点都落在过原点的平分线的附近,说明模型值与实验值接近;同样图4中可以发现在模型拟合值中只有1个化合物(6号,不足3%)的误差落在±2 SD范围之外,在交互检验预测值中只有2个化合物(6号和8号,不足6%)的误差落在±2 SD范围之外,而其他样本的误差都落在±2SD范围内,同样说明模型计算的误差小,模型质量良好,可以用于分析影响酚类化合物logKow的结构因素和预测酚类化合物的logKow。分析6号和8号化合物结构,发现与其他化合物相比并没有特殊性,因而两者的误差可能是由于结构描述符不够完善,某些差异没有得到很好的表达所致,例如结构描述符对取代基位置变动可能不是很敏感等。
模型变量x1、x2、x3和x5的标准回归系数分别为0.854、1.102、1.435和-1.274,由此可见x1、x2和x3与化合物的logKow正相关,它们分别对应于第1、2、3类非氢原子的自身染色值。并且x3标准回归系数最大,因而对化合物的logKow影响最为显著,对于本文的研究样本第3类非氢原子即为苯环上被取代基占据的碳原子,即苯环上的取代基越多,化合物可能具有较大的logKow,例如第16号化合物五氯酚,含有较多第三类非氢原子,因而具有较大的logKow值。x5与化合物的logKow负相关,x5对应于第1类非氢原子之间的关系,x5的值与第1类非氢原子的种类、数量以及它们之间的距离密切相关,当2个化合物中第1类非氢原子的种类、数量相同时,第1类原子分布越紧密、之间的距离越小,则x5值就会越大,化合物的logKow就会越小。例如23号化合物2,3-二氯苯酚和24号化合物2,5-二氯苯酚相比,2个化合物中第1类非氢原子的种类、数量相同,而23号化合物中的第1类原子分布更紧密、之间的距离更小,因而23号化合物的logKow比24号化合物要小。
图3 计算值与实验值相关图Fig. 3 Correlation between calculated and experimental values
图4 计算误差分布Fig. 4 Distribution of calculated errors
文献[9]对该组样本也进行过QSPR研究,采用Gaussian03量子化学计算软件分别在B3LYP/6-31G(d, p)和B3LYP/6-311G(d, p)2种水平上计算了研究样本的结构参数和热力学参数,然后采用多元线性回归(MLR)构建了2个QSPR模型。为与该文献结果进行对比,将文献结果与本文所得结果列于表3。
表3 模型比较Table 3 Comparison of models
注:“*”为文献[9]结果;“△”为本文结果。
Note: *are the results of literature [9]; △ are the results of this article.
从表3中可以发现,本文所得模型建模相关系数(r)与文献一致,但交互检验相关系数(Q2)比文献值大,标准偏差(SD)明显优于文献。另外,本文结构描述符可以直接从化合物分子结构计算得到,无须进行构象优化等操作,计算简便、快速,计算工作量大大低于文献。总的说来,本文所构建的QSPR模型较文献[9]具有一定的优越性。
将化合物分子中不同非氢原子染色,通过Gaussian形距离关系函数构建了不同非氢原子之间的关系,然后将分子中非氢原子自身染色参数值分类累加及非氢原子之间的关系作为结构描述符,对部分苯酚类化合物结构进行了参数化表征。采用逐步回归(SMR)筛选变量后,运用多元线性回归(MLR)构建了该类化合物定量结构-正辛醇/水分配系数(logKow)的QSPR模型。模型具有良好的预测能力和稳定性,模型质量略优于文献结果。构建的二维分子结构描述符与现今流行的三维表征法CoMFA和CoMSIA[12]等相比,具有简单、易懂、计算方便的优点。但是本文结构描述符为二维结构描述符,对于光学异构体、顺反异构等无法区分,这些有待进一步研究。构建的结构描述符可能也适合其他有机化合物结构参数化表征,可为环境中有机污染物的QSPR/QSAR研究提供一种新的方法,具有一定的参考价值。
[1] 廖立敏. 卤代苯甲醚结构表征及醇/水分配系数模拟[J]. 计算机与应用化学, 2015, 32(7): 889-892
Liao L M. Structural characterization and octanol/water partition coefficient simulation for halogenated anisole compounds [J]. Computers and Applied Chemistry, 2015, 32(7): 889-892 (in Chinese)
[2] 翟竟余, 于海瀛, 陈伟, 等. 基于DFT方法建立多溴代联苯醚代谢产物的正辛醇-水分配系数的预测模型[J]. 科学通报, 2014, 59(21): 2077-2083
Zhai J Y, Yu H Y, Chen W, et al. Prediction of n-octanol/water partitioning coefficients for selected metabolites of polybrominated diphenyl ethers by DFT method [J]. Chinese Science Bulletin (Chinese Version), 2014, 59(21): 2077-2083 (in Chinese)
[3] 王甫洋, 张学胜, 刘辉. 卤代苯化合物水溶解度及正辛醇/水分配系数的三维构效关系研究[J]. 环境科学学报, 2015, 35(4): 1032-1039
Wang F Y, Zhang X S, Liu H. Three-dimensional quantitative structure property relationship (3D-QSPR) on aqueous solubility (-lgSw) and noctanol/water partition coefficient (lgKow) of halogeno-benzene [J]. Acta Scientiae Circumstantiae, 2015, 35(4): 1032-1039 (in Chinese)
[4] 何伟平, 黄菊, 王德堂, 等. 正构烷基酚热力学性质的构效关系[J]. 化工学报, 2015, 66(1): 67-78
He W P, Huang J, Wang D T, et al. QSPR on thermodynamic properties of n-alkyl phenol [J]. Journal of Chemical Industry and Engineering(China), 2015, 66(1): 67-78 (in Chinese)
[5] 彭艳芬, 王云, 刘小四, 等. 取代酚类化合物LC50的QSAR模型建立与分析[J]. 计算机与应用化学, 2015, 32(3): 369-372
Peng Y F, Wang Y, Liu X S, et al. The buliding and analyse of QSAR models of LC50of substituted phenol compounds [J]. Computers and Applied Chemistry, 2015, 32(3): 369-372 (in Chinese)
[6] Liao L M, Huang X, Li J F. Structural characterization and acute toxicity simulation for nitroaromatic compounds [J]. Chinese Journal of Structural Chemistry, 2016, 35 (3): 449-456
[7] 李建凤. 分子顶点电性作用矢量用于卤代酚急锐毒性研究[J]. 计算机与应用化学, 2015, 32(11): 1399-1403
Li J F. Study on acute toxicity for halogenated phenols by using molecular vertex electronegativity interaction vector [J]. Computers and Applied Chemistry, 2015, 32(11): 1399-1403 (in Chinese)
[8] 李建凤, 谢永红, 雷光东. 部分聚合物结构与热容变化关系研究[J]. 计算机与应用化学, 2016, 33(7): 833-837
Li J F, Xie Y H, Lei G D. Study on relationship of structure and change in heat capacity for some polymers [J]. Chemical Research and Application, 2016, 33(7): 833-837 (in Chinese)
[9] 叶庆国, 宋斌, 张宏哲, 等. 用密度泛函理论预测酚类化合物的正辛醇/水分配系数[J]. 化学研究, 2011, 22(4): 66-71
Ye Q G, Song B, Zhang H Z, et al. Predicting n-octanol/water partition coefficient of phenols with density functional theory [J]. Chemical Research, 2011, 22(4): 66-71 (in Chinese)
[10] 秦正龙. 连接性指数对脂肪醇的QSPR/QSAR研究[J]. 徐州师范大学学报:自然科学版, 2001, 19(3): 50-52
Qin Z L. A new connectivity index for QSPR/QSAR study of alcohol [J]. Journal of Xuzhou Normal University: Natural Sciences, 2001, 19(3): 50-52 (in Chinese)
[11] 顾云兰, 陈鑫, 简美玲. 苯胺类化合物结构与毒性的密度泛函理论研究[J]. 化学研究与应用, 2015, 27(8): 1139-1144
Gu Y L, Cheng X, Jian M L. Study on the structure-toxicity relationship of aniline compounds by density functional theory [J]. Chemical Research and Application, 2015, 27(8): 1139-1144 (in Chinese)
[12] 于艳军, 张勇, 韩伟, 等. N-取代氟乙酰胺结构与急性毒性的CoMFA和CoMSIA研究[J]. 生态毒理学报, 2015, 10(2): 183-189
Yu Y J, Zhang Y, Han W, et al. CoMFA and CoMSIA studies of N-substitued fluoroacetamide structures with acute toxicity [J]. Asian Journal of Ecotoxicology, 2015, 10(2): 183-189 (in Chinese)
◆
StudyontheRelationshipbetweenStructureandAlcohol/waterPartitionCoefficients(logKow)ofPhenolicCompounds
Liao Limin*
College of Chemistry and Chemical Engineering, Neijiang Normal University, Neijiang 641100, China
10.7524/AJE.1673-5897.20161107002
2016-11-07录用日期2016-12-17
1673-5897(2017)3-710-07
X171.5
A
廖立敏(1981-),男,硕士,副教授,主要从事分子结构与性能方面的关系、物质分离分析等方面研究,在国内外核心期刊发表论文50余篇,其中SCI收录10余篇。
四川省教育厅青年基金项目(13ZB0003)
廖立敏(1981-),男,硕士,副教授,研究方向为分子结构与性能,E-mail: liaolimin523@126. com
廖立敏. 酚类化合物结构与醇/水分配系数(logKow)关系研究[J]. 生态毒理学报,2017, 12(3): 710-716
Liao L M. Study on the relationship between structure and alcohol/water partition coefficients (logKow) of phenolic compounds [J]. Asian Journal of Ecotoxicology, 2017, 12(3): 710-716 (in Chinese)