基于形态修正的描述符构建可电离化合物对大型溞急性毒性的QSAR模型

2019-11-12 03:46席越杨先海张红雨刘会会
生态毒理学报 2019年4期
关键词:辛醇描述符苯胺

席越,杨先海,张红雨,刘会会

南京理工大学环境与生物工程学院,江苏省化工污染控制与资源化高校重点实验室,南京 210094

在商用化学品中,可电离有机化合物(ionogenic organic chemicals, IOCs)往往占有较大比例[1],例如,在欧盟登记注册的14万余种化学品中,约50%为IOCs[2];此外,> 60%的药物为IOCs[3],大部分个人护理用品也属于IOCs[4]。随着IOCs的大量生产、使用,可能导致IOCs通过多种途径进入水环境。据估计,每年约有3亿吨合成化学物质被排放进入水环境[5],导致水环境中IOCs等化合物的环境检出率和检出浓度越来越高。进入水环境的IOCs,会对各种水生生物产生持续暴露,进而引发各种生态危害效应。因此,有必要筛选评估具有毒性效应的IOCs,并对其进行管控,以减少其对水生生物的危害。

在环境水体中,IOCs会解离为不同比例的分子和离子形态。各形态存在比例取决于IOCs自身的酸碱解离常数(pKa)和环境pH条件,一元酸碱的解离程度可采用下式计算:

(1)

式中,δM和δI分别是分子和离子态的比例分数;酸碱化合物的Iab分别取值1和-1。前人研究结果表明,化合物的分子和离子态具有不同的环境行为、生物富集能力和毒性效应。例如,在IOCs对大型溞的毒性研究中,发现随着溶液pH的增加,酚类、苯甲酸类IOCs对大型溞的毒性作用降低,而苯胺类IOCs对大型溞的毒性效应则相反,说明酸碱化合物的分子态具有更强的水生急性毒性[6]。而在IOCs与运甲状腺素转运蛋白的相互作用过程中,IOCs的离子态具有更重要的贡献[7-8]。因此,在研究IOCs的环境行为、健康与生态毒性效应时,不能忽视离子化的影响。

虽然各种健康和生态毒性效应测试体系已建立数十年,但由于实验成本高、耗时长,难以对所有14万多种商用化学品进行一一测试,导致仅有少部分化合物具有完整的毒性数据[9]。为了应对该挑战,美国、欧盟、经济合作与发展组织(OECD)和世界卫生组织(WHO)等国家或组织都大力倡导应用定量结构-活性关系(QSAR)等计算毒理学技术填补缺失的化学品数据[10-12]。那么在构建QSAR等预测模型时,如何表征IOCs离子化的影响就成为需要重点解决的问题。在前人的研究中,一般通过以下几种方式表征离子化的影响:(1)采用形态修正的正辛醇-水分配系数(logKOW),即正辛醇-水分布系数(logDOW)[13],但是该参数只能用于评估与分配相关的过程;(2)采用酸碱解离常数(pKa)、分子态和离子态的比例分数(δM和δI)[14];(3)采用引入离子参数的多参数线性自由能关系(PP-LFER)[15],该方法仅能适用于部分有离子参数的化合物;(4)采用基于形态修正的描述符,其计算方法如下:

(2)

式中,XM和XI-i分别是化合物分子态和第i种解离态的描述符值;δI-i是化合物第i种解离态的比例分数。从定义式可以看出,该方法的本质是通过考虑目标化合物在给定条件下所有存在形态的贡献而计算一个表观值。近年来,笔者所在课题组采用该方法,计算了10多种基于形态修正的量化描述符,并成功使用这些参数构建了IOCs与运甲状腺素转运蛋白[7-8,16]、血清蛋白[17]、结构蛋白[18]和磷脂膜[19]相互作用的预测模型。在本研究中,我们将进一步探索采用基于形态修正的描述符来构建IOCs对水生毒性效应的预测模型的可行性。基于此,本研究将构建2类模型:(1)仅采用logKOW和分子形态计算的量化描述符构建预测模型;(2)采用logDOW和基于形态修正的量化描述符构建预测模型,进而通过模型表征,比较2类模型预测性能的差异。

1 材料与方法(Materials and methods)

1.1 数据集

数据集包含63个取代苯酚、苯胺和苯甲酸类IOCs对大型溞的24 h急性毒性数据(表1)。实验数据来源于包信等[20]的研究。原始文献测定和整理了pH = 6.0、7.8和9.0共3个条件的毒性数据,本研究选取pH = 7.8的数据作为代表进行研究。所有化合物信息及其效应值列于表1。

表1 模型化合物信息、大型溞急性毒性实验及预测数据Table 1 Information of model compounds, their observed and predicted acute toxicity data of Daphnia magna

续表1序号No.名称Chemical nameCAS号CAS No.-logEC50实验值Observed模型IModel I模型IIModel II502,5-二氯苯甲酸 2,5-Dichlorobenzoic acid000050-79-32.993.042.67512,4,6-三氯苯甲酸 2,4,6-Trichlorobenzoic acid000050-43-13.252.873.18522,3,4,5-四氯苯甲酸 2,3,4,5-Tetrachlorobenzoic acid∗000050-74-83.433.593.80532-氨基苯甲酸 2-Aminobenzoic acid000118-92-32.882.953.08543-氨基苯甲酸 3-Aminobenzoic acid000099-05-82.453.332.59554-氨基苯甲酸 4-Aminobenzoic acid000150-13-02.403.112.62564-羟基苯甲酸 4-Hydroxybenzoic acid∗000099-96-72.312.732.68573-羟基苯甲酸 3-Hydroxybenzoic acid000099-06-92.012.92.53582-羟基苯甲酸 2-Hydroxybenzoic acid000069-72-72.692.972.57592,4-二羟基苯甲酸 2,4-Dihydroxybenzoic acid000089-86-13.023.202.98602,5-二羟基苯甲酸 2,5-Dihydroxybenzoic acid∗000490-79-93.254.102.87613,4,5-三羟基苯甲酸 3,4,5-Trihydroxybenzoic acid000149-91-73.883.312.4662邻苯二甲酸 2-Phthalic acid000088-99-31.531.811.7063间苯二甲酸 Isophthalic acid000121-91-51.442.231.47

注: * 验证集化合物。

Note: * Compounds selected as the external validation set.

1.2 分子描述符计算

其次,从EPI Suit 4.10软件查询了logKOW实验值,其中4个无实验值的化合物采用预测的logKOW数据。采用MarvinSketch (ChemAxon 15.6.29.0, http://www.chemaxon.com)软件计算pH = 7.8的logDOW,δM,δI。其中,DOW在该软件中的定义为:

(3)

式中,mi,正辛醇相和mi,水相分别是化合物第i种存在形态在正辛醇相和水相中的浓度。

1.3 QSAR模型构建与表征

采用基于杠杆值(leverage)的Williams图和欧几里德距离图定义模型的应用域[27]。

2 结果与讨论(Results and discussion)

2.1 大型溞急性毒性与logKOW, logDOW的关系

logKOW表征了化合物分子态在正辛醇相和水相间的分配能力。不可电离化合物的水生毒性效应往往与logKOW存在较好的线性相关性[28]。对IOCs该关系是否依然存在呢?从图1可以看出,对所研究的63种取代苯酚、苯胺和苯甲酸类化合物对大型溞的24 h急性毒性而言,logKOW与-logEC50的Pearson相关系数仅为0.265,虽然仍具有显著相关性,但相关性较差。通过引入考虑解离态贡献的logDOW后,logDOW与-logEC50的Pearson相关系数增加到0.848。这说明在构建IOCs的水生毒性效应预测模型时采用logDOW要优于logKOW。

2.2 最优模型及其表征结果

仅采用化合物分子态描述符构建的最优模型(模型I)为:

(4)

图1 -logEC50与logKOW, logDOW的关系注:logKOW表示正辛醇-水分配系数,logDOW表示正辛醇-水分布系数。Fig. 1 Relationship between -logEC50 and logKOW, logDOWNote: logKOW is n-octanol/water partition coefficient; logDOW is n-octanol/water distribution coefficient.

= 0.609, MAEEXT= 0.423

采用基于形态修正的描述符构建的最优模型(模型II)为:

(5)

表2 模型所选描述符的t, P, VIF值Table 2 Values of t, P, VIF for selected descriptors

图2 模型I (A)和模型II (B)中-logEC50实验值与预测值的关系Fig. 2 Plots of the observed versus predicted -logEC50 for the model I (A) and model II (B)

2.3 应用域表征

模型应用域表征结果如图3所示。从图3A可以看出,仅1个验证集化合物(2,4,6-三溴苯胺)处于训练集化合物定义的结构域外。在Williams图中,若化合物的标准残差δ*落在±3.0以外时,认为该点是离群点。从图3B可见,仅一个化合物(3,4,5-三羟基苯甲酸)的标准残差δ*落于±3.0以外。由于其类似物如4-羟基苯甲酸、3-羟基苯甲酸、2-羟基苯甲酸、2,4-二羟基苯甲酸、2,5-二羟基苯甲酸的标准残差δ*均落于±3.0以内,说明模型能够正确预测该类化合物的毒性效应。导致3,4,5-三羟基苯甲酸离群的原因可能是实验高估了其对大型溞的急性毒性。在图3B中有2个物质(间苯二甲酸和2,4,6-三溴苯胺)的杠杆值均大于警戒值h*。但是模型较好地预测了间苯二甲酸和2,4,6-三溴苯胺对大型溞的急性毒性,说明模型具有较好的延展性[29]。

2.4 机理解释

图3 基于欧几里德距离方法(A)和Williams图(B)表征的模型II应用域模Fig. 3 Characterization of application domain for model II based on the Euclidean distance (A) and Williams plot (B)

2.5 模型比较

包信等[20]分别构建了针对19种苯酚类、17种苯胺类和24种苯甲酸类物质大型溞急性毒性的局域预测模型,从表3可以看出,针对19种苯酚类、17种苯胺类物质的模型具有较好的预测能力,但是对24种苯甲酸类物质的模型预测能力较差,仅在删除部分苯甲酸类物质的情况下,才能得到预测能力较好的模型。他们构建的局域模型可以用于分别预测苯酚类、苯胺类和苯甲酸类物质对大型溞的急性毒性数据。本研究针对19种苯酚类、20种苯胺类和24种苯甲酸类物质,构建了能同时预测上述3类物质对大型溞急性毒性的模型,所建模型具有较好的内部和外部预测能力,并进行了应用域表征。

综上,本研究探索了采用基于形态修正的描述符构建IOCs水生毒性指标预测模型的可行性。研究结果表明,使用基于形态修正的描述符构建的IOCs大型溞急性毒性模型预测能力要优于仅采用分子形态描述符的模型。因此,在将来构建IOCs水生毒性效应预测模型时,可考虑引入基于形态修正的描述符。

表3 本研究与文献模型比较Table 3 Comparison of the current model with previous QSAR models

猜你喜欢
辛醇描述符苯胺
一种降低苯胺系统焦油的方法
基于结构信息的异源遥感图像局部特征描述符研究
一种有效回收苯胺废水中苯胺的装置
欧盟批准增加玩具安全指令2009/48/EC中的苯胺限用
石菖蒲抗癫痫活性成分α-细辛醇鼻腔给药大鼠的药代动力学研究
16种邻苯二甲酸酯在不同极性溶剂中的提取率与辛醇水分配系数的关系
丁辛醇残液回收技术现状与展望
基于AKAZE的BOLD掩码描述符的匹配算法的研究
基于深度学习的局部描述符
仲辛醇在十二胺反浮选磁铁矿中的效果研究