王园宁,刘会会,杨先海
南京理工大学环境与生物工程学院,江苏省化工污染控制与资源化高校重点实验室,南京 210094
环境内分泌干扰物(EDCs)引发的内分泌干扰效应,严重威胁着人类和野生动物安全,正成为人类面临的全球性环境问题[1-2]。为应对EDCs带来的生态和健康威胁,自20世纪90年代以来,美国环境保护局、欧盟、日本环境省、经济合作与发展组织、世界卫生组织和联合国环境规划署等就针对EDCs实施了国家级的EDCs筛选计划和或国家/国际EDCs相关的行动计划[3]。如美国环境保护局实施了内分泌干扰物筛选计划(EDSP)[4],欧盟制定了EDCs识别标准[5-6],经济合作与发展组织开发了系列的测试导则/方法[7],世界卫生组织和联合国环境规划署组织出版了《内分泌干扰物的科学现状》等EDCs方面的科学研究进展报告[8]等。在我国《水污染防治行动计划》(国发〔2015〕17号)中也提出“到2017年底前完成EDCs生产使用情况调查,监控评估水源地、农产品种植区及水产品集中养殖区风险,实施EDCs淘汰、限制、替代等措施”的管控要求[9]。因此,面向EDCs的环境管理,如何科学、高效地从商用化学品中识别、评估潜在EDCs是各国化学品管理部门需解决的首要问题。
近30年来,欧美发达国家开发了大量的实验测试方法,也实施了多项国家级EDCs筛选计划来具体筛选、评估潜在EDCs。但是经过多年的实践,发现仅采用实验方法来筛选、评估潜在EDCs面临巨大的挑战。比如,美国环境保护局通过实施EDSP发现现有测试方法通量低(每年50~100种化学品)、成本高(每种化学品需耗费100万美元),导致很难按现有测试体系对商用化学品进行一一测试(商用化学品已超过14万种)。基于此,美国环境保护局于2012年提出了“21世纪的内分泌干扰物筛选计划”(EDSP21)[10]。EDSP21的核心是主要依赖高通量预测技术等进行潜在EDCs筛选。因此,发展内分泌干扰效应指标的预测模型对于实施EDCs管控具有重要意义[11-12]。
研究表明,内分泌相关疾病和功能紊乱通常与EDCs对激素受体、转运蛋白等生物大分子的干扰作用有关[13]。在过去较长时间里,激活或抑制激素受体介导的信号转导过程被认为是EDCs的主要作用机制,因而许多工作均集中于研究EDCs与雌激素、雄激素和甲状腺素等激素受体的作用[14-18]。在雌激素受体方面,目前所建的预测模型主要是针对人、牛、大鼠和小鼠等物种[19],而对水生生物雌激素受体的预测模型研究还较少。最近,笔者课题组构建了有机污染物对8种鱼雌激素受体干扰效应的预测模型[20]。这些模型均是基于定量数据而构建的定量预测模型,可用于填补有机污染物对这8种鱼缺失的激素干扰效应数据。但是,在前人的研究中,除了获得定量数据外,还发现一些化合物不具有雌激素干扰活性,而这部分数据未在我们之前的研究中使用。考虑到预测模型的应用域与所采用的模型化合物种类和数量相关,因此可以通过引入更多模型化合物的方式来扩展模型应用域[21]。基于此,本文的研究目的是通过查询文献中关于有机化学品与鱼类雌激素受体相互作用的定量和定性数据,构建能够区分有机化学品是否具有鱼类雌激素受体干扰活性的定性分类模型,为筛选潜在鱼类雌激素受体干扰物提供技术支撑。
从文献中查询了62种有机化学品的斑马鱼(Danio rerio)雌激素受体干扰效应数据[22-23],其中,具有斑马鱼雌激素受体干扰效应的化合物有39个,以A表示;无活性的物质23个,以I表示。模型化合物信息列于表1。建模时,数据集按4∶1的比例随机拆分为训练集(49个化合物)和验证集(13个化合物),训练集用于构建模型,而验证集用于评估模型。
首先从美国环境保护局开发的EPI SuiteTM软件数据库查询并下载目标化合物的分子结构[24]。对于EPI SuiteTM软件数据库没有分子结构的化合物,采用ChemBioOffice 2010软件生成其分子结构。然后,用MOPAC 2016软件优化模型化合物分子结构(关键词:PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80)[25]。基于优化的分子结构,采用Dragon 6软件计算描述符[26]。依据以下原则对计算的4 885种Dragon描述符进行初步筛选:去除常数和近似常数的描述符,去掉至少有一个缺失值的描述符及相关系数大于0.95的描述符[27]。最终,描述符集包含1 175个描述符。
表1 模型化合物信息、斑马鱼雌激素干扰效应实验及预测数据Table 1 Information of model compounds, their observed and predicted estrogenic activity data of zebrafish
续表1序号No.名称Chemical nameCAS号CAS No.雌激素干扰效应数据Estrogenic activity data观测值Observed模型ⅠModelⅠ模型ⅡModelⅡ49山奈酚 Kaempherol000520-18-3AAA50尼鲁米特∗ Nilutamide∗063612-50-0III514-羟基他莫昔芬∗ 4-Hydroxytamoxifen∗068047-06-3AAA52酮康唑∗ Ketoconazole∗065277-42-1III53佛波醇12-十四酸酯13-乙酸酯∗12-o-Tetradecanoylphorbol-13-acetate∗016561-29-8III54雄诺龙∗ 5α-Dihydrotestosterone∗000521-18-6AAA554-肉桂苯酚∗ 4-Cumylphenol∗000599-64-4AAA56雌酚酮∗ Estrone∗000053-16-7AAA57利谷隆∗ Linuron∗000330-55-2III58匹莫齐特∗ Pimozide∗002062-78-4III59芹菜素∗ Apigenin∗000520-36-5AAA60螺内酯∗ Spiromolactone∗000052-01-7III61邻仲丁基苯酚∗ 2-sec-Butylphenol∗000089-72-5AAA62己烯雌酚∗ Diethylstilbestrol∗006898-97-1AAA
注:*验证集化合物。
Note: * Compounds selected as the external validation set.
采用基于欧几里德距离的K最近邻(kNN)分类算法构建了二元分类模型。欧几里德距离计算方法为:
(1)
式中:DE是欧几里德距离;x和y是不同的化学品;xi和yi分别是化学品x和y的第i个描述符。使用自编的python程序进行kNN二元分类模型构建,该程序已成功应用于构建有机化学品水生毒性模型[28]、内分泌干扰效应模型[27,29]。
根据经济合作与发展组织关于模型构建与验证的导则对模型进行内部和外部预测能力、应用域等方面的表征[30]。具体而言,采用预测准确度(Q)、敏感性(Sn)和特异性(Sp)参数表征模型内部和外部预测能力[27-32]。
(2)
(3)
(4)
式中:TP (true positive,真阳性)和TN (true negative,真阴性)分别是正确分类为毒性和非毒性的化合物数量;FN (false negative,假阴性)和FP (false positive,假阳性)分别是错误分类为非毒性和毒性的化合物数量。此外,还采用受试者工作特征曲线(ROC曲线)及ROC曲线下的面积(AUC)来表征分类性能[33]。采用基于欧几里德距离的方法法表征模型应用域。使用AMBIT Discover (version 0.04) (http://ambit.sourceforge.net/download_ambitdiscovery.html) 软件绘制基于欧几里德距离的模型应用域。
本研究得到2个最优模型,模型Ⅰ包含2个描述符,即Mor23m和B06[C-N];模型Ⅱ包含3个描述符,即F02[C-N]、VE2_Dt和Mor22m。2个模型的表征参数如表2所示。
从表2可以看出,2个最优模型训练集和验证集的预测准确度(Q)、敏感性(Sn)和特异性(Sp)参数均大于0.93,即意味着93%以上的化合物均能被正确分类为有斑马鱼雌激素受体干扰活性或无干扰活性,说明模型具有较好的预测能力。此外,ROC曲线表明(图1),2个模型的训练集和验证集ROC曲线的AUC均大于等于0.98,说明模型具有较好的分类性能。
表2 模型表征结果Table 2 Statistical results of developed models
基于欧几里德距离的模型应用域表征结果如图2所示。模型Ⅰ无化合物处于模型结构域外;而模型Ⅱ中有2个验证集化合物在模型结构域外,说明2个模型的训练集具有较好的代表性。模型Ⅱ验证集中处于模型结构域外的化合物为酮康唑和匹莫奇特,虽然其处于训练集所定义的结构域外,但是模型Ⅱ能正确将其分类为无斑马鱼雌激素受体干扰活性。
2个分类模型共筛选出Mor23m、B06[C-N]、F02[C-N]、VE2_Dt和Mor22m这5个描述符。其中Mor23m和Mor22m是原子质量加权的3D-MoRSE描述符,表征了分子质量的影响[34]。B06[C-N]和F02[C-N]是2D原子对描述符。B06[C-N]是指分子中是否存在拓扑距离6的碳-氮原子对[35];而F02[C-N]是指分子中碳-氮原子对在拓扑距离2的频数[36],它们均表征了分子中存在氮原子对化合物与斑马鱼雌激素受体相互作用的影响。通过比对数据,发现存在碳-氮原子对不利于化合物与斑马鱼雌激素受体相互作用,例如,在模型Ⅰ中,B06[C-N]数值不为0的22个物质中,仅5个具有干扰效应(22.7%),在B06[C-N]数值为0的40个物质中,仅34个具有干扰效应(85.0%);在模型Ⅱ中,F02[C-N]数值不为0的24个物质中,仅6个具有干扰效应(25.0%),在B06[C-N]数值为0的38个物质中,仅33个具
图1 分类模型Ⅰ(A)和模型Ⅱ(B)的受试者工作特征(ROC)曲线注:AUC表示ROC曲线下的面积。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification model Ⅰ (A) and model Ⅱ (B)Note: AUC stands for area under ROC curve.
图2 基于欧几里德距离的分类模型Ⅰ (A)和模型Ⅱ (B)应用域表征图Fig. 2 Characterization of application domain for classification model Ⅰ (A) and model Ⅱ (B) based on the Euclidean distance
有干扰效应(86.8%)。VE2_Dt是2D矩阵相关的描述符[37]。
本论文针对水生生物雌激素效应预测模型缺乏的问题,以构建有机污染物斑马鱼雌激素受体干扰效应分类预测模型为目标,根据经济合作与发展组织关于模型构建与验证的导则,构建了具有较好内部和外部预测能力的斑马鱼雌激素受体干扰效应二元分类预测模型,可为筛选潜在鱼类雌激素受体干扰物提供支撑。