一种筛选具有潜在持久性、迁移性和毒性(PMT)新污染物的计算毒理学模型工具

2022-09-28 08:07郑玉婷王宝成于洋黄怡张丽丽杨先海金彪林军张干
生态毒理学报 2022年3期
关键词:绿藻持久性化学物质

郑玉婷,王宝成,于洋,*,黄怡,张丽丽,杨先海,金彪,林军,张干

1.生态环境部固体废物与化学品管理技术中心,北京 100029

2.北京市污染源管理事务中心,北京 100089

3.南京理工大学环境与生物工程学院,南京 210094

4.国家有机地球化学国家重点实验室,中国科学院广州地球化学研究所,广州510640

PMT(persistent mobile toxic)类物质是一类具有持久性、迁移性和毒性的有机化学物质总称[1]。该类物质是一类新污染物,具有难降解、移动性强,不易被化学或者生物过程消减等特点,且难被土壤或活性炭等吸附去除,较易穿透土壤或水处理设施屏障,容易赋存于地表水、地下水和饮用水,对生态环境和人类健康产生未知风险。有研究表明,水环境已检测出潜在的PMT类物质,例如甲基叔丁醚(MTBE)、全氟烷基酸(PFAA)、三氯乙烯和四氯乙烯等[2-4]。

当前,我国化学工业规模大于欧盟和美国总和,应对化学物质的环境释放已成为环境安全的重大挑战。新时代下,化学品环境管理战略也在不断创新。继2016年美国修订了《有毒物质控制法》,欧盟于2020年更新了《面向无毒环境的化学品可持续发展战略》,制定了“全新的欧洲化学品管理政策长期规划”,提出从生命周期的角度尽量减少PMT类新污染物对生态环境的影响,以确保生态环境的总体可持续。计划在《欧盟物质和混合物的分类、标签和包装法规》(CLP)中提出新的关于环境毒性、持久性、迁移性和生物积累性的危害等级和标准,并计划将内分泌干扰物、持久性、流动性、毒性以及高持久性和高迁移性的化学物质,列为高关注物质类别。德国联邦环境署(UBA)在欧盟REACH框架下,牵头建立了PMT物质的鉴定评判标准。我国于2020年提出了“重视新污染物治理”的新要求,国务院办公厅于2022年5月4日正式印发了《新污染物治理行动方案》。部分潜在PMT类物质已被纳入我国优先控制化学品名录管理,例如三氯乙烯、四氯乙烯等被列入我国《优先控制化学品名录(第一批)》。但是,仍有未知数量的PMT类物质还未受到关注及管控,我国缺乏服务于化学品环境风险管理的专业模型工具,计算毒理学工具逐渐成为了化学品环境管理的重要工具之一[5]。

为应对国际化学物质环境管理新趋势,贯彻落实新发展理念,认真执行新污染物治理行动方案,本研究运用计算毒理学技术,开发了一种能够筛选潜在PMT类新污染物的模型工具,辅助环境管理工作者从数以万计的化学物质中,快速识别出具有PMT危害特性的化学物质,以期服务于我国化学品环境管理及新污染物治理。

1 材料与方法(Materials and methods)

1.1 模型构建与验证方法

1.1.1 建模数据

本研究构建PMT模型的数据集包含了14 770条数据信息[6],P模型包含1 629个化学物质的快速生物降解性数据,M模型包含9 961个化学物质正辛醇-水分配系数数据,T模型包含946个化学物质的鱼急性毒性数据,94个化学物质的鱼慢性毒性数据,978个化学物质的大型溞急性毒性数据,307个化学物质的大型溞慢性毒性数据,445个化学物质的绿藻急性毒性数据,410个化学物质的绿藻慢性毒性数据。

1.1.2 建模方法

构建PMT模型时,建模数据均按照3∶1的比例,随机分为训练集和验证集。采用PaDEL-Descriptor软件[7],计算一维、二维分子结构描述符及Pubchem分子指纹描述符,其中一维和二维分子结构描述符用于建模,Pubchem分子指纹描述符用于计算相似性指数(TS)[8],评估目标化学物质预测结果的可靠性。所有模型使用自编的Python程序[9-10]通过k-最邻近分类(kNN)算法构建模型,采用Euclidean距离表征应用域。Euclidean距离计算方法如公式(1)所示:

(1)

式中:DE是Euclidean距离;x和y是不同种化学物质;xi和yi分别是化学物质x和化学物质y的第i个描述符的值。若目标化学物质的Euclidean距离小于对应模型训练集的Euclidean距离最大值,则判定目标化学物质在模型应用域内;反之,则判定其不在模型应用域内。

1.1.3 毒性预测分类策略

毒性模型针对鱼类、大型溞和绿藻分别进行建模。由于不同类型的化学物质毒性作用差异较大,因此将目标化学物质进行了分类,分类策略如下。根据国标《化学品分类和标签规范 第28部分:对水生环境的危害》(GB 30000.28—2013)[12]以及《持久性、生物累积性和毒性物质及高持久性和高生物累积性物质的判定方法》(GB/T 24782—2009)[13]关于毒性物质的判别标准,对于鱼急性毒性分类预测模型,以L(E)C50为0.01、0.1、1、10和100 mg·L-1作为分类阈值,基于946个化学物质的鱼急性毒性数据,构建鱼急性毒性预测模型。但由于建模数据中LC50≤0.01 mg·L-1的物质数量少不足以建模,因此,本研究以0.1、1、10和100 mg·L-1为分类阈值,构建分类模型Ⅰ~Ⅳ,分类策略如图1所示。对于鱼慢性毒性分类预测模型,则以NOEC为0.01、0.1和1 mg·L-1为分类阈值,基于94个化学物质的鱼慢性毒性数据,构建鱼慢性毒性预测模型Ⅰ~Ⅲ,分类策略如图2所示。

图1 鱼急性毒性(LC50)预测模型分类策略示意图Fig. 1 Schematic diagram of classification strategy for fish acute toxicity (LC50) prediction model

图2 鱼慢性毒性(NOEC)预测模型分类策略示意图Fig. 2 Schematic diagram of classification strategy for fish chronic toxicity (NOEC) prediction model

与鱼急性/慢性毒性分类策略类似,对于大型溞急性毒性分类预测模型,是基于978个化学物质的大型溞急性毒性数据,以EC50为0.01、0.1、1、10和100 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅴ;对于大型溞慢性毒性分类预测模型,是基于307个化学物质的大型溞慢性毒性数据,以NOEC为0.01、0.1和1 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅲ;对于绿藻急性毒性分类预测模型,是基于445个化学物质的绿藻急性毒性数据,但由于EC50≤0.01 mg·L-1的物质个数少不足以建模,因此以EC50为0.1、1、10和100 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅳ;对于绿藻慢性毒性分类预测模型,是基于410个化学物质的绿藻慢性毒性数据,以NOEC为0.01、0.1和1 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅲ。

1.2 PMT类物质筛选方法

本研究根据我国《持久性、生物累积性和毒性物质及高持久性和高生物累积性物质的判定方法》(GB/T 24782—2009)判断化学物质是否具有持久性(P)和毒性(T)[13],根据德国联邦环境署有关标准判断化学物质是否具有迁移性(M)[1]。其中,P通过化学物质的快速生物降解属性来确定,如果不能快速生物降解,则表明该物质具有持久性;M通过logKoc判断,如果logKoc<4,则表明该物质具有迁移性;其中,logKoc通过logKow估算,该方法也是加拿大环境多介质模型工具[14](new equilibrium criterion)采用的方法之一,如公式(2)或(3)所示:

Koc=0.35Kow

(2)

logKoc=logKow-0.456

(3)

T预测根据国标《化学品分类和标签规范 第28部分:对水生环境的危害》(GB 30000.28—2013)[12],通过化学物质对水生急性毒性或水生慢性毒性效应数据判断,如果鱼类急性毒性效应值(LC50)、大型溞急性毒性效应值(EC50)、绿藻急性毒性效应值(EC50)<0.1 mg·L-1(或<0.01 mg·L-1),或者水生慢性毒性效应数据(NOEC)<0.01 mg·L-1,则表明该化学物质具有水生生物毒性。

1.3 PMT筛选工具开发

本研究基于Python语言开发了能够自动预测PMT属性的软件工具,即有毒有害化学物质高通量危害识别系统,以实现模型的高通量预测及筛选功能。该系统支持单一及批量化学物质的SMILES码、CAS号等输入方式,通过输入化学物质的结构信息,即可高通量预测化学物质的快速生物降解性、吸附系数(logKoc)、水生生物急慢性毒性,并根据筛选标准,评估识别潜在PMT类物质。

1.4 PMT属性预测与对比

本研究利用有毒有害化学物质高通量危害识别系统,开展了335个化学物质P、M和T属性的预测,并将预测结果与Huang等[15]的研究成果进行了比对。Huang等[15]的研究成果中包含了432个化学物质的P、M和T数据,同时具有P、M和T这3项指标的化学物质是335个,因此本研究对比验证的物质为335个。

2 结果与讨论(Results and discussion)

2.1 持久性(P)预测模型

快速生物降解最优模型包含了MLFER_S、MLFER_BO、TSRW、MlogP和WTPT-4这5个预测变量。模型Q、Sn和Sp分别介于0.83~0.88、0.78~0.86和0.86~0.89;MCC和AUC分别介于0.64~0.75和0.86~0.96,说明模型具有较好的分类性能,表征结果如表1所示。模型应用域显示,目标化学物质的Euclidean距离≤1.24时,在模型的应用域范围内。

表1 快速生物降解模型表征结果Table 1 Characterization results of a rapid biodegradation model

2.2 迁移性(M)预测模型

表2 logKow模型表征结果Table 2 Model characterization results of logKow

图3 logKow实验值和预测值拟合图Fig. 3 logKow fitted graph of experimental and predicted values

2.3 毒性(T)预测模型

2.3.1 鱼急慢性毒性分类预测模型

2.3.1.1 鱼急性毒性分类预测模型

鱼急性毒性分类模型Ⅰ,以LC50=10 mg·L-1为分类阈值,最优模型包含了logKow、GATS1p、SdCH2、nHBint3、nHAvin和maxssssC这6个预测变量;鱼急性毒性分类模型Ⅱ,以LC50=100 mg·L-1为分类阈值,最优模型包含了logKow、SIC0、maxHBint6、nHdCH2和minsssCH这5个预测变量;鱼急性毒性分类模型Ⅲ,以LC50=1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0v、MATS3p和VE1_DzZ这4个预测变量;鱼急性毒性分类模型Ⅳ,以LC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC1m、GATS2c和MATS1c这4个预测变量。如表3所示,模型Q、Sn和Sp分别介于0.85~0.92、0.70~0.92和0.81~0.92;MCC和AUC分别介于0.63~0.79和0.81~0.96,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅳ,目标化学物质的Euclidean距离分别小于1.23、1.04、1.05和1.07时,在相应模型的应用域范围内。

表3 鱼急性毒性分类模型表征结果Table 3 Characterization of fish acute toxicity classification model

2.3.1.2 鱼慢性毒性分类预测模型

鱼慢性毒性分类模型Ⅰ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、bpol和minaasC这3个预测变量;鱼慢性毒性分类模型Ⅱ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、IC5和AATSC5p这3个预测变量;鱼慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow和nHBint3这2个预测变量。如表4所示,模型Q、Sn和Sp分别介于0.88~1、0.89~1和0.85~1;MCC和AUC分别介于0.75~1和0.86~1,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别小于0.73、0.75和1.04时,在相应模型的应用域范围内。

表4 鱼慢性毒性分类模型表征结果Table 4 Characterization of fish chronic toxicity classification model

2.3.2 大型溞急慢性毒性分类预测模型

2.3.2.1 大型溞急性毒性分类预测模型

大型溞急性毒性分类模型Ⅰ,以EC50=10 mg·L-1为分类阈值,最优模型包含了logKow、minwHBa、ndsssP、SsSH和JGI6这5个预测变量;大型溞急性毒性分类模型Ⅱ,以EC50=100 mg·L-1为分类阈值,最优模型包含了logKow、MPC5、nBase、SRW6和naaN这5个预测变量;大型溞急性毒性分类模型Ⅲ,以EC50=1 mg·L-1为分类阈值,最优模型包含了logKow、BIC0、SdsssP和n6HeteroRing这4个预测变量;大型溞急性毒性分类模型Ⅳ,以EC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、bpol、AATSC0i和MATS7s这4个预测变量;大型溞急性毒性分类模型V,以EC50=0.01 mg·L-1为分类阈值,最优模型包含了logKow、GATS3c、mindCH2和SCH-3这4个预测变量。如表5所示,模型Q、Sn和Sp分别介于0.79~0.89、0.81~0.94和0.70~0.84;MCC和AUC分别介于0.57~0.72和0.77~0.92,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅴ,目标化学物质的Euclidean距离分别小于1.03、1.39、0.98、0.88和0.99时,在相应模型的应用域范围内。

表5 大型溞急性毒性分类模型表征结果Table 5 Characterization of acute toxicity classification model of Daphnia

2.3.2.2 大型溞慢性毒性分类预测模型

大型溞慢性毒性分类模型Ⅰ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0v、SHBint2和AATS2e这4个预测变量;大型溞慢性毒性分类模型Ⅱ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、MAXDP、SHdsCH和ATSC6c这4个预测变量;大型溞慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow和ATSC2p这2个预测变量。如表6所示,模型Q、Sn和Sp分别介于0.84~0.90、0.72~1和0.81~0.91;MCC和AUC分别介于0.63~0.76和0.86~0.95,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别小于1.1、0.95和0.75时,在相应模型的应用域范围内。

表6 大型溞慢性毒性分类预测模型表征结果Table 6 Characterization of a classification prediction model for chronic toxicity of Daphnia

2.3.3 绿藻急慢性毒性分类预测模型

2.3.3.1 绿藻急性毒性分类预测模型

绿藻急性毒性分类模型Ⅰ,以EC50=10 mg·L-1为分类阈值,最优模型包含了logKow、SwHBa、nHBint6和MLFER_BO这4个预测变量;绿藻急性毒性分类模型Ⅱ,以EC50=100 mg·L-1为分类阈值,最优模型包含了logKow、AATS4p、MPC10和ETA_dEpsilon_D这4个预测变量;绿藻急性毒性分类模型Ⅲ,以EC50=1 mg·L-1为分类阈值,最优模型包含了logKow、SpMax_Dt和GATS2v这3个预测变量;绿藻急性毒性分类模型Ⅳ,以EC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0m和AATS6e这3个预测变量。如表7所示,模型Q、Sn和Sp分别介于0.82~0.90、0.78~0.95和0.64~0.94;MCC和AUC分别介于0.60~0.79和0.79~0.95,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅳ,目标化学物质的Euclidean距离分别为小于1.25、1.17、1.03和0.98时,在相应模型的应用域范围内。

表7 绿藻急性毒性分类预测模型表征结果Table 7 Characterization of a predictive model for acute toxicity classification of green algae

2.3.3.2 绿藻慢性毒性分类预测模型

绿藻慢性毒性分类模型Ⅰ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、piPC7、AATSC5p、VP-7、SHsSH和MDEC-34这6个预测变量;绿藻慢性毒性分类模型Ⅱ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、SpMax_Dt、SsOm、GATS3v和MATS8e这5个预测变量。绿藻慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow、nAtomP、nAtomLAC和GATS8p这4个预测变量。如表8所示,模型Q、Sn和Sp分别介于0.84~0.94、0.75~0.90和0.84~0.96;MCC和AUC分别介于0.68~0.86和0.82~0.96,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别为小于1.28、1.05和1.06时,在相应模型的应用域范围内。

表8 绿藻慢性毒性分类模型表征结果Table 8 Characterization of chronic toxicity classification model of green algae

2.4 与现有潜在PMT物质对比

将335个化学物质P、M、T预测结果和Huang等[15]的研究成果对比可知,对于P有299个物质的结果一致,对于M有299个物质的结果一致,对于T有70个物质的结果一致。P和M一致性比较高,分别为89%和89%。T的一致性存在较大差异,是由于本研究模型服务于生态环境指标的预测,T指的是藻、溞、鱼的急性与慢性毒性指标,而Huang等[15]的研究成果中,毒性指的是人体健康领域致癌、致突变和生殖毒性(CMR)等毒性指标,因此产生了较大的差异。

3 展望(Prospect)

新污染物治理是“十四五”期间我国深入打好污染防治攻坚战的主战场之一。PMT类新污染物,可能会对人类健康构成威胁,对生态环境造成危害,进而产生影响气候变化、加速生态系统退化和加剧生物多样性锐减等全球性危机。当前,我国化学物质环境风险防控形势严峻,新污染物治理任务艰巨。党的十九届五中全会通过的《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中提出了“重视新污染物治理”,明确了“健全有毒有害化学物质环境风险管理体制”。生态环境部高度重视新污染物治理工作,组织编制了《新污染物治理行动方案(征求意见稿)》及相关文件。

新污染物治理是一套系统工程,“筛、评、控”是核心内容。然而,新污染物数据相对缺失制约了筛查和评估过程。为了克服数据缺失的瓶颈,生态环境部固体废物与化学品管理技术中心面向社会开展了2021年计算毒理与暴露模型的征集工作,并尝试自主开发了多个计算毒理学模型工具,发挥计算毒理工具的预测优势,为我国新污染物治理、化学物质高通量危害筛查和风险评估提供技术支持。本研究着眼于新污染物治理及化学物质危害筛查,建立了我国PMT类新污染物筛选方法,基于QSAR方法开发了计算毒理学预测工具,首次实现了PMT类新污染物的高通量预测功能,旨在通过计算毒理学科学理论转化应用成果,探索新技术应用于新污染物治理实践,支撑我国化学物质环境管理中PMT类物质的筛选工作,提升我国PMT类新污染物环境风险管控能力,助力“十四五”深入打好污染防治攻坚战。

此外,PMT类新污染物性质特殊,我国尚未建立相关监测标准,环境监管较为薄弱,仅依赖计算毒理工具解决PMT类新污染物的全部危害及暴露信息并不现实。尤其在环境监测技术方法和相关去除技术方面还需要社会各界更多的投入。同时,计算毒理工具的开发也依赖于高质量实测数据,随着未来建模数据与计算机技术的快速发展,PMT属性的预测准确性也将不断提升。

猜你喜欢
绿藻持久性化学物质
第1讲 身边的化学物质
试论持久性有机污染物在中国的环境监测现状
第1讲 身边的化学物质
具有授粉互惠关系的非自治周期植物传粉系统的持久性
香榧绿藻的生物学特性及物种鉴定
绿藻对烤烟湿润育苗影响及绿色防控策略
钢铁行业持久性有机污染物的生成与控制研究
以成长为主题解读《窗灯》
专题I身边的化学物质
组织身份:概念、测量及研究视角