王雅琪,刘会会,杨先海
南京理工大学环境与生物工程学院,江苏省化工污染控制与资源化高校重点实验室,南京 210094
据估计,每年约有3亿t合成化学物质进入水体[1]。这些物质可对水生生物产生毒副作用,并严重威胁生态安全[2-3]。因此,对这些物质进行污染控制和管理已成为各国的重要任务。对化学物质进行水环境生态风险评估,进而筛选出优先污染物,是进行污染控制与管理的前提[4]。而开展水环境生态风险评估需要水生毒性数据和暴露数据[5]。目前,国际上已针对多种水生模式生物开发了水生生物毒性标准测试方法,如藻类、溞类和鱼类急/慢性毒性测试方法[6]。虽然水生生物毒性效应测试体系已建立数十年,但仍仅少部分物质具有水生毒性数据。为了克服化学物质管理中数据不足的问题,欧美国家大力倡导使用(定量)结构-活性关系((Q)SAR)等预测技术填补缺失的毒性效应数据[7-8]。因此,构建污染物水生毒性效应预测模型对实现水环境化学物质管理具有重要意义。
在化学品生产使用及环境管理中,需要对其进行分类和标签。具体的分类过程是依据化学品所具有的毒性效应值来分类和标签,例如当鱼类的96 h半数致死浓度(96 h LC50) ≤ 1 mg·L-1、介于1~10 mg·L-1、介于10~100 mg·L-1时,分别归为急性毒性类别1、急性毒性类别2和急性毒性类别3[9-10],然后针对不同类别采取不同等级的管理措施。近年来,国内外研究人员针对水生急性毒性构建了一些预测模型,主要是针对绿藻如羊角月牙藻(Pseudokirchneriella subcapitata)、大型溞(Daphnia magna)、鱼如黑头呆鱼(Pimephales promelas)的预测模型较多[11]。但是,这些模型以定量模型为主,结果为具体的毒性效应值,还没有模型能直接给出目标化合物是否满足分类和标签规定的毒性阈值。最近,Ding等[12]构建了基于“全球化学品统一分类和标签制度”(GHS)分类标准的预测羊角月牙藻(Pseudokirchneriella subcapitata)和大型溞(Daphnia magna)慢性毒性的二元分类模型。
本文的研究目的是针对鱼类急性毒性指标,构建基于GHS分类标准的分类模型。首先是依据GHS中推荐的分类标准,将化合物分类,然后构建预测模型。因此,根据本文所构建的模型,使用者可直接得出目标化合物是否满足国标中关于化学品分类和标签规定的毒性阈值。
从文献[13]收集了634种有机化学品的黑头呆鱼(Pimephales promelas)急性毒性数据[13]。实验数据均是采用经济合作与发展组织(OECD)的OECD TG 203鱼类急性毒性试验方法获取,指标为96 h LC50。采用“全球化学品统一分类和标签制度”(GHS)中推荐的分类标准[10],将急性毒性值≤ 100 mg·L-1的物质划分为毒性物质,而将急性毒性值> 100 mg·L-1的物质划分为无毒性物质。根据分类结果,毒性物质和无毒性物质分别为444和190个。建模中,数据集将按4∶1的比例随机拆分为训练集和验证集,训练集用于构建模型,而验证集用于评估模型。
首先采用ChemBioOffice 2010软件生成初始的化合物分子结构。再根据上述分子结构生成MOPAC输入文件,用MOPAC 2016软件优化模型化合物分子结构[14]。优化关键词是PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80。基于MOPAC优化的分子结构,采用Dragon 6软件计算4 885个Dragon描述符[15]。根据如下标准,对计算的4 885种描述符进行初步筛选:去除常数和近似常数的描述符,去掉至少有一个缺失值的描述符及相关系数大于0.95的描述符[16]。最终,描述符集包含1 575个描述符。此外,还引入正辛醇-水分配系数(logKow)。logKow来源于美国环保局开发的EPI Suite 4.1TM [17]。
采用基于欧几里德距离的K最近邻(k-NearestNeighbor, kNN)分类算法构建了二元分类模型。欧几里德距离计算方法为:
(1)
式中:DE是欧几里德距离;x和y是不同的化学品;xi和yi分别是化学品x和y的第i个描述符。使用自编的python程序进行kNN二元分类模型构建,该程序已成功应用于构建多个模型[12,16,18-19]。
采用预测准确度(Q)、敏感性(Sn)和特异性(Sp)参数表征模型效果[4,20-21]。
(2)
(3)
(4)
式中:TP(真阳性)和TN(真阴性)分别是正确分类为毒性和非毒性的化合物数量;FN(假阴性)和FP(假阳性)分别是错误分类为非毒性和毒性的化合物数量。
此外,对于二元分类模型,还可以采用受试者工作特征曲线(ROC曲线)及ROC曲线下的面积(AUC)来表征分类性能[22]。ROC曲线的坐标分别是真阳性率(TPR)和假阳性率(FPR)表征。真阳性率是指在所有实际有毒的化合物中,被正确判断为有毒的比率;假阳性率是指在所有实际无毒的化合物中,被错误地判断为有毒的比率。一般而言ROC曲线的AUC值介于0~1,其值越大说明分类模型的性能越好。
采用欧几里德距离法表征了模型应用域。欧几里德距离图采用AMBIT Discover (version 0.04)(http://ambit.sourceforge.net/download_ambitdiscovery.html)软件绘制。
最优模型包含3个描述符,即CATS2D_04_DD、piPC07和ATSC7m,模型表征参数如下。
从表1可以看出,模型训练集和验证集的预测准确度(Q)、敏感性(Sn)和特异性(Sp)参数均大于0.7,即意味着70%以上的化合物均能被正确分类为有毒或无毒,说明模型具有较好的预测能力。模型训练集和验证集的Sn数值大于Sp,说明模型预测结果的假阴性率低于假阳性率,这有助于避免遗漏潜在毒性物质。此外,ROC曲线表明(图1),训练集和验证集ROC曲线的AUC分别为0.799和0.781,说明模型的分类性能较好。
基于欧几里德距离的模型应用域表征结果如图2所示。所有化合物中,仅有一个验证集化合物在模型结构域外,说明模型的训练集具有较好的代表性。验证集中处于模型结构域外的化合物为四溴双酚A,虽然其处于训练集所定义的结构域外,但是模型能正确将其分类为有毒性。
分类模型筛选出CATS2D_04_DD、piPC07和ATSC7m这3个描述符。其中CATS2D_04_DD是CATS 2D描述符,表征了分子中氢键供体原子(如氧、氮等)在拓扑距离4上的数量[23]。这意味着有机化学品对黑头呆鱼(Pimephales promelas)的急性毒性
图1 分类模型受试者工作特征(ROC)曲线注:AUC表示ROC曲线下的面积。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification modelNote: AUC represents area under ROC curve.
表1 模型表征结果Table 1 Statistical results of developed model
注:k表示邻近数,n表示化合物数量,TP表示真阳性,TN表示真阴性,FN表示假阴性,FP表示假阳性,Sn表示敏感性,Sp表示特异性,Q表示预测准确度。
Note: k stands for number of nearest neighbors; n stands for number of chemicals; TP stands for true positive; TN stands for true negative; FN stands for false negative; FP stands for false positive; Snstands for sensitivity; Spstands for specificity; Q stands for predictive accuracy.
图2 基于欧几里德距离的模型应用域表征图Fig. 2 Characterization of application domain for model based on the Euclidean distance
与氢键供体原子相关,也即分子形成氢键的能力会影响毒性效应。piPC07是分子运转路径数目类描述符,表征了分子大小对毒性的影响。Fassihi等[24]构建有机物的抗菌毒性预测模型时,也筛选出该描述符。ATSC7m是原子质量加权的2D自相关描述符,表征了分子质量的影响。综上,有机化学品对黑头呆鱼(Pimephales promelas)的急性毒性与分子形成氢键的能力、分子大小和原子质量相关。
本论文依据“全球化学品统一分类和标签制度”(GHS)中推荐的分类标准,将有机化学品对黑头呆鱼(Pimephales promelas)的急性毒性值小于和大于100 mg·L-1的物质分别划分为有毒物质和无毒物质。以分类结果为建模指标,构建了分类能力较好的二元分类模型。可应用该模型预测应用域内其他物质是否对黑头呆鱼(Pimephales promelas)表现急性毒性效应。