有机化学品不同温度下(过冷)液体蒸气压预测模型的建立与评价

2015-06-05 09:51赵文星李雪花傅志强陈景文
生态毒理学报 2015年2期
关键词:分子结构描述符蒸气

赵文星,李雪花,傅志强,陈景文

大连理工大学环境学院 工业生态与环境工程教育部重点实验室,大连 116024

有机化学品不同温度下(过冷)液体蒸气压预测模型的建立与评价

赵文星,李雪花*,傅志强,陈景文

大连理工大学环境学院 工业生态与环境工程教育部重点实验室,大连 116024

有机化学品;(过冷)液体蒸气压(PL);温度依附性;偏最小二乘法(PLS);支持向量机(SVM)

截至2014年10月,在美国化学文摘社(http://www.cas.org)登记的化学品已达9 019多万种。其中,人类日常使用的有机化学品已超过14万种[1]。这些化学品给人们生活带来了极大便利,但是一些化学物质在生产和使用过程中避不可免的进入环境,对环境和人类健康造成了严重影响。因此,有必要对这些化学品进行生态风险评价,预防和控制其对环境的污染。欧盟于2007年6月出台了“化学品注册、评估、授权和限制法规(简称REACH法规)”,提出了化学品监管原则[2]。我国在2010年发布了《新化学物质环境管理办法》,这标志着我国在新化学品物质环境管理上迈上了一个新台阶。

(过冷)液体蒸气压(PL)是一种表征化学品挥发性的参数,可用来评价化学品的分配、迁移和归趋行为。此外,PL还可用来预测有机化学品的其他理化性质,例如汽化焓、空气-水分配系数、亨利常数等[3]。PL有较强的温度依附性,不同地区的环境温度不同,同一化学品的PL也不同。PL数据可通过实验测定方法获得[3],其对标准品及实验仪器设备的要求较高,且耗时、费力。为了弥补实验数据的缺失,有必要发展可靠的预测模型来获取不同温度下的PL数据,从而满足化学品生态风险评价的需求。

定量结构-性质关系(QSPR)模型是实验测试的有效替代方法,它是基于化合物的分子结构信息估算其理化性质。采用QSPR模型可高通量地预测不同温度下的PL数据。然而,只有经验证的QSPR模型才能用于化学品的风险评估以及优先控制污染物的筛查。经济合作与发展组织(OECD)于2007年确定了QSPR模型建立与应用导则:1) 具有明确的定义的环境指标;2) 具有明确的算法;3) 定义了模型的应用域;4) 具有适当的拟合度、稳健性和预测能力;5) 尽可能地进行机理解释。欧盟国家认为只有符合这5大导则的QSPR模型,才能用于化学品监管的目的。目前已发表的化学品PL的QSPR预测模型存在一些问题。例如,预测单一温度下(298 K)的PL模型[4-13]算法透明,但是大部分模型应用域表征信息欠缺[4-7, 9-13],部分模型未进行外部验证[10-12]。Yaffe和Cohen[14]和Gharagheizi等[15]的模型可预测不同温度下的PL模型。前者预测化合物种类单一,仅为烃类;后者应用域范围较广,但未表征外部预测能力。这2种模型均采用非线性算法建模,不利于机理解释。

因此,本研究旨在选取合适的分子结构描述符,将温度作为预测变量引入模型,建立可预测不同温度下化合物的PL的QSPR模型。模型的算法应透明,应用域广泛,且要对所建立的模型进行相应的外部验证及应用域的表征。

1 材料与方法(Materials and methods)

1.1 实验数据的收集与整理

本硏究收集与整理了661种化学品在不同温度下的10 478个logPL实验测定数据,温度范围为200~830 K,logPL的范围为-1.40~6.80。数据的质量影响着模型的结果,为了保证质量,所有蒸气压数值均来自于已发表科技文献中的实验测定数据。这些化学品的选取原则是其碳链长度,取代基种类、位置和个数可以很好地代表不同的结构种类,包括脂肪族和芳香族2大类。

为了达到OECD的建模要求,所有PL数据按照大小排序后,以3:1的比例分成训练集和验证集,其具体统计学信息见表1。训练集含有7 797个数据,用于模型的建立;验证集含有2 681个,用于模型的外部验证。

1.2 分子结构描述符的计算

建模中共考虑2大类分子结构描述符,分别是量子化学描述符和Dragon描述符。量子化学描述符是由MOPAC 2009中的PM6方法计算,优化的关键词是:EF,GNORM=0.100,MMOK,GEO-OK,PM6,MULLIK,GRAPH,ESR,HYPERFINE,POLAR。Dragon描述符是由Dragon软件(Version 6)计算获得。此外,考虑温度对PL数据的影响,根据Clausius - Clapeyron方程,将1/T作为变量引入模型。

表1 训练集、验证集及总数据集的描述统计学信息Table 1 Descriptive statistics of training set, validation set and total dataset

注:m为化合物的个数,n为logPL值的个数,SD为logPL值的标准偏差。

Note: m, the number of compounds; n, the number of logPLvalues; SD, the standard deviation of logPLvalues.

1.3 线性PL-QSPR模型的建立

线性蒸气压预测模型建立的过程中,使用多元线性回归方法(MLR)和偏最小二乘方法(PLS)分别来筛选描述符和建立模型。具体过程如下:

(1)

1.4 非线性PL-QSPR模型的建立

将PLS模型中的选出的描述符引入支持向量机(SVM)模型。非线性模型建立过程中,遗传算法用于确定SVM模型的3个关键参数,即C、γ和ε。其中,C是容量参数,γ是可影响模型预测能力的参数,ε是不敏感损失参数。SVM算法[21]用于建立预测模型。SVM模型构建中采用的核函数为径向基函数RBF:K(u, v)=exp (-γ*|u-v|2)。

1.5 模型外部验证及应用域表征

(2)

(3)

通过计算分子描述符的leverage值(hi)和标准化残差(σ)作出Williamsplot表征模型的应用域[23]。hi及hi的警戒值(h*)的计算公式,见(4)和(5)。

hi=xiT(XTX)-1xi

(4)

h*= 3(k+1)/n

(5)

式中,xi是第i个化合物的分子结构描述符的变量,X是分子结构描述符所构成的矩阵,k为分子结构描述符的个数。对训练集来说,如果hi>h*,说明化合物对模型是有影响的。对验证集来说,如果hi>h*,说明化合物的预测结果为模型的外推结果,可能不可靠。如果σ的绝对值大于3倍的标准残差,则认为该数据是离群点。

2 结果(Results)

2.1 线性PL-QSPR模型

采用主成分分析表征了数据集的结构描述符空间,3个主成分共解释了80%的方差。如图1所示,训练集和验证集的数据点在主成分空间中分布均衡,表明训练集化合物具有较好的代表性。

基于5个分子结构描述符和温度变量,建立的最佳PLS模型为:

我国图书馆事业人才需求较为注重硬件条件,对硬件条件的规定主要涉及三大类。第一大类是工作年限及职称,一般要求合同期限为3—5年,对非应届生要求有2年以上工作经验。之所以提出此类要求,一是为了能直接投入图书馆日常业务工作,二是为了图书馆人才队伍的稳定。第二大类是证书,一般为大学英语四六级、计算机、会计等证书,对前两者的需求集中于本科院校图书馆,而公共图书馆由于开展独立审计的需要对会计证要求增加。第三大类为户籍限制,即非本省户口或非常住居民无法报考。这主要存在于沿海省份的公共图书馆。

logPL= 13.33-2571(1/T)-0.5061nHDon-0.6896X1sol+0.8014GATS1v-0.1363μ-0.6094nROH

(6)

PLS模型共提取了2个主成分,6个预测变量。表2列出了每个描述符的含义和统计学参数。变量的投影重要性指标(VIP)值越大,说明该描述符在解释因变量时是最相关的[18]。在筛选出的6个预测变量中,1/T具有最大的VIP,表明温度是影响蒸气压的主要参数。温度降低,logPL的值减小,这与Clausius-Clapeyron方程中温度与蒸气压的关系是一

致的。本研究将1/T作为唯一的变量与logPL做回归分析,统计结果显示1/T与logPL间的线性相关系数R为0.630,具有较强的线性相关性。

PLS模型的应用域采用Williams plot方法表征,见图3。图中上下2条蓝色点划线为±3倍标准残差,警戒值h*为0.00269。hi>h*且∣σ∣< 3的化合物,共计60个数据点(训练集50个、验证集10个),说明其与大部分化合物的结构不一致。但因标准残差未超过±3,这些化合物可使所建模型稳定,使模型具有一定的外推能力。∣σ∣> 3的化合物,视为模型的离群点,共计92个数据点(训练集67个、验证集25个),小于数据集总数的1%。其中,h5的数据点共有8个,包括219.2 K下的二甲醚和236.1~243.8K下的1,1,1 - 三氟乙烷的蒸气压数据。8个数据点均处于模型应用域温度范围的低温边界,这可能是导致预测误差较大的原因。离群点化合物多数具有-CF3、CH3-O-、>(CH2)n(n>20)、-N<等结构碎片。由于这些结构碎片在训练集化合物中出现频次较少,导致了这类化合物的预测误差较大。

logPL= 13.39-2611(1/T)-0.5007nHDon-0.6744X1sol + 0.7652GATS1v-0.1277μ-0.5954nROH

(7)

表2 PLS模型中描述符的含义、VIP、系数和范围Table 2 Meanings, VIP values, coefficients and ranges of the descriptors in the PLS model

图1 数据集结构描述符的主成分分析图Fig. 1 Principal components analysis of the structural descriptors for the data sets

分析应用域内化合物的结构特征发现,该PLS模型可用来预测烷烃、烯烃、醇、酮、羧酸、苯、酚、联苯、卤代芳香烃、含N化合物及含S化合物等在不同温度下的PL数据。

2.2 非线性PL-QSPR模型

图2 PLS模型的logPL实验值和预测值的拟合图Fig. 2 Plot of predicted versus experimental logPL values for the training and validation sets in the PLS model

图3 PLS模型的标准残差分布图Fig. 3 Plot of standardized residuals versus leverages

图4 SVM模型的logPL实验值和预测值的拟合图Fig. 4 Plot of predicted versus experimental logPL values for the training and validation sets in the SVM model

3 讨论(Discussion)

3.1 机理解释

除温度以外,PLS模型描述符中X1sol的VIP值(大于1)显著高于其他描述符,说明X1sol对logPL的影响较大(r=0.441, P<0.001)。X1sol是指溶剂连接性指数,可用来描述化合物在溶剂中的色散作用[24]。变量X1sol与logPL呈负相关,分子的色散力越大,其相互作用就越强,蒸气压就越小。nHdon为氢键供体的数目,这一描述符可用来反映分子形成氢键的能力。nHdon的值越大,分子间形成氢键的能力越强,蒸气压越小,这与nHdon的系数为负是相符的。nROH表示分子中所含羟基的个数。分子中羟基的个数越多,越易形成氢键,分子间的作用力越强,蒸气压越小。μ为分子的偶极矩,表征分子极性。μ越大,分子的极性越大,分子间的相互作用越强,蒸气压越小。GATS1v是原子范德华体积加权的Geary自相关系数,描述分子的结构特征。综上,化合物的蒸气压主要与温度、色散力、氢键个数、极性和分子构型有关。

SVM模型的统计学结果表明,分子结构描述符和logPL间存在一定的非线性关系。与PLS模型相比,SVM模型的拟合能力略好,但其模型形式为黑箱模式,即未给出具体的预测公式,所以在机理解释上存在一定的困难。

3.2 模型比较

前人已发展了一些可预测蒸气压的QSPR模型,详细信息见表3。预测单一温度下(298 K)的PL模型,多数基于线性算法建模。Chen等[4]基于PLS建立了可预测多氯联苯并二噁英/呋喃PL模型。Ying等[5-6]基于静电描述符先后建立了22种多溴联苯醚和107种多氯联苯醚的PL模型。Goudarzi和Goodarzi[7]针对卤代苯甲醚建立了MLR和最小二乘SVM模型。Gajewicz等[8]发展了可预测氯代和溴代化合物的蒸气压模型。上述这5个模型均为预测单一种类化合物的PL模型,且多数模型并未进行应用域表征[4-7]。

此外,此前的研究也发展了可预测单一温度下多种类化合物的PL模型。Katritzky等[10]建立可预测烃类、卤代烃和含O/N化合物的MLR模型。Liang和Gallagher[12]采用极化率和极性官能团共7个分子结构描述符,建立了可预测479种不同类型化合物的PL模型。Basak和Mills等[13]基于拓扑结构、拓扑化学、3D几何学和量子化学描述符,发展了可预测469种化合物的蒸气压模型。Staikova等[11]基于分子极化率建立了可预测氯代苯、氯代萘、PCBs、氯代丙烷蒸气压的线性回归模型。Katritzky等[9]发展了可预测645种有机化合物蒸气压的MLR模型。

表3 PL预测模型的性能比较Table 3 Comparison of statistical performances for different PL prediction models

由于不同地区的经纬度差异很大,环境温度也不尽相同,蒸气压具有温度依附性,建立可预测不同温度下PL的QSPR模型具有重要意义。Yaffe和Cohen[14]基于神经网络算法建立可预测274种烃类不同温度下的蒸气压QSPR模型,模型未进行应用域表征。Gharagheizi等[15]建立了可预测多种类化合物在不同温度下PL的人工神经网络模型,并表征了模型的应用域。但这2个模型算法不透明,不利于机理解释。因此,本研究基于10 478个logPL值,引入绝对温度的倒数为预测变量,筛选了5个分子结构描述符,构建了可预测不同温度下化学品的PL模型。本研究所建立的模型,便于机理解释,同时对所建立的模型进行了外部验证及应用域的表征,模型的应用域范围广泛。

综上,本研究采用PLS和SVM方法,建立了PL的线性和非线性模型。这2个模型中均引入温度作为预测变量,因此,所构建的模型可用于预测不同温度下(200~830 K)的PL。SVM模型预测性能略高于PLS模型,表明分子结构描述符和logPL间存在一定的非线性关系。所建立的预测模型可用来快速获取烷烃、烯烃、醇、酮、羧酸、苯、酚、联苯、卤代芳香烃、含氮化合物及含硫化合物在不同温度下的PL数据。

致谢:感谢大连理工大学张翼飞对于支持向量机模型构建给予的帮助和建议。

[1] Ruden C, Hansson S O. Registration, evaluation, and authorization of chemicals (REACH) is but the first step-How far will it take us? Six further steps to improve the European Chemicals Legislation [J]. Environmental Health Perspectives, 2010, 118(1): 6-10

[2] Enterprise & Industry Directorate General and Environment Directorate General, European Commission. REACH-registration, evaluation, authorisation and restriction of chemicals [OL]. [2014-10-01]. http://ec.europa.eu/enterprise/sectors/chemicals/reach/index_en.htm

[3] DelleSite A. The vapor pressure of environmentally significant organic chemicals: A review of methods and data atambient temperature [J]. Journal of Physical and Chemical Reference Data, 1997, 26(1): 157-193

[4] Chen J W, Quan X, Yan Y, et al. Quantitative structure-property relationships for vapor pressure of PCDD/Fs [J]. Bulletin of Environmental Contamination and Toxicology, 2001, 66(3): 277-282

[5] Xu H Y, Zou H W, Yu Q S, et al. QSPR/QSAR models for prediction of the physicochemical properties and biological activity of polybrominated diphenyl ethers [J]. Chemosphere, 2007, 66(10): 1998-2010

[6] XuH Y, Zou J W, Hu G X, et al. QSPR/QSAR models for prediction of the physico-chemical properties and biological activity of polychlorinated diphenyl ethers (PCDEs) [J]. Chemosphere, 2010, 80(6): 665-670

[7] Goudarzi N, Goodarzi M.Prediction of the vapor pressure of some halogenated methyl-phenyl ether (anisole) compounds using linear and nonlinear QSPR methods [J]. Molecular Physics, 2009, 107(15): 1615-1620

[8] Gajewicz A, Haranczyk M, Puzyn T. Predicting logarithmic values of the subcooled liquid vapor pressure of halogenated persistent organic pollutants with QSPR: How different are chlorinated and brominated congeners [J]. Atmospheric Environment, 2010, 44(11): 1428-1436

[9] Katritzky A R, Slavov S H, Dobchev D A, et al. Rapid QSPR model development technique for prediction of vapor pressure of organic compounds [J]. Computers & Chemical Engineering, 2007, 31(9): 1123-1130

[10] Katritzky A R, Wang Y L, Sild S, et al. QSPR studies on vapor pressure, aqueous solubility, and the prediction of water-air partition coefficients [J]. Journal of Chemical Information and Computer Sciences, 1998, 38(4): 720-725

[11] Staikova M, Wania F, Donaldson D J. Molecular polarizability as a single-parameter predictor of vapour pressures and octanol-air partitioning coefficients of non-polar compounds: A priority approach and results [J]. Atmospheric Environment, 2004, 38(2): 213-225

[12] Liang C K, Gallagher D A. QSPR prediction of vapor pressure from solely theoretically-derived descriptors [J]. Journal of Chemical Information and Computer Sciences, 1998, 38(2): 321-324

[13] Basak S C, Mills D. Quantitative structure-property relationships (QSPRs) for the estimation of vapor pressure: A hierarchical approach using mathematical structural descriptors [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(3): 692-701

[14] Yaffe D, Cohen Y. Neural network based temperature-dependent quantitative structure property relations (QSPRs) for predicting vapor pressure of hydrocarbons [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(2): 463-477

[15] Gharagheizi F, Eslamimanesh A, Ilani-Kashkouli P, et al. Determination of vapor pressure of chemical compounds: A group contribution model for an extremely large database [J]. Industrial & Engineering Chemistry Research, 2012, 51(20): 7119-7125

[16] OECD. Guidance document on the validation of (Quantitative) Structure-Activity Relationships [(Q)SARs] models. (2007-03-30). [2014-10-01]. http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?doclanguage=en&cote=env/jm/mono(2007)2

[17] Norusis M J. SPSS 7.5 Guide to Data Analysis [M]. New Jersey, Prentice Hall, Pap/Dsk, 1997: 458

[18] Wang Y N, Chen J W, Li X H, et al. Predicting rate constants of hydroxyl radical reactions with organic pollutants: Algorithm, validation, applicability domain, and mechanistic interpretation [J]. Atmospheric Environment, 2009, 43(5): 1131-1135

[19] Ding G H, Chen J W, Qiao X L, et al. Quantitative relationships between molecular structures, environmental temperatures and solid vapor pressures of PCDD/Fs [J]. Chemosphere, 2006, 62(7): 1057-1063

[20] Eriksson L, Jaworska J, Worth A P, et al. Methods for reliability and uncertainty assessment and for applicability evaluations of classification- and regression-based QSARs [J]. Environmental Health Perspectives, 2003, 111(10): 1361-1375

[21] Cortes C, Vapnik V. Support-Vector Networks [J]. Machine Learning, 1995, 20(3): 273-297

[22] Schuurmann G, Ebert R U, Chen J W, et al. External validation and prediction employing the predictive squared correlation coefficient - test set activity mean vs training set activity mean [J]. Journal of Chemical Information and Modeling, 2008, 48(11): 2140-2145

[23] Gramatica P. Principles of QSAR models validation:Internal and external [J]. QSAR & Combinatorial Science, 2007, 26(5): 694-701

[24] Zefirov N S, Palyulin V A. QSAR for boiling points of "small" sulfides. Are the "high-quality structure-property-activity regressions" the real high quality QSAR models [J]. Journal of Chemical Information and Computer Sciences, 2001, 41(4): 1022-1027

Development and Evaluation for a Predictive Model of (Subcooled) Vapor Pressure of Organic Chemicals at Different Temperatures

Zhao Wenxing, Li Xuehua*, Fu Zhiqiang, Chen Jingwen

Key Laboratory of Industrial Ecology and Environmental Engineering of Ministry of Education, School of Environmental Science and Technology, Dalian University of Technology, Dalian 116024, China

24 November 2014 accepted 25 December 2014

organic chemicals; (subcooled) liquid vapor pressure (PL); temperature-dependence; partial least square (PLS) regression; support vector machine (SVM)

国家高技术研究发展计划(2012AA06A301);中央高校基本科研业务费专项(DUT14ZD213)

赵文星(1990-),女,硕士,研究方向为环境生态化学,E-mail: wxzhao@mail.dlut.edu.cn;

*通讯作者(Corresponding author), E-mail: lixuehua@dlut.edu.cn

10.7524/AJE.1673-5897.20141124001

2014-11-24 录用日期:2014-12-25

1673-5897(2015)2-159-08

X171.5

A

李雪花(1980-),女,环境工程博士,副教授,主要研究方向为预测毒理学模型,发表学术论文30余篇。

赵文星, 李雪花, 傅志强, 等. 有机化学品不同温度下(过冷)液体蒸气压预测模型的建立与评价[J]. 生态毒理学报, 2015, 10(2): 159-166

Zhao W X, Li X H, Fu Z Q, et al. Development and evaluation for a predictive model of (subcooled) vapor pressure of organic chemicals at different temperatures [J]. Asian Journal of Ecotoxicology, 2015, 10(2): 159-166 (in Chinese)

猜你喜欢
分子结构描述符蒸气
基于结构信息的异源遥感图像局部特征描述符研究
基于AKAZE的BOLD掩码描述符的匹配算法的研究
三步法确定有机物的分子结构
乙醇蒸气放空管设置室内引发爆炸
Linux单线程并发服务器探索
利用CNN的无人机遥感影像特征描述符学习
解读分子结构考点
外电场中BiH分子结构的研究
污泥干化蒸气热能深度利用研究
混合蒸气在板式换热器中凝结换热研究