活性化合物热稳定性预测技术研究进展

2019-01-19 23:12
中国安全生产科学技术 2019年5期
关键词:描述符过氧化物热稳定性

高 月

(1.应急管理部化学品登记中心,山东 青岛 266071;2. 中国石油化工股份有限公司青岛安全工程研究院 化学品安全控制国家重点实验室,山东 青岛 266071)

0 引言

活性化合物是不稳定的,易发生剧烈反应使化学能转化为热能或者机械能等具有潜在危害的物质。在实际工业生产过程中,在反应器、储罐、以及运输中,活性化合物引起过许多严重的热爆炸以及热失控事故,在全球范围内造成大量人员伤亡[1]。常见的活性化合物包括有机过氧化物和硝基化合物,有机过氧化物广泛用作引发剂、交联剂和氧化剂等,过氧(—O—O—)官能团的存在,使其在受热或外力作用下易分解释放出大量的热,引发剧烈反应,导致热爆炸[2];硝基化合物因具有硝基(—NO2),性质不稳定,有强氧化性,多硝基化合物有爆炸性,可用作炸药。热危害评估对上述活性化合物的安全使用、储存和运输具有重要意义。热稳定性是活性化合物的固有属性,在诸多评判热稳定性的参数中,起始放热温度(To)、分解热(-ΔHd)和自加速分解温度(SADT)是较为重要参数。起始放热温度(To)反映热危害发生的可能性或敏感度,分解热(-ΔHd)反映热危害的严重性[1],自加速分解温度(SADT)则是反映活性化合物在运输条件下热危害的重要参数[3]。目前,最可靠的测定热稳定性参数并评估热危害的方法主要是实验方法,例如差示扫描量热法(DSC)、美国SADT测试、绝热储存实验法等。然而,实验方法存在着成本高、周期长、具有一定危险性的局限性。在快速发展的现代工业中,有必要建立一种简便、快速、可靠的理论预测方法来弥补实验方法的不足。当前,将活性化合物的分子结构与其热稳定性参数进行关联,并基于两者的内在联系预测其热稳定性方法是重要的理论预测方法,也是研究的热点。本文主要阐述基于活性化合物分子结构预测热稳定性的方法及其研究进展。

1 热稳定性预测的早期研究

早在20世纪80年代,美国材料与实验协会(ASTM)基于Benson的基团贡献法[4],开发了一款简单预测活性危害的工具(CHETAH)[5]。1982年,Mohan等[6]针对6种有机过氧化物,论证了CHETAH的活性危害准则(氧平衡、最大分解热、燃烧热与分解热之差)与爆炸性的关联;2011年,Sato等[7]研究发现CHETAH准则和自反应物质爆炸性之间确实存在相互关联。但是,CHETAH软件提供的是物质的最大分解热,不是实际的实验测试的分解热,应用中具有一定局限性。

2 QSPR在热稳定性预测领域的应用情况

2007年,为了改善市场上化学品信息的管理,欧盟REACH法规[8](化学品注册、评估、许可和限制)提出了对生产或进口的化学品理化、毒理、生态毒理性质评估的要求,为帮助企业应对这一要求,ECHA(欧洲化学品管理局)颁布了技术指南[9-10],并提出了考虑测试顺序的理化性质通用测试规则。就有机过氧化物而言,其爆炸性质通过联合国《关于危险货物运输的建议书——实验和标准手册》[11]推荐的实验测定,而有机过氧化物的热稳定性作为爆炸甄别程序中的重要参数同样是必不可少的。出于安全和技术原因,针对有机过氧化物这类的不稳定物质,实验测试的实施具有一定的难度,因此,开发预测方法将会极大地加快热稳定性相关的研究进程,并且帮助企业满足REACH法规对注册期限的要求。考虑到REACH法规的要求,Lewis等[12]提倡使用强大的计算机辅助的从头计算法(abinitio method)技术,来获取化学品分类的关键性质的预测方法,从而替代危险、昂贵的实验方法。在实验替代方法中,REACH法规和ECHA技术指南[9-10]中明确推荐定量结构-活性/性质相关性(QSAR/QSPR)方法获取相关信息。为支持QSPR技术的开发和应用,OECD(经济合作与发展组织)提出了验证QSPR模型的5项原则[13],以便对该技术进行监管。

定量结构-性质相关性(QSPR)方法,是通过将分子结构参数与所研究化学品性质的实验数据之间的内在定量关系关联,建立分子结构参数和性质之间的构效关系模型,从而基于分子结构信息预测化合物性质的方法[14]。在化合物热稳定性的QSPR预测领域,早期研究人员采用量子化学计算和QSPR理论相结合的方法建立关联模型,由于量子化学计算的成本高、耗费时间长,且需要专业人员具备专业知识,采用专业软件计算,不利于工程人员应用,因此后续研究人员开发了基于简便算法的QSPR方法,从应用的角度对其进行了改良。

2.1 基于量子力学的QSPR研究情况

2003年,Saraf等[15]针对量热法测量的19种硝基化合物的DSC数据,基于量子化学计算,研究分子结构和起始放热温度To以及分解热(-ΔHd)之间的定量关系,采用最小二乘回归分析方法建立了硝基化合物的To和-ΔHd的QSPR预测模型。该研究中,Saraf等首先基于量子力学的密度泛函理论(DFT),采用Gaussian软件计算获得表征分子结构的分子描述符,建立的To预测模型的平均绝对累积误差为6%。由于在该过程中,优化分子结构需要花费超级计算机CPU时间约1 h,因此,Saraf等又采用AM1半经验量子化学计算方法快速获得相关的分子描述符,以此建立的To预测模型的平均绝对累积误差为7%,但所需成本相对较低。

2008年,Fayet等[16]针对22种硝基芳香族化合物,基于DFT计算获得5个电性相关的分子描述符,建立-ΔHd的QSPR线性预测模型。该研究中,Fayet等对比了5个描述符对-ΔHd的单一相关性,最终建立的多元线性回归方程的决定系数R2为0.86。随后,2010年,在前期研究的基础上,Fayet等[17]又利用DFT和AM1这2种方法分别计算扩充了分子描述符的种类和数量并建模,对比发现AM1模型节省计算时间,但是DFT模型描述符与热稳定性的相关性更直接。2011年,Fayet等[18]将研究对象扩充为77种硝基芳香族化合物,依然采用DFT计算获得分子描述符,最终建立7种变量的多元线性回归方程,模型的决定系数R2为0.77,预测系数Rext2为0.70。

2011年,Lu等[19]针对16种有机过氧化物,采用偏最小二乘法(PLS)和多元线性回归方法(MLR)分别建立To和-ΔHd的预测模型。除了常规的全局、局部以及DFT分子描述符,建模中还采用了浓度、过氧官能团数量等其他附加描述符。该研究中,由于数据有限,16种有机过氧化物全部用作训练集,未进行外部验证,仅对模型进行了内部交叉验证;与MLR预测模型相比,PLS分析获得To的13元线性预测模型,和-ΔHd的5元线性预测模型,具有更强的实验数据相关性、更好的预测能力。

2.2 优化的QSPR预测研究情况

由于上述热稳定性的QSPR研究中,获取分子描述符的方法均采用量子化学计算,在进行工业水平的应用推广上受限,因此后续研究人员研究开发了更简便、计算成本更低的分子描述符。

2013年,Fayet等[20]在研究硝基芳香族化合物-ΔHd的QSPR预测方法过程中,尝试使用Codessa软件计算简单2D结构的分子描述符,包括反映分子构成的最简单的组成描述符,以及拓扑描述符,所有分子描述符都不需要经过复杂的量子化学计算。依据42种硝基芳香族化合物的数据库,分别基于组成描述符、拓扑描述符以及组成和拓扑混合描述符,建立了3个-ΔHd线性预测模型,其中基于组成描述符以及组成和拓扑混合描述符的2个预测方程的预测性能和稳健性,均优于仅基于拓扑描述符的预测模型,说明-ΔHd受硝基官能团数量等组成描述符的影响较大;另外,与Fayet等之前研究的基于量子化学计算的预测模型相比,基于混合组成和拓扑描述符的预测模型的预测能力与之相似,而不需要昂贵、费时、复杂的计算。

2014年,张尹炎等[1]针对63种硝基芳香族化合物和16种有机过氧化物,采用遗传算法结合多元线性回归的方法(GA-MLR)分别建立To的预测模型。由于前人量子化学计算分子描述符的局限性,为了研究更便于工业应用的预测模型,采用分子描述符计算软件DRAGON 2.1获得更简单、成本更低的描述符,例如拓扑描述符、组成描述符、原子中心碎片、官能团等,然后利用GA-MLR方法筛选与To具有最优定量关系的描述符,并分别建立硝基芳香族化合物和有机过氧化物的To预测模型。采用内部交叉验证和外部验证硝基芳香族化合物的To预测模型的预测能力和适用性,而有机过氧化物预测模型由于选用物质少,所有数据用作训练集,只进行了内部交叉验证。验证结果表明,与Saraf等[15]和Lu等[19]建立的模型相比,采用简便分子描述符建立模型的预测能力更好。

2014年,潘勇等[21]采用GA-MLR方法建立了41种不同类型有机过氧化物的SADT预测模型。由于有机过氧化物的SADT实验数据难以获取,因此,建模的数据样本来自不同的文献,当存在不同数据源中相同物质的SADT数据不同时,则采纳最新的数据。与上述To的预测研究相类似,潘勇等采用计算软件DRAGON 5.4获取分子描述符,利用GA-MLR方法筛选与SADT具有最优定量关系的描述符,并建立了有机过氧化物SADT的6元线性预测模型,验证了模型具有良好的预测能力和稳定性,同时,采用均值效应(ME)法研究分子描述符对预测模型的贡献程度。

经过长期的理论研究和线性方法建模的探索,许多学者开始采用非线性建模方法来深入探索分子结构与化合物性质之间的复杂关系。在诸多的非线性建模方法中,支持向量机(SVM)方法因其严格的理论基础和适用于小样本等明显优势,成为了QSPR研究领域中适用性很强的建模方法[22-23]。目前,已有学者将SVM方法应用于热稳定性的QSPR预测研究中。2017年,马继涛等[2]以46种有机过氧化物及其SADT数据作为研究数据样本,采用最佳多元线性回归(B-MLR)和SVM方法建立预测模型,SVM模型的性能优于B-MLR模型,以此证明有机过氧化物SADT与分子结构间存在较强的非线性关系。同年,Wang等[24]基于50种有机过氧化物,采用SVM方法建立了SADT的非线性预测模型,并验证了模型具有很好的拟合能力、稳定性和外部预测能力。2018年,何培等[25]在前期的SADT预测研究基础上,将有机过氧化物的样本量扩展至71种,数据来源于不同的参考文献。与大部分热稳定性预测研究的建模方法不同,在该研究中,分别采用MLR和SVM方法建立有机过氧化物的SADT预测的线性和非线性模型,对比了MLR模型和SVM模型的预测结果。经过验证,SVM模型在预测能力、稳健性和适用性方面比MLR更优越。

3 分析与讨论

3.1 早期热稳定性预测方法的局限性

早期热稳定性预测研究主要是基于官能团特性,例如,ASTM软件开发的CHETAH软件[5],基于Benson的基团贡献法预测活性化学品的最大分解热,Benson方法存在一定的局限性,如果出现数据库以外的基团或者错误的基团,那么Benson方法就可能失效。虽然,早期预测方法具有局限性,但是,对热稳定性预测研究起到了重要的推动作用。

3.2 QSPR的应用分析及存在的问题

3.2.1 基于量子力学的QSPR方法

量子化学计算的分子描述符一般具有明确的物理意义,并且前人的研究已经证实基于量子化学计算建立的构效关系模型能够正确的反映分子结构和热稳定性之间的关系。然而,量子化学计算在QSPR预测研究领域具有明显的应用局限性:1)计算成本高,且耗时;2)需要具备专业知识,使用专业软件进行计算,不便于在工业人员中进行广泛的推广;3)量子化学计算的描述符不具有通用性,依赖于选用的化学物质的结构特性。

3.2.2 优化的QSPR预测方法

简单、计算成本更低的分子描述符的研究,对热稳定性的QSPR预测方法的推广应用起到了进一步的推动作用,并且张尹炎等[1]的研究已经表明,选用简单的分子描述符(组成描述符、拓扑描述符)建立的热稳定性预测模型能获得更好的预测结果。但是,由于起步较晚,相关研究仍需要进一步完善。

1)数据样本的选取

可靠的数据样本是建立可靠的热稳定性预测模型的保障,为降低模型在推广应用中的不确定性,需要保证数据的统一性,因此,为了最大程度的降低数据样本的差异对预测模型的影响,数据样本最好源自同一并权威的数据源。由于活性化合物热稳定性测试数据难以获取,所以在同一公开的数据源的数据样本量少的情况下,有的研究人员综合不同的数据源形成建模的数据样本集,不同数据源的数据样本的差异性不可避免的会对预测模型的应用造成影响。

同时,数据样本的量也是影响模型性能的重要因素。以Lu等[19]和张尹炎等[1]的16种有机过氧化物的To预测研究为例,由于数据样本量少,全部数据用作训练集,无法对模型进行外部验证,从而无法印证模型对数据样本以外的物质的预测能力,因此,对模型的适用性存疑。另外,数据样本量的不足也会影响模型的普适性。

2)分子描述符的选取

分子描述符用来表征分子结构,是建立热稳定性QSPR预测模型的基础。分子描述符的种类繁多、数量庞大,选取合适的、与热稳定性相关性最好的分子描述符是预测模型成功的关键,也是QSPR研究中的难题之一。为避免经验法选取分子描述符主观性强的问题,应该选用统计学中的变量筛选方法,包括逐步回归法(向前选择和向后选择)、遗传算法、粒子群算法和蚁群算法等等。在热稳定性QSPR研究领域中,分子描述符选取方法应更多的选用遗传算法、蚁群算法等强大的择优算法,获取与热稳定性最密切相关的分子描述符。

当建模数据样本少,而分子描述符过多时,有可能存在过度拟合的风险。例如,Lu等[19]建立的模型数据样本来自16种有机过氧化物,但是建模的分子描述符有13个。Tropsha等[26]在他们的研究中曾提出,只有训练集的化学物质样本数量超过描述符的5倍时,QSPR模型才是有效的。

3)QSPR建模方法的选择

热稳定性QSPR建模是将分子描述符作为输入参数,通过数学建模方法,建立分子描述符和热稳定性参数(To,-ΔHd,SADT)定量关系模型的方法。目前,在热稳定性QSPR预测研究中,常用的建模方法主要是MLR,PLS和SVM等。MLR和PLS等线性建模方法是热稳定性预测的前期研究常用的方法,算法简单,但是适用于模拟分子结构与性质之间的线性关系或者近似线性关系,而SVM等方法建立的是非线性模型,何培、潘勇等[25]在有机过氧化物SADT预测研究中,已经证实SVM方法建立的模型预测效果优于MLR的模型,说明非线性建模方法能更好的反映分子结构和热稳定性之间复杂的关系。在热稳定性QSPR预测领域,非线性建模方法应用较少,仍需要进一步研究,改善预测模型的准确性,以此推进QSPR预测方法的应用推广。

4 结论

1)建立量子化学计算的分子描述符数据库。量子化学计算的分子描述符具有明确的物理意义,虽然计算成本高、耗时、专业性强,但也是必不可少的描述符。为节省计算时间,便于基于量子化学计算的QSPR研究工作的进一步开展,应该针对不同的活性化合物进行专门的量子化学分子描述符计算,建立量子化学分子描述符数据库,节省后续QSPR研究时间,避免重复性工作。

2)扩充活性化合物热稳定性参数数据样本。具有权威性的、同一数据来源的、尽可能多的数据样本,可以保证热稳定性预测模型的可靠性和普适性。针对目前活性化合物热稳定性参数(To,-ΔHd,SADT等)实验数据少,来源不一致的问题。应该采用统一的实验测试方法,扩充数据样本的数量,避免数据源不一致带来的不确定性。

3)研究强大的分子描述符筛选算法。为了从大量分子描述符中,提取与热稳定性最密切相关的分子描述符,需要研究强大的分子描述符筛选算法。以GA为例,作为一种寻找全局或近全局最优解的强大择优算法,非常适合解决这一问题。后续热稳定性预测研究中,应该选用强大的分子描述符筛选方法。同时,控制样本数量和描述符数量的比例,避免出现过度拟合,造成模型适用性的降低。

4)研究能正确反映分子结构和热稳定性之间非线性关系的非线性建模方法。为了更好地反映分子结构和热稳定性之间复杂的非线性关系,应进一步研究基于神经网络或SVM等非线性建模方法建立热稳定性预测模型,并从拟合能力、稳定性、预测能力、应用域等方面进行全面的评价与验证[27-28],综合验证分析模型的性能,评价模型的应用域,保证预测化合物处于模型应用域范围内,从而获得准确有效且预测能力更好、适用性更强的QSPR预测模型。

猜你喜欢
描述符过氧化物热稳定性
芝麻种子中内源性蛋白酶的热稳定性及其运用
Co3O4纳米酶的制备及其类过氧化物酶活性
对某些无机物热力学稳定性的教学研究*
有机过氧化物的危险特性及预防
基于AKAZE的BOLD掩码描述符的匹配算法的研究
欧洲共同语言参考标准在中国高校学术英语写作教学适用性的研究:可理解性,可行性和有用性
基于深度学习的局部描述符
DLC涂层的制备及内应力、热稳定性改善措施研究现状
以碳量子点为过氧化物模拟酶的葡萄糖测定方法
一种基于PCIE总线的改进分散集聚DMA的设计