饶火瑜,祝志强,乐长高,徐珍珍
(东华理工大学 应用化学系,江西 南昌 330013)
化合物的临界温度、临界压力和临界体积等临界参数是描述化合物特征的重要参数,可用于液体密度、气体热容、真实气体状态方程的参数计算,也可用于化工过程的模拟和设计[1-8]。然而通过实验方法测定临界参数往往耗时长、费用高,而且技术上面临一些难以克服的困难,因为有些物质在它达到临界温度以前就已经分解。因此,从现有文献出发利用现有的实验数据建立一个模型用于预测化合物的临界温度,对于化工生产有着重要意义。
近年来,定量结构性质关系(QSPR)研究在化学、环境、生命等研究中取得了广泛的应用[9-14]。QSPR研究是以分子微观结构和分子中各原子的连接方式为基础,用数字来定量表达分子[15],进而与物质的理化性质相关联,建立有意义的关系式。随着计算机的飞速发展和软件技术的更新,使得用数字表征分子的微观结构更加方便快捷。
本工作以量子化学计算得到的分子几何参数为基础,利用Alvadesc软件计算分子的分子描述符,进而将分子描述符和41种脂肪醇的临界温度关联,运用逐步多元线性回归建立了一个五参数线性QSPR模型。
从文献[16]中选取54个具有临界温度实验值的一元脂肪醇分子,随机选择41个作为训练集,余下的13个归入外部测试集。以训练集建模,所得到的QSPR模型用于计算外部测试集的脂肪醇临界温度。
采用量子化学软件包Gaussian-16对一元脂肪醇分子进行密度泛函理论计算,所用基组为6-311g(d,p),考虑羟基和烷基的不同取代位置对分子能量的影响,并加以频率分析,获得每个脂肪醇分子最稳定的构象;以优化所得最稳定构象的几何参数为基础,用Alvadesc软件计算分子描述符[17],将所得到的分子描述符与脂肪醇分子的临界温度相关联。
以训练集脂肪醇分子的临界温度为因变量,Alvadesc软件计算所得的分子描述符为自变量,去除全为零、或数值几乎相等的分子描述符,运用逐步多元线性回归方法构建QSPR模型,采用均方根误差、平均绝对相对误差、决定系数、Fisher检验值、t-检验值和方差膨胀因子(VIF)等方法检验模型拟合的适用性。VIF的定义式为:
式中,是以第i个变量为因变量、其他变量为自变量建立的多元线性关系式的决定系数;1-为容忍度。VIF值越大,说明多重共线性越强,一般认为VIF大于10时,多重共线性不能接受,所得多元线性关系式用于预测是不可靠的。
采用留一法交叉验证和留多法交叉验证对模型的稳健性进行检验,计算了和[18]。用所得的模型对测试集脂肪醇的临界温度进行预测,并采用均方根误差等参数对模型的预测能力进行评估。此外,还采用外部验证系数,,对模型的预测能力进行评估[18-20]。
经逐步多元线性回归分析,由Alvadesc软件计算 得 到 piPC01,ATS6e,GATS2e,GATS3i,E2m等五个分子描述符对脂肪醇的临界温度有显著贡献,将这五个分子描述符加上常见的实验测定的三个理化参数(密度、分子量、沸点)组成八个参数,一起与脂肪醇的临界温度进行逐步多元线性回归,程序选择了五个分子描述符为描述脂肪醇分子结构的自变量,从而得到最终的回归模型,见式(2):
模型的样本数n=41,自变量数k=5,样本容量和样本与解释变量的比例是合适的,足以描述因变量。相关系数为0.999 8,决定系数为0.999 6,调整决定系数为0.999 5,显著性检验值为0,Fisher检验值为15 707,远远大于Fisher检验临界值,说明QSPR模型拟合性能强。
分子描述符piPC01基于分子路径计算,计算公式为ln(1+x),式中x为分子中所含C—C和C—O单键的数目,计算公式简单,因公式含有对数,随着碳原子数的增加,piPC01的计算值增大,但增大量越来越小,这与脂肪醇临界温度随脂肪醇碳原子数的增加而增加的规律较相似。单独以piPC01为自变量与脂肪醇的临界温度相关联,决定系数达0.897 9,说明piPC01对脂肪醇分子的临界温度产生显著影响。
分子描述符ATS6e,GATS2e,GATS3i都是二维自相关指数,以电负性或电离势加权,对脂肪醇分子的区分度较好;E2m是按质量加权的2阶组成定向WHIM指数,由分子的三维结构产生,对脂肪醇分子的不同异构体区分较好。
这五个分子描述符加在一起时,将决定系数由0.897 9提高到0.999 6,非常接近1,只余下0.000 4未能加以解释。
表1列出了多元线性回归模型的检验值,包括各自变量的系数、t-值、p-值和VIF。当│t│>tα/2(nk-1)时,说明自变量对因变量有显著性影响,显著性水平α取0.05,查t-检验显著性水平分布表或在WPS表格中输入“=Tinv(0.025,35)”,可得t0.025(35)=2.34。从表1可看出,五个自变量对临界温度都有显著性影响;每一个自变量的VIF值都大于1小于10,说明各自变量之间不存在明显的多重共线性,所得QSPR模型对训练集的样本拟合优良。
表1 脂肪醇临界温度的多元线性回归模型检验值Table 1 Test value of multiple linear regression model of critical temperature(Tc) for aliphatic alcohols
行之有效的评价模型预测能力的方法是进行内外部验证。表2和表3分别列出了训练集和外部测试集中脂肪醇分子的分子描述符、临界温度及临界温度实验值,表2和表3最右列的预测临界温度数据大部分由文献[21]计算得到,所缺少的数据采用文献[22]的方法计算得到。
由表2可看出,训练集脂肪醇的临界温度预测值与实验值非常接近,残差位于区间[-3.94,4.36],均方根误差为1.77 K,平均绝对相对误差仅为0.23%。
按表2所列脂肪醇顺序,依次留下7个样本不参与回归,以训练集余下的34个样本建模,对未参与建模的7个样本的临界温度进行预测,所有样本都经过一遍留多法交叉验证,所得为0.999 2,均方根误差为2.38 K;同理按上述方法,做40次留一法交叉验证,所得为0.999 2,均方根误差为2.36 K。留多法交叉验证和留一法交叉验证的系数和模型的决定系数非常接近,两者的均方根误差与模型的均方根误差也接近,说明模型具有内部稳健性和可靠性。
表2 训练集脂肪醇的临界温度和分子描述符Table 2 Tc and molecular descriptors of aliphatic alcohols in the training set
由表3可看出,测试集脂肪醇的临界温度预测值与实验值非常接近,残差位于区间[-8.01,6.97],平均绝对相对误差为0.47%,小于1%,测试集中脂肪醇临界温度的均方根误差为3.74 K;进一步计算了模型的,,,分别达到0.996 5,0.996 2,0.998 0,说明模型对外预测能力良好。
表3 外部测试集脂肪醇的临界温度和分子描述符Table 3 Tc and molecular descriptors of aliphatic alcohols in the test set
以全部数据集的脂肪醇临界温度的预测值对实验值、预测残差对临界温度实验值做图,分别得到图1和图2。从图1可看出,所有的数据点紧靠y=x这条直线,说明预测值与实验值十分接近;从图2可看出,训练集和测试集的预测残差分布均匀,残差间不存在自相关,绝大多数的点位于残差区间[-6,6],只有两个点位于区间外,并且预测残差仅为6.97和-8.01。图1和图2进一步说明预测模型稳健可靠。
图1 总数据集的临界温度实验值与预测值的关系Fig.1 Plot of Tc-cal.vs.Tc-obs.of whole dataset.
将模型的预测结果与基团贡献法的预测结果进行比较,基团贡献法预测效果最好的是张克武法[21-22],其他方法如 Joback 法[23]和定位基团贡献法[24]预测效果较差。本工作仅与张克武法进行比较,结果见表4。从表4可看出,张克武法预测结果的平均绝对误差高、最大绝对误差大,本模型用于预测脂肪醇的临界温度,各方面都优于张克武法的预测结果。
表4 模型预测结果与张克武法[22]计算结果的比较Table 4 Comparison of the prediction results of the model with Zhang Kewu method[22]
张克武法需要用到物质的沸点,随着脂肪醇中碳原子数量的增加,脂肪醇的沸点测定会更加困难,张克武法虽然较为简便,但由于不同文献提供的脂肪醇的沸点相差较大,导致计算的临界温度相差较大。表5列出了三种脂肪醇的沸点、本模型预测的临界温度及张克武法预测的临界温度(来自文献[22]),其中,沸点BP1数据取自文献[16]、沸点BP2数据取自文献[25]。从表5可看出,沸点来源不同,计算的临界温度差异较大;张克武法的预测结果取决于沸点数据的精确度,含碳原子数多的脂肪醇的沸点测定精确度较差,而本模型不依赖于脂肪醇的沸点,只需通过对分子进行理论计算得到分子描述符,即可得到脂肪醇临界温度的预测值,本模型预测的三种脂肪醇的临界温度与实验临界温度的差值均低于2.00 K,优于张克武法的预测结果。
表5 三种脂肪醇的沸点及预测的临界温度Table 5 Boiling point(BP) and Tc-cal.of three aliphatic alcohols
1)运用Gaussian-16和Alvadesc软件计算得到了对脂肪醇临界温度有显著贡献的五个分子描述 符 piPC01,ATS6e,GATS2e,GATS3i,E2m,运用逐步多元线性回归建立了五参数线性QSPR模型,相关系数为0.999 8,均方根误差仅为1.77 K,这些分子描述符较好地描述了脂肪醇分子的结构、大小和连接信息。
2)经过决定系数、均方根误差、平均绝对相对误差、Fisher检验、t-检验、VIF检验、留一法交叉验证、留多法交叉验证以及外部测试集验证,表明所建立的QSPR模型拟合能力优,内部稳健可靠,外部预测能力强,可用于预测脂肪醇的临界温度。