何 琴, 黄保军,程静茹,王淑敏
(1.许昌学院化学化工学院,河南许昌 461000;2.河南省微纳米能量储存与转换材料重点实验室,许昌学院表面微纳米材料研究所,河南许昌 461000)
物质定量构效关系(Quantitative Structure-activity Relationship,QSAR)已经成为化学、环境、生命、食品等学科研究中的一个前沿领域[1 - 3]。定量结构色谱保留相关(Quantitative Structure Retention Relationship,QSRR)作为QSAR的一个重要分支,成为色谱领域中的有用技术,用于解释和预测各种物质的色谱保留行为,在色谱科学领域越来越多地受到关注[4 - 6]。目前,QSRR方法在酒类香气成分的分析中受到重视[7 - 9]。众所周知,香气成分大多以色谱-质谱技术检测,比较繁琐[10,11]。QSRR法可以为预测香气成分的保留行为提供一定的便利[12,13],在酒类香气成分的分析、监测、体系评价及预报方面具有巨大的优势,能够解决酒类中传统的化学研究方法难以解决的问题。因此,QSRR技术对于建立酒类香气中化合物分子结构与色谱保留之间的变化规律具有重要的意义。
本文以黑莓果酒香气成分的分子连结性指数和电拓扑参数作为神经网络输入,色谱保留时间作为神经网络输出,采用误差反传前向人工神经网络(BP-ANN)模型研究36种黑莓果酒香气成分的结构与保留时间的定量关系。同时,采用内外双重检验的办法分析和检验所得模型的稳定性,以期为有关果酒香气成分的研究奠定一定的基础。
黑莓果酒香气气相色谱保留值实验数据来源于文献报道[14],为了获得QSRR模型,化合物必需使用精确的分子描述符来表征化合物的结构信息[15,16]。本文使用两种类型的结构参数描述化合物:分子连接性指数和电性拓扑指数。
采用BP-ANN方法[4,17]建模,并与多元线性回归(Multiple Linear Regressions,MLR)方法[4,18]进行比较。
采用留一交叉检验法(Leave-one-out Cross-validation,LOO-CV)和外部检验相结合的方法对构建的模型进行检验[19]。
BP-ANN模型的网络拓扑结构为8×3×1,目标函数为1e-4,学习速度为0.1,训练步长为10 000。在最优条件下建立预测模型,经检验有较好的预测能力。
在最优条件下用BP-ANN模型预测,预测值(Pre)、预测值与实验值(Exp)之间的残差值(Res)如表1所示,其残差分布图见图1,并将其与MLR法进行了比较。由表1和图1可见,BP-ANN模型预测值与实验值更加接近,残差分布在-0.47~0.34之间,且大多接近于零;而MLR法的残差分布在-4.32~2.23之间,分布更加零散,且绝对值较大。比较可知BP-ANN的预测值与实验值之间的残差更小,说明BP-ANN模型预测保留时间更为准确,拟合能力比MLR法更好。
表1 基于BP-ANN和MLR法的预测结果
采用留一交叉检验和外部检验检验模型稳健性和外部预测能力。两种模型的相关分析如表2、图2、图3所示。BP-ANN模型线性相关系数R为0.9993,MLR模型相关系数R为0.9904,两种模型相当。基于BP-ANN模型的训练集留一交叉检验相关系数RCV为0.9949,而基于MLR法的训练集留一交叉检验相关系数RCV为0.9905,这说明两种模型自相容能力相当、稳健性相当。而基于BP-ANN模型的外部检验相关系数Rext为0.9833、基于MLR法的外部检验相关系数Rext为0.8937,说明BP-ANN法的泛化能力优于MLR法。
表2 BP网络模型和MLR模型的效果分析
采用BP-ANN对黑莓果酒香气成分进行了QSRR研究,BP-ANN模型预测值与实验值更加接近,残差分布在-0.47~0.34之间,且大多接近于零;而MLR法的残差分布在-4.32~2.23之间,分布更加零散,且绝对值较大。BP-ANN避免了传统算法误差偏大和计算繁琐的弊端,模型具有自组织、自适应和自学习能力,可很好地解决非线性预测问题,提高了预测的准确性。而通过留一交叉检验和外部检验检验了模型稳健性和外部预测能力,两种方法构建的模型稳健性相当,但是BP-ANN的外部预测能力更强。