徐镜善 王凯 袁哲明
摘要 首先基于支持向量回归(SVR)依均方根误差最小原则确定最优核函数,再以最优核函数为基础,进行SVR非线性自变量筛选,最后以所选自变量进行建模预测。将该方法应用于酚类化合物的QSAR研究,最优核函数确定为径向基核,最终保留自变量为疏水性参数(lgP)与拓扑指数(Am3)。结果表明:基于SVR进行变量筛选能有效地剔除无关自变量,进一步改进SVR对小样本数据的建模预测能力。该方法在农业环境毒性污染物的QSAR研究领域有较广泛的应用前景。
关键词 支持向量回归;自变量筛选;定量构效关系;酚类化合物
中图分类号 S11+1 文献标识码
A 文章编号 0517-6611(2014)13-03799-03
Abstract Firstly,the optimal kernel function was determined in accordance with the minimum root mean square error based on support vector regression (SVR),and then on the basis of the optimal kernel function,the independent variables were screened nonlinearly using SVR.Finally,modeling was conducted on the training set and prediction was performed on the test set using the selected independent variables.The method was applied to QSAR study of phenolic compounds,the optimal kernel function was determined as RBF kernel,the retained independent variables as hydrophobic parameter (lgP) and topological index Am3.The results show that irrelevant variables can be effectively eliminate using SVR to screen variables and prediction ability was further improved for SVR modeling on small sample data,this method has a potential application prospect in the QSAR research field of environmental toxic pollutants of agriculture.
Key words Support vector regression; Independent variable screening; Quantitative structureactivity relationships; Phenol compounds
据统计,当今人类50%的财富来自于化学品。随着工业的高速发展,10万多种化学制品被投入环境中。由于人们无限制地生产和滥用化学制品,一些有毒化学品必会被大量投放到环境中。酚类化合物是有机化学工业的基本原料,被广泛用于工业制造如酚醛树脂、合成纤维、炸药、农药、石料及染料等[1]。与之相关的各类工业废水、废气被大量地排放到生活环境中,给农业生产、人类生活带来极大的伤害。所以,正确评价酚类化合物等有机化合物的毒性效应是十分必要的。
化合物的分子结构可决定其性质。怎样由化合物的分子结构预知其性质,并且确立其结构和性质之间定量化关系是一个关键问题。定量构效关系[2](Quantitative structure activity relationship,QSAR)是解决这一难题的途径,可用来预测化合物的生物活性。酚类化合物种类繁多且分布广泛,开展实地试验费力、费时,而QSAR方法可以有效地估算这些化合物在环境中的毒性。
应用特征筛选方法选择包含丰富信息的描述符是定量构效关系研究的重要步骤。常用方法有回归分析、主成分分析(Principal component analysis,PCA)、逐步判别分析、偏最小二乘法分析(PLS)、遗传算法(Genetic algorithm,GA)和人工神经网络(Artificial neural network,ANN)等[3]。以统计学习理论为基础的支持向量机(Support vector machine,SVM)基于结构风险最小,较好地解决了局极小、非线性、过学习等问题,具有优异泛化推广能力[4-6]。QSAR方法首先利用理论计算计算得到化合物分子的结构参数或理化性质,再利用这些参数或性质对化合物进行分析,比传统实验测定省时、省力,甚至能对一些无法实验测定的化合物进行分析[7-9]。结合SVM,笔者对酚类化合物进行了QSAR分析,以揭示对环境的影响。
1 材料与方法
1.1 数据来源
3 结论
采用SVR不同核函数对酚类化合物进行QSAR建模,再以最优核函数基于SVR进行非线性变量筛选。对于该酚类化合物,首先SVR的最优核函数确定为径向基核,径向基核函数也被其他研究者认可,并且得到广泛使用;其次,保留的自变量为lgP与Am3,而V和V2均未保留,表明分子的拓扑结构与疏水性影响酚类化合物的麻醉毒性;最后,以保留自变量进行建模预测,其预测精度(Q2pred=0.934)优于不经变量筛选的SVR预测精度(Q2pred=0.898),亦优于PLS与MLR的预测精度(Q2pred分别为0.894与0.895),其中PLS与MLR的建模效果相当。将不同的建模方法用于该酚类化合物的QSAR分析,结果表明SVR基于结构风险最小化原则,使得其对独立测试样本表现出较好的预测效果,泛化能力优异;基于SVR的非线性变量筛选方法可有效地去除了冗余、不相关自变量,提升SVR的建模预测能力。该方法在环境毒性污染物(如酚类化合物)等的QSAR研究领域有较广泛应用前景。然而,SVR也存在许多问题有待解决,例如最优核函数的选取及核函数参数的优化均需要理论、应用上的改进。
参考文献
[1] 金相灿.有机化合物污染化学[M].北京:清华大学出版社,1990:49-73.
[2] 王连生,韩朔瞪,支正良.有机物定量结构-活性相关[M].北京:中国环境科学出版社,1993.
[3] 许禄,邵学广.化学计量学方法[M].北京:科学出版社,1995.
[4] VAPNIK V.The nature of statistical learning theory[M].NY:Springer,2000.
[5] 邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.
[6] 马晓光,胡非.利用支撑向量机预报大气污染物浓度[J].自然科学进展,2004,14(3):349-353.
[7] 钟国华,胡美英.QSAR 及其在农药设计中的应用和进展[J].农药学学报,2001,3(2):1-11.
[8] 印家健,李梦龙,文志宁,等.支持向量回归用于氨基酸描述符在肽 QSAR 建模中的性能评价[J].四川大学学报:自然科学版,2006(2):30.
[9] XIAO M,ZHENG G,YU T,et al.Quantitative structure and activity relationship studies on the toxicity of polychlorinated naphthalenes using support vector machines[J].Journal of Analytical Science,2007,23(2):143.
[10] 李剑,陈德钊,吴晓华,等.优化的径向基-循环子空间网络为药物定量构效关系建模[J].分析化学,2005,33(6):28-32.
[11] 郭明,许禄.酚类化合物的QSAR研究[J].环境科学学报,1998,18(12):122-127.
[12] TROPSHA A,GRAMATICA P,GOMBAR V K.The importance of being earnest:validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR & Combinatorial Science,2003,22(1):69-77.