特征选择在蛋白质能量热点预测中的应用

2013-12-29 00:00:00魏小敏
电脑知识与技术 2013年4期

摘要:蛋白质是细胞中的主要功能分子,是生命的物质基础,蛋白质的功能是通过蛋白质之间相互作用而发挥的,而蛋白质相互作用界面上只有很少数的被称之为“能量热点”的残基对相互作用贡献了大部分的结合自由能,如何识别这些能量热点是目前生物信息学领域比较热门的研究问题。其中基于机器学习的蛋白质能量热点识别中,特征选择方法的使用对识别模型的性能影响非常大。该文中,笔者通过对蛋白质能量热点识别中的特征选择方法的研究现状进行全面的分析,指出还存在的一些问题及以后改进的思路和方向,为蛋白质能量热点预测准确率的提高奠定基础。

关键词: 蛋白质能量热点;特征选择;预测;降低维度

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)04-0846-03

The Application of Feature Selection in the Prediction of Protein Energy Hot Spots

WEI Xiao-min

(Department of Computer Science and Technology,Tongji University,Shanghai 201804,China)

Abstract: Protein-protein interactions play a vast role in biological processes. The understanding of protein-protein interface is a crucial bridge to link structure and function of biomolecular systems. It has been discovered that only a fraction of interface residues, named “hot spots”,provide a great amount of energetic contributions to the binding free energy of protein-protein complexes. Probe hot spots in interfaces can therefore be the key step in protein-proteininteractions research. For machine learning methods to predict hot spots, the different strategies in the vital step of feature

selection are concluded and analyed, then pointed the problems and the direction of improve,which will increase the accuracy of hot spots prediction.

Key words: protein energy hot spots; feature selection; prediction; dimension reduce

1 概述

1.1 研究背景

蛋白质是细胞中的主要功能分子,是生命的物质基础,是生命活动的最终控制者和直接执行者,它参与生物体内几乎所有的生命活动过程[1]。蛋白质功能发挥的关键在于能够特异性地以不同的亲和力与其他各类分子包括蛋白质分子结合。蛋白质相互作用(Protein-protein Interactions 简称PPIs)是生物体中众多生命活动过程的重要组成部分,是多种生理活动的基础。在生物分子系统中,全面的理解蛋白质相互作用是联系蛋白质结构和功能的桥梁,而识别相互作用界面上的残基则是必不可少的工作。虽然蛋白质相互作用的基本原理仍然未被很好的解释,但研究表明,蛋白质相互作用界面通常较大,但只有很少数的被称之为蛋白质相互作用能量热点(Hot Spots)的残基贡献了大部分的结合自由能[2],在蛋白质结合的稳定性方面起着非常重要的作用,探索蛋白质能量热点是蛋白质相互作用是蛋白质功能研究的重要的阶段。

蛋白质能量热点是蛋白质相互作用中起关键作用的位点,从而使得蛋白质复合物能够很好的发挥功能。在药物设计中,蛋白质与小分子化合物的相互作用是理论基础;药物分子产生药效的过程,就是靶标上起关键作用的残基位点与药物分子相互结合,形成相互作用。在蛋白质设计上,我们也需要定位对结合起关键作用的残基。

在生物领域中,研究人员识别蛋白质能量热点的手段是丙氨酸扫描突变(Alanine-scanning mutagenesis),其过程非常复杂,并且需要很高的实验室环境配置,设备及化学试剂等,需要大量的人力投入,实验代价非常昂贵,并且后续的分析工作非常繁冗,每个残基都要单独进行分析。现在已经有了一些存储生物实验结果的数据库,例如丙氨酸扫描能量数据库[4](ASEdb)和结合界面数据库[5](BID),然而至今这些数据库与现在能用的蛋白质相互作用界面数据[6]相比是远远不够的。

1.2 研究问题

近年来,研究人员在蛋白质能量热点的组成、结构和机理的探索上已经有了很大的进展,这些理论为后续的研究和应用奠定了基础,但是疏水性、形状特征、电荷等特征等特征对于解释能量热点还是远远不够的,仍然没有一个通用的识别蛋白质能量热点的规则。

随着对蛋白质相互作用能量热点的认识不断提高,计算的方法开始用于识别能量热点。这些方法主要分为三类:分子动力学模拟方法、经验的方法和基于机器学习的方法。其中分子动力学模拟方法一般需要超级计算机的支撑,计算代价高昂,基于经验 的方法虽然计算简单,经验主观性使得这种方法没有说服力并且效果并不理想。

基于机器学习的预测方法比之前的一些方法从计算效率还有预测性能上已经有很大的提高,其中神经网络[7],最小割树[8] ,贝叶斯网络[9]以及支持向量机(SVM) [10-13] ,决策数[14]均被作为学习算法用于蛋白质能量热点预测中,而基于机器学习的预测一般有两个主要组成部分,即学习方法和特征,在某种程度上选取合适的特征要比学习方法更重要。若要提升蛋白质能量热点预测的准确率和性能,选取合适的特征是必要前提。目前用于蛋白质能量预测研究中的特征有很多,包括溶剂可及性面积,疏水性参数,保守性等, 由于能量热点预测中存在训练样本有限特征相对较多,容易出现“过拟合”的情况,我们需要通过减少特征维度来避免过拟合的同时提高预测性能。

在本文中,我们对蛋白质能量热点预测中的特征选择研究现状进行综述,并针对当前存在的问题进行分析,最后根据分析提出了一些建议以及以后工作的重心。

2 特征选择方法的分类及其在蛋白质能量热点中的应用现状

特征选择作为降低特征维度避免过拟合的一种手段,在分类问题中已经有广泛的应用,其中在蛋白质能量热点的研究工作中也有很多用到了特征选择,这里我们结合特征选择的种类介绍,简要说明现阶段特征选择在蛋白质能量热点预测中的应用情况。

按照特征子集的搜索怎样与分类模型的构建相结合分类,特征选择可以分为三类[16],如图1所示,这三类分别是滤波器的方法,封装方法及嵌入式方法。

1)滤波器方法。在这种方法中,特征子集的选择与分类器的构建相互独立,计算比较快速高效,它一般使用的搜索策略是单独最优特征组合[17]的方式,即根据某种指标计算单个特征的指标值,然后对所有的特征按照它们的指标值进行排序,取排序靠前的k个特征作为我们要找的特征子集。在蛋白质能量热点预测中,APIS[10]使用F_score作为滤波器 衡量每个特征的重要性,然后从62个特征中选取9个特征作为最优特征子集,MINERVA2[11] 使用决策树作为滤波器,利用每个特征的信息熵作为衡量yHxzquk/BVnAF3tCkZbaW1nHYMTx62PSRoPKSu373t4=标准,然后选取了12个特征,然后根据选择出的特征子集去构建分类模型。这种方法计算简单,与分类器独立,可以很容易的应对高维数据集,选择出的特征子集可以用到多个分类器中,但它并不能保证选择出的特征子集是最优的,而且它不考虑特征子集的选择与分类器构建之间的关系,分类器不具有针对性,分类效果并不理想。

2)封装的方法。这种方法将特征子集的选择和分类器的构建结合起来,具体过程是,根据某种搜索策略确定一些特征子集,然后依次用每一个特征子集用特定的学习算法结合构建分类模型,最后挑选出分类模型效果最好的做为最终我们要建立的分类模型,对应的特征子集就是最优特征子集。这种方法计算复杂度要比基于滤波器的方法高,但它直接通过分类器的分类性来评价特征子集的可用性,结果较好。这种方法可以跟序列前向或后项搜索策略相结合,Lise[12] 用后向消除的方法,每次去除一个特征子集,然后使用剩余特征在分类模型中的性能来验证去除特征的重要性,采取的就是封装的策略。 这种方法在其他的蛋白质能量热点预测中也有广泛的应用[9,13-15],其中,在KFC[14]和PCRPi[9]中他们采用了穷举搜索来确定候选的特征子集,然后以特定的分类模型去训练每一种可能的特征子集,用分类模型的性能挑选出最优的特征子集。在KFC2[13]中,作者将特征分成不同的类别,然后从每一种类别中挑选一些特征以确保特征的多样性,同样的,这些挑选出来的可能的特征子集也是通过用SVM构建分类器的性能来确定最优的特征子集。这些方法在预测蛋白质能量热点的性能上相比滤波器方法有很大的提高,它考虑了特征子集的搜索与分类模型的构建之间的联系,充分利用了特征之间的关联性,是目前研究热点选择特征子集时最常用的方法,但是在之前的研究中,使用这种方法进行特征选择的搜索策略都是穷举或带有一定主观性,使得计算量非常大或者选择出的特征子集没有说服力。

3)嵌入式的方法。这种方法是利用选取的学习方法自身的特性来对特征排序,依据某种搜索策略,对特征子集候选集进行分类性能评估,最终得到性能较高的分类模型和最优特征子集。这种方法与滤波器方法相比,它考虑了特征之间的关联,也考虑了学习方法自身的特征对特征选择的影响;与封装方法相比,计算复杂度大大降低,这种特征选择策略在蛋白质能量热点中还没有应用,但在生物信息学领域中的基因选择用于癌症分类[17]研究中有较好的应用,在这项研究中,作者使用支持向量机建立的决策函数每项特征的系数,作为特征重要程度的评判指标,实验表明,采用这种方法选择出的基因(特征)具有较好的识别特定癌症的功能。

3 蛋白质能量热点预测研究中特征选择策略展望

根据蛋白质能量热点中特征选择研究现状的分析我们知道,基于嵌入式的特征选择方法在能量热点预测中还未有过尝试,虽然癌症分类与能量热点预测上有很大的不同,比如能够识别癌症的基因有很多,成百上千个,癌症样本也非常多,但是现在可用的能量热点样本比较少,特征也仅几百个,但是同样作为分类预测问题,我们猜测,这种特征选择策略同样可以被借鉴到蛋白质能量热点的预测中,在以后的研究工作中,我们希望能够根据蛋白质能量热点本身的性质改进这个基于SVM的递归特征消除法,用到蛋白质能量热点的预测中,提高能量热点预测的准确率。

同时,封装的特征选择方法涉及到搜索策略和学习算法的选择,这种特征选择的策略仍然具有很大研究的空间,例如搜索策略的变化,和不同的学习算法相结合等,在以后的研究中我们可以尝试这些方法从而选择出具有高识别度的能量热点特征子集。

4 结束语

本文从特征选择的角度对基于机器学习的蛋白质能量热点预测的研究现状进行分析,指出了研究中已取得的成就以及还存在的一些问题,然后从理论角度出发,结合现阶段的研究,探讨使用嵌入式的特征选择策略,例如基于支持向量机自身的特性来进行特征选择的研究思路,以及基于封装方法的一些改进方向。

参考文献:

[1] 蛋白质. [EB\OL].(2012-11-15).维基百科:zh.wikipedia.org/wiki/蛋白质.

[2] Moreira I S, Fernandes P A,Ramos M J. Hot spots-A review of the protein-protein interface determinant amino-acid residues[J].Proteins,2007,68(4):803-812.

[3] Brian C.Cunningham and James A.Wells.High-resolution epitope mapping of hghreceptor interactions by alanine-scanning mutagenesis[J].Science,1989,244(4908):1081-1085.

[4] Kurt S. Thorn and Andrew A. Bogan.Asedb: a database of alanine mutations and their effects on the free energy of binding in protein interactions[J]. Bioinformatics,2001,17(3):284-285.

[5] Fischer T B, Arunachalam K V, Bailey D, et al. The binding interface database(bid):a compilation of amino acid hot spots in protein interfaces. Bioinformatics, 2003,19(11):1453-1454.

[6] Tuncbag N, Kar G, Keskin O,et al. A survey of available tools and web servers for analysis of protein-protein interactions and interfaces[J]. Briefings in bioinformatics, 2009,10(3):217-232.

[7] Ofran Y, Rost R. Protein-protein interaction hotspots carved into sequence Protein-protein interaction hotspots carved into sequence [J] .PLoS computational biology, 2007,3(7):e119.

[8] Tuncbag N, Sibel Salman F, Ozlem Keskin,et al. Analysis and network representation of hotspots in protein interfaces using minimum cut trees[J].Proteins, 2010,78(10):2283-2294.

[9] Salam A. Assi, Tomoyuki Tanaka, Terence H. Rabbitts et al.Pcrpi: Presaging critical residues in protein interfaces, a new computational tool to chart hot spots in protein interfaces[J].Nucleic Acids Research, 2010,38(6):e86.

[10] Xia J F, Zhao X M, Song J, et al.APIS: accurate prediction of hot spots in protein interfaces by combining protrusion index with solvent accessibility[J].BMC Bioinformatics, 2010, 11:174.

[11] Kyu-il Cho. A feature-based approach to modeling protein–protein interaction hot spots[J].Nucleic Acids Research, 2009, 37(8): 2672–2687.

[12] Lise S, Archambeau C, Pontil M,et al. Prediction of hot spot residues at protein-protein interfaces by combining machine learning and energy-based methods[J]. BMC Bioinformatics, 2009, 10:365.

[13] Zhu X L, Julie C. Mitchel.Kfc2: A knowledge-based hot spot prediction method based on interface solvation, atomic density, and plasticity features[J].Proteins: Structure, Function, and Bioinformatics,2011, 79(9):2671–2683.

[14] Steven J. Darnell,David Page,et al. Mitchell. An automated decision tree approach to predicting protein interaction hot spots[J].Proteins, 2007,68(4):813-823.

[15] Yvan Saeys. A review of feature selection techniques in bioinformatiocs[J]. Bioinformatics, 2007, 23(19):2507-2517.

[16] 毛勇,周小波,夏铮,等.特征选择算法研究综述[J].模式识别与人工智能, 2007,20(2),211-218.

[17] GuyonI. Gene selection for cancer classification using support vector machines. Mach.Learn.,2002,46(1-3):389-422.