代启国 郭茂祖
摘 要:蛋白质复合体由多个蛋白质通过相互作用构成,是蛋白质执行其功能的主要形式。在细胞中很多重要的生物过程都是由蛋白质复合体参与执行的。因此准确识别蛋白质复合体对于理解蛋白质活动规律具有重要意义。利用计算方法从蛋白质网络中识别蛋白质复合体是目前生物信息学研究的主要方向之一。总结了近年来蛋白质复合体计算识别方法的研究工作,展望了需要进一步研究的方向。
关键词:蛋白质相互作用;蛋白质复合体;聚类;生物网络
中文图书分类号:TP391 文献标识号:A 文章编码:2095-2163(2015)03-
Sruvey on Detecting Complexes from Protein-protein Interaction Network
DAI Qiguo, GUO Maozu
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Protein complex consists of multiple proteins through physical interaction, which is the main form of protein to perform its biological function. Most important biological processes in the cell are performed by the protein complexes. Therefore, the accurate identification of protein complex is of great significance for understanding protein activity. Using the computational method to identify protein complexes from the protein network is one of the main directions of current bioinformatics research. This paper is to summarize related research work on computational method for the identification of protein complexes, and to discuss several directions of further research in the area.
Keywords: Protein-protein Interaction, Protein Complex, Clustering, Biological Network
0研究背景
蛋白质(protein)是构成细胞最主要的生物分子之一。蛋白质很少单独参与生命过程,而是通过不同蛋白质之间的物理相互作用形成大的分子结构——蛋白质复合体(protein complex)[1-2]。复合体是蛋白质执行其功能的主要形式,是完成细胞中重要活动的基本分子组成形式[1]。细胞中很多重要的生物过程都是由蛋白质复合体参与执行的。因此,开展蛋白质复合体相关识别等方面DE 研究,对于揭示蛋白质的活动规律十分重要。作为生物检测技术的补充,发展准确的蛋白质复合体计算识别方法是生物信息学目前研究热点问题之一。在过去的十几年,从蛋白质网络数据中识别复合体最是受到广泛关注[3- 4]。蛋白质相互作用网络(protein-protein interaction network,简称蛋白质网络)是描述细胞中两两蛋白质之间相互作用的一种生物网络[5-6]。从蛋白质网络识别复合体的基本假设是,网络具有模块性并且网络中的模块与蛋白质复合体有密切关系。蛋白质复合体一般是在网络中对应连接稠密的子图结构[5-7]。
1目前主要研究工作
通过挖掘蛋白质网络中特定模块结构是识别蛋白质复合体的一个重要研究方向。国内外研究人员提出了很多优秀的识别算法。依据算法特点的不同,现有基于蛋白质网络的复合体识别方法可大致分为:基于启发式的局部搜索方法、基于层次聚类的方法和基于连续全局优化的识别方法。此外,学者们还研究了蛋白质网络与基因表达数据的融合方法,以进一步提高复合体识别准确性。
1.1基于局部搜索的方法
基于启发式的局部搜索算法是从网络中蛋白质邻接关系出发,找到局部范围内的稠密子图。这类方法考虑了网络的局部拓扑关系,受到广泛关注并得到了快速发展[8]。团(Clique)作为完全子图,具有极高的内部连接密度。2005年,Palla等人在《Nature》发表文章,首次提出一种团过滤方法(Clique Percolation Method,CPM),该方法假设网络模块是由一组重叠的clique组成,通过匹配邻接k-clique得到重叠模块划分[9]。并以该算法为基础,开发的Cfinder[10]软件用于识别蛋白质复合体对应的网络模块。国内中科院章祥荪研究员等人将CPM方法用于酵母蛋白质相互作用网中模块识别[11]。Bader和Hogue等人提出了分子复合体识别算法(MCODE)[8]。该方法主要分为三步:蛋白质加权、复合体预测以及后处理。利用核聚类系数(core clustering coefficient)为每个蛋白质加权。根据蛋白质权值选择高权值蛋白质作为种子复合体,然后选择高权值蛋白质扩充种子,最终得到复合体。此外,模拟随机游走过程的聚类算法也是识别复合体的一种主要途径。马尔科夫聚类算法MCL(Markov Clustering,MCL)方法[12-13]基于两种简单的操作,扩展(expansion )和膨胀(inflation),模拟随机游走过程。该算法通过交叉迭代这两种操作,把一个网络划分成若干稠密子图。Nepusz等人提出了ClusterONE算法,发表在《Nature Methods》[14]。文中提出了一种连接系数(cohesivenness)的函数用以指导算法搜索。国内方面,西安电子科技大学高琳教授等基于最大频繁模式提出了核-附件蛋白质复合体识别算法CCiMEP[15],首先通过挖掘最大频繁模式,找到蛋白质复合体的核;然后,利用与核邻接节点的拓扑关系,为核添加附件。北京工业大学冀俊忠教授[16]采用蚁群算法识别蛋白质网络中的模块结构。基于启发式的局部搜索方法在噪声小、聚类明显的网络中,识别结果较好。但在网络噪声大、连接复杂的网络中,识别性能并不理想。
1.2基于层次聚类的复合体识别方法
层级聚类(hierarchical clustering)算法在复杂网络研究领域获得了广泛使用[17-18]。层次聚类方法对给定的网络进行层次的分解,直至满足某种条件为止,最终识别得到模块结构[19]。在蛋白质复合体识别领域,凝聚层次聚类方法(以下简称为层级聚类)也获得了大规模关注采用。目前多种层次聚类方法的区别主要在于其簇合并依据的差异。Arnau等人提出了一种UVCluster[20]的层次聚类方法识别蛋白质网络中的模块,以蛋白质之间最短路径为合并蛋白质簇的依据。Jerarca方法[21]采用多个方法的聚类结果计算加权距离,并利用加权距离构建层次聚类数。局部性合并依据,没有考虑两个簇合并对网络中整个簇划分的影响,缺乏全局性。Newman等人提出了一种快速层级聚类FastCommunity方法,其中以模块度Q函数为簇合并准则,选择使得模块度增加的相邻模块进行合并[22]。西安电子科技大学高琳教授等人提出了一种基于度分布的蛋白质网络层次聚类算法[23],该方法采用以节点度分布为基础的模块度量函数作为节点簇合并的依据。2012年Becker提出了基于层次聚类的OCG算法[24]。该算法以极大团(maximal clique)为初始复合体进行层次聚类。
综上所述,采用全局性簇合并依据的层次聚类方法是当前分析蛋白质网络模块的主要手段,其中模块度量函数是影响层级聚类识别效果的主要因素。为了使得层次聚类能够识别重叠模块,合理地选择初始簇也是需要进一步深入研究的问题。
1.3基于连续最优化模型的方法
基于优化模型的方法通过拟合模型与网络数据,从而得到网络聚类划分。块模型(Blockmodel)则是利用顶点类分布情况(块参数)描述网络结构的一种模型。通常情况下,网络的连接(边)服从基于块参数的某种随机分布。按分布形式的不同,主要分为狄利克雷和泊松分布两种。Airoldi等人即已提出了混合关系随机块模型 (MMSB)[25-26],该方法就以隐狄利克雷分布(Latent Dirichlet Allocation, LDA)为基础,并采用了变分推理算法来实现模型近似后验的推理。2011年,Newman等人又提出了基于泊松分布的块模型,用于识别网络中的重叠社团[27]。
2012年,Zhang等人将基于泊松分布的块模型引入到蛋白质复合体识别中。考虑到蛋白质复合体与社团的区别,该方法进行了相应改进,从而提出了RSGNM模型[28]。一方面,引入基于指数分布的先验分布,用于稀疏化,目的是为了控制复合体之间的重叠率;另一方面,引入了拉普拉斯调控子(Laplacian regularizer),通过平滑作用,提高识别性能。总地来看,作为第一种用于复合体识别的模型方法,RGNSM算法的性能较好。但由于所采用的泊松分布假定蛋白质相互作用网络为多边图,与目前蛋白质网络实际不符,因而在一定程度上影响了其实际的识别性能。
1.4基于基因表达数据融合的复合体识别
细胞中,蛋白质的丰度(相对含量)以及其相互作用关系是随时间及环境而动态变化的。而现有蛋白质网络却仍不能提供蛋白质的动态信息。为了提升复合体识别的准确性,有必要融合可以阐述蛋白质动态信息的其它类型生物数据。基因表达数据(gene expression data)即是描述了在不同时刻或条件下基因表达量的一种数据,因而是分析蛋白质动态变化的重要数据。
Feng等人提出了图碎片算法(graph fragmentation algorithm, GFA)[29],该方法利用微阵列数据对蛋白质网络进行加权。在加权基础上,再利用DSA(densest sub-graph algorithm)算法,寻找最稠密子图;最终,得到高度共表达的蛋白质复合体。Maraziotis等人则提出了DMSP(Detect module from seed protein)算法[30]。该算法首先利用模糊c均值算法对基因表达数据进行聚类,以选择种子(seed)和稠密子图;其后,即根据相应标准将与其紧密联系的蛋白质加入到指定簇中。Ulitsky等人又随即提出MATISSE算法[31]。首先,利用基因表达相关性对蛋白质相互作用进行加权,从而得到每个蛋白质的权值;而后,则对权值最高的蛋白质,将其以及与其相关的k个最高权值的邻居蛋白质组成簇。
此外,近年来中南大学王建新教授[32]、国外的Choi等人[33]对利用基因表达数据构建时序蛋白质网络问题展开了相关研究[34]。构建此种网络的目的就是模拟细胞中不同时刻蛋白质的活动状态,旨在提高复合体识别的准确性。
2下一步工作展望
综上所述,当下取得的研究成果只是阶段性的。为了更加准确地识别蛋白质复合体,进而理解复合体合成、执行功能、分解等方面的机理,笔者认为今后有必要从以下几个方面相继开展进一步的研究:
(1)目前,在蛋白质复合体识别领域存在多种不同类型的方法。每种类型的识别方法均是各显优势,同时也有一定的不足。在机器学习领域中,集成学习方法是通过某种规则整合不同分类器结果,从而获得比单一分类器更好的预测结构。笔者认为,即可利用类似集成学习的方法,将不同类型复合体识别方法的预测结果整合在一起,以发挥单一方法的优势、且避其不足,从而获得更加可靠、有效的复合体识别结果。
(2)蛋白质相互作用网络只描述了蛋白质的相互作用关系,而不能描述蛋白质之间相互作用位点的细节结构信息。如果能够获取这些更加直观而详细的信息,无疑会有助于研究人员理解蛋白质复合体形成机理,从而设计更加准确的识别方法提供重要的帮助。因此,下一步有必要设计同时考虑二值相互作用关系和三维相互作用结构信息的复合体识别算法,以降低现有蛋白质网络中噪声对识别结果的影响。
(3)现有在复合体计算识别的相关研究普遍将复合体视为稳定不变。而事实上复合体中所含的蛋白质及其组成结构却是随环境和生物过程等因素的变化而发生改变的。同时,复合体的组装、转运物质以及分解等关键过程都对细胞活动具有重要的影响。因此,研究蛋白质复合体动态变化的相关计算方法也是十分必要的。
3 结束语
蛋白质复合体在细胞中具有重要作用。利用计算方法从蛋白质网络中识别复合体是当前生物信息学研究的热点问题。本文归纳并总结了国内外在基于蛋白质网络的复合体识别算法方面已有研究工作,同时也对下一步研究方向进行了简要分析与阐述。希望通过本文的总结可以对国内研究人员开展相关工作提供有益的启发和帮助。
参考文献:
[1] ALBERTS B. The cell as a collection of protein machines: Preparing the next generation of molecular biologists[J]. Cell, 1998, 92(3):291-294.
[2]王晓东, 李智立. 蛋白质复合体及蛋白质相互作用研究新策略——化学交联结合质谱分析法[J]. ACTA BIOPHYSICA SINICA, 2009, 25(3):157-167.
[3]JI J Z, ZHANG AD, Liu CN et al. Survey: Functional Module Detection from Protein-Protein Interaction Networks[J]. Ieee Transactions on Knowledge and Data Engineering, 2014, 26(2):261-277.
[4]NI W Y, XIONG H J, ZHAO B H et al. Predicting overlapping protein complexes in weighted interactome networks[J]. Journal of Zhejiang University-Science C-Computers & Electronics, 2013, 14(10):756-765.
[5]TONG A H Y, DREES B, NARDELLIi G, et al. A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules[J]. Science, 2002, 295(5553):321-324.
[6]SPIRIN V, MIRNY L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of the National Academy of Sciences, 2003, 100(21):12123-12128.
[7]JANJIC V, SHARAN R, PRZULJ N. Modelling the yeast interactome[J]. Scientific Reports, 2014, 4.
[8]BADER G D, HOGUE C W. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC Bioinformatics, 2003, 4:27.
[9]PALLA G, DERENYI I, FARKAS I, et al. Uncovering the overlapping community structure of complex networks in nature and society[J]. Nature, 2005, 435(7043):814-818.
[10]ADAMCSEK B, PALLA G, FARKAS I J, et al. CFinder: locating cliques and overlapping modules in biological networks[J]. Bioinformatics, 2006, 22(8):1021-1023.
[11]ZHANG C, LIU S, ZHOU Y. Fast and accurate method for identifying high-quality protein-interaction modules by clique merging and its application to yeast[J]. Journal of Proteome Research, 2006, 5(4):801-807.
[12]ENRIGHT A J, VAN DONGEN S, OUZOUNIS C A. An efficient algorithm for large-scale detection of protein families[J]. Nucleic Acids Res, 2002, 30(7):1575-1584.
[13]SATULURI V, PARTHASARATHY S, UCAR D. Markov clustering of protein interaction networks with improved balance and scalability[C]//Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology, Niagara Falls, NY:ACM, 2010: 247-256.
[14]NEPUSZ T, YU H, PACCANARO A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nat Methods, 2012, 9(5):471-472.
[15]YU L, GAO L, KONG C. Identification of core-attachment complexes based on maximal frequent patterns in protein-protein interaction networks[J]. Proteomics, 2011, 11(19):3826-3834.
[16]Ji JZ, Liu ZJ, Zhang AD et al. Improved Ant Colony Optimization for Detecting Functional Modules in Protein-Protein Interaction Networks[M]. Information Computing and Applications, Pt 2. Edited by Liu CF, Wang LZ, Yang AM, 2012,308: 404-413.
[17]SHEN H, CHENG X, CAI K, et al. Detect overlapping and hierarchical community structure in networks[J]. Physica A: Statistical Mechanics and its Applications, 2009, 388(8):1706-1712.
[18]LANCICHINETTI A, FORTUNATO S, KERTESZ J. Detecting the overlapping and hierarchical community structure in complex networks[J]. New Journal of Physics, 2009, 11(3):033015.
[19]CLAUSET A, MOORE C, NEWMAN M E. Hierarchical structure and the prediction of missing links in networks[J]. Nature, 2008, 453(7191):98-101.
[20]ARNAU V, MARS S, MARIN I. Iterative cluster analysis of protein interaction data[J]. Bioinformatics, 2005, 21(3):364-378.
[21]ALDECOA R, MARIN I. Jerarca: Efficient analysis of complex networks using Hierarchical Clustering[J]. Plos One, 2010, 5(7).
[22]CLAUSET A, NEWMAN M, MOORE C. Finding community structure in very large networks[J]. Physical Review E, 2004, 70(6).
[23]YU L, GAO L, LI K, et al. A degree-distribution based hierarchical agglomerative clustering algorithm for protein complexes identification[J]. Comput Biol Chem, 2011, 35(5):298-307.
[24]BECKER E, ROBINSSON B, CHAPPLE C E, et al. Multifunctional proteins revealed by overlapping clustering in protein interaction network[J]. Bioinformatics, 2012, 28(1):84-90.
[25]CHOI D S, WOLFE P J, AIROLDI E M. Stochastic blockmodels with a growing number of classes[J]. Biometrika, 2012, 99(2):273-284.
[26]AIROLDI E M, BLEI D M, FIENBERG S E, et al. Mixed membership stochastic blockmodels[C]// Advances in Neural Information Processing Systems, [S.l.]:NIPS,2009: 33-40.
[27]BALL B, KARRER B, NEWMAN M E J. Efficient and principled method for detecting communities in networks[J]. Physical Review E, 2011, 84(3).
[28]ZHANG X F, DAI D Q, LI X X. Protein complexes discovery based on protein-protein interaction data via a regularized sparse generative network model[J]. Ieee-Acm Transactions on Computational Biology and Bioinformatics, 2012, 9(3):857-870.
[29]FENG J, JIANG R, JIANG T. A max-flow-based approach to the identification of protein complexes using protein interaction and microarray data[J]. Computational Biology and Bioinformatics, IEEE/ACM Transactions on, 2011, 8(3):621-634.
[30]MARAZIOTIS I A, DIMITRAKOPOULOU K, BEZERIANOS A. Growing functional modules from a seed protein via integration of protein interaction and gene expression data[J]. BMC Bioinformatics, 2007, 8(1):408.
[31]ULITSKY I, SHAMIR R. Identification of functional modules using network topology and high-throughput data[J]. BMC Syst Biol, 2007, 1(1):8.
[32]WANG J X, PENG X Q, PENG W, et al. Dynamic protein interaction network construction and applications[J]. Proteomics, 2014, 14(4-5):338-352.
[33]KIM Y, HAN S, CHOI S, et al. Inference of dynamic networks using time-course data[J]. Brief Bioinform, 2014, 15(2):212-228.
[34]CHEN B, FAN W, LIU J, et al. Identifying protein complexes and functional modules--from static PPI networks to dynamic PPI networks[J]. Brief Bioinform, 2013:bbt039.