基于宽进严出策略的可靠蛋白质互作预测框架模型

2014-04-29 00:50:36杨雷唐降龙

智能计算机与应用 2014年4期

杨雷　唐降龙

摘要：蛋白质互作可用来研究细胞过程、分子功能和人类相关疾病。高通量的生物学实验提供的蛋白质互作数据含有大量的错误和缺失，可用计算方法加以完善。针对单一的计算方法预测蛋白质互作遇到的准确性波动问题，本文提出一种基于宽进严出策略获取可靠蛋白质互作的框架模型。根据设置的使用原则，该框架模型可以整合多种计算方法，共同对抗原始互作数据集中存在的噪声数据干扰，以及单一计算方法应用的生物学背景知识偏差。基于该框架模型预测的蛋白质互作具有多重生物学意义，提高了预测的可靠性和稳定性。

关键词：蛋白质互作；框架模型；方法整合；可靠预测

中图分类号：TP39141 文献标识码：A文章编号：2095-2163（2014）04-0050-04

Abstract：Protein-protein interactions can provide insight in the studying of cellular processes， molecular functions and human diseases. Protein interactions derived from biological experiments contain numerous noise and deficient data， which can be improved by computational approaches. A framework model based on loose in and strict out strategy is proposed to predict reliable protein interactions， overcoming the problem of accuracy fluctuation based on a single predicting method. According to applied rules of the framework model， it can integrate various computational approaches to confront the interference of noise from original datasets and the deviation of the applied basic of biological knowledge together. Protein interaction predictions oriented from the framework own multiply biological significance， producing the improvement of the reliability and stability.

Key words：Protein-protein Interaction； Framework Model； Approach Integration； Reliable Predictions

0引言

对于每一种生物而言，蛋白质是生物功能的主要体现者，其相互之间均以一种明确设定的方式相互作用来协调几乎所有的细胞过程，以获得相对完整的蛋白质互作映射，同时构建一个或若干个蛋白质互作网络，实现从系统水平上直观可见地研究组织功能，进而发现人类疾病的致病机理并寻找基因治疗的药物靶点[1]。迄今为止，高通量的生物学实验技术则为蛋白质互作提供了相应的数据基础，虽然其中的大部分互作数据准确可靠，但不同物种之间的互作数据在质量和数量上却仍然存在较大差别。例如酵母的互作数据相对完整，而人类的缺口则较大；尤其是，在已有的数据中还会包含着数量不等的错误互作。基于以上分析，为了克服生物学实验方法劳动量大、花费高、费时多和数据冗余等缺点，研究引入了计算方法以修补互作数据。目前，针对已有的蛋白质互作数据和不同的生物学背景知识或假设，已经设计了大量的计算方法[2]。但却有许多计算方法面临着如下三个问题的困扰，具体表述为：

（1）健壮性。同一种计算方法基于不同物种、特征和数量的互作数据集时，预测结果的稳定性波动较大，尤其在原始蛋白质互作网络中存在假阳性互作干扰的情况下。

（2）可信性。计算方法是基于某种生物学知识或假设对蛋白质互作进行预测或评估，这些生物学背景可能只是针对特别的物种和某种特征的数据集合保持有效，而对另外一些数据却会失去效用，也就是其预测结果只是在一定程度上才能成立。

（3）可执行性。通常，计算方法在使用时要设置参数，有时还要根据数据集的具体情况调整设置，使用起来相对复杂。

例如，有一类计算方法根据遗传信息的相似性来预测蛋白质互作。即由蛋白质A和B互作，而蛋白质B与C遗传信息相似，则即可推断蛋白质A与C趋向互作。但在推断该结论时却可能遭遇如下问题：

（1）这个生物学假设未必成立，正如蛋白质复合物中的蛋白质倾向发生互作，但在复合物中的每对蛋白质之间却不一定都能表现为互作。

（2）假如当这个生物学背景知识成立时，那么蛋白质B与C要在多大程度上相似才可做出如上推断，却还没有找到统一标准，而且也会难于确定。

（3）如果蛋白质A与B是假阳性互作，那么推断出的蛋白质A与C在很大程度上也可能是假阳性互作。通常而言，相似度是一个设定的阈值，若其设定值较高，则预测标准也较为严格，对原始数据要求亦会较高，预测的互作数量较少但可信度却会很高；反之，则预测的互作数量较大而假阳性互作也会较多。相应于以上问题的出现，本文即提出一种能够获取蛋白质可靠互作预测的框架模型。

1预测可靠互作的框架模型

1.1整合多种方法模式第4期杨雷，等：基于宽进严出策略的可靠蛋白质互作预测框架模型智能计算机与应用第4卷

为了保证生物学背景知识或假设对已知数据集的准确可靠性，可以采用引入或结合多种生物学知识的方法，现给出两种主要模式，具体如图1所示。其中，图1（a）表示基于已知蛋白质互作数据集，采用一种计算方法，而引入多个生物学知识或特征信息，并在满足背景知识时即可产生预测集合。图1 （b）则表示分别采用多种计算方法产生一个预测候选集合，又针对候选集合引入多个评估方法，而当满足所有评估方法时，将会确定最终的预测集合。这两种模式产生的蛋白质互作均已满足多种生物学背景知识，且其预测可靠性也较高。但是，两种模式却也存在着一定的缺点。图1（a）的模式要满足多种生物学知识，也要确定各个背景知识之间的关联关系，具体操作较为复杂；同时，适应不同特征的互作数据集性能也会较差，容易产生预测过拟合，并导致预测困难。而图1（b）的模式用于产生预测候选集合虽然并不困难，但在满足多种评估方法时却会容易去除真阳性互作；而且，多种方法如何组合也仍然需要更为详细而深入的研究探讨。

1.2宽进严出框架模型

本文建立的宽进严出框架模型是基于图1（b）模式并施以限定条件的改进，即在产生候选集合中只选用一种预测方法，而在评估候选集合时则需根据预测候选集合的可靠性，选择一到四种评估方法。而且，基于已知的蛋白质互作数据，该模型的运行实现则可分为如下两步：

（1）宽进。首先基于某种生物学知识或假设产生预测候选集合，并在预测的过程中适当放宽方法限定，包括方法中的阈值参数，以利于产生数量相对较多的蛋白质互作。宽进步骤可以有针对性地简化预测方法，达到使用简便的目的。

（2）严出。采用一个或多个生物学知识或假设的评估办法，设置相对严格的过滤限定阈值参数，对预测候选集合进行筛选。这样获得的预测结果即会同时满足多个生物学意义要求，从而达到预测结果可信的目的。

宽进严出框架是一个通用的策略模型，可以组合多种计算方法来预测蛋白质互作。根据预测方法所采用的生物学背景知识或假设的可靠性程度，可将其分为四个等级，即优、良、中和差。其中，对于预测可靠程度较高的互作，即可采用较少的评估方法进行修正；反之，则需要采用较多的评估方法予以修正。因此，对于每种可靠等级产生的预测，就需要引入数量不等的评估方法以确保预测结果的准确性，具体实现如图2所示。虽然评估方法越多，产生的蛋白质互作预测越可靠，但却并不能过多采用，因为这样极易去除真阳性互作。通过预测方法的可靠性评级，而且结合适量的评估方法，即能获取高可靠的蛋白质互作。

2宽进严出框架的使用原则

在使用宽进严出框架模型前，首先要确定预测蛋白质互作方法的可靠性等级，然后根据可靠性等级选择评估方法的数量。而且，通过预测方法所采用的生物学背景知识，所有计算方法预测都将分配在前三个可靠等级中。当蛋白质互作原始数据的可靠性稍弱时，计算方法的预测级别就会随之降低一级；也就是说，只要作为基础的互作数据相对可靠，所采用的评估方法将不会超过三个。另一方面，采用评估方法的数量也与预测方法中的阈值设定有关。如果预测方法中设置了较严格的阈值，那么可靠性级别就会提高，从而减少选择评估方法的数量；反之，则会增加评估方法的选择数目。通常，为了避免评估方法选择和使用的复杂性，其数量一般不会超过四个。

在确定预测方法后，选择评估方法时则要遵循一个重要原则：预测方法和评估方法之间要满足兼容性，而评估方法之间则要满足互补性。如果评估方法和预测方法不兼容，那么修正预测的互作时，评估方法就会将预测互作的大部分施以去除处理。如果用两种预测交叠率极低的方法相互验证，就几乎不会产生任何互作结果。因此，在使用宽进严出框架预测蛋白质互作前，就需要知道每种预测方法所依据的知识或假设的可信强度，以及使用方法所涉及的信息和适用范围。

3基于宽进严出框架的预测和评估方法综述

在使用宽进严出框架预测蛋白质互作前，首先要确定每种预测方法基于知识或假设的可信强度，然后确定方法之间的兼容性和互作性。而在时下的众多文献中，预测蛋白质互作方法分类却有所不同，例如在文献[3]中，从结构、基因组和生物学相关性三方面实现了分类。根据这三种分类，本文即将预测可信强度划分为与之对应的一到三级，分别是基于结构的互作预测可信度为优，基于基因信息的预测方法为良，其它的基于生物学知识方法则为中。图3就随之列举了宽进严出策略模型的使用实例。

3.1预测方法的可靠等级

在预测互作部分中，基于结构[4]（structures）和域[5]（domains）的方法可信级别为优，基于序列（sequence）信息（包括基因比对，基因签名和基因融合等）[6]和共进化[7]（co-evolution）可信级别为良，而基于拓扑结构属性[8]（topology）可信级别则为中。而机器学习方法即可以用这些生物学知识作为特征，利用已知互作数据作为训练集进行预测。例如，Bayesian网络[9]、马尔科夫模型方法[10]、随机森林决策[11]和支持向量机[12]等。

3.2评估方法的兼容性

在评估蛋白质互作过程中，上面提到的生物学知识、假设和机器学习方法也可以用来评估。除此以外，生物学的可靠性测度还包括：分子功能和细胞位置[13]、基因本体论（GO）术语注释[14]、蛋白质复合物[15]和基因表达[16]；网络拓扑测度更包括：局部测度IG1[17]，IG2[18]和聚类系数[19]，表达功能一致性的邻居测度CD-Dist[20]和FSWeight[21]，路径替换测度IRAP[22]。只是每种评估方法都有其对应的局限性和适用范围，即一定的针对性。比如，GO注释几乎兼容大部分预测方法，但本身注释并不完全；基因共表达方法并不适用于对直接物理互作的评估；而蛋白质复合物评估方法与酵母双杂交方法获得的蛋白质互作交集很小，也不能混用。通常情况，拓扑类方法与其它生物学方法兼容性较好，因此可以选择性使用。

4结束语

为了获取高质量的蛋白质互作预测，本文提出了一种基于宽进严出策略的预测蛋白质互作的框架模型。该框架模型提供了一种可以整合多种计算方法预测互作的原则，即要满足方法间的兼容性和互补性。在使用该框架时，根据计算方法的预测背景知识进行可信度分级，以此为依据选择评估方法的类型和数量。在基于已知互作数据预测时，多个方法可以同时发挥作用，其优点表现在：

（1）每种方法均可以进行简化，根据自己的角色放宽或加强参数设置。

（2）多个方法共同对抗原始互作数据集中存在的噪声，达到预测稳定。

（3）预测结果满足多种生物学意义，更加可靠。

在文献[23]中，其预测蛋白质互作的实质采用了宽进严出框架模型。在宽进步骤中，应用团（极大完全子网）预测蛋白质互作，而在严出步骤使用GO术语进行评估修正。由于团的结构极为严格，并且在阈值选择上采用了最高限度（仅差一边），所以可靠等级为优。预测过程比较简单，结果可靠，能够克服拓扑方法预测的不稳定问题。从另一方面讲，该框架模型以牺牲预测的数量来换取预测的准确性，这种牺牲对于计算方法补充实验方法获得的互作数据是值得的。

参考文献：

[1]SCHRATTENHOLZ A，SOSKIC V.What does systems biology mean for drug development？ [J]Current Medicinal Chemistry， 2008，15（15）：1520-1528.

[2]THEOFILATOS K A，DIMITRAKOPOULOS C M，TSAKALIDIS A K，et al.Computational approaches for the prediction of protein-protein interactions： a survey [J].Current Bioinformatics， 2011，6（4）：398-414.

[3]SKRABANEK L，SAINI H K，BADER G D，et al.Computational prediction of protein-protein interactions [J].Molecular Biotechnology， 2008，38（1）：1-17.

[4]ALOY P，BOTTCHER B，CEULEMANS H，et al.Structure-based assembly of protein complexes in yeast [J].Science， 2004，303（5666）：2026-2029.

[5]NYE T M W，BERZUINI C，GILKS W R，et al.Statistical analysis of domains in interacting protein pairs [J].Bioinformatics， 2005，21（7）：993-1001.

[6]MARCOTTE E M，PELLEGRINI M，NG H L，et al. Detecting protein function and protein-protein interactions from genome sequences [J].Science，1999，285（5428）：751-753.

[7]LEWIS A C F，SAEED R，DEANE C M.Predicting protein-protein interactions in the context of protein evolution [J].Molecular Biosystems，2010，6（1）：55-64.

[8]LIU G M，LI J Y，WONG L S.Assessing and predicting protein interactions using both local and global network topological metrics [J].Genome Informatics，2008，21：138-149.

[9]ASTHANA S，KING O D，GIBBONS F D，et al.Predicting protein complex membership using probabilistic network reliability [J].Genome Research， 2004，14（6）：1170-1175.

[10]LETOVSKY S，KASIF S.Predicting protein function from protein/protein interaction data： a probabilistic approach [J].Bioinformatics， 2003，19：i197-i204.

[11]QI Y J，KLEIN-SEETHARAMAN J，BAR-JOSEPH Z.Random forest similarity for protein-protein interaction prediction from multiple sources [J].Pacific Symposium on Biocomputing， 2005，2005：531-542.

[12]BEN-HUR A，NOBLE W S.Kernel methods for predicting protein-protein interactions [J].Bioinformatics，2005，21：I38-I46.

[13]PARK B，HAN K.A reliability measure of protein-protein interactions and a reliability measure-based search engin [J].Computer Methods in Biomechanics and Biomedical Engineering， 2009，13（1）：97-104.

[14]MAHDAVI M A，LIN Y H.False positive reduction in protein-protein interaction predictions using gene ontology annotations [J].Bmc Bioinformatics， 2007， 8：262.

[15]EDWARDS A M，KUS B，JANSEN R，et al.Bridging structural biology and genomics： assessing protein interaction data with known complexes [J].Trends in Genetics，2002，18（10）：529-536.

[16]YANO K.Improved prediction of protein interaction from microarray data using asymmetric correlation [J].Proceedings of the International Conference on Computational Science （Iccs）， 2011，4：1072-1081.

[17]SAITO R，SUZUKI H，HAYASHIZAKI Y.Interaction generality， a measurement to assess the reliability of a protein-protein interaction [J].Nucleic Acids Research， 2002，30（5）：1163-1168.

[18]SAITO R，SUZUKI H，HAYASHIZAKI Y.Construction of reliable protein-protein interaction networks with a new interaction generality measure [J].Bioinformatics， 2003，19（6）：756-763.

[19]GOLDBERG D S，ROTH F P.Assessing experimentally derived interactions in a small world [J].Proceedings of the National Academy of Sciences of the United States of America，2003，100（8）：4372-4376.

[20]BRUN C，CHEVENET F，MARTIN D，et al.Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network [J].Genome Biology，2004， 5（1）：R6.

[21]CHUA H N，SUNG W K，WONG L.Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions [J].Bioinformatics， 2006，22（13）：1623-1630.

[22]CHEN J，HSU W，LEE M L，et al.Increasing confidence of protein interactomes using network topological metrics [J].Bioinformatics， 2006，22（16）：1998-2004.

[23]YANG L，TANG X L.Protein-protein interactions prediction based on iterative clique extension with gene ontology filtering [J].The Scientific World Journal，2014，2014：523-634.

智能计算机与应用2014年4期

智能计算机与应用的其它文章: 基于位置的社交网络研究综述; 一种电磁场运动模拟仿真软件的开发; 基于FPGA的8位移位相加型硬件乘法器的设计; 基于移动用户体验的APP设计; 单帧模式卫星上行站网络管理平台及值班室互动全景的仿真应用; 基于ASP.NET MVC的物料管理系统设计与开发