基于序列的蛋白质相互作用预测方法研究进展

2020-02-19 12:16:05孙晶京

云南化工 2020年9期

孙晶京

（山西农业大学文理学院，山西太谷 030801）

蛋白质是生物大分子，可以与其他各种分子相互作用，如DNA、RNA、小的配体和其他蛋白质。这些相互作用是促进细胞中大多数生物学过程的主力，包括基因表达，细胞生长、增殖，营养吸收，形态，运动性，细胞间通讯以及细胞凋亡。在分子水平上了解这些相互作用对于开发新的治疗方案，注释蛋白质功能，研究疾病的分子机制以及描述蛋白质相互作用网络非常重要。因此蛋白质的相互作用（PPI）预测得到了研究人员的广泛关注，并提出了很多方法，包括物理化学实验方法和计算方法。物理化学实验技术可以识别蛋白质之间的物理化学相互作用，进而可以预测蛋白质之间的功能关系。这些技术包括基于酵母双杂交的方法、免疫共沉淀、串联亲和纯化、蛋白质芯片和混合方法等。尽管这些技术已经成功地鉴定了几种物种的几种重要的相互作用蛋白，如酵母和拟南芥等，但是，实验方法在检测PPI方面存在费时费力、检测效率低、难以识别弱相互作用等缺点。因此，人们开始寻求一些新的计算方法来验证实验结果并加速对未知蛋白质相互作用的预测。

1 计算方法

近年来，已提出许多用于预测蛋白质相互作用的计算方法。这些方法可以分为两类：基于结构的预测和基于序列的预测。基于结构的预测方法受到由实验确定的蛋白质结构相对较少的约束，相反，基于序列的预测方法只需要蛋白质序列即可预测蛋白质相互作用。因此，本文主要介绍基于序列的PPI预测方法的研究进展。

基于序列的PPI预测方法主要是利用氨基酸（AA）特性，比如疏水性，理化特性，进化谱，AA组成，AA平均值或滑动窗口上的加权平均值等。可以分为统计方法和机器学习的方法。

1.1 基于统计的预测方法

1.1.1 镜像树

Pazos和Valencia［1］提出的镜像树是一种基于统计的方法，基于相关蛋白质家族序列之间进化距离的比较和系统树的拓扑相似性来预测PPI。其距离来自McLachlan氨基酸同源性矩阵的残基相似性的平均值。将树之间的相似度用于构建树的距离矩阵之间的相关性。镜像树方法不需要创建系统树，而仅分析基础距离矩阵，因此，此方法独立于树的构建方法。尽管镜像树方法不需要完全测序的基因组，但要求在考虑的所有物种中都存在直系同源蛋白。所以，当更多的物种基因组可用时，可以应用的蛋白质就更少了。此外，由于距离矩阵不是系统树的最佳表示，因此基于对距离矩阵的比较可能引入一些误差。

1.1.2 共同进化差异

Liu等［2］提出了一种共同进化差异（CD）的方法来预测人类蛋白质的相互作用。该方法基于两个假设，一个是PPI对可能具有相似的替代率，另一个是，PPI更可能在相关物种之间保存。CD定义为两个蛋白质之间取代率差异的绝对值。CD方法结合了来自许多物种的相互作用蛋白对的共同进化信息。该方法未使用多元比对，因此比其他比对方法（如镜像树）花费时间更少。该方法不要求所研究物种具有直系同源性的蛋白质，但增加物种数量有利于提高方法的准确性。尽管此方法可以确定给定蛋白质对相互作用的可能性，但它不能推断相互作用的特定特征，如界面中的相互作用残基。

1.2 基于机器学习的预测方法

1.2.1 自协方差

Guo等［3］提出了一种使用自协方差（AC）和支持向量机（SVM）来预测PPI的方法。其中用AC来表征序列中相距一定距离的残基之间的相互作用。这样蛋白质序列则由一系列AC表征，然后使用AC向量作为输入，构建SVM模型。实验表明，一个AA残基与其30个邻位AA的相互作用将有助于表征PPI信息。该方法的优点是AC包含了AA残基的远程相互作用信息，这在PPI识别中很重要。

1.2.2 相似比对

Zaki等［4］提出了一种基于蛋白质一级结构成对相似性比较的PPI预测方法。每个蛋白质序列通过滑动窗口创建的AA子序列的相似值来表示。然后使用这些值作为输入，构建SVM模型。因此，蛋白质序列的相似性暗示了其同源性，也揭示了结构和功能的相似性。

1.2.3 氨基酸组分

Roy等［5］研究了氨基酸组分（AAC）在PPI预测中的作用及其常见特征（例如域、元组特征和标识产物特征）的性能。每个蛋白质对用AAC和域特征来表示。AAC以单体和二聚体特征来表示。单体特征是由单个AA特征组成，而二聚体特征是由连续AA对的特征组成。然后将这些特征离散化为二进制特征。域特征是由离散化的域名标识来表示。为了将AAC与其他基于非域序列的特征进行比较，创建了元组特征和标识产物特征。并使用三个机器学习分类器（逻辑回归，SVM和朴素贝叶斯）对提出的方法进行了评估。结果表明，AAC在不同数据集和分类器中所做的贡献几乎等同，这表明AAC包含了识别PPI的重要信息。AAC适用于任何蛋白质序列，尤其在缺乏域信息时非常有用。AAC也可以结合其他特征来提高PPI预测的能力。

1.2.4 蛋白质相互作用的通用计算机模拟预测器（UNISPPI）

Valente等［6］提出了UNISPPI方法。该方法使用20种AA理化性质的频率和组成，用于训练决策树分类器。频率特征集包括20个AA在蛋白质序列中的百分比。每个AA归入与理化性质相关的三个不同组之一，并计算每个特征的每个组的百分比，最终得到共21个组成特征，从而构建了组成特征集。结果表明，仅使用AA频率就足以预测PPI。另外，天冬酰胺，半胱氨酸和异亮氨酸的AA频率是区分相互作用和非相互作用蛋白对的重要特征。UNISPPI的主要优点是简单和计算成本低，因为少量特征用于训练决策树分类器。但是，决策树分类器通常会出现过度拟合的问题。

1.2.5 ETB-Viterbi

Kern［7］提出的ETB-Viterbi是ipHMMs中的一种具有早期追溯机制的解码算法（“交互特征隐马尔可夫模型”），该算法旨在最佳地将输入序列中相互作用的AA残基之间的长距离相关性纳入其中。它能够捕获长距离相关性以提高预测精度，且不受序列方向的影响。但是，Viterbi算法在内存和计算时间上是非常昂贵的。因为隐马尔可夫模型训练涉及Viterbi算法的重复迭代，且可能无法收敛到给定训练集的真正最佳参数集，也可能会出现过度拟合现象。

3 结语

本文对基于序列的蛋白质相互作用预测的计算技术进行了回顾，总结了几种相关的现有方法，并对它们进行了分类和比较。显然，为了达到合理的预测精度，PPI预测仍然需要大量的研究工作。在现有PPI预测方法中的特征更多关注AA理化性质，而忽略了蛋白质的生物学特性。在未来工作中，应更加关注将生物学知识纳入预测方法中。