毛伊敏 刘银萍 梁田 毛丁慧
摘 要:針对谱聚类融合模糊C-means(FCM)聚类的蛋白质相互作用(PPI)网络功能模块挖掘方法准确率不高、执行效率较低和易受假阳性影响的问题,提出一种基于模糊谱聚类的不确定PPI网络功能模块挖掘(FSC-FM)方法。首先,构建一个不确定PPI网络模型,使用边聚集系数给每一条蛋白质交互作用赋予一个存在概率测度,克服假阳性对实验结果的影响;
第二,利用基于边聚集系数流行距离(FEC)策略改进谱聚类中的相似度计算,解决谱聚类算法对尺度参数敏感的问题,进而利用谱聚类算法对不确定PPI网络数据进行预处理,降低数据的维数,提高聚类的准确率;第三,设计基于密度的概率中心选取策略(DPCS)解决模糊C-means算法对初始聚类中心和聚类数目敏感的问题,并对预处理后的PPI数据进行FCM聚类,提高聚类的执行效率以及灵敏度;最后,采用改进的边期望稠密度(EED)对挖掘出的蛋白质功能模块进行过滤。在酵母菌DIP数据集上运行各个算法可知,FSC-FM与基于不确定图模型的检测蛋白质复合物(DCU)算法相比,F-measure值提高了27.92%,执行效率提高了27.92%;与在动态蛋白质相互作用网络中识别复合物的方法(CDUN)、演化算法(EA)、医学基因或蛋白质预测算法(MGPPA)相比也有更高的F-measure值和执行效率。实验结果表明,在不确定PPI网络中,FSC-FM适合用于功能模块的挖掘。
关键词:不确定数据;蛋白质相互作用;谱聚类算法;模糊C-means;功能模块;期望稠密度
中图分类号:TP399
文献标志码:A
文章编号:1001-9081(2019)04-1032-09
Abstract: Aiming at the problem that Protein-Protein Interaction (PPI) network functional module mining method based on spectral clustering and Fuzzy C-Means (FCM) clustering has low accuracy and low running efficiency, and is susceptible to false positive, a method for Functional Module mining in uncertain PPI network based on Fuzzy Spectral Clustering (FSC-FM) was proposed. Firstly, in order to overcome the effect of false positives, an uncertain PPI network was constructed, in which every protein-protein interaction was endowed with a existence probability measure by using edge aggregation coefficient. Secondly, based on edge aggregation coefficient and flow distance, the similarity calculation of spectral clustering was modified using Flow distance of Edge Clustering coefficient (FEC) strategy to overcome the sensitivity problem of the spectral clustering to the scaling parameters. Then the spectral clustering algorithm was used to preprocess the uncertain PPI network data, reducing the dimension of the data and improving the accuracy of clustering. Thirdly, Density-based Probability Center Selection (DPCS) strategy was designed to solve the problem that FCM algorithm was sensitive to the initial cluster center and clustering numbers, and the processed PPI data was clustered by using FCM algorithm to improve the running efficiency and sensitivity of the clustering. Finally, the mined functional module was filtered by Edge-Expected Density (EED) strategy. Experiments on yeast DIP dataset show that, compared with Detecting protein Complexes based on Uncertain graph model (DCU) algorithm, FSC-FM has F-measure increased by 27.92%, running efficiency increased by 27.92%; compared with an uncertain model-based approach for identifying Dynamic protein Complexes in Uncertain protein-protein interaction Networks (CDUN), Evolutionary Algorithm (EA) and Medical Gene or Protein Prediction Algorithm (MGPPA), FSC-FM also has higher F-measure and running efficiency. The experimental results show that FSC-FM is suitable for the functional module mining in the uncertain PPI network.
Key words: uncertain data; Protein-Protein Interaction (PPI); spectral clustering algorithm; Fuzzy C-Means (FCM); functional module;expected density
0 引言
蛋白质组是一个在空间和时间上动态变化的整体,其功能往往通过蛋白质之间或核酸之间的相互作用而表现出来,这种相互作用存在于机体细胞的生命活动过程中,相互交叉形成蛋白质相互作用(Protein-Protein Interaction, PPI)网络[1]。在一个PPI网络中,不同时间和空间阶段通过相互作用完成某一特定分子进程的蛋白质集合称为蛋白质功能模块[2]。大量的生物实验和计算方法实验产生了大量的蛋白质间相互作用数据,这些数据是挖掘蛋白质功能模块的基石,而功能模块对于了解细胞的功能组织结构、执行生理功能方面又是至关重要的[3],因此,挖掘蛋白质相互作用的功能模块具有重要的意义。
迄今为止,利用计算方法进行蛋白质功能模块挖掘已经是后基因组时代生物信息学领域中一个非常活跃的研究领域[4]。
根据计算机制的不同,挖掘蛋白质功能模块的算法大体分为:基于密度的聚类方法[5-6]、基于层次的聚类方法[7-8]、基于划分的聚类方法[9-10]和基于谱分析的聚类方法等。其中:基于密度的聚类方法很难对网络中大量的稀疏节点进行聚类,算法挖掘的功能模块的准确率不高;基于层次的聚类方法难以检测出节点交叠的功能模块,聚类结果对网络的噪声非常敏感;基于划分的聚类方法需要事先确定聚类数目,不能检测出重叠的功能模块;而基于图论的谱聚类算法实现简单,不局限于原始数据的分布形状,可以收敛于全局最优解[11],因此,目前谱聚类算法已成功应用于PPI网络功能模块挖掘,成为该领域的研究热点。
Madani等[12]提出了一种新的基于谱聚类的功能模块挖掘算法,用于挖掘整个PPI网络最相似的功能模块。Qin等[13]利用谱聚类方法对PPI网络模块识别进行了研究,提出一种基于PPI网络属性确定模块数的方法,并且进行了相关验证。Inoue等[14]提出了一种可调扩散矩阵谱聚类(Adjustable Diffusion Matrix-based Spectral Clustering, ADMSC)方法,该方法用于PPI网络模块划分挖掘。这些算法根据谱聚类算法中的特征向量将数据划分到不相交的类中,属于且仅属于一个类,可以自动确定聚类数目,是一种硬划分方法,不能准确反映样本间的实际关系;另计算相似度矩阵时,实验结果容易受到尺度参数的影响,导致功能模块挖掘过程中不能充分考虑节点的局部一致性和全局一致性,进而使得算法的运行效率降低以及准确性不高。为了解决谱聚类算法的硬划分问题,文献[15-16]提出将模糊C-means(Fuzzy C-Means, FCM)与谱聚类算法相结合用于蛋白质模块挖掘,利用FCM算法中的模糊因子改进谱聚类的硬划分问题,不断更新聚类中心隶属度来划分簇;但划分结果存在对初始聚类中心以及聚类数目敏感的问题,导致功能模块挖掘的过程中容易陷入局部最优,算法的预测精度降低以及特异性和灵敏度不高。然而上述研究都是将PPI网络有效地用无向图模型来描述,只关注于精确的、完全的确定图,忽略了生物信息学中的PPI网络数据以及其他的一些生物数据常常会由于实验检测方法的局限性而呈现出不确定性[17],实验结果容易受到假阳性的影响,因此,将PPI网络作为不确定图来研究更为合理。
目前从不确定性的数据中挖掘蛋白质功能模块信息越来越受到人们的关注。基于不确定模型,Zhang等[18]提出了一种在动态蛋白质相互作用网络中识别复合物的方法(an uncertain model-based approach for identifying Dynamic protein Complexes in Uncertain protein-protein interaction Networks, CDUN)用于识别蛋白质功能模块;Zhao等[19]提出了一种基于不确定图模型的检测蛋白质复合物(Detecting protein Complexes based on Uncertain graph model, DCU)算法;Halim等[20]提出了一种从不确定蛋白质网络概率图中聚类子图模块的演化算法(Evolutionary Algorithm, EA);Bano等[21]在不确定数据基础上提出了医学基因或蛋白质预测算法(Medical Gene or Protein Prediction Algorithm, MGPPA)应用于蛋白质簇的挖掘。这些方法克服了假阳性对实验结果的影响,有很好的预测精度和很强的鲁棒性,但是聚类结果的灵敏度和准确率不高。虽然基于不确定PPI网络的功能模块挖掘取得了一定的成效,但是如何有效地构建不确定PPI,如何克服谱聚类融合FCM算法对尺度参数、聚类中心和聚类数目敏感等导致的准确率、灵敏度不高以及执行效率低等缺陷,仍是亟待解决的问题。
针对以上问题,本文提出了基于模糊谱聚类的不确定PPI网络功能模块挖掘(Functional Module mining in uncertain PPI network based on Fuzzy Spectral Clustering, FSC-FM)方法。 本文主要工作为:1)利用边聚集系数构建不确定PPI网络;2)结合边聚集系数和流行距离,提出了边聚集系数流行距离(Flow distance of Edge Clustering coefficient, FEC)策略来计算蛋白质节点之间的相似度矩阵,克服了谱聚类算法对尺度参数的敏感的缺陷;3)根据基于密度的概率中心优化策略(Density-based Probability Center Selection, DPCS),优化FCM算法对初始聚类中心的选取,降低离群数据对整个数据的影响,确定聚类数目,进而提高算法的运行效率;4)利用改进的边期望稠密度(Edge-Expected Density, EED)度量来对挖掘出的模块进行过滤。實验结果表明本文方法收敛快、聚类精度高、运行效率高,聚类结果的准确率以及灵敏度较高。
1 基本概念
由于PPI网络可以模型化为一个图,节点代表蛋白质,边代表蛋白质之间的相互作用,因此,具有不确定性的PPI网络可用不确定图来表示,下面给出基本概念。
2 本文FSC-FM算法
2.1 模糊谱聚类算法
模糊谱聚类是将谱聚类与FCM算法融合在一起所得到的,其中谱聚类算法是建立在谱图划分理论基础上,将数据点看成是一个无向图G=(V,W)的顶点V,边权重的集合W={Uij}表示基于高斯核函数度量的两个数据点之间的相似度,U表示待聚类数据点间的相似度矩阵,其本质是利用相似度矩阵的特征向量以及结合FCM完成聚类。划分的准则是:子图内的相关性最大,各个子图间的相关性最小[28]。FCM算法[29]的基本思想是基于目标函数的隶属度矩阵来确定每个样本与所有簇的关联强度,不断更新聚类中心和隶属度将样本划分到与其关联强度最大的簇中完成聚类。目前,大量研究者将模糊谱聚类应用到蛋白质网络中,用于功能模块挖掘[15]24,[16]112。由于蛋白質相互作用网络本身存在的不确定性,功能模块挖掘容易受到假阳性的影响;谱聚类算法中的数据降维处理效率受到尺度参数影响较大以及FCM聚类结果受初始聚类中心、聚类数目敏感。为提高算法的执行效率、准确率、灵敏度以及避免假阳性的影响,本文提出了一种有效的挖掘蛋白质功能模块方法FSC-FM。FSC-FM方法包括:不确定PPI网络的构建、相似度改进的FEC策略、概率密度中心的DPCS策略和期望稠密度优化的EED度量。
2.2 FSC-FM方法的优化策略
2.2.1 不确定PPI网络的构建
由于受到实验检测条件的局限性以及蛋白质网络的拓扑特性,蛋白质相互作用网络和生物信息学中的一些生物数据存在不确定性,实验结果容易受到假阳性的影响。为了降低实验结果受假阳性的影响,融合不确定数据处理技术提高PPI网络功能模块预测的准确率,本文将PPI网络用不确定图来表示。通过计算PPI网络图中连接每条边的两个节点的公共邻居节点数以及选取这两个节点度的最小值,利用边聚集系数定义公式来测度每一组相互作用,构建不确定PPI网络。图1描述了如何将一个PPI网络构建成一个不确定网络,其中:图1(a)给出包含8个蛋白质和18个蛋白质间相互作用;图1(b)是构造的不确定网络,每一个相互作用的测度通过边聚集系数计算得到。构造的不确定网络由218个可能的实例网络组成。
2.2.2 相似度改进的FEC策略
针对谱聚类算法采用传统的高斯核函数来度量蛋白质节点间的相似性,仅仅能反映聚类结构的局部一致性特征,而且构造相似度矩阵时对尺度参数比较敏感,计算复杂度较高,导致执行效率和准确率降低。为了解决这问题,在不确定PPI网络中,根据蛋白质网络的拓扑特性即聚集程度以及流行距离来改进相似性度量,提出了FEC策略。
因此式(5)满足度量空间定义的基本条件,是距离度量公式。
2.2.3 概率密度中心的DPCS策略
针对FCM算法融合谱聚类用于蛋白质功能模块的挖掘,利用FCM算法中的模糊因子改进谱聚类算法的硬划分问题,不断更新聚类中心以及隶属度来划分簇,划分结果却存在对初始聚类中心以及聚类数目敏感的问题。若初始聚类中心选择存在偏差,可能会导致聚类结果与实际情况存在较大差异,挖掘功能模块容易陷入局部最优解,算法的精度以及准确率降低。本文通过计算样本数据间的几何分布紧密程度得到相应的密度中心,并将得到的样本数据密度中心代入FSC-FM算法近似模拟全体数据的初始聚类中心,对使用FEC策略的谱聚类算法预处理后的数据实现蛋白质功能模块的挖掘。该方法可以避免FCM算法陷入局部最优并且减少算法迭代次数,能够提高算法的运行效率和精度。DPCS策略算法思想如下:
由式(8)可看出,距离聚类中心点越近,对应的概率更新值就越小。当D*c<δD*1迭代停止,这样可以得到K个全局密度较大的数据点作为聚类的初始聚类中心,利用FCM聚类算法进行功能模块挖掘。如此过程,高密度样本而非边缘离群点处于类别的中心处,使得选取的类中心点尽量属于不同的类别,可以得到K个初始类别中心点,降低噪声点对实验结果的影响。根据FCM目标函数来不断迭代更新聚类中心以及隶属度,优化FCM算法对初始聚类中心敏感的问题,进而挖掘蛋白质功能模块。
2.2.4 期望稠密度优化的EED度量
随着数据的逐渐增多,图的规模也相应地增加,不确定图所蕴含的确定图数目呈指数形式增加,不确定图蕴含的确定图的期望密度的计算量是指数级的,导致子图模式在不确定图中的期望稠密度的计算十分复杂。针对此问题,基于2.1.1节边聚集系数构建的不确定PPI网络图,提出了子图在不确定图中的期望稠密度优化EED度量,充分考虑节点的邻域信息以及PPI网络内部聚集程度,降低计算复杂度,进而提高计算效率。本文利用EED优化策略对算法挖掘出的功能模块进行过滤,将低于EED阈值T的模块过滤掉,避免重复划分,提高算法的预测率。
运用这个定理,本文把指数级的期望稠密度计算量降低到了线性级。
2.3 FSC-FM方法
FSC-FM方法的具体实现步骤:步骤1 利用边聚集系数计算PPI网络中每组相互作用间的概率,从而构建不确定PPI网络图。
步骤2 根据式(5)计算PPI网络中的蛋白质节点间的相似度,计算PPI网络中每组相互作用的相似度矩阵,并采用改进相似度度量后的谱聚类算法预处理PPI数据,得到维数较低的矩阵Y。
步骤3 通过DPCS方法,获取K个初始聚类中心;以初始聚类中心为起点,不断迭代根据式(10)~(11)更新聚类中心以及隶属度,根据式(9)计算目标函数,实现网络功能模块的划分,直到所有的节点都被遍历完或与上次目标函数值进行比较的出的变化量小于阈值ε。
步骤4 根据式(12)计算挖掘的模块的密度,过滤边期望稠密度小于阈值T的模块。本文设定T=0.1。
2.4 方法分析
FSC-FM方法的计算复杂度由以下几个步骤构成:采用边聚集系数构建不确定PPI网络的时间复杂度为O(|E|);采用FEC策略改进相似性度量的谱聚类算法的时间复杂度主要取决于计算相似度矩阵以及特征分解,其中计算相似度矩阵的时间复杂度为O(N2),计算特征分解的时间复杂度为O(N),谱聚类算法的整体时间复杂度为O(N);采用DPCS策略选取初始聚类中心的FCM算法的时间复杂度主要取决于计算概率密度函数以及搜索最大值,其中计算概率密度函数的时间复杂度为O(N),搜索最大值的时间复杂度为O(N),FCM算法的整体时间复杂度为O(N2+N)即O(N2);采用EED度量过滤蛋白质功能模块的时间复杂度为O(K)。因此, FSC-FM方法的时间复杂度为O(|E|+N3+N2+K)即O(N3)。而在CDUN算法中,算法的时间复杂度主要取决于基于基因表达数据和PPI高通量数据构建的不确定PPI网络检测候选蛋白质模块以及删除高度重叠蛋白质模块,即O(KLN3);在DCU算法中,算法的时间复杂度主要取决于产生候选蛋白质集以及候选附件蛋白质,即O(KN3);在EA中,算法的时间复杂度主要取决于种群演化以及初始化算法,即O(αN3R);在MGPPA中,算法的时间复杂度主要取决于蛋白质簇形成的过程,即O(KθN3)。上述提及的L、α、R和θ分别表示基因表达时刻数、集群个数、迭代次数和数据库属性数目值。
3 实验与结果分析
3.1 实验环境
FSC-FM方法实验的编程环境为Python3.5.2;操作系统为Windows 10家庭中文版;内存12GB; CPU为Intel Core i5-4200H 2.8GHz。
3.2 实验数据集
为验证本文方法的有效性,选用蛋白质相互作用数据相对完整和可靠的酵母蛋白质相互作用网络数据作为实验数据。具体实验数据如下所示:1)酵母PPI网络数据来源于DIP数据库[30],去除重复的相互作用,该数据库包含4995个蛋白质和21554对相互作用。
2)本文采用CYC2008[31]作为已知蛋白质功能模块集,CYC2008包含408个通过生物实验预测得到的功能模块。
3)Krogan数据[32]是用串联亲和纯化来处理4562不同标签酵母蛋白质,去除自相互作用和重复相互作用后,该网络中包含3672个蛋白质和14317条可靠的相互作用。
3.3 评价指标
3.3.1 特异性、灵敏度和F-measure度量
本文使用文献[33]中的特异性(Specificity, Sp)、灵敏度(Sensitivity, Sn)和F-measure指标来进行算法评价对比。特异性是指算法识别的功能模块中成功匹配的模块在挖掘出的模块数目中所占比例,其定义为:
灵敏度是指匹配成功的功能模块在基准模块中所占比例,其定义为:
其中:TP表示算法識别的功能模块中与已知功能模块匹配程度OS(A,B)≥0.2的数量;FP表示预测功能模块中没有匹配成功的数量;FN表示基准模块中没有被成功匹配的数量。
为评估算法的有效性,对于算法挖掘出来的功能模块A和已知功能模块B之间的匹配程度通过OS(A,B)=|A∩B|2|A||B|计算得到。若识别出的功能模块A与已知功能模块B的匹配程度超过给定阈值,则称该已知功能模块被标识,本文根据文献[33]将该阈值设置为0.2。若OS(A,B)=1,则称该已知功能模块被完全标识。为了避免灵敏度和特异性所带来的偏见,采用F-measure综合评价指标来评估整体算法的性能,其计算公式如式(18)所示:
3.3.2 P值度量
随着蛋白质组学研究的深入,使得一个蛋白质与其功能注释向对应成为可能,蛋白质簇发生对于一个给定功能注释在统计学上的意义就可以通过一个超几何分布的等式来进行计算[34]:
3.4 参数影响分析
3.4.1 参数δ和ε的影响分析
FSC-FM方法中,由于参数δ和ε的取值影响实验的聚类效果,因此本文在15组δ和ε的参数取值上独立运行20次实验,取20次实验的平均值进行分析。实验使用到的参数设置如下:m=2, ρ=3。表1给出了具体参数设置情况,其中Seti代表第i组参数,Q值表示不同的F-measure值或匹配的蛋白质功能模块比例。
实验结果如图2所示。
实验结果表明,随着δ从0~0.3逐渐增大,F-measure的值在ε不同取值之下也逐渐增大,实验挖掘出的功能模块和已知的功能模块的匹配比例也逐渐增加;随着δ从0.3~0.5逐渐增大,F-measure的值在ε不同取值之下逐渐降低,实验挖掘出的功能模块和已知的功能模块的匹配比例也逐渐降低。这是因为采用DPCS策略选取合适的初始聚类中心时,算法需要多次迭代达到收敛效果,需要运行很长时间;且存在初始聚类中心选择不理想,满足条件的相互作用减少,模块识别的覆盖率降低,能够匹配的功能模块要求更加严格,功能模块识别的数量较少,算法的精确度增加,导致F-measure值和匹配比例先增加后降低。通过观察发现存在一对合理取值即ε=0.00015,δ=0.3使F-measure达到最大值0.59且匹配比例达到68.8347%。
3.4.2 阈值T的分析
FSC-FM算法中,根据改进的期望稠密度EED对挖掘出的蛋白质功能模块进行过滤,引入自定义参数T描述模块的EED阈值,由定理2,T∈[0,1]。图3显示了T取不同值,FSC-FM算法的F-measure值的变化情况。
由图3可看出,当T=0.1时,FSC-FM方法可以得到最高的F-measure值,为此,本文设定T=0.1。
3.5 FEC策略的有效性分析
为了验证FSC-FM方法使用改进的相似度FEC策略的有效性,分别基于使用FEC策略改进相似度计算的FSC-FM方法和未使用FEC策略的FSC-FM方法,在DIP数据库上进行功能模块的挖掘,实验得到的F-measure和匹配比例如图4所示。
由图4显示,使用改进相似度FEC策略的FSC-FM方法在Sn、Sp、F-measure取值和匹配的蛋白质功能模块比例都比未使用FEC策略的取值要高。具体Sn的取值比未使用FEC策略提高15.29%,Sp的取值比未使用FEC策略提高17.27%,F-measure的取值比未使用FEC策略提高5.12%,匹配的蛋白质模块比未使用FEC策略提高12.39%。实验结果说明,使用改进的FEC策略的方法的聚类效果得到了提高。
3.6 DPCS和EED策略的有效性分析
为了验证FSC-FM方法使用改进的相似度DPCS策略和EED度量的有效性,分别基于DPCS策略以及过滤模块的EED度量的FSC-FM方法和未使用这两种策略的FSC-FM方法,在DIP数据库独立执行20次进行功能模块的挖掘,实验检测结果如图5所示。
图5显示的是使用DPCS和EED策略的FSC-FM方法在Sn、Sp、F-measure取值和匹配的蛋白质功能模块比例与未使用这两种策略的对比情况,其中使用这两种策略的Sn的取值比未使用这两种策略提高12.50%,Sp的取值比未使用这两种策略提高30.86%,F-measure的取值比未使用这两种策略提高9.63%,匹配的蛋白质模块比未使用这两种策略提高7.05%。这是因为,未使用DPCS策略和EED度量的算法挖掘出的功能模块的预测结果存在过度的重叠特性,这种过度的重叠特性造成了预测结果太大而无法与一些较小的真实功能模块相匹配;相反采用DPCS选择初始聚类中心进行功能模块挖掘,对得到的功能模块采用EED度量进行模块过滤,可以避免网络数据噪声对聚类结果造成的影响,避免过度重叠划分,方法的聚类结果的特异性、灵敏度和F-measure值都較高,挖掘出的无用模块数目以及重复划分模块数目较少。实验结果说明,使用这两种策略的方法的聚类效果较优。
3.7 算法性能的比较分析
本节将FSC-FM分别从功能模块挖掘的比较分析、功能富集的比较分析以及方法运行效率的比较分析与CDUN[18]、DCU[19]、EA[20]和MGPPA[21]进行比较分析,重复迭代次数为20。实验中使用的参数设置如下:取m=2, ε=0.00015,δ=0.3, ρ=3,T=0.1。
3.7.1 功能模块挖掘的比较分析
为了验证本文方法的性能,将FSC-FM方法与其他4种算法独立运行20次,取实验结果的平均值进行分析,得到各个算法挖掘的功能模块基本信息以及实验评价指标对比分析如表2和图6所示。
在表2中,PM表示算法挖掘出的功能模块总数,Full是指已知的功能模块集中被完全标识的功能模块数。从表2可以知道,FSC-FM方法挖掘的功能模块中有254个被匹配,在所有算法中匹配数量最多,相比较而言本文方法对于挖掘蛋白质功能模块算法具有更高的效率。
图6显示各种方法在DIP数据集中识别的功能模块计算的Sn、Sp和F-measure对比分析。
由图6显示,本文方法具有较高的F-measure、Sp和Sn值,F-measure的值较CDUN、DCU、EA和MGPPA提高了192.37%、27.92%、82.98%、182.23%,本文识别的功能模块中识别正确的部分所占比例较高,因此本文方法取得了较好的优化效率。
图7显示了不同算法检测到的Elongator holoenzyme模块结果,它真实存在于酵母菌细胞内。图7(a)是该标准模块所包含的蛋白质相互作用情况,其他是不同算法的检测结果。
通过图7显示, 本文方法能够准确地挖掘蛋白质功能模块;CDUN算法识别出标准复合物中的6个蛋白质,但是也包含了4个非Elongator holoenzyme模块内的蛋白质;DCU算法识别出标准模块中的6个蛋白质,但是也包含了1个非Elongator holoenzyme模块内的蛋白质;EA识别出标准模块中的6个蛋白质,但是也包含了2个非Elongator holoenzyme模块内的蛋白质;MGPPA识别出标准模块中的5个蛋白质。实验结果表明, 本文方法在挖掘蛋白质功能模块上具有较好的聚类效果。
3.7.2 功能富集的比较分析
为了测试算法挖掘的功能模块的生物学意义,本文采用功能富集分析评价挖掘的模块的统计和生物特性。挖掘的模块的低值P-value表明该功能模块具有很高的统计学意义,将P-value的最小值对应的功能作为该功能模块的主要功能,通过给每个挖掘的模块赋予最小的P-value值对应的功能,可以识别预测功能模块的功能。若一个模块的P-value<0.01,则认为这个模块是显著的,显著的模块数量在挖掘出的模块总数中所占的比例可以很好地评价各个算法的整体性。具体各个算法性能比较分析如表3所示。
在表3中:PM表示算法挖掘出的功能模块总数,SC是具有显著意义的模块数目。本文方法FSC-FM挖掘的模块数目中显著性模块的比例达到83.20%,相对于CDUN[18]、DCU[19]、EA[20]和MGPPA[21]分别提高了66.4%、26.54%、51.19%、63.62%,由此可见, FSC-FM方法挖掘的功能模块具有很强的生物统计学意义。为了更加深入分析和全面对比,对各个算法预测得到的功能模块根据P-value区间值进行对比分析,可分为两个区间,即(0,E-10)和[E-10,0.01)。图8显示了分区间对比情况。
从图8可看出本文方法FSC-FM挖掘的功能模块中P-value 根据表3和图8分析可知,FSC-FM方法挖掘出的功能模块更具有生物意义。 3.7.3 算法效率的比较分析 为进一步分析比较本文方法FSC-FM的执行效率,将其与CDUN[18]、DCU[19]、EA[20]和MGPPA[21]在各自算法优化参数之下,在DIP数据库上运行20次,取实验的平均值来比较分析,得到各个算法的平均运行效率对比如表4所示。 在表4中,模块数量是指算法挖掘的模块规模大于3的蛋白质数目,匹配率是挖掘的蛋白质和基准模块匹配的数目比例。从表4可知, 本文方法挖掘蛋白质功能模块所需的时间相对较少,实验运行的时间复杂度较低,是508.25s。本文方法相对其他四种算法的平均运行时间都超过600s,比DCU算法执行效率提高了27.92%。由此可见, 本文方法可以应用于相对规模较大的不确定PPI网络,进而挖掘蛋白质功能模块。主要是因为, 本文方法基于不确定PPI网络,使用改进相似度度量的谱聚类算法以及融合优化初始聚类中心选取的FCM算法来挖掘蛋白质功能模块,进而采用不确定PPI网络拓扑特性的边期望稠密来过滤模块。因此, 本文方法在挖掘蛋白质模块具有很好的运行效率。 为进一步分析比较数据规模对个算法运行效率的影响,将FSC-FM方法与CDUN[18]、DCU[19]、EA[20]和MGPPA[21]在各自算法优化参数之下,在Krogan数据集上运行20次,取实验的平均值来比较分析,得到各个算法的平均运行效率对比如表5所示。 从表5可知,相对于DIP数据库上的运行结果, 各个算法在数据规模较小的Krogan数据集上的执行效率以及匹配率相对都有所提高。具体来说,CDUN算法挖掘模块的匹配率提高了1.81551%,运行时间降低了1.2479%;DCU算法挖掘模块的匹配率提高了4.4091%,运行时间降低了1.3832%;EA挖掘模块的匹配率提高了1.9076%,运行时间降低了4.8819%;MGPPA的匹配率提高了0.5321544%,运行时间降低了0.0523%;FSC-FM方法挖掘模块的匹配率提高了4.7119%,运行时间降低了5.176%。从表5可知,DCU算法和FSC-FM处理数据规模较大的数据集的执行效率相对较高,而数据规模对MGPPA的执行效率影响不大,CDUN和EA处理数据规模较小的数据集的执行效率相对较高。 综合分析表4~5,本文提出的挖掘功能模块FSC-FM方法的运行效率较高。 4 结语 本文基于不确定蛋白质相互作用网络,提出一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法FSC-FM。该方法利用边聚集系数构建不确定蛋白质网络,提高功能模块挖掘的准确率;其次采用FEC策略改进谱聚类算法中相似矩阵计算对尺度参数敏感的缺陷;通过DPCS策略优化FCM算法对初始聚类中心、聚类数目敏感的问题;采用EED度量过滤算法挖掘出的模块。为了评估方法的性能,本文将FSC-FM方法与CDUN、DCU、EA和MGPPA进行了对比,实验结果表明,FSC-FM方法具有更高的准确率、灵敏度和执行效率,识别的功能模块具有更强的生物统计意义。对蛋白质功能模块挖掘今后的研究,可以从两个方面入手:1) 深入研究PPI网络拓扑结构,综合考虑蛋白质生物信息来构建动态蛋白质网络以降低数据噪声的影响;2) 结合多元生物数据的方法以提升挖掘结果。 参考文献(References) [1] 冀俊忠, 高光轩. 基于文化算法的PPI网络功能模块检测方法[J]. 北京工业大学学报, 2017, 43(1): 13-21. (JI J Z, GAO G X. Detecting functional module method based on cultural algorithm in protein-protein interaction networks [J]. Journal of Beijing University of Technology, 2017, 43(1): 13-21.) [2] 鱼亮, 高琳, 孙鹏. 蛋白质网络中复合体和功能模块预测算法研究[J]. 计算机学报, 2011, 34(7): 1239-1251. (YU L, GAO L, SUN P. Research on algorithms for complexes and functional modules prediction in protein-protein interaction networks [J]. Chinese Journal of Computer, 2011, 34(7): 1239-1251.) [3] 倪問尹, 王建新, 熊慧军, 等. 基于不确定数据的功能模块预测[J]. 四川大学学报(工程科学版), 2013, 45(5): 80-87. (NI W Y, WANG J X, XIONG H J, et al. Research of detecting functional modules based on uncertainty data[J]. Journal of Sichuan University (Engineering Science Edition), 2013, 45(5): 80-87.) [4] 冀俊忠, 刘志军, 刘红欣, 等.蛋白质相互作用网络功能模块检测的研究综述[J]. 自动化学报, 2014, 40(4): 577-593. (JI J Z, LIU Z J, LIU H X, et al. An overview research on functional module detection for protein-protein interaction networks [J]. Acta Automatica Sinica, 2014, 40(4): 577-593.) [5] 李敏, 王建新, 刘彬彬, 等.基于极大团扩展的蛋白质复合物识别算法[J]. 中南大学学报(自然科学版), 2010, 41(2): 560-565. (LI M, WANG J X, LIU B B, et al. An algorithm for identifying protein complexes based on maximal clique extension [J]. Journal of Central South University (Science and Technology), 2010, 41(2): 560-565.) [6] KESSLER J, ANDRUSHCHENKO V, KAPITAN J, et al. Insight into vibrational circular dichroism of proteins by density functional modeling [J]. Physical Chemistry Chemical Physics, 2018, 20(7): 4926-4935. [7] ALDECO R, MARIN I. Jerarca: efficient analysis of complex networks using hierarchical clustering[J]. PLoS ONE, 2010, 5(7): 11585-11591. [8] ABEYSIRIGUNAWARDENA S C, KIM H, LAI J, et al. Evolution of protein-coupled RNA dynamics during hierarchical assembly of ribosomal complexes[J]. Nature Communications, 2017, 8(1): 492-500. [9] 雷秀娟, 高銀, 郭玲.基于拓扑势加权的动态PPI网络复合物挖掘方法[J]. 电子学报, 2018, 46(1): 145-151. (LEI X J, GAO Y, GUO L. Mining protein complexes based on topology potential weight in dynamic protein-protein interaction networks [J]. Acta Electronica Sinica, 2018, 46(1): 145-151.) [10] YAO X H, YAN J W, LIU K F, et al. Tissue-specific network-based genome wide study of amygdala imaging phenotypes to identify functional interaction modules [J]. Bioinformatics, 2017, 33(20): 3250-3257. [11] 范子静, 罗泽, 马永征. 一种基于模糊核聚类的谱聚类算法[J]. 计算机工程, 2017, 43(11): 161-165. (FAN Z J, LUO Z, MA Y Z. A spectral clustering algorithm based on fuzzy kernel clustering [J]. Computer Engineering, 2017, 43(11): 161-165.) [12] MADANI S, FAEZ K, AMINGHAFARI M. Identifying similar functional modules by a new hybrid spectral clustering method [J]. IET Systems Biology, 2012, 6(5): 175-186. [13] QIN G M, GAO L. Spectral clustering for protein complexes in Protein-Protein Interaction (PPI) networks [J]. Mathematical and Computer Modelling, 2010, 52(11/12): 2066-2074. [14] INOUE K, LI W J, KURATA H. Diffusion model based spectral clustering for protein-protein interaction networks [J]. PLoS ONE, 2010, 5(9): 12623-12632. [15] 那第尔.识别蛋白质相互作用网络中的复合物[D]. 长沙: 中南大学, 2012: 22-34. (NA D E. Exploiting fuzzy spectral clustering in protein-complex detection [D]. Changsha: Central South University, 2012: 22-34.) [16] TRIVODALIEV K, CINGOVSKA I, KALAJDZISKI S. Protein function prediction by spectral clustering of protein interaction network [C]// Proceedings of the 2011 Database Theory and Application, Bio-Science and Bio-Technology. Berlin: Springer, 2011: 108-117. [17] ZOU Z N, LI J Z, GAO H, et al. Mining frequent subgraph patterns from uncertain graph data [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(9): 1203-1218. [18] ZHANG Y J, LIN H F, YANG Z H, et al. An uncertain model-based approach for identifying protein complexes in uncertain protein-protein interaction networks [J]. BMC Genomics, 2017, 18(7): 743-752. [19] ZHAO B H, WANG J X, LI M. Detecting protein complexes based on uncertain graph model [J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2014, 11(3): 486-497. [20] HALIM Z, WAQAS M, HUSSAIN S F. Clustering large probabilistic graphs using multi-population evolutionary algorithm[J]. Information Sciences, 2015, 317(1): 78-95. [21] BANO R, RAO K. Graph based gene/protein prediction and clustering over uncertain medical databases [J]. Journal of Theoretical and Applied Information Technology, 2015, 82(3): 347-352. [22] GAO Y J, MIAO X Y, CHEN G, et al. On efficiently finding reverse k-nearest neighbors over uncertain graphs [J]. VLDB Journal, 2017, 26(4): 1-26. [23] 李敏, 張含会, 费耀平. 融合PPI和基因表达数据的关键蛋白质识别方法[J]. 中南大学学报(自然科学版), 2013, 44(3): 1024-1039. (LI M, ZHANG H H, FEI Y P. Essential protein discovery method based on integration of PPI and gene expression data [J]. Journal of Central South University (Science and Technology), 2013, 44(3): 1024-1039.) [24] 黄链, 邓磊.拟-偏b-度量空间中α-φ-压缩映象不动点的存在性[J]. 西南大学学报(自然科学版), 2018, 40(3): 115-120. (HUANG L, DENG L. α-φ-contractive mappings on quasi-partial b-metric spaces [J]. Journal of Southwest University (Natural Science Edition), 2018, 40(3): 115-120.) [25] 朱镕, 邹兆年, 李建中.不确定图上的Top-k稠密子图挖掘算法[J]. 计算机学报, 2016, 39(8): 1570-1582. (ZHU R, ZOU Z N, LI J Z. Mining Top-k dense subgraphs from uncertain graphs [J]. Chinese Journal of Computers, 2016, 39(8): 1570-1582.) [26] 胡赛, 熊慧军, 陈治平, 等.基于不确定网络的关键蛋白质识别[J]. 四川大学学报(工程科学版), 2014, 46(5): 116-120. (HU S, XIONG H J, CHEN Z P, et al. Identification of essential proteins based on uncertain networks [J]. Journal of Sichuan University (Engineering Science Edition), 2014, 46(5): 116-120.) [27] 王玲, 薄列峰, 焦李成. 密度敏感的谱聚类[J]. 电子学报, 2007, 35(8): 1577-1581. (WANG L, BO L F, JIAO L C. Density-sensitive spectral clustering [J]. Acta Electronica Sinica, 2007, 35(8): 1577-1581.) [28] RAFAILIDIS D, CONSTANTINOU E, MANOLOPOULOS Y. Landmark selection for spectral clustering based on weighted PageRank [J]. Future Generation Computer Systems, 2017, 68(3): 465-472. [29] KESEMEN O, TEZEL O, OZKUL E. Fuzzy C-means clustering algorithm for directional data (FCM4DD) [J]. Expert Systems with Applications, 2016, 58: 76-82. [30] XENARIOS I, SALWINSKI L, DUAN X J, et al. DIP, the database of interacting proteins: a research tool for studying cellular networks of protein interactions [J]. Nucleic Acids Research, 2002, 30(1): 303-305. [31] PU S, WONG J, TURNER B, et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3): 825-831. [32] KROGAN N, CAGNEY G, YU H, et al. Global landscape of protein complexes in the yeast Saccharomyces cerevisiae [J]. Nature, 2006, 440(7084): 637-643. [33] 胡賽, 熊慧军, 李学勇, 等.多关系蛋白质网络构建及其应用研究[J]. 自动化学报, 2015, 41(12): 2155-2163. (HU S, XIONG H J, LI X Y, et al. Construction of multi-relation protein networks and its application[J]. Acta Automatica Sinica, 2015, 41(12): 2155-2163.) [34] LEI X J, WU S, LIANG G, et al. Clustering and overlapping modules detection in PPI network based on IBFO [J]. Proteomics, 2013, 13(2): 278-290.