孙 静,李 彬,李文彬,杨 勃,潘 理
(湖南理工学院 信息科学与工程学院,湖南 岳阳 414006)
蛋白质是维持生命活动、构成生物细胞和组织的基本物质,是生物生命活动中必不可少的成分.根据蛋白质对生命活动的必要性,可将蛋白质分为关键蛋白质和非关键蛋白质两大类.关键蛋白质对于生命体是至关重要的.如果关键蛋白质被剔除,细胞就会死亡或不能正常工作[1].
通常单个蛋白质并不能发挥其作用,只有通过与其他蛋白质相互作用才具有生物学功能.因此从网络拓扑的角度来识别关键蛋白质是目前最常用的方法之一[2].基于网络拓扑的方法又可分为:基于邻域的方法、基于路径的方法和基于特征向量的方法[3]等.其中,度中心性方法(DC)[4]、局部平均连接中心性方法(LAC)[5]、节点聚类中心性方法(NC)[6]是最常用的邻域方法.在邻域方法中,存在相关性很小但差异性很大的方法(例如,LAC和DC),因此可以通过组合这些方法来提高关键蛋白质的识别率.
基于邻域的中心性方法利用节点邻居的不同特性来判断该节点的重要性,它是蛋白质相互作用网络中识别关键蛋白质的常用方法.拥有较高中心性值的节点通常被认为是蛋白质相互作用网络的关键节点,进而有更大概率成为关键蛋白质.
常用的基于邻域的中心性方法有:局部平均连接中心性方法(LAC)、度中心性方法(DC)、节点聚类中心性方法(NC)、边缘聚类系数中心性方法(ECC)等.
(1) 度中心性
度中心性DC(v)用节点v的邻居数表示该节点在网络中的重要性,即
其中deg(v)代表节点v的度,即节点v的邻居数.
(2) 局部平均连接中心性
局部平均连接中心性LAC(v)用节点v的邻域图的平均度数来描述该节点的重要性,即
其中Nv是节点v的邻居节点的集合,Cv是由Nv中的节点和连接这些节点的边所构成的子图,degCv(w)代表节点w在Cv中的度.
(3) 节点聚类中心性
节点聚类中心性NC(v)是与节点v关联的所有边的边聚类系数中心性ECC(v,u)的总和,
边聚类系数中心性ECC(v,u)用节点v和u邻域中包含边(v,u)的三角形数量与最大可能数量的比值来表示该边的重要性,即
其中zv,u表示包含边(v,u)的三角形个数.
用S-PPI表示静态PPI网络,D-PPI表示动态PPI网络,两种PPI网络的构建方法请参见文[7~9].通过实验发现,对于两种PPI网络,LAC与NC的秩相关系数最高(见表1),这说明两种方法度量值的排序较为一致;另一方面,DC与LAC在Top600中的相同蛋白质最少(见表2),这说明两种度量方法的差异性较大,即不少DC中心性排序很高的蛋白质却不在LAC的Top600中,反之亦然.
表1 三种中心性方法的Spearman秩相关系数
表2 三种中心性方法 Top600中相同蛋白质数量
基于上述分析,尝试将LAC和DC(两种差异性最大且相关性最低的方法)进行组合,通过综合LAC和DC的中心性值共同度量蛋白质的关键性,来提高关键蛋白质的识别率.我们称这种方法为基于邻域的组合中心性方法(CNC).计算公式为
其中参数α用来调节DC中心性的影响程度,α一般取0~2.
当α=0时,式(5)转化为
即LAC方法.
当α=1时,式(5)转化为
即用节点v所有邻居的总度数来度量v的中心性.
本实验采用酿酒酵母蛋白质相互作用数据集[10],包含4746个蛋白质及15166条相互作用;基因表达水平数据集[11]包含了共 6763个蛋白质3个周期,共计36个时点的基因表达水平值;关键蛋白质数据集[1,12~14]包含1285个关键蛋白质;亚细胞位置数据集[15,16]含有206831条亚细胞位置记录.
(1)静态PPI网络
针对S-PPI网络,比较CNC与LAC、DC、NC中心性方法的关键蛋白质识别数量,其中CN C方法参数α∈[0,2],实验结果如图1所示.
图1 S-PPI中四种中心性方法关键蛋白质识别数量
在S-PPI中,DC中心性方法的识别数量最低.CNC方法Top100~Top600关键蛋白质识别数量曲线的峰值对应的α值是不同的.当α∈[0.25,0.5]时,CNC的识别数量均超过LAC、DC和NC方法.表3列出了S-PPI中四种中心性方法Top100~Top600关键蛋白质识别数量的最优值及对应参数.
表3 S-PPI四种中心性方法识别数量最优值对比
与DC方法相比,CNC方法Top100和Top600关键蛋白质的识别数量分别提升了54.55%和16.89%;与NC方法相比提升了10.39%和4.74%;与LAC方法相比提升了3.65%和2.02%.
图2和图3中分别显示了S-PPI中CNC(α=0.4)与LAC、DC方法Top600中(关键)蛋白质的交集数量.
图2 三种方法Top600蛋白质交集
图3 三种方法Top600关键蛋白质交集
由图2和图3可看出,CNCTop600中(关键)蛋白质均从LAC和DC中获取,且同时存在于LAC、DC中的(关键)蛋白质全部被包含进CNC.图3中,尽管DC中有74项关键蛋白质未被CNC侦测到,但从LAC中增加了125项关键蛋白质.同样,LAC中有24项关键蛋白质未被CNC侦测到,但从DC中增加了31项关键蛋白质.因此CNC提高了关键蛋白质识别率.
(2)动态PPI网络
针对D-PPI网络,比较CNC与LAC、DC、NC中心性方法的关键蛋白质识别数量,其中3Sigma方法[17]中阈值k取0~5,α取1.5.实验结果如图4所示.
图4 D-PPI中四种中心性方法关键蛋白质识别数量
容易看出,CNC方法Top100~Top600的关键蛋白质识别数量高于DC、NC和LAC方法,但曲线峰值对应的k值是不相同的.例如,Top100的峰值在k=3.5附近,但Top600的峰值在k=2.2附近.表4列出了D-PPI中四种中心性方法Top100~Top600的关键蛋白质识别数量的最优值及对应参数.
表4 D-PPI中四种中心性方法识别数量最优值对比
与DC方法相比,CNC方法Top100和Top600的识别数量分别提升了15.38%和2.22%,与NC方法相比提升了4.65%和5.14%,与LAC方法相比提升了4.65%和3.37%.在D-PPI中,当参数α∈[0.7,1.5]时,CNC方法有较高的关键蛋白质识别数量.
图5和图6分别显示了D-PPI中CNC(α=1.5)与LAC、DC方法Top600中(关键)蛋白质的交集数量.
图5 三种方法Top600蛋白质交集
图6 三种方法Top600关键蛋白质交集
由图5和图6可知,CNC Top600中的(关键)蛋白质基本来自LAC和DC,且同时存在于LAC、DC中的(关键)蛋白质全部被包含进CNC.图6中,尽管LAC中有45项关键蛋白质未被CNC侦测到,但从DC中增加了48项;同样,DC中有46项关键蛋白质未被CNC侦测到,但从LAC中增加了54项;此外,CNC还侦测到3项不在LAC和DC中的关键蛋白质.可见,CNC方法通过整合LAC和DC方法,提高了蛋白质相互作用网络中关键蛋白质的识别率.
本文提出一种基于邻域的组合中心性方法,使用现有LAC与DC方法综合度量蛋白质节点的中心性,并通过参数α调节DC方法的影响权重.实验表明,针对S-PPI和D-PPI网络,CNC方法在关键蛋白质识别数量方面均优于现有DC、NC和LAC方法.