一种构建动态蛋白质相互作用网络的阈值方法

2021-01-29 03:00李文彬
关键词:标准差关键阈值

李 彬,孙 静,王 希,李文彬,杨 勃,潘 理

(湖南理工学院 信息科学与工程学院,湖南 岳阳 414006)

蛋白质是组成人体一切细胞组织的重要成分,关键蛋白质更是生命活动中不可缺少的部分,常携带与重大疾病相关的基因.关键蛋白质的侦测和识别对重大疾病的发现与治疗具有重要意义.蛋白质相互作用网络(PPI 网络)由单个蛋白质通过彼此之间的相互作用构成,基于网络拓扑的方法是识别关键蛋白质的重要方法[1].由于蛋白质相互作用数据存在假阴性和假阳性[2],因此通常需要综合多种生物信息[3](如蛋白质相互作用数据、基因表达水平数据和亚细胞定位数据等)来构建更加可靠的PPI 网络.

为了集成基因表达信息,通常使用阈值方法判断蛋白质在各个时刻的基因表达活跃性.常用的阈值方法包括:固定阈值法和动态阈值法[4,5].固定阈值法使用单一阈值,可能导致整体基因表达水平值较低的蛋白质都被过滤掉,致使与之相关的相互作用信息均不能被利用.针对这一问题,3Sigma 动态阈值方法被提出[4].该方法根据蛋白质自身的基因表达水平曲线,为每个蛋白质设置一个活性阈值,大大提高了所构建PPI 网络的质量.本文在3Sigma 阈值方法的基础上,引进标准差的指数h,并通过标准差系数k和指数h共同调节蛋白质基因表达水平阈值,使得构建的PPI 网络具有更高的关键蛋白质识别率.

1 动态PPI 网络构建

在S-PPI的基础上,通过增加时间或空间条件约束来构建动态蛋白质相互作用网络(D-PPI).具体来说,对于S-PPI 中的相互作用,只有满足时间和空间条件约束才能保留在D-PPI 中.

(1)存在tk∈T,使A(i,k)=A(j,k)=1;

(2)存在lp∈L,使loc(i,p)=loc(j,p)=1.

设V1是VD的一个非空子集,以V1为顶点集、以顶点均在V1中的边为边集的子图称为GD的导出子图,记作.

2 改进的3Sigma 阈值方法

在3Sigma 阈值方法的基础上,引进一个新的参数h,将其作为标准差的指数.改进3Sigma 方法的阈值计算公式为

其中μ(i)表示蛋白质vi在m个观测时点的基因表达水平值的均值,σ(i)表示蛋白质vi基因表达水平值的标准差,th(i)表示蛋白质vi的活跃性阈值.

参数k对标准差作线性调整,参数h对标准差作非线性调整.两个参数对阈值的总体调整效果是:当蛋白质的标准差σ偏小时,该蛋白质的阈值接近均值μ;当标准差σ偏大时,该蛋白质的阈值远离均值,或者说趋近峰值.

对于式(3),当k=0 时,则蛋白质vi的阈值等于它的所有观测时点基因表达水平值的均值μ(i),即

当h=0 时,则蛋白质vi的阈值超过均值μ(i)的倍标准差,即

当h=2 时,则变为文[4]的3Sigma 阈值方法,即

3 实验与讨论

3.1 实验数据和方法

本实验蛋白质相互作用数据来自酿酒酵母蛋白质相互作用数据集(DIPdatabase)[3],该数据集共有蛋白质4746个,相互作用15166条.基因表达水平数据来自GEO数据库的酵母基因表达数据GSE3431[6],共有6667条,每条数据含有36个观测时点的表达值.亚细胞定位数据来自COMPARTMENTS数据库,本实验使用了其中11个亚细胞定位区域[7].已知关键蛋白质数据分别来自DEG、MIPS、SGD、SGDP数据集[8],本实验DIP数据集中含有1130个已知关键蛋白质.

实验采用三种常用的中心性方法度量D-PPI 中蛋白质的关键性,见表1.其中deg(i)表示顶点vi的度;Si表示顶点vi的邻居顶点集;zij=|Si∩Sj|表示包含边(vi,vj)的三角形个数,即顶点vi和vj的邻居集的交集;Ci表示GD的导出子图GD(Si),degCi(j)表示顶点vj在导出子图Ci中的度.

表1 中心性方法

3.2 实验结果与分析

分别采用DC、NC、LAC三种中心性方法,设置参数k的范围为0~5,比较参数h=-1,0,1,2,3 情况下关键蛋白质的识别数量.图1 为DC 方法的实验结果.可以看出,峰值最高的曲线均为h=0,优于曲线h=2(3Sigma 方法)的识别数量.

图1 不同h参数下DC 方法Top100~Top600中关键蛋白质识别数量

图2 为NC方法的实验结果.Top100中,曲线h=3的峰值最高.对于Top200~Top600,曲线h=0的峰值超过h=2的峰值,均优于3Sigma 方法的识别数量.

图2 不同h参数下NC 方法Top100~Top600中关键蛋白质识别数量

图3 为LAC方法的实验结果.最高峰值曲线分别为h=-1,0,1,均超过h=2时的识别数量.

图3 不同h参数下LAC方法Top100~Top 600 中关键蛋白质识别数量

综上可知,对于三种中心性方法,当参数h处于 -1~1时,关键蛋白质识别数量优于h=2时的数量.

接下来通过实验获得三种中心性方法对Top100~Top600关键蛋白质的最优识别数量.参数h的范围取-2 ~5,步长为0.1;k的范围取0~5,步长为0.1.实验结果见表2~4.例如,表2中,DC方法Top100的最高数为88,对应的参数h=0.3 和k=4.1,此时Top100~Top600的识别数目分别为88,158,218,272,320,357.

从表2~4可以看出,三种中心性方法取最优值时,参数h的范围是 -1~1.3,参数k的范围是0.9~4.2.表5 列出了文[3]中三种中心性方法的关键蛋白质识别结果.对比可知,DC 方法在Top100的关键蛋白质识别数量上提高了31.3%,在Top600上提高了9.3%;NC方法在Top100的关键蛋白质识别数量上提高了11.5%,在Top600上提高了6.7%;LAC方法在Top100的关键蛋白质识别数量上提高了5.9%,在Top600上提高了6.3%.

表2 DC 方法的最优识别结果

表3 NC 方法的最优识别结果

表4 LAC 方法的最优识别结果

表5 文[3]中三种中心性方法的识别结果(h=2,k=1)

上述实验结果表明,运用改进3Sigma 方法(调整参数h和k)构建的动态PPI 网络,在关键蛋白质识别效果上明显优于采用原3Sigma 方法(仅调整k)构建的动态PPI 网络.

4 结语

本文提出了一种改进的3Sigma 阈值方法,通过引入标准差指数h,以非线性方式调节蛋白质基因表达水平阈值.实验表明,针对DC、NC、LAC 三种中心性方法,本文构建的动态PPI 网络在关键蛋白质识别数量上明显优于现有动态PPI 网络.

猜你喜欢
标准差关键阈值
硝酸甘油,用对是关键
土石坝坝体失稳破坏降水阈值的确定方法
高考考好是关键
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
订正
Risk score for predicting abdominal complications after coronary artery bypass grafting
基于迟滞比较器的双阈值稳压供电控制电路
一种改进的小波阈值降噪方法
蒋百里:“关键是中国人自己要努力”
生意无大小,关键是怎么做?