哈尔滨医科大学卫生统计学教研室(150081)
荣志炜 王文杰 李 康△
网络既拥有简洁的表达形式,又能够阐释复杂的生物分子间的关系。目前已经有多种的网络构建方法,如基于相关系数、互信息、距离相关等相关性网络,还有可以将调控方向纳入其中的贝叶斯网络(BN)、基于lasso线性回归和随机森林(RF)[1]回归构建的网络等。由于组学数据维数高、调控关系复杂,网络构建过程中容易做出假阳性的调控关系,其中间接效应是主要问题。如图1所示,其中实线代表真实调控关系,虚线代表可能产生的间接边。变量A和变量B间存在关联,变量B和变量C间也存在关联,则即使变量A和变量C间无调控关系,建网时也可能会表现为两节点之间具有一定的关联。如图1(b)所示,各种间接效应叠加可能使得在建网时出现许多虚假的调控边。解卷积(network deconvolution,ND)和沉默算法(silencing)两种网络优化方法可用于改善间接边的问题。本研究将结合多种网络构建方法,对上述两种优化方法进行研究。
图1 原始网络与具有间接效应的网络
网络解卷积(ND)方法由Feize(2013)提出[2],它是一种可用于优化高维数据网络的方法,这种方法能够利用网络结构的信息推断网络中的直接相关,移除由于级联效应产生的间接相关边。设有N个变量,其基本原理:根据实际数据建立任意两变量的关联矩阵Gobs(如Pearson相关系数),Gobs为N×N阶矩阵,将其分解为具有直接关联和各种长度的间接关联的矩阵之和,即
(1)
可以利用矩阵的特征值分解
Gdir=UΛdirU-1
(2)
(3)
(4)
对Gobs直接进行特征值分解
(5)
结合(4)和(5)可以有如下关系
(6)
这样就可以由Gobs得到Gdir的特征值,进而可以得到矩阵Gdir。这里解卷积方法本身有两个基本假设:①间接效应是级联各直接效应的乘积;②Gobs是直接效应和所有间接效应之和。
网络沉默方法(silencing)由Barzel(2013)提出[3],也是一种高维数据网络优化方法。其基本原理:将网络看做一个动力学系统,系统达到稳定状态时各变量之间的关系
xi=fi(x1,…,xi-1,xi+1,…,xN),i=1,…,N
(7)
N为变量的数目。当xj(j≠i)产生一个小的扰动∂xj时,变量xi也会产生相应变化∂xi(i=1,…,N),于是变量xi与xj的Gdir可以用两者之间的比值来衡量
(8)
在单独考虑xj对xi的影响时,则有
(9)
根据微分学链式法则两者有以下关系
(10)
对于对角线元素,有近似的关系
(11)
其中I指单位矩阵,从而得到下面的网络沉默算法
(12)
diag(·)指取矩阵的对角线元素构成的对角矩阵。
为了真实体现基因网络数据的特点,本研究选择使用基因逆向工程评估与方法对话平台(DREAM)的研究数据[4]。DREAM5主要针对于高维静态网络,符合本研究前述两种方法的测试条件。现选取其中的三个网络数据(insilico,E.coli,S.cerevisiae)进行评价。三个网络的基本信息如下表1所示,其中E.coli是大肠杆菌的基因调控网络,S.cerevisiae是酵母菌的基因调控网络,这两个网络都有较强的实验证据支持,基因表达数据来自GEO。insilico则是利用E.coli和S.cerevisiae的子网络使用微分方程模型模拟得到[5]。
表1 DREAM5网络数据验证平台
为了能够充分评价两种优化方法的性能,选择了7种基本方法来构建网络。这7种方法涵盖了静态基因调控网络构建的常见类型,其基本情况如表2所示。
表2 7种不同网络构建方法得特点
多数建网方法首先得到的是一个关于边的权重值,然后再根据权重值来决定边的存在与否。网络评价采用基于ROC曲线和PR曲线的评分方法[4]。具体步骤:事先随机产生250000个随机网络,构建ROC曲线下面积(AUROC)和PR曲线下面积(AUPR)在零假设下的分布,由此可以计算出构建的每个网络AUROC和AUPR的p值,再计算以下的评分
i∈{in.silico,E.coli,S.aureus}
(13)
该式综合了ROC曲线和PR曲线来评价所构建的网络效果。ROC曲线下面积的计算公式为
(14)
其中TPR(k)=TP(k)/P,FPR(k)=FP(k)/N。TP(k)为建网得出的k条边在与金标准比较后正确边的数量,P为金标准中阳性边的数量,FP(k)为建网得出的k条边在与金标准比较后错误边的数量,N为金标准中阴性边的数量,c为网络边数。PR曲线下面积为
(15)
其中PRE(k)=TP(k)/k。
另外,特定的网络构建方法可能对网络中的不同结构识别效果不同[4],本研究提取出网络中三种常见的结构,分别用FFL、Core和Casc表示,结构如表3所示。其中,实线表示相应的边存在,虚线表示相应的边不存在,计算曲线下面积时是针对图中的AB边进行的,1和0分别为所用的标签值。两种优化方法作为去除间接边的方法,应该提高FFL和Core的重建能力,而不降低Casc的重建能力。本研究使用三个数据中预测最好的网络来进行网络结构分析。
表3 网络中常见的结构
各个网络的得分如图2,其中Overall表示三个网络得分的均值。结果显示,网络解卷积和网络沉默都能够提高无方向网络的性能,其中网络解卷积在Pearson相关系数、Spearman相关系数、MI和ARACNE上的表现要优于网络沉默;网络沉默在CLR上的表现优于网络解卷积,并且达到了无方向网的最高水平。对于RF建网,网络解卷积优化后网络的准确性有所提高,而网络沉默优化后则基本没有改变。对于TIGRESS,两种方法都没有能够提高其网络的准确性。
结构分析结果如图3所示。因为insilico数据网络的总体预测准确性是最好的,所以使用它做网络结构分析。可以看出,对于FFL和Core两种结构,在使用解卷积和沉默算法优化后,网络的准确度都有一定程度的提高,特别是对Core结构,两种优化算法对网络准确度的提升都很明显;但对于Casc结构则略有降低。
图2 基于7种构建网络方法优化前后评分
图3 in silico网络中三种结构网络优化后准确度的变化
网络解卷积虽然可对有方向网络进行优化,但通常是将其方向去除后对网络优化,得到的是个无方向网络,而网络沉默则可以保留网络的方向性。RF和TIGRESS是七种建网方法中对方向也进行预测的方法,其中网络沉默方法对其优化效果不明显。
对FFL、Core和Casc三种网络结构AUPR优化后有比较明显的变化。对于FFL和Core,两种优化方法都有提高,特别是对于Core,解卷积方法提高所有的网络,而沉默方法则提高了部分建网方法的准确性。注意到对Casc的优化略有下降,说明可能存在一些真实的边被当作间接效应给去除了,但下降不多。
总体上看,RF建网后解卷积优化(RF+ND)是最优的建网策略。但考虑到RF建网在建立大型网络时耗费的时间较多,并且解卷积算法需要进行参数调整,在维数较高(如m>500)的情况下,CLR建网后使用沉默算法优化(CLR+Silencing)计算量小,是一种值得考虑的建网策略。