董自健 宋铁成 袁 创
(1东南大学信息科学与工程学院, 南京 210096)(2淮海工学院电子工程学院, 连云港 222005)(3香港理工大学医疗科技及信息学系, 香港)
基因调控网络(GRN)结构的推导对理解基因功能和复杂疾病的致病原因至关重要.基因调控网络的推断需要识别出基因之间的相互作用,而仅使用实验方法确定基因之间的相互作用需要进行大量的实验.由于计算技术和计算能力的快速提高,现在通常不是单纯使用实验手段,而是根据有限的实验数据,使用统计方法推断基因调控网络.
由于引入了扰动信息,基因扰动技术可有效提高GRN推断的精度.基于基因表达数据,可以把基因调控网络建模为图结构[1], 其中基因用节点表示,节点之间的边表示基因之间的调控关系.另外高斯图模型[2]、线性回归模型等[3]都可以用于基因调控网络的推断.但这些方法的准确度都不高.结构方程(SEM)模型也可用于推断基因调控网络[4-5],如Logsdon等[5]使用SEM对基因网络进行建模,并使用Adaptive Lasso (AL-based)算法推导网络参数.通过仿真,作者认为AL-based算法优于已有的其他各种算法.
基于基因表达和eQTLs数据,本文把基因调控网络建模为SEM结构.由于这2类数据均已知,故不存在潜变量,因此本文把SEM模型转化为验证性因子分析(CFA)结构,并进而简化为线性回归模型.为降低算法对数据的敏感性,本文使用贝叶斯推断方法代替常用的最大似然以及各种Lasso方法求解线性回归模型;为了降低计算量,不使用通常的马尔科夫-蒙特卡洛(MCMC)方法,而是采用变分逼近方法(VAM)进行贝叶斯推断.仿真结果表明CFA模型和VAM算法都是有效和可靠的.VAM算法的性能较好,在误检率和检测率上都远高于AL-based算法;与最大似然等方法相比,变分逼近方法无需准确估计初始参数,对数据适应性较好.
假设有Ng个基因,Nq个标记,N个测量样本.基因网络结构服从如下结构方程模型:
Y=AX+BY+ε
(1)
式中,Y为Ng×N矩阵,其中ykj为基因k在第j次测量中所获得的表达数据;B为Ng×Ng矩阵,包含所有的网络参数;X为Nq×NeQTLs数据矩阵,Nq≥Ng;A为Ng×Nq矩阵,表示每个eQTLs对每个基因的影响;ε为Ng×N矩阵,其中εkj表示第j次测量中基因k的表达误差.
假设基因自身不存在相互作用,因此矩阵B的对角元素值为0.另外,假设所有的eQTLs位点已根据已有的方法确定出来,但是每个eQTLs的影响未知,因此A中有Nq个位置已知的未知参数,剩下的NgNq-Nq个元素都是0.不失一般性,假设Ng=Nq.
式(1)中所有未知参数都在B和A中,因此模型可变为
Y=ΛΩ+ε
(2)
式中,Λ=[BA],Ω=[YX]T.现在模型已变为一类特殊形式的SEM模型,即CFA模型.将式(2)作如下分解:
(3)
由于已知数据均在Ω和Y中,所以可逐行求解Λ中参数,因此问题分解为
Yk=ΛkΩ+Υkk=1,2,…,Ng
(4)
假设Λ矩阵稀疏,即Λ中大部分数据为0,因此可假设Λ中所有参数服从均值为0的高斯分布,且Υk服从N(0,σ2I).
将式(4)转化为
(5)
式中,Ωj为Ω的第j行参数,D=2Ng.现在问题转化为一个标准的线性回归问题.如前所述,在贝叶斯推断中,如果采用MCMC方法,在变量较多的情况下,计算量将非常大.因此本文使用变分逼近替代MCMC方法用于网络调控参数的推断.变分逼近技术已得到很多应用,如Logsdon等[6]和Carbonetto等[7]把该方法用于多位点的基因组关联分析.
根据变分理论[8],限制p(θ|Ω,Yk,υ(m))≈q(Λk,Zk),且q(Λk,Zk)可分解为
(6)
其中,每个分项可表示为如下形式[9]:
(7)
根据变分逼近理论可得出迭代参数为[7,10]
(8)
(9)
(10)
为考察基因k和基因j之间的关系,还需判断每个参数(Λkj)是否包含在模型中,即计算
(11)
该积分计算非常复杂,需要近似计算.已知p(zkj=1|Ω,Yk,θ)=αkj,为了计算Λkj是否包含在模型中,需要根据式(11)计算其后验概率.这里使用重要性抽样,即
(12)
式中,w(υ(m))为重要性抽样系数,
(13)
式(13)中的p(Yk|Ω,υ)很难计算,Carbonetto等[7]使用Jessen不等式获得了其下界:
(14)
式中,αk.×μk表示αk和μk两个行向量的点乘.在计算时可使用这个下界代替p(Yk|Ω,υ).
(15)
算法具体过程如下:
输入:X,Y,抽样样本序列{sπ,sσ,sΛ},以及α(0),μ(0),ξ.
1 根据式(2)计算Ω;
3 fork=1∶Ng(对调控参数矩阵逐行求解)
form=1∶M
置υ=υ(m);令flag=1;根据式(8)计算s2;
while flag
forj=1∶D
根据式(9)、(10)分别更新μkj和αkj
endj;
end while
endm
根据式(13)、(14)获得重要性系数w(υ(m));
根据式(12)获得后验概率p(zkj=1|Ω,Yk);
根据式(15)计算调控网络参数Λk;
endk
本文分别仿真了含有30个基因的有向无环和有向有环网络.每个基因节点平均有3条边,即NE=3.如果从节点j到节点k有边,则从(-1,-0.5)∪(0.5,1)中均匀抽样;否则Bkj置为0.eQTL中每个xij以概率(0.25,0.5,0.25)从集合 {1,2,3}中抽取.测量噪声服从N(0,0.1)分布.不失一般性,设A为单位阵.Y通过式 (1)计算获得.在仿真中,如果算法返回的p(zkj=1|Ω,Yk)>0.95,且Λkj>0.10,则认为从节点j到节点k之间有一条边,其他情况均判为2个节点之间无调控关系.
本文主要与AL-based算法在检测率和误检率上进行性能比较,图1给出了仿真结果.可以看出,在检测率和误检率2个方面,VAM算法均优于AL-based算法.
图1 VAM算法在30个基因调控网络中的性能
本节使用VAM算法对一酵母基因网络进行推断.数据来自对酵母菌株BY4716和RM11-1A进行交叉实验所获得的112组基因表达数据,以及基因标记数据[11].数据中共包含5727个基因.由于测量数据样本有限,且存在一定的误差,不可能用这些数据较为准确地推断出全部5727个基因之间的调控关系,因此需要使用预处理技术,选择具有较强表达数据差异的基因进行分析[5].本文采用Logsdon等[5]提供的经过预处理的基因表达数据以及相应的eQTLs数据进行网络参数推导.这些数据共包含35个基因的相关测量数据,具体酵母基因名称见图2.
图2 部分酵母基因调控网络结构图
所推导的调控网络结构如图2所示.其中8个基因与其他基因之间没有相互关系,其他27个基因之间有43条有向边.实线表示基因之间是正调控,共18条,其中ORC5与NUP60之间有相互作用的正调控;虚线表示负调控,共25条边.
为了验证算法推导的结果,本文使用YEASTRACT网站的Generate Regulation Matrix工具[12],得到了包含上述35个基因的调控网络图,其中包含3个基因调控对,分别是HAL9调控HIM1[13], PHD1调控YEL073C[13],PHD1调控FYV6[14],这些基因调控关系都经过已有实验验证.VAM算法推导出的43条边中,包含了HAL9调控HIM1和PHD1调控YEL073C这2组调控关系对.
本文把基因调控网络建模为没有潜变量的验证性因子分析模型,并把模型分解为线性回归模型,逐行求解.在处理线性回归模型时,首先采用变分逼近技术推导参数的后验概率分布,在此基础上,使用重要性抽样技术计算参数包含在线性模型中的后验概率,并得出网络参数的加权平均.将VAM算法与AL-based算法进行比较,验证了VAM算法的有效性和可靠性.最后使用实验数据,针对一种酵母基因调控网络进行了推导,得出了一个具有43条边的参考基因调控网络结构.
)
[1] Friedman N. Inferring cellular networks using probabilistic graphical models [J].Science, 2004,303(5659):799-805.
[2] Schafer J, Strimmer K. An empirical Bayes approach to inferring large-scale gene association networks [J].Bioinformatics, 2005,21(6):754-764.
[3] Schafer J, Strimmer K. A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics [J].StatisticalApplicationsinGeneticsandMolecularBiology, 2005,4(1):1175-1189.
[4] Xiong H, Choe Y. Structural systems identification of genetic regulatory networks [J].Bioinformatics, 2008,24(4):553-560.
[5] Logsdon B A, Mezey J. Gene expression network reconstruction by convex feature selection when incorporating genetic perturbations [J/OL].PLoSComputationalBiology,2010,6(12). http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1001014.
[6] Logsdon B A, Hoffman G E, Mezey J G. A variational Bayes algorithm for fast and accurate multiple locus genome-wide association analysis [J/OL].BMCBioinformatics, 2010,11. http://www.biomedcentral.com/1471-2105/11/58/.
[7] Carbonetto P, Stephens M. Scalable variational inference for Bayesian variable selection in regression, and its accuracy in genetic association studies [J].BayesianAnalysis, 2012,7(1):73-107.
[8] Jordan M I, Ghahramani Z, Jaakkola T S, et al. An introduction to variational methods for graphical models [J].MachineLearning, 1999,37(2):183-233.
[9] Attias H. Independent factor analysis [J].NeuralComputation, 1999,11(4):803-851.
[10] Beal M J. Variational algorithms for approximate Bayesian inference [D]. London: University of London, 2003.
[11] Stranger B E, Forrest M S, Dunning M, et al. Relative impact of nucleotide and copy number variation on gene expression phenotypes [J].Science, 2007,315(5813):848-853.
[12] Knowledge Discovery & Bioinformatics Research Group.YEASTRACT [EB/OL]. [2013-03-10]. http://www.yeastract.com/index.php.
[13] Lee T I, Rinaldi N J, Robert F, et al. Transcriptional regulatory networks in Saccharomyces cerevisiae [J].Science, 2002,298(5594):799-804.
[14] Borneman A R, Leigh-Bell J A, Yu H, et al. Target hub proteins serve as master regulators of development in yeast [J].GenesandDevelopment, 2006,20(4):435-448.