马梦宇 胡春玲
关键词:非齐次贝叶斯网络;MCMC;边缘耦合;基因调控网络
中图分类号:TP181 文献标识码:A
1 引言(Introduction)
随着系统生物学的发展,基因调控网络逐渐成为当下生物信息学领域研究的潮流。通过了解基因之间的转录关系[1]和蛋白质信号传递级联研究生物体的基因调控网络[2],能够有效地提升基因工程药物的作用和效果。
传统的方法是使用基于改变点过程的非齐次动态贝叶斯网络(Changepoints Non-homogeneous Dynamic BayesianNetwork,CPS-DBN)[3]构建基因调控网络,CPS-DBN既能描述基因调控关系,又能描述基因调控方向,但缺点是容易导致模型过度灵活。因此,研究人员提出了具备新型分段方式的非齐次贝叶斯模型:基于隐马尔科夫模型的非齐次动态贝叶斯网络(Hidden Markov Model Non-homogeneousDynamic Bayesian Network, HMM-DBN)[4],HMM-DBN能将周期性实验数据中距离较远的时间点分配到相同的分段,克服了传统CPS-DBN会导致模型过度灵活的问题。但是,由于HMM-DBN没有限制基因调控效应强度的灵活性,使基因调控关系的调控效应强度随时间推移发生较大变化,导致每个节点都要独立推断调控关系,忽略了基因调控关系为了适应环境变化可能经历的复杂过程[5],因此影响了网络重构精度。
本文结合边缘耦合[6]的相关技术,分析了基因调控效应强度的灵活性对网络重构精度的影响,并在酵母数据集[7]和合成RAF数据集[8]上进行测试,优化了HMM-DBN,将网络重构精度提高到0.76以上。
2边缘耦合的HMM-DBN(Edge-wise couplingHMM-DBN)
为了解决HMM-DBN中过度灵活的基因调控效应强度对学习基因调控关系的影响,进而提高网络重构精度,研究人员使用参数耦合的方式将特定参数的后验期望作为回归参数的先验分布条件,用不断迭代更新的回归参数推断不同节点之间的基因调控效应强度。通过构建耦合超参数向量,使不同的时间段之间实现信息交互,在一定程度上可以限制基因调控效应强度的灵活性,从而改善网络重构精度下降的问题。例如,顺序耦合[9]就是用前一个时间分段的回归参数的后验分布数值作为求解当前时间段的回归参数的先验分布,使回归参数随时间变化保持相似,从而让基因调控效应强度仅发生较小的变化(保持稳定),使每个基因节点可以在已知的调控关系基础上推断自己的调控关系,最终降低了推理过程中的不确定性,使网络预测精度会得到显著的改善。但是,以上方法假设所有回归参数都随时间变化保持相似,导致调控效应强度总是保持稳定,从生物学角度来看,基因之间的调控效应强度并不会一直保持稳定,通常会受到来自变化的实验环境的影响。因此,顺序耦合不能完全模拟基因调控关系为了适应环境变化而经历的复杂变化过程,从而影响了网络重构精度。
本文根据KAMALABAD等[6]对于边缘耦合的非齐次贝叶斯网络的研究,提出了边缘耦合的基于隐马尔科夫模型的非齐次动态贝叶斯网络(Edge-wise Coupling Hidden MarkovModel Non-homogeneous Dynamic Bayesian Network,EWCHMM-DBN)。EWCHMM-DBN从数据中判断当前时间段的回归参数与前一时间段的回归参数是否保持相似(耦合),并根据实际状况在回归参数的先验分布里使用非耦合参数或耦合参数,从而区分稳定的调控效应强度和不稳定的调控效应强度。鉴于基因调控关系为了适应环境而经历的复杂变化过程,适当保留调控效应强度的灵活性可能是有用的。
3.2在酵母数据
集上的实验结果CANTONE等[7]于2009 年综合设计了酵母基因序列中5 个基因节点之间的调控关系构成的基因调控网络,在8 h内,用实时荧光定量PCR 在37 个时间节点测量了这些基因在酵母菌内部的表达水平,实验条件分为半乳糖和葡萄糖。酵母数据集中五个基因节点GAL80、GAL4、CBF1、ASH1和SWIS之间的基因调控网络如图3所示,箭头代表基因之间的调控关系。
图4展示了在酵母数据集上进行实验得到的EWCHMMDBN和HMM-DBN的网络重构精度,横坐标代表不同的MCMC采样迭代次数,纵坐标代表在进行200 次独立的实验后,求出的平均AUC 值。黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC 值,如圖4所示,与HMM-DBN相比,EWCHMM-DBN的平均AUC值有所提高,并达到0.76以上。
3.3在合成RAF数据集上的实验结果
对于合成RAF数据集,文献[8]综合设计了实验数据,完整的网络结构如图5(a)所示,该网络由11 个节点,即pka、pip2、p38、raf、jnk、plcg、akt、erk、pip3、pkc和mek组成,有20 条代表蛋白质相互作用的有向边。图5(b)展示了在合成RAF数据集上进行实验得到的EWCHMM-DBN和HMM-DBN的平均AUC 值,纵坐标对应经过200 次实验后得到的平均AUC 值,横坐标对应不同的模型,黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC值,与HMM-DBN相比,EWCHMM-DBN的平均AUC 值有所提升,并达到0.76以上。
4结论(Conclusion)
本研究使用边缘耦合的方式改进了传统的HMM-DBN,通过区分耦合与非耦合的基因调控关系,限制了基因调控效应强度的灵活性,使基因调控网络的推测过程更贴合生物适应环境的变化过程,提高了传统HMM-DBN的网络重构精度。在多个数据集上的实验结果表明:改进后的EWCHMMDBN优于传统的HMM-DBN,证明了过度灵活的基因调控效应强度会对网络推测结果产生影响。由于影响网络重构精度的方式不止一种,因此下一步的研究计划将针对信噪比超参数和方差超参数的求解方式,尽可能地提高模型的收敛性。
作者简介:
马梦宇(1998-),男,硕士生.研究领域:人工智能,生物信息学.
胡春玲(1970-),女,博士,教授.研究领域:人工智能,数据挖掘,生物信息学.