胡 枫,白立冰,朱祺航,刘 闯
(1. 青海师范大学计算机学院,青海 西宁 810008;2. 青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008;3. 藏语智能信息处理及应用国家重点实验室,青海西宁 810008;4. 高原科学与可持续发展研究院,青海 西宁 810016;5. 杭州师范大学阿里巴巴复杂科学研究中心,浙江 杭州 311121)
现实中存在着大量的复杂网络,如城市交通网、地铁网、社交网络等,这些网络的出现引起了学者们极大的研究热情。20世纪末,小世界模型[1]和无标度模型[2]的提出,掀起了复杂网络的研究热潮。随后,学者们利用复杂网络方法分析现实网络的拓扑特性,得到了很多显著的成果[3]-[5]。在复杂网络中,节点代表实体,边表示实体之间的关系。如在基于普通图的科研合作网络中,节点之间的连边只能表示两个作者的合作关系,无法表示由多个作者共同合作撰写一篇文章的情况,而用二部图解决上述问题,又会导致节点失去“同质性”,从而不利于分析网络的连通性、度分布等。针对这一问题,学者们发现超图中的超边可以包含任意多个节点,基于超图理论的超网络能更准确地表述现实网络的多维、群聚等特性。在基于超图的科研合作超网络[6]中,节点表示作者,超边表示文章,这样就能清晰地表示多个作者共同合作发表的文章,所以基于超图的超网络能够更全面准确地描述任意多个节点之间的高阶相互作用与影响,并保证了节点的“同质性”。
超网络理论在近几年的发展中,已获得了很多理论与实践成果。Estrada等[7]提出基于超图拓扑结构的超网络来表示多元异质网络;胡枫等[8]构建了蛋白复合物超网络模型,通过超度、子图中心性来识别网络中的关键蛋白;索琪等[9]-[11]研究了基于超网络模型的电视节目竞争关系,舆情传播模型以及超网络演化的内在驱动力等问题;张子柯等[12]建立了一种基于用户背景知识和对象,标签双重优先连接机制的超图增长模型;张正东[13]提出了基于超图理论的生物代谢网络,通过加入空点的方式,统一用高阶张量表示超图点和边的匹配情况,将超图比对问题转换为求比对得分目标函数值最大的优化问题,巧妙地解决了超图比对问题;Kong等[14]在基因水平提出动态相关超图的方法来构建模块级的三方交互网络,以反映生物系统中的全局动态相关模式,为下游基因三联体水平分析提供指导;Niu等[15]建立了一个基于超图上随机游动的微生物疾病关联预测模型;Wang等[16]提出了基于高维特征和超图学习的HFHLMDA预测方法,以揭示疾病与miRNA之间的关系。
随着复杂网络的发展,在生物信息方面,研究者借用复杂网络模型对药物成分、靶标预测等方面的研究形成了网络药理学这一分支。网络药理学[17]-[21]是将药物作用网络与生物网络整合在一起,分析药物与特定靶标或模块的相互作用关系,发现药物靶标,指导药物研发的一门新兴学科。刘西等[22]根据已知的药物-靶标交互作用构建二分图网络,并建立药物-靶标蛋白质对的关联性评价模型;史亚永[23]使用多层网络模块刻画药物靶标交互作用,进而挖掘出可能存在的所有药物候选靶标模块;Wang等[24]使用高阶药物组合信息,开发了一个超图随机游动与重启模型,用于有效的药物组合预测。药物靶标网络属于复杂网络和网络药理学交叉领域的研究范畴,传统上通常采用二部图表示该网络,如Yildrim等[25]构建了一个由药物与靶标蛋白构成的二分图网络,药物与靶标蛋白之间通过药物-靶标二元关联连接,如图1所示为药物靶标网络图表示,节点分为药物与靶标蛋白(圆形表示药物,长方形表示靶标),如果靶标蛋白为药物对应的靶标,则将药物和靶标蛋白彼此相连,产生药物-靶标网络。
图1 药物靶标网络图示[25]
在研究药物靶标二部图[25]时,往往会对其中的同类型节点进行投影而得到投影图,在投影图中可以分析最短路径,以及连通分支等特征,但是这样一来两类节点间的联络被截断,或者相关信息的遗漏会使得一些拓扑指标无法解析,如连通性、聚类系数、度分布等。因此,基于普通图的复杂网络在描绘更加复杂的关联关系时会存在着一定的限制性和二义性,而超图中的一条边能够涵盖许多节点,使其能在传递高阶信号的复杂连接时显示出更好的效果。由于超图既可以从药物角度,也可以从靶标角度入手进行建模分析,因此,本文基于超图的拓扑结构来表示多种药物及多种靶标之间的关联关系,以drugbank药物库的药物靶标数据构建两类药物靶标超网络模型,并分析实证超网络的拓扑性质,通过对比分析发现,两类药物靶标超网络均具有明显的无标度特征,并且药物倾向于连接hub靶标蛋白,功能相似的药物具有相对较高的聚类系数。
本文从DrugBank数据库中下载了截至2021年1月3日的药物及靶标信息。目前DrugBank 5.1包含了14315种药物,其中包括825个FDA批准的药物和4432个实验性药物。图2为FDA批准的药物靶标之间对应关系的数据分布图,包括825种药物和4871种靶标。大多数药物只针对一种或两种靶标(Hub靶标蛋白),但极少数药物针对较多靶标,同样地,大多数靶标(蛋白质)被少数几种的药物所靶向,小部分靶标被多数药物共同作用。
图2 药物(靶标)对应的靶标(药物)分布
随着系统生物学方法的发展和高通量数据的积累,学者们通常采用复杂网络的方法来理解疾病作用机理、预测药物靶标相互作用关系。考虑到超图能适合表达多维复杂的连接关系,本文用超网络方法对药物靶标相互作用进行建模,可以有两种建模思想:
1) 以药物为节点,靶标为超边构造药物-靶标超网络模型,可以通过定量分析靶标数量增长的演化规律,及相关拓扑指标的计算,来验证超边优先增长机制;
2) 从靶标的角度进行建模,以靶标为节点,药物为超边构建靶标-药物超网络模型。合理的建模方式可以分析药物靶标之间的交互规律,找到重要的靶标蛋白,为药物开发提供更好的建议。
在模型构建过程中,可以依据药物是否得到FDA批准划分数据集:
1) 使用FDA批准的药物及靶标来生成药物-靶标超网络(app_drug);
2) 加入实验性药物和靶标来构建新的超网络模型(app+exp_drug);
3) 以所有药物为节点构造超网络模型(all_drug);
4) 以FDA批准的药物所对应的靶标为节点,将药物作为超边,构建靶标-药物超网络模型(app_target);
5) 在数据处理过程中,发现app_target数据集在加入实验性药物后构建的靶标-药物超网络(app+exp_target)与以所有靶标为节点的实验数据集(all_target)基本一致,所以在构建加入实验性药物后的靶标-药物超网络时直接采用所有的靶标数据集(all_target)来构建。
药物-靶标超网络和靶标-药物超网络的模型构造算法如下:
1) 初始化:将超网络中的药物(靶标)标为节点vi,靶标(药物)标为超边ek,其中i=1,2,…,n,k=1,2,…,m;
2) 递归操作如下:依次遍历所有节点,若节点vi和节点vj作用于同一靶标(药物)ek,则将节点vi和节点vj添加到该超边ek中;
3) 直至所有节点遍历完毕,算法结束。
各超网络中的节点与超边数量见表1。
表1 不同数据集的超网络统计表
基于DrugBank5.1中的药物靶标数据集和2.2节的模型构造算法,建立药物-靶标超网络和靶标-药物超网络,如图3所示,左图为药物-靶标超网络局部示意图,节点表示药物,环表示一条超边,即作用某个靶标的所有药物。右图为靶标-药物超网络局部示意图。节点表示靶标,圆环表示超边,即某药物作用的所有靶标。
图3 两类超网络局部示意图
2.4.1 超网络概念
2.4.2 节点超度
在超网络H中,节点i的超度dH(i)是指包含该节点的超边数量。设超网络H的关联矩阵C=(cij)N×M,则节点i的超度dH(i)为
其中,cij为关联矩阵C的元素,若节点i包含在超边j中,cij=1,否则cij=0。依此可以研究超网络的超度分布,超度dH(i)的分布概率P(dH(i))的计算式为:
其中,Ni表示超度为dH(i)的节点数,N表示超网络中的节点数。超网络的平均超度是所有节点超度的平均值,能够描述整个超网络的性质,记为〈dH〉,即
其中,dH(i)为单个节点i的超度,N为超网络中节点的数目总和。
2.4.3 聚类系数
平均聚类系数是指在超网络中与同一节点连接的任意两个节点有超边相连的概率,Estrada等[7]给出了超网络的聚类系数C2(H)的计算式:
其中,超三角形是指一个由三个不同的节点和三条不同的超边所组成的闭合序列,该序列表示为vi,Ep,vj,Eq,vk,Er,vi,其中三个节点彼此相邻。路径长度为2指的是连接两节点所经过的超边数目为2,是形如vi,EP,vj,Eq,vk的序列,其路径中所有节点与超边都不相同。
2.4.4 连通分支
假设H=(V,E)是一个超图,连通分支是顶点X⊆V的最大集,对于所有的x,y∈X,d(x,y)≠∞,H的直径d(H)定义为
d(H)=max{d(x,y)|x,y∈V}
满足这种关系的集合是超图的连通分支,如图4所示,C1和C2为所示超图的两个连通分支。
图4 超图中的连通分支C1,C2
在药物靶标超网络中,药物为节点,靶标为超边,节点超度表示药物所针对的靶标数量;在靶标药物超网络中,靶标为节点,药物为超边,节点超度表示靶标作用的药物数量;大多数药物只作用于几种靶标,少数药物作用于大量靶标,见表2。根据表2的结果,可以得到几个具有最大超度的中心节点,一种药物作用的靶标数量越多,它应该得到的关注就越多。
表2 药物靶标与靶标药物超网络超度统计表
从表2中可以得出,app_drug平均超度是4,其中超度值小于5的节点数量为673,占总体的82%,app+exp_drug平均超度是2,超度小于3的节点数量为3679,占总体的70%,all_drug平均超度是2,超度小于3的节点数量为4004,占总体的53%。通过比较发现,各超网络中只有个别节点具有很高的超度,大多数
节点的超度很小,呈现重尾分布,说明在该超网络中绝大多数药物作用的靶标数量很少,只有个别药物对很多靶标蛋白起作用,所以这类药物可能是很关键的药物。分析实际数据集可知,在all_drug中,节点132、6789、7021、7103可能是关键节点,它们的超度值分别是144、147、191、306。上述五类数据集构造的两类超网络模型都表现出明显的无标度分布,如图5所示。
图5 各超网络的超度分布
从图5可看出,app_drug在加入实验性药物后,其超度分布仍然显示出明显的无标度分布,尽管指数值从1.49增加到1.83,但在all_drug的超度分布中,指数值恢复到1.4,幂指数先升后降表明在加入了其它标签的药物之后,药物与靶标之间的连接过程引入了更多的随机性。
聚类系数可以衡量一个网络的模块化。为了比较分析各超网络的聚类系数,通过固定连接概率的节点数量,同时保持超度分布不变,生成了每个网络的随机对照超网络。实验结果如图6所示,红色圆点表示真实数据,蓝色三角表示对照组。
图6 各超网络的聚类系数比对
在app_drug超网络中,平均聚类系数约为0.45比对照组的平均聚类系数0.02大很多倍,同样,app_target超网络的平均聚类系数0.15也比对照组0.01 大一个数量级;较高的聚类系数值主要来自于针对三个或更多靶标的药物,或由三个或更多药物同时针对的靶标。在加入实验性药物后,all_target的平均聚类系数也约为0.15,与app_target相差无几,但高于随机网络的平均聚类系数0.0023。结果表明,许多实验性药物针对的是两种以上的新靶标蛋白,且在旧靶标之间引入了新的联系。
通过对FDA批准的药物进行ATC分类(Anatomical Therapeutic Chemical,治疗学及化学分类法),构建药物靶标相互作用图。通过Gephi对功能相似的药物进行着色,见图7。图中功能相似的药物用同种颜色表示,如红色部分对应的是非性激素和胰岛素类的激素类系统用药,绿色为系统用抗感染药。功能类似的药物聚成一团,彼此之间又有联系,表明功能类似的药物具有相对较高的聚类系数。
图7 靶标分类图
与对照组随机超网络相比,两类超网络模型均表现出不同的连通分支分布,这些随机超网络模型是随机化药物-靶标蛋白关联,同时保持药物的数量和靶标蛋白的数量不变,如图8所示,红色实线为真实数据集,蓝色实线为随机对照组。
图8 各超网络的连通分支分布
为了更好地分析连通分支变化规律,统计了各超网络最大连通分支内节点数的变化情况,见表3。
表3 各超网络最大连通分支节点数统计表
从表3可知,app_drug超网络的最大连通分支占药物数目的60%,所包含的节点数明显多于由固定节点数和连接概率生成的随机超网络的最大连通分支(节点个数:825; 随机连接概率:P=0.0053),但其它药物靶标超网络的最大连通分支比对照组的小。为了解释造成这种现象的原因,收集了2005年-2020年的DrugBank数据,以年份排序,对每年FDA批准的药物数量进行统计,见图9。
图9 药物数量逐年增长图
从图9可以看出,2005-2011年数量逐年下降,表明有些被FDA批准认证的药物被剔除,当时正处美国经济危机时期,财政及技术的限制下,药物研发备受限制,很多药物停产,2011-2020年,经济危机结束,社会平稳发展,FDA批准的药物数量逐年增长。这一规律表现在app_drug连通分支分析中,表现为新节点的增加较为缓慢,有时还会减少,即连边概率不稳定,所以导致在固定节点数和同样的连边概率条件下,随机超网络中的连通分支比真实的实证网络要大;此外,加入experimental药物后,app_target与all_target超网络实验组与对照组的最大连通分支的差值由349变为1871,在加入experimental药物后,实验组最大连通分支反而变小,说明删去某些旧节点同时,新加入的药物倾向于连接hub靶标蛋白,最终导致原来的连通分支变小。
结合图7与连通分支大小的变化规律,如果大多数药物专门针对单个靶标蛋白,那么药物靶标超网络将由孤立的圈组成,超边之间会很少或没有交集,但药物靶标分类图显示了不同药物和药物类别之间的许多联系,表明药物靶标超网络是一个包括更多子类别的网络。模块间的分布表明:同一功能种类的药物的区域分布是一致的,功能类似的药物具有相对较高的聚类系数。
本文以drugbank药物库的药物靶点数据集为研究对象,分别构建了以药物为节点、靶标为超边的超网络模型和以靶标为节点、药物为超边的超网络模型,得到了超度分布、聚类系数和连通分支等拓扑指标值。数据分析表明,两类药物靶标超网络均具有幂律分布、高聚类系数和巨连通分支。
使用超网络分析仍然可以提供药物靶标网络上的统计学的重要特征。发现新药开发中的靶标选择往往是多样化的,并倾向于连接已知的靶标,而且同一类药物的局部聚类系数相对较高。这些都可以为新药的开发带来启迪。这也说明在超图的基础上研究药物靶点网络的拓扑特性是可行的。本文所使用的指标和方法也可用于分析其它超网络。