宋映龙 彭昱忠,2
1(复旦大学计算机科学技术学院上海市智能信息处理重点实验室 上海 200433) 2(广西师范学院计算机与信息工程学院广西高校数据科学重点实验室 广西 南宁 530023)
近年来新药研制的高额成本和失败风险使许多研究人员开始为已有的药物寻求新的用途,即进行药物重定位[1]。然而成功的药物重定位案例大多是因为偶然的发现,缺少系统性的分析方法,如果盲目地进行生物实验仍然是代价高昂的。因此采用计算方法来为生物实验提供可靠的指导建议就非常重要,所幸药物分子与疾病表型数据的大量收集使得研究基于计算方法的药物重定位成为可能[2-3]。
到目前为止,很多计算方法被提出,例如偏重机器学习的方法[4-5]。它们将药物与疾病的相互作用预测看作分类问题,提取药物分子结构和疾病表型数据的特征,把收集到的已知相互作用当作正样本,然后随机生成负样本来训练分类器。这一类方法的主要缺点在于负样本是人为生成的,可能含有假的负样本,这必然对分类边界的确定造成不良影响。而且这一类方法没有用到药物之间与疾病之间的相似性关系,难以利用网络结构的信息。相比于分类算法,基于生物网络的方法建立在“相似的药物对疾病有相似的作用”这一假设之上[6-9],在药物重定位的问题上取得了更好的性能。例如:文献[6]收集了大量的关于药物、蛋白质与疾病的互作用数据,构造了药物-蛋白质-疾病这一异质网络,然后采用SNS(shared neighborhood score)算法来为已有药物寻找新的适用疾病;文献[7]将药物-疾病的关系预测看作基于互作用网络的推荐问题,可以针对某种药物预测可能相关的疾病,反之也可以针对某种疾病预测潜在的药物;文献[8]采用关联度分析与聚类算法对收集到的药物-药物、疾病-疾病相似性进行合理调整,然后再此基础上进行双向的随机游走,取得了良好的效果。
本文中,我们首次提出LN-RWR算法,从分类上属于基于生物网络的药物重定位方法。受文献[9,17]的启发,我们利用药物-药物的结构相似性、疾病-疾病的表型相似性信息和药物-疾病的互作用信息构建了异质网络,并且利用网络拓扑结构的信息调整了相似度的计算;受文献[18-19]的启发,我们提出采用Laplacian正则化来优化随机游走的转移矩阵,然后分别以药物和疾病为中心进行独立的随机游走,最后融合双向游走得到的稳定概率分布预测潜在的药物-疾病互作用,进行药物重定位。实验结果表明,我们的方法在不同的真实数据集上均优于已有的药物重定位方法。
药物与疾病之间的互作用信息可以从很多公开数据集上搜集到,比如DrugBank[10]、OMIM[11]和PubChem[12],我们用C={c1,c2,…,cn}表示药物集合,用D={d1,d2,…,dm}表示疾病集合,用A∈Rn×m来表示药物与疾病之间的互作用矩阵,即如果收集到的互作用信息表明药物ci与疾病dj有相互作用,那么Aij=1,否则Aij=0。
药物之间的相似度计算包含药物的分子结构相似度与药物所处互作用网络的拓扑结构相似度两个方面。通过整合这两个方面的相似度信息可以更好地结合分子结构信息与网络结构信息。
(1)
式中:FPi和FPj分别表示两种药物的指纹向量。
(2)
然后,线性融合两个方面的相似度,得到更有信息量的药物-药物相似度:
(3)
式中:wn1表示网络结构相似度所占的权重,以此来权衡两种相似度的比重。
疾病之间的相似度计算包含了疾病表型相似度与疾病所处相互作用网络的拓扑结构相似度两个方面。
另一方面,我们同样采用文献[14]的方法计算疾病之间的网络相似度:
(4)
同样地,用wn2来权衡网络拓扑结构信息所占的比重,按式(5)所示线性融合两种相似度信息:
(5)
式(3)中的wn1与式(5)中的wn2有相同的物理意义,因此为了简化模型,下文中我们用wn表示这两个量,即wn1=wn2=wn。
带自启动的随机游走如下所示:
P(t+1)=(1-α)MTP(t)+αP(0)
(6)
式中:α∈(0,1)为自启动系数,表示初始知识对随机游走的影响力度。P是一个n+m维的向量,前n维对应药物集合,随后的m维对应疾病集合。每一个维度表示游走子停留在该节点的概率。起始时刻t=0,P(t)为初始向量,每一轮的随机游走转移当前时刻的P(t)向量得到下一时刻的P(t+1)向量,游走的终止条件是向量P收敛。
(7)
类似地,在以疾病d为中心的随机游走中,初始化向量如下:
(8)
在我们构建的异质网络中,游走子不仅可以在药物-药物、疾病-疾病相似度网络的内部游走,还可以沿着互作用关系跨域游走。文献[9,19]利用这种异质网络上地随机游走在别的问题上取得了良好的效果。针对于构建的异质网络。我们定义转移矩阵M:
(9)
式中:Mcc表示游走子在药物网络内部的转移矩阵,即Mcc(i,j)表示当前位于ci节点的游走子向cj节点转移的概率。假设游走子有的概率向对面转移,1-λ的概率留在本网络,Mcc(i,j)的定义如下:
(10)
同理,Mdd(i,j)表示当前位于di节点的游走子向dj节点转移的概率:
(11)
(12)
(13)
Laplacian正则化会根据节点的度数对邻接矩阵A进行加权,从而深刻地影响每个节点在随机游走中被游走子访问的概率,改进随机游走的转移过程。
(14)
(15)
值得注意的是,与文献[9,18]相比,我们在构造转移矩阵Mcd与Mdc之前虽然采用了Laplacian正则化,但最终仍保证转移矩阵M每一行的和为1,使得任意时刻的向量P的元素和也为1。因此不断重复式(6)的转移过程,仍然可以保证游走过程的收敛。
(16)
我们收集了PharmDB[22]数据库中的药物与疾病互作用信息,在去除缺失互作用信息的药物和疾病之后,构建了异质网络,其中包含3 831种药物和2 021种疾病的45 674对相互作用。我们将已知的相互作用随机分为十份,每轮选择其中的一份从原始数据中去除,留作测试集,然后基于剩下的九份相互作用构建邻接矩阵A进行,尝试着恢复测试集中的互作用。值得注意的是为保证客观的比较,每轮交叉验证中我们都基于互作用网络A重新计算了药物-药物、疾病-疾病的相似度。我们把待恢复的互作用作为正样本,其余的作为负样本,采用ROC(Receiver Operating Characteristic)曲线比较了LN-RWR与DrugNet、MBi和TP-NRWRH的性能。ROC曲线作为一种机器学习模型的衡量指标,在药物重定位问题中同样被广泛采用,比如文献[7,8,18]。我们提出的LN-RWR算法取得了0.972的AUC(Area Under Curve)值,比TP-NRWRH、 MBi和DrugNet算法有了明显提高。此外,ROC曲线的陡峭程度越大,说明模型可以越优先地恢复正确的相互作用。从图1可见,LP-RWR的ROC曲线比其他方法都要陡峭很多,这从另一方面说明了LP-RWR的出色性能。
图1 在PharmDB数据集上的ROC曲线
我们从文献[23]的补充材料中搜集到了1 933对药物-疾病互作用,涉及到593种药物和313种疾病,然后进行了十交叉验证,得到的ROC曲线如图2所示。可见我们的方法取得了0.947的AOC值,同样比其他的方法都要好。
图2 在PREDICT数据集上的ROC曲线
不过与PharmDB上的结果相比,LN-RWR的优势在减弱。我们分析了PharmDB和MBi数据集的互作用网络的节点度数分布,绘制的盒型图如图3所示。从图3可见PharmDB中存在很多度数较高的Hub节点,但是PREDICT数据集中节点的度数分布比较紧密,度数特别大的Hub节点很少。而Laplacian正则化对Hub节点较多的网络有较为明显的效果,所以这解释了LN-RWR优势减弱的原因。不过随着生物数据集的规模越来越大,具有Hub节点的异质网络会越来越多,这是一个大趋势,因此LN-RWR拥有广阔的发展前景。
图3 PharmDB与PREDICT节点度数分布盒型图
以PREDICT数据集为例,我们取wc=0.5,然后在参数α、λ、η与wn之中,我们分别固定三个参数,在[0.1,0.9]区间内,每隔0.1变化剩下的一个参数,观察参数设置对性能的影响。默认地,α=0.7,λ=0.8,η=0.2,wn=0.5得到的AUC值变化曲线如图4所示。从图中可见,自启动系数α对LN-RWR有较大的影响,λ与η比wn的影响要大。值得一提的是,α、λ与η对性能的影响趋势比较确定,都是先增大后减小。因此我们建议先优化自启动系数α,然后优化λ与η,找到较优的峰值点,最后对wn进行微调。实际情况下,我们可以针对双向随机游走分别优化参数,然后用式(16)整合以得到更好的预测模型。
图4 参数α、λ、η与wn对性能的影响
为了探究式(16)中参数wc对整合方法的影响,我们取α=0.7、λ=0.8、η=0.2、wn=0.5,变化参数wc,得到的AUC变化图如图5所示。从图中可以看出,最优的wc在0.3到0.7之间,而不是固定在0.5。显然,这是已有算法TP-NRWRH采用取均值整合所存在的不足之处。
图5 对性能的影响
在PREDICT数据集上,我们针对帕金森综合症PD(Parkinsonian Disorders)得到了LN-RWR的重定位结果,其中似然度排名前五位的药物如表1所示。
表1 LN-RWR针对帕金森综合症的重定位结果
文献[23]在构建PREDICT数据集时,这些药物尚未被认为与PD有互作用。但是通过检索近年来的文献,我们有如下发现:文献[24]在2 709名病人身上进行实验,证实了Rasagilinem(雷沙吉兰)对PD有良好的治疗作用,认为只要确定Rasagilinem的服用剂量以及制定组合疗法后即可投入使用;文献[25]分析了多种药物与PD的关系,认为Pergolide(硫丙麦角林)可以稳定PD的症状,如果与levodopa等药物组合使用可以起到明显的效果;根据文献[26]的观点,Apomorphine(阿朴吗啡)由于其亲脂性的结构,非常容易穿过细胞膜,因此可以很快地抑制PD的症状,如果研究好如何应对Apomorphine的副作用,就可以广泛投入使用;Tolcapone对PD第二和第三阶段的治疗有着良好的辅助作用,但是由于存在导致肝中毒的可能性,因此目前应用范围受限[27]。
在PD上的案例分析表明,LN-RWR方法可以给出可靠的药物重定位预测,可以为生物实验的展开提供指导作用。
随着新药研制成本的不断提高,药物重定位会受到越来越多的重视,而基于生物学数据分析的计算方法得益于生物数据的不断完备,有着广阔的发展前景[2]。本文提出LN-RWR算法,在药物与疾病组成的异质网络上采用Laplacian正则化优化转移矩阵,有效地消除了Hub节点对随机游走的不良影响,并进行了双向独立的随机游走。采用合理的方式融合两轮随机游走的结果,取得了较已有方法都要好的药物重定位效果,实现了更准确、全面的药物-疾病互作用的预测。未来我们会更深入地立足于相关数据的特性,争取做到药物重定位地精准化,提供精准化、个性化的药物重定位方案。