李淑怡,黎珊,王鑫,陈明,姬文兴
(湖南师范大学信息科学与工程学院,长沙410081)
当两种或两种以上的药物同时服用时,组合处方中的两种或两种以上药物在药理行为方面会相互影响,这种影响被称为药物相互作用(Drug-Drug Interaction,DDI)。DDI 可能降低疗效,诱发意想不到的药物不良反应或其他不良反应。不明原因的DDI 在临床上经常发生,药物库中批准的小分子药物平均每100 对药物中存在15 个DDI[1]。DDI 引起的不良反应在药物间的传播不可忽略,它们会让接受多种药物治疗的患者处于不安全的境地[2]。因此,在临床用药前,DDI 鉴定已成为一项迫切需要的任务。
然而,用于DDI 识别的传统实验方法(如检测转运体相关相互作用[3])成本高、持续时间长[4]。到目前为止,在药物开发过程中(通常是临床试验阶段)只能识别出少数DDI,其中一些是在药物批准后报告的,更多是在上市后监测中发现的。计算方法为大规模地发现潜在的DDI 提供了一个很有前途的途径,并在最近得到了学术界和工业界的广泛关注[5-6]。目前的计算方法大致可分为基于文本挖掘的方法和基于机器学习的方法。前者从不同的文本源(如科学文献、FDA 的不良事件报告系统和电子病历)中检测的DDI。然而,这些方法在很大程度上依赖于药物上市后的证据,因此在进行多药处方之前,它们无法警告潜在的DDI。相比之下,基于机器学习的方法(例如,基于简单相似性的方法、基于网络推荐的方法、基于分类的方法能够通过利用上市前或上市后的药物属性(例如化学结构、靶点),来提供此类警报、层次分类码和副作用预测。
大多数现有的计算方法都是针对传统的二元预测而设计的,也就是确定一对药物是否存在DDI 的可能性,但两种相互作用的药物可能会改变它们在体内的药理行为或作用(例如,增加或降低血清浓度)[6]。例如,奎宁的血清浓度(DrugBank 编号:DB00468)在服用促进剂(DB00673)时升高,而在服用米托坦(DrugBank编号:DB00648)时降低。这两例DDIs 包含药物药理作用的变化,分别称为增强型DDI 和抑制型DDI。了解DDI 是增强的还是减弱的,这一点有益处,尤其是在进行最佳的病人护理、确定药物剂量或发现对治疗的耐药性时[7]。
最近,一些文献针对这种带符号的DDI 预测问题展开了研究,将该问题表述为符号网络上的链路预测问题。符号网络是一类特殊的图,它引入了负边表达消极关系。在这里,负边对应于抑制型DDI。文献[8]设计了三矩阵分解的模型,预测新药的DDI 符号。文献[9]设计了基于非负矩阵分解预测模型,并观察到增强和抑制型DDI 的数量及其总和与差异与药物群落相关。文献[6]引入了符号网络的平衡理论,提出了平衡化的矩阵分解模型。他们发现,增强型DDI 和抑制型DDI 的出现并不是随机的,因而分析方法应当考虑相应的DDI 网络中药物之间的结构关系。这种结构性质也是理解高阶药物相互作用治疗复杂疾病的最重要步骤之一[6]。
受深度学习的巨大成功和迅猛发展的影响,定义于图上的神经网络——图神经网络(简称GNN)在多个网络挖掘任务中也取得了破土性能[10]。GNN 是深度学习在图数据上的扩展,是对一大类面向图数据的神经网络的统称。符号图卷积网络[11]是定义于符号网络上的卷积神经网络,已经在链路预测和结点嵌入问题上获得了较好的测试性能。本文尝试了符号图卷积在DDI 符号网络上的应用,将DDI 预测问题转换为一个嵌入问题,然后利用对数几率回归获得DDI 类型。结果表明,符号图卷积网络在该问题上表现良好,具有可行性。
本节首先介绍我们所关注的DDI 预测问题,然后介绍了图卷积网络。
已知药物集合D={di},i=1,2,…,m,以及它们之间的已知DDI 网络,如图1 所示,空心结点是药物,实线是他们之间的相互作用。本文关心的问题是:如何利用已知的DDI,预测出一些新的DDI。用m 阶对称方阵A=(aij)表达DDIs。传统DDI 中,aij取0 或1,0 表示di与dj药物之间无相互作用,1 表示两种药物有作用。本文考虑的是更为复杂的预测问题,aij可以取值0、1或者-1、1、-1 分别表示增强型、抑制型DDI。这种DDI网络即为符号图,本文考虑的问题正是链路及其符号的预测问题。
图1 DDI预测问题
图神经网络是定义在图上的神经网络,是深度学习在图数据上的扩展。这些神经网络包括图卷积网络、门控图神经网络、基于注意力机制的图神经网络等,它们被统称为图神经网络(GNN)。为了适应图数据,GNN 对传统神经网络进行了修正。Zhou 等指出[10],GNN 在以下几个方面比传统神经更具有吸引力:①GNN 在每个节点分别进行传播,忽略了节点的次序性,且GNN 的输出不会因节点输入次序而发生改变;②图的边表达了节点间的依赖信息,传统神经网络仅将其视为节点特征,GNN 则利用图结构来引导信息传播。
图卷积网络(GCN)[12]是最为典型的一种图神经网络,它改造了传统的卷积算子,以适应图结构的不规则性。图2 描述了图卷积网络所使用的卷积算子,X 是输入的图,Z 是一次卷积后的图,右图以X1为例展示了结点1 的信息汇聚过程。利用邻接矩阵A 与X 相乘,规定了每个结点仅从邻居结点收集信息。考虑到自身的信息累积,将A 矩阵改写为˜=A+IN。采用度矩阵对其进行规范化,其中与权重矩阵θ相乘,得到卷积后的结果
图2 图卷积
符号网络的负边具有异于正边的语义信息,与正边形成了复杂关系。平衡理论是符号图的基础理论,用于描述网络中的结构平衡性。符号图卷积网络(Signed Graph Convolutional Network,SGCN)利用平衡理论来改造图卷积操作,实现了跨层传播信息。本节我们利用SGCN 来预测DDI 的链接及其类型。首先介绍符号图卷积,然后将其应用于DDI 预测。
平衡理论通常用三角形描述网络中的结构平衡性。将符号网络中的周期分类为平衡或不平衡,其中平衡周期由偶数个负边组成,而具有奇数个负边的周期被认为是不平衡的。在图中1,我们可以看到三角形(A)和(B)是平衡的,而(C)和(D)是不平衡的。[SGCN]将这种平衡性描述推广至任意一条路径,从而构造每个结点的朋友结点集和敌人结点集。将从i 出发经由长度为l的平衡、不平衡路径所达到的点集分别记为Bi(l)和Ui(l)。在图4 中我们举例说明了该构造过程,计算公式递归定义见表1。
图3 平衡理论
图4 基于平衡理论的路径
表1 平衡(不平衡)路径上的结点集定义与特征计算公式
这里,Ni+、Ni-为结点i 的正、负邻居集合,如果aij=1,则j∈Ni+,同理,如果aij=-1,j∈Ni-。每个结点从其周边结点汇聚信息,经历激活函数后传递给周边邻居。SGCN 依据平衡路径和不平衡路径,为各层的定义了两个卷积算子(见表1)。这里l表示层号,W 是GNN 的网络权重矩阵,h(0)是结点输入信息(原始表征),σ()是一个图卷积后的非线性激活函数。
已知m 种药物di,i=1,...,m,我们从已知数据中提取初始特征以及DDI 网络,利用上面的符号图卷积定义GNN 架构。该网络始终为每个di保持两个输出:我们将最后一层的输出组合定义为结点嵌入结果。具体的算法见下图,这里,我们使用SGCN 原有的目标损失函数来引导网络的训练,在此不再赘述。为了得到符号预测结果,我们将结点对的嵌入结果连接起来,输入逻辑回归分类器,学习一个分类模型。
Algorithm:结点嵌入的SGCN前向过程
Input:结点的初始特征{xi,i=1,…,m};DDI网络;SGCN网络参数;
Output:结点的低维嵌入{zi,i=1,…,m}
我们利用文献[8]所提供的数据进行实验。该数据集从DrugBank[13-14]中获得了2329 种经批准的小分子药物,我们移除了一些没有DDI 条目或者没有标签外副作用记录的药物,最后得了603 种药物,共有24114 条DDIs,其中增强型DDIs(EnI)18710 种,递减型DDIs(DeI)5404 种。文献[8]利用它们的副作用条目,编码成9149 维的特征向量。下表提供了该DDI 网络的基本特性,这里的度是指与结点连接的边数,E-DDI 与NDDI 分别指正边与负边。
表2 DDI 符号网络属性统计表
我们使用AUC 核和F1 评价指标来衡量计算结果,它们的值越大,结果越好。随机选择20%的数据作为测试,剩余的80%的作为训练,实验进行20 次。我们利用5 折交叉验证完成每一次实验,然后统计平均结果。使用了5 层SGCN,所有参数设定为[12]文所测试好的最佳参数:每个隐层和输出层的平衡路径、不平衡路径的嵌入维度为32。将结果与标签推导算法[4]进行了比较,结果如表2 所示。上述结果表明,SGCN 作为一种DDI 预测的计算途径,具有可行性。
表3 指标统计
利用计算方法进行DDI 预测,是发现有潜在反应的一个很有前途的途径,对于临床医学具有重要意义。本文将这类DDI 预测问题视为符号网络上的链路预测问题,利用SGCN 实现结点嵌入,然后通过对数几率回归获得DDI 类型。结果表明,符号图卷积网络在该问题上表现良好,具有可行性。