雷涵清,蒋亚健,习智威,张万成,陈 明
(湖南师范大学信息科学与工程学院,长沙 410081)
传统药物设计方法往往依赖于大规模的生化实验,而药物研发出来后又需要一定的实验周期审核才能够生产上市。这样一来,应对疾病的药物不仅研发成本高,而且耗时耗力,也就进一步为患者得到及时救治增加了难度。为了改善这一现状,学者专家们提出了结合计算机科学与生化信息学等科学,实现计算机辅助药物设计。通过计算方法对药物重定位进行理性设计,可以为大规模试验筛选提供线索,进一步降低成本。
药物-靶标相互作用(Drug-target interaction,DTI)预测无论是在药物研发过程中还是在对已有药物的重定位方面都有着重大意义。现阶段对DTI预测问题的研究方法众多,在处理药物靶标关系预测问题时,将其转化为链路预测问题是一个比较常用的研究手段。其中一大类是基于特征的方法,分别计算药物与靶标的特征向量,进一步通过相似性或距离函数将药物-药物和靶标-靶标相似度度量结合起来,进行DTI预测。基于矩阵分解的方法在DTI预测任务上也有较高的准确度,它们主要依赖于药物-靶标网络结构。近年来,深度学习方法的出色表现让其在药物发现方面的应用也不断增加。相比于浅层模型,基于深度学习的DTI预测方法表现得更为出色。
现有研究大多是以二分类的形式来进行链路预测,即确定药物靶标之间是否有连接。实际上,药物和靶标之间的作用模式是多样的:它可以激活或抑制靶标,它可以作为协同剂或拮抗剂,增效剂或阻断剂,诱导剂或抑制剂等。尽管在具体模式上有所不同,且靶标类型也有不用类别(包括蛋白质、大分子、核酸、小分子等),但这些作用方式可以大致划分为积极或消极。将这些模式表征为药物-靶标二分图的边的符号,将有助于药物重定位设计。
符号图在生物信息领域已经广泛使用,包括药物互作用关系、药物-靶标网络数据分析。本文利用符号网络进一步细化药物-靶标网络,将DTI问题转化为符号网上的链路预测,预测边的存在性以及该边的符号属性,从而推断出潜在的药物-靶标关系。本文引入符号网络上的逻辑回归和随机游走这两项技术来解决该问题,它们都是新近发展的符号链路预测新方法。预测结果呈现出良好的指标,表明该思路的可行性。
大多数DTI预测方法主要依赖于药物-靶标二分图的拓扑结构及从组成成分的本体中获得的信息。许多药物具有共同的靶标,但是作用模式不尽一致。本文考虑了相互作用的具体模式,根据它们的类型定义出符号网络。
我们从DrugBank中搜集数据,发现靶向药物靶向机制的多种模式:它可以激活或抑制靶标,它可以作为激动剂或拮抗剂,增效剂或阻断剂,诱导剂或抑制剂等。尽管作用于不同类别的靶标(例如蛋白质、大分子、核酸、小分子等),但它们大致可以分为积极或消极作用。表1列出了药物靶标之间的作用类型划分结果,将activator、agonist等类型划分为正作用,以标签+1表示,将inhibitor、antagonist等类型划分为负作用,以标签-1表示。一些类别无法纳入符号分类,例如“调节剂”,“粘合剂”等,不在本文的考虑范畴之内,留待以后研究。
表1 药物-靶标作用模式的符号化
最终形成一个二分图(,,),其中={,,…,d }表示使用到药物节点,={,,…,t}表示靶标节点,={e,=1…,=1…}表示与之间连接的边,根据上面的作用划分对e进行了符号设定。如图1所示,药物-靶标网络的关系预测是指:已知一个上述形式的二分图,预测出一些潜在的药物-靶标互作用边,并指出它们的符号属性。
图1 DTI预测问题
本文选用了符号网络上最近发展的两种链路预测方法:基于逻辑回归的监督分类与符号图随机游走,它们都以平衡理论为基础。
由于符号网络的相关研究最初集中于社会学领域,Heider等基于社会心理学探讨了人作为认知主体的三角关系中的消极关系与积极关系的相互作用模式,被后来的Cartwight等用图论语言进行描述。最基础的平衡理论以三个节点加以刻画,具有奇数条负边的三角形是不平衡的,具有偶数条边的三角形是平衡的。Derr等将其推广至异构符号网络。如图2所示,取四个节点为最小的异构单元,总共可以构成7个不同的模式,其中前5个属于平衡结构,后2个属于不平衡结构。
图2 异构符号图平衡理论示意图
利用监督分类预测DTI,是指针对已知链接e,分别抽取药物d 和靶标t的特征表征,使用(d,t)作为样本点的特征、e的符号作为样本标签,训练得到一个分类器。本文利用逻辑回归模型来训练样本,预测潜在的DTI的符号属性。该算法的关键在于如何抽取(d ,t)的特征。本文对以d 和t作为端点的带符号蝶形(见图2)进行计数,分别统计其平衡蝶形数与不平衡蝶形数,将这两个数目作为(d ,t)样本点的特征。
由于二部网络的分布不平稳,不易收敛,无法直接使用随机游走。Derr等基于平衡理论构建了药物集合的邻接矩阵P∈和靶标集合的邻接矩阵P∈,使用这两个邻接矩阵建立邻接矩阵∈,作为进行随机游走的单部符号网络。
其中为使随机游走偏向于符号二部网络的真正链接的参数。
这里采用的随机游走为带重启随机游走,设定重启概率参数为,则有:
本文在两个网络上进行测试,它们都是从Drugbank中所获取的。表2列出了关于它们的统计。
表2 数据集的统计
第一个网络来自于文献[9],它是从较早版本的Drugbank抽取的数据。包括1178个药物,578个靶标,2599条作用关系数据,其中1506条负边、1093条正边。
第二个网络是本文从最新的DrugBank网站上获取的。包括1020个药物,1244个靶标,3639条作用关系数据,其中2590条负边、1049条正边。
我们使用AUC核和1评价指标来衡量计算结果,它们的值越大,结果越好。随机选择20%的数据作为测试,剩余的80%作为训练,实验进行20次。利用5折交叉验证完成每一次实验,然后统计平均结果。所有算法参数设定均为文献的默认参数。算法的代码来自于文献[9]:https://github.com/DSE-MSU/signed-bipartite-networks。将两个算法结果进行比较,如表3所示。
表3 指标统计
上述结果表明,这三个算法在DTI预测中都有不错的表现,说明基于符号网络来进行DTI预测具有可行性。其中,逻辑回归算法的表现相对较好,随机游走算法次之。
利用计算方法进行DTI符号预测,是发现药物与靶蛋白间反应类型的一个有潜力的方法,对于药物医学具有重要意义。本文将这类DTI预测问题视为符号网络上的符号预测问题。利用逻辑回归和随机游走两个算法进行DTI预测,结果表明,符号网络在该问题上表现良好,具有可行性。下一步,我们将考虑纳入多模态的节点属性,利用异构图神经网络进一步提升本文的结果。