王红梅, 郭真俊, 张丽杰
(长春工业大学 计算机科学与工程学院, 吉林 长春 130012)
在生物信息领域,预测药物-靶标相互作用对药物重定位[1]和药物发现[2]具有重要意义。通过实验来预测药物-靶标相互作用,实验成本昂贵又耗时,所以,采取有效方法预测潜在的药物-靶标的相互作用很有必要。大量生物实验数据和相关文献的出现使生物数据库越来越丰富,这有利于计算方法的发展。目前主流计算辅助药物发现的方法主要有三种:基于相似性的方法[3]、基于深度学习的方法[4]、基于网络的方法[5],但它们均有一定的缺陷。由于图神经网络在非欧几里得空间的快速发展,越来越多基于图的算法涌现出来,如图卷积网络、图注意力网络、图自动编码器、图嵌入网络等。通过对数据分析,图神经网络可以有效处理特定的数据结构,研究人员将图神经网络引入药物-靶标相互作用的预测,可以探索药物和靶标的深度信息,有利于药物发现,提高实验速度,降低实验成本。
神经网络最初是由Sperduti A等[6]应用在有向无环图上,促使了图神经网络(GNN)的发展。Gori M等[7]最先提出图神经网络的概念。Scarselli F等[8]和Gallicchio C等[9]对图神经网络做了进一步阐述。由于卷积神经网络(CNN)在视觉领域的成功发展,图卷积的概念被提了出来,分为基于频谱和基于空域两种类型。由于卷积神经网络的兴起,基于频域的卷积网络ChebNet[10]、GCN[11]、CayleyNet[12]的改进和扩展不断增加。基于空域的卷积神经网络研究远早于基于频域的卷积神经网络,DCNN[13]、PATCHY-SAN[14]、MPNN[15]、GraphSage[16]对基于空域的卷积网络进行了不断改进。Perozzi B等[17]提出图嵌入网络中最基本的深度随机游走算法,除了能处理同构图外。Chen S等[18]提出基于异构网络的图嵌入方法。近几年来,许多图神经网络的变体被开发出来,包括门控图神经网络、图注意力网络、图自动编码器网络、图嵌入网络等。
Lim J等[19]提出一种使用图神经网络模型来预测药物-靶标相互作用。使用图神经网络直接将蛋白质-配体复合物的三维结构信息嵌入到邻接矩阵,可以通过邻接矩阵了解蛋白质-配体相互作用如何影响每个原子的节点特征,相比用网格表示三维结构,邻接矩阵是紧凑和旋转不变的,比网格更能有效表达原子间的精确距离。为了区分每个相互作用对预测的影响,还设计了距离感知图注意力机制[20]算法区分不同类型的分子间相互作用,此外,通过从复合物的图形特征中减去靶蛋白和给定配体的每个特征而获得的图形特征来进行差热分析预测。这些方法使模型能够通过关注分子间相互作用,而不是仅仅记住配体分子的某些模式来学习准确的药物-靶标相互作用预测。
Wang S等[21]提出一个简单而高效的基于残差图神经网络和注意力的配体-蛋白质结合预测模型(GanDTI)。该模型采用残差图神经网络来处理复合指纹数据,并形成一个向量,该向量可以将基于产品的注意力投射到蛋白质序列上,以确定序列上哪部分对预测相互作用的影响最大,然后,将得到具有丰富信息的复合载体和蛋白质特征载体连接起来,通过多层感知器进行处理,提高了药物-靶标相互作用预测的有效性。
Cheng Z等[22]提出一个基于多头自注意力机制和图注意力网络的药物-靶标相互作用预测模型(MHSADTI)。该模型在提取蛋白质特征时,使用全连接的自注意力机制模块来学习具有变压器编码器结构的氨基酸序列的特征信息,为了通过药物-蛋白质注意力网络模块预测其相互作用,使用注意力分数来判断蛋白质中的氨基酸子序列对药物的重要程度。多头自注意力机制不仅可以解决卷积神经网络(CNN)无法获取上下文关联信息的问题,同时,如果氨基酸序列长度过长,还可以获得RNN、LSTM等结构无法学习的序列中的长依赖信息。在提取药物特征时,因为图注意力网络可对不同邻域内的不同节点指定不同权重,所以,使用图注意力网络代替了图卷积网络,避免了噪声对图中节点产生影响,并且进一步提高了图的代表性特征向量的有效性,拼接药物和蛋白质的特征通过全连接层和分类器进行药物-靶标相互作用预测。
尽管此模型的性能不错,但是在模型的数据输入中,只使用了药物和蛋白质的结构特征信息中的一维数据表示,然而,药物和蛋白质实际上具有很复杂的空间结构,导致在预测中丢失了很多药物和蛋白质的高级特征信息。其次,在模型的输入中,该模型只使用了药物和蛋白质的生物表示数据,未能将更全面的生物数据整合到深度学习模型中以提高预测性能。
Lu Z等[23]提出一种异构网络嵌入模型来预测药物与靶标的相互作用(HNEDTI)。该模型通过为药物相似度矩阵和靶标相似度矩阵分别设置两个相似度阈值参数,过滤相似度较低的边,然后用已知的药物相关网络和靶标相关网络构建药物-靶标异质网络。该模型可以通过从不同长度的元路径中提取异构网络的局部和全局信息,不仅解决了大多数基于网络的方法不能发现全局网络信息的问题,同时,与传统的基于机器学习的方法相比,该方法可以更准确地学习药物和靶标的特征表示。最后将药物和靶标的低维特征表示向量通过随机森林模型,预测给定的药物-靶标对是否存在相互作用。
Hu F等[24]提出一种基于关系拓扑的异构网络嵌入方法来预测药物与靶标的相互作用(RTHNE_DTI)。该模型利用药物和靶标之间丰富的外部关系构建了一个异构网络,根据异构网络中节点之间关系的不同拓扑结构,考虑药物与靶标的拓扑结构和不同的关系类型,将关系分为从属关系和对等关系两种类型,并为它们构建不同的模型,以更好地捕捉节点之间丰富的拓扑信息及语义信息,该方法解决了传统的异构网络方法中使用单一模型处理所有关系的问题。该模型在带有标签的网络和未带标签的网络都能获得不错的预测性能。
Cheung M等[25]提出一种图神经网络模型(GNNs)用于新冠肺炎(COVID-19)药物发现。该模型是将拓扑自适应图卷积网络(TAGCN)应用到消息传递网络(MPNN)中,得到拓扑自适应消息传递神经网络(TAMPNN),通过将聚合节点的K阶邻居信息,应用非线性激活函数进行预测,在两个冠状病毒数据集上表现良好,有助于新冠肺炎(COVID-19)药物的发现。
Gao K Y等[26]提出一个端到端神经网络模型(E2E),直接从低层表示预测药物-靶标相互作用。该模型将原始信息作为输入,使用长短期记忆递归神经网络和基于图卷积神经网络将蛋白质和药物结构投影到密集的向量空间中,为了区分每个相互作用对预测的影响,使用双向注意力机制计算药物和蛋白质之间如何相互作用,最后,基于注意力的向量表示通过分类器进行预测。由于已知只有小部分蛋白质是化合物的目标,该方法能够很好地推广到新蛋白质(在训练数据中未看到的),这有利于药物发现。
Torny W等[27]提出一个图卷积框架来预测蛋白质与配体的相互作用(Graph-CNN)。首先,该模型构建了一个无监督图自动编码器,从一组有代表性的药物-蛋白质结合位点学习固定大小的蛋白质口袋表示。其次,由于模型训练完全是由绑定的分类标签驱动的,所以分别构建一个口袋图和一个配体图,从口袋图和二维配体图中自动提取特征,不需要蛋白质配体复合物作为输入。最后,该模型通过一个全连接层预测蛋白质和配体之间的相互作用。
Manoochehri H E等[28]提出用图卷积神经网络预测药物-靶标的相互作用。该方法将药物-靶标的相互作用预测建模为图上的多标签链接预测问题,考虑不同的边类型,通过用图卷积编码器为异构图中的每个节点创建特征向量,解码器通过特征向量捕获药物-蛋白质的相互作用,重构边标签,通过损失函数进行优化,是一个以端到端的方式直接在完整的异构图上应用编码器和解码器技术。该方法是将原来GraphSage[16]方法扩展到异构药物-靶标网络,将不同类型的相互作用产生的嵌入用独立的权重进行聚合,并将不同类型链接聚合的嵌入简单总结,无区别地生成最终嵌入。
Jin X等[29]提出一种多分辨协作异构图卷积自动编码器(MRCH-GCAE)预测药物-靶标相互作用。该模型首先在每个图卷积层中使用独立的卷积核,协同聚合来自异构药物靶点网络中不同类型链接学习到的嵌入信息,然后将来自异构链接的聚合嵌入的三种信息进行拼接,将连接后的嵌入输入到一个密集神经网络中,生成节点的嵌入,在集成步骤中,将不断增加的图卷积层的输出嵌入序列输入到图循环单元网络(GRUs)中,以发现序列之间的潜在关联,最后将GRU的输出状态与最后一个图卷积层的输出嵌入相连接,生成最终的嵌入。
Zhao T等[30]提出使用图卷积网络和深度神经网络来预测药物-靶标的相互作用(GCN-DTI)。该模型将边预测问题转换为DPP分类问题。首先,通过整合多种交互构建由任何药物和蛋白质构成的DPP网络,使用图卷积网络从DPP网络的拓扑结构中学习每个DPP的特征,最后使用深度神经网络预测DPP的标签。其次,将特征表示作为输入,使用深度神经网络预测最终的标签。
Cheng S等[331]提出一个端到端网络模型(GraphMs),从低层表示预测药物-靶标相互作用。首先该方法遵循NeoDTI[32]的思想,将每个节点(不包括同一类型的节点)的邻域信息与其自身的嵌入集成到一个更丰富的特征表示中,将得到的特征表示使用图卷积网络编码器计算节点级表示,对于药物表示,将药物邻接矩阵即同构矩阵加到其中一个单位矩阵上,然后利用拉普拉斯分解得到网络矩阵,类似地,蛋白质表示向量通过相同的步骤进行处理。为了保证节点表示的可靠性,使用了互信息来衡量节点级和图级表示之间的相关性,在预测部分,提出端到端的自动编码器预测药物-靶标的相互作用,有利于药物发现。由于在使用图卷积神经网络嵌入图级表示时,训练参数较大,会导致模型训练时间较长,所以,可以考虑使用加速算法提高计算效率。
Peng J等[33]提出一个基于异构图卷积网络的端到端框架预测药物-靶标相互作用(EEG-DTI)。该模型结合多个生物网络构建异构网络,使用图卷积神经网络对异构网络中的边类型信息进行建模,得到所有节点在每一层的特征表示,使用三个图卷积层,聚集了节点的三阶邻居信息,为了防止出现梯度消失等问题,将节点每一层的特征表示拼接起来,得到蛋白质和药物的特征表示,最后通过全连接层,使用内积的方法预测药物-靶标之间的相互作用概率。
Zhao B W等[34]提出一种基于大规模图形表示学习的药物-靶标相互作用预测方法(LGDTI)。该方法可以学习关于节点的三种信息,包括节点的属性、局部结构和全局结构。具体来说,使用图卷积网络聚合图中节点的一阶邻域信息,一阶邻域信息包含节点属性,使用分子指纹技术[35]提取药物属性,使用K-mer[36]方法提取靶标属性;另一方面,使用随机游走的方法对图进行采样,从采样获得的序列来训练Skip-gram模型学习节点的高阶邻域信息,高阶邻域信息包含节点的整个网络信息。最后,将这两种特征输入随机森林分类器,训练和预测潜在的药物-靶标相互作用。
14种基于图神经网络的药物-靶标相互作用预测算法见表1。
表1 基于图神经网络的药物-靶标相互作用预测方法
由表1可以看出,图神经网络对于药物-靶标相互作用的预测具有较好的性能。现有的一般方法主要分为特征提取和预测两个步骤,经过不断改进,提出端到端的预测模型,可以在预测任务中优化特征提取步骤中涉及的参数,而在实际图中,每个节点的特征通常由各种属性组成,节点关系相当复杂,因此节点的特征提取也是多维和多角度的,针对以上方法,图表示学习的方法被提出来深入了解已知药物和靶标关联网络,提取更复杂生物网络中药物和目标的隐藏特征。以上计算方法均是可扩展的,除了用于药物-靶标相互作用的预测外,还可用于预测其他生物学链接,如药物-药物相互作用、药物-疾病关联、疾病-疾病关联等。虽然以上准确并高效的计算模型可以提高药物-靶标相互作用的识别过程,但学业界和工业界仍然存在较大差距。未来还可以开发出更高效的计算方法,保证性能准确性的同时提高预测效率,比如可以考虑处理加权网络或者有向网络,挖掘更多的深层信息,加快药物研发速度。
为了支持上述方法,许多优秀团队制作并公开发布了用于预测的数据集,这些数据集包含不同类型的药物相关信息。2008年,Yamanishi等[3]制作出四种药物-靶标相互作用网络,包括酶(E)、离子通道(IC)、g蛋白偶联受体(GPCR)和核受体(NR)。
2009年,Keshava等[37]创建数据集HPDR;Kuhn M等[38]在2010年创建数据集SIDER,同年,Knox C等[39]创建了数据集DrugBank(3.0);Wishart S等[40]在2018年更新了数据集DrugBank(5.0),2013年数据集CTD[41]被创建出来;Luo Y等[42]在2017年将以上四种数据集构建了一个异构网络来预测潜在的药物-靶标相互作用。
2012年,Mysinger M M等[43]创建数据集DUD-E;2015年,Liu H等[44]通过负采样方法创建数据集Human和C.elegans;2016年,Gilson M K等[45]创建数据集BindingDB;2017年,Liu Z等[46]创建数据集PDBbind。
数据集的详细信息见表2。
表2 数据集详细信息
表2数据集除了用来预测药物-靶标的相互作用之外,还可以用来预测药物-药物相互作用、药物-疾病关联、疾病-疾病关联以及蛋白质相互作用等[47]其它生物学链接。
随着生物信息学及深度学习邻域相关研究的发展,基于图神经网络的药物-靶标相互作用预测方法成为新药物研发和药物重定位的重要手段。文中对基于图神经网络的药物-靶标相互作用预测方法进行综述,简要概述图神经网络近年来的发展历程,详细阐述图神经网络变体用于预测药物-靶标相互作用的方法,包括图注意力网络、图嵌入网络、图卷积神经网络,最后,总结已公开发布用于预测的数据集。
目前,预测药物-靶标相互作用在不同的方向均有好的研究成果,未来预测药物-靶标相互作用需要在保证预测准确率的同时,提高预测速度,为生物实验提高潜在候选靶标的概率,缩短药物研发周期,降低实验研发成本。