摘要:药物靶标亲和力预测在药物研发中扮演着重要的角色。针对现有预测方法大多忽略药物分子的二维结构信息、缺乏深层表征融合学习的问题,提出了基于图卷积和双线性注意力网络的药物靶标亲和力预测模型(GBN_DTA)。该模型首先基于多层图卷积神经网络编码药物分子图,同时结合1D-CNN 和双向长短期记忆网络(BiLSTM)编码靶标序列;然后使用双线性注意力网络融合编码后的药物和靶标特征,最终获得亲和力预测分数。实验结果表明,该模型在DAVIS 和KIBA 数据集上的性能均优于其他6 种主流方法,有效提升了预测准确率。
关键词:药物靶标亲和力预测;药物研发;图卷积神经网络;双线性注意力网络;深层表征融合
中图分类号:TP183; R91 文献标志码:A
药物靶标作用关系预测是药物研发过程中至关重要的一步。在药物研发的早期阶段,通过预测药物与靶标的相互作用,可以快速筛选出具有潜在治疗效果的候选药物,从而加速整个研发进程。作为药物-靶标作用关系中最为关键的因素之一,药物与靶标的亲和力大小的预测,可以帮助研究者更好地了解药物与靶标之间的相互作用机制,有助于优化药物设计和提高药物的疗效。因此,药物-靶标亲和力预测(Drug-Target Affinity,DTA)已成为当今药物研发领域中备受关注的热点问题之一。
对于已知三维结构的靶标,可以利用分子对接模拟来预测药物和靶标间的结合构象和强度。常见的分子对接软件包括DOCK[1]、AutoDock[2] 等。然而,分子对接需要筛选包含数亿小分子的大型数据库来进行构象搜索,整个计算过程非常耗时。随着蛋白质组学的发展,可以通过高通量测序技术快速获取靶标序列,但靶标三维结构的获取仍然存在挑战。与分子对接模拟相比,大量的基于靶标序列的DTA 预测方法不需要三维结构,因而获得了快速的发展。
基于靶标序列的DTA 预测方法大多采用基于机器学习的方法。KronRLS 方法[3] 和SimBoost 方法[4]利用传统机器学习方法取得了较好的亲和力预测效果。这两种方法都是使用Smith-Waterman 算法[5] 计算药物SMILES 相似度矩阵作为药物特征表示、Pubchem 结构聚类服务器(Pubchem Sim)计算靶标序列相似度矩阵作为靶标特征表示。KronRLS 模型将药物和靶标特征矩阵的Kronecker 积作为DTA 的预测结果,SimBoost 模型则将药物-靶标特征对输入到梯度增强回归树模型中进行DTA 预测。然而,基于传统机器学习的算法通常需要高质量的输入特征,并且很难学习到复杂的非线性关系[6]。
相比传统机器学习算法,深度学习模型可以自动地学习药物和靶标的特征表示,并利用神经网络的非线性拟合能力来预测药物靶标亲和力,在预测准确率和鲁棒性方面具有更好的表现。DeepDTA 模型[7] 利用两个具有递增滤波器的1D-CNN 模块学习药物SMILES 和靶标序列的表征,通过药物和靶标的特征拼接以及多层全连接操作得到药物-靶标对的结合亲和力。WideDTA 模型[8] 是DeepDTA 的扩展,它使用了4 种基于文本的信息源来预测结合亲和力,包括蛋白质序列、药物SMILES、PDM(Protein Domainsand Motifs) 以及LMCS( Ligand Maximum CommonSubstructures)。对于药物SMILES 序列的特征编码,一些模型通过引入注意力机制进一步提升了药物的表征能力。MT_DTI 模型[9] 利用多层双向Transformer[10]编码药物SMILES。MATT_DTI 模型[11] 使用基于关系感知的自注意力网络模块[12] 和多层1D-CNN 模块组合编码药物SMILES。然而,这些DTA 预测模型都倾向于编码药物和靶标的序列特征,忽略了药物的空间结构信息,并且采用简单的拼接操作来融合药物和靶标编码后的特征,忽略了药物-靶标之间的局部相互作用。