基于异构图神经网络的药物重定位研究

2023-10-08 00:25:08
长春大学学报 2023年8期
关键词:靶标相似性关联

吕 嫄

(芜湖职业技术学院 基础教学部,安徽 芜湖,241000)

近年来,药物重定位技术在药物研发领域的研究越来越受重视。与传统的药物研发相比,药物重定位显著降低了药物研发的时间和成本。同时,可以用于重定位的药物都是已经经过安全性测试的,所以也大大降低了药物研发失败的风险。在高通量测序技术的发展下,许多药物重定位的方法被提出。

目前,药物重定位的研究方法主要包括基于活体定位的方法、基于大数据挖掘定位的方法以及基于机器学习的方法。其中,基于机器学习的方法在药物重定位的研究中具有成本低、速度快的优点。其处理流程通常包含数据预处理、特征提取及筛选、模型训练和测试等步骤。特别地,机器学习方法又可细分为传统的机器学习方法和深度学习方法。传统的机器学习方法往往根据不同的统计学习方法训练药物重定位的模型,这方面有很多优秀的工作。CAO等[1]将药物-靶标相互作用预测转换为二元分类问题,利用生物和药物-靶标相互作用网络的信息训练随机森林模型,能够较好地预测药物-靶标的相互作用。PESKA等[2]通过贝叶斯排序矩阵分解预测药物与靶标的相互作用,加快了药物重新定位的过程。随着大数据挖掘技术的发展,传统的机器学习方法对于日益复杂的药物样本的特征学习的局限性逐渐凸显出来,而且此方法在特征选取上的步骤过于复杂,性能难以进一步提高。而基于深度学习的药物重定位方法解决了这一难题。深度学习拥有强大的特征学习能力,能够获取目标不同层次的表示信息,可以进一步提高机器学习算法在药物重定位问题上的性能。LI等[3]将药物与药物之间的相似性信息和疾病与疾病之间的相似性信息进行融合,构建成一个新的二维矩阵并映射到灰度图像中,再通过深度卷积神经网络学习图像的特征,识别潜在药物疾病之间的关联性。ZHAO等[4]将深度神经网络与多种传统机器学习方法在药物研发领域进行了系统性对比,在细胞筛选的活性数据、单个蛋白的活性数据、化合物物理化学性质等数据集上的综合评分表明,深度神经网络的性能表现优于支持向量机、线性回归和随机森林等传统的机器学习算法。然而,基于深度学习的算法往往需要大量的标签用于模型的训练,而这种标签的获取成本又往往较高,限制了深度神经网络的发展[5]。

近年来,图卷积神经网络在网络相关的预测任务上表现优异,引起了越来越多的关注[6-9]。ZHAO等[10]通过图卷积网络学习每个药物-蛋白质对的特征,并将其特征表示作为网络输入,构建了一个可以识别药物-药物关联和靶标-靶标关联的图模型,但是该方法忽略了药物与靶标之间的相互作用信息。YU等[11]提出了一种基于端到端的层注意力的图卷积网络,结合不同卷积层的嵌入与注意力机制,并将已知的药物-疾病关联网络、药物-药物相似性矩阵和疾病-疾病相似性矩阵集成到异构网络中,有效预测了药物与疾病之间的相关性,但是该方法没有详细区分药物和疾病的网络拓扑信息,在网络学习过程中会造成大量的信息丢失。MENG等[12]提出了一种新的加权双线性图卷积网络,将已知的药物-疾病关联,药物和疾病的邻域与邻域相互作用的信息整合到统一的表示中,充分提取了不同网络的信息,但是由于图卷积网络自身的不足,未能区分节点不同的邻居对节点自身的影响。

基于上述方法的优缺点,提出了一种基于异构图神经网络的深度学习方法,用来预测未知的药物和疾病关联,挖掘发现疾病的候选药物。通过并行融合药物-疾病关联网络、药物-药物相似性网络和疾病-疾病相似性网络的信息,有效地保留了各个网络的信息,同时针对图卷积神经网络提取信息能力的不足,加入图注意力网络,增强特征提取能力。实验结果表明,与现有的方法相比,HGNN实现了性能的显著提高。

2 方法

为了提高模型对药物样本的特征提取能力,提出了一种异构图神经网络—HGNN,其整体结构如图1所示。

图1 DRGNN的整体网络框架

2.1 构建异构网络

基于相似的药物或疾病具有相似的关联关系的假设,这里构建了3个矩阵,即已知药物-疾病关联网络、药物-药物相似性网络和疾病-疾病相似性网络。已知的药物-疾病关联网络表示为具有N种药物和M种疾病的图G,其邻接矩阵为A∈{0,1}N×M。如果药物ri与疾病dj相关,则Aij=1。如果药物ri和疾病dj之间的关联未知或未观察到,则Aij=0。

由于相似性矩阵包含了许多冗余的信息,因此通过采取K近邻的方法,构建了药物相似性网络Ar∈RN×N和疾病相似性网络Ad∈RM×M。将每种药物或疾病在相似性矩阵中前k(k=15)个值保持不变,其余值设置为0。

2.2 编码器

图神经网络(GNN)是神经网络在图数据上的推广,包括GCN,GAT等。其中,GCN是一种多层连接的神经网络架构,通过聚合邻居节点信息来从图结构数据中学习节点的低维表示。而GAT是一种基于图形结构数据的新型神经网络架构,通过引入自注意力机制,解决了GCN无法识别不同相邻节点重要性的缺陷。

DRGNN的编码器基于药物-药物,疾病-疾病相似性网络和药物-疾病关联网络,使用GCN和GAT相结合的特征提取器分别提取药物和疾病的嵌入,再融合不同网络的嵌入以获得药物和疾病的最终嵌入表示。

首先,我们将药物和疾病的嵌入初始化如下:

(1)

其次,特征提取模块定义如下:

(2)

图卷积运算表示为GCN(A,H,W),公式定义如下:

(3)

其中D=diag(∑jAij),σ(·)表示激活函数。

图注意力运算表示为GAT(A,H,W),公式定义如下:

(4)

(5)

堆叠多层的神经网络会导致常见的梯度消失问题[13]。因此,我们添加了一个跳跃连接,公式定义如下:

(6)

不同GCN层的嵌入捕获了输入图的不同级别的信息[14]。因此我们也在不同的GNN层引入了层注意力机制,通过自适应地学习不同层的权重,进一步提高特征提取能力。公式定义如下:

(7)

上式中HR和HD表示最终的药物和疾病嵌入,βl是第l层可学习的注意力权重。

2.3 解码器

采用内积译解码器来恢复药物和疾病之间的关联矩阵,公式定义如下:

(8)

2.4 优化器

已知药物-疾病关联对作为正样本,未知的药物-疾病对作为负样本。但已知药物-疾病关联的数量远远少于未知的药物-疾病对的数量。因此,HGNN通过最小化加权二进制交叉熵损失来学习参数,如下所示:

(9)

3 实验与结果分析

3.1 数据集

目前药物和疾病相关的数据库主要包括DrugBank[15]和OMIM[16]。DrugBank于2006年在艾伯塔大学的David Wishart博士的实验室中启动,是一个综合数据库,包含了大量药物及其靶标的信息。而OMIM是一个关于人类基因和遗传疾病文献信息的公共数据库,由维克多·麦库西克博士开始,作为人类孟德尔遗传的权威参考,现在由国家生物技术信息中心(NCBI)以电子方式分发。本工作分别从DrugBank和OMIM中提取了药物数据集Fdataset[17]和疾病数据集Cdataset[18]用于训练和测试模型,详细信息如表1所示。基于以往的研究,使用基于SMILES[19]的化学结构计算药物对的相似度矩阵Sr以及通过使用MimMiner[20]计算基于疾病表型的疾病对的相似性矩阵Sd。在数据划分时采用了10折交叉验证进行实验。即随机选择了数据集中10%已知的药物-疾病关联对和10%的未知药物-疾病关联对作为测试集;其余90%已知的药物-疾病关联对和90%未知药物-疾病关联对用于训练模型。

表1 数据集统计信息 种

3.2 基线方法

为了验证HGNN模型的有效性,将HGNN与4种最先进的药物重新定位方法进行了对比。

(1)DRIMC是一种基于贝叶斯诱导矩阵恢复的药物重新定位方法。

(2)DRRS基于已知药物-疾病关联,通过近似低秩矩阵预测疾病的治疗方法。

(3)NRLMF通过逻辑矩阵分解对药物与靶标相互作用的矩阵进行建模。

(4)DRWBNCF是一种新的加权双线性图卷积网络来预测药物和疾病关联。

3.3 实验结果与分析

本研究提出的HGNN算法使用了4层架构,每层包含64个隐藏单元。通过Adam优化器来优化模型,同时添加节点dropout和边缘dropout来增强模型的泛化性能。其中节点和边缘dropout分别设置为0.4和0.2,学习率为0.05,在所有实验中最大训练时间为400个Epoch。

为了评估HGNN的性能,采用了接受者操作特征曲线下面积(Area Under the Receiver Operating Characteristic,AUROC)和精确-召回曲线下的区域(Area Under the Precision Recall Curve,AUPRC)已广泛用于生物信息学研究,并用于评估HGNN的整体性能。所有模型在Fdataset上的实验结果如表2所示,相比4种对比方法中性能最强的NRLMF,HGNN的AUROC和AUPR指标分别提升了0.8%和4.8%。相比性能最差的DRIMC,AUROC和AUPR指标分别提升了3.1%和25.6%。表3是所有模型在Cdataset上的实验结果统计,HGNN的AUROC相较于第二名的NRLMF提升了1%,第五名的DRIMC提升了2.6%。而AUPRC相较于第二名的NRLMF提升了3.7%,第五名的DRIMC提升了26.1%。实验结果表明,HGNN的性能优于4个最先进的预测模型。

表2 Fdataset上的实验结果

表3 Cdataset上的实验结果

4 结论

本研究提出了一种基于异构图神经网络的深度学习方法(HGNN),用以预测未知的药物和疾病关联,挖掘发现疾病的候选药物。通过并行融合药物-疾病关联网络、药物-药物相似性网络和疾病-疾病相似性网络的信息,同时针对GCN提取信息能力的不足加入了GAT特征提取器,增强特征提取能力。实验表明,DRGNN优于当前先进的预测方法,对快速发现疾病的候选药物具有重要的意义。

虽然DRGNN取得了较好的结果,但该方法仍存在一定的局限性。首先,DRGNN在计算相似性矩阵方面只使用了单一的相似性矩阵以及没有使用其他关联网络,如药物和靶标,miRNA和靶标等等,在未来,我们考虑加入其他相似性矩阵和更多的关联网络来增强网络的性能。其次,DRGNN是基于相似的疾病与药物表现出相似的关联模式,但该假设的缺陷是当两个药物或疾病大部分特征都相似,只在局部的特征不同,而该特征在关联模式上起到重要作用,从相似性的角度,它们应该表现相似的关联模式,但实际表现却完全不同。为了避免这种缺陷,后面会考虑加入更多的药物和疾病的特征,增强网络的表达能力。最后,HGNN并行融合了多种异构网络,通过使用GCN和GAT相结合的特征提取器,充分提取有效信息,在预测未知的药物和疾病关联方面表现了很好的性能,提供疾病的候选药物,进一步指导湿实验,加速药物再利用。

猜你喜欢
靶标相似性关联
一类上三角算子矩阵的相似性与酉相似性
“百灵”一号超音速大机动靶标
浅析当代中西方绘画的相似性
河北画报(2020年8期)2020-10-27 02:54:20
纳米除草剂和靶标生物的相互作用
世界农药(2019年3期)2019-09-10 07:04:10
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
读者(2017年5期)2017-02-15 18:04:18
复杂场景中航天器靶标的快速识别
低渗透黏土中氯离子弥散作用离心模拟相似性
前列腺特异性膜抗原为靶标的放射免疫治疗进展
肿瘤影像学(2015年3期)2015-12-09 02:38:45