张奕,郑婧,蔡钢生,王真梅
(1.桂林理工大学 信息科学与工程学院,广西 桂林 541004;2.广西嵌入式技术与智能系统重点实验室,广西 桂林 541004)
长链非编码RNA(long non-coding RNA,lncRNA)是非编码RNA 家族中的一个组成部分,它拥有长度超过200 个核苷酸的转录产物[1]。研究表明lncRNA 异常表达会导致多种复杂疾病。探寻导致疾病的lncRNA,有助于理解疾病产生的机理,为疾病治疗及预后提供参考[2]。
由于生物实验费时费力,在现实生活中大多采用可计算模型代替生物实验来实现lncRNA-疾病的关联预测,为生物实验提供高效的更准确的候选项。目前,常用基于生物网络和基于机器学习这两类计算方法预测lncRNA-疾病关联。
基于生物网络的方法通常需要构建基因相似性网络,构建完成后,根据lncRNA-疾病的关联得分大小对候选的lncRNA 进行排序来预测致病基因。最常用的是标签传播算法,如重启随机游走和KATZ 算法,它们的主要区别在于不同的传播算法应用的底层网络不同。文献[3]根据lncRNA 功能相似性网络建立了全局的重启随机游走算法RWRlncD,从而对潜在的关联信息进行预测。但是该模型不能预测没有任何已知相关lncRNA 的新疾病或没有任何已知相关疾病的孤立lncRNA。文献[4]基于“与多种相同miRNA 有关的lncRNA 会导致相似疾病”这一生物假设建立了RWRHLD 模型,从而预测lncRNA-疾病的关联信息。该模型将miRNA 信息加入到lncRNA-lncRNA 网络中,与疾病相似性网络和已知的lncRNA-疾病关联网络整合成新网络,在这个新网络中实施重启随机游走。但是该模型不适用于预测没有已知lncRNA-miRNA 相互作用的lncRNA,模型实用性较差。文献[5]结合已知的lncRNA-疾病关联、lncRNA 表达谱、lncRNA 功能相似性、疾病语义相似性和高斯相互作用谱核相似性建立基于KATZ 的lncRNA-疾病关联预测模型KATZLDA。虽然该模型可以发现新疾病或孤立lncRNA,但是模型预测精度不高。
基于机器学习的方法是根据与疾病相关的已知lncRNA 和没有任何已知关联的lncRNA-疾病对来训练分类器和建立模型的。文献[6]将已知的疾病-lncRNA 关联和lncRNA 表达谱信息进行整合,构建了LRLSLDA 计算模型来预测潜在的lncRNA-疾病关联。该模型不需要负样本且适用于预测孤立lncRNA,但是模型最优参数的选取复杂,且模型分别将疾病空间和lncRNA 空间作为两个分类器,对于同一个lncRNA-疾病对会产生两个不同的得分,不同分数的选取会得出不同的预测结果。文献[7]基于贝叶斯算法整合已知的与疾病相关的lncRNA 和多种生物学数据(基因组数据、调控和转录生物数据),预测潜在的lncRNA-疾病关联。该模型虽然预测性能良好,但是贝叶斯分类器想要提高预测性能必须使用足够多的负样本,而此类研究缺少负样本,随机选择负样本不利于优化贝叶斯分类器的性能。文献[8]提出基于矩阵分解的lncRNA-疾病关联预测模型MFLDA。该模型通过矩阵分解将数据转换为低秩矩阵,不同的数据拥有各自的权重,并进一步引入迭代解,同时对权重矩阵和低秩矩阵进行优化。优化后得到的矩阵用来重建lncRNA-疾病关联,从而预测出潜在的lncRNA-疾病关联。MFLDA 具有较好的适用性,很容易集成各种异构数据源来预测不同类型实体之间的关联,但是该模型寻找低秩矩阵最优秩过程复杂,且模型更偏向于选择稀疏的数据矩阵,导致模型预测精度不高。
为弥补上述不足,深度学习技术逐渐成为研究的热点。图作为一种能够抽象出实体与实体之间关系的数据结构得到广泛应用[9],图结构可以将节点与节点间的关系通过边的权重表现出来。目前,图神经网络主要应用于相邻节点间的信息传递和汇聚。文献[10]将图神经网络中的双向门控循环网络和标签注意力机制结合,提出基于图深度学习的金融文本多标签分类算法,提升了文本分类性能。文献[11]在动态网络异常检测中引入图神经网络,使得结构和属性上的异常可以同时被获知,提升了异常检测的准确度。文献[12]将图神经网络应用到会话序列推荐算法中,引入注意力机制,提出基于复杂结构信息的图神经网络序列推荐算法,提升了会话向量在推荐过程中的准确性。文献[13]将图神经网络用于网络中物理链路与路由方案路径建模,实现了对延迟抖动等端到端性能指标的有效预估。
近年来,图注意力网络(Graph Attention Network,GAT)[14-15]也被应用于一些生物信息学任务中,如文献[16]提出一种新的基于图注意力网络的方法GATMDA 识别微生物-疾病关联,文献[17]基于图注意力网络提出预测circRNA-疾病关联的方法GATCDA,文献[18]基于图注意力网络预测药物ADMET 分类。但截止到目前,较少有使用图注意力网络进行lncRNA-疾病关联预测的工作。另一方面,归纳矩阵补全(Inductive Martix Completion,IMC)技术广泛应用于生物信息领域[19-21],但也普遍存在预测精度不高的问题。如何更好地将生物信息相似性网络与归纳矩阵补全技术相结合,进一步提升预测性能,是有待研究的一个问题。
本文提出一种基于图注意力网络和归纳矩阵补全技术的双融合机制lncRNA-疾病关联预测模型(Dual Fusion Mechanism Prediction model for lncRNADisease Association,DFMP-LDA)。引入n头注意力机制,设计带有双重聚合器的图注意力网络。传统的图注意力网络虽然可以稳定自我注意的过程,但由于节点的独立性,训练后的节点特征不明显,本文通过设计双重聚合器增强lncRNA 节点与疾病节点特征,避免传统可计算模型中因已知数据稀疏性导致预测精度不高的问题。在此基础上,利用归纳矩阵补全技术恢复lncRNA-疾病关联矩阵中缺失的元素,应用增强后的节点特征重建lncRNA-疾病关联,并使用Adam 优化器[22]进一步提高预测精度。
如图1 所示,DFMP-LDA 模型框架主要包括3 个步骤,具体如下:
图1 DFMP-LDA 模型框架Fig.1 Framework of DFMP-LDA model
1)相似性网络建立。整合疾病集成相似性网络∈Rnd×nd和lncRNA 集成相似性网络∈Rnl×nl,得到lncRNA-疾病的特征矩阵X∈R(nl+nd)×(nl+nd)。其中,nl和nd代表lncRNA 和疾病的数量。
2)lncRNA 特征、疾病特征增强。使用带有双重聚合器的n头图注意力网络训练特征矩阵X,先计算矩阵X中任意节点i与邻居节点集的注意力分数,再将节点i的特征和邻居节点集特征进行“加”和“连接”双重聚合操作,得到带有注意力分数的特征矩阵Z∈R(nl+nd)×(nl+nd)。
3)lncRNA-疾病关联重建。将第2)步得到的特征矩阵Z进行分解,得到疾病特征矩阵ZD∈Rnd×(nl+nd)和lncRNA特征矩阵ZD∈Rnl×(nl+nd),通过归纳矩阵补全技术重建原始ALD关联网络,得到新的补全后的lncRNA-疾病关联Q∈Rnl×nd,再通过Adam优化器进行模型优化。
1.2.1 疾病语义相似性网络建立
利用文献[23]提出的有向无环图(Directed Acyclic Graph,DAG)计算疾病之间的语义相似性。任意疾病dt对疾病di的语义贡献值用(dt)表示,计算公式如下:
其中:参数γ为语义贡献系数,参考文献[23]的研究结果,将γ设为其最优值0.5。
由文献[23]可知,两种疾病的DAG 图的重叠部分越多,两者相似程度越高。矩阵DS∈Rnd×nd表示疾病语义相似性网络,矩阵元素DS(di,dj)表示疾病di和dj的语义相似性,计算公式如下:
其中:表示疾病di的DAG 图;S(di)表示疾病di的语义值。S(di)计算公式如下:
1.2.2 lncRNA 功能相似性网络建立
由文献[23]可知,功能相似的lncRNA 往往与表型相似的疾病有关,计算两个lncRNA 的功能相似性首先要理解疾病的语义相似性及其与lncRNA之间的关系。用集合D={d1,d2,…,dt,…,dnd}表示疾病集,max(dt,D)表示任意疾病dt在疾病集合D中语义相似性最大值,如式(4)所示:
矩阵FS∈Rnl×nl表示lncRNA 功能相似性网络,矩阵元素FS(li,lj)表示lncRNAli和lj之间的功能相似性,计算公式如式(5)所示:
其中:集合D1表示与lncRNAli有关联的疾病集合;集合D2表示与lncRNAlj有关联的疾病集合;m、n分别表示集合D1和集合D2中疾病的数目。
1.2.3 高斯谱核相似性网络建立
如果疾病di与lncRNAlj存在经实验验证的已知关联,则定义IP(di)=1;如果疾病di与任何lncRNA都不存在经实验验证的已知关联,则定义IP(di)=0。因为某些疾病不具备语义相似性,所以为了降低数据稀疏性对模型的影响,将高斯核函数[24]应用到生物信息节点之间拓扑结构的关联关系网络中。核函数在机器学习以及诸多生物信息分类中被证实是高效有用的方法,使用高斯核函数计算出的疾病高斯谱核相似性(以下简称高斯相似性)可以代替疾病语义相似性。矩阵GD∈Rnd×nd表示疾病的高斯相似性网络,矩阵元素GD(di,dj)表示疾病di和疾病dj的高斯相似性,计算公式如式(6)所示:
在式(6)中,λD是标准化的核带宽,计算公式如式(7)所示:
同理,用矩阵GL∈Rnl×nl表示lncRNA 的高斯相似性网络,矩阵元素GL(li,lj)表示lncRNAli和lj的高斯相似性,计算公式如式(8)所示:
在式(8)中,λl是标准化的核带宽,计算公式如式(9)所示:
1.2.4 集成相似性网络建立
由于并非所有疾病都可以找到相关的lncRNA,如果给定疾病缺乏相关基因,将无法得到该疾病与其他疾病的语义相似性。为了提高疾病语义相似性的准确性,将疾病的高斯相似性和疾病语义相似性进行集成。如果疾病di与疾病dj之间存在语义相似性,则将di与dj之间的语义相似性定义为疾病语义相似性DS(di,dj)和疾病高斯相似性GD(di,dj)的平均值,否则等于疾病高斯相似性GD(di,dj),由此得到疾病集成相似性网络,矩阵元素(di,dj)表示疾病di与dj的集成相似性,计算公式如式(10)所示:
同理,用矩阵表示lncRNA 集成相似性网络,矩阵元素(li,lj)表示lncRNAli和lj的集成相似性,计算公式如式(11)所示:
将疾病集成相似性网络和lncRNA 集成相似性网络结合,定义对角矩阵X表示lncRNA-疾病的特征矩阵,用于后续的模型计算。矩阵X如式(12)所示:
1.3.1 带有双重聚合器的n头图注意力网络构建
原始图注意力网络通过注意力分数在节点更新时自适应聚合邻居节点信息,通过为不同的邻居节点分配不同的权重来学习图上节点的表示。GAT 利用多头注意力机制稳定自我注意的过程,每个注意头采用“连接”的方式聚合特征,对于特征向量的提取效果还有待改进。为更好地提取lncRNA 特征向量和疾病特征向量,根据文献[16]设计带有双重聚合器的n头图注意力网络,在每个注意头设计中加入双重聚合器,对节点特征进行“加”和“连接”双重操作,并将前一个注意头的输出特征作为下一个注意头的输入特征,经过n次迭代,构造出带有双重聚合器的n头图注意力网络,达到强化节点间特征的目的。
1.3.2 注意头中的特征增强过程
在注意头中,特征增强过程具体如下:
1)注意特征训练层
在特征矩阵X中任选一个元素作为节点i,根据图注意力网络的设计思想,计算节点i的邻居节点j对节点i在第k次迭代中的注意力分数,计算公式如下:
其中:f(·)表示单层神经网络;表示节点i在第k次(1≤k≤n)迭代过程中的特征向量;W∈R(nl+nd)×l表示权重矩阵。
为了使特征矩阵X中所有节点的注意力分数值在[0,1]区间,使用Softmax 函数进行标准化,标准化后的注意力分数用表示,计算公式如式(14)所示:
其中:Ni表示矩阵X中节点i的邻居节点集合。
表示节点i在第k次迭代时邻居节点集特征,计算公式如式(15)所示:
2)神经特征聚合层
在原始图注意力网络中,神经特征聚合层仅仅是将注意特征训练层的特征进行“连接”操作,为增强节点特征,本文在注意特征训练层得到节点i在第k次迭代时的邻居节点集特征后,根据文献[16]设计双重聚合器,通过“加”和“连接”双重聚合操作,实现对特征和的聚合。以Zk表示第k次聚合后的特征向量,计算公式如下:
其中:LeakyReLU(·)表示激活函数;“+”表示加操作;“||”表示连接操作;W1∈R(nl+nd)×k表示权重矩阵。
最后,每次聚合后的特征Zk经过n头图注意力网络,得到最终的特征矩阵Z:
其中:ZD表示疾病特征矩阵;ZL表示lncRNA特征矩阵。
注:特征矩阵Z是原始特征矩阵X经过n头图注意力网络得到的,故特征矩阵Z的前nd行表示疾病特征矩阵,其维数为nd×(nl+nd),其余行表示lncRNA 特征矩阵。
在lncRNA-疾病关联预测方面,研究者常采用矩阵补全的方式,用低秩的关联矩阵表示lncRNA-疾病的关联关系,通过较少的已知关联恢复原始矩阵[25]。但传统的矩阵补全技术依赖于现存的lncRNA-疾病关联进行预测,由于关联矩阵中存在整行、整列数据缺失的情况,会导致冷启动发生,因此不能达到理想的预测效果。DFMP-LDA 采用归纳式矩阵补全技术,打破传统矩阵补全的局限,使矩阵补全不只是单纯依赖关联矩阵,而是还加入了样本和未标记信息,实现预测未知样本的功能。
DFMP-LDA 模型使用上一步推导得到的疾病特征向量ZD和lncRNA 特征向量ZL补全已知的关联矩阵ALD,重建lncRNA-疾病关联,得到补全后的关联矩阵Q,计算公式如下:
在此基础上,通过最小化损失函数实现参数训练,根据文献[22],选择Adam 优化器对矩阵Q进行优化,具体优化过程如下:
其中:L表示损失函数;η表示衰减系数;λ表示平衡正则项的平衡因子,其值设置为1;W2表示权重矩阵。
对原始数据库LncRNA Disease v2.0[26]进行预处理,收集与人类疾病关系密切的lncRNA 及其关联,去除重复疾病和lncRNA,最终得到本文使用的数据集Dataset1。Dataset1中含有352个经实验验证的lncRNA-疾病已知关联对,涉及156 种lncRNA 和190 种疾病。为了建立模型,用矩阵Ald表示352 个已知的lncRNA-疾病关联,nl和nd代表lncRNA 和疾病的数量。矩阵元素ALD(i,j)=1,表示lncRNAli与疾病dj之间存在经实验验证的已知关联;矩阵元素ALD(i,j)=0,表示lncRNAli与疾病dj之间不存在经实验验证的已知关联。所有实验均在配置Intel Core i5-10210U,1.60 GHz CPU和64位处理器以及Windows 10 操作系统的计算机上完成。
本文采用五折交叉验证法,将已知的lncRNA-疾病关联随机分成5组,实验过程中依次选择1组lncRNA-疾病关联(即正样本)和1 组相同大小的未知关联lncRNA-疾病对(即负样本)作为测试样本,剩下的4 组lncRNA-疾病关联以及其余未知lncRNA-疾病对用来训练模型。通过设置不同的阈值,获得真阳率(True Positive Rate,TPR)、假阳率(False Positive Rate,FPR)、召回率、精度4 个模型评价指标,根据这4 个评价指标绘制ROC 曲线和PR 曲线,模型性能通过ROC 曲线下面积(AUC)和PR 曲线下面积(AUPR)衡量。为了避免随机分组的影响,每组实验重复进行10 次,最后根据10 次重复实验的平均值计算AUC 值和AUPR 值。
本节分析注意头数目n和Adam 优化器中衰减系数η对模型DFMP-LDA 预测性能的影响。首先根据文献[16]将注意头数目n设置为4,分析衰减系数η对DFMP-LDA 的影响。将参数值η从5E-6 增加到5E-1(步长为E-1),对数据集Dataset1 执行五折交叉验证,得到的AUC值如图2所示。可以看出,当η为5E-3时,AUC值为最优值0.9528;当η为5E-2时,得到AUC的最小值0.822 8。类似地,将η设置为5E-3 后,改变注意头数目n,发现当n为5 时,得到最优值0.932 2,如图3 所示。综合以上两步,通过设置注意头数目n为5,衰减系数η为5E-3,DFMP-LDA获得最佳AUC 值0.932 2。
图2 不同衰减系数下的AUC值Fig.2 AUC values under different delay factors
图3 不同数目注意头下的AUC值Fig.3 AUC values under different number of attention heads
将DFMP-LDA与现有的3种基于机器学习和基于矩阵分解的计算方法SDLDA[27]、DMF-LDA[28]、TPGLDA[29]在相同的数据集Dataset1上进行比较。SDLDA使用奇异值分解提取lncRNA和疾病的线性特征,使用具有2 个完全连接层的神经网络学习lncRNA和疾病的非线性特征,将线性特征和非线性特征结合成一个向量用于最终预测。DMF-LDA 使用带有一系列非线性隐藏层的神经网络,从lncRNA-疾病关联矩阵中提取lncRNA 和疾病的潜在特征,然后将这2 个特征融合成一个新的向量,用其执行预测任务。TPGLDA将基因疾病关联与lncRNA 疾病关联相结合,基于分配算法预测潜在的lncRNA 疾病关联。五折交叉验证后,得到DFMP-LDA 与其他3 种模型的ROC 曲线、PR 曲线、AUC 值、AUPR 值和预测时间,分别如图4、图5 和表1 所示。
图4 DFMP-LDA 与其他模型的ROC 曲线Fig.4 ROC curves of DFMP-LDA and other models
图5 DFMP-LDA 与其他模型的PR 曲线Fig.5 PR curves of DFMP-LDA and other models
表1 DFMP-LDA 与其他模型的预测性能对比Table 1 Prediction performance comparison of DFMP-LDA and other models
由表1 可知,从AUC 值和AUPR 值来看,DFMPLDA的预测性能优于SDLDA和DMFLDA,虽然DFMPLDA 的AUC 值比TPGLDA 低了0.76%,但是AUPR 值比TPGLDA 高1.75%,而且在预测时间上DFMP-LDA较TPGLDA 节省了16.12%。从AUC 值、AUPR 值和预测时间3 个方面得出,DFMP-LDA 的综合性能最优。
本文建立一种融合图注意力网络和归纳矩阵补全技术的lncRNA-疾病关联预测模型,该模型利用图注意力网络的n头注意力机制对节点及其邻居节点集特征进行加权,并通过注意头中的双重聚合操作进一步增强节点特征。在此基础上,增强后的特征矩阵输入到归纳矩阵补全过程中,补全原始关联矩阵中缺失元素,重建lncRNA-疾病关联网络。五折交叉验证结果显示,DFMP-LDA 与对比的3 种计算模型相比AUPR值最优,AUC 值分别比SDLDA 模型和DMFLDA 模型高7.64%、10.18%,虽然AUC 略低于TPGLDA 模型,但是预测时间节省了16.12%。以上结果显示,DFMP-LDA模型是一个可靠的lncRNA-疾病关联预测模型。
如何整合多种lncRNA 和疾病的生物信息是未来主要的研究方向。此外,因为无法获得新lncRNA和孤立疾病的特征,所以DFMP-LDA 不能对这些基因和疾病进行预测。后续将考虑结合基因测序等手段收集更多的生物信息,同时对聚合器进行优化,进一步提高预测准确性。