梅 杰 何如吉 吕 强
(苏州大学计算机科学与技术学院 江苏 苏州 215006)(江苏省计算机信息处理技术重点实验室 江苏 苏州 215006)
RNA和RNA结合蛋白(RNA Binding Proteins,RBP)的交互作用是理解转录后调控机制的关键,对蛋白质合成、基因融合和可变mRNA加工具有广泛的影响[1-3]。RNA-蛋白质结合位点预测是指仅以RNA作为模型输入,并为每一个RBP训练一个模型用于预测RBP是否结合于输入的RNA。得益于高通量测序技术的高速发展如CLIP-Seq[4],数以百计的RBP对应的大量RNA-蛋白质结合位点得以发现[5-8]。因此,通过机器学习方法预测RNA上的RNA-蛋白质结合位点成为了当前的研究热点。其中深度学习相比传统机器学习方法由于无需特征工程即可获得良好的性能,近年来被广泛应用到此问题上。
DeepBind第一个将卷积神经网络(Convolutional Neural Network,CNN)用于提取RNA序列特征,在当时取得了突破性的进展[9]。随后,沈红斌课题组的系列模型(iDeep[10]、iDeepM[11]、iDeepA[12]、iDeepV[13]、iDeepE[14]、iDeepS[15]和CRIP[16])及Deepnet-rbp[17]、mmCNN[18]、CircSLNN[19]等模型运用深度学习方法对RNA-蛋白质结合位点预测问题进行了广泛而深入的研究,包括长短时记忆网络[20](Long Short-Term Memory,LSTM)、残差神经网络[21](Residual Network,ResNet)及注意力机制[22](Attention Mechanism)等方法都陆续被使用。尽管如此,这些方法都没有考虑将RBP本身作为模型的输入之一从而进一步扩大数据集并挖掘不同RNA-蛋白质结合位点问题的联系。
从更高的视角来看,不同于RNA-蛋白质结合位点问题,RNA-蛋白质交互作用对问题同时需要RNA和RBP以一定形式作为输入。由于同时获取RNA和RBP数据的成本高昂,有限的数据量使得端到端的深度学习方法仍不能有效应用于这一问题[23]。而尽管高通量测序技术可以获得单个RBP在特定细胞系和组织下的大量RNA-蛋白质结合位点,但将不同体内环境下的RNA-蛋白质结合位点进一步整合并构建更大的数据集可以进一步发挥深度学习模型的优势。另一方面,模型通过对其他RNA-蛋白质结合位点数据的学习可能挖掘出与自身有关的知识。如在命名实体识别任务中,BioNER通过整合不同类型实体的数据集取得了性能的提升[24]。因此,本文提出一个整合不同CLIP数据的模型,并将RBP实验编号以独热编码的形式作为模型的输入之一用来区别RNA序列将被哪个RBP结合。
在评估该模型效果时,将该模型在两个RNA-蛋白质结合位点预测的权威数据集上与其他模型进行对比,结果表明该模型在这两个数据集上相比其他模型均具有一定优势。
本文提出的模型将不同RBP对应的实验数据合并作为本模型的数据集,将RNA序列和RBP的实验编号作为输入并最终输出对两者结合概率的预测,模型结构如图1所示。
图1 模型结构
RNA序列以独热编码的形式表示,对于序列不等长的数据集,取训练集中序列的最大长度n作为序列的输入长度,并对长度不足的序列两端以N补齐,其中N=[0.25,0.25,0.25,0.25]。RBP实验编号的输入向量宽度与训练集中的实验总数m一致,如RBP实验编号为0的独热编码表示为第0位为1而其他m-1位均为0的向量。
将RNA序列的独热编码作为卷积层的输入。第k个卷积核对齐到RNA序列位置i的输出如式(1)所示。
(1)
式中:S是RNA序列的独热编码表示,它是一个n×4的矩阵;Mk表示第k个卷积核的权重矩阵;b取值为1到4,表示A、U、C和G四种碱基,l表示卷积核长度;1≤i≤n-l+1且1≤k≤f,其中f指卷积核的数量。按以上步骤依次计算f个卷积核对RNA序列的输出,则能得到一个大小为n×f的矩阵,即为CNN的输出。一个卷积核就相当于一个特征选择器,这里卷积运算用于学习RNA序列的局部特征,类比于图像处理任务中的卷积运算得到图像特征。
CNN层卷积处理后,应用修正线性单元(Rectified Linear Unit,ReLU)激活函数和批量归一化层处理[25](Batch Normalization,BN)。ReLU可以对CNN的输出进行非线性形变,批量归一化层则可以加速模型收敛,并在一定程度上避免过拟合。
然后使用双向门控神经单元[26](Bidirectional Gated Recurrent Unit,Bi-GRU)进一步提取RNA序列的全局特征。考虑到RBP对RNA序列的结合在生物学上并没有一定的方向,所以这里使用双向的设计。
一个GRU对于t时的输入xt按式(2)-式(5)进行运算。而Bi-GRU包含正反两个方向的GRU,它们在t时的输出按式(6)合并。
zt=σ(Wz×[ht-1,xt])
(2)
rt=σ(Wr×[ht-1,xt])
(3)
(4)
(5)
(6)
Bi-GRU的输出经过全局最大池化层,得到了代表序列信息的特征向量。将特征向量与RBP实验的独热编码拼接起来,作为一个两层均带Dropout[27]的全连接层的输入,它的输出经过一个Sigmoid单元得到一个0到1之间的预测值,表示RNA序列在RBP实验中的结合概率。
为了评估本文模型的性能,本文选择在RNA-蛋白质结合位点问题的两个权威数据集(RBP-24和RBP-31)上与其他模型进行对比。
RBP-24可在GraphProt[28]处下载,它由24个CLIP实验组成并包含了21个不同的RBP。24个实验中每个实验的数据量不同,将24个实验的训练集合并并打乱后作为模型的训练集,总计包含约120万个样本,训练集序列的长度范围在38个碱基对到375个碱基对之间。由于CLIP数据仅包含正样本(即结合序列),GraphProt通过打乱结合序列顺序的方式提供了数量相当的负序列。
RBP-31可在iONMF[29]处下载,它由31个CLIP实验组成并包含了19个RBP。iONMF为每个CLIP实验提供了划分好的三组交叉验证数据,每组数据的训练集为30 000条,测试集为10 000条。iONMF选择使用基因组上未被任何RBP结合的序列作为负序列,训练集和测试集的正负样本比例均为1 ∶4,序列长度为固定的101个碱基对。
两组数据均以AUC(Area Under the ROC Curve)作为评价指标,见式(7)。
(7)
式中:M是正样本的数量;N是负样本的数量;positiveClass是正样本的集合;通过对正样本预测值进行排序,正样本的最小预测值对应为rank1,以此类推ranki。
实验机器硬件配置为:CPU为两块Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10 GHz,GPU为三块GeForce GTX 1080 Ti(每次训练只使用一块),内存大小为128 GB。模型是由Keras 2.2.2以TensorFlow 1.9.0为后端(backend)编程实现的。
本模型在RBP-24和RBP-31数据集上的主要参数设置分别如表1所示。权重和偏置均为Keras 2.2.2的默认设置。本模型的损失函数为交叉熵损失函数(CrossEntropy Loss),优化器选择了Adam[30],学习率初始值是0.001。同时,本文还使用了早停技术及时中断训练,同时设置了检查点来保存验证损失最小的模型。
表1 模型主要超参数
本模型在RBP-24测试集上计算的AUC分布与其他模型对比的结果如图2所示,对比模型的结果均来源于公开发表的论文。其中仅以序列作为输入而不使用其他外源数据(如RNA的二/三级结构、region type和clip-cobinding等)的模型均以*标记,是对比的主要对象。特别要说明的是,Deepnet-rbp在原文中同时提供了仅以RNA序列作为输入的结果,以及以RNA序列和RNA三级结构作为输入的结果,本文使用的是前者。图2中竖线表示模型在RBP-24测试集上24个RNA-蛋白质结合位点预测的AUC的平均值;圆圈为异常值,表示模型在某个测试集上的表现显著低于其他测试集。
可以看出,本模型的预测结果整体分布较好,下界和均值分别是84.7%和93.9%,分别比iDeepE高出了8.9百分点和0.8百分点。
本模型在RBP-31测试集上计算的AUC分布和其他模型对比的结果如图3所示。可以看到,使用传统机器学习方法的GraphProt和iONMF尽管使用了RNA序列之外的数据源,相比深度学习方法仍然没有优势。而在所有仅以RNA序列作为输入的模型中,本模型的平均AUC为87.3%排名第一,比DeeperBind[31]高出1.6百分点,甚至比额外使用了RNA结构信息的iDeepS还要高1.2百分点,与iDeepS的成对t-检验的单尾p-value远小于1百分点,具有显著差异性。而iDeep使用了RNA序列信息、结构信息、region type motif及clip-cobinding作为模型输入,相比本文模型仍然有较大优势。
图3 不同模型在RBP-31测试集上的AUC分布
从RBP-24和RBP-31的对比结果来看,本文模型相比现有的仅以RNA序列作为输入的模型具有一定优势。本文在处理RNA序列信息时使用了独热编码+CNN+Bi-GRU的结构,这与DeeperBind的独热编码+CNN+LSTM及iDeepS的独热编码+CNN+Bi-LSTM均较为相似。但是,本文模型在RBP-31上却取得了更好的结果,这说明了由于不同的RNA-蛋白质结合位点问题中存在着公共知识,具有生物学上的相关性,通过对其他RNA-蛋白质结合位点任务的学习确实带来了目标任务的性能提升。同时,本文模型在参数规模上也有一定优势。以iDeepS为例,它的卷积核数为16个,那么在RBP-31上的总卷积核数为496个,而本文模型仅使用了80个卷积核,这表明本文模型更有效地利用了模型参数。另外,从表1可以发现,尽管RBP-24和RBP-31在RNA序列长度上存在巨大差别,数据规模和RBP实验数量也有不同,但是本文提出的模型却可以以一套相同的超参数在两个数据集上均取得出色的成绩,这说明本文模型具有较强的泛化性能,不易过拟合,这也与训练集的规模扩大有关。
本文提出的模型通过CNN-GRU结构提取RNA的序列特征,并通过将RBP的实验编号以独热编码的形式作为模型的另一输入,扩展了模型训练集的规模,深挖不同RNA-蛋白质结合位点问题的公共知识,进一步发挥了深度学习模型的优势。在RNA-蛋白质结合位点预测任务中,本文模型在RBP-24和RBP-31这两个数据集上均取得了比其他模型更好的结果。但是,如此大规模的训练集对于RNA-蛋白质结合位点预测问题是一个相对陌生的领域,尽管使用CNN-GRU这一结构已经取得了一定进步,但是如何使用更复杂的技术、更深的网络模型去充分挖掘数据中的信息仍然有进一步研究的空间。