糖基化是蛋白质翻译后的一种非常重要的修饰过程,在生物学过程中扮演重要的角色,它能参与免疫防御,病毒复制,细胞生长等过程。蛋白质的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化,磷脂酰肌醇(GPI)锚区4种类型。糖蛋白的蛋白链与糖链通过共价键相连蛋的位点称为糖基化位点,对于给定的蛋白质,表达宿主细胞类型的改变,培养介质成分的变化,以及生产过程中的发酵条件都会使糖基化位点发生改变[1]。O-糖基化作为生物体内重要的生物过程,迄今为止还未发现固定的模式,它的糖基化位点的确切序列片段还不清楚,但通常存在于糖蛋白分子表面丝氨酸(Serine,S)或苏氨酸(Threonine,T)比较集中且周围常有脯氨酸(Proline,P)的序列片段中[2-3]。
虽然O-糖基化的研究还没有确定性的结果,但是许多基于实验和计算的方法已经被应用。Wilson等发现糖基化位点中脯氨酸在位置-1和+3有一个较高的频率[4],Elhammer等发现脯氨酸,丝氨酸和苏氨酸在糖基化位点的所有位点都有很高的频率[5]。
本文采用稀疏编码方案,对BP神经网络结构及其训练算法进行研究的基础上,提出了一种改进传统BP算法缺陷的动量梯度下降算法,运用BP神经网络对O-糖基化位点进行预测和分析。实验表明蛋白质序列特征向量的维数(蛋白质编码序列的长度)是影响预测性能的最主要因素。
本研究的实验数据来源于糖基化数据库Uniport(v8.0)[6]。我们随机挑选了哺乳动物的99个蛋白质序列用于分析。由于O-糖基化是将糖链转移到多肽链的丝氨酸、苏氨酸或羟赖氨酸的羟基的氧原子上,根据对S和T的特异性,将蛋白质序列分成四类,分别注释为糖基化的丝氨酸、苏氨酸称为positive T 和positive S,没有这种注释的称为negative T 和negative S。我们将所有的positive T 和positive S混合在一起称为positive set(糖基化位点),而negative T 和negative S称为negative set(非糖基化位点)。从每一类中随机选取300个样本用于训练,随机选取10个样本用于测试,实验样本数目如表1所示。
表1 样本数
没有编码的氨基酸序列不能被神经网络识别,预测前必须对原始的氨基酸序列进行编码。已经研究出许多种氨基酸编码方案,诸如3字母编码方案,5字母编码方案,水疗编码方案等。本文采用稀疏编码方案,用21位的二进制序列表示一个氨基酸或一个空位,以区分20种氨基酸和空位。每一个被选择的氨基酸序列被一个窗口分成若干个子序列,S或T位于中间。
假设一个原始的氨基酸序列窗口大小为Ws,编码后的序列的长度即为21*(Ws-1)。窗口大小和相应的编码长度如表2所示。可知,随着窗口Ws的增大,特征向量的维数D也增大,当Ws=51时,D=1050。
表2 窗口大小与编码长度
糖链的生物合成没有模板可以遵循,同一个糖基化位点可能存在不同的糖链形成所谓的微观不均匀性。我们计算氨基酸序列在每一个位点的直方图得到位置概率函数(Positional Probability Functions,PPFS)来表示这种不均匀性。窗口大小Ws=7的糖基化位点和非糖基化位点的PPF如图1如示。由图可见,糖基化位点中所有的位点不仅脯氨酸,而且丝氨酸,苏氨酸和丙胺酸(alanine,A)都有一个很高的含量;并且糖基化位点中脯氨酸,丝氨酸,苏氨酸和丙胺酸的含量高于非糖基化位点的含量。我们也计算脯氨酸,丝氨酸,苏氨酸和丙胺酸在每一个位点的PPFS,如图2-图5所示。很明显,糖基化位点中脯氨酸在位置-1和+3相对于其他的三种氨基酸有一个较高的含量,此结果与Wilson的研究结果一致。
图1 位置概率函数(PPFS,Ws =7)
BP(Back Propagation)神经网络是多层前馈神经网络最普遍的模型之一,基本结构分为输入层,隐含层,输出层三层。BP神经网络最初使用梯度下降搜索技术,对网络连接权值进行修正,使网络实际输出与期望输出之间的均方误差最小[6,7]。设第P个学习样本,期望输出为dpj,实际输出为tpj,网络输出与期望输出间的误差为:
如果E值超过误差许可范围,则需要调整网络的权值,权值修正公式如下:
其中n为学习速率。
传统BP网络训练时间较长,学习性能不理想,为了提高检测的性能和速度,本研究运用动量梯度下降反向传播算法,综合运用本次训练和上一次训练权值的改变修正权值,以平滑训练收敛曲线的震荡,提高网络的收敛性能。
第K次训练的权值公式为:
其中D(k)表示k时刻的负梯度,η为学习速度,α∈[0,1]是动量因子。
此方法所加入的动量项实质上相当于阻尼项,它能减小学习过程的振荡趋势以改善收敛性。
糖基化位点的预测在本研究中是一个二分类问题,我们建立一个三层的BP神经网络进行预测。根据不同的窗口大小,输入到网络的是不同编码长度的蛋白质序列,输出为与此序列相关的糖基化信息。输入层神经元的数目等于特征向量维数,隐含层神经元的数目根据实验确定,隐含层和输出层的转换函数是sigmoid型的激活函数。
实验中从糖基化位点和非糖基化位点中随机选取300个样本序列用于训练,选取10个测试样本用于测试。如果蛋白质序列长度太短,对于同一个序列有可能出现糖基化或非糖基化的情况,即使对于训练数据,网络也不能有效地学习。因此,我们取Ws=7,11,21,31,41,51进行实验,训练时间和预测性能如图6和图7所示。由实验结果可知,当Ws增大时,特征向量的维数随着增大,预测时间延长,预测性能提高。
图2 脯氨酸的PPF
图3 苏氨酸的PPF
图4 丙胺酸的PPF
图5 丝氨酸的PPF
图6 预测性能
图7 训练时间
本文采用稀疏编码方案,对BP神经网络结构及其训练算法进行研究的基础上,提出了一种改进传统BP学习算法缺陷的动量梯度下降算法,运用改进的BP神经网络对O-糖基化位点进行预测和分析。分析表明,预测性能与蛋白质序列特征向量的维数(蛋白质编码序列的长度)直接相关。当窗口的大小控制在一定范围时训练速度快,误差较小,具有很好的预测性能,随着窗口大小的增大,网络变得越来越复杂,训练时间延长,有可能出现局部优化或过拟合的倾向。因此,我们下一步的目标一方面是探索其他的编码方式,另一方面是对蛋白质序列进行特征提取,降低神经网络的复杂度,更好地发挥神经网络的预测性能。
[1]Hart,G.W.Glycosylation,Curr.Opin [J].Cell Bio,1992,(17):1017-1023.
[2]Hansen,J.E.,Lund,O.,Engelbrecht,J,et al.specificity patterns of UDP-GaINAc:polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,(308):801-813.
[3]Julenius,K.,Molgaard,A.,Gupta,R.,et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J],Glycobiology.2004,(15):153-164.
[4]Wilson,I.B.H.,Gavel,Y.,and Heijne,G.:Amino acid distributions around O-linked glycosylation sites,Biochem.J.,1991,(275):529-534.
[5]Elhammer,A.P.,Poorman,R.A.,Brown,E.et al.The specificity of UDP-Ga1NAc:polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J],Biol.Chem.1998,(268):10029-10038.
[6]http://www.ebi.uniprot.
[7]Bishop,C.M.:Neural Network for Pattern Recognition [M].Oxford.Oxford University Press,1995.
[8]阎平凡,张长水.人工神经网络与模拟进化计算[M].北京清华大学出版社,2004.