基于BP神经网络的O-糖基化位点的预测和模式分析

2011-02-19 07:49

制造业自动化 2011年2期

0 引言

糖基化是蛋白质翻译后的一种非常重要的修饰过程，在生物学过程中扮演重要的角色，它能参与免疫防御，病毒复制，细胞生长等过程。蛋白质的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化，磷脂酰肌醇（GPI）锚区4种类型。糖蛋白的蛋白链与糖链通过共价键相连蛋的位点称为糖基化位点，对于给定的蛋白质，表达宿主细胞类型的改变，培养介质成分的变化，以及生产过程中的发酵条件都会使糖基化位点发生改变[1]。O-糖基化作为生物体内重要的生物过程，迄今为止还未发现固定的模式，它的糖基化位点的确切序列片段还不清楚，但通常存在于糖蛋白分子表面丝氨酸（Serine，S）或苏氨酸（Threonine，T）比较集中且周围常有脯氨酸（Proline，P）的序列片段中[2-3]。

虽然O-糖基化的研究还没有确定性的结果，但是许多基于实验和计算的方法已经被应用。Wilson等发现糖基化位点中脯氨酸在位置－1和＋3有一个较高的频率[4]，Elhammer等发现脯氨酸，丝氨酸和苏氨酸在糖基化位点的所有位点都有很高的频率[5]。

本文采用稀疏编码方案，对BP神经网络结构及其训练算法进行研究的基础上，提出了一种改进传统BP算法缺陷的动量梯度下降算法，运用BP神经网络对O-糖基化位点进行预测和分析。实验表明蛋白质序列特征向量的维数（蛋白质编码序列的长度）是影响预测性能的最主要因素。

1 蛋白质序列和稀疏编码

本研究的实验数据来源于糖基化数据库Uniport（v8.0）[6]。我们随机挑选了哺乳动物的99个蛋白质序列用于分析。由于O-糖基化是将糖链转移到多肽链的丝氨酸、苏氨酸或羟赖氨酸的羟基的氧原子上，根据对S和T的特异性，将蛋白质序列分成四类，分别注释为糖基化的丝氨酸、苏氨酸称为positive T 和positive S，没有这种注释的称为negative T 和negative S。我们将所有的positive T 和positive S混合在一起称为positive set（糖基化位点），而negative T 和negative S称为negative set（非糖基化位点）。从每一类中随机选取300个样本用于训练，随机选取10个样本用于测试，实验样本数目如表1所示。

表1 样本数

没有编码的氨基酸序列不能被神经网络识别，预测前必须对原始的氨基酸序列进行编码。已经研究出许多种氨基酸编码方案，诸如3字母编码方案，5字母编码方案，水疗编码方案等。本文采用稀疏编码方案，用21位的二进制序列表示一个氨基酸或一个空位，以区分20种氨基酸和空位。每一个被选择的氨基酸序列被一个窗口分成若干个子序列，S或T位于中间。

假设一个原始的氨基酸序列窗口大小为Ws，编码后的序列的长度即为21*（Ws－1）。窗口大小和相应的编码长度如表2所示。可知，随着窗口Ws的增大，特征向量的维数D也增大，当Ws＝51时，D＝1050。

表2 窗口大小与编码长度

2 位置概率分布和模式分析

糖链的生物合成没有模板可以遵循，同一个糖基化位点可能存在不同的糖链形成所谓的微观不均匀性。我们计算氨基酸序列在每一个位点的直方图得到位置概率函数（Positional Probability Functions，PPFS）来表示这种不均匀性。窗口大小Ws＝7的糖基化位点和非糖基化位点的PPF如图1如示。由图可见，糖基化位点中所有的位点不仅脯氨酸，而且丝氨酸，苏氨酸和丙胺酸（alanine，A）都有一个很高的含量；并且糖基化位点中脯氨酸，丝氨酸，苏氨酸和丙胺酸的含量高于非糖基化位点的含量。我们也计算脯氨酸，丝氨酸,苏氨酸和丙胺酸在每一个位点的PPFS，如图2－图5所示。很明显，糖基化位点中脯氨酸在位置－1和＋3相对于其他的三种氨基酸有一个较高的含量，此结果与Wilson的研究结果一致。

图1 位置概率函数（PPFS，Ws ＝7）

3 BP算法的改进

BP（Back Propagation）神经网络是多层前馈神经网络最普遍的模型之一，基本结构分为输入层，隐含层，输出层三层。BP神经网络最初使用梯度下降搜索技术，对网络连接权值进行修正，使网络实际输出与期望输出之间的均方误差最小[6,7]。设第P个学习样本，期望输出为dpj，实际输出为tpj，网络输出与期望输出间的误差为：

如果E值超过误差许可范围，则需要调整网络的权值,权值修正公式如下：

其中n为学习速率。

传统BP网络训练时间较长，学习性能不理想，为了提高检测的性能和速度,本研究运用动量梯度下降反向传播算法，综合运用本次训练和上一次训练权值的改变修正权值,以平滑训练收敛曲线的震荡，提高网络的收敛性能。

第K次训练的权值公式为：

其中D（k）表示k时刻的负梯度，η为学习速度，α∈[0，1]是动量因子。

此方法所加入的动量项实质上相当于阻尼项，它能减小学习过程的振荡趋势以改善收敛性。

4 预测和校验

糖基化位点的预测在本研究中是一个二分类问题，我们建立一个三层的BP神经网络进行预测。根据不同的窗口大小，输入到网络的是不同编码长度的蛋白质序列，输出为与此序列相关的糖基化信息。输入层神经元的数目等于特征向量维数，隐含层神经元的数目根据实验确定，隐含层和输出层的转换函数是sigmoid型的激活函数。

实验中从糖基化位点和非糖基化位点中随机选取300个样本序列用于训练，选取10个测试样本用于测试。如果蛋白质序列长度太短，对于同一个序列有可能出现糖基化或非糖基化的情况，即使对于训练数据，网络也不能有效地学习。因此，我们取Ws＝7，11，21，31，41，51进行实验，训练时间和预测性能如图6和图7所示。由实验结果可知，当Ws增大时，特征向量的维数随着增大，预测时间延长，预测性能提高。

图2 脯氨酸的PPF

图3 苏氨酸的PPF

图4 丙胺酸的PPF

图5 丝氨酸的PPF

图6 预测性能

图7 训练时间

5 结论

本文采用稀疏编码方案，对BP神经网络结构及其训练算法进行研究的基础上，提出了一种改进传统BP学习算法缺陷的动量梯度下降算法，运用改进的BP神经网络对O-糖基化位点进行预测和分析。分析表明，预测性能与蛋白质序列特征向量的维数（蛋白质编码序列的长度）直接相关。当窗口的大小控制在一定范围时训练速度快,误差较小,具有很好的预测性能，随着窗口大小的增大，网络变得越来越复杂，训练时间延长，有可能出现局部优化或过拟合的倾向。因此，我们下一步的目标一方面是探索其他的编码方式，另一方面是对蛋白质序列进行特征提取，降低神经网络的复杂度，更好地发挥神经网络的预测性能。

[1]Hart，G.W.Glycosylation，Curr.Opin [J].Cell Bio，1992,（17）：1017-1023.

[2]Hansen，J.E.，Lund，O.，Engelbrecht，J，et al.specificity patterns of UDP-GaINAc：polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,（308）：801-813.

[3]Julenius，K.，Molgaard，A.，Gupta，R.，et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J]，Glycobiology.2004,（15）：153-164.

[4]Wilson,I.B.H.，Gavel,Y.，and Heijne,G.：Amino acid distributions around O-linked glycosylation sites，Biochem.J.，1991,（275）：529-534.

[5]Elhammer，A.P.，Poorman，R.A.，Brown，E.et al.The specificity of UDP-Ga1NAc：polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J]，Biol.Chem.1998,（268）：10029-10038.

[6]http://www.ebi.uniprot.

[7]Bishop，C.M.：Neural Network for Pattern Recognition [M].Oxford.Oxford University Press，1995.

[8]阎平凡，张长水.人工神经网络与模拟进化计算[M].北京清华大学出版社，2004.