王 莹,程薇薇
(1.哈尔滨远东理工学院,黑龙江 哈尔滨 150001;2.齐齐哈尔工程学院,黑龙江 齐齐哈尔 161000)
新陈代谢是生命活动中最重要的特征之一,是由千千万万化学变化产生的.而这些化学变化都是在催化剂的催化下进行的.酶是生物体中的生物催化剂,同时也是一种蛋白质,它具有较高的催化效率和高度的专一性,又广泛存在于各种细胞中.可以说,酶在各种代谢过程中起了很重要的作用.也可以说没有酶就没有生命现象[1,2].酶的分类研究对于研究生命的新陈代谢至关重要.而对于酶的分类研究同时也是对蛋白质功能的研究.目前,在海量的蛋白质序列数据如何判断该序列的功能及其分类是既耗资又耗时.因此,我们现在迫切需要建立一个分类预测的数学模型来快速的解决以上问题.目前,人们从理论上找到一种比较有效的预测方法,能快速并且较准确的预测出蛋白质的功能和特性等.
近些年,许多研究者通过利用生物信息学建立了相应的酶序列的数据库,并通过分类预测算法及酶序列的相关特征建立数学模型对酶的家族类及其亚类的研究上取得了较好的预测结果.
本文选取2011年由我们小组构建和整理新数据库,其中水解酶六个亚类共4498条序列.
蛋白质序列都是由20种基本的氨基酸组成的.并反映了序列的全局信息.前人的研究表明,酶与氨基酸组分信息有一定的关联性,不同类的酶序列的氨基酸有一定的差异.因此,本文选用氨基酸组分的信息(A)作为参数,来表示酶的序列信息.我们可以将一条酶序列替换为一个20维的向量:
其中si(i=1,2,3,...,20)代表第i种氨基酸在一条酶序列中出现的频数.
对于蛋白质分子来说,它不仅只具有一级结构,还有二级结构等.蛋白质的一级结构只反映其序列信息,而它的二级结构反映其空间结构信息.前面我们只选取了酶蛋白的序列信息,为了更好的反映酶蛋白的特性本文选取预测的二级结构信息(P)作为特征参数.
本文所使用的二级结构信息是PSIpred(Position Specific Iterated pred)软件[3]的在线服务器作为二级结构搜索工具http://bioinf.cs.ucl.ac.uk/psipred/.基于上述操作,对于一条酶序列,我们用一个3维的向量来表示二级结构α螺旋、β折叠以及无规卷曲(coil)在该序列中出现的频数.
研究表明模体是刻画蛋白质结构和执行功能的重要部分.因此,通过对模体的研究,我们就能得到该序列的功能信息及结构特征.目前,对于模体的搜索工具有很多.比较常用的有PROSITE数据库中的PS_scan模体搜索工具和MEME软件等.其中MEME软件所得到的模体是具有统计学意义的,有此软件得到的模体是通过对比序列得到的片段.
为了可以反映出序列的功能,本文选用已被广泛用于DNA及蛋白质序列中模体搜索的MEME在线搜索器作为搜索工具[4](http://meme.sdsc.edu/meme/cgi-bin/meme.cgi)来搜索各个酶家族类及其亚类中的模体.用该软件在搜索过程中,我们可以限定模体的长度和模体类数,本文限定6-15个氨基酸残基作为模体的长度,并且每类亚类搜索5个模体类数,统计每条酶序列25个模体出现的频数,从而每条酶序列由一个25维向量来表示.
为了更好的反映酶序列的功能信息,我们选取PROSITE搜索得到功能模体[5].Prosite数据库收集了大量的具有显著生物学意义的蛋白质序列模式和功能位点.本文将PS_scan模体搜索工具[5]用Perl语言编译实现.用来搜索水解酶的亚类的蛋白质序列中出现的模体.
我们对水解酶序列搜索得到的模体进行统计分析后,选取出现最多的5种模体,其预测结果最好.水解酶共选取5种模体.对于每一条酶序列来说,记录模体在序列中出现的次数.即可将序列信息转化为模体频数值.把PROSITE搜索得到的5种模体,再加上由MEME软件搜索得到的统计模体,水解酶共得到30个模体频数值.
人工神经网络[6](Artificial Neural Networks,ANN)系统是20世纪40年代后出现的.它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点.BP(Back Propagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法.BP神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力.BP神经网络是一种多层的前馈神经网络.具体来说,本文神经网络模型如下:
图1 神经网络模型
BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置.
假设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m.输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk.学习速率为η,激励函数为g(x).其中激励函数为g(x)取Sigmoid函数.形式为:
其中Yk为期望输出.我们记Yk-Ok=ek.
权值的更新公式为:
本文基于前人建立的数据库,以氨基酸组分、预测的二级结构和MEME模体及功能模体频数组成向量来表示序列信息,水解酶共得到53维向量,将得到的向量输入到神经网络算法进行分类预测,在Jack-knife检验下进行预测,总精度依次为96.7%.具体结果如表1.
表1 水解酶的5个亚类结果(%)
参考文献:
〔1〕阎隆飞,孙之荣.蛋白质分子结构[M].北京:清华大学出版社,1999.
〔2〕阎隆飞.蛋白质的结构与功能[M].长沙:湖南科学技术出版社,1988.
〔3〕Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J].Biochemical and Biophysical Research Communications,2004,325:506~507.
〔4〕Bailey T.L.,Mikael B.,Buske F.A.,Frith M.,Grant C.E.,ClementiL.,Ren J.Y.,LiW.W.,NobleW.S.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research.2006,3.
〔5〕Castro,D.E.,Sigrist,C.J.,Gattiker,A.,Bulliard.,Langendijk-Genevaux,P.S.,Gasteiger,E.,Bairoch,A.,Hulo,N.ScanProsite:detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins [J].Nucleic Acids Research.2009,37,202~208.
〔6〕许忠能.生物信息学[M].北京:清华大学出版社,2008.