张帅燕 刘毅慧
摘要:提出一种新的氨基酸编码方式,即基团编码,基团编码是对20种氨基酸进行的编码方式,含有42个属性,然后采用这种新的编码方式进行蛋白质二级结构预测。所有的氨基酸都可以有这几种基团来表示,这种基团编码方式中包含氨基酸或蛋白质中原子稳定结构的信息。实验中采用3折交叉验证,分别采用不同的滑动窗口数,通过支持向量机(SVM)来进行蛋白质二级结构预测,验证2组数据的准确率,可以发现氨基酸的不同的编码方式对预测精度会产生影响。经过实验对比,包含氨基酸内部稳定结构信息的基团编码方式的准确率比正交编码要高出1.2%。
关键词:蛋白质二级结构预测;基团编码;正交编码;SVM
0引言
氨基酸序列的研究是生物信息学中对生物序列展开探讨设计的主要工作,氨基酸序列决定了蛋白质的空间结构,而蛋白质的空间结构决定了蛋白质生理功能的多样性。在利用x射线结晶学及核磁共振等技术对蛋白质结构进行探测时发现,蛋白质结构有4个层次,蛋白质的二级结构是认识了解蛋白质的折叠模式和三级结构的基础,进一步为研究蛋白质的功能以及彼此之间的相互作用模式提供结构基础,同时还可以为新药研发提供帮助。故研究蛋白质的二级结构具有重要的意义。
1999年,Jones研发了位置特异性反复BLAsT算法,构建了位置特异性打分(position-specific scoring matrix,PssM)矩阵。在此先后,基于残基构想性的Chou-Fasman算法,基于知识的人工神经网络,支持向量机(support Neural Network Machine,SVM)方法则陆续得到推出。同时,还有研究通过将蛋白质的进化信息引入BP神经网络的输入中,預测准确率达到75%。此外,文献中,即重点采用了将特定位置打分矩阵与深度学习网络架构相结合的方法得到的预测结果为80.7%,进而再基于深度卷积神经场的基础,对蛋白质二级结构预测的准确率就可达到84%。
综合前述分析可知,本文将依据存在于氨基酸或蛋白质中的结构稳定的分子官能团,对氨基酸进行编码,即文中提出的基团编码,然后使用支持向量机进行分类预测。