高光芹 宛新生 李晓 黄家荣 王潇然
摘 要:针对水稻蛋白质二级结构预测研究,查阅了国家水稻数据中心文献资源,基于国际蛋白质数据库(protein data bank,PDB),选择具有代表性的蛋白质(5XQI)作为样本,应用BP神经网络建模技术,对水稻蛋白质二级结构进行预测研究。结果表明:先用氨基酸描述子量化一级结构,再用主成分分析综合描述子,能简化模型结构,提高模拟预测准确度和运行速度;构建标量型的人工神经网络模型和仿真函数预测式,简捷直观,应用方便;适宜的模型结构为21∶20∶3,即21个输入层节点、20个隐含层神经元、3个输出层神元的BP神经网络模型结构;模型的整体拟合准确度为0.85,H、E、C三种二级结构的拟合准确度分别为0.92、0.79、0.81;整体预测准确度为0.72,三种二级结构的预测准确度分别为0.79、0.65、0.71。基于BP神经网络的水稻蛋白质二级结构预测模型的拟合、预测准确度比以往同类研究高,为水稻蛋白质二级结构预测提供了一种新的研究方法。
关键词:水稻;蛋白质;二级结构;预测;BP神经网络
中图分类号:Q518.1
文献标志码:A
根据生物遗传的中心法则,遗传信息在不同的大分子之间的转移都是单向的,不可逆的,只能从DNA到RNA(转录),从RNA到蛋白质(翻译)。这说明核酸的功能是储存和转移遗传信息,指导和控制蛋白质的合成,而蛋白质的主要功能是进行新陈代谢活动和作为细胞结构的组成成分;同时说明基因通过控制蛋白质的结构来直接控制生物的性状。蛋白质分子结构很复杂,可分为一级、二级、三级和四级结构。其中二级结构既可用于进一步预测三级结构和四级结构,又能应用于推测蛋白质的功能。因此,水稻蛋白质二级结构预测研究具有重要的、直接的生物学意义。
国家水稻数据中心的文献资源表明,近年对水稻蛋白质的研究很多。如水稻蛋白质复合物和叶绿素合成特性的研究,水稻蛋白质表达谱受硫化氢的影响,水稻籽粒储藏蛋白质含量的遗传解析,高蛋白质杂交早稻的研究,水稻条纹病毒病害特异蛋白质的筛选研究,水稻中蛋白质的检测及差异表达蛋白质鉴定,等等[1-7]。但对水稻蛋白质结构的研究很少,尤其是结构预测研究极少。谭峰等[8]为从分子水平探讨水稻病菌的传播和发病机制,研究了水稻叶片细胞内生物大分子的結构及结构与功能的关系,尤其对水稻叶片中各部分的二级结构构象给出全面的分析和解释,实现了水稻叶片半定量分析的目的。陈华夏等[9]分析4个植物基因组,分离鉴定了97个水稻、玉米、高粱和拟南芥的CCT结构域基因,并对相应蛋白质的结构和基因之间的系统演化关系进行了分析。分析结果表明,蛋白质结构和特性在不同物种之间具有广泛的变异。
关于蛋白质二级结构的预测,本文课题组在林木模式植物杨树中有较深入的研究[10-13]。研究结果表明,BP神经网络用于蛋白质二级结构预测,简单直观、通俗易懂、数形统一、应用方便。蛋白质结构与功能预测在作物模式植物水稻中的研究较少,特别是蛋白质二级结构的预测研究更少。本文基于分子生物信息数据库,用BP神经网络研究水稻蛋白质二级结构预测,旨在给水稻研究提供一种方法参考。
1 材料来源与数据处理
1.1 材料来源
国际蛋白质数据库(protein data bank, PDB)是目前最主要的蛋白质分子结构数据库,数据库的网址是http://www.rcsb.org/search。通过该网址搜索历年发布的水稻蛋白质的有关信息,获取水稻蛋白质结构数据。数据库中发布的每个蛋白质都有唯一编号,如2020年发布的水稻蛋白质之一的编号是6LCQ。根据蛋白质二级结构的研究目的,在PDB中目测三维构像中的二级结构分布,选出具有代表性的水稻蛋白质样本。样本是2018年发布,其编号是5XQI。
1.2 数据处理
蛋白质的一级结构是A,R,…,V等20个氨基酸的排列顺序和连接方式;蛋白质的二级结构是通过氢键使多肽链形成的螺旋或折叠片层结构,可以划分为螺旋、折叠和卷曲三大类,分别用字母H、E和C表示。在PDB中查出5XQI的一、二级结构,并将一级结构按一定的片段长剪切成不同的片段,并建立片段与二级结构的关系。片段长一般取13~21个氨基酸残基,本研究按段长21顺序剪切,取片段中心氨基酸对应的二级结构作为氨基酸片段对应的二级结构。水稻蛋白质一共剪切了269段,对应关系如表1所示。
应用一种新型氨基酸描述子表征样本的氨基酸结构(每个氨基酸有16个描述子),20个氨基酸的V描述子的样式如表2所列[13]。为简化模型,提高模型的运行速度,用主成分分析方法将表2中每个氨基酸的16个V描述子综合一个总描述子ZV,见表3。
用表3的氨基酸总描述子ZV量化表1中的氨基酸片段,对应的二级结构量化向量:H(螺旋)=[1 0 0]T,E(折叠)=[0 1 0] T,C(卷曲)=[0 0 1] T。量化后的样本数据样式如表4所示,其中每个一级结构片段向量的21个元素,就是21个氨基酸的总描述子ZV。如果不进行简化处理,每个一级结构片段向量的元素将是336个,使模型结构变得很复杂,运行速度变得很慢。
2 模型构建
BP神经网络由于具有算法简单易行、计算量小、并行性强等诸多优点,已成为目前应用最广泛的神经网络。据统计,在神经网络的应用研究中,基于BP算法的研究占比接近90%[14]。用BP神经网络来构建水稻蛋白质二级结构预测模型时,以表1所列的一级结构氨基酸片段所对应的21个V描述子向量作为输入向量X=[x1,x2,…,x21]T,以一级结构片段中心氨基酸对应的二级结构向量作为输出向量Y=[y1,y2,y3]T,构建的预测模型如图1所示。图1中符号●、→、○、①、f分别表示输入层节点、信息流、神经元、输入值为1的节点、S形函数。网络模型由三层构成,从左至右分别为输入层、隐含层、输出层。
输入层,是网络获取样本的入口层,其节点数目等于氨基酸片段描述子向量的维数21,各节点是简单的分布单元,直接将输入变量传递给隐含层。
隐含层,其神经元个数可变,设为s,具体值用变结构法确定,即在模型训练中用具体训练样本对s由少到多取不同的值进行训练比较,并定性定量相结合地确定[14]。
输出层,即网络输出模型运行结果的出口层,其神经元个数与输出层的节点数相等,即Y=[y1,y2,y3]T。
用MATLAB数学算式将图1所示的关系表达为:
yk=tansig(∑w2j,kHj+b2k)
Hj=tansig(∑w1i,jxi+b1j)
i=1,2,…,21; j=1,2,…,s; k=1,2,3(1)
式中:tansig()是MATLAB的正切S形函数;xi为输入层第i节点的输入变量;Hj为隐含层第j神经元的输出变量;yk为输出层第k神经元的输出变量;w1i,j为输入层第i节点到隐含层第j神经元的连接权;w2j,k为隐含层第j神经元到输出层第k神经元的连接权;b1j、b2k分别为隐含层第j神经元和输出层第k神经元的阈值。
3 模型训练
用表4的3/4样本数据,在MATLAB的nntool工具箱中,按训练样本定义与导入、神经网络设置与初始化、神经网络训练与结果导出等步骤对式(1)取不同的隐含层神经元数进行训练。其结果对应的拟合准确度Q3如表5所列。准确度Q3的计算公式为[10]
Q3=PH×QH+PE×QE+PC×QC(2)
式中:Q3为总的准确度;QH、QE、QC分别为螺旋H、折叠E、卷曲C的准确度,用模型计算值按“胜者通吃”原则与实测值比较确定;PH、PE、PC分别为H、E、C三种二级结构的例比。在表4的3/4样本数据(每4个样本取3个)中,样本总数为202,H、E、C三种二级结构样本数分别为86、52、64,计算对应的比例,并代入式(2),得模型的拟合准确度算式为:
Q3=0.425 7QH+0.257 4QE+0.316 8QC
QH=CH/86;QE=CE/52;QC=CC/64(3)
式中:CH、CE、CC分别为H、E、C三种二级结构拟合准确的样本数。不同隐含层神经元个数s的CH、QH,CE、QE,CC、QC和Q3的计算结果见表5。由表5可以看出:随着隐含层神经元个数s的增大,QH、QE、QC和Q3都呈拋物线趋势;QH的最大值对应的隐含层神经元个数s为21,QE、QC和Q3的最大值对应的s都为20。综合QH、QE、QC和Q3计算结果,水稻蛋白质二级结构预测最佳隐含层神经元个数s=20,对应的模型Network4为最佳模型,将其命名为PRPSS(predicting rice protein secondary structure),作为最终拟合结果,其结构为21∶20∶3,即21个输入层节点、20个隐含层神经元、3个输出层神经元。PRPSS隐含层和输出层的部分权值、阈值分别见表6和表7。调取全部权值、阈值的命令函数为:PRPSS.iw{1,1}(输入层到隐含层权值);PRPSS.b{1}(隐含层阈值);PRPSS.lw{2,1}(隐含层到输出层权值);PRPSS.b{2}(输出层阈值)。
4 模型预测
在MATLAB中,直接由水稻蛋白质二级结构预测模型的仿真函数式作为预测式:
Y=sim(PRPSS,X)(4)
式中:sim()为MATLAB的仿真函数;PRPSS为已经创建的网络模型,它储存了网络结构、属性等全部参数;X,Y为预测模型的输入、输出向量,与预测样本同维。用式(4),代入一个21维的输入向量X,就可算出一个3维的预测向量Y;如果X是多个21维的输入向量构成的矩阵,则Y是多个3维预测向量构成的矩阵。
用式(4)计算出的Y按“胜者通吃”原则换算为[1 0 0]或[0 1 0]或[0 0 1]后,与预测样本的Y值(实测值)比较,以确定预测正确与否。在表4的样本数据中,每4个样本取1个,得预测样本总数为67,H、E、C三种二级结构预测样本数分别为29、17、21,计算得对应的比值为0.432 8、0.253 7、0.313 4,将这些比值和样本数代换式(3)中相应的比值和样本数就得相应的预测准确度计算式(省列),并计算PRPSS的预测准确度,见表5。H、E、C三种二级结构预测准确度分别为0.79、0.65、0.71,整体预测准确度为0.72;对应的拟合准确度分别为0.92、0.79、0.81,整体拟合准确度为0.85。
与以往同类研究比较,准确度有所提高。杨树蛋白质二级结构的预测研究[10],整体预测准确度为0.65,整体拟合准确度为0.71,H的拟合准确度为0.81;本文对水稻蛋白质二级结构的预测研究,整体预测准确度为0.72,整体拟合准确度为0.85,H的拟合准确度为0.92。
5 结论
针对蛋白质结构与功能预测在作物模式植物水稻中的研究较少,以国际蛋白质数据库中的水稻蛋白质结构数据为基础,用人工神经网络建模方法研究了水稻蛋白质二级结构预测模型,得出以下结论。
1)根据蛋白质二级结构的研究目的,在PDB中先目测三维构像中的二级结构分布,选出具有代表性的蛋白质样本(5XQI)作为模型研究样本,是一个可供参考的经验。
2)在字符数据的量化处理中,先用一种新型氨基酸描述子表征样本的氨基酸結构(每个氨基酸有16个描述子),再用主成分分析方法将16个描述子综合为一个总的描述子的方法,能提高模型精度,并能简化模型结构,提高模型运行速度。
3)用标量构建模型,便于模型结构的理解和应用。特别是用仿真函数表示的预测式,是一种超常规的数学表达,简捷直观,应用方便。
4)模型的适宜结构为21∶20∶3,即21个输入层节点、20个隐含层神经元、3个输出层神经元的BP神经网络模型结构。
5)模型的总体拟合准确度为0.85,H、E、C三种二级结构的拟合准确度分别为0.92、0.79、0.81;整体预测准确度为0.72,三种二级结构的预测准确度分别为0.79、0.65、0.71。与以往同类研究比较,准确度有所提高。
参考文献:
[1]蒋苑, 刘莉, 吕春芳, 等. 水稻叶色突变体812HS蛋白质复合物和叶绿素合成特性的研究[J]. 江苏农业科学, 2016, 44(10): 127-131.
[2] 陈露, 徐慧芳, 孟丹, 等. 硫化氢对水稻幼苗叶片中蛋白质表达谱的影响[J]. 江苏农业科学, 2016, 44(11): 81-84.
[3] 赵琳琳, 李楠, 吕志伟, 等. 野栽渗入系水稻籽粒储藏蛋白质含量的QTL遗传解析[J]. 江苏农业科学, 2015, 43(3): 50-53.
[4] 陈世建, 张振华, 谌兴中, 等. 高蛋白质杂交早稻新组合奥富优655[J]. 杂交水稻, 2015, 30(1): 86-87.
[5] 秦发亮, 刘文文, 李莉, 等. 利用酵母双杂交技术筛选介体灰飞虱中与水稻条纹病毒病害特异蛋白互作的蛋白质[J]. 中国农业科学, 2014, 47(14): 2784-2794.
[6] 牛东东, 郝育杰, 荣瑞娟, 等. 转基因水稻中GUS蛋白质的检测及其表达特征[J]. 中国农业科学, 2014, 47(14): 2715-2722.
[7] 廖江林, 宋宇, 钟平安, 等. 耐热和热敏感水稻应答灌浆初期高温胁迫过程中的差异表达蛋白质鉴定[J]. 中国农业科学, 2014, 47(16): 3121-3131.
[8] 谭峰, 才巧玲, 马志欣, 等. 基于拉曼光谱分析寒地水稻叶片的有机结构[J]. 江苏农业科学, 2016, 44(4): 358-361.
[9] 陈华夏, 申国境, 王磊, 等. 4个物种CCT结构域基因家族的序列进化分析[J]. 华中农业大学学报, 2010, 29(6): 669-676.
[10]高光芹, 孟慶玲, 黄家荣. 杨树蛋白质二级结构的人工神经网络预测[J]. 西北林学院学报, 2014, 29(5): 59-63, 69.
[11]高光芹, 黄家荣, 周俊朝, 等. 杨树蛋白质磷酸化位点预测[J]. 生物信息学, 2015, 13(3): 165-169.
[12]孟庆玲, 黄家荣. 林木蛋白质结构预测研究综述[J]. 辽宁林业科技, 2009(6): 38-41.
[13]周俊朝. 杨树蛋白质二级结构和磷酸化位点预测[D]. 郑州: 河南农业大学, 2016.
[14]李志良, 李根容, 舒茂, 等. 一种新型氨基酸拓扑结构信息矢量及在肽定量构效关系研究中的应用[J]. 中国科学B辑: 化学, 2008, 38(8): 745-754.
[15]黄家荣, 任谊群, 高光芹. 森林生长的人工神经网络建模[M]. 北京: 中国农业出版社, 2006: 42-61.
(责任编辑:周晓南)
Prediction of Rice Protein Secondary Structure
GAO Guangqin1, WAN Xinsheng1, LI Xiao1, HUANG Jiarong2, WANG Xiaoran*3
(1.College of Science, Henan Agricultural University, Zhengzhou 450002, China; 2.College of Forestry, Henan Agricultural University, Zhengzhou 450002, China; 3.College of Life Science, Henan Agricultural University, Zhengzhou 450002, China)
Abstract:
In view of the scarcity of rice protein secondary structure prediction research, based on the international protein database, PDB, the representative protein (5XQI) was selected as a sample, and BP neural network modeling technology was applied to predict rice protein secondary structure. The results show that quantifying the first-order structure with amino acid descriptors and then synthesizing the descriptors with principal component analysis can simplify the model structure and improve the accuracy and speed of simulation prediction. The scalar artificial neural network model and simulation function prediction formula are constructed, simple and intuitive, easy to use. The appropriate model structure is 21∶20∶3, that is, the BP model structure has 21 input layer nodes, 20 hidden layer neurons and 3 output layer primitives. The overall fitting accuracy of the model is 0.85, and the fitting accuracy of H, E and C secondary structures is 0.92, 0.79 and 0.81, respectively.The overall prediction accuracy is 0.72, and the prediction accuracy of the three secondary structures is 0.79, 0.65 and 0.71, respectively.Compared with previous similar studies, the accuracy has been improved. This paper, employing a unique BP artificial neural network mathematical model, has provided a new method for studying the secondary structure of rice protein.
Key words:
rice;protein;secondary structure;prediction;BP neural network
1998500520337