周辉 宋莉 赵德刚
摘要:本研究应用相关生物学软件和在线数据库对大肠杆菌的HspQ基因进行生物信息学分析。结果表明其编码了105个氨基酸,推测其可能是一种亲水性蛋白,而通过蛋白磷酸化位点的预测表明其含有17个丝氨酸位点、7个苏氨酸位点、4个酪氨酸位点,通过对其跨膜结构域和信号肽预测显示其不存在信号肽也没有跨膜结构域。而我们对其编码蛋白的二、三级结构进行预测表明其主要由α螺旋和无规则卷曲两种结构组成。本研究预测结果为进一步研究热休克蛋白基因奠定了基础。
关键词:大肠杆菌;HspQ基因;生物信息学
Bioinformatics Analysis of HspQ Gene in Escherichia coli
ZHOU Hui1,SONG Li1*,ZHAO De gang2*
(1.Guizhou Key Lab of Agro-Bioengineering, Institute of Agro-Bioengineering and College of Life Sciences, Guizhou University, Guiyang, Guizhou 550025,China;2.Guizhou Academy of Agricultural Science, Guiyang, Guizhou 550006,China)
Abstract: Bioinformatics analysis of the Escherichia coli HspQ gene was performed using biological software and related databasesin in this study. The results showed that it encodes 105 amino acids and it is speculated that it may be a hydrophilic protein. The prediction of protein phosphorylation sites shows that it contains 17 serine sites, seven threonine sites and four tyrosine acid sites.It is shown by the prediction of its transmembrane domain that this gene may have signal peptide but no transmembrane domain.The prediction of the second and third order structure of its encoded protein indicates that it mainly contains two kinds of structures: α-helix and random-curl. This study laid the foundation for the further study of the heat shock protein gene.
Key words:Escherichia coli; HspQ gene; bioinformatics
热休克蛋白(Heat shock proteins,HSPs)是在应激胁迫条件下生物体所产生的一类具有保护功能的蛋白[1],是细胞启动自我保护机制的生物标志[2],在微生物、植物、动物体内都广泛存在[3]。HSPs与逆境胁迫响应密切相关,主要是通过分子伴侣机制保护细胞而提高植物对逆境的耐受性[4]。HSPs根据其序列同源性和分子质量大小,将其分为HSP100、HSP90、HSP70、HSP60、HSP40、小分子HSP等6个家族[5]。
本课题组前期通过对大肠杆菌应激诱导基因表达谱芯片分析,筛选出差异倍数较高的热休克蛋白基因,本文对课题组前期筛选出的高表达且功能未知的HspQ基因进行生物信息学分析,为进一步深入研究该基因的生物学功能奠定基础。
1材料与方法
1.1材料
通过NCBI (https://www.ncbi.nlm.nih.gov/)數据库以及uniprot(http://www.uniprot.org/)蛋白数据库下载得到大肠杆菌HspQ基因的mRNA序列和蛋白序列。
1.2方法
在对大肠杆菌HspQ基因进行生物信息学分析的过程中,使用MEGA6生物学软件来进行氨基酸序列的同源比对,并且构建了HspQ蛋白的系统进化树,使用在线数据库 ProParam进行蛋白质的理化性质的预测,通过在线数据库NetPhos 2.0 Server预测磷酸化位点,在线数据库 SignalP4.0 Server可以用来进行信号肽和跨膜结构预测,用TargerP 1.1 server 进行亚细胞定位和导肽预测分析,用在线数据库PSIPRE和SWISS-MOLD预测蛋白质二、三级结构,利用STRING对HspQ蛋白进行蛋白-蛋白相互作用进行分析。
2结果与分析
2.1HspQ基因进化树分析
大肠杆菌HspQ基因的DNA序列共有318 bp,其编码的蛋白含有105个氨基酸。选择目标蛋白序列65条,与大肠杆菌HspQ基因的蛋白序列在ClustalX上进行序列比对,然后利用MEGA6生物学软件构建系统进化树(图1)。结果如图所示,进化树分为9个大分支和许多小分支,每个分支上相邻的位置亲缘关系较近,结果表明在微生物HspQ基因进化过程中,大肠杆菌与沙门氏细菌、发光细菌等亲缘关系较近。
2.2蛋白质理化性质分析
通过在线数据库ProParam(http://web.expasy.org/protparam/)[6]预测大肠杆菌HspQ基因编码蛋白质的理化性质,结果表明,HspQ编码蛋白的化学方程式为C519H814N142O165S3,预测的分子量为11779.20Da,理论等电点为4.53,为酸性,总平均亲水性为-0.397,脂肪系数95.62,不稳定参数52.07;负电荷残基(Asp+Glu)有17个,正电荷残基(Arg+Lys)有7个。
2.3亲疏水性分析
用在线数据库ProtScale(http://web.expasy.org/ProtScale/)[6]分析蛋白质亲疏水性,各个氨基酸打分分值见表2,分值小于 0表示亲水,大于 0表示疏水,推测此蛋白为亲水性蛋白,即蛋白可溶于水。
2.4跨膜區预结构预测与信号肽分析
通过在线数据库TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)[7]预测大肠杆菌HspQ编码蛋白是否含有跨膜结构域,结果表明该蛋白全部在膜外,没有跨膜区域。
通过在线数据库SignalP(http://www.cbs.dtu.dk/services/SignalP)[8]预测大肠杆菌HspQ基因编码蛋白信号肽,结果表明此蛋白没有信号肽 。
2.5PSIPRE预测蛋白二级结构
AA代表了目标蛋白质的氨基酸序列。Pred代表了二级结构以及相应的图例(H:Helix; C:Coil;E:Strand)。Conf数值越高,置信度越高。由PSIPRED预测结果可知:HspQ二级结构主要由折叠和卷曲结构构成。
2.6磷酸化位点
通过在线数据库NetPhos 2.0 Server(http://www.cbs.dtu.dk/services/NetPhos/)进行磷酸化位点预测。结果表明其总共含有28个蛋白磷酸化位点,其中丝氨酸位点最多有17个,其次是苏氨酸位点有7个,最少的是酪氨酸位点只有4个。
2.7亚细胞定位及导肽预测分析
通过在线数据库TargerP 1.1 (http://www.cbs.dtu.dk/services/TargetP/)[9]对HspQ基因进行预测,结果如表3,即编码105个氨基酸,并且存在线粒体目标肽(mTP)的可能性为14.8%,存在信号肽(SP)的可能性为46.1%,其他导肽或无导肽的可能性为26.8%,这与前面信号肽预测结果相匹配。
2.8同源建模
通过在线工具SWISS-MODEL[10]对大肠杆菌HsPQ基因编码的蛋白进行建模,得到其蛋白的三维结构如图所示。通过分析可知,HspQ基因编码的蛋白的三维结构主要以α螺旋和无规则卷曲为主,这与二级结构分析一致。
2.9蛋白相互作用分析
利用STRING数据库对HspQ构建蛋白-蛋白相互作用网络,如图8所示。通过分析,可知HspQ与rlml、msbA、tus、ftsL、lptC、hha之间相互作用。
3结论与讨论
HspQ基因编码区318bp,由105个氨基酸组成,蛋白的化学方程式为C519H814N142O165S3,预测的分子量为11779.20Da,结构稳定,呈酸性,带负电荷,预测为亲水性蛋白即是一种可溶性蛋白。无明显的信号肽和跨膜结构,说明HspQ基因不参与物质的跨膜运输。在非生物胁迫下,有些蛋白质可以作为保护分子来保护植物细胞的稳定,从而提高植物的抗逆性[11],本研究预测大肠杆菌HspQ蛋白属于亲水性蛋白质,表明HspQ有利于提高植物抵御非生物胁迫的能力。
二级结构预测表明其主要以α螺旋和无规则卷曲为主,无规则卷曲柔性大,经常出现在活跃点和对接点,但是它们受侧链相互作用的影响很大,能不断的运动。无规则卷曲经常是酶的活性位点和其他蛋白质特异的功能部位,并且可用于分子识别,在蛋白质特征和功能中起关键作用[12]。运用SWISS-MODEL构建 HspQ蛋白三级结构,一般同源性超过30%蛋白质序列均可建立精确结构模型,序列同源性越高则建立模型结构准确性越高[13],通过分析HspQ三级结构发现主要以无规则卷曲为主,这与二级结构分析一致。跨膜结构预测表明HspQ蛋白主要在胞外起作用,这与余瑛等[14]研究表明热激蛋白主要是通过分子伴侣机制保护细胞而提高植物对逆境的耐受性相吻合。
参考文献:
[1]陈育庆,熊琛,阎国珍,等.急性热暴露大白鼠肝脏热休克蛋白形成的研究[J].生物化学与生物物理进展,1990(01):50-53,49.
[2]肖卫民,蒋碧梅,石永忠,等.从凋亡信号通路探讨热休克蛋白保护过氧化氢所致心肌细胞凋亡的机制[J].中国动脉硬化杂志,2003(04):283-286.
[3]曲凌云,孙修勤,相建海等.热休克蛋白研究进展[J].海洋科学进展,2004(3):385-391.
[4]Ballinger D.G.,and Par due M.L.The control of pro- tein-synthesis during heat-shock in drosophila cells involves altered polypeptide elongation rates[J]. Cell,1983,33(1): 103-113
[5]张永亮,吴家馼,吴梅筠.热休克蛋白的分类,基因调控及其功能[J].法医学杂志,1999,V0(4):239-242.
[6]Gasteiger E,Hoogland C,Gattiker A,Duvaud S,et al. Protein Identification and Analysis Tools on the ExPASy Server [J].Proteomics Protocols Handbook,2005,112(112): 571-607
[7]熊伟,杨勇琴,张海洋,等.人线粒体转录终止因子1(hMTERF1)蛋白的生物信息学分析[J].生物信息学,2015,13(1):23-30.
[8]Petersen T N,Brunak S,Von H G,et al. SignalP 4.0: discriminating signal peptides from transmembrane regions.[J].Nature Methods,2011,8(10):785-786.
[9]周雅,高贝,张道远.齿肋赤藓早期光诱导蛋白ELIPs的生物信息学分析[J].生物信息学,2014,12(4):233-241.
[10]Arnold K,Bordoli L,Kopp J,et al. The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling[J].Bioinformatics,2006,22(2):195-201.
[11]赵琳琳,徐启江,姜勇,等. 生物和非生物胁迫下的植物细胞中丝裂原活化蛋白激酶(MAPK)信号转导[J].植物生理学报,2008,44(1):169-174.
[12]Gibson D T,Parales R E.Aromatic hydrocarbon dioxygenases in environmental biotechnology[J].Current Opinion Biotechnology,2000;11(3):236-243.
[13]谌容,陈敏,杨春贤,等.基于SWISS-MODEL的蛋白质三维结构建模[J].生命的化学,2006(01):54-56.
[14]余瑛,夏玉先,蔡绍皙.植物小分子热休克蛋白[J].中国生物工程杂志,2003(7):38-41.