扎伊尔型埃博拉病毒GP蛋白的生物信息学分析

2018-06-05 10:15冯唐锴
科技创新与应用 2018年13期
关键词:生物信息学数据库

冯唐锴

摘 要:为了进一步掌握扎伊尔型埃博拉病毒GP蛋白基本特性,文章运用生物信息学的一些专业在线分析软件,选取序列号为AKG65268.1的GP蛋白序列数据作为研究对象,进行了深入的生物信息学分析。主要内容包括对该蛋白的理化性质、亚细胞定位、蛋白功能和二、三级结构等方面进行的分析。希望能够通过利用生物信息学方法,挖掘更多GP蛋白数据信息,获得一些病毒同源性及病毒与受体互作的线索,从而进一步探索该病毒进化发展及起源的可能。

关键词:埃博拉病毒;GP蛋白;生物信息学;扎伊尔型;数据库

中图分类号:S852.65 文献标志码:A 文章编号:2095-2945(2018)13-0028-02

Abstract: In order to further grasp the basic characteristics of Ebola-Zaire Virus (ZEBOV) GP (Glycoprotein), the GP (Glycoprotein) sequence data with sequence number of AKG65268.1 was selected as the research object using some professional online analysis software of bioinformatics, and a further bioinformatic analysis was carried out. The main contents include the analysis of physicochemical properties, subcellular localization, protein function and secondary and tertiary structures of the protein. It is hoped that through the use of bioinformatics, we can mine more data of GP (Glycoprotein) and obtain some clues of virus homology and interaction between virus and receptor, so as to further explore the possibility of evolution and origin of the virus.

Keywords: Ebola virus; GP (Glycoprotein); bioinformatics; Ebola-Zaire; database

1 概述

埃博拉病毒(Ebola virus,EBOV)是一種能导致灵长类动物患出血热疾病的致命性病毒,该病毒可分为多种类型,其中扎伊尔型埃博拉病毒的致死性最高。目前,多个埃博拉病毒株系的基因组都已完成测序[1]。GP蛋白(Glycoprotein)是埃博拉病毒包膜的唯一糖蛋白,参与受体结合和介导病毒进入。本研究期望通过对GP蛋白进行深入分析,从而进一步探索该其进化发展及起源的线索[2]。

2 研究方法

2.1 主要步骤

首先从Genbank数据库下载典型的GP蛋白序列数据,其次运用生物信息学在线软件较为全面的分析GP蛋白的性质、结构及功能,最后归纳总结分析结果并结合文献开展分析讨论。

2.2 扎伊尔型埃博拉病毒GP蛋白氨基酸序列信息的获取

扎伊尔型埃博拉病毒GP蛋白的氨基酸序列下载自Genbank数据库,登录号(Accession)为AKG65268.1[3],共有676个氨基酸[1]。

2.3 扎伊尔型GP蛋白生物信息学分析方法

本研究参考类似研究方法[4],选用了ProtParam、CDD、PSORT II等十种在线分析预测软件,分别对GP蛋白进行了生物信息学分析。

3 在线预测结果与分析

3.1 一级结构及理化性质预测

利用ExPASy ProtParam在线软件分析GP蛋白一级结构及理化性质。结果显示该蛋白含原子10375个,组成式为C3298H5127N919O1015S16,相对分子质量74404.5。共有676个氨基酸,其中丙氨酸最多,50个,占7.4%。负电荷氨基酸70个,正电荷氨基酸64个。理论预测等电点6.30,中性偏酸,带正电荷。GP蛋白在280nm波长下水溶液(M-1cm-1)中的摩尔磷消光系数为101590(全胱氨酸)或100840(全半胱氨酸)。在哺乳动物网状细胞中半衰期为30h,指示该蛋白在细胞中稳定。总平均亲水性指数为-0.374。初步认定为亲水性蛋白。

3.2 GP蛋白激酶磷酸化修饰位点分析

本研究利用KinasePhos在线软件预测GP蛋白磷酸化位点,结果显示有9个丝氨酸激酶作用位点。9个苏氨酸激酶作用位点。5个酪氨酸激酶作用位点。其中263位的丝氨酸和420位的苏氨酸作为磷酸化位点的预测分值(HMM Bit Score)较高,且E值(E-value)较小,都可视为较活跃的磷酸化位点。

3.3 GP蛋白信号肽预测

利用Signal P-4.1 Server 软件分析GP蛋白(AKG652

68.1)中可能存在的类信号肽片段。GP蛋白氨基酸序列信号肽预测D值最高的片段为1-32号氨基酸序列,其D=0.317,显示GP蛋白不含有显著的信号肽序列片段。

3.4 GP蛋白亚细胞定位预测

利用PSORT Ⅱ工具对GP蛋白可能率属的亚细胞位置进行了预测分析,结果如下:如果假设GP蛋白为胞内蛋白,则其位于细胞核的概率最大,预测分值高达30.4%,这或许表明该蛋白在结构上和某些核内蛋白较为接近。

3.5 GP蛋白亲水性/疏水性分析

运用ProtScale在线软件预测GP蛋白的亲水/疏水特性。该段肽链中获正分氨基酸217个,获负分氨基酸451个,结果显示该蛋白亲水性氨基酸数目多于疏水性氨基酸数目。GP蛋白两端疏水性较强,中段亲水性较强,整体上也倾向于认为GP蛋白亲水性较强。

3.6 GP蛋白跨膜结构域预测

利用TMHMM Server version 2.0在线软件预测GP蛋白是否为跨膜蛋白,结果显示该蛋白确实存在一个可能性较高的跨膜螺旋区,其涉及的氨基酸期望数目(AAs)高达33.28796,可认为GP蛋白具有跨膜蛋白特征,其核心跨膜区范围为650-672。

3.7 GP蛋白二级结构分析

利用SOPMA程序预测GP蛋白二级结构,结果显示蛋白中158个氨基酸可形成α螺旋(h),占23.37%;169个氨基酸构成β-片层(又称延伸链,e),占25.00%;295个氨基酸组成无规则卷曲(c),占43.64%;β-转角(t)为7.99%。

3.8 GP蛋白保守结构域预测

用NCBI的保守结构域数据库(Conserved Domain Database, CDD)分析GP蛋白显示该其序列中具有一个显著的保守结构域:Ebola-like_HR1-HR2(保守结构域编号:cd09850)。该结构域应该含有一个N-末端七肽重复区和一个C-末端七肽重复区,前者是一个类似于CKS-17的抑制免疫反应区,具有一个含有链内二硫键(C511-C556)的CX6C模体[5]。蛋白从N-末端到HR1-HR2区域是一个融合肽(FP),而C-末端则是一个跨膜区(MSR)。

3.9 GP蛋白三级结构预测

用SWISSMODEL軟件对GP蛋白三级结构进行比对分析,其与5个三级结构模型相匹配。其中模型03(编号5kel.1.A)描述为埃博拉病毒的表面糖蛋白GP1(33-308),模型04(编号为5jq7.1.B)描述为包膜糖蛋白2(GP2,502-632)。CDD软件预测的埃博拉病毒GP蛋白保守结构域中显示了三聚体结构。这与文献中提到的GP蛋白在毒粒表面以三聚体的形式存在相吻合。

3.10 GP蛋白功能预测

运用Protfun 2.2对GP蛋白的功能进行预测。结果显示,该蛋白作为细胞膜组成成分的可能性和机率最大,可能性(Prob)及机率(Odds)分值分别为0.794和13.024;其他功能类型所得的分值更低,未予列出。该蛋白属于酶类,参与免疫反应的可能性稍大。总体而言GP蛋白功能上最接近于细胞中与免疫相关的膜蛋白。

4 结束语

GP蛋白是跨膜糖蛋白,与病毒的入侵过程及细胞毒性有关,CDD预测该GP2中含有非常保守的,构成跨膜亚基的七肽重复区HR1和HR2结构域:Ebola-like_HR1-HR2(保守结构域编号:cd09850),该结构域在丝状蛋白中广泛存在。病毒感染时会涉及一个三聚体的发夹结构的形成,在这个结构里,融合肽(插入宿主细胞膜中)和MSR(插入病毒包膜中)紧紧的靠在一起,丝状病毒家族病毒可能需要这个结构进行横向的感染。通过比较我们可知,SWISSMODEL软件分析的GP1和GP2三维空间结构分析结果与文献中描述的GP蛋白主体结构一致[5]。

参考文献:

[1]Cheng Y,Liu J,Li Y,et al.Ebola Virus Disease:virology, pathogenesis, therapy, and vaccines[J]. Chinese Science Bulletin (Chinese Version),2014,59(30):2889-2899.

[2]王国戗,赵英政,牛菊霞.埃博拉病毒包膜糖蛋白进化特征分析[J].中华临床感染病杂志,2015,8(2):143-146.

[3]Simon-Loriere E, Faye O, Faye O, etal. Distinct lineages of Ebola virus in Guinea during the 2014 West African epidemic[J]. Nature,2015,524(7563):102-104.

[4]汪艳璐,罗玉萍,李思光,等.南丰蜜橘β-萝卜素羟化酶的生物信息学分析[J].江西科学,2007,25(6):688-692.

[5]Lee J E,Fusco M L, Hessell A J,etal.Structure of the Ebola virus glycoprotein bound to a human survivor antibody[J].Nature,2008,454(7201):177-182.

猜你喜欢
生物信息学数据库
数据库
数据库
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
数据库
数据库
数据库