王玉宁,解翠华,王胜男,范莹莹,江亚娟,尹强,焦伯延
(济宁市疾病预防控制中心 检验科,山东 济宁 272000)
冠状病毒(Coronavirus)是广泛分布于自然界的一类正链RNA 病毒,现发现可感染人的有人冠状病毒229E(Human coronavirus 229E,HCoV-229E)、人冠状病 毒NL63(Human coronavirus NL63,HCoV-NL63)、人冠状病毒OC43(Human coronavirus OC43,HCoV-OC43)、人冠状病毒HKU1(Human coronavirus HKU1,HCoVHKU1)、严重急性呼吸综合征病毒(Severe acute respiratory syndrome coromavirus,SARS-CoV)、中东呼吸综合征冠状病毒(Middle East respiratory syndrome coronavirus,MERS-CoV)和严重急性呼吸系统综合症冠状病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[1-3]。SARSCoV-2 爆发以来,严重威胁人民生命健康,是当前世界面临的最重要公共卫生问题之一[6]。
SARS-CoV-2 基因组全长约29.9x103bp[7],含有12 个开放读码框(Open reading frame,ORF),其中N 基因开放读码框(Nucleocapsid Open reading frame,N-ORF)编码的N蛋白是SARS-CoV-2 的结构蛋白,N蛋白是一种具有高度免疫原性的磷蛋白,在病毒合成过程中,N蛋白直接结合基因组RNA 形成病毒核衣壳,并在SARS-CoV-2 复制、转录和组装过程中发挥关键作用[8-9]。此外,N-ORF 和N蛋白特异性抗体是SARS-CoV-2 病原学检测和抗体检测的重要依据[10-11],N蛋白是疫苗和药物研发的重要靶点[9,11]。
目前对SARS-CoV-2 N蛋白的研究鲜有报道,N蛋白的功能暂不明了。本研究运用生物信息学方法预测N蛋白的进化变异特征、理化性质、结构、功能、抗原表位等信息,为更深刻的了解N蛋白的生物学特征和致病特征提供思路,为SARS-CoV-2 的预防、实验室诊断提供理论依据。
登陆NCBI 获取来源于人的新型冠状病毒N蛋白氨基酸序列(GenBank 号为MT432195.1)。
利用ExPASy 的ProtParam 软件分析N蛋白的分子式、氨基酸组成等理化性质。利用ExPASy 的ProtScale 软件分析N蛋白的亲水性和疏水性;利用TMHMM 软件分析N蛋白的跨膜区域。
利用DisPhos 软件分析N蛋白的磷酸化位点;利用SignalP 软件分析N蛋白信号肽序列;利用cNLS软件分析N蛋白的核定位信号;PredictProtein 软件分析N蛋白的亚细胞定位。
利用PredictProtein 软件分析N蛋白的二硫键形成;利用sopma 软件分析N蛋白的二级结构;利用Phyre2 软件预测N蛋白的三级结构。
利用NetMHCIIpan 3.2 Server 软件预测N蛋白的辅助性T 细胞抗原表位;利用NetCTL-1.2 Server 预测N蛋白的的杀伤性T 细胞抗原表位;利用ABCpred 软件预测N蛋白的B 细胞抗原表位。
利用PredictProtein 软件预测N蛋白的DNA 结合位点、RNA 结合位点和蛋白结合位点。利用RPISeq 软件进行N蛋白与SARS-CoV-2 基因组结合预测。
SARS-CoV-2 的N蛋白氨基酸序列与229E、NL63、OC43、HKU1,SARS,MERS-CoV 等可感染人的冠状病毒的N蛋白氨基酸序列MEGA 进化分析,发现新型冠状病毒N蛋白与SARS 冠状病毒N蛋白同源性最高,为90.52%。见图1。
图1 人冠状病毒N蛋白进化分析
N蛋白由419 个氨基酸组成,共含6351 个原子,分子式为C1971H3137N607O627S7,相对分子量45625.70x103。419 个氨基酸中甘氨酸(Gly)、丝氨酸(Ser)、丙氨酸(Ala)、谷氨酰胺(Gln)、苏氨酸(Thr)、赖氨酸(Lys)、精氨酸(Arg)含量较高,分别占氨基酸总数10.26%、8.83%、8.83%、8.35%、7.64%、7.40%、6.92%(表1)。带正电荷的精氨酸(Arg)和赖氨酸(Lys)共有60 个,带负电荷的天冬氨酸(Asp)和谷氨酸(Glu)共有36 个,等电点为10.07,不稳定系数为55.09,在哺乳动物网织红细胞体外半衰期为30h。
表1 N蛋白氨基酸组成情况
N蛋白的亲水性氨基酸占66.9%,第371 位的天冬氨酸亲水性最强;疏水性氨基酸占33.1%,第220和221 位的丙氨酸和亮氨酸疏水性最强;平均亲水系数是-0.97,结果表明N蛋白是亲水性蛋白质。见图2。此外,经TMHMM 软件对N蛋白跨膜结构进行分析,结果显示N蛋白无跨膜结构。
图2 N蛋白亲/疏水性分析
N蛋白共含有37 个丝氨酸、32 个苏氨酸、11 个酪氨酸,其中苏氨酸和酪氨酸均不能被磷酸化,但是位于180、183、184、186、187、188、190、193、194、197、201、202、206 位的13 个丝氨酸可以被磷酸化。见图3。N蛋白无信号肽序列,含有两个核定位信号,分别是位于258-268 的PRQKRTATKAY 和位于370-379 的KDKKKKADET,主要分布于细胞核。
图3 N蛋白磷酸化位点分析
N蛋白氨基酸序列中不含有半胱氨酸,无二硫键。N蛋白二级结构中α 螺旋占21.24%,延伸链占16.71%,β-转角占6.92%,无规卷曲占55.13%。见图4。利用Phyre2对N蛋白进行三级结构预测,模板序列是PDB 数据库SARS 冠状病毒d1sska 序列,可信度为100%。见图5。
图4 N蛋白的二级结构预测
图5 N蛋白三级结构模型预测
对N蛋白进行抗原表位预测,结果显示,N蛋白有6 个杀伤性T 细胞(Killer T cells,CTL)抗原识别表位,即:48-56、78-87、101-112、164-172、295-303、352-360 位氨基酸,其中104-112 位氨基酸抗原性最强。N蛋白有11个辅助性T细胞(HelperTcell,Th)抗原表位,即:52-60、64-72、111-119、130-140、157-165、171-179、227-235、268-278、331-338、360-368、392-400 位氨基酸,其中392-400位氨基酸抗原性最强。N蛋白含有10 个B 细胞抗原识别表位,即:12-39、58-74、77-106、114-151、182-197、249-264、268-283、289-304、327-342、354-391位氨基酸,其中91-106 位氨基酸抗原性最强。
对N蛋白进行蛋白、DNA、RNA 结合位点预测,结果显示N蛋白第87 位氨基酸和107-111 位氨基酸是与其它蛋白相互作用的结合位点。N蛋白含有丰富的DNA结合位点,包括6-17、28-45、48-51、69-77、84-101、114-127、144-153、173-211、255-289位氨基酸。N蛋白的35-37、83-98、255-261 和272-277 位氨基酸是RNA 结合位点。见图6。因为N蛋白是病毒核衣壳蛋白,在病毒组装过程中结合基因组5’端RNA[12],利用RPIseq软件预测N蛋白35-98 和255-277 位氨基酸均与SARS-CoV-2 基因5’端1-200核苷酸可以相互结合。
图6 N蛋白结合位点预测
SARS-CoV-2 感染是目前全世界最关注的突发公共卫生事件,对世界的经济、交通、文化及人民的生命健康造成重大影响[13]。我国将SARS-CoV-2 感染列为乙类法定传染病,参照甲类管理[10]。然而SARSCoV-2 的生物学特征暂不明了,生物信息学分析N蛋白对于了解病毒的进化变异、防治、诊断具有重要意义。
SARS-CoV-2 和SARS 的N蛋白序列高度同源,SARS-CoV-2 和SARS 的N蛋白可能有共同祖先和共同特点[14]。SARS-CoV-2 的N蛋白含有66.9%的亲水性氨基酸,是无跨膜结构的亲水性蛋白质,其等电点高达10.07,说明N蛋白带有大量正电荷,这些正电荷可能参与基因组RNA 和宿主DNA 结合。N蛋白是SARS-CoV-2 的磷蛋白[15],经预测含有13 个丝氨酸磷酸化位点,N蛋白的磷酸化可能改变N蛋白的结构与功能,可能为病毒的在人体内的生存、传播提供优势。
N蛋白含有丰富的Th、CTL 和B 细胞抗原识别表位,提示N蛋白可能引起宿主复杂的细胞免疫和体液免疫[9,16-17]。CTL 免疫能够引起宿主细胞的凋亡,参与肺炎的发生[18]。B 细胞产生的N蛋白特异性抗体是目前实验室血清学诊断的重要检测靶点[9,11]。91-106位氨基酸B 细胞抗原性最强,130-140、268-278、331-338 位氨基酸同时是Th 和B 细胞的抗原识别表位,这些氨基酸序列可能适合作为SARS-CoV-2 感染抗体检测的核心序列。
N蛋白含有两个基因组RNA 结合位点,N端RNA结合序列(N-terminal RNA-binding domain,NTD)和C 端RNA 结合序列(C-terminal dimerization domain,CTD)[15]。本研究对N蛋白的结合位点进行预测,35-98 和255-277 位氨基酸是N蛋白的RNA 结合区域,其可能与基因组RNA的5’端结合,参与病毒组装;此外,N蛋白还可能通过结合小干扰RNA(small interfering RNA,siRNA)、微RNA(microRNA,miRNA)和长非编 码RNA(Long noncoding RNAs,lncRNA)干扰宿主对SARS-CoV-2 抑制[19-20],提示35-98 和255-277 位氨基酸区域可能作为抗病毒药物研究的靶点。此外,N蛋白含有丰富的DNA 结合位点,可能能够结合宿主基因组,干扰宿主细胞功能。
综上所述,本研究对SARS-CoV-2 的N蛋白的结构和功能进行生物信息学分析,对N蛋白的深刻了解具有重要意义,为新型冠状病毒的核酸检测和抗体检测提出建议,为抗病毒药物的研发提出新的思路。然而本研究仅是生物信息学预测结果,需要进一步的实验确证。