(青岛大学基础医学院病原生物学教研室,山东 青岛 266071)
截至2020年7月12日,新型冠状病毒肺炎(COVID-19)已造成216个国家和地区1 275万人感染,死亡人数达到近57万人[1]。严重急性呼吸综合征冠状病毒2(SARS-CoV-2)与SARS-CoV和中东呼吸综合征相关冠状病毒(MERS-CoV)同属于尼多病毒目冠状病毒科[2],病毒颗粒的大小为60~220 nm,呈球形或多形性,有包膜,表面有棒状凸起。
世界各国正积极研发新冠病毒疫苗,目前已经有100多种疫苗进入临床前评估,23种候选疫苗正在进行临床评估[3],但是目前对于新型冠状病毒的Th细胞表位的疫苗研究较少。SARS-CoV-2基因组全长30 000 bp[4-5],与SARS-CoV和MERS-CoV的同源性分别为79%和50%[6],SARS-CoV-2的5′端前2/3序列编码RNA复制酶蛋白,后1/3序列编码结构蛋白,该结构蛋白包括刺突蛋白(S蛋白)、包膜蛋白(E蛋白)、膜蛋白(M蛋白)和核衣壳蛋白(N蛋白)。其中S蛋白是Ⅰ型膜糖蛋白,是由两个亚基构成,前端合成S1亚基(氨基酸残基位置16~686),是激发机体产生中和抗体的主要蛋白[7],蛋白氨基酸后1/2部分为S2亚基;E蛋白是冠状病毒中最小的结构蛋白,主要参与病毒包膜的形成以及核衣壳的装配;M蛋白是Ⅲ型糖蛋白,在包膜形成中发挥重要作用;N蛋白是一种磷酸化蛋白,位于病毒粒子的核心部分,主要参与病毒的复制和翻译过程。体液免疫和细胞免疫具有抗SARS-CoV-2感染的作用,其中Th细胞在体液和细胞免疫激发过程中均发挥重要作用。有研究表明,严重急性呼吸综合征(SARS)患者恢复期外周血单个核细胞对结构蛋白的T细胞反应是最强的,同时T细胞应答的强弱与产生中和抗体的多少密切相关[8]。本研究的目的是采用生物信息学方法预测比较SARS-CoV以及SARS-CoV-2的结构蛋白可能包含的辅助性T细胞(Th细胞)抗原表位,为寻找SARS-CoV-2疫苗设计的潜在靶点提供帮助。
在美国国家生物技术信息中心(NCBI)的GenBank数据库中检索2种具有代表性的SARS-CoV(GenBank_NC_004718.3)和SARA-CoV-2(GenBank_NC_045512.2)的参考序列,得到这2种病毒的4种结构蛋白S蛋白、E蛋白、M蛋白和N蛋白及其对应的氨基酸参考序列。
采用MEGA7软件中Clustal W序列对比的方法分析以上4种结构蛋白氨基酸序列的相似度,以GeneDoc软件呈现对比的结果。使用SYFPEITHI(http://www.syfpeithi.de/bin/MHCServer.dll/EpitopePrediction.htm)、IEDB(http://www.iedb.org/)、NetMHCIIpan(https://services.healthtech.dtu.dk/service.php?NetMHCIIpan-3.2)3个在线工具,预测2种病毒各自可能的Th细胞表位。各工具筛选标准设定为:SYFPEITHI评分>20,IEDB rank<1.00,NetMHCIIpan rank<10,每个工具的表位肽的长度设定为15个氨基酸,其余设置均为默认值。选取3个软件预测结果的交集获得2种病毒各自潜在的Th细胞表位,并将所得到的所有潜在Th细胞表位进行对比,得到蛋白高度同源(MHC-Ⅱ类分子限制性相同但氨基酸有1~3个突变)或完全同源(包括MHC-Ⅱ类分子限制性和氨基酸序列均完全一致)的抗原表位。采用ProtScale(https:// web.expasy.org/protscale/)在线分析软件和Origin绘图软件将含有完全及高度同源序列的蛋白质进行疏水性曲线对比分析,确定2种病毒相对应蛋白质极性有无差异。
MEGA7和GeneDoc软件分析S、E、M、N 4种结构蛋白氨基酸序列的结果显示,在SARS-CoV-2中,与宿主细胞受体结合的S蛋白氨基酸序列最长,为1 273个氨基酸;SARS-CoV-2、SARS-CoV的S蛋白氨基酸序列相似性一般,一致度为75%,变异多位于前1/2的S1亚基部分;SARS-CoV-2中E蛋白氨基酸序列最短,为75个氨基酸,但保守程度最高,2种病毒的一致度为94%;SARS-CoV-2的M蛋白与N蛋白长度分别为222以及419个氨基酸,与SARS-CoV的一致度均为90%。
通过SYFPEITHI、IEDB、NetMHCIIpan 3种在线工具筛选得到SARS-CoV-2可能的Th细胞表位22个,其中12、3、4、3个表位分别位于S、E、M、N蛋白中。见表1。SARS-CoV可能的Th细胞表位25个,16、3、5、1个表位分别位于S、E、M和N蛋白中。见表2。对所得Th细胞表位的氨基酸位置进行分析,结果显示,2种病毒的S蛋白中预测到的Th细胞表位序列多数位于S1亚基结构上(SARS-CoV-2有7个,SARS-CoV有11个);对其MHC-Ⅱ类分子限制性进行分析,2种病毒集中的MHC-Ⅱ类分子等位基因有所不同,SARS-CoV-2多位于HLA-DRB1*01:01等位基因上(7个),而SARS-CoV多分布于HLA-DRB1*01:01和HLA-DRB1*04:01等位基因上(每个均有8个表位)。
对2种病毒预测的Th细胞表位氨基酸序列进一步分析,得到SARS-CoV-2与SARS-CoV完全同源或高度同源的Th细胞表位(表3),其中完全同源的表位有2个,全部位于E蛋白上,氨基酸位置是28~42、25~39,高度同源的表位有6个,其中4个位于M蛋白上,E蛋白和N蛋白上各1个。在高度同源表位序列中,从位置分析,突变的位点多发生在14和15位氨基酸上,只有1个突变位于多肽序列的核心位置上,且表位核心序列中“锚点”(即1、4、6、7、9位)的氨基酸没有发生突变。从突变类型分析,突变的氨基酸多发生在缬氨酸(变为异亮氨酸)和甘氨酸(变为丙氨酸)上,突变数量分别为4、3个。利用ProtScale软件对蛋白进行疏水性曲线对比分析显示,突变前后氨基酸类型均为非极性的疏水性氨基酸,如图1所示,多肽链的极性基本没有发生改变。
表2 SARS-CoV 潜在的Th细胞表位
表3 SARS-CoV-2与SARS-CoV一致或高度一致Th细胞表位
A~C分别为E、M和N蛋白
SARS-CoV是目前冠状病毒中研究最为深入的一种病毒,也因此提升了对整个冠状病毒的流行病学、免疫学以及分子生物学等的认识,新发现的SARS-CoV-2与之具有高度的同源性,因此既往关于SARS-CoV的研究成果为SARS-CoV-2研究提供了一定的帮助和借鉴。SARS-CoV-2是继2003年SARS-CoV出现后第三个在世界上造成区域内大范围流行的冠状病毒,与之前SARS-CoV相比,SARS-CoV-2传染性更强,在全球蔓延的范围更广,持续的时间更长,造成的经济损失更大[9-10]。目前仍没有针对SARS-CoV-2预防和治疗的特效药,相关病毒疫苗的研制是各国研究的重点,疫苗种类包括但不限于灭活疫苗、减毒活疫苗、病毒载体疫苗、核酸疫苗、蛋白质疫苗等[11]。有研究表明,保守性抗原表位是疫苗设计的有效靶标[12],随着免疫信息学的发展,与传统疫苗设计相比,表位疫苗可以大大减少研究的成本和时间,具有更突出的优势,逐渐成为疫苗研究的热点[13]。
Th细胞表位是在免疫应答过程中能够被Th细胞表面受体(TCR)特异性识别的一类外源性抗原肽,在适应性免疫应答中发挥重要作用。被抗原激活的Th细胞一方面分泌细胞因子增强细胞介导的抗感染免疫,另一方面辅助B细胞活化,促进B细胞的增殖、分化和抗体生成[14]。LI等[8]在2008年的研究表明,在SARS-CoV中,与非结构蛋白相比,棘突、膜和包膜等结构蛋白对T细胞的免疫原性最强。Th细胞表位的产生有3个关键过程:抗原提呈细胞(APC)识别、胞内加工处理、MHC-Ⅱ类分子复合物提呈。由于外源性抗原肽的处理及递呈机制研究尚不明确,Th细胞表位的生物信息学研究主要是关于MHC-Ⅱ类分子亲和肽的预测,但目前疫苗研究的重点蛋白主要在S蛋白,且多数研究关注在B细胞表位,对Th细胞表位的研究较少。
S蛋白是SARS-CoV-2结构蛋白中最大的蛋白,其中S1亚基较易突变,而S2亚基的保守性较高。S蛋白的主要作用是与宿主细胞膜融合,介导病毒吸附。同时S蛋白也在诱导中和抗体和T细胞反应以及保护性免疫中起关键作用[15],是目前病毒疫苗研究最受关注的蛋白。然而本研究表明,SARS-CoV-2与SARS-CoV的S蛋白Th细胞表位差异较大,分析其原因,一方面是由于生物信息学研究方法及技术本身存在不足,另一方面可能是由于S蛋白氨基酸突变位点较多或MHC-Ⅱ类分子限制性方面存在差异。
E蛋白是病毒结构蛋白中分子量最小的蛋白,同时是结构蛋白中保守性最强的蛋白质,属五聚体跨膜整合蛋白,主要作用是在内质网、高尔基体膜上形成离子通道,参与子代病毒的组装与释放[16-17]。最近的研究表明,E蛋白有促进机体炎症反应的作用,可作为抗病毒药物设计靶点,同时SARS-CoV的E蛋白突变的减毒株有望成为候选疫苗[18-19]。本研究中,完全相同表位均位于E蛋白上,推测其成为候选疫苗表位的潜力较大。
截至2020年9月,NCBI中GenBank数据库仅确认1条参考SARS-CoV-2序列,大部分研究以此序列为标准。本研究即以此参考序列作为参照选取了2种病毒的4个结构蛋白的氨基酸序列,利用序列对比软件Clustal W比较同源性。使用SYFPEITHI、IEDB、NetMHCIIpan 3个基于不同算法的MHC-Ⅱ类分子亲和肽的预测在线预测工具,取3个工具预测结果的交集以提高预测准确性。这3种在线预测工具均包含6个MHC-Ⅱ类分子等位基因[20],分别为HLA-DRB1*01:01、HLA-DRB1*03:01、HLA-DRB1*04:01、HLA-DRB1*07:01、HLA-DRB1*11:01、HLA-DRB1*15:01,覆盖了约35.15%的中国群体。分析结果显示N、M和E蛋白同源性较高,而S蛋白同源性一般。利用在线预测软件对2种病毒结构蛋白可能的Th细胞表位进行预测并对比分析,获得了8对完全同源或高度同源表位。氨基酸的疏水性可反映蛋白质的二级结构,提示潜在的跨膜区域,并且在保持蛋白质的三级结构上起重要作用[21],对具有完全同源或高度同源表位的3对蛋白进行疏水性分析发现,突变的氨基酸位点亲疏水性有变化,但对整体蛋白质的疏水性趋势影响不大。
综上所述,本研究采用生物信息学方法分析比较SARS-CoV和SARS-CoV-2结构蛋白的潜在Th细胞表位,综合分析得到8对完全同源或高度同源表位,为开发新型冠状病毒疫苗及其相关研究提供了基础,但是否可以诱导机体发生特异性的细胞和体液免疫,还需进一步的实验研究证实。