杜 之,黄 鹏
(1.南昌大学a.第二临床医学院2018级; b.公共卫生学院循证医学中心;2.江西省预防医学重点实验室,南昌 330006)
冠状病毒属于套氏病毒目,冠状病毒科,冠状病毒属,是一种有包膜的正股单链RNA病毒,其基因组由一个约30 kb的正义单链RNA组成,这是已知RNA病毒中最大的非分段基因组[1]。在此次新冠肺炎疫情之前,已知有六种冠状病毒可以感染人类[2],其中四种(HCoV-NL63、-229E、-OC43和-HKU1)可以引起轻度呼吸道感染,另外两种SARS-CoV和MERS-CoV可导致严重的病毒性肺炎[3]。SARS-CoV-2是第七种人感染冠状病毒,其与SARS和MERS都属于β属的冠状病毒[4-5]。目前SARS-CoV-2导致的疫情还在全球不断蔓延,研究其结构以及与SARS-CoV的异同,有助于更好地了解其致病机制,寻找治疗的靶点。基于此,本文拟对SARS-CoV-2的结构特点及其与SARS-CoV的差异作一综述,以期为该病毒的进一步研究和防治提供线索或思路。
SARS-CoV-2具有典型的冠状病毒基因组结构[6],其单链RNA基因组大小为29 891个核苷酸,编码9860个氨基酸,G+C含量为38%[7]。它具有14个编码27种蛋白质的开放阅读框(ORF),而位于基因组5′端的ORF1ab和ORF1a基因分别编码pp1ab和pp1a蛋白,它们(ORF1ab和ORF1a基因)一起编码15个nsp(非结构蛋白),包括nsp1至nsp10和nsp12至nsp16。其中编码nsp1、nsp3和nsp15的基因相较于其他基因有着更高的突变率,这有助于病毒适应并感染人类[8]。基因组的3′端包含4个结构蛋白-刺突蛋白(S)、包膜蛋白(E)、核衣壳蛋白(N)和N膜蛋白(M),8个辅助蛋白(3a,3b,p6、7a,7b,8b,9b和orf14)[9]。尽管ORF区域的总体变异率较低,但ORF 8中的nt28144位点和ORF 1a中的nt8782位点的突变率分别高达30.53%和29.47%,提示SARS-CoV-2中可能存在选择性突变[10]。
此外在开放阅读框的5′端上游可以识别出一个先导转录调控序列(TRS)和9个推测的TRS,这些推测的TRS核心序列以ACGAAC和CUAAAC两种形式出现[11]。密码子的有效数量可以用作密码子使用偏好的度量,与SARS、bat SARS和MERS-CoV相比,SARS-CoV-2有着较低的密码子有效数量(尤其是在S蛋白、E蛋白和主要蛋白酶编码基因中),表明SARS-CoV-2具有更高的基因表达效率[12]。YANG等[13]通过对8组590个冠状病毒完整基因组的编码序列进行分析发现,SARS-CoV和SARS-CoV-2中的人类慢密码子和慢双密码子的总比例较低,提示SARS-CoV和SARS-CoV-2的蛋白合成率可能高于其他感染人类的冠状病毒。
作为典型的RNA病毒,SARS-CoV-2的平均进化率约为每年每个位点10-4个核苷酸[14]。陈嘉源等[15]发现SARS-CoV-2所在的β属冠状病毒B亚群存在大量的可变翻译,从分子水平揭示了此类冠状病毒变异快、多样性高的特点。之前的研究[16]表明,SARS-CoV-2冠状病毒的各个基因组之间具有高度序列相似性,有2个核心位置具有高度变异性,一个在ORF1ab基因座中,是一种沉默变异;另一个是氨基ORF8中的氨基酸多态性。不过最近的一项对103个SARS-CoV-2全基因组分子进化分析表明[17],SARS-CoV-2已经演化出L和S 2个亚型,2个亚型的区别在于病毒RNA基因组的第28144位点,L亚型是T碱基(对应亮氨酸,Leu),S亚型是C碱基(对应丝氨酸,Ser)。其中S亚型相对更古老,L亚型可能更具侵略性以及扩散得更快速。
经过基因组测序和比对,SARS-CoV-2的基因组序列与两种蝙蝠源性SARS样冠状病毒、蝙蝠-SL-CoVZC45和蝙蝠-SL-CoVZXC21相关度较高,但与SARS-CoV(约79%)和MERS-CoV(约50%)较远[18]。ZHANG等[19]的研究发现,穿山甲冠状病毒是SARS-CoV-2的第二近亲,此外还有研究[20]表明,蛇也可能是SARS-CoV-2的基因库来源。
SARS-CoV-2的外壳是冠状病毒家族中最坚硬的[21],这给予了其更强的体外生存能力。多聚蛋白1ab(polyprotein 1ab,pp1ab)是冠状病毒的最大蛋白,该蛋白通过蛋白水解切割成熟的非结构蛋白,非结构蛋白参与病毒基因组的复制和转录,并负责多蛋白的切割[22]。通过对SARS-CoV-2的pp1ab中的氨基酸特征分析有助于阐明其进化起源。有研究[23]发现SARS-CoV-2的pp1ab与蝙蝠冠状病毒RaTG13的pp1ab相似度大于其与从中国穿山甲分离得到的冠状病毒上的pp1ab的相似度,从而降低了SARS-CoV-2是直接从穿山甲进化而来的可能性。此外,SARS-CoV-2和蝙蝠冠状病毒RaTG13之间ORF1ab、N、S蛋白的氨基酸同源性分别高达98.55%、99.05%和97.41%,这些结果也表明这两种病毒具有高度的遗传关系[24]。此外FAHMI[25]等通过系统发育分析发现非结构蛋白,特别是nsp7b和nsp8对SARS-CoV-2及其密切相关的物种具有特异性,这可以为研究SARS-CoV-2提供新的见解。
与其他冠状病毒相似,SARS-CoV-2外膜上的刺突糖蛋白以其糖基化而闻名[26]。所有冠状病毒进入宿主细胞均由刺突糖蛋白介导,刺突糖蛋白通过在其表面形成刺突而使冠状病毒呈冠状外观。刺突糖蛋白的氨基酸序列由1个大的胞外域、1个单次跨膜锚和1个短的C端胞内尾部组成[27]。不同的冠状病毒使用S1亚基内的不同结构域来识别各种附着和进入受体,如地方性人类冠状病毒OC43和HKU1通过其S1的NTD连接至宿主细胞表面糖蛋白和糖脂上的5-N-乙酰基-9-O-乙酰基唾液酸苷;MERS-CoV使用S1上的NTD来识别非乙酰化唾液苷附着受体[28],SARS-CoV则是使用S1亚基的RBD来识别受体[29]。而SARS-CoV-2的刺突糖蛋白胞外域包含受体结合单元S1和膜融合单元S2。电子显微镜成像显示,刺突糖蛋白形成了1个丁香状的刺突,具有3个S1头和1个三聚体S2茎。为了使病毒进入宿主细胞,S1通过其受体结合域(RBD)与特定的细胞表面受体结合,而S2融合宿主细胞和病毒膜,从而使病毒基因组进入宿主细胞[30]。S蛋白上七肽重复序列1(HR1)和七肽重复序列2(HR2)可以相互作用形成六螺旋束(6-HB),从而使病毒和细胞膜紧密融合[31]。此外,SARS-CoV-2蛋白上的受体结合模体(RBM)中的几个关键残基(尤其是Gln493)提供了与人受体ACE2分子良好的相互作用[32]。
目前大多数正在开发的疫苗均针对冠状病毒的S蛋白[33],主要是因为S蛋白是中和抗体的重要诱导剂[34]。SARS-CoV-2的刺突蛋白具有多种人类蛋白质群中缺乏的寡肽[35],这些免疫学相关性的寡肽引起的免疫反应将对冠状病毒产生中和作用。这可能有助于寻找药物作用SARS-CoV-2的靶点。COUTARD等[36]在SARS-CoV-2的刺突蛋白中发现了一个独特的弗林蛋白酶样切割位点,其位于S1/S2位点的N端,这是其他SARS样冠状病毒中所没有的。弗林蛋白酶介导的感染机制与鼠肝炎冠状病毒、HIV、埃博拉病毒和一些禽流感病毒的感染机制更相似;另外一些禽流感病毒也可以通过自然突变获得1个Furin蛋白酶切位点[26]。此前的一项研究[37]表明,如果在SARS冠状病毒S蛋白R667或R797位点人为地加入Furin酶切位点,可以增强S蛋白的膜融合能力。弗林蛋白酶样切割位点可能对病毒的生命周期和致病性具有影响,国内也有学者[38]提出弗林蛋白酶样切割位点突变有可能增强了2019-nCoV侵染细胞的效率,进而使其传播力显著大于SARS冠状病毒,因此针对这种弗林蛋白酶样酶的抑制剂可能有助于抑制病毒的传播。最近美国的一项研究[39]提出,可以利用CRISPR/Cas13d系统,干扰复制酶-转录酶复合物基因表达位点(ORF1ab)和刺突蛋白(S)的表达,从而抑制病毒的复制和结合功能。还有研究[7]发现,SARS-CoV-2的刺突蛋白S2亚基是高度保守的而且和人类SARS-CoV的S2亚基具有99%的同一性。因此,针对S2的广谱抗病毒肽将是进行临床试验之前在动物模型中值得测试的预防或治疗方式[40]。
SARS-CoV-2的S蛋白的三维结构类似于SARS病毒的S蛋白的三维结构[41],两者的基因组序列在核苷酸水平上也具有极高的同源性[42]。但是两者之间也存在一定的差异区域,研究这些差异区域有助于提供新的分子标记,也有助于开发抗SARS-CoV-2的新药。
SARS-CoV-2和SARS-CoV一样,都使用血管紧张素转化酶2(ACE2)作为侵入细胞的受体[43],但是两者结合受体的S蛋白结构却有所不同。SARS-CoV S1亚基由2个不同的结构域组成:N末端结构域(N-terminal domain,NTD)和受体结合结构域(RBD),这些结构域都涉及到与宿主受体结合的能力[44]。CHAN等[45]发现SARS-CoV-2的RBD核心结构域的氨基酸序列与SARS相关冠状病毒上的相同结构域的氨基酸序列约有68%的相同部分,而SARS-CoV-2的S蛋白的S1亚基NTD的氨基酸序列与SARS-CoV上相同部位的氨基酸序列大约有66%的相同部分,此外两者S1亚基RBD的外部亚结构域区域的蛋白质序列仅具有39%的同一性。此前的研究[20,29]表明SARS冠状病毒的RBD中与ACE2受体的相互作用的关键氨基酸为Y442、L472、N479、D480、487和Y491,而JUNWEN等[46]发现SARS-CoV-2上对应的氨基酸变化为L455、F486、Q493、S494、N501和Y505。冠状病毒的S1亚基,特别是S1亚基上的RBD,可以确定细胞嗜性、宿主范围和冠状病毒的人畜共患传输临界[47-48]。所以S1亚基氨基酸序列的改变可能影响人类受体的选择并因此影响该病毒的生物学行为。
另外,WRAPP等[41]测试了SARS-CoV的RBD定向单克隆抗体mAb(S230,M396和80R)与SARS-CoV-2的RBD的交叉反应性,结果证明在测试浓度下三种mAb中的任何一种都未检测到与SARS-CoV-2的RBD的结合。与之相反的是,有研究[49]报告SARS-CoV特异性人类单克隆抗体CR3022可以与SARS-CoV-2的RBD有效结合。综合两者的研究结果,SARS-CoV和SARS-CoV-2的RBD差异性显著影响了中和抗体的交叉反应性,因此开发可以特异性结合SARS-CoV-2的RBD的新型单克隆抗体可能是非常有必要的。
作为冠状病毒中最丰富的蛋白质,核衣壳蛋白(N)在冠状病毒中是高度保守的[50]。N蛋白是病毒组装中的一种结构蛋白,在病毒转录和组装效率中起着关键作用。N蛋白也是干扰素(IFN)和病毒编码抑制RNA干扰的拮抗剂,这可能有利于病毒复制[51]。BENVENUTO等[52]的研究发现SARS-CoV和SARS-CoV-2的N蛋白之间出现的多个氨基酸差异,这可以解释为什么SARS-CoV-2的致病性低于SARS-CoV。
ANGELETTIE等[53]对SARS-CoV-2的开放阅读框1ab(ORF1ab)进行了分析,研究结果证实SARS-CoV-2的氨基酸位置501(nsp2蛋白的321位)、723(nsp3蛋白中的543位)和1010(nsp3蛋白的192位)比SARS-CoV和Bat-SARS样冠状病毒有所改变,这可能是SARS-CoV-2比SARSS-CoV更具传染力的原因之一。ORF8是在β冠状病毒谱系B冠状病毒中发现的辅助蛋白,从早期患者中分离出的人类SARS-CoV、所有狸类SARS-CoV和其他与蝙蝠SARS相关的CoV均含有全长ORF8[54]。SARS-CoV基因组开放阅读框8(ORF8)中29nt核苷酸缺失,导致全长的ORF8的分裂为ORF8a和ORF8b[55],这是其在人类中出现期间最明显的基因变化。这些29 nt核苷酸的缺失导致减毒突变以及病毒复制水平的降低,可能与疫情消退有关[56]。目前SARS-CoV-2的基因组序列显示ORF8完好无损[57],这一情况值得学术界继续关注。
综上所述,SARS-CoV-2具有与SARS冠状病毒类似的基因组结构和蛋白质结构,两者都作用于ACE2受体,但是两者S蛋白的RBD存在较大的差异,并显著影响其侵染细胞的效率。针对这些差异区域进行研究有助于研发靶向药物,例如特异性结合SARS-CoV-2的RBD的新型单克隆抗体。此外,SARS-CoV-2的突变率高、进化快,不利于研发疫苗和追踪进化来源及传播的中间宿主。当前,SARS-CoV-2导致的肺炎疫情仍在全球不断蔓延,临床上尚无特异药物,疫苗研发也有待时日。尤其重要的是,SARS-CoV-2是否会发生变异,是否会具有更高传播性和致病性,这些情况均不可预测,尚需学术界不断研究和探索。