邓浩辉 李水凤 楼燕 余卫华 胡肖兵
广州市第八人民医院门诊部 510060
新型冠状病毒D614G 变异是刺突糖蛋白(S 蛋白)最常见的变异之一。根据文献报道,发生该变异的毒株可显著增强病毒感染能力和传播能力,并增加患者的致死率。目前包含该变异的新型冠状病毒毒株时间变化和空间分布特征国内尚未见相关报道,现报道如下。
1.1 研究对象 本研究纳入截止至2020 年7 月21 日在国内外新型冠状病毒公共数据库发表的序列,其中包括美国国家生物信息中心(NCBI)GenBank数据库11 583条,全球共享禽流感数据倡议组织(GISIAD)EpiCoV数据库69 226条,国家基因库生命大数据平台(CNGBdb)75条,国家基因组科学数据中心(Genome Warehouse)37 条,国家微生物科学数据中心(NMDC)数据库289条。
1.2 去除各数据库重复的核酸序列 本研究纳入5个新型冠状病毒核酸数据库的序列数据进行分析,因部分数据库存在提交序列重复的情况,故根据各序列的信息使用脚本代码对各序列数据库进行去重,去重后共纳入69 510条新型冠状病毒核酸序列进行下游分析。
1.3 序列比对与序列数据过滤 对去重后的序列使用Minimap 2 v2.17软件与新型冠状病毒参考序列(NC_045512)编码S蛋白的基因片段进行序列比对,剔除不包含S 基因的序列。比对后的序列进一步过滤,过滤的标准如下:⑴保留从人类身上获取的病毒序列,剔除宿主为灵长类动物和细胞系等来源的核酸序列;⑵剔除采样时间信息欠清晰的序列;⑶剔除比对上新型冠状病毒参考序列S 基因型,但无包含D614G 读码框的短序列;⑷剔除包含S 蛋白D614G 读码框前后3个碱基测序质量差的序列,如存在N碱基或简并碱基的序列。
1.4 新型冠状病毒S 蛋白D614G 变异分析 使用Geneious R11.1.5 软件对过滤后的新型冠状病毒进行序列比对,并对S 基因读码框进行翻译,确定所有纳入分析序列S蛋白D614G变异情况。
1.5 统计学分析 本研究计数资料采用例数和百分比表示,使用SPSS13.0软件进行χ2检验。P<0.05为差异有统计学意义,均取双侧检验。
2.1 数据过滤后保留的核酸序列 本研究经数据过滤后最终纳入分析的序列56 201 条,其中包括NCBI GenBank 数据库 8 111 条,GISIAD EpiCoV 数据库 47 747 条,CNGBdb 数 据 库 69 条 ,Genome Warehouse 数 据 库 26 条 ,NMDC 数据库248 条。其中来自中国的序列1 060 条(1.9%),其他国家来源的序列55 141条(98.1%)。
2.2 D614G变异纳入分析核酸序列中存在情况分析 在本研究纳入的56 201条新型冠状病毒核酸序列中,13 570 条(24.1%)序列为野生型,42 631 条(75.9%)序列为D614G 变异型。携带D614G 变异的毒株最早在四川(EpiCoV 数据库 :EPI_ISL_451345) 和 浙 江 (NMDC 数 据 库 :NMDC60013101-01)2020 年 1 月 24 日采集的样本中被发现,该2株毒株均与来自武汉参考序列的毒株(2019年12月30 日,Genbank 数据库:NC_045512)序列同源性最高,同源性均为99.9%以上。
2.3 D614G 变异在不同时间分布特征分析 在纳入分析不同时间点的核酸序列中,发现携带D614G 变异毒株的比例呈明显上升趋势。D614 野生型与D614G 变异型的毒株总数和各自构成比如下:2019 年 12 月(21 条,100.0%比 0.0%),2020 年 1 月(452 条,96.9% 比 3.1%),2020 年 2 月(955 条,82.2%比 17.8%),2020 年3 月(24 270 条,34.2%比65.8%),2020 年 4 月(22 085 条,15.3% 比 84.7%),2020 年5 月(6 699 条,8.9% 比 91.1%),2020 年 6 月(1 719 条,3.1%比 96.9%)。自 2020 年 2 月份起至 2020 年 6 月份,D614G 构成比明显高于2019 年12 月份的数据,均P<0.05,如图1所示。
图1 不同时间点携带D614G变异毒株分布情况
2.4 D614G 变异在不同国家分布特征分析 截止至2020 年7 月21 日,在现有新型冠状病毒公共核酸数据库纳入分析的序列中,公布序列数量前10 的国家和该国公布序列包含D614G 变异毒株数量和构成比如表1 所示。其中D614G 变异构成比最多的国家为比利时(86.7%),其次为英国(79.0%)和美国(76.1%),构成比最少的国家为中国(20.2%)。
2.5 D614G 变异在国内分布特征分析 在本研究纳入分析的1 060 条来自中国的序列中,不同时间点D614 野生型(846 条,79.8%)和D614G 变异型(214 条,20.2%)的毒株总数和各自构成比如下:2019 年12 月(21 条,100.0%比0.0%),2020 年 1 月(336 条,98.8% 比 1.2%),2020 年 2 月(313 条,98.4% 比 1.6%),2020 年 3 月(316 条,56.0% 比44.0%),2020 年 4 月(72 条,11.1% 比 88.9%),2020 年 5 月(0 条),2020 年 6 月(2 条,0.0% 比100.0%)。自 2020 年3 月份起至 2020 年 6 月份,D614G 构成比明显高于 2019 年 12 月份的数据,均P<0.05。包含D614G的毒株主要分布在广州(50.9%)、台湾(27.1%)和北京(10.8%),如图2A、2B所示。
表1 截止至2020年7月21日纳入分析的序列以及主要国家D614G变异毒株的构成比
自2019 年12 月武汉地区发现首例新型冠状病毒肺炎患者起,截止至2020年7月26日,全球213个国家或地区均有新型冠状病毒感染的报道;据统计,目前感染新型冠状病毒的人数为 16 196 503,死亡人数为 648 327[1-2]。根据文献报道,该病毒的传染指数(RO)为2~4,提示在人与人之间有高度的传染性,并可导致较高的病死率[3-4]。因此,新型冠状病毒感染是目前严重的公共卫生问题。
病毒为了适应环境和宿主免疫等因素常导致基因组发生变异,RNA病毒由于复制时保真度较差,更容易在病毒基因组出现变异。病毒大部分变异为无义突变,但小部分变异可致基因组的读码框发生改变,从而影响病毒感染能力和致病性等特征[5-6]。新冠病毒S蛋白以三聚体形态存在于病毒衣壳表面,其受体为宿主细胞的血管紧张素转化酶-2[7-8]。614位点变异是S蛋白主要变异位点之一,D614G变异为野生型的天冬氨酸(D)变异为突变型的甘氨酸(G)[9]。根据文献报道,D614G 变异后的毒株可增强病毒对宿主的感染能力和增加病毒在人群中的传播能力[10-12],并可增加新型冠状病毒感染者的病死率[13-14]。因此,了解包含新型冠状病毒S 蛋白D614G 变异毒株的时空分布和流行病毒学特征有重要的意义。
图2 D614G变异在国内分布特征;A:国内不同时间点D614G变异毒株分布特点;B:D614G变异毒株在国内分布情况
本研究中,笔者纳入了国内外新型冠状病毒序列数据库的56 201 条核酸序列进行分析,结果提示目前数据库包含D614G 变异的毒株为75.9%,最早出现在中国四川和杭州等地,其与武汉最早发布的序列同源性最高,提示包含该变异的毒株可能直接起源于武汉。进一步对该变异毒株进行分析,提示目前携带D618G变异毒株主要分布在国外,构成比最高的国家为比利时,其次为英国和美国。笔者对不同时间的新型冠状病毒序列进行分析,结果提示携带D614G 变异毒株的构成比呈明显上升趋势;对国内不同时间点的序列分析的结果也提示,携带D614G 毒株在2020 年3月份后呈明显上升趋势,且国内主要分布在广州和北京等地区,结合本院和广州地区的实际情况,在公共数据库中携带该变异的毒株构成比上升可能与本地区输入性病例增加有密切关系。
综上所述,笔者对国内外公共数据库新型冠状病毒序列进行分析,阐述了携带S 蛋白D614G 变异的新型冠状病毒毒株时间和空间分布特征。因病毒变异可能随时间和空间而变化,应继续对该毒株进行研究,进一步了解其流行病学特征和变化规律。本研究仅对公共数据库核酸序列进行数据分析,其结果可能不一定完全代表真实情况,下一步应采集临床样本进行病毒变异检测,进一步对其变异株进行验证。根据本研究的结果,携带D614G 变异的毒株目前呈上升趋势,在新型冠状病毒疫情常态化管理阶段,应继续按疫情防控的要求对输入性病例进行严格管理[15-16],警惕和严防输入性病例在国内传播的风险。