埃可病毒18 型构象表位的生物信息学研究

2023-01-30 10:10贾永涛方雨露董长征
宁波大学学报(理工版) 2023年1期
关键词:衣壳构象进化树

王 惠 ,贾永涛 ,方雨露 ,董长征*

(1.宁波大学 医学院,浙江 宁波 315211;2.浙江省病理生理学技术研究重点实验室,浙江 宁波 315211)

人肠道病毒属小RNA 病毒科(Picornaviridae),肠道病毒属(Enterovirus),包括肠道病毒 A 种(EV-A)、B 种(EV-B)、C 种(EV-C)和D 种(EV-D).EV-A 代表性血清型包括肠道病毒A 组71 型(Enterovirus A71,EV-A71)和柯萨奇病毒A 组16 型(Coxsackievirus A16,CV-A16)等;EV-B 代表性血清型包括埃可病毒18 型(Echovirus 18,E18)等;EV-C 代表性血清型包括脊髓灰质炎病毒1 型(Polioviurs 1,PV1)、PV2 和PV3 等;EV-D 代表性血清型为EV-D68.E18 可引起手足口病、病毒性脑膜炎和急性胃肠炎等疾病[1-4],通常感染后症状较为轻微,但严重时也会危及生命[5].自1955 年在美国首次分离病毒毒株后,E18 感染鲜有报道,直到21 世纪E18 开始在全球流行,并且引起多起较大规模的疫情[6-9].2014—2016 年美国肠道病毒监测报告显示,E18 在最常引起疫情的肠道病毒中排第4 位[10].Chen 等[11]在2015—2016 年从我国6 个省份(山东、河北、山西、黑龙江、江苏和云南)的手足口病、病毒性脑炎和病毒性脑膜炎病例中分离出34 株E18,测定其结构蛋白(Viral Protein,VP)VP1 序列,并完成了其中6株的全基因组测序.2015—2020年,E18 在我国广东[4,12]、河北[13]、山东[14]和云南[15]等省大量检出,提示我国存在E18 暴发风险.

与其他肠道病毒相似,E18有一个长度约为7.4 kb 的单股正链RNA基因组,其病毒衣壳由60 个亚单位构成[16-18].每个非对称亚单位由VP1~VP4 构成,其中VP4 位于衣壳内表面,VP1~VP3 位于衣壳外表面,后者是病毒构象表位的所在区域.抗原表位的确定对掌握病毒的致病机制[19-20]、监测病毒的变异和进化[21]、研发抗病毒药物[22-23]和疫苗[24-25]都有重要作用.然而,目前尚无针对E18 表位的研究报道.

本研究首先利用前期发展的生物信息学算法[17-18]对E18 构象表位进行系统性预测,分析表位的分布规律;然后基于Nextstrain 平台构建E18 的分子进化树,确定进化分支和决定进化分支的标志性氨基酸突变(分支突变);最后探索分支突变与表位以及病毒受体结合位置的关系,分析表位在E18 分子进化过程中的作用.研究结果可为E18 的监测和预警提供参考.

1 材料与方法

1.1 E18 结构蛋白的序列和结构特征分析

从RCSB PDB 数据库[26](https://www.rcsb.org)和NCBI Nucleotide数据库[27](https://www.ncbi.nlm.nih.gov/nuccore)中分别下载E18 天然成熟颗粒的结构蛋白的三维结构文件(PDB ID: 6HBG[16];病毒毒株名: Metcalf,为简便以下用PDB ID 指代病毒毒株)和其氨基酸序列(Accession ID: AAL37163).将PDB 文件和氨基酸序列导入在线工具ESPript 3.0[28](http://espript.ibcp.fr)中注释二级结构信息.使用PyMOL[29]绘制病毒衣壳的表面结构图.所有软件和在线工具都采用默认参数.

1.2 E18 构象表位的生物信息学预测

实验室前期在Borley 算法[30]基础上发展了人肠道病毒构象表位的生物信息学预测算法,并成功地应用于肠道病毒A 种(EV-A71、CV-A16[17])和D 种(EV-D68[31])的表位预测.预测算法主要包括以下3 步(详见文献[17-18]):

(1)在PDB 文件中删除VP4 并生成复合链(图1),将复合链整体看作一个蛋白质,代替单个结构蛋白进行表位预测.

图1 E18 复合链和衣壳表面结构

(2)利用3 个表位预测工具Epitopia[32](http://epitopia.tau.ac.il)、Ellipro[33](http://tools.iedb.org/ellipro)以及DiscoTope[34](http://www.cbs.dtu.dk/services/DiscoTope)分别预测复合链的表位.三者的阈值均使用默认参数(0.174、0.3、-10.7).采用投票法,将同时被3 种工具预测为表位的氨基酸残基作为一致性表位.

(3)提取中心链Chain 1(一个由VP1~VP3 组成的亚单位)上的一致性表位,并筛选处于病毒衣壳相对暴露面的残基(其Cα到衣壳中心的距离超过所有Cα到衣壳中心的平均距离),获得最终的预测结果.

1.3 基于Nextstrain 的E18 分子进化分析

Nextstrain[35]是免费的在线(https://nextstrain.org)或本地开源平台,针对病毒基因/基因组数据,通过强大的分子进化分析和数据可视化功能,追踪病毒的分子进化和时空传播路线.本研究通过本地化部署Nextstrain平台,利用Nextstrain平台的augur 病原体生物信息分析包,分别对E18 的VP1和全基因组序列进行分子进化分析,步骤如下:

(1)从VIPR 病毒数据库[36](https://www.viprbrc.org/brc)和NCBI Nucleotide 数据库[27](https://www.ncbi.nlm.nih.gov/nuccore)中下载所有长度>700 bp的E18 VP1 序列和长度>7 000 bp 的基因组序列,剔除信息不全序列(无病毒毒株分离国家或时间信息等).采用MAFFT 7[37]在线平台(https://mafft.cbrc.jp/alignment/server)进行多重序列比对,人工剔除异常序列(例如多重序列比对后通过人工核查发现存在蛋白质翻译错误,序列中存在超过3 个模糊碱基).最终获得285 条E18 的VP1 序列和63 条基因组序列.

(2)利用augur 病原体生物信息分析包进行生物信息学和分子进化分析.align 命令调用内嵌的MAFFT 软件[37]进行多重序列比对,tree 命令调用IQ-tree工具[38]构建分子进化树(最大似然法),refine命令调用TreeTime 工具[39]构建基于时间尺度的分子进化树并对进化树进行优化,clade 命令标注进化分支(clade)和确定分支突变.由于表位仅分布在VP1~VP3 上,因此只标注了VP1~VP3 上的分支突变.最后利用Nextstrain 平台的auspice 工具进行基于JavaScript 技术的网页互动可视化展示.

(3)将获得的分支突变与表位、病毒受体结合位置利用RIVEM 工具[40-41]绘制在E18 衣壳表面结构图上,即足迹图(roadmap),分析分支突变与表位以及受体结合之间的关系.新生儿 Fc 受体(Neonatal Fc Receptor,FcRn)是埃可病毒共用的脱衣壳受体,埃可病毒借助FcRn 感染宿主细胞并释放病毒基因组.虽然E18 的结合位置尚未确定,但E6 和E30 与FcRn 的结合位置已经确定[19-20],可以通过序列比对的方式确定E18 的模拟结合位置.

2 结果

2.1 E18 的结构蛋白特征和构象表位预测结果

E18 病毒颗粒6HBG 的结构蛋白VP1、VP2 和VP3 的长度分别为287、260 和239 个氨基酸残基,由8 条反向平行的β 链(βB-βI)构成β 桶(β-barrel),链之间的部分为环区(loop),两端为 N-端(Nterminus)和C-端(C-terminus),如图1和图2所标注.E18 的衣壳表面结构如图1 所示,衣壳表面有峡谷(canyon)、峡谷两侧的“边缘”(rim)、“平台”(puff)和“突起”(knob)等结构特征以及五倍轴、三倍轴和二倍轴等三维结构标记.

E18 构象表位预测结果见表1 及图1 和图2.E18 共有27 个氨基酸残基预测为表位,分布在VP1(BC 环、DE 环、HI 环和C-端)、VP2(EF 环和HI 环)和VP3(N-端knob 区域、BC 环和C-端).与EV-A[17]和EV-D[31]相似,E18 的构象表位也聚集成三簇(表1 和图1): site 1、site 2 和site 3,分别位于峡谷的“北侧边缘”区域、峡谷南侧的“平台”区域、峡谷南侧的“突起”区域和三倍轴区域.其中VP1 BC 环和C-端、VP2 EF 环是E18 表位的主要构成区域.

表1 E18 构象表位的预测结果

图2 E18 结构蛋白的一级结构和二级结构注释

2.2 E18 的分子进化分析

利用Nextstrain 平台的augur 病原体生物信息分析包,分别构建了基于E18基因组和VP1序列的时间尺度的分子进化树,分别简称为基因组进化树(图3(a))和VP1进化树(图3(b)),两者具有一致的拓扑结构,都分为A、B、C 三个进化分支,C 分支又分为C1 和C2 两个子分支,原株Metcalf 不属于任何一个分支.以序列数较多的VP1 进化树为例,大约1946 年Metcalf 从A、B、C 三个分支的共同祖先A~C 中分歧出来,并于1955 年在美国首次分离.1970 年分子进化树首先分歧出A 分支;1979 年又分歧出B 和C 分支;最后在1989 年C 分支分歧成C1 和C2 两个子分支.C 分支尤其是C2 分支是目前流行的病毒分支.A 分支由2 株来自中国的病毒毒株构成.B分支有1株来自埃塞俄比亚,其余都来自印度.C1 分支主要来自法国、德国、俄罗斯、瑞典和澳大利亚.C2 分支全球分布广泛,其中分离病毒毒株数最多的国家为中国(168 株)、法国(14 株)、澳大利亚(14 株)、日本(13 株)和美国(7 株).

每个进化分支都有若干个决定进化分支的分支突变.以包含VP1~VP3 的基因组进化树为例(图3(a)),A 分支的分支突变为VP1 C-端的T271A 和D275E,B 分支的分支突变为VP1 C-端的K271S、A285V 和T286S.C1 的分支突变包括VP1 C-端的D275E 以及R6K、VP2 EF 环的S159P、VP3 的V2I和H182N.C2 的分支突变包括VP1 C-端的G257S、A262V、A285V 以及I42L 和I92V,VP2 的T74S,VP3 knob 的V58I 以及N11T.从图3(a)可以发现,分子进化树上多数(61.2%)的分支突变都位于表位处,即分支进化伴随着表位处的氨基酸突变,尤其是VP1 C-端是突变热点区域.此外,还有VP2 的EF 环.VP1 进化树(图3(b))也表现为高度一致,绝大多数分支突变在两种进化树上分布一致,但由于序列数目差异较大(285 比63),个别分支突变产生了差异,例如VP1 进化树B~C 分支上的突变D129E 成为基因组进化树C 分支上的突变.

图3 E18 的分子进化树

利用足迹图(图4)将上述分支突变与表位、受体结合位置都标注在E18 的衣壳表面结构图上,分析三者之间的关系可以发现,大多数E18衣壳表面的分支突变(黑色实线圈)都位于表位上或附近,而且表位的3 个site 均被突变覆盖;受体FcRn 模拟结合位置(白色虚线椭圆)仅有2 个突变.这提示表位处的突变产生了新的进化分支,但尽量避开受体结合位置,以免影响病毒与宿主细胞的结合能力.这两个突变位点对受体结合能力的影响需要进一步实验研究.

图4 E18 足迹图

3 讨论

病毒构象表位测定的金标准是冷冻电镜技术[19-20,23],但冷冻电镜技术门槛高,现阶段难以常规应用.免疫逃避实验是传统测定构象表位的常用方法[42-43],但只能通过突变体确定部分表位,同时也费时费力.生物信息学算法具有高通量和相对准确的特点,能够为实验性研究提供候选靶标,辅助实验性研究.传统的生物信息学表位预测算法具有普适性,但如果直接用来预测肠道病毒的结构蛋白的表位,由于未考虑“结构蛋白嵌在衣壳中”这个生物学结构特征,预测结果必然有大量的假阳性[17,30,44].本研究使用实验室前期发展的表位预测算法,其最大优势在于将生物信息学算法和肠道病毒的衣壳结构特征密切结合,大大提高了算法的可靠性[17].在不同肠道病毒种型(EV-A 和EV-D)表位预测的实际应用中,通过对比实验结果可以确认算法具有较高的准确性[17,31].当然,生物信息学算法不可避免地存在自身的缺陷和限制.例如,算法仅能对已测定三维结构的肠道病毒进行表位预测;算法的精确性受到三维结构精确性的严重影响;算法的预测原理基于表位的病毒学假设(衣壳表面突出区域更易与抗体或受体结合),而这种假设需要在实践中通过实验性研究不断验证和改进,算法也随之更新.

作为EV-B 代表性血清型之一的E18,它的构象表位与EV-A(EV-A71 和CV-A16[17])和EV-D(EV-D68[31])一样呈现三簇分布规律.VP1 BC 环和C-端、VP2 EF 环是肠道病毒共有的表位,VP1 GH环是EV-A 特有的表位,VP1 DE 环是EV-D 特有的表位,E18 则未发现特异性表位.即使表位分布高度相似,但表位上的氨基酸突变决定了不同血清型肠道病毒的抗原性差异[17,45].与EV-D68[31]相似,VP1 C-端和VP2 EF 环是E18 的突变热点区域,每一个E18 进化分支的形成都伴随着氨基酸突变.目前尚未见能中和E18 的单克隆抗体(单抗)的相关报道,但同属EV-B 的E30 已报道有两个单抗4B10和6C5[46].单抗4B10 主要结合E30 峡谷南侧的VP1 C-端和VP2 EF 环,单抗6C5 结合位点包括峡谷北侧的VP1 BC 环、DE 环、EF 环和HI 环,而这些位点大多数都是E18 的表位区域,提示这些表位区域易与单抗结合.

本研究分别基于E18 的VP1 和基因组序列构建了时间尺度的分子进化树.VP1 进化树包含的序列数较多(285 条),能够更加准确地确定进化关系和推断分歧时间,但VP1 进化树仅能获得VP1 上的分支突变.基因组进化树虽然序列数较少(63 条),但能获得VP1~VP3 上的分支突变.基因组进化树和VP1 进化树具有高度一致的拓扑结构和VP1 上的分支突变,一方面证明本研究确定的分支突变高度可靠,另一方面基因组进化树补充了VP1 进化树缺乏的VP2 和VP3 上的分支突变,尤其是VP2 EF 环和VP3 knob 这两个重要表位区域.参照Chen 等[11,13]研究结果,将E18 分为A、B、C 三个主要分支,原株Metcalf 未划入任何分支.相较于A 分支和B 分支,C 分支是E18 的主要流行分支,96.8%分离的病毒毒株都属于C 分支.C 分支分为C1 分支和C2 分支,其中C1 分支在2013 年后未再流行,而C2 分支病毒毒株广泛分离于近年来的病毒性脑膜炎和手足口病疫情中,提示C2 分支可能具有较强的传染力和毒力,但尚未有E18传染力和毒力的进一步研究报道.分子进化树(图3)显示,E18 进化分支的形成伴随着表位处的氨基酸突变,尤其是VP1 C-端和VP2 EF 环是突变热点区域.之前的研究发现[4-5,11]多个VP1 上的多个重要突变位点,包括R6K、N10D、R84N、M104L、Y215F、I216V、V262T/A 和D275E 等.VP1 BC 环是E18重要的表位区域(图1 和图2).有研究发现[17,31],VP1 BC 环是EV-A 和EV-D 共有的重要表位.BC环上的R84N 是C 分支的分支突变,A 和B 分支均为R,几乎所有C 分支均为N(2 株为S),进一步验证了表位VP1 BC 环对肠道病毒的重要性.K6R 和T262V 是C2 的分支突变,D275E 则是C1 的分支突变(图3).从Nextstrain平台构建的VP1 进化树上可以清晰看到,D10N、Y215F、I216V、S257G 和H287R 都是C2 分支中国株的标志性氨基酸突变,M104L 则是其中一大簇病毒毒株上的标志性突变.E18 的分子进化分析,一方面从另一个角度间接地验证了表位预测的准确性,另一方面也提示表位处的重要氨基酸突变及相应病毒毒株的时空传播路线是肠道病毒监测和预警分析的重点.

对于流感病毒和冠状病毒,由于接种疫苗和广泛感染产生群体免疫,使得病毒处于正选择进化压力下,因此不仅表位突变频繁,而且受体结合区域也存在广泛突变,从而产生免疫逃避[47-48].而对于肠道病毒,由于新生儿不断补充易感群体[49],使得多数肠道病毒并没有面临显著的进化压力,因此相对突变速率要慢一些(E18 的VP1 约为5.6×10-3替换·(位点·a)-1,与其他肠道病毒相似),在表位区域存在较弱的正选择压力,其他区域则偏向中性进化[50].E18 受体结合区域也更加保守,其足迹图提供了佐证.但随着E18 的广泛流行,人群血清中普遍存在中和抗体,病毒面临越来越强的正选择压力,表位也会突变得更加频繁,需要密切监测其抗原性是否会发生较大改变,出现类似EVA71 那样的大规模疫情[51].

生物信息学在流感病毒的优势病毒毒株预测方面取得了巨大成功[52-54],为流感疫苗的研发和准备提供了重要的技术支撑.对肠道病毒表位生物信息学的研究,可为进一步通过实验鉴定构象表位、病毒的监测和预警以及抗病毒药物和疫苗的研发提供重要支持.

猜你喜欢
衣壳构象进化树
腺相关病毒衣壳蛋白修饰的研究进展
高分辨率艾滋病病毒衣壳结构图确定
基于心理旋转的小学生物进化树教学实验报告
常见的进化树错误概念及其辨析*
丝氨酸构象异构化机理的密度泛函理论研究
福州2009—2014年甲型H1N1流感病毒株HA基因进化分析
艾草白粉病的病原菌鉴定
一种一枝黄花内酯分子结构与构象的计算研究
高致病性PRRSV JL-04/12株核衣壳蛋白的表达与抗原性分析
玉米麸质阿拉伯木聚糖在水溶液中的聚集和构象