刘朔,蒋文明,彭程,尹馨,刘华雷
(中国动物卫生与流行病学中心,农业农村部动物生物安全风险预警及防控重点实验室(南方),山东青岛 266032)
禽流感病毒(avian influenza virus,AIV)属于正黏病毒科α 流感病毒属,其基因组由8 个单股负链RNA 片段组成,部分基因片段的表达涉及可变剪接机制,可编码至少12 种病毒蛋白。根据病毒表面糖蛋白血凝素(Hemagglutinin,HA)和神经氨酸酶(Neuraminidase,NA)的抗原性差异,AIV 可分为16 种HA(H1—H16)和9种NA(N1—N9)亚型。
AIV 广泛存在于世界范围内的许多野禽和家禽中,水禽是其天然宿主。大多数AIV 会导致禽类无症状或轻度感染,症状轻重取决于病毒特性。在家禽中引起轻微疾病的病毒称为低致病性禽流感病毒(LPAIV),引起严重疾病并导致高死亡率的病毒称为高致病性禽流感病毒(HPAIV),该类病毒为H5 或H7 亚型。HPAIV 不仅给养禽业造成巨大损失,而且会导致野禽感染和发病,并随着候鸟迁徙加速病毒在全球范围内的传播[1]。AIV 有时也会突破种间屏障,感染猪、马、猫、犬、海洋哺乳动物和人类等[2]。近年来,我国频繁发生不同亚型AIV 感染人的公共卫生事件[3],引起社会广泛关注。如2013年2 月我国首次报道H7N9 感染病例,累计导致1 568 人感染,616 人死亡;2013年江西和2021年江苏报道人感染H10N8 和H10N3 AIV;2014年四川报告首例人感染H5N6 AIV 病例,至2021年底共报告65 例人间病例,死亡率达55%;2022年发生人感染H3N8 AIV 事件,再次引发人们对AIV 的关注。鉴于AIV 在野生鸟类和家禽中持续流行、人兽共患、病毒本身的高度变异性及传播和进化的复杂性,了解AIV 隐藏的生物学信息,对于疫病的诊断、风险评估和早期预警具有重要意义。解读病毒基因组信息是探明病毒分子生物学特性的重要步骤。本研究采用Perl 语言集成一系列软件和数据集,创建了基于Web 服务的AIV 基因分析软件(FluSoft),实现了AIV 基因组的快速批量注释和分析,为禽流感监测、研究和预警提供了有力的技术支撑。
FluSoft 数据集包括用于生物特性分析和遗传进化分析两个方面的数据集。
1.1.1 用于生物特性分析数据集 用于生物特性分析的数据集由两部分组成,即基础比对分析的AIV 参考序列和标记查询序列生物学意义的数据集。用于基础比对分析的AIV 基因组序列共34 条(表1)。其中,H5 基因、N1 基因和内部基因序列选择A/goose/Guangdong/1/1996(H5N1)毒株基因作为参考序列,除H5 基因外,其他H1—H16 基因序列参考文献[4],N2—N9 基因序列从GenBank检索得到。用于标记查询序列生物学意义的数据集根据文献[5]整理形成,内容包括耐药性、宿主受体特异性、毒力、糖基化位点、在家禽或哺乳动物中的传播能力等信息。为保持与现有文献的一致性,HA 基因突变位点注释根据H3 亚型序列进行编号,NA 基因突变位点注释根据N2 亚型序列进行编号,内部基因和NA 缺失情况根据A/Goose/Guangdong/1/1996(H5N1)毒株的基因组片段进行编号。
表1 用于基础比对分析的参考序列
1.1.2 用于遗传进化分析数据集 用于遗传进化分析的数据集由四部分组成,包括用于基础比对分析的AIV 参考序列、385 条H5 亚型AIV 核苷酸参考序列、1 300 条基于氨基酸序列分析的参考序列和对分支或亚分支进行描述的数据集。H5亚型AIV 核苷酸参考序列的选择参照流感研究数据库(The Influenza Reasearch Database,IRD)的H5分支分类工具[6],并补充新型亚分支的参考序列,如2.3.4.4a~2.3.4.4h、2.3.2.1d~2.3.2.1f;基于氨基酸序列分析的参考序列和对分支或亚分支描述的数据集,参照文献[7]构建。
基于以上数据集,设计出相应的运算逻辑,使用Perl 语言集成Blast、Muscle、Phylip 等软件和工具包,编写程序语言,并转变为网络在线版界面。
1.2.1 AIV 基因生物特性分析与注释 通过比对分析来获知查询序列携带哪些重要的基因突变,以及这些突变的生物学意义。用户输入FASTA 格式的AIV 核苷酸序列或氨基酸序列,系统将调用Blast 软件,与生物特性分析数据集的参考序列进行同源性搜索,将最佳比对氨基酸序列的翻译产物作为输入序列编码的预测蛋白。输出的分析结果包括查询序列的病毒片段/亚型、相关基因的结构和功能及位点突变的生物学意义等信息。生物特性分析逻辑运算的设计,充分考虑了AIV 部分基因片段(MP 和NS)的剪接机制,同时能够处理由于缺失导致读码框漂移的核苷酸序列。
1.2.2 AIV 基因遗传进化分析与进化树展示 通过构建遗传进化树来定位查询序列属于哪个谱系、分支或亚分支,了解病毒变异情况,预测新型或未知AIV 的进化关系。用户输入FASTA 格式的AIV 核苷酸序列或氨基酸序列,系统将调用Blast软件,与遗传进化分析数据集进行序列同源比对;再根据比对结果调用Muscle(multiple sequence comparison by logexpectation)软件来进行同一基因或亚型的多序列比对;通过Phylip 软件,采用邻接算法(Neighbor-joining method)对集成的多序列比对结果进行进化树绘制。遗传进化分析融合了两个分支分类的命名系统:一是基于H5 亚型HA基因核苷酸序列差异的统一命名准则,二是基于氨基酸序列差异的分支和亚分支命名系统。按照以下方案进行遗传进化分析:(1)用户输入的核苷酸序列若为H5 亚型HA 基因,则直接与H5 亚型AIV 核苷酸参考序列进行多序列比对,绘制遗传进化树;(2)若输入的核苷酸序列不是H5 亚型HA基因,则将用户的核苷酸序列翻译成氨基酸序列,并与相应基因或亚型的氨基酸参考序列进行多序列比对,绘制遗传进化树;(3)若输入的序列为氨基酸序列,则与相应基因或亚型的氨基酸参考序列进行多序列比对,绘制遗传进化树。
构建形成的一体化AIV 基因分析软件,具有中英文两种界面。页面内容包含软件的创建单位、简要应用说明和操作界面。用户只需要输入序列、指明序列类型、选择分析类型,即可实现基于Web访问的AIV 基因序列批量分析、注释、可视化展示及下载等功能(图1)。
图1 FluSoft 主页界面
用户在Web 页面粘贴或上传单条或多条FASTA 格式的AIV 核苷酸或氨基酸序列,依次选择序列类型、“生物特性分析”,提交后系统将调用Blast 软件,与生物特性分析数据集进行同源性比对。在结果中将得到查询序列的病毒基因片段/亚型、参考序列名称、与参考序列的比对结果、突变的生物学意义及生物特性意义的文献PMID 唯一标识码(图2)。针对H5 和H7 亚型,进一步展示其HA 基因裂解位点氨基酸序列及碱性氨基酸个数。此部分对于用户输入的核苷酸序列要求没有那么严格,软件能够处理由于缺失导致读码框漂移的核苷酸序列。
图2 生物特性分析输出结果
用户在Web 页面粘贴或上传单条或多条FASTA 格式的AIV 核苷酸或氨基酸序列,依次选择序列类型、基因或亚型、“遗传进化分析”,提交后系统将调用Muscle、Phylip 等软件、工具包和数据集,绘制进化树。在新窗口中输出得到查询序列的亚型或基因片段、与之最密切相关的谱系/分支及对该谱系/分支的描述、用Phylip 软件制作的无根树(图3)。用户可以在线查看进化树,也可以下载.tre 文件,用MEGA 等软件打开或编辑。
图3 遗传进化分析输出结果
H5 亚型HA 基因遗传进化分析的命名系统,是基于H5 亚型HA 基因核苷酸序列差异的统一命名准则制定的。由于H5 亚型HA 基因的氨基酸进化树和核苷酸进化树不完全一致,建议用户分析H5 亚型HA 基因的遗传进化关系时,使用核苷酸序列进行分析。而其他亚型或基因片段遗传进化分支分类,是基于氨基酸序列的命名系统制定的,因此当进行除H5 亚型以外的核苷酸序列遗传进化分析时,需要用户确保输入的核苷酸序列位于开放阅读框内,并且从第一个碱基开始可以正确翻译,使之匹配对应的氨基酸序列。
AIV 是严重影响全球家禽养殖及野鸟健康的病原体之一。病毒的基因序列分析是疫病诊断和监测的重要内容,也是分析疫情发展态势、评估风险和更新疫苗毒株的重要依据。目前,国内外AIV的基因序列分析,大多需要阅读大量的文献并开展复杂的手工运算。为简化这一过程,国际上已经开发出多个AIV 分析软件。IBD 是为AIV 研究提供信息支持的生物信息学资源中心,可为用户提供序列及其它相关数据的分析和可视化展示,具有预测新变异蛋白、注释相关表型序列、自动转换HA 亚型编号、H5 分支分类等功能,是重要的流感研究数据信息平台,然而其H5 分支的分类数据已经有4年未进行更新。FLAN 是NCBI 用于AIV 基因组注释的Web 服务器[8],可提供A 型和B 型AIV 的序列预测,输出预测蛋白序列、输入序列长度、病毒类型、片段和亚型等信息,但其输出结果过于简单,不能满足系统化和一体化的信息要求。Flusurver 是GISAID 流感数据库提供的分析AIV变异问题的软件,但该软件很多时候受国际带宽瓶颈的影响而无法登陆。本研究开发的基于Web 服务的AIV 基因分析软件FluSoft,是业内首个可视化AIV 基因分析软件,具有简单、高效、全面、无国际宽带瓶颈限制和对用户友好等特点,为我国从事禽流感调查监测的基层动物疫病控制人员和开展禽流感研究的科研人员提供了高效的分析工具,有效提升了数据的分析效率。
关于AIV 的谱系/分支命名,国际上仅对全球比较关注的H5 亚型HPAIV HA 基因核苷酸的遗传进化有统一命名标准[9-10],其他基因或亚型没有统一的命名标准。2019年本实验室根据AIV 2 个外部基因(HA 和NA)和6 个内部基因(PB2、PB1、PA、NP、MP 和NS)构建大进化树,依据进化树的拓扑学规则以及病毒的宿主、时间和空间分布特征及现实必要性,提出了基于蛋白质序列的全新分支和亚分支命名系统。因此,FluSoft 的遗传进化分析融合了两个命名系统。未来随着AIV的不断变异和进化,研究成果的不断呈现,我们也将根据国际和国内禽流感监测的最新研究成果,及时补充更新关键数据集,从而不断适应AIV 基因组大数据分析的需求。
目前,候鸟传播引发的禽流感疫情在全球多个国家频发,病毒溢出感染人和其他哺乳动物的事件时有发生,而AIV 是人类最难以预测和预防的病毒之一,时刻在不同物种间发生变异和重组,产生新的毒株。因而需要在同一健康的思路下,综合考虑人、动物、环境,时刻保持警惕,加强监测,做到早发现、早预警。FluSoft 为禽流感的监测和研究提供了强有力的先进工具。