甲型流感病毒快速分型与分析软件的开发与试用

2016-07-19 01:45王楷宬庄青叶王素春陈继明
中国动物检疫 2016年4期
关键词:亚型

王楷宬,王 通,庄青叶,邱 源,彭 程,王素春,陈继明

(中国动物卫生与流行病学中心,山东青岛 266032)



习题与答案

甲型流感病毒快速分型与分析软件的开发与试用

王楷宬,王 通,庄青叶,邱 源,彭 程,王素春,陈继明

(中国动物卫生与流行病学中心,山东青岛 266032)

摘 要:甲型流感病毒危害动物和人类健康,其亚型多、突变率高、易发生重配,因此对其进行检测及流行毒株基因分析尤为重要。为解决传统方法进行大量甲型流感病毒序列分型和分析时存在的费工耗时、人为错误多等问题,结合实际工作需要,使用Perl语言建立了一套lunix系统下的甲型流感病毒快速分型与分析软件,并试用其对GenBank中所有宿主为鸭的甲型流感病毒进行了分析。结果显示,该软件可在较短的时间内完成大量序列的分析、分型和遗传进化研究,可用于甲型流感病毒的大规模流行病学调查分析。

关键词:甲型流感病毒;基因分析;亚型;遗传进化

甲型流感病毒能感染多种宿主,包括家禽、猪、马、野生鸟类和人等温血动物。有关甲型流感流行的记录已超过百年[1],先后造成了1918年、1957年、1968年和2009年四次全球性流感大流行,对人类的生命健康和社会生活形成了巨大威胁。对兽医工作有重要意义的禽流感病毒也属甲型流感病毒。在我国,有多种亚型的甲型流感病毒流行,时有导致动物疫情和公共卫生事件的发生,如2013年发生的“H7N9流感事件”[2]。

甲型流感病毒属于正黏病毒科、流感病毒属的单股负链RNA病毒,其基因组由8个单股负链RNA片段组成[3]。其粒子表面有血凝素(Hemagglutinin,HA)和神经氨酸酶(Neuraminidase,NA)两种表面结构蛋白。根据HA和NA的抗原性差异可分为18种HA亚型(H1~H18)和11种NA亚型(N1~N11)[4-6]。不同亚型甲型流感病毒的致病性和宿主嗜性等均有较大差异。低保真RNA聚合酶会引起病毒的高突变率和重组,造成病毒分子出现多样性,使每个病毒亚型可变异为多种不同的分支[7]。通常一个碱基对的突变,也可引起病毒对宿主感染能力的改变[8]。由于其亚型多、突变率高、易发生重配,所以检测并对流行毒株进行基因分析尤为重要。

通常需要使用RT-PCR方法扩增甲型流感的HA和NA基因,再通过Blast比对确定其亚型,之后再与同一亚型的其他流行毒株的序列进行遗传演化分析,然后才能确定其分支。在对大量样品进行检测和分析的流行病学调查中,需要对每个病毒的亚型进行确定,还要将同一亚型的病毒序列进行分类整理和分析,导致效率较低。而使用MEGA 等windows系统下的分析软件进行序列比对,耗时过长,且需要进行大量的人工整理与比对,造成分析结果人为错误的机会较多。针对这一问题,本文结合实际工作,建立了一套lunix系统下的甲型流感病毒快速分型与分析软件,并试用其对Gen-Bank中宿主为鸭的所有甲型流感病毒进行了亚型和遗传演化分析。

表1 参考序列统计表

1 材料和方法

1.1设备与操作系统

高性能计算平台为Dell T630塔式服务器,具有 2颗 Intel(R)Xeon(R)CPU E5-2620 v3 @ 2.40GHz,内存264 G,存储23 T,操作系统版本为CentOS Linux release 7.1.1503 (Core),由中国动物卫生与流行病学中心搭建。

1.2分析软件构建

1.2.1参考序列筛选。为快速准确进行甲型流感病毒的分型,从GenBank中严格筛选了35条甲型流感病毒序列作为参考序列,这些序列包含了甲型流感病毒的全部亚型,见表1。

1.2.2分型理论基础。为对甲型流感病毒的序列进行分型解析,将其与35条参考序列进行比对。根据比对同源性,在35条参考序列中,筛选与病毒序列亲缘关系最近的一条,若同时满足阈值标准,则该序列与此参考序列是同一基因或亚型。同时为实现大批量样本分型解析,采用并行化与自动化的方式进行数据处理,将同一基因或同一亚型基因自动整合为一个文件,自动进行序列对齐与分析。本分型软件拟通过将待分析序列(Query序列)与参考序列(Ref序列)进行BLAST(软件版本2.2.26)比对,根据比对结果中Query序列与Ref序列的同源性进行分析,选取最优的比对结果作为分型判定依据。由于BLAST采用局部比对的算法,因此,在同源比对过程中,两两序列比对结果可能会分成多个局部比对结果输出。亲缘关系较远的序列之间由于局部具有较高相似性,也会具有较高的比对分值(E-value)与同源性值(identity),并作为一个比对结果输出出来。但综合考虑比对长度因素,二者之间并不存在真正的同源关系,这会给分析造成干扰,出现假阳性结果。新开发的这款软件,能对两条序列局部的比对结果进行重新计算。首先,对原始BLAST结果进行过滤,过滤掉比对长度小于50 bp,并且identity值小于50的比对(这些比对由于同源性较低,会给计算带来干扰)。然后,通过Query序列比对到Ref序列的位置信息,将两条序列的多个比对结果进行合并,计算Query序列与Ref序列的覆盖比率。设定一条Query序列长度为Q(length),比对到的参考序列长度为R(length),二者之间的比对长度为L,则Query序列的覆盖比率为Query (coverage)为:

参考序列的覆盖比率Ref (coverage)为:

由于计算的比对长度L已经为过滤之后满足条件的同源比对,因此,最终计算得到的Query序列与参考序列的覆盖比率,考虑了序列长度因素,具有更高的准确性。最终设定阈值为,当Query (coverage)或者Ref(coverage)值大于60%时,则Query序列与Ref序列为相同的基因或亚型。

1.2.3并行化计算。一组Query序列之间是相互独立的,每条序列需独立与35条参考序列进行比对。因此,为提高计算效率,采用并行化处理和比对方式,将每条Query序列同时与参考序列进行BLAST比对计算,以期大大提高分析速度。

1.2.4系统发育树构建。在完成序列分型鉴定之后,将具有同一亚型的序列整合,进行系统发育分析。选择MEGA-CC软件(软件版本 7.0.7)对同一基因或同一亚型的Query序列进行多序列比对,比对之后采用MEGA-CC对多序列比对结果进行系统发育树构建。采用并行化的处理方式,对每个基因或每个亚型的基因并行化计算。

1.2.5自动化。采用传统人工方法进行数据处理,需消耗大量时间,并且产生人为误差的几率较大。新开发的自动化的数据处理软件,在程序中加入了上文提到的并行化处理方法。该软件能够实现从数据比对、甲型流感病毒分型和整理、结果统计以及系统发育树等过程的自动化完成,只需将Query序列调入分析,即可完成所有数据的处理工作。

1.3GenBank中鸭源甲型流感病毒的序列分析

利用该分析软件,从GenBank下载了25 815条宿主为鸭的甲型流感病毒序列进行软件的验证工作,序列详细统计见表2。

表2 GenBank 中鸭源甲型流感病毒序列统计

2 结果

2.1分析软件构建

按照预期设想,使用Perl语言编辑11条命令或程序,采用并行处理和自动化的方式,构建完成甲型流感病毒分型与分析软件。初步测试显示其能正常运算和分析。

2.2GenBank中鸭源甲型流感病毒的序列分析

使用甲型流感病毒快速分型与分析软件对25 815株鸭源甲型流感病毒序列进行分型,输出结果均包含在Result文件夹中,每个基因或每个亚型基因的所有序列均整理至对应基因名称的文件中的一个文件,未比对到参考序列的基因归为no_ type,统计信息可在stat文件中显示。分析结果统计见表3,与GenBank中的序列背景材料核实均符合。软件具体运行时间统计见表4。

表3 鸭源甲型流感病毒25 815株序列分型结果统计表

表4 软件运行时间统计

图1 HA_H12亚型多序列比对结果(部分)

分型结束之后,选取HA_H12作为代表,使用MEGA-CC软件(软件版本 7.0.7)进行多序列比对,并进行系统发育分析。多序列比对结果(部分)如图1所示,系统发育树见图2。

图2 HA_H12亚型系统发育树

3 讨论

本文采用Perl语言编写了甲型流感病毒快速分型与分析软件,能够用于大量甲型流感病毒基因的分析,目前国内外均未见开发类似软件的报道。在整个数据分析过程中,需完成Query序列与Ref序列BLAST比对、比对结果过滤、计算Query (coverage)与Ref(coverage)、分型、结果统计、同一亚型多序列比对,以及构建系统发育树等过程。由于使用了高性能计算机分析平台,并且采用并行化处理方式,因此该软件不受Query序列条数限制,可以同时计算数十万个样品的快速分型。

在对未知样品测序序列进行分型过程中,需要将Query序列与已知参考序列进行同源比对,根据比对相似性进行结果判断,进而对未知样品进行分型鉴定。因此参考序列的选择对于分型结果有很大的影响。如果参考序列中不存在该亚型,就无法进行分型鉴定。这里我们选择每一亚型中已发表的具有代表性的序列作为参考序列,减少了参考序列带来的误差。从软件分析结果来看,在分析GenBank中鸭感染的甲型流感病毒序列时,有34条序列未得到分析结果。分析其原因,可能由于序列长度过短(34条序列的长度为54~485 bp),其长度均小于对应基因参考序列长度的50%。根据比对长度对BLAST结果进行过滤时,会将比对长度过短的序列过滤掉,导致这些序列无法进行分型和分析。但这种序列在实际应用中属极少数,不会对软件的分析功能造成影响。

与GenBank下载数据的分型和分析,结果显示,该软件可以快速、准确对甲型流感病毒进行分型、分析和遗传进化研究,并且不具备较深生物信息学和病原学基础的操作人员也可进行操作,所以该软件能够满足各类动物疫病预防控制机构和研究院所开展流感病毒的流行病学调查和遗传变异研究,可以提高我国甲型流感的分析和应急能力。

参考文献:

[1]Taubenberger J K,Hultin J V,Morens D M. Discovery and characterization of the 1918 pandemic influenza virus in historical context [J]. Antivir Ther,2007,12(4 Pt B):581-591.

[2]Parry J. H7N9 avian fl u infects humans for the fi rst time [J]. BMJ,2013,346:f2151.

[3]Hoffmann E,Stech J,Guan Y,et al. Universal primer set for the full-length amplifi cation of all infl uenza A viruses [J]. Arch Virol,2001,146(12):2275-2289.

[4]Freidl G S,Binger T,Muller M A,et al. Serological evidence of infl uenza a viruses in frugivorous bats from Africa [J]. PLoS One,2015,10(5):e0127035.

[5]Tong S,Li Y,Rivailler P,et al. A distinct lineage of infl uenza A virus from bats [J]. Proc Natl Acad Sci U S A,2012,109(11):4269-4274.

[6]Tong S,Zhu X,Li Y,et al. New world bats harbor diverse infl uenza A viruses [J]. PLoS Pathog, 2013,9(10):e1003657.

[7]Ghedin E,Sengamalay N A,Shumway M,et al. Large-scale sequencing of human infl uenza reveals the dynamic nature of viral genome evolution [J]. Nature,2005,437(7062):1162-1166.

[8]Wang M Z,Tai C Y,Mendel DB. Mechanism by which mutations at his274 alter sensitivity of influenza a virus n1 neuraminidase to oseltamivir carboxylate and zanamivir [J]. Antimicrob Agents Chemother, 2002,46(12):3809-3816.

(责任编辑:朱迪国)

《中国动物检疫》2016年重点选题策划

中图分类号:S858.28

文献标识码:B

文章编号:1005-944X(2016)04-0080-05

DOI:10.3969/j.issn.1005-944X.2016.04.026

基金项目:科技部科技基础性专项(SQ2012FY3260033);中国动物卫生与流行病学中心创新基金(2015IF-0004FF)

Development and Trial Test of Rapid Typing and Analysis Software of Infl uenza A Virus

Wang Kaicheng,Wang Tong,Zhuang Qingye,Qiu Yuan,Peng Cheng,Wang Suchun,Chen Jiming
(China Animal Health and Epidemiology Center,Qingdao,Shandong 266032)

Abstract:Infl uenza A virus is harmful to animal and human health. It reveals many subtypes,high mutation rate and easily to be recombined. The detection and genes analysis of the pandemic strain seems to be particularly important. In order to solve the problems of time-consuming and human errors during sequence typing analysis of infl uenza A virus using traditional methods,a rapid typing and analysis software was established by Perl based on lunix systems,according to the practical work needs. A trial test was carried out to analyze all the infl uenza A viruses isolated from ducks in GenBank. Results showed that the software could complete a series of analysis,typing and genetic evolution research in short time,so it could be used for large-scale epidemiological investigation and analysis of infl uenza A virus.

Key words:infl uenza A virus;gene analysis;subtype;genetic evolution

猜你喜欢
亚型
尖锐湿疣患者感染HPV亚型的研究及临床分析
H4 亚型和N2 亚型禽流感病毒二重RT-PCR 检测方法的建立
2016~2017年山东省三种亚型猪流感血清学调查
Acknowledgment to reviewers—November 2018 to September 2019
H10亚型和N8亚型禽流感病毒三重RT-PCR检测方法的建立
基于CYP2C9亚型酶研究丹红注射液与阿司匹林的相互作用
内皮前体细胞亚型与偏头痛的相关性分析
Ikaros的3种亚型对人卵巢癌SKOV3细胞增殖的影响
ABO亚型Bel06的分子生物学鉴定
吴茱萸水煎液对大、小鼠肝药酶亚型影响的比较研究