基于公共sRNAs库的病毒检测分析研究

2014-02-10 16:52王亚静
天津科技大学学报 2014年5期
关键词:宿主测序物种

王亚静,王 珲,王 敏,徐 峰

(1. 天津科技大学生物工程学院,天津 300457;2. 英国自然环境理事会/生态与水文研究中心,牛津 OX10 8BB;3. 南开大学药学院药物化学生物学国家重点实验室,天津 300071)

基于公共sRNAs库的病毒检测分析研究

王亚静1,王 珲2,王 敏1,徐 峰3

(1. 天津科技大学生物工程学院,天津 300457;2. 英国自然环境理事会/生态与水文研究中心,牛津 OX10 8BB;3. 南开大学药学院药物化学生物学国家重点实验室,天津 300071)

以公共的small RNAs (sRNAs)新一代测序数据为材料,通过生物信息学的分析方法检测生物实验系统样品中存在的病毒,讨论病毒与宿主间的关系,病毒的种属特性,进而指导生物实验设计.从GEO Datasets数据库下载917个已发表的sRNAs高通量测序数据,通过生物信息学分析共检测出来自334个样品库的2,107条高度同源的病毒序列和2,930条疑似的病毒序列.这些病毒主要是正链RNA病毒、反转录病毒和双链DNA病毒,集中在花椰菜花叶病毒科、反转录病毒科、杆状病毒科和芜菁黄花叶病毒目.

病毒检测;small RNAs;病毒分类;生物信息学;抗病毒免疫;下一代测序

病毒是地球上最丰富和多样的生物群体[1-2],但在2012年的ICTV分类中,已知病毒尚不到6,000种[3],人们对病毒圈和病毒群落的了解十分有限[4],这使得预期外的病毒感染/污染无论在环境样品还是实验室样品中都常有发生.由于病毒的感染会引起宿主的抗病毒免疫反应,消耗宿主的能量并经常影响宿主的新陈代谢和生长发育,考虑将预期外的病毒感染作为生物实验设计中的控制条件是十分重要的.对已发表的生物实验系统的病毒检测有助于指导实验设计,减少意外感染发生.

Small RNAs(sRNAs)是真核生物RNA沉默及其相关通路的关键调控者.在抗病毒免疫通路中,sRNAs既作为中间分子通过RNAi和相关的RNA沉默效应机制指导特异性的抗病毒免疫[5],也作为终产物通过靶向病毒性RNA得以积累[6].新一代测序技术允许测序反应大规模并行化,因其能够同时测序大量的DNA分子,所以又称深度测序,具有高通量、快速、精确、价格低廉的特点[7],为病毒的发现和检测提

供了强有力的工具,通过sRNAs的深度测序,能够快速精确地从整个或特殊的组织中识别出病毒序列,找到无症状样品中低丰度的病毒[8].这种高通量、高灵敏度的方法彻底改变了病毒检测和鉴定手段,Kreuze等[9]和Wu等[10]先后使用此种方法在植物和无脊椎动物中检测出病毒,并发现了全新的病毒.

随着新一代测序技术的迅速发展,以高通量测序技术为基础的生物学研究领域在不断扩增,越来越多的物种被测序和分析,产生的高通量公共实验数据可通过专门的数据库来存储和查询.本研究以公共的sRNAs新一代测序数据为材料,通过生物信息学的分析方法检测生物实验系统样品中存在的病毒,讨论病毒与宿主间的关系,病毒的种属特性,进而指导生物实验设计.

1 材料与方法

1.1 实验材料

1.1.1 数据

用于分析的测序数据选自GEO Datasets[11],通过高级搜索条件“(((small RNA)OR short RNA)OR sRNA)AND "high throughput sequencing"”搜索,最终选取来自95个物种和4个混合物种的917个sRNAs样品库数据,总计76.9,GB.

1.1.2 硬件、软件及数据库

用于数据分析的硬件设备包括:800,CPU,峰值7万亿次/秒,操作系统为GNU/Linux SUSE Linux Enterprise Server 11,SP1(x86_64)的计算集群;32,GB内存,32,CPU,SUSE Linux Enterprise Server 11,SP1(x86_64)的服务器;4,GB内存,Intel(R)Core (TM)i5-2410M CPU,2.30,GHz的PC.

数据分析软件主要包括:NCBI-BLAST-2.2.27+,SOAPdenovo-Trans 1.0,Velvet 1.2.07,CD-HIT 4.5.4,Bowtie2 2.1.0,Samtools 0.1.7,Bedtools 2.17.0,Perl,R 2.15.1.

数据库包括:fRNAdb 3.4,NCBI Nt database(2013.06.05),NCBI Nr database(2013.06.05),Uniprot.

1.2 实验方法

1.2.1 数据标准化

GEO数据库中的生物实验数据格式不统一,使用perl脚本标准化成多数软件可识别的Fasta格式.1.2.2 过滤宿主的ncRNAs序列[12]

sRNAs在提取的过程中会存在宿主来源的miRNAs、siRNAs以及rRNAs、tRNAs降解的序列.通过BLAST程序将sRNAs样品库与fRNAdb数据库比对,使用perl脚本过滤掉完全比对到数据库中的sRNAs.

1.2.3 sRNAs的从头组装(Denovoassembly)[13]

过滤后的sRNAs样品库分别使用Velvet和SOAPdenovo-Trans进行从头组装,并以不同的kmer参数(k=15、17、19、21、23)多次拼接,拼接出的contigs(原始测序reads拼接后的序列)使用Velvet进行二次拼接(k=39、41、43、45、47、49).将每个sRNAs样品库组装的contigs汇总,使用CD-HIT对每个样品库的contigs去冗余,并保留contigs长度大于50,nt的序列用于后续的分析.

1.2.4 Contigs的验证

为了验证从头组装的contigs的可靠性,通过bowtie2将原始的sRNAs样品库中的reads比对到去冗余后的contigs上,通过samtools、bedtools以及Perl脚本计算出每个contig的覆盖度,覆盖度小于95%的contigs被认为是不可靠的,将这部分序列从每个样品库组装出的contigs过滤掉.计算每个样品库中覆盖度≥95%的contigs比例.

1.2.5 Contigs的注释

为了使检测结果更可靠,选用了最大的核酸库Nt和最大的蛋白库Nr,将每个样品库对应的contigs分别使用BLASTn程序与Nt比对,BLASTx程序与Nr比对,保留每个contigs比对结果中最好的注释信息,过滤掉没有比对到病毒序列或比对到病毒序列的但contigs的覆盖度小于95%的注释信息.

1.2.6 数据分析

在Nt数据库的注释结果中,当contigs与已知的病毒序列identity(%)≥80%时,认为检测出相应病毒[10],而剩余identity(%)≥40%的序列被认为是疑似病毒.由于Nr是蛋白库,比对到Nr的序列是通过预测得到的结果,identity(%)≥40%的序列也被认为是疑似病毒(去除比对到Nt库中的病毒序列identity≥40%的比对结果).物种–病毒相互关系通过R软件呈现,并通过Uniprot数据库获得病毒的分类信息.

2 结果与分析

2.1 sRNAs样品库的从头组装

sRNAs样品库通过过滤宿主ncRNAs序列,多软件、多kmer、多次从头组装,contigs冗余,最终获得sRNA样品库的拼接结果,然后通过contigs的验

证过滤掉覆盖度较低的contigs,验证结果如图1所示.超过80%样品库的覆盖度大于95%的contigs比例在70%以上,最高达到99.6%.虽然个别样品库覆盖度大于95%的contigs比例低于40%,但是从总体上看,覆盖度大于95%的contigs比例是较高的,这从一个方面说明组装的结果是可靠的.

2.2 生物实验系统中的物种–病毒

2.2.1 Nt、Nr注释

经过Nt、Nr数据库注释,与已知病毒序列高度相似的contigs总共2,107条,来自45个物种(含2个混合物种)的238个样品库,占总样品的26%.其中,Mus musculus检测到病毒物种最多(20种),Arabidopsis thaliana对应的病毒contigs最多(339条),这些contigs来自44个sRNAs样品库.

疑似的病毒序列共有2,930条,来自58个物种(含3个混合物种)的280个样品库,占总样品的30%.其中,Mus musculus检测到疑似病毒种类最多(35种),Spodoptera frugiperda对应的疑似病毒contigs最多(347条).

以上病毒相关的序列总共5,037条,对应病毒293种,涉及63个物种的334个样品库.由此看出,有近30%的生物实验样品受到病毒的感染或污染.2.2.2 物种-病毒相互关系

为了研究生物实验系统中检测的病毒与对应的样品物种关系,提取通过2.2.1的Nt、Nr注释获得的293个病毒物种及对应的63个样品物种,并按照病毒的天然宿主分为植物病毒、动物病毒、其他病毒(包括噬菌体、类病毒、真菌病毒和噬藻体),绘制成宿主物种–病毒关系图,见图2—图4.图中分3种色块,颜色随加深分别代表疑似的病毒、检测出的病毒以及两者重叠部分.并对宿主按照植物、无脊椎动物、脊椎动物(除人)以及人分别标记为A、B、C、D,物种具体名称见表1.

293种病毒包括植物病毒110种、动物病毒160种、其他病毒23种.由图2、图3可以看出:植物病毒主要从植物宿主样品中检测出,动物病毒也主要从动物宿主样品中检测出,这暗示这些病毒序列不可能是由于样品的随机污染造成的.在宿主物种与动植物病毒的关系图(图2、图3)中都存在着一个病毒在多个宿主的样品中被检测出的现象:植物病毒Petunia vein clearing virus、Beet western yellows virus、Cucumber mosaic virus和Turnip yellows virus均能从5种或以上的植物宿主中被检测出,说明这些病毒可能具有较广的宿主范围.一般单子叶植物病毒只能感染单子叶植物[14],但在双子叶植物(如Glycine max、Arabidopsis thaliana)的样品中发现单子叶植物病毒(如Beet western yellows virus、Brassica yellows virus、Turnip yellows virus).动物病毒Autographa californica nucleopolyhedrovirus能够从6种动物宿主检测,而Lausannevirus的天然宿主是无脊椎的原生动物,却在5种植物宿主中检测,可能的原因是这5种病毒均来自疑似的病毒,准确性还有待验证;另一方面也可能是样品在提取测序过程中存在污染.

在其他病毒–物种图(图4)中,Enterobacteria phage T4T、Enterobacteria phage vB_EcoM_ACGC40、Escherichia phage wV7均能从6种物种的样品中被检测出,这包括植物、无脊椎动物、脊椎动物样品,且多数是确定或是重叠部分的病毒,噬菌体能够从真核生物的样品中检测出,这可能是实验样品中病毒载体使用产生的结果.

2.3 病毒属性研究

为了更加深入了解生物实验系统检测到的病毒的特性,对这293种病毒类型进行分类,见表2.

检测出的病毒主要为正义ssRNA病毒、反转录病毒、dsDNA病毒,所有类型的病毒都可以通过此种方法检测.其中ssRNA病毒主要为植物正链RNA病毒[15],集中在芜菁黄花叶病毒目(Tymovirales,23种)、马铃薯Y病毒科(Potyviridae,14种)和番茄丛矮病毒科(Tombusviridae,11种),反转录病毒主要分布在植物的花椰菜花叶病毒科(Caulimoviridae,42种)和脊椎动物的反转录病毒科(Retroviridae,41种),dsRNA病毒主要分布在植物的双组分RNA病毒科(Partitiviridae,17种),dsDNA病毒集中在昆虫的杆状病毒科(Baculoviridae,19种).检测到病毒集中分布在几个病毒科中,这些信息可用于在生物实验设计中预防病毒的感染或污染.

3 结 语

利用公共数据库中生物实验系统的sRNAs过程数据,通过从头组装以及生物信息学分析,很容易检测出病毒序列.有近30%的实验样品可能存在着病毒的感染或污染,但由于原始数据处理的程度以及测序的深度可能使其低于真实值.

本研究获得了生物实验系统中物种–病毒关系,并且它们集中在几个重要的病毒科,虽然无法通过实

验手段一一进行验证,但不影响这些信息在对特定物种的实验设计中控制病毒感染的参考价值.当然,由于本研究是基于已有的病毒信息进行注释分析,样品中仍然可能存在未知的病毒未被检测出.

[1] Suttle C A. Marine viruses—major players in the global ecosystem[J]. Nature Reviews Microbiology,2007,5(10):801–812.

[2] Suttle C. The viriosphere:The greatest biological diversity on Earth and driver of global processes[J]. Environmental Microbiology,2005,7(4):481–482.

[3] Adams M J,Lefkowitz E J,King A M Q,et al. Recently agreed changes to the statutes of the international committee on taxonomy of viruses[J]. Arch Virol,2014,159(1):175–180.

[4] Mokili J L,Rohwer F,Dutilh B E. Metagenomics and future perspectives in virus discovery[J]. Current Opinion in Virology,2012,2(1):63–77.

[5] Ding S W,Voinnet O. Antiviral immunity directed by small RNAs[J]. Cell,2007,130(3):413–426.

[6] Ding S W. RNA-based antiviral immunity[J]. Nature Reviews Immunology,2010,10(9):632–644.

[7] Metzker M L. Sequencing technologies—the next generation[J]. Nature Reviews Genetics,2009,11(1):31–46.

[8] Singh K,Kaur R,Qiu W. New Virus Discovery by Deep Sequencing of Small RNAs[M]//RNA Abundance Analysis. Totowa,NJ:Humana Press,2012:177–191.

[9] Kreuze J F,Perez A,Untiveros M,et al. Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs:A generic method for diagnosis,discovery and sequencing of viruses[J]. Virology,2009,388(1):1–7.

[10] Wu Q,Luo Y,Lu R,et al. Virus discovery by deep sequencing and assembly of virus-derived small silencing RNAs[J]. Proceedings of the National Academy of Sciences,2010,107(4):1606–1611.

[11] Barrett T,Wilhite S E,Ledoux P,et al. NCBI GEO:Archive for functional genomics data sets—update[J]. Nucleic Acids Research,2013,41(D1):D991–D995.

[12] Isakov O,Modai S,Shomron N. Pathogen detection using short-RNA deep sequencing subtraction and assembly[J]. Bioinformatics,2011,27(15):2027–2030.

[13] 赵磊,Zachary LARSON-RABIN,陈斯云,等. 基于Illumina RNA-Seq短序列的转录组从头组装软件比较与优化[J]. 植物分类与资源学报,2012,34(5):487–501.

[14] Cardinale D J,DeRosa K,Duffy S. Base composition and translational selection are insufficient to explain codon usage bias in plant viruses[J]. Viruses,2013,5(1):162–181.

[15] 张忠信. 病毒分类学[M]. 北京:高等教育出版社,2006.

责任编辑:常涛

Virus Detection Based on Samples from Biological Experiment Systems

WANG Yajing1,WANG Hui2,WANG Min1,XU Feng3
(1. College of Biotechnology,Tianjin University of Science & Technology,Tianjin 300457,China;
2. NERC/Centre for Ecology and Hydrology,Oxfordshir OX10 8BB,United Kingdom;
3. College of Pharmacy,State Key Laboratory of Medicinal Chemical Biology,Nankai University,Tianjin 300071,China)

In this study,by using published small RNAs(sRNAs)sequencing data as research materials,viruses from samples in biological experiments were detected with bioinformatic analysis.Virus classification and the relationship between virus and host were discussed to guide the design of biological experiments. 917 published sRNAs sequencing data using high-throughput sequencing technology were downloaded from GEO Datasets. 2,107 contigs that are highly similar to virus sequences and 2,930 suspected viral sequences were detected from 334 samples based on bioinformatics analysis. These viruses are mainly ssRNA positive-strand viruses,retro-transcribing viruses and dsDNA viruses,concentrating inCaulimoviridae,Retroviridae,Baculoviridae and Tymovirales.

virus detection;small RNAs;virus classification;bioinformatics;antiviral immunity;next generation se quencing

Q-9

A

1672-6510(2014)05-0035-07

10.13364/j.issn.1672-6510.2014.05.008

2014–01–16;

2014–04–22

天津市科技支撑计划资助项目(12ZCZDSY14500);天津市自然科学基金资助项目(13JCYBJC20900)

王亚静(1987—),女(满),河北承德人,硕士研究生;通信作者:徐 峰,副教授,xufeng@nankai.edu.cn.

猜你喜欢
宿主测序物种
外显子组测序助力产前诊断胎儿骨骼发育不良
病原体与自然宿主和人的生态关系
龟鳖类不可能是新冠病毒的中间宿主
中草药DNA条形码高通量基因测序一体机验收会在京召开
回首2018,这些新物种值得关注
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良
电咖再造新物种
世界上的15个最不可思议的新物种
抓住自然宿主