侯莉 王亚东
摘要: 新一代测序技术的发展给DNA及RNA序列的分析带来了机遇和挑战,新一代测序技术产生的数据不同于传统测序技术产生的数据,高通量、低成本、信息量巨大的特点使得RNA序列的分析进入了一个全新的时代,以往的外显子芯片无法得到全基因组的完整信息,也无法观测到基因融合的问题,新一代测序技术使得对RNA序列的分析有了更深入的了解。文中简单介绍了DNA序列方法,以及当前主要的RNA序列比对工具的基本原理,分析了各种方法的优缺点。
关键词:
中图分类号:TP391文献标识码:A文章编号:2095-2163(2012)05-0001-04
引言
1977年,Sanger测序法?眼1?演的诞生是DNA测序技术的一个里程碑性质的大事件。在其后的三十多年中,几乎所有的测序技术都只是Sanger测序法的改进,而后研究人员又将Sanger测序法的研发推进到了自动化的层面,从而大大提高了DNA序列的测定速度。在2004年,454、SOLiD,Illumina等测序技术的兴起,给序列的测定带来了飞跃式的变化,但随着形态的多样化和应用的复杂化,由于Sanger测序法的某些缺陷,使得测序的通量和技术已经迟滞于该领域的发展需求,而相对于Sanger测序法的新一代测序技术因其具有的高通量,低能耗的优点,使得新一代测序技术代替Sanger测序法,而获得广泛的使用已成为势所必然。而由于新一代测序技术的产生,RNA序列的研究也随之发生了重大的改变。在此之前,RNA序列的测定主要是通过外显子芯片技术。外显子芯片可以用来测定RNA的序列信息,也可以用来分析外显子表达量,同时也能发现外显子的可变剪接等信息,但是外显子组芯片的制作却需要丰富的先验知识,并且与新一代测序技术相比,外显子组芯片的花费是巨大的,同时只能测定小范围内的序列,不能对整个基因组实施全方位的分析。随着新一代测序技术的发展,两种技术之间的差异也会越来越大。目前,对于RNA序列的大部分研究已经转向了新一代测序技术产生的序列数据,但即便如此,外显子组芯片也依然在其中发挥着独特的重要作用。新一代测序技术的产生给RNA序列的分析技术也带来了重大的改变。新一代测序技术产生的数据序列短、覆盖度高,但数据量大,这给传统的RNA序列分析工具设置了难题,因而应运而生地出现了多种基于新一代测序技术的RNA序列分析工具。相对于传统Sanger测序法,新一代测序数据产生的序列较短,通常称为短序列(reads),但是新一代测序数据产生的数据量却要远远大于Sanger测序法。必须正视这一问题的积极解决,才能确保新一代测序技术的先进性和有效性得以充分的发挥。
1 DNA序列比对工具现状
对于当前的RNA序列比对工具的研究,首先就要研究DNA序列比对工具,因为当前的RNA序列比对工具都是以DNA序列比对工具为基础发展得来的。
新一代测序技术产生后,曾经应用于外显子芯片技术的RNA序列分析方法已经不再适用,但是这些方法却可留下许多有益的启发。新一代测序技术的产生,给序列比对也带来了很大的挑战,人们都致力于研发更为有效的DNA序列比对软件。众所周知,只有找到新的、性能更佳的DNA序列比对方法,才能使高通量数据问题获得理想的解决。而RNA序列比对工具就是根据DNA序列比对软件工具,在其基础之上并根据RNA的不同性质和各种分析需求,构造可用于RNA序列的分析工具和分析策略。
基于新一代测序技术设计了很多DNA序列比对工具。
由于建立索引的不同,目前DNA序列比对工具主要分为两类,一类是用Hash表来构建索引,另一类是用BWT(Burrows-Wheeler Transform)来建立索引结构,该索引结构由于占用空间小、搜索速度快等优点正被广泛地关注和使用?眼2?演。
在高通量的序列比对中,索引是一个非常有效的机制。通过构建索引可以提高检索速度,从而提高了整体比对速度。基于Hash表的索引构建可以分为两种。
一种是将参考序列(reference sequence)构建成Hash表索引,建立索引时根据所需的短序列特性,例如长度等信息,将原始的参考序列分成连续重叠的短序列,根据不同的Hash算法将这些短序列存储起来,然后将实验得到的短序列与参考序列生成的Hash表进行比较,从而确定短序列的比对位置。基于Hash表的全部索引结构比对工具都可以比对有插入删除的序列,但是时间和空间的开销却很可观。
另一种是将短序列(reads)数据构建成Hash表索引,这种序列比对工具却较少。
还有的软件两种方式都采用以提高比对速度。基于Hash表的索引软件主要有Blast、Eland、MAQ、Bfast等。其中,Blast是出现最早的基于Hash表的索引软件,目前有很多学者正致力于减少基于Hash表的索引比对算法所需花费的时间和占用的空间。
基于BWT索引结构的DNA序列比对软件在目前的学术界较为流行。BWT变化方式比较复杂,在这里就不多做介绍了,但需要知道的是,该方式占用空间小,比对速度快。基于BWT索引结构的DNA序列比对软件也自然会有其无法忽视的弱点,即在处理插入删除上显然没有基于Hash表的DNA比对软件有效。当基于BWT索引结构的DNA序列比对每增加一个插入删除位点,就会大大增加比对负担,并且截至目前为止,也没有找到这个问题的合理解决方式。但是在不允许插入删除的比对中,人们还是更为倾向于选择基于BWT索引结构的DNA序列比对软件。基于BWT索引结构的DNA序列比对软件中,最具有代表性的是Bowtie和BWA。其中,Bowtie不接受插入删除,只处理失配位点,所以速度更快一些;而BWA却可允许少量的插入删除,速度相对来说就会慢一些,这主要是由处理插入删除时消耗较多资源而引起的。
2 RNA序列比对工具分析
对于RNA序列的研究并不能完全等同于DNA序列,主要是由于RNA序列是由不连续的片段组合而成,这种不连续的片段就叫做外显子(exon)。RNA序列虽然是以D-
NA序列为模板转录而来,但是与DNA序列又有很大的不同,因为不是所有的DNA序列都会出现在成熟的RNA中,并且最后翻译成蛋白质,也只有外显子才能获得这种表达。RNA序列的转录及翻译过程如图1所示。初始转录成的RNA会经过一系列的生物活动,剪接掉内含子,保留外显子,并将外显子连接在一起,同时在5端加上一个帽子,3端加上一个多聚腺苷的尾巴,最后还要经过一系列的修饰,才能转运到细胞核外,翻译成蛋白质。可想而知,将RNA序列直接比对到DNA参考基因组上,将会产生很大的问题,所以需要设计适用于RNA的序列比对策略。
在DNA序列比对软件基础上,根据不同的需求,产生了很多RNA序列分析工具。其中,以TopHat?眼3?演的应用最为广泛,TopHat是建立在Bowtie发展之上的,速度快,占用空间小,但是同样也具有不允许插入删除的缺陷。TopHat首先利用Bowtie将所有的短序列比对到参考基因组上,然后将比对上的短序列连接成外显子区域,再将外显子区域外延几个bp的长度,并参考已知的外显子剪接组合,试用外显子区域上的不同组合,将Bowtie在第一轮没有获得比对成功的短序列继续比对至组合而成的参考序列上,如果确有短序列实现了这种有效比对,就认定这种组合是正确的。
由于Bowtie是基于BWT索引的DNA比对工具中最早研发成功的,所以后续研究开展得较为充分,配套工具又很丰富,知名度也相对较高,所以使用选择者也就较多。同样,TopHat的开发时间也是目前较为有效的几种RNA序列分析工具中位居首位的,因而也成为当前流传甚广的分析工具。即使后面推出了更多的RNA序列分析工具,研究学者们也依然重点关注Bowtie和TopHat。TopHat的开发带动了RNA序列比对软件在新一代测序技术上的策略改变,由原来的主要依靠分析来解决RNA的比对,转变为依靠序列本身的信息来解决RNA序列的比对。在前文提到了RNA在转录后需要经过修饰,在很大程度上与原始的DNA序列已经有所不同,又由于TopHat不能处理插入删除,可想而知在RNA序列比对上,TopHat还是存在着一些问题。而且在一定限度上,TopHat还需要依靠RNA序列的先验知识,所以在寻找未发现的外显子上面,效果不是很好。
在TopHat之后,相继又产生了其他的RNA序列比对工具,例如MapSplice?眼4?演、SpliceMap?眼5?演等,这些工具也是建立在DNA比对工具基础之上,构造出的适用于mRNA的序列比对软件。这些软件中,MapSplice是利用Bowtie来进行短序列比对,但是MapSplice的比对策略却与TopHat存在着不同。首先,MapSplice将实验测得的短序列分成连续不重叠
的小片段,将小片段比对到参考基因组上,再利用小片段之间的联系,找出外显子所在位置;然后,利用统计学特性最终确定外显子位置以及外显子边缘。SpliceMap则主要是应用Eland。首先,SpliceMap将短序列分成重叠的50bp长的
小片段,将小片段的两端25bp长的序列比对到参考基因组上,而后根据两端序列比对情况再分析外显子区域,SpliceMap在时间和空间上与TopHat和MapSplice都要偏长、偏大,并且准确性还较低。另外,也还有很多其他的比对工具,但应用却较少,诸如SplitSeek?眼6?演,ABMapper?眼7?演等。
此外,还有一些RNA序列分析策略,虽然没有产生新的算法来解决新一代测序技术之下的RNA序列比对的问题,但是通过组合现有的DNA序列比对方法,产生了一个有效的RNA序列比对流程,使得RNA序列的比对结果更为精确。例如RUM?眼8?演和RNA-MATE?眼9?演。RUM不但包括序列比对流程,同时还包括一个RNA序列模拟生成器。RUM首先利用Bowtie将序列比对到参考基因组和转录组上,将剩余没有得到比对的序列运用BLAT再次进行比对。但是RUM却需要依靠现有的转录库来分析序列,在RNA序列分析上表现了很大的局限性,如不能发现新的外显子以及可变剪接组合信息,在新功能的发现上应用空间也不大。RNA-MATE允许使用任何比对软件。首先将所有的短序列比对到参考基因组上,再将剩余的序列分割成较短的序列,进行比对,如此循环反复,直至达到一个设定的限度停止。
还有一类mRNA的分析策略是,首先,将测序得到的所有短序列(reads)利用新一代测序技术的组装工具拼装到一起,形成长的contigs,再利用简单的DNA序列比对工具,就可以将RNA序列比对到参考基因组上,而不是只能应用基于新一代测序技术的DNA序列比对工具,才可以解决RNA序列中的比对不连续问题。照此举例即如Trans-ABySS?眼10?演。
RNA的种类繁多,其生物学特性也为数众多,所以基于不同性质的各类分析工具也一定会有很多。目前研究更多地集中在基因融合方面,代表性的有shortfuse、FusionMap和TophatFusion等。这些研究都是利用pair-end序列数据相对位置的改变以分析得出基因位置的相对变化,因而发现癌细胞中的基因融合现象。在小RNA的序列比对方面还有MicroRazerS等,小RNA由于序列较短,比对将更加困难。
综上所述,对现有的基于新一代测序数据的RNA序列比对算法做以总结,结果如表1所示。
3 RNA序列分析工具分析
除了RNA序列比对软件外,还有一些比较著名的RNA序列分析软件,例如:Cufflinks?眼11?演和Scripture?眼12?演。这两种工具都是首先利用TopHat进行RNA序列比对,然后通过各自的分析策略,来推断isoform的工具。通过将RNA的可变剪接清楚地呈现在人们面前,使得mRNA序列分析在整体上具备了完备性。这也是TopHat之所以受到欢迎的另一个原因。
首先,Cufflinks可使用任何版本的TopHat,将所有的pair-end序列数据比对到参考基因组上,然后利用组装算法,将互有交叠的pair-end序列组装到一起,同时依据pair-end序列的交叠信息发现不同的组装路径。而后,再根据每个位置上的序列覆盖度,运用统计学的方法分析出每种isoform的比例。对全基因组中的每个可变位置都计算该比例,最后分析得出整体的isoform分布。
Scripture和Cufflink都是利用TopHat将pair-end序列比对到参考基因组上,根据pair-end序列数据的相对位置信息,将可能的外显子组合寻找出来。两者不同的是,Cufflink以pair-end序列为节点构造出连通图,而Scripture则是以每个碱基为节点构造连通图。Scripture首先列举出参考序列上的碱基,在参考序列上相邻的碱基之间有一条边,在比对序列上相邻的碱基之间也有一条边,最后形成连通图。Scripture同时利用这样的方法在统计学上排除了错误剪接位点,重新确定了外显子边界,从而根据序列的覆盖信息来确定isoform的组份。
Cufflinks和Scripture的分析结果都可以利用基因组浏览器进行观看,更直观地反映转录组信息。除了Cufflinks和Scripture之外,又新近涌现了一些RNA序列分析工具,例如:FDM?眼13?演。
4 结束语
RNA序列的分子在遗传上具有重要的应用,在疾病的发现和治疗上也表现出了非同寻常的意义。RNA生物学性质的多种多样又给RNA序列的比对分析带来了巨大的困难,目前的RNA序列比对软件依然无法满足已有需求,因而在RNA序列的研究和分析上,依然任重而道远。