纪兆华+王立东+徐行健+刘芳
摘 要:随着二代测序技术的不断发展,转录组学的研究有了新的工具RNA-seq。RNA-seq可以使用高通量测序技术快速对细胞某一个状态下完整的转录组进行测序,获得该转录组中所有的RNA序列。相比与以往利用芯片和PCR等技术来研究转录组,RNA-seq有着许多明显的优势,所以其应用的规模不断增加。但是RNA-seq测序结构文件非常大,每一个转录组样品都会产生几Gb到几十Gb的序列文件,传统的RNA-seq数据分析软件需要耗费大量的时间和系统资源来完成分析任务。采用云计算的方法和框架,开发一套完整的RNA-seq转录组大数据分析软件,用户只需输入RNA-seq测序的原始序列文件,即可得到最终的结果。
关键词:云计算 转录组 数据分析 流程
中图分类号:Q78 文献标识码:A 文章编号:1674-098X(2017)07(a)-0159-02
生物信息学是用数理和信息科学的观点、理论和方法研究复杂的生命现象,组织和分析呈现指数增长的生物学数据所蕴含的知识和规律,运用计算机科学与人工智能的手段进行大量生物信息数据的收集、加工、存储、分析与解析的科学。生物信息学的一项主要任务就是研究如何利用应用数学和计算机等学科中的方法来分析这些数据,探明数据中所包含的生物学意义。在生命科学的各个领域(基因组学、转录组学等),不论是基础研究还是应用研究,生物信息学都起着重要作用[1]。
1 转录组研究中RNA-seq被广泛使用
近年来,在转录组研究中,RNA-seq凭借着诸多优势被广泛使用,比如无需设计寡聚核苷酸探针、可以观测到低表达丰度的调控基因、可以检测到非编码RNA的情况等。然而对RNA转录组的高通量全测序(whole transcriptome sequencing)会得到非常大的结果序列文件,其中包含了单端或者双端的reads序列。这些序列首先需要进行清洗(去接头等)之后才能继续用于之后的分析工作。分析软件的性能在这一过程中就显得非常重要,好的软件不仅需要分析结果真实可靠,对其运行时性能也有着需求,运行速度过慢或者需求过多的系统资源(如CPU时间、内存等),都会极大地降低科研人员的工作效率[2]。
2 生物信息云有助于应对生物信息大数据的挑战
生物数据规模通常很大,近年来,这些数据随着生物技术的发展不断地增加。高通量测序技术迅猛发展,使生物信息学进入了大数据时代,由此所引发的多组学海量生物数据更需要利用云的方式来解决存储和分析等问题。把云计算技术应用到生物信息学的大数据中,阐明的面向大数据的生物信息云有助于更好地应对生物信息大数据带来的新挑战,挖掘生物数据中蕴含的大量“宝藏”。随着以高通量测序技术为代表的相关实验技术的不断发展和普及,科研人员可以更加容易和高效地获得到大量的生物数据,其中显然蕴含着大量的“宝藏”等待人们探索。云计算正是一种通过Internet以服务的方式,提供动态可伸缩、虚拟化的资源计算模式。但传统的分析方法并没有紧紧跟上,如何应对生物信息大数据带来的新挑战,成为了生物信息学当前的一个重要命题[3]。
3 生物信息学中的研究热点之一RNA-seq数据分析软件
对RNA-seq数据分析软件的研究与开发一直是生物信息学中的研究热点。对于各个分析任务,也都有传统的分析软件可以完成各个工作,如Bowtie、Tophat和Cufflinks[4]等等。也有一些研究人员将这些软件通过脚本程序组装成分析流程,如PRADA[5]、wapRNA[6]等等。然而由于使用OpenMP或者Pthread这样传统的并行模型,他们无法运行于云计算平台之上。云计算理念的出现,使得分布式并行计算在解决大数据问题时的可用性和易用性得到了极大的提升和扩展。终端用户不必再关心计算的内部细节,只需要将数据提交,制定出最终目标,云计算平台就可以将数据分析的结果返回给用户,减少了用户花在数据处理中琐碎细节上的时间,大大提高了科研和工作效率。对于那些无法容易获得分布式计算集群使用权的用户,云计算中“数据即服务”(DaaS)、“平台即服務”(PaaS)、“软件即服务”(SaaS)、“基础设施即服务”(IaaS)的理念,也使得他们可以利用云计算中公开的非本地资源来进行科研工作。生物信息学科研工作者近年来也意识到大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及到RNA-seq数据分析的主要有MyRNA、Crossbow等。
云计算正是专门对这类大数据问题提出的解决方案。采用HADOOP云计算框架设计实现RNA-seq大数据分析流程[15]。通过优化文件存储与访问、作业拆分管理等不同方面,HADOOP框架可以很好地完成生物信息学大数据分析作业。然而使用传统并行模型开发的软件无法直接运行在HADOOP框架之上,需要对其算法重构或改写成MapReduce模式[16],经过调试后才能使用。对RNA-seq大数据分析流程中常见的任务模块,开发对应的在MapReduce模式下的算法,并将其组合成从数据输入到数据输出的一站式分析流程(analysis pipeline),用户只需提供RNA-seq原始数据集,即可得到最终需要的分析结果。
参考文献
[1] Mortazavi A, Williams B A, McCue K, Schaeffer L and Wold B 2008 Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods5 621.
[2] Armbrust M, Stoica I, Zaharia M, Fox A, Griffith R, Joseph A D, Katz R, Konwinski A, Lee G, Patterson D and Rabkin A 2010 A view of cloud computing Commun. ACM53 50.
[3] Dai L, Gao X, Guo Y, Xiao J and Zhang Z 2012 Bioinformatics clouds for big data manipulation. Biol. Direct7 43; discussion 43.
[4] Langmead B and Salzberg S L 2012 Fast gapped-read alignment with Bowtie 2. Nat. Methods9 357.
[5] Torres-García W, and Verhaak R G W 2014 PRADA: pipeline for RNA sequencing data analysis. Bioinformatics30 2224.
[6] Zhao W, and Hu S 2011 wapRNA: a web-based application for the processing of RNA sequences. Bioinformatics27 3076.endprint