赵友杰+曹涌+熊飞
摘要:针对林业生物信息学中的数据量大、存储成本高、分析及利用技术门槛高等问题,该文提出一种基于林业大数据的生物信息云平台的设计方案。该平台拟整合多个国际数据库中林业相关的基因组、转录组、表达和功能等常用数据,构建以林业为主的生物信息学大数据平台,为林业研究人员提供综合的生物信息数据服务(DaaS)。在该大数据基础上,构建以现有计算机服务器为基础的硬件服务平台(IaaS),以网络化linux操作系统为基础的虚拟分析平台(PaaS),以及以常用生物信息学分析软件为基础的个性化可定制软件服务平台(SaaS),最终为林业研究人员提供一站式的虚拟易用的生物信息学云服务。
关键词:林业;生物信息学;大数据;云平台
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)01-0023-03
Abstract: A scheme of forestry bioinformatics cloud was proposed for solving the problems of mega data, high storage cost and technology threshold in the forest research. The platform would intend to integrate multiple forestry genomes, transcriptome, expression and function data from international database. Bioinformatics big data platform was constructed to provide comprehensive bioinformatics data service (Data as a service, DAAS) for forestry research. Based on the bioinformatics big data, hardware service platform (Infrastructure as a Service, IAAS) was constructed to provide computing resource services, virtual operating system platform (Platform-as-a-Service, PAAS) was constructed to provide virtual linux computer environment services, and software analysis service platform (Software-as-a-Service, SaaS) was constructed to provide common bioinformatics analysis and customizable analysis services. Forestry bioinformatics cloud platform would provide one-stop virtual easy bioinformatics cloud services for forestry researchers.
Key words: Forestry; Bioinformatics; Big data; Cloud platform
1 概述
近年来,随着新一代测序技术的发展[1],测序成本不断减低,使得高通量测序逐渐成为生命科学研究的常规实验。众所周知,高通量测序产生的数据量巨大,单次测序量常常达到GB的级别,而一个实验室研究一类物种,从基因组测序、转录组测序、小RNA测序以及其他个性化测序,往往积累的数据高达TB甚至PB级别。特别是林业相关物种,基因组庞大,数据量更是呈现指数级增长。以松属物种为例,2014年完成的火炬送基因组项目显示,松树基因组高达27G,为目前基因组最大的物种之一。而为了实现分子进化及育种研究,一个课题组往往会对不同品种的基因组、转录组、小RNA等进行测序及比较,再结合国际公共数据库中发布的十几种松树的转录组、表达及功能等不同类型的数据,一个松属林业项目的相关生物信息数据就高达几百GB甚至几个TB。
面对如此海量种类繁多的林业生物信息(简称林业生物大数据),如何进行数据整合、存储、分析,将成为生物学家和计算机学家面临的重大课题。显然个人计算机无法满足存储大数据,一般课题组是利用项目经费购买相应服务器或者集群,但由于在研究过程中,为了比较分析,经常需要从国际数据库下载相关物种的数据信息,这会导致存儲空间不足。其次是数据分析,从linux服务器的搭建,到常用生物信息学分析软件的安装配置,以及个性化分析流程的创建,都需要专业的生物信息分析人员。而目前,仅从项目申请人参与的中国科学院、中国林业科学院以及高校的多个国家基金来看,硬件服务器配置不足,服务器管理及分析人员缺乏等问题严重,大部分项目只能将数据分析外包给专门的生物信息学公司来做,导致分析成本比测序成本都高。最严重的是生物学问题和数据分析的脱节,将导致生物学家拿到公司的分析结果后无法入手。
本研究将基于云计算平台,构建以林业生物信息大数据为基础数据服务云(DaaS),提供多个物种多种类型的林业生物信息的数据服务;构建以现有服务器为基础的林业生物信息硬件资源云(IaaS),提供生物信息硬件资源服务;构建以linux服务器及常用开发环境为基础的林业生物信息分析平台云(PaaS),提供虚拟的网络化的数据分析环境;构建以常用生物信息学软件及个性化分析流程为基础的林业生物信息软件服务云(SaaS),提供在线的可定制的数据分析服务,最后实现“一站式”的林业生物信息云服务平台。endprint
2 国内外现状
云计算[2-4] 是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,随着高通量测序技术的快速发展,生物信息学进入组学时代,组学测序产生了海量的数据,引领着生物信息学步入大数据时代。海量生物数据的存储和分析等问题亟待需要利用云的方式来解决[5-7]。
中科院基因组所章张等人[8]分析了现有生物信息学领域的云计算服务(简称:生物信息云),根据其服务特点首次提出分类方法:数据即服务(DaaS,Data as a Service)[9-11]、软件即服务(SaaS,Software as a Service)、平台即服务(PaaS,Platform as a Service)以及基础设施即服务(IaaS,Infrastructure as a Service)。生物信息云从四个方面提供了海量生物数据的储存、获取、分析等相关需求的服务。同时,对云计算在生物信息学的应用进行了展望和讨论,提出并分析了以下几个亟需解决问题,即生物信息云应实现数据和软件的云储存,结合最新的高速传输、P2P、数据压缩等技术支持大数据的传输,开发基于云的轻量型编程环境,以及建立开放的生物信息学云平台。
华大基因作为国内测序巨头,2011年在《自然》上阐述了生物云计算相关服务[12],希望为生命科学研究人员提供全面快捷的生物信息学云服务。最终目标希望用户通过互联网远程调用云服务,实现测序数据的常规处理,随时随地获取生物信息分析资源。在国际上,华大基因并不是唯一一个开展云计算服务的测序中心,但华大基因将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。希望为“组学”研究领域的科研人员提供快捷、准确和便于操作的高通量测序分析服务,从而更好地应对及解决海量生物信息数据的存储、处理、计算和分析等问题。
由于当前基因组测序数据迅猛增加,使得生物产业对于计算与存储的需求呈现指数级的增长速度(特别是林业数据)。这种由于不断产生的信息洪流而形成的对存储能力和计算能力超常规的增长,使得生物云计算[13-15]区别于其他行业,具有特征和对技术的更高要求,也使得越来越多的生物学家和计算机学家认识到生物信息云计算平台建设的必要性和迫切性。
3 林业生物信息云平台的设计
1) 林业生物信息数据的收集及清洗
林业生物信息源数据主要来源于公开的国际数据库。考虑到国际数据库更新较快,可以通过网页解析技术,利用程序自动获取“林业”相关的一级序列数据、二级基因功能及蛋白数据和三级结构数据,实现林业生物信息云平台源数据的自动获取及更新。大数据计算环境和传统应用存在较大的区别,源数据获取后需要通过适当的转换和清洗,整理成可为大数据计算环境服务业务数据。
2) 林业生物信息的大数据服务(DaaS)的构建
针对林业研究中的常见问题,这里把林业生物信息数据按照基因组、转录组、基因功能、蛋白结构及其他零散数据等几类来存储[25]。大数据存储技术需要针对全类型数据存储和多样化计算需求,使用中低端存储设备,以分布式文件系统为基础,综合基于分布式文件系统的各类数据库,实现高效低成本的大数据存储。技术上使用Hadoop[16]大数据集成平台Cloudera来构建,数据库采用Oracle。大数据平台主要涉及数据管理(HDFS)、数据操作系统(YARN)、数据访问模块集、数据治理與集成模块集、安全模块等。
3) 林业生物信息硬件资源服务(IaaS) 的构建
用户租用云计算上的虚拟主机可以自己控制计算、存储等硬件设备,建立需要的计算环境。并且大量的生物信息学工具可以打包为虚拟镜像用于租用的云计算的虚拟主机上,可以很方便的进行多种数据分析。如CloVR[24]提供的一个包含预配置和自动的生物信息学流程的虚拟主机,可以运行在本地的计算机上也可以运行在云计算平台上。此虚拟机以Ubuntu和BioLinu为基础[23],安装了Grid Engine和Hadoop作为作业调度。
这样就为用户提供了一个生物信息学分析的硬件虚拟环境及软件开发环境,用户可以使用自己的pc作为客户端,连接生物信息云平台的虚拟机,使用虚拟机强大的计算资源及内存(很多生物信息学分析需要大内存资源)。
4) 林业生物信息分析环境服务(PaaS)的构建
生物信息分析环境应该包含生物信息开发语言环境及常用的生物信息学软件支持库。目前生物信息学中常用的开发语言有C\C++、JAVA、perl、python等,并且这些语言大都有自己配套的生物信息学开发库,例如Bioperl、Biojava等。为了后期的统计分析方便,可以把R语言的生物信息学库Bioconductor安装到云平台上。常用的生物信息学软件支持库有Galaxy Cloudman和Eoulsan[22]等。Galaxy整合了一系列的简单易用的工具,提供一个简易的网页用来分析数据。Galaxy Cloudman把Galaxy的软件工具打包成一个镜像,可以在AWS(Amazon Web Service)上应用[17]。用户可以将其他安装在Galaxy平台上的软件安装到自己的云计算平台上,甚至可以在Galaxy Cloudman上定义插件。通过添加额外的工具,可以扩展默认函数并测试和使用。从这个意义上说,Galaxy Cloudman可以看做PaaS。 Eoulsan整合了很多下一代基因数据分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一个框架内,同时,它也支持用户自己开发的插件用于数据分析。
5) 林业生物信息分析软件服务(SaaS)的构建endprint
目前大多数的生物信息学分析软件都是开源的或者需要自主开发。很多传统的生物信息学工具如BLAST、UCSC Genome Browser仅用浏览器就可以登录到服务器使用相应的服务,它们也可以称为SaaS。这些服务一般由软件工具的开发者提供,伸缩性很差,需要进行进一步的并行及分布式计算的完善。序列匹配是指当前生物信息学分析中的重要应用,特别是高通量测序产生的大量短序列片段,需要匹配到基因或基因组上。随着云计算及大数据的发展,为了提高分析效率,越来越多的软件都向并行、分布式计算发展。CloudAligner[18],CloudBurst[19],SEAL[20]和Crossbow都是应用于云计算基于MapReduce的软件[21],可以匹配高通量的测序大数据。
常用的分布式计算软件配置在云平台的虚拟机中,用户登录虚拟机后除了享受硬件服务还可以使用进行常规分析。特别是针对当前的二代测序,安装配置一体化的组学分析流程,包含流行的基因组测序分析、转录组测序分析、宏基因分析等,使用户在云平台中不用关系硬软件技术,能够分析自己的数据,并支持可定制性分析。总之为用户提供一个方便易用的分析及统计环境[26]。
4 结束语
生物信息云平台的建设由于涉及的物种多、数据类型多、数据分析多样化等问题,硬件成本高、工程量巨大,不是短期能够见效的。但针对某一个行业的生物信息云平臺的建设,涉及的数据量及工程量都相对较小,并且云平台的建设较容易看到成效。本文针对林业生物信息大数据,建立包含数据服务云(DaaS)、硬件资源云(IaaS)、分析平台云(PaaS)和软件服务云(SaaS)的专用林业生物信息云平台,为林业相关生物学研究提供“一站式”的生物信息学数据服务、平台服务和分析服务,使得研究人员能够专注于自己的林学问题,不用受限于计算机硬件平台和软件分析的技术瓶颈。林业生物信息云平台的建立,将可预见性在数据共享、硬件平台和软件分析方面的方便研究人员,使其直面自己关心的科研问题,极大的提高工作效率。
参考文献:
[1] 张文力.高通量测序数据分析现状与挑战[J]. 集成技术,2012(3):20-24.
[2] 赵为民.云计算难掩十大优势,2012年将遍地开花[J]. 网络与信息,2012,26(3):14-15.
[3] 叶惠.云计算:让服务触手可及[J]. 通讯世界,2009(7):34-35.
[4] 赵为民.云计算何时遍地开花?十大难题亟待解决[J]. 网络与信息,2012,26(3):44-45.
[5] 郝彤,马红武,赵学明.云计算在生物技术领域的应用[J].数学的实践与认识,2012,24(17):117-123.
[6] 杨帅,胡宗倩,伯晓晨,等.云计算在生物医学中的应用[J].中国科学:生命科学,2013,43(7):569-578.
[7] 崔振.云计算在高通量测序数据分析中的应用[J].基因组学与应用生物学,2014,33(2):467-471.
[8] Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct. 2012;7(1).endprint