邢帆
华大基因研究院(以下简称“华大基因”)成立于1999年9月9日,是人类基因组计划中国任务的唯一承担单位。目前,华大基因已建立了大规模测序、生物信息、克隆、健康、农业基因组等技术平台,其测序能力及基因组分析能力世界第一,测序仪全年产出数据量与全美国四大测序中心产出数据量总和大致相當。华大基因数据量之大,超出常人想象,而且增长非常快。面对海量数据的需求,华大基因原有的存储遇到瓶颈,需要寻找一个高性能、易扩展、部署简单、方便运维的大数据存储系统,这些技术上的突破帮助华大基因延续其一直以来的战略宗旨。
速度就是效果
截止2012年,华大基因共拥有4大平台,包括新一代测序平台、云计算平台、蛋白质谱平台及国家基因库。在新一代测序平台中包括罗氏旗下的454生命科学推出最新升级版Roche 454 GS FLX+测序仪、Illumina公司推出的HiSeq 2000测序仪、基于半导体芯片的新一代测序技术Ion Torrent等多种不同的测序技术平台。以Illumina Hiseq 2000测序仪为例,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到400万条序列。读取长度根据平台不同从25bp到450bp不等,不同的测序平台在一次实验中,可以读取1G到14G不等的碱基数,这样庞大的测序能力是传统测序仪所不能比拟的。华大深圳数据中心138台高通量测序仪单次运行就能产生350GB数据,一天的数据产出量大概是10TB。为应对巨大的数据产出量,从2009年开始华大基因对EMC Isilon横向扩展存储系统分别进行了功能测试和性能测试。如今,已经部署了超过7.4PB(7400TB)的Isilon设备,包括:17个节点IQ 36000x集群一套、10个节点IQ 72000x集群一套、13个点节IQ 36000x集群一套、10个节点IQ36000x集群一套。
华大基因研究院生物信息学研究主管表示,“我们每天有数千个应用程序在访问EMC Isilon存储,其在高并发访问条件下的性能令人印象深刻。”生命科学和基因研究都要产生大量的数据,并且这些数据还需要永 远的保存起来。而从技术上来说,Isilon横向扩展NAS存储解决方案提供高效的单个文件系统/单个卷,可扩展至20PB。通过将存储整合成一个单一,可扩展卷,让任何人都可以来管理,Isilon存储增加了数据管理的简易性,减少了人员培训的时间,简化了大数据生命周期管理。对于像华大基因这样的研究机构,数据是核心资产。如何保证输入(原始)数据的万无一失,如何确保存储系统可靠稳定,以及如何保证数据生命周期内的安全,是很多高性能用户最为关注的。Isilon N+M架构让用户根据应用和数据生命周期价值的不同,选择存储安全配置策略,灵活满足不同业务、不同应用和不同数据对安全性的要求。Isilon的FlexProtect技术保证了数据的高可用和业务连续性。
2012年4月,华大基因又推出了基于Hadoop架构的云计算平台,并在11月发布最新版的生物信息学软件,包括最新版SOAP系列软件、遗传变异检测软件、宏基因组测序数据分析软件Metacluster 4.0及两个基于云计算的软件Hecate2和Gaea2。这也是华大基因选择和持续采用Isilon集群存储的重要考虑之一。Isilon和Hadoop做了紧密技术整合,使存储能很好地支持Hadoop架构的云计算服务。如果使用传统存储,Hadoop仍有一些固有问题需要解决。例如,ApacheTMHadoopTM的NameNode存在单点故障问题。NameNode用于管理HDFS中存储的元数据文件,它是HDFS文件系统的核心部分,存放着文件系统中所有文件的目录树。客户端应用程序通过NameNode来定位、添加、修改、拷贝、移动和删除文件。如果NameNode发生故障,文件系统就会离线。
精益求精
目前,华大基因每年的业务量成倍增长:2010年4PB,2011年8PB,2012年10PB。华大基因计算中心主管介绍,这些针对数据的典型应用包含了结构化和非结构化的计算模式,同时对一个任务的数据量的规模非常大,对计算内存和存储带宽的需求也非常高。目前华大基因一天在计算集群上数据的吞吐量大概为320T,这相當于Google的十分之一。华大基因现在有接近2000个计算节点,总的计算核心大概2万个。处理如此规模的数据量,对IT提出了巨大的挑战。而Isilon在性能、扩展性、简单易用、数据安全性方面的表现让华大找到了精益求精的出路。
在性能方面,将500TB容量、13个节点分为一组,可以达到2GB/秒的存取速度。在扩展性方面,Isilon设备的安装部署十分快捷简单,每套系统只需要大约半天时间即可上线提供使用。容量扩展的同时,整个计算平台的性能也得以提升。华大基因计算中心系统管理人员说:“Isilon系统非常可靠,安装部署十分方便,运维工作也很简单轻松。”其中,华大基因最初购买的10个节点集群扩容成17个节点,就是由华大基因自己完成的。
在简单易用方面,除了安装部署简便以外,运维管理也非常简单。华大基因7.4PB的设备,只需要3名工程师就能管理。平时只要看看控制面板有没有告警之类的信息就可以了。如果有告警,系统同时也会发邮件通知管理员。Isilon一个文件系统可以支持15PB容量,华大基因所有存储容量都可以放在一个文件系统中,由系统自动按需分配使用。
在安全性方面,Isilon支持最高达N+4的数据保护,也就是说,當4个节点故障时,数据不丢失。Isilon还支持分级保护,在一个文件系统中,可以将最重要的数据配置成N+4保护,将一般重要的数据配置成N+2保护。
总结起来,Isilon的独特之处在于,它是一种横向扩展的NAS。容量扩展时,性能线性提升。华大基因研究院每天有数千个应用程序访问Isilon存储,Isilon存储解决方案通过高速并行存取的方式满足需求。华大基因采用50多个节点高密度部署,提供共计超过7.4PB的NAS逻辑存储容量。存储节点之间通过低时延的Infiniband交换机连接,支持高并发访问,可实现自动负载均衡。存储集群分别使用100多个千兆以上级别网络模块,与总计超过750个计算服务器节点互联,能够提供累计高达200 Gbps的IO吞吐带宽。所有节点通过单一系统管理,运维方便,客户可根据未来业务发展的需要随时增加节点。