董玉敏,宋雪峰(等)
[摘 要] 地震资料处理系统是按照作业序列以紧耦合的结构化大块数据体为对象进行密集计算的高性能计算系统。在叠前偏移成像等大数据密集计算处理作业日益增多的情况下,存储系统性能对地震资料处理系统效率影响突显。通过分析地震数据处理系统的数据访存特点,提出以数据访存带宽性价比为主要因素, 有针对性地选用存储新技术,构建适用性良好的存储子系统,以满足复杂地质条件下地震资料成像品质对高性能计算系统的数据访存需求。
[关键词] 计算机系统结构; 存储系统; 地震资料处理系统
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 02. 063
[中图分类号] TP391; P315.63 [文献标识码] A [文章编号] 1673 - 0194(2014)02- 0124- 02
0 引 言
新疆油田勘探开发研究院自2004年引入大规模PC集群地震资料处理系统,一直关注存储系统架构与地震资料处理的数据访存特点匹配,以期提高系统生产效率。应用面向对象的并行共享存储系统,在一定程度上解决了资料处理系统中相对低效的数据访存和节点高效计算能力的匹配矛盾,与CPU技术的快速进步和万兆以太网以及Infiniband网络的发展相比,处理集群中存储系统的性能依旧相对滞后。存储技术处在发展变革前沿,结合地震资料处理系统中数据应用特征和生产组织方式,有针对性地选用存储新技术,构建适用性良好的存储系统,提高以逆时偏移技术为代表的新成像方法的系统应用效率,有助于满足复杂地质条件下地震资料成像品质需求。
1 存储技术发展
固态盘技术和云存储技术的发展代表了存储技术的发展趋势,并称为下一代存储技术。
1.1 固态盘技术简介
固态盘(Solid-State Driver)是指利用电子部件取代传统磁盘磁介质进行数据存储的电子设备。固态盘内部没有旋转马达,不存在转速提升或下降的启动时间,与传统磁介质硬盘相比,在IOPS性能、时延、平均无故障时间(MTBF)、节能等方面有明显优势。
目前固态盘的推广应用受限于性价比和性能老化两大因素。固态盘的I/O性价比已优于高端光纤存储盘阵,但在容量性价比方面仍存在较大差距。在频繁随机大小数据写入的应用场景下,由于写操作特性,固态盘在使用一段时间后会出现性能陡降,需要对固态盘进行初始化或更换,性能老化影响了固态盘的便捷应用。尽管存在诸多争议,活跃的技术创新一直在加速推动固态盘的普及应用,大容量PCIe固态盘缓存在服务器的应用以及利用后端存储固态盘为服务器提供高效缓存的应用,都在推动固态盘向基础架构的各个层面渗透,固态盘改变了以磁介质硬盘为基础的存储架构体系。
1.2 云存储技术简介
云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量不同类型的存储设备集合协同,对外提供数据存储和业务访问的云计算系统。国际存储网络产业协会(SNIA)提出的云数据管理接口(CDMI)定义了云存储管理基础架构,保障接入不同云存储接口的通用性。云存储需要多种技术协同实现动态按要求提供服务,主要有统一存储、自动分级存储、存储虚拟化、分布式文件系统、Scale-out横向扩展、固态盘缓存、压缩/重复数据删除等技术。
云存储面临大数据高并发混合负载服务请求的压力,在满足高并发的同时,需要满足海量数据存储,这放大了存储性能和存储容量均衡性要求。自动分级存储技术和固态盘缓存技术是目前解决云存储性能、容量和性价比三者矛盾的热点技术。自动分级存储技术根据数据使用特点将数据在不同磁盘类型和RAID级别间进行迁移,可以均衡存储在性能和空间的平衡。但是数据迁移策略通常是数据应用长期累积的经验值,而业务应用多变又使经验值难以固化,造成自动迁移实施复杂度较高。相比自动分级存储技术,利用服务器上的固态盘作为大容量磁盘阵列缓存,可以降低对存储系统IOPS性能的要求,提高数据读取性能,但是需要与应用系统相适应的缓存算法支持。
云存储各项技术的推进改变着存储体系架构,固态盘存储介质的突破固然对存储体系产生较大影响,但分布式文件系统、缓存算法和软件内核优化等软件因素对存储体系架构将产生更大影响。
2 地震资料处理系统数据特点分析
进入处理系统的初始数据在数据特征上表现为紧耦合的结构化块数据。依据目前典型的野外数据采集方式,对于单个三维区块资料处理作业,进入系统的初始数据通常为5TB大小,完成各类典型处理步骤,大约需要6倍于初始数据的存储空间。在研究复杂地质构造时,随着采集密度的进一步提高,未来用于盆地整体解剖与研究的单个三维区块初始数据将达到100TB以上。处理系统需要较大的存储空间以支持一个完整的资料处理作业周期。
从地震数据处理角度看,要完成的作业任务分为常规批处理和叠前偏移成像两个典型阶段。常规批处理阶段要求在限定时间内用相对较少的计算资源,按序分步完成资料常规处理中各环节的数据分析与计算,特点是作业前后结果相互衔接,单作业处理数据量小,作业运行周期不长,但总体作业数量多,人机交互多,I/O访问频繁。叠前偏移成像处理阶段要求在前期各类准备工作完成后,用尽可能短的时间(天)完成工作区域的整体成像计算,特点是处理数据量大,一般在5TB以上,单个作业对计算资源需求大。
依据数据组织方式不同,不同处理系统有不同的数据交换方式。例如Geovation地震资料处理系统利用自身优化的数据管理模式DDAM(Distributed Dataset Access Manager)将道集数据从存储系统集中分发到计算节点后开展计算工作,作业结果由DDAM管理发送到指定存储设备上,需要的存储访存能力是集中分段的。EPOS处理系统是由各计算节点直接读取存储系统的道集数据进行计算,需要的存储访存能力是连续的,直到作业完成。与Geovation系统相比, EPOS系统始终存在较为频繁的计算节点与存储系统之间的数据交换。
对于叠前偏移成像作业而言,在作业开始时,Geovation系统和EPOS系统都需要将道集数据从存储系统分发到数量众多的计算节点,存在大数据并发请求;在作业运行过程中,分布并行的各计算节点在本地节点的硬盘、缓存、内存之间进行数据交换的同时,也存在计算节点与存储系统之间相对开始阶段较少的数据交换;在作业收尾阶段,分布并行的各计算节点发送计算结果到作业管理节点进行汇总,存在并发数据请求。
当处理作业的计算耗时与数据存取耗时比例相当或低于数据存取耗时,存储系统的访存带宽、IOPS是影响作业速度的主要因素。对于在集群节点上计算耗时远大于数据存取耗时的密集计算处理作业而言,存储系统的访存带宽、IOPS对作业速度意义不大。
处理作业的计算耗时和数据存取耗时与众多因素相关。计算方法的软件实现架构是主要因素之一,涉及数据的组织方式和访问方式,例如数据在计算节点的内存、缓存、本地硬盘的交换,数据在计算节点与存储系统之间的交换。数据复用和缓存命中率等与系统硬件架构和数据自身特征相关的系统优化也是重要因素之一。处理作业的计算耗时与数据存取耗时的比例是应用系统在各种条件下的综合表象。
3 地震资料处理系统中存储技术应用需求分析
3.1 访存带宽评估
地震资料处理系统是按照作业序列以紧耦合的结构化大块数据体为对象进行密集计算的高性能计算系统。与传统数据中心环境里注重随机访问性能IOPS不同,地震资料处理系统对大数据块访存的带宽性能较为敏感。在构建存储系统时,对新技术的选用应以提高数据访存带宽能力为主,权衡容量、性能、性价比等因素,构建访存带宽适宜的存储系统。
评估存储访存带宽对地震资料处理系统性能影响时,应充分考虑处理作业计算耗时与数据存取耗时比例。以典型作业测试为基准,结合系统总体运行的作业类型和作业数量,进行系统应用性价比评估。在进行典型作业测试时,必须定义统一的测试条件以保障测试结果的可比性。统一的测试条件应该包括对系统软硬件环境和作业负载特征的规范描述。硬件环境描述时,与数据传输相关的系统参数都应包含在内,例如互联网络类型和参数,计算节点的主板、CPU、内存、硬盘等的型号和相关接口等参数。软件环境描述应包括操作系统和应用软件的详细信息。作业负载特征应包括作业序列、作业参数、数据体大小等与作业运行紧密相关的参数描述。被测试的存储系统应详细描述产品规格型号、系统微码、软件等信息。
处理作业计算耗时与数据存取耗时比例是应用系统在各种条件下的综合表象。大粒度因素如计算方法的软件实现架构,小粒度因素如数据复用和缓存命中率,都在不同程度相互交叠的影响处理作业计算耗时与数据存取耗时比例。以典型作业测试为基准,结合系统总体运行的作业类型和作业数量,可以进行统计意义上的系统处理作业计算耗时与数据存取耗时比例估算,进而较为客观地评价系统生产应用的性价比。
3.2 存储技术应用需求
除了对能够提高数据访存带宽能力的存储新技术的关注以外,固态盘应用也应是大规模PC集群地震资料处理系统的关注点。在资料处理过程中,PC集群上传统磁介质硬盘的高故障率常常导致作业失败,影响处理生产周期;采用传统磁介质硬盘构建处理系统Scratch,其IO速度和可靠性都较差。固态盘平均无故障时间(MTBF)和低功耗的优异性能为解决大规模PC集群系统稳定性差和能耗高的弊端提供了新途径。随着固态盘容量性价比的提高和性能老化弊端的改善,在大规模PC集群地震资料处理系统的计算节点上部署固态盘,不失为提高系统稳定性和降低能耗之策。
另外,随着采集密度的提高,未来用于盆地整体解剖与研究的单个三维区块初始数据将突破100TB,对存储系统的容量和性能要求进一步提高。保障统一命名空间下存储系统容量和性能的双向弹性扩展,是对资料处理系统存储系统架构的基本要求;在满足资料处理系统海量数据存储和处理作业效率要求的同时,保障存储系统良好的性价比,需要均衡存储系统在性能和空间的平衡。Scale-out横向扩展技术和自动分级存储技术也因此成为处理系统存储技术应用的关注点。
4 结 语
地震资料处理系统的应用效率与数据访存能力和计算能力的匹配密切相关。复杂地质条件下高品质地震资料成像计算耗时较长,以典型处理作业测试为基准,结合系统总体运行的作业类型和作业数量,进行统计意义上的作业计算耗时与数据存取耗时比例估算,可以为存储系统性价比评测提供粗略的应用背景。