刘小斌
(中国石油辽河油田公司勘探开发研究院,辽宁 盘锦 124010)
随着时代的发展,信息化的进程也越来越快,企业的运作需要大量的计算机系统,大量的数据随之产生。数据影响着企业的生存和发展,是企业宝贵的无形资产。各行业对数据的依赖日益强烈,如果数据一旦因为应用服务器受到入侵,数据被篡改,或是存储服务器因为断电或者自然灾害导致系统不正常关机或发生宕机引起数据的丢失,都会给企业和用户带来巨大的损失。如何能保证系统7×24平稳可靠的运行,使得服务器存储的信息能够有效保存和被利用,并能预防各种突发性事件,已成为各行各业关注的话题。容灾技术逐渐成为人们关注的焦点,如何建立一套高可用的容灾备份系统是企业实现数据容灾的首要问题。
容灾是一个广泛的概念,就是在灾难发生的时候,保证计算机系统的数据尽量少丢失,从而保持系统业务不间断地运行。它是一个系统工程,需要利用技术手段、管理方法和相关资源确保生产数据在发生灾难后可以恢复并能继续运行。从广义上看,所有提高系统高可信的努力都可称之为容灾。从狭义上讲,容灾是通过建立和维护一个备份存储系统,利用物理上的分离来保证系统和数据对灾难的抵御能力[1]。
一般来说,一个容灾系统中实现数据容灾和应用容灾可以采用不同的技术。所谓数据容灾,就是建立一个数据备份系统,在灾难发生后确保原有的数据不丢失或者遭到破坏。应用容灾系统建立在数据容灾系统之上,建立一套完整的与生产系统相当的应用系统,尽可能减少灾难带来的损失,让用户感觉不到灾难发生。
数据容灾不是简单的数据备份或者数据复制,但数据备份是容灾的基础,数据复制是容灾的一种技术。数据备份的目的是在灾难发生时能够快速地恢复数据,并能全面及时地恢复整个系统。在建立容灾备份系统时会涉及到多种技术,如数据备份技术、数据复制技术、远程镜像技术、快照技术等。其中数据复制技术又分为。同步数据复制、异步数据复制。应用容灾包括集群技术、灾难检测技术、系统迁移技术和系统恢复技术等。
所谓数据备份技术,就是让数据能以某种特定的格式加以保留,以便在系统遭受灾害时能重新加以利用的一个过程。其目的就是为了使数据能重新利用,换句话说,数据备份的核心是能使数据恢复,一个无法恢复的数据备份是毫无意义的,也不能达到容灾的要求。数据备份有4种策略:完全备份、增量备份、差异备份和即时备份。为了确保备份的数据具有完整性,数据备份又分为冷备份和热备份。冷备份又称为离线备份,当执行备份操作时,服务器将不能接受来自用户和应用对数据的更新。热备份也称在线备份,即同步数据备份。它是在用户和应用正在更新数据时,系统也可以进行备份[2]。
和数据备份相比,数据复制技术则是通过将生产数据复制到另一个存储备份系统中,这个存储备份系统可以是本地的,也可以是异地的,从而保证在灾难发生时,生产数据不丢失或丢失量最少。数据复制可以分成同步数据复制和异步数据复制。同步数据复制就是将本地生产系统的数据以同步的方式复制到备份系统中。由于发生在生产系统的每一次I/O操作都需要等待远程复制完成才能返回,这种复制方式虽然可以做到数据的零丢失,但是对系统的性能有很大的影响。异步数据复制则是将本地生产系统中的数据在后台异步地复制到备份系统中。这种复制方式会有少量的数据丢失,但是对生产系统的性能影响较小。
应用容灾是建立在数据容灾的基础上的,是在备份端建立一套与生产系统完全一致的备份应用系统,建立这样一个系统相对复杂,不仅需要一份可用的数据备份,还要有包括网络、主机、应用等资源。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。集群系统是一套冗余的高可用性系统,运行用来检测集群系统运行状态的高可靠性软件。当集群中的某台服务器发生故障,该软件会自动将设定的服务转到另一台服务器上,当这台服务器恢复正常后,软件还会将原来的服务分配给改服务器运行,让使用用户感觉不到服务器的切换,认为对外提供的服务始终是由一台服务器来完成的。
辽河油田静态数据库存放的是辽河油田开发建设40多年来积累的静态资料,这些资料种类繁多且电子化耗时耗力,十分珍贵。辽河油田静态数据库提供浏览、查询等功能,可以通过浏览器查询到各类静态资料和科研成果资料。静态数据也是地质研究工作和油藏评价工作的基础,科研人员在使用静态资料进行科研生产研究也会产生一些珍贵的成果资料,这些资料都存储在静态数据库中。因此,辽河油田静态数据库的平稳运行,关系到整个油田的井位部署和新老区调驱上产等工作的顺利开展,显得尤为重要。
由于辽河油田静态数据库底层数据库是基于Oracle的数据库,因此我们采用了Oracle的RAC数据库系统(Real Application Clusters,实时应用集群)。Oracle RAC能使多台服务器同时访问同一个Oracle数据库,这样可以避免由于一台服务器的宕机时导致数据库不能访问,具有高可用性,同时也可以进行并行运算和负载均衡,保证前端应用系统正常运行。Oracle RAC具有很好的可伸缩性,可以根据需要添加或减少节点[3]。
图1 T4的连接图
Oracle RAC集群实质是让多个节点同时访问同一个Oracle数据库,每个节点运行一个实例,数据库存储在共享磁盘上。共享存储设备的存储机制可以使用裸设备、Oracle集群文件系统(OCFS)、自动存储管理(ASM)或网络区域存储(NAS)、SAN 存储。我们使用Oracle的Clusterware集群软件,部署了4台基于InfiniBand交换机互联的T4服务器作为Oracle的服务器来使用(参见图1)。InfiniBand是集合了业界的努力而开发出来的,能够替代 PCI总线的新标准,它是由 Intel、Microsoft、IBM、HP 等 7 家公司牵头,共同研发的高速先进的I/O标准。InfiniBand交换机广泛应用于高性能服务器领域,该互联网络具有高带宽,低延时等优点,是目前全球带宽最高的高速网络互联技术。使用InfiniBand交换机,可以很好地保证4节点的Oracle RAC集群高可用性。
图2 存储连接图
对于数据存储系统,我们采用HDS VSP存储(参见图2)它是HDS的一款高性能、高可靠性的高端存储系统,适用于所有的数据类型,并能具有3D可扩展性。通过在每个节点上安装HDS提供的Dynamic Link Manager软件(多路径管理软件),可以识别存储共享的磁盘。HDLM提供主机到存储系统的I/O通道负载平衡和故障切换功能。HDLM对数据通道进行实时监控,检测每个通道的状态;当有任何一个通道发生故障时自动将I/O切换到其他健康的通道上,保证了业务7×24不间断地运行,增强了主机系统的数据可用性。当故障通道修复或替换完毕后,可在线激活,重新开始工作。TrueCopy同步数据容灾解决方案是HDS结合智能存储系统的特点推出的数据远程容灾解决方案(参见图3)。它是基于磁盘存储系统运行的软件包,不依赖任何的主机操作系统和其他第三方厂商软件,为用户提供了最安全、最开放、最经济、最实用的容灾解决方案。TrueCopy采用独立于主机与应用的基于逻辑单元级的实时数据备份,可靠地在另一地点对用户重要数据进行镜像并进行持续的在线更新。在灾难发生时,TrueCopy会对数据实施无缝保护,免除了一系列烦琐的手工磁盘恢复的过程。TrueCopy相比于传统的手工恢复步骤,将灾难恢复的时间大大减小。
图3 TrueCopy示意图
两台HDS VSP之间通说光纤线直连,通过在存储网络中布置一台控制主机(CCI主机),控制两台存储之间的同步关系,CCI主机只需发给主存储一次命令,即可执行实时在线同步。
本文介绍了容灾系统的关键技术,并结合生产实际,搭建了一套适合本业务的容灾备份系统。容灾备份系统的建立,提供了一套可靠的数据运行环境,降低了灾难发生时对企业带来的损失,提高了系统的可靠性,保证了生产的顺利进行。
[1] 陈汶滨,吕曼曼,刘义军.容灾备份系统研究[J].计算机安全,2009(7).
[2] 刘艳.SAN环境下数据备份系统的设计与实现[D].重庆:重庆大学,2008.
[3] 李智贤.ORACLE RAC集群在自动化设备管理系统中的应用[J].仪器仪表标准化与计量,2010(5).