张 岸
财政信息系统业务可持续性建设方案探讨
张 岸
(福建省财税信息中心,福建 福州 350003)
针对如何保证财政信息系统业务可持续性运行,结合其他行业信息系统可持续性方案的建设经验,阐明了关键国库集中支付系统业务可持续性解决方案,同时总结了解决方案的优点和缺点,为财政信息系统业务可持续性建设提供参考。
国库集中支付系统;业务可持续性;解决方案
福建省从2002年开始,先后在省级部门、厦门、泉州、三明实施了财政国库管理制度改革试点,将国库管理信息系统与预算单位、人民银行、代理银行联结,实现国库集中支付全过程网络化管理,做到用款计划、支付申请、支付执行情况等信息的实时反馈。目前,我省对省级管理的重点建设项目资金财政直接拨付面已达到70%以上,初步建立以国库单一账户体系为基础,资金缴拨以国库集中收付为主要形式的现代财政国库管理制度。同时,还将推进财税库的横向联网工作,使财政、税务、人行国库利用信息网络技术,通过电子缴库等方式,使税款直接缴入国库,同时实现税款征收信息共享的缴库管理模式。
随着财政国库管理制度改革的深入,信息支撑系统的重要性日益凸显。如何保障国库集中支付系统的正常运转,保证关键业务可持续性运行成为信息部门面临的一个严峻挑战。
目前国库集中支付系统如图1所示。系统主数据库服务器采用两台HP rp7410小型机以及HP EVA 5000构建的Oracle双机集群;应用服务器由若干应用服务器构成应用集群;系统的数据备份由Veritas Netbackup备份软件实现LAN-Free备份;另外由一台HP rp5410构建开发测试服务器。各外部互联单位网络均已考虑备份线路,以防止主线路故障,造成网络瘫痪。
系统运行这些年来,逐渐暴露出一些风险和不足,威胁着系统的可持续性运行。一是数据库双机集群所依赖的磁盘阵列为单点故障风险;磁盘阵列内部各部件虽然为冗余设计,达到了很高的可靠性系数,但是若阵列瘫痪,由于所有重要数据均存放在其上,这对系统无疑是灭顶之灾。相应的故障在省内已经不乏案例,因此急需采取措施消除这个风险。
二是缺乏实时保护数据的手段;随着国库改革的深入,国库集中支付系统的实时性要求越来越高,系统内部流转的都是大额的款项,任何数据的丢失,都将造成不可估量的影响。
三是缺乏有效的容灾手段和演练;国库集中支付系统,作为财政系统的核心,其重要性不言而喻。
为保证国库支付系统业务可持续运行,通过总结多年来从事信息系统维护的经验,我们认为应该要做到如下七个字“不停、不丢、可恢复”。“不停”的意思就是要采取各种手段及措施确保系统不停机,业务不中断;“不丢”的意思就是在万一情况下,即使发生了停机事件,此时也要确保关键业务数据不丢失;因此,我们的解决方法就是围绕这七个字的宗旨,对系统在各方面所存在的不足和风险进行评估,并相应找出合适的解决方案。
图1 国库集中支付系统架构示意图
要解决系统不停机的问题,我们必须先分析一下目前的环境下,威胁系统长时间正常运行的主要因素有哪些。
首先,从图1可以看到,国库集中支付系统是一个浏览器/服务器架构的应用系统,目前各个网络层已经采用了链路冗余的可靠性措施,消除了网络链路故障对系统正常运行的影响[1]。应用层服务器采用了多服务器集群来消除单一应用服务器故障对业务正常运行的影响,并且在多服务器之间还可以实现负载平衡。数据库服务器采用了共享磁盘阵列的Oracle双机热备系统,由于所有关键数据均存放在磁盘阵列内,若这个阵列发生了故障,将直接导致系统宕机,严重情况下还可能导致关键数据永久丢失。因此,在现有架构下,此单一磁盘阵列可以认为是影响系统正常运行的单故障点。
其次,由于我们的所有服务器、存储、网络设备都在同一个机房内,若发生火灾、水灾、地震等自然灾害,则将导致整个系统无法运行,甚至导致数据永久丢失。
由于容灾系统牵涉到全省财政系统的统筹考虑,以及网络等诸多外部因素的考虑,因此,在本方案中,我们不对系统容灾方案进行阐述,但是要强调容灾方案是系统业务可持续性方案的重要组成部分。在此,我们重点讨论如何消除其它因素对系统正常运行的影响。
在现有架构下,要保证系统不停,就必须解决磁盘阵列单点故障的问题。很容易想到的是,必须增加一台磁盘阵列,通过磁盘阵列的冗余,来消除单一磁盘阵列故障对系统造成的不良影响。但问题的关键是新增的磁盘阵列如何融入现有系统,才能达到最佳的效果。有两种解决方案可以达到这个目的,一种是基于磁盘阵列复制的解决方案,一种是基于卷镜像的解决方案。[2]
(1)基于磁盘阵列复制的解决方案
如图2所示的解决方案需要一台新的HP EVA磁盘阵列加入已有的SAN中,新旧两台EVA磁盘阵列工作在主从复制状态,也就是说,正常情况下服务器通过通道①仅对其中一台磁盘阵列进行读写操作;两台EVA之间通过SAN网络通道②之间进行同步或异步复制,从而保证两台磁盘阵列之间数据的一致性;在主磁盘阵列发生故障时,集群软件控制自动切换到从磁盘阵列工作(如图通道③所示),在切换过程中将导致业务中断。
(2)基于卷镜像的解决方案
图3所示的解决方案需要一台新的光纤磁盘阵列(可以是HP、EMC、IBM等任一厂商),将新购光纤磁盘阵列加入已有的SAN。在两台HP小型机上安装Symantec Storage Foundation卷管理软件,通过卷管理软件建立跨磁盘阵列的镜像卷,一个物理卷在原EVA5000磁盘阵列上,另一个物理卷在新磁盘阵列上。双机集群通过建立的镜像卷实现共享。这样所有的读写操作均直接对镜像卷进行,从而保证数据在两个磁盘阵列上完全一致。此时若任一磁盘阵列出现故障,由于对镜像卷而言,仅仅是其中一个镜像卷副本失败而已,所有对镜像卷的操作仍可以正常进行,因此业务不会因为某一磁盘阵列故障而受到影响。
图2 基于磁盘阵列复制的解决方案示意图
图3 基于卷镜像的解决方案示意图
对上面两个方案进行比较,基于磁盘阵列复制的解决方案的优点是不占用主机资源,对服务器性能影响小;其缺点是必须选用同一厂商的磁盘阵列,并且磁盘阵列在承担复制工作时,对存储本身的性能也将会造成一定影响,最重要的是当主磁盘阵列故障时,一定要通过操作切换到从磁盘阵列工作,这个过程将造成业务中断一段时间[3]。基于镜像卷的解决方案的优点是由于所有的读写操作均是对镜像卷进行,因此单一磁盘阵列的故障不会造成系统业务的中断;从保证业务“不停”的角度考虑,我们选择基于镜像卷的解决方案作为保证系统不停机的优先方案。
系统“不停”解决方案无论是通过镜像卷或是磁盘阵列复制方式,都存在着一个问题,由于镜像或复制是在系统层或物理层实现的,它可以保证两份数据完全一致,但是由于它与应用无关,一些非应用合法的操作,如病毒等对数据文件的写操作也被镜像或复制,这就意味着物理错误也将被复制,最终的结果就是两份数据文件都被破坏了,从而导致数据部分或安全丢失。因此在考虑数据“不丢”的方案时,必须从应用层出发进行考虑,以消除由系统“不停”解决方案带来的负面因素的影响,使得我们的整体解决方案更加完整。
由于国库集中支付系统的数据都是存放在Oracle数据库中,因此只要数据库数据完整也就意味着业务数据完整,我们将充分利用系统的这个特点进行方案设计。考虑到Oracle产品自身附带了多种应用复制解决方案,从节省投资的角度考虑,优先选择Oracle附带的解决方案,只有其无法满足时才考虑第三方解决方案。我们希望采用的方案不仅要能够满足我们基于应用进行复制的考量,还必须是尽可能的少占用服务器系统资源,减少对业务系统性能的影响。
Oracle公司从Oracle9i开始推出了一种功能强大,更能有效地实施灾难恢复的解决方案Oracle Data Guard。Oracle Data Guard采用主数据库正常运行,一个或多个备用数据库进行备份的方式保护数据库,备用数据库的备份、管理和监视工作都是自动完成的,当主数据库宕机发生时,至少有一个备用数据库马上投入使用,使应用程序的运行不会间断,避免了系统的瘫痪。
Oracle9i Data Guard 通过使用称为standby database的数据库来防止出现数据的灾难。它通过将生产数据库的重做日志传到并应用到备用数据库来使备用数据库与生产数据库同步,来达到不同的数据库数据保护级别,有如下三种保护模式:
(1)最大保护模式(Maximum protection):规定在修改主数据库时,至少有一个备用数据库有效。假如主(Primary Database)备(Standby Database)之间的连接中断,Oracle会通过中断主实例的工作来防止主备数据库之间的数据的不一致,保证无数据丢失。这种模式对数据库性能的影响较大。
(2)最大可用性模式(Maximum availability):规定在修改主数据库时,至少有一个备用数据库有效。与最大保护模式不同的是当主备数据库之间的连接中断时,允许主备数据库之间的数据的不一致,并当恢复连接后,自动解决数据不一致的现象。这种模式对主数据库的性能有较小的影响。
图4为最大保护与最大可用性模式的原理示意图。
(3)最大性能模式(Maximum performance):如图5所示,主数据库的修改快速应用在备用数据库上。会出现数据丢失,但对数据库性能的影响小。该模式即使在网络连接有效时,也允许主数据库与所有的备用数据库有数据分歧,数据的丢失量等同于主数据库联机重做日志的未归档数。
Data Guard能实现如下功能:
1)数据库的切换
允许DBA在主数据库故障期间将备用数据库切换成主数据库,以响应用户的请求。Data Guard的这种特性保证了数据不会丢失,并且避免数据库恢复期间无法处理用户的请求。
2)数据库的高可用性
Oracle Data Guard是由主数据库和一到多个备用数据库构成,这些数据库在Data Guard的环境中称为站点,通常各个站点以松散的方式分布在各地,所以,即使单个地区遇到地震、火灾、洪水等自然灾害,数据库的数据也会得到很好地保护。
3)站点数据同步
在Data Guard环境中,将一个站点设置为主站点,用来响应用户的请求,事务对数据库所做的修改,以归档日志的形式由日志传输服务自动从主站点传送到各个备用站点,以实现备用站点与主站点的同步。
4)防止数据库的物理损坏
备用数据库提供了防止数据损坏和用户错误的安全保护。主数据库上的存储器级物理损坏不会传播到备用数据库上;同样,导致主数据库永久损坏的逻辑损坏或用户错误也能够得到解决;最后,在将重做数据应用到备用数据库时会对其进行验证。
正因为Oracle Data Guard具有这些显著特点,并考虑到我厅的实际情况,可以利用已有的HP小型机异地部署来实现国库集中支付系统生产数据库的备用数据库,从而进一步提高系统的数据安全性和系统可靠性。
在系统“可恢复”方面,由于我厅在国库集中支付系统建设的初期就对此作了比较全面的考虑,目前已经建设成覆盖全厅所有业务系统的数据备份/恢复系统,该系统在系统日常维护中发挥的重要的作用。系统“可恢复”解决方案简而言之就是通过采用合适的备份软件和硬件,制定合理的备份/恢复策略以及管理制度整合而成的数据备份/恢复系统。
由于数据备份的周期性执行特性,决定了其具有历史性和后备性的特点。其历史性是指通过其周期性的备份执行,建立起目标对象的周期性多份备份存档,该存档随着时间的推移不断更新。那这样的备份有什么现实意义呢?我们做个假设,周一的时候系统管理员误操作,把某一表中的数据误删除了,但是当时没发现,当周五的时候才发现,这个时候若没有历史备份将会发生什么是不言而喻的。可以说正是数据备份的这种历史性,决定了其不可替代的作用。至于后备性是指数据备份的数据总是落后于最新的生产数据。但数据备份的介质通常是磁带等非易失性存储介质,并且允许脱机异地保存。这些特点决定当所有在线的方式失效时,我们可以通过异地取回的历史介质进行最后的恢复尝试。数据备份/恢复系统的这些特性决定了其在系统“可恢复”解决方案中的不可替代性。我厅将在目前的数据备份系统的基础上优化备份窗口,并建立更加完善的介质异地保存和恢复测试制度。
通过本方案建设,充分保证了国库集中支付系统安全可靠地持续运行,为财政今后信息系统的可持续运行建设积累了宝贵的经验。系统从“不停”、“不丢”、“可恢复”等各个方面分别采取不同的解决方案,对各种解决方案进行取长补短,统筹规划达到我们预期的建设目标。
[1] 李枫,等.使用负载均衡技术的高可用性主机服务器集群[J].计算机工程与应用,2003(16):97-99.
[2] 李涛等.信息系统容灾抗毁原理与应用[M].北京:人民邮电出版社,2007:65-68.
[3] 张冬.大话存储[M].北京:清华大学出版社,2008:355-356.
Investigation of the sustainable solution for the government fiscal management information system
ZHANG An
(Information centre of finance & taxation of Fujian,Fuzhou Fujian 350003,China)
This paper focuses on the sustainable operation of the government fiscal management information system. Based on the related experiences of the information system in other sectors, this paper brings out the sustainable solution for the treasury single account system. And the advantages and shortcomings of the scheme also is discussed in the paper. The practice of the sustainable solution about this project can be used in other system.
Treasury Single Account System; Sustainable Operation; Solution.
图4 最大保护与最大可用性模式的原理示意图
图5 最大性能模式原理示意图
F490.3
A
1673-1417(2011)02-0035-06
2011-04-20
张岸(1973-),男,福建闽侯人,工程师,本科,主要研究方向:IT系统分析。
(责任编辑:季平)