阙凌燕,陈利跃,黄 斌
(浙江电力调度通信中心,杭州 310007)
浙江电力调度管理信息系统采用先进、成熟的信息技术,以数据为中心,以实时和准实时系统为主框架,根据具体技术业务需求,完成了6大专业、62个专业模块、56个工作流的开发,涵盖了调度生产和行政管理的绝大部分业务。经过多年的应用和不断完善发展,调度管理信息系统已经成为浙江省电力调度中心不可或缺的应用平台。如何提高系统数据安全性、可靠性、可用性也显得越来越重要。
因此,需设计构建一套合理的数据保护方案,以保障系统在灾难或突发事件时仍能稳定运行和正常应用。即使出现数据库故障或崩溃,也不必中断业务应用即能迅速恢复系统和数据,保证系统业务的连续性。
系统原有数据保护采用传统备份阵列加磁带库方式,数据库服务器直接通过光纤通道卡和SAN交换机将数据以LAN-Free方式备份到磁带库。当系统故障时,备份系统找出最后完整备份的磁带,恢复系统和数据。这种备份模式存在以下缺陷:
(1)系统备份和恢复的时间长,无法做到对数据进行高频率的备份。
(2)由于备份代理会影响主机的性能,备份过程影响生产系统的运行,因此备份时间都必须安排在半夜业务量少的时间段进行。
(3)传统备份方式无法验证日常的备份数据在突发故障时能否恢复成功。当发生灾难时,不能保证用户数据快速恢复,影响用户应用的连续性和数据完整性。
一旦出现故障,长时间的系统应用中断将极大地影响工作正常进行,对此寻求了新一代连续数据保护技术 CDP (continuous data protection)。CDP技术可以捕捉到一切文件级或数据块级别的数据改动,可以对备份对象进行更加细化的保护与恢复。当出现数据丢失、损坏或安全问题时,数据库系统可以迅速恢复到指定时间点,特别是恢复到最新时刻的数据一致状态,可以连续捕获数据变化并进行准实时备份。
新一代CDP数据保护技术建立了一个近似虚拟存储系统,应用系统可以在不同的存储设备上透明切换,采用CDP技术的优势在于:
(1)所有业务和应用数据实时镜像,基于块级的实时系统克隆,为所有业务系统提供保障。
(2)对系统的保护均不改变任何系统现状,不影响主机性能,轻松实现灾难防御体系。
(3)系统出现任何故障时,都可以利用CDP技术实现快速恢复。
(4)自动产生数据快照。CDP技术对每一个应用都可以产生多达256个数据快照,可以在几秒钟内将庞大的系统历史版本展现出来。
(5)数据保护精细化。CDP技术保存和恢复的数据,其间隔和粒度改变了传统的粗放型 (如传统的一天一备份),走向了精细化。
系统采用3台HP UNIX服务器,图1中所示数据库服务器(1,2)为生产数据库服务器,数据库服务器(3)为备用数据库服务器。2台互为集群的生产数据库服务器为前端客户提供在线访问,保证系统的高可用性,通过CDP管理平台将数据连续复制到EMC CX500存储系统。备用数据库服务器通过CDP技术保持当前数据为最新状态。正常情况2台服务器会进行状态均衡,各自承担业务。一旦1台出现问题,所有业务都会自动切换到另外1台服务器上。如果2台生产数据库服务器都出现异常,即可将应用服务器切换到备用数据库服务器,保障业务正常进行,避免故障造成业务停顿。然后对生产服务器进行恢复,恢复正常后再将应用服务器从备用库切回。
图1 系统结构图
在CDP服务器上运行时间点标记Time-mark(时间戳)选项,可进行在线数据多个版本的保存。利用Time-mark与快照代理,通过设置合理的数据快照策略,管理员可以在任何时刻创建一个Time-mark,按照事先设定的时间间隔,将指定时刻点的数据视图保存下来。快照代理确保数据完整性,Time-mark功能则使应用主机能在瞬间加载过去任意时刻的数据版本,避免漫长的数据库修复和一致性检查,从而实现数据恢复时间最小化。因误操作、病毒侵袭等导致的生产站点数据错误,可通过CDP服务器的内置时间标记回溯并快速恢复到此前某一数据良好的状态点,该过程只需在图形化管理界面上轻点鼠标即可实现。
根据调度管理系统的业务特点,设置为5 min保留1个状态点,共保留576个状态点,即2天的业务备份。当系统发生故障,丢失数据最长时间是5 min,可以通过程序补齐丢失数据。同时将备用数据库状态自动同步到最近一个状态点。
当系统运行过程中出现数据库故障导致数据库系统崩溃时,采用如下步骤即可启动备用数据库:
(1)通过CDP的客户端,取消分配给主数据库的磁盘。
(2)通过备份数据库服务器测试磁盘最近的Time-mark点的数据库可用性。
(3)通过CDP的客户端,检测磁盘是否在最新的Time-mark,不是则回滚到最新的Time-mark。
(4)将回滚后的磁盘分配给备用数据库,启动备用数据库。
启用备用数据库后,调度管理系统业务恢复,即可对生产系统主数据库进行故障修复。修复后,将存储和CDP磁盘建立的镜像指向主数据库,将业务切换回主数据库,恢复过程完成。
采用CDP技术后,进一步提升了调度管理信息系统的数据安全性,优化了系统功能。
(1)在生产端建立一套完整的定时自动备份,自动完成数据在线同步,避免了因发生灾难及人为误操作后的数据丢失。
(2)简化了系统备份管理,能够对数据备份系统进行灵活的集中管理。
(3)提供了良好的操作使用界面及事件告警等,简化了复杂的数据保护工作,降低了维护工作量。
(4)具有强大的扩充能力,数据保护系统具备良好的服务器主机节点及存储容量按需增加的扩充能力,可随着数据的增多对调度管理信息系统扩充构建。
(5)方便构建数据测试环境。生产数据库数据同步到备用数据库后,对于影响生产系统的测试,可在备用数据库提取状态点进行,还可以方便地对生产系统进行二次开发测试。
数据保护方案实施后,对可能出现的故障进行了测试,进行了生产系统故障模拟并顺利地将调度管理信息系统切换到了备用数据库。上述操作对最终用户完全透明,用户端不需更改任何设置,即可访问恢复后的调度管理信息系统。即使故障发生后切换到备用数据库服务器,或生产数据库服务器恢复后重新接管,对用户访问没有任何影响。系统运行稳定、性能可靠,为建设高性能、高可用性的信息平台奠定了良好基础。
[1] 安剑,胡勇,李振华.北方联合电力ERP系统异地容灾保护方案[J].电力信息化,2008,6(7)∶119-23.
[2] 王彦龙,李战怀,徐娟.基于块的数据库系统连续数据保护[J].计算机研究与发展,2006(3)∶168-173.
[3] ALAIN AZAGURY, MICHAEL E FACTOR, JULIAN SATRAN.Point-in-time copy∶yesterday, today and tomorrow[C].College Park,USA∶the 19thIEEE Symposium on Mass Storage systems,2002:259-270.