●王慕抽(温州大学,浙江 温州 325035)
图书馆自动化系统的连续稳定运行及数据安全至关重要。一旦系统中断运行,将给各个业务部门及全校师生带来极大的混乱,而数据一旦丢失,则带来的损失和后果都是灾难性的。目前,我校图书馆自动化管理系统在PC服务器上运行,数据保存在本地主机内,通过FPT方式做每日全备份,随着两校合并、学生扩招、书目数据量剧增以及应用软件不断升级、功能扩展等,PC服务器处理能力和性能已无法充分满足使用要求,随时存在停机和数据丢失的可能。在这次自动化系统更换升级的实践中,如何确保业务不中断,如何确保数据安全,如何在灾难发生时能快捷准确地进行恢复,是方案考虑的关键问题。应当采用基于双机热备技术、SAN技术、备份软件和环境保障的支撑一体化解决方案,以彻底解除系统隐患,保障业务连续性。
从广义上讲,双机热备就是对于重要的服务使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。
双机热备主要解决服务器故障问题。服务器比交换机、存储设备复杂得多。它包括硬件系统、软件系统,故障概率也要高得多,如设备故障、操作系统故障、应用系统故障等等,一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上,如果技术人员不在现场,则恢复服务的时间就更长了。对于图书馆的关键应用来说,师生很难忍受长时间的服务中断。因此,对于需要持续可靠地提供应用服务的系统,双机热备还是非常重要的。
双机热备是一种软硬件结合的高可靠性应用模式,有两种实现方式,一种是基于共享的存储设备方式,另一种是没有共享的存储设备方式(纯软件方式)。我们选择基于共享存储设备的双机热备方式,该系统由两台服务器+磁盘阵列柜+热备软件构成,操作系统和应用程序安装在两台服务器上,数据库存放于共享的磁盘阵列柜,通过RAID技术保证数据的可靠性,数据库与应用软件在某一时刻只由一台主机控制。系统运行时,两台服务器将以一个虚拟的IP地址对外提供服务,通过热备软件的监测模块来互相监测对方的心跳及服务,当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务,故障切换过程中数据能确保完整性,切换时间很短,而且无需人工干扰,能够很好地满足图书馆自动化系统实时性要求较高的需求。
基于存储区域网SAN的存储共享双机热备模式是目前双机热备较好方案。我馆服务器IBM P550两台,其操作系统为AIX 5.3,存储为SAN,实践证明比较稳定可靠。[1]
存储区域网SAN技术主要解决数据硬盘问题。数据硬盘故障是系统中断运行的重要原因之一,而且硬盘故障往往会导致数据的丢失,从而带来灾难性的后果。因此要解决系统连续运行和数据丢失的问题,必然要解决存储的问题。在今天,“数据与系统分离”观念已经成为当前IT技术的新潮流。随着数字图书馆数据的重要性越来越大,存储设备已成为整个系统的中心,采用开放性的存储系统也显得越来越重要。我们设计并实施了基于存储业界领导者EMC公司的CX 700光纤磁盘阵列系统为存储核心的SAN存储解决方案,通过存储局域网SAN的架构对服务器的数据进行集中存储管理。
本馆使用的光纤交换网络的核心是一台16口光纤交换机和一台8口光纤交换机。其中四服务器均配置了两块HBA卡,分别连接这两台光纤交换机,余下一台服务器配置了单块HBA卡与16卡光纤交换机进行连接。光纤交换机一方面连接各服务器,另一方面连接光通道磁盘阵列系统。在系统扩展时,光纤交换机可以通过自身的端口或通过级连方式进行扩展。整个存储网络除配置单块HBA卡的服务器外,通过EMC的路径管理软件PowerPath做到了链路冗余,无单点故障。系统构建完成后,速度性能得到了很大的提升,将原有的数据分散模式变为数据集中模式,使数据的管理带来很大的便利,目前系统运行稳定。应用三年中证实具有高度的可靠性、稳定性、安全性。
本校图书馆网络、存储系统拓扑图改造前和改造后分别如图1、图2所示:
图1 改造前图书馆网络、存储系统拓扑图
图2 改造后图书馆网络、存储系统拓扑图
备份软件主要解决数据异地备份问题。数据的安全性保障包括多方面,如防病毒、系统入侵检测、硬件故障冗余、双机系统冗余、系统数据备份等,而数据备份是上述安全性保障最核心也是最重要的保障手段,因为它直接对用户的各种数据进行备份,是保证为图书馆提供正常服务的最后一道防线,当各种影响数据安全的情况发生时,以最短的时间恢复受损的数据。
目前本馆使用南京汇文自动化管理系统,其业务数据存储在Oracle数据库当中。所以自动化系统的数据备份,实际上就是Oracle数据库备份。Oracle数据库在备份与恢复方面的功能较完善,除了硬件级的备份(如RADI1、双机热备等)之外,还包括逻辑备份和物理备份。物理备份又包括冷备份和热备份。
Oracle的备份与恢复有3种标准的模式,大致分为两大类,备份恢复(物理上的)以及导入导出(逻辑上的),而备份恢复又可以根据数据库的工作模式分为非归档模式 (Nonarchivelog-style)和归档模式(Archivelog-style),通常,我们把非归档模式称为冷备份,而相应的把归档模式称为热备份。Oracle的这3种方式各有优缺点,下面比较一下这3种方式的优缺点:
以上3种备份方式,使用频率最高的首推逻辑导入导出方式备份。鉴于冷备份只能在关机时使用,我们主要使用逻辑备份和物理备份的热备份方式。
为了使可能丢失的重要数据能尽快恢复,且保证数据的一致性和完整性,我们采用如下数据备份方案:
(1)Oracle的逻辑备份,数据库主机和备份机交互备份相结合,磁带、光盘等介质异地备份为辅助的方式。普通PC做备份机定时自动备份到硬盘,每天22:00备份。Oracle数据库服务器同时将脚本写入主配置文件/etc/crontab/cron在本机定时备份,每天23:00备份。光盘、磁带等辅助备份介质,根据实际情况,不定期将数据保存在光盘或磁带等介质上。
表 备份方式比较表
在备份机上的备份脚本语句格式,备份机备份脚本:exp用户名/密码@tns file=fileName.dmp本馆考虑数据及存储空间方面,于是将一周作为循环周期。语句如下所示:exp userid=system/orcl@libsys file=d:ak\%date:~11,3%.dmp log=d:ak\%date:~11,3%.log owner=libsys buffer=1024000
将以上命令行存成.bat格式放在Windows系列的备份机上可执行脚本文件,进行定时备份。逻辑备份恢复,采用Oracle自身的导入命令进行。把备份出的用户级备份文件完全导入到Oracle数据库即可。
导入时的命令行:imp用户名/密码 full=y file=fileName.dmp
如果导出采用的命令是:exp system/orcl file=20110101.dmp,则相应的导入命令是:
例:imp system/orcl full=y file=20110101.dmp
(2)物理备份的热备份方式,Oracle数据库运行在归档模式;每天晚上将归档日志文件通过备份软件备份到磁带库中;每周五凌晨进行一次数据库RMAN全备份,备份数据存储在SAN上归档日志文件存储区域中;每周五晚上将RMAN全备份数据通过备份软件备份到磁带库中,删除存储(SAN)两周前备份数据和一天前归档日志文件;在存储上始终保持一份完整的RMAN全备份数据和有效的一周内归档日志文件。[2]
机房环境监控系统是一个综合利用计算机网络技术、数据库技术、通信技术、自动控制技术、新型传感技术等构成的计算机网络,提供的一种以计算机技术为基础、基于集中管理监控模式的自动化、智能化和高效率的技术手段,系统监控对象主要是机房动力和环境设备等(如:配电、ups、空调、温湿度、漏水、烟雾、视频、门禁、消防系统等)。
我馆目前主控机房180m2UPS四台,三台10KV和一台2KV;有5台3P格力空调;二氧化碳灭火器2对;烟雾探头若干,视频摄像头1对。
由于学校的特殊性,寒暑假尤其是暑假机房温度非常重要,考虑到精密空调价格高、噪音大等问题,于是在原来格力空调的基础上,增加空调来电重启控制器 (sAC-2501)。
双机热备技术、存储区域网技术、备份技术及机房环境监控系统等是图书馆保障业务连续性的支撑技术,它们相互形成,不可缺少。双机容错技术解决了服务器故障问题和用户对服务中断的容忍时间,存储区域网技术技术解决了硬盘故障和数据丢失问题,备份技术解决了系统出现问题后数据损坏、丢失时的恢复问题,机房环境监控系统提供必要的环境保障功能。本文在机房环境监控系统智能化方面未做详细的描述,有待进一步完善。经过两年多运行,证明系统具有高性能、高可用性和高安全可靠性等特性。
[1] 刘新宇,等.双机热备份机群的可信性建模分析与比较[J].小型微型计算机系统,2004(4):747-751.
[2] 潘传迪.高可用性医院信息系统核心部件的构建与实现[J].医学信息,2006(5):768-770.