基于Rose的双机热备在医院数据中心的应用

2017-09-29 01:40/文
信息化建设 2017年8期
关键词:宕机热备双机

● 张 强 /文

基于Rose的双机热备在医院数据中心的应用

● 张 强 /文

双机热备技术主要是解决由于服务器故障所导致的医院信息系统瘫痪问题。

近几年,医院的信息化建设快速发展,取得了显著的成效。快速发展的浪潮,带给医院本身的是信息系统数量的增加和硬件设备的不断添置。医院医疗业务的开展对信息系统的依赖越来越大,这就对信息系统的稳定持续性提出了相应要求。但是,由于数据中心的软硬件设备在使用过程中都会不可避免的出现问题,一旦出现比较大的故障,不仅会给医院业务的正常开展带来不可估量的损失,同时硬件的宕机所造成的损失甚至超过系统的直接购买成本!如何最大限度地避免或者减少由于设备故障给医院带来的业务中断,以及尽可能地减少计划内外的停机成为了医院信息科管理人员需要首先面对的问题。虽然,解决这些问题的方法有很多,可是较为稳定也是应用最广的是双机热备技术,它主要解决的是由于服务器故障所导致的医院信息系统瘫痪问题,其能够在较短的时间内恢复信息系统的正常运行,保证医院临床业务的正常开展。

双机热备的定义

双机热备简单的说就是将中心服务器安装成互为备份的两台服务器,在同一时间内只有其中的一台服务器工作。当其中工作着的一台服务器出现故障而无法启动时,另一台备份服务器通过使用双机软件会迅速的自动启动并接管相应工作(接管工作通常需要几分钟),从而保证整个网络系统的正常运行。双机热备的工作机制即为整个网络系统的中心服务器提供了一种故障自动恢复能力。通常所说的双机热备有广义和狭义两种意义。

从广义上看,双机热备(双机容错)就是使用两台服务器,互为备份,且共同执行同一服务。当一台服务器宕机时,另一台服务器承担服务任务,从而在不需要人为干预的情况下,自动提供稳定而且持续的服务。双机热备中的备用服务器处理了在主服务器宕机时服务不中断的问题。可是在实际环境中,一般采用2台服务器的情况较少,各家医院采用的为服务器集群,采用共享存储设备的方式实现热备。但在某些特殊情况下,也可以仅用两台服务器实现双机热备,但是需要通过专门的双机或集群软件。

从狭义上看,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者共享同一个存储。在同一时间内只有一台服务器运行。当其中主服务器出现宕机无法正常工作时,另一台备用服务器会通过双机软件的诊测(一般是通过心跳诊断)将standby机器激活,保证应用系统在短时间内恢复正常工作。

双机热备在医院信息中心使用的重要性

医院的信息科(处)虽然隶属于行政后勤科室,但其重要性和价值不次于其它临床科室。而信息科所管辖的数据中心的安全运行更是信息科工作的重中之重。数据中心里的相关硬件上不间断运行着医院所有临床的核心业务(HIS、LIS、PACS等)。因此,选用何种硬件架构可以保证信息系统安全且可靠的运行,就显得十分必要。

对于信息科的硬件维护人员来说,服务器出现宕机一般是最严重的问题,因为服务器出现宕机的原因有很多,例如服务器硬件本身的故障,操作系统故障或者软件故障等等。当服务器出现故障时,要首先定位故障,确定是哪个原因造成的服务器故障,定位故障原因后,才能采用相应的方法去处理故障。而发现故障,定位故障,处理故障,排除故障都需要时间,这个过程中少则几十分钟,多则几个小时,或者更长,对医院所造成的损失是难以估量的。这时,采用双机热备技术就对因服务器宕机所造成的业务中断就起着关键作用。采用双机热备技术本质上就是要来避免长时间的服务中断,保证系统长期且可靠的服务。而决定是否使用双机热备技术,主要是要分析医院本身系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备技术。

在双机热备技术中,主机和备机的工作接管是有一个切换过程,这个切换过程可能是几分钟左右。在切换过程中,服务在短时间内是中断的。可是当切换完成后,服务将很快恢复正常。由此可得,双机热备不是无缝、不中断的,可它能够保障在服务器出现宕机时,在无需人工的干预下,服务器能快速恢复正常服务,从而使业务不致受到影响。而如果没有采用双机热备技术,则一旦出现服务器宕机,可能会出现几个小时的服务中断,对业务的影响就可能是雪上加霜。另外,有一点需要特别指出,即服务器的宕机与存储设备、交换机的故障不同。原因在于服务器技术的集成度比交换机、存储等设备要密集,且复杂程度高,因其既包括硬件、操作系统、同时还有应用软件系统等系统。不仅服务器硬件故障可能引起服务中断,而且软件或程序方面的问题同样可以导致服务器不能正常工作。另外,虽然目前很多服务器都具有防护措施例如磁盘阵列(RAID)、数据备份等可以很大程度上的保护医院数据,可却无法替代双机热备作用。

双机热备软件的选择

目前常用的双机热备软件有国外 的 Rose HA、NEC ExpressCluster和微软MSCS等品牌以及国产的REYUN HA、mirror,REYUN HA等。根据调查,我院决定采用Rose HA作为双机备份软件,Rose HA是美国ROSE数据公司的新一代双机热备(高可用性)软件,其优势在于其具有友好的界面、灵活的Active-Active 模式和Active-Standby 模式、支持多条心跳、网络、存储、应用高可靠性、丰富的附加功能等特点。

基于Rose的双机热备在医院的应用

通过和其它医院信息科同行以及有关系统集成商的交流后,考虑到本院实际情况,决定采用共享存储的方式来构建硬件平台。其中相关的硬件为采用2台IBM X3860X6和1台IBM V3500存储设备,并利用双机软件(Rose HA)实现两台服务器的双机热备方式。

两台IBM X3860X6的服务器采用2颗

Intel(R)Xeon(R) Processor E7-4809V2,32GB DDR3 内 存,3块(单块容量300GB,转速10K RPM)硬盘,双千兆网卡,2块HBA光纤卡,服务器内置的千兆网卡通过千兆双绞线连接到交换机的千兆模块上。服务器上预安装的操作系统为Windows Server 2008企业版。

IBM V3500存储设备采用双控制器,容量为5TB(5块1TB的硬盘)SAS 盘,硬盘转速为7200转。

双控双环路测试

前期各项连接测试畅通之后,要进行服务器与存储的双控双环路测试。首先将磁盘阵列的硬盘先后挂载到两台服务器,即使用命 令 #mount/dev/sdb5/mnt/oradata。可以看到磁盘阵列的数据。

我们先将服务器编号为服务器1号和服务器2号,在1号服务器上使用命令#tail-f/var/log/messages进行双控双环路测试。将连接1号服务器上的板卡HBA0和存储控制器上的DS1的光纤跳线拔掉,我们就可看到,控制由HBA0切换到1号服务器上的另一块板卡HBA1上,同时可以读写磁盘阵列上的数据;将连接1号服务器上的板卡HBA1和存储控制器上的DS3的光纤跳线拔掉,控制仍在HBA0上,仍可以读写阵列上的数据。同理,在2号服务器上也做同样的测试。

而双控测试则是要测试存储的控制器。将存储控制器A上的DS1和DS2上的光线跳线同时拔掉,发现可以读写数据。然后,再将存储控制器B上的DS3和DS4上的光线跳线同时拔掉,仍可以读写数据。这样,就顺利通过了磁盘阵列的双控测试。

调试安装ROSE HA

经过前面的双控双环路测试成功后,并成功在2台服务器上安装oracle 11g后,接下来,我们需要安装双机软件Rose Ha,根据操作手册,按照安装步骤,完成软件的安装。这里我们设定了虚拟的IP地址,即192.168.1.21。这个虚拟地址直接指向1号服务器,当1号服务器故障后,会立即指向2号服务器。同时,在Rose中,模拟1号服务器宕机,2号服务器通过Rose会直接take over相关应用服务。同理,模拟2号服务器宕机,1号服务器顺利接管服务。

经过之前硬件设备的搭建和安装测试,我们顺利完成了此次项目。

但是,这种方案也同样存在着问题,虽然可以保障单台服务器出现故障后,通过双机软件,系统自动跳转到备用服务器上。可是,一旦存储设备出现故障,即使是存储设备的单点故障,医院业务的运行还是会受到很大影响。因此,更为稳妥的方案是采用全冗余方式,即为双机双存储,两台存储互为备份,这样就可以保障医院系统业务持续且稳定的运行。

(作者单位:江苏民政康复医院信息科)

猜你喜欢
宕机热备双机
岛内人口普查刚启动就遇“宕机”
热备动车组配置方案优化模型
东海区实时海洋观测数据库双机热备系统解决方案
双机、双桨轴系下水前的安装工艺
双机牵引ZDJ9道岔不同步问题的处理
Loader轴在双机桁架机械手上的应用
艾默生网络能源发布《2016年数据中心宕机成本》
热备冗余技术在焦化设备上的应用