由于IBM的AIX小型机往往在信息系统中作为最核心的服务器被采用,一旦出现故障如不能及时处理、恢复,其后果可能就是灾难性的。本文在民航空管大数据存储背景下,就AIX数据库服务器的快速恢复方法展开讨论。针对硬件、系统、数据三个故障层面,结合传统的故障定位方法,寻求出一套无需准确定位就能进行AIX小型机快速恢复的高效解决方案。
【关键词】小型机 AIX系统 快速恢复
IBM的AIX小型机对于集群有着良好的支持,以其高可靠性、安全性在民航空管重要信息系统中有着较多应用。由于IBM的AIX小型机往往在信息系统中作为最核心的服务器被采用,如核心应用服务器、核心数据交换服务器、数据库服务器等。因此,一旦出现故障如不能及时处理、恢复,其后果可能就是灾难性的。
近年来,民航空管技术不断发展,目前正大力推进基于海量数据的协同决策管理系统、智能化管制指挥系统的研究与实现,这些新型综合信息管理应用系统接收的数据源包括一次雷达信号、二次雷达信号、广播式自动相关监视信号(ADS-B),具有数据量大,实时性强等特点。因此,此类信息系统对于其核心数据库的快速恢复有着非常高的要求。本文就AIX小型机的快速恢复方法展开讨论,研究了多种的应急恢复方法。第一类是故障定位后进行恢复的方法,即故障定位后,根据故障原因进行恢复。第二类是无需故障定位(或故障无法定位)的方法,包括基于磁带的备机整机替换方法,基于硬盘的备机整机替换方法以及备机作为RAC新节点的方法等。最后,本文对这些方法进行了比较分析,并提出了高效的解决方案。
1 故障定位恢复方法研究
1.1 故障定位
当故障发生,AIX系统所承载的业务不可用时,首先需要进行故障设备定位。故障可能在于小型机本生,也可能是与小型机相关的其他设备,如磁盘阵列、光纤交换机、光纤线、光纤模块等。如果故障存在于小型机,一般需要判断故障是属于硬件故障,还是系统故障、数据故障,或是其上运行的软件故障。可以通过指示灯状态、errpt故障信息、控制面板上的LED代码、系统管理服务故障记录、MAIL、运行故障诊断程序、各种系统日志等方法来收集小型机故障定位信息。
1.2 硬件级故障恢复
当故障定位判断结果确定故障为硬件故障后,要确定具体的硬件部件,需要相应备件及时到场,对该故障部件进行更换。AIX系统故障部件可以分为主板、电源、硬盘、内存和PCI卡。PCI卡一般包括网卡和光纤卡。各部件更换的具体操作步骤如表1所示。
1.3 系统级故障恢复
当故障定位发现硬件完全正常,而是由于操作系统故障导致AIX系统不可用时,可以通过AIX系统rootvg恢复来修复故障。rootvg恢复以及其他卷组的恢复都需要在系统正常时事先进行备份,在放入磁带完成倒带后,可以通过smit进行备份。若rootvg卷组出现某种问题,且系统当前还在运行,不可立即重新启动系统环境,因为一旦关闭,可能系统就无法再次启动。
1.4 数据级故障恢复
数据故障恢复,是指针对非操作系统文件丢失或损坏的备份及恢复方法。对于非操作系统数据,只要在实现备份相应卷组或相应文件的情况下都可以进行恢复。一般情况下可以通过savevg命令实现数据卷组的备份,该命令将查找并备份属于指定卷组的所有文件。在备份之前须要确认的是备份的卷组必须启用,且卷组中要参与备份的文件系统必须已被挂载。恢复时进入到smit环境的卷组重构界面,选择卷组备份文件,选择重构卷组所需要的磁盘,开始恢复卷组。恢复完成后,卷组被完整的恢复到ODM数据库中,并且自动激活,文件系统被自动挂载,文件得以恢复。
2 无需故障定位快速恢复方法研究
本文对故障无法定位情况下的AIX小型机快速恢复方法进行了研究,试图找到一种快速、高效、安全的解决方案。
2.1 基于磁带的整机替换方法
需要事先做好两台小型机rootvg的磁带备份,并为备机准备好用于网络连接和存储连接的网线、光纤。故障时,进行如下操作:
将故障机、备用机分别关机后,将故障机替换为备用小型机(主要是网线、光纤、电源线等的连接);
用串口线连接备用小型机,开机,选择从terminal启动。
选择3,从SM(维护模式)进入;
选择6,Install from a System Backup;
选择1, "/dev/rmt0"并插入故障机事先备份好的rootvg备份磁带后回车。这时候, 系统自动恢复操作系统。
在ds4700磁盘阵列管理软件中增加对应的maping。
2.2 备机作为RAC新节点的方法
该方法把备用小型机现有备机作为一个RAC的新节点加入现用的RAC环境,步骤为:
操作系统安装:将备用机上安装AIX操作系統,补丁至现用机的版本。
IP网络配置:将备用机接入网络环境,连接网线、光纤、电源线等。在交换机上配置对应端口。
SAN环境配置:在光纤交换机上配置zone,在ds4700管理软件中增加对应的maping。
集群安装配置:更改IP地址、主机名等配置参数;安装HACMP环境并配置。
Oracle安装配置:安装Oracle clusterware并配置,将新节点命名并加入,安装Oracle database并配置。
测试:测试某一个原结点下线后运行是否正常。将该备用节点下线后再开启,测试其能否够进入RAC环境。
备机作为新节点被加入后,RAC环境中拥有三个节点,在有任意一个节点故障的情况下依然有两台小型机对外提供服务。
3 结果与分析
故障定位后进行恢复的解决方法是普遍采用的解决方案,该方案是故障恢复的基础。因为某些故障可能是由于非常简单、易判断的原因导致的,能够快速恢复。但由于AIX系统的专业性较强,维护人员很难在第一时间分析得出AIX的具体故障原因,因此往往无法采取故障定位后进行恢复的方法进行快速恢复。基于磁带的整机替换方法,由于需要从磁带机恢复,即使做了线缆等的事先部署,恢复速度依然需要以小时计(大致修复时间见表2)。备机作为RAC新节点的方法虽然恢复速度快,但是部署复杂,且经验证,三个节点的RAC环境性能由于存在的缓存融合问题,性能并不理想,因此也不能作为可选方案。各方法的对比如表2所示。
4 结语
本文就AIX数据库服务器的快速恢复方法展开讨论,研究了多种快速恢复方法,最后提出了一套涵盖硬件、系统、数据三个故障层面的AIX小型机快速恢复流程方案。对于信息系统AIX小型机的故障处理、快速恢复有一定的参考价值。
参考文献
[1]Christian Pruett、Kristian Strickland、Soctt Vetter编著.IBM eServer Certification Study Guide - pSeries AIX System Administration。http://www.ibm.com/redbooks,December 2001。
[2]HyunGoo Kim、John Harrison等编著.Problem Solving and Troubleshooting in AIX 5L。http://www.ibm.com/redbooks,January 2002。
[3]Tim Dasgupta、Stephen Sommer编著。IBM eServer Certification Study Guide - AIX 5L Problem Determination Tools and Techniques。http://www.ibm.com/redbooks,January 2003。
[4]Tim Dasgupta、Stephen Sommer编著.IBM eServer Certification Study Guide - AIX 5L Installation and System Recovery。http://www.ibm.com/redbooks,December 2002。
[5]Jose Eduardo Martinez Cordero、Shiv Dutta、LiviuRosca等编著.IBM Certification Study Guide eServer p5 and pSeries Administration and Support for AIX 5L Version 5.3。http://www.ibm.com/redbooks,April 2006。
[6]張晓明编著.大话Oracle RAC——集群 高可用性 备份与恢复[M].北京:人民邮电出版社,2009.
作者简介
裘禛宇,现为中国民用航空华东地区空中交通管理局工程师。
曹烨琇,现为中国民用航空华东地区空中交通管理局工程师。
作者单位
中国民用航空华东地区空中交通管理局 上海市 200335