苏林忠
摘要:该文针对当前校园一卡通业务的连续性以及服务端的高可用性需求,详细分析了现有服务端部署架构所存在的故障隐患,并借助于现有的技术产品,着重以实际案例的形式介绍了高可用性架构部署或改造方案的实施过程。
关键词:一卡通,高可用性,容灾,SAN,PowerHA,SVC
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0116-04
1 校园一卡通服务端的高可用性需求
如今,校园一卡通已经发展成为一套全方位、高密度集成的功能应用体系,它不仅是全校师生学习、工作和生活的服务平台,同时也是一个准金融系统,承载着庞大的业务数据和金融消费数据,任何闪失都有可能是学校的一次灾难性故障,因此,建设一套高可用性的服务端就显得尤为重要。
服务端的高可用性主要包括设备的稳定性和容灾性,以及数据的完整性等,以下取我校校园一卡通服务端的高可用性改造实施方案为例:
2 高可用性改造实施背景
生产服务端现状:为确保服务端的正常供给,目前使用的是由性能稳定的IBM Power 720型的小型机、IBM 2498-B24型SAN光纤交换机以及IBM DS5020型的磁盘陈列共同组建的SAN架构,如下图1所示:
其中操作系统采用了与小型机配套的AIX,磁盘陈列做RAID 5,数据库则采用功能强大的ORACLE。
不足之处:以上架构中的节点设备,如小型机、SAN交换机以及磁盘陈列等设备都存在单点故障隐患,容灾性较差,任何一个节点设备故障都将有可能引起服务中断或数据丢失,如小型机故障将直接中断服务,SAN交换机故障将中断数据的交互,而磁盘阵列的故障可能会丢失数据等。
其他条件:机房库存有一套闲置的小型机、SAN交换机以及磁盘阵列等设备,其品牌及型号分别与现有生产服务端设备相同;同时,校内其他系统有正在使用的SVC 存储虚拟化引擎系统。
3 改造方案设计
充分利用现有的设备条件,通过两台SAN交换机将两台小型机以及两台磁盘阵列统一接入SAN架构,同时,将再SAN交换机接入SVC,如下图2所示:
1)双链路连接:双SAN交换机的介入,将小型机、磁盘阵列及SVC同时接入两条不同的光纤线路,有效避免因SAN交换机的单点故障所引发的数据交互失败现象。
2)托管SVC:将SVC 存储虚拟化引擎接入SAN 网络,并映射给前端主机,接受对后端存储设备空间,即双磁盘阵列的识别与控制,同时,基于SVC 可以轻松实现异构存储设备的数据复制的功能,实现对双磁盘阵列存储数据的在线复制。如此,当小型机主机发起IO 写请求时,SVC 集群会完成对主机请求的响应,并将IO 写数据同时写到两台后端的磁盘阵列;而当小型机主机发起IO 读请求时,SVC集群会识别出两台后端磁盘阵列中被定义为Primary 部分的数据读出并反馈给小型机主机。而当其中一台磁盘阵列存储不可用时,SVC 会自动对Primary 的定义发生切换,将可用的数据重新定义为Primary,从而实现对校园一卡通数据双存储互备与完整性保护的功能,满足对数据本地容灾及完整性的需求。
另外,SVC 集群是由2 个或以上不同地理区域的存储设备节点组成,其本身也具备异地数据容灾和避免设备单点故障的能力,可以满足对数据异地容灾的需求。
3)双机热备:利用IBM公司所提供的通过配置冗余可实现故障转移保护的PowerHA集群技术,部署在双小型机上,工作期间,其中 一台小型机在运行应用的同时,另外一台小型机则作为备机等待, 两台小型机系统在整个运行过程中,通过“心跳线”相互监测对方的运行情况,一旦发现对方小型机的软硬件运行、网络通讯或者应用等运行情况不正常时,故障机一方的应用就会立即停止运行,备机就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源自动接管过来,使故障机上的应用得以在本机继续,达到小型机的本地容灾目标,从而保障校园一卡通业务的连续性。
4 方案的实施
以下为了表达方便,分别将图2中的两台小型机命名为P1与P2,两台SAN交换机命名为S1与S2,两台磁盘阵列命名为D1与D2。
4.1 准备工作
为保障系统的稳定运行,可以考虑将操作系统、各功能软件以及各硬件设备的微码等升级至目前厂家所推荐的版本;磁盘阵列的RAID 5升级为RAID 6;使用smitty installp命令为P1 及P2 安装SVC 的Host Attachment 和多路径软件SDDPCM;并对P1 及P1 的光纤卡参数fc_err_recov 及dyntrk 属性进行检查,确保fc_err_recov 设置为fast_fail,dyntrk 设置为yes。
4.2 SAN Zone划分
将小型机的两张光纤卡分别连接到SAN交换机。
4.2.1 SAN交换机端口规划及别名设置