韩 洁 徐钟全
(1.南京地铁运营有限责任公司,南京 210000;2.北京全路通信信号研究设计院有限公司,北京 100073)
2003年,南京地铁一号线AFC系统投入使用,据统计一号线的服务器共计21台,主要分为中央计算机系统服务器和车站计算机系统服务器。中央服务器和车站服务器(简称服务器)是A FC系统的主要组成部分,主要承担的系统功能有各层级的数据收集、各类数据处理解析上传、控制所有车站中段设备的参数版本及分发、管理监控所有车站设备状况等。
从上述介绍可以看出,A FC服务器是A FC系统后台业务的核心,也是A FC系统的关键,运维部门每天例行服务器必要的检查和维护,以保证各服务器运行的稳定。
1.2.1 设备使用已超过设计年限
目前,A FC系统硬件设备为H P公司DL380 G3设备,自2003年至2010年已经运行8年,远远超过服务器的设计使用年限(5~6年)。据对现场的故障统计,服务器硬件故障在前5年内处于稳定态势,但近一、二年来服务器硬件故障明显上升,服务器的可靠度大幅下降,严重影响现场设备的运营安全。
如图1所示, 2009年服务器的故障较2008年故障大幅上升。
1.2.2 备件供应困难
鉴于服务器系统发生故障基本上是由于硬件模块老化所致,所以现场对主要模块的硬件需求量较大,且及时性要求较强。考虑到A FC业务的特点,对于服务器故障一般要求必须当天夜间解决。从走访市场备件供应商来看,DL380 G3机器在2007年已经停产,备件早已退出生产线,市面上能购买到的备件也是返修循环件且维修成本很高,即使能够暂时替代坏件,也不能从根源上保证服务器的可靠度;且返修件在时间和质量上难以得到可靠保证,现场服务器一旦发生故障,维修工作是举步维艰。1.2.3 服务器改造必要性
A FC服务器的功能非常关键,运行状态不稳定,极易导致运营期间的系统故障,影响到数据处理及收益结算;设备老旧,备件缺失,导致维修人员工作难度进一步加大。考虑以上诸多因素,2009年底,确定对一号线在线服务器进行系统改造,保证新服务器为市面上的主流配置服务器。
所谓传统方式,就是在目标服务器上安装必要的硬件驱动,再安装操作系统,最后依据各服务器在运行业务模块的作业指导书进行应用程序安装。
所谓虚拟技术,即利用虚拟软件将旧车站服务器的操作、应用系统。数据库系统转换成虚拟化文件并存储在中间服务器中,再将中间服务器的虚拟文件还原到新升级的物理机。
由于本项目提到的改造服务器均是正线运营的服务器,为了保证运营的安全性,必须在运营结束距次日运营前完成单台升级,所以本次对升级的两种方式着重从安全性、耗时情况做比较,如表1所示。
表1 两种方式比较
经过对两种改造方式的对比,结合运维部门现场的特殊运营条件限制,决定采用虚拟技术来进行服务器改造工作,确定服务器硬件选型为HPDL380 G7,为此详细制定实验室测试方案,保证迁移工作万无一失。
虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒。未来,所有的资源都可以运行在各种各样的物理平台上,资源的管理将按逻辑方式进行,完全实现资源的自动化分配,而虚拟化是实现的理想工具。虚拟化环境需要多种技术的协调配合:服务器和操作系统的虚拟化、存储虚拟、以及系统、资源的管理和软件提交、与非虚拟化环境一致的应用环境。
虚拟技术早在20世纪70年代开始应用。如今,虚拟技术已被推广到不同领域中,得到广泛应用。虚拟现实是用户可以和一个由计算机产生的三维立体空间中的对象交互,除观看外,还可以在空间中随用户的意志自由操纵其中的对象,进而产生相当的融入感及参与感。
由于服务器迁移不仅涉及硬件,而且也涉及软件,尤其要保证业务的连续性、数据的高可靠性及迁移过程的稳定性,采用虚拟化技术风险较小,通过虚拟化技术将服务器操作系统、数据库系统、应用软件转换成中间主机的虚拟机文件,再将中间服务器的虚拟文件还原到新升级的物理机。该项目研究服务器软、硬件迁移技术,在较短时间内完成服务器的无缝迁移,不需要重新安装软件,为夜间施工节约了人力、时间,项目原理如图2所示。
南京地铁一号线A FC系统服务器升级项目实施升级项目的验收测试,既要求A FC升级服务器满足合同规范,也要验证A FC系统从原有系统平稳过渡到改扩建系统的每个阶段。由于本次的升级工作属于南京地铁A FC系统首次实现迁移,且其他地铁也没有成功先例,为保证整个迁移过程顺利,且保证老旧系统的无缝对接,重点做了以下几点把控。
验证A FC系统在新服务器的运行情况,在测试过程中解决了蓝屏、AFC应用程序不能启动、加密狗不能应用等问题。
验证A FC系统的各项功能,在测试过程中解决了参数下载、终端设备管理、数据上传及处理、模式应用、应用配置等问题。
验证A FC系统数据库运行情况,解决终端设备数据与车站服务器 、车站服务器与中央服务器数据差异等问题。
验证A FC系统迁移失败后快速恢复、孤岛模式下系统运行情况。
2011年12月1日至31日,在马群一号线实验室进行迁移测试,验证操作系统、业务软件与新服务器硬件兼容性。逐步验证A FC监控软件运行、数据上传、参数下载、数据库运行等功能项目,形成升级详细步骤,指导各个服务器的升级工作。
前期通过向承包商询价,如采购硬件后重新安装操作系统及应用软件需产生费用约85万元。而通过本项目虚拟技术迁移产生的费用为40.7万元,为公司节约成本44.3万元。
本次升级工作均采用夜间施工,每次施工约3 h左右,服务器升级期间,终端设备在孤岛模式下正常运行,没有对乘客出行造成影响,并保证在开站前有足够的时间观察新服务器运行情况。
服务器迁移后,运维对服务器的故障率、服务器的主要性能做了比较,发现新服务器运行稳定,故障率有大幅下降,性能得到极大提升。
对迁移后的新服务器和旧服务器的故障数据做同期对比,分析发现故障率大幅度下降,如图3所示。
如表2所示,除了对硬件故障数做比较外,还从业务角度重点对新旧服务器的服务响应指标如客流查询响应时间、监控命令响应时间等进行比较,这些指标也有不同程度提升。
表2 性能比较