时明薇
摘要:纵观国内AFC系统建设现状,建设方式多数采用在车站部署一台AFC系统机房,通过星型网或者环网将SC与终端设备进行连接,既有SC系統不具备灾备的功能,发生车站服务器出现故障时时,无法临时接管,客流数据无法实时衔接,不具备交易文件断点续传,不能监控状态瞬间切换等功能,造成系统宕机。如果在车站使用双击备份,确实可以解决这一问题,但建设成本翻倍。考虑到对乘客服务的优质要求及维护成本控制,从实际出发,设计出一套AFC车站服务器在线容灾备份系统。
关键词:SC系统;容灾;备份;
随着城市轨道交通的大力发展,以及郊区线路的建设,运营维护的问题逐步凸显,当SC出现故障,技术人员并不能够在第一时间赶赴现场维修解决故障,影响车站故障监控、实时客流数据。
1.研究思路启发
通过数据库双机热备的启发,从实用性,经济性出发,充分对比双机热备和在线容灾的优缺点,最终确定实施在线容灾备份方案。
1)双机热备方案:就是将服务器安装成互为备份的两台服务器,并且在同一时间内只有一台服务器运行。当正在运行的主服务器出现故障无法工作时,另一台备用服务器会立即启动并运行,从而保证AFC车站系统的业务正常运行。针对现场生产环境,车站服务器需增加一台。
优点:技术改造难度小,故障时自动切换。
缺点:需额外增加1台服务器,改造成本大,浪费现场可用资源。
2)在线容灾备份方案:充分利用现有车站工作站环境和设备,通过资源整合,将车站服务器的业务部署到车站工作站上虚拟机上,作为备用服务器,实现灾备的功能。
优点:最大化节省成本,充分调用既有设备资源,经济可行。
缺点:不能自动切换,需人工手动切换。
2.基于VirtualBox虚拟机灾备方案实现
3.VirtualBox虚拟机部署
1)系统安装:在车站工作站上安装VirtualBox虚拟机,安装跟车站服务器统一的操作系统,数据库环境以及相应服务包。安装完成后,修改相关配置设置,验证系统通信服务,设备监控、客流监控、交易数据管理、时钟管理、参数管理、设备管理、日始日终处理功能是否正常。
验证通过,将该硬盘制作为母盘,克隆出来,复制至其余车站,修改相应车站配置,节约时间成本并降低安装系统及数据库途中出问题的风险。现场安装后,需检查:主机防火墙是否已关闭,时间,USB口,监控工作站功能是否正常。
2)系统切换:将故障车站SC服务器断网(服务器后面网线断开),监控工作站打开VirtualBox虚拟机,启动"SC_Backup" CentOS 5.8 系统。检查时间是否一致,进入“系统-管理-网络” eth0,确认IP地址、网关正确,激活eth0,启动相关服务进程及服务。再查看车站监控、中央监控、文件上传情况。
3)系统恢复:故障修复后,关闭各项进程、关闭数据库、关闭虚拟机系统、关闭虚拟机。启用车站服务器。
4.系统硬件要求
介于是在原工作站上模拟车站服务器运行环境,对内存要求较高,因此需根据原有车站服务器类型,需增配内存条。
5.系统软件要求
为了提高工作站的性能,建议使用Windows7 64位及以上版本的正版操作系统。其他性能应如下:
1)通信服务
系统实现LC指终端设备的通信衔接功能,整个通信分为外接系统(内部和外部系统)的消息接入模块和消息处理模块。
消息接入模块接受来自外接的消息报文,然后转由消息处理模块处理消息接入模块主要提供通信服务,包括消息报文的接受和发送,分别由通信服务模块和通信客户模块来完成。通信服务模块接受外接系统的连接请求,建立通信连接,接收消息请求报文,发送给消息处理模块。通信服务模块从消息处理模块接收应答报文,发送到外接系统。通信客户模块向外接系统发送消息请求和接收外接系统的消息应答。
消息处理模块接受来自外部和内部接入模块的各种消息,进行业务处理后,形成应答报文发送给外部和内部系统系统采用 CORBA通信技术实现ZLC到SLE之间的实时数据通信系统中的各节点的文件传输采用FTP通信协议。
SC对单台设备能够指定特别的FTP登录信息,便于参数的下载、应用、测试等。
2)设备监控
服务器故障后,灾备系统能够实现车站级设备监控,对设备的监控主要包括运行模式、设备状态、设备故障及报警等各类监控信息。各类监控信息准确、实时,显示直观、清晰,监控信息分类、分级显示,使监控人员可以快速判断和响应。其中设备状态包括正常、警告、故障、离线和关机状态,各状态以不同颜色的图标显示。系统可集中控制车站内设备的运行,可向某组设备、某类设备、某台设备下达控制指令。这样的指令主要包括设备运行模式转換指令、设备数据查询指令、设备运行指令等。
3)客流监控
系统监视车站的客流情况,以提供制定运营计划的基础数据。所监视的客流应包括所有设备处理的客流。所监视的客流可按时间段进行查询,最小时间段为1分钟。监视范围可按整个车站、某组设备、某类设备、某台设备进行灵活选择。监控内容的显示清晰,图形多样化。显示内容主要包括购买各类车票人数、充值人数、车票更新人数、各类车票进站人数、各类车票出站人数、补票人数等。客流监视数据上传频度和内容可由参数或通过系统进行设定。客流监视还可记录全线日最高峰记录,当某日客流超过该记录时,报警提示,以促进车站的疏导工作。
4)交易数据管理
灾备系统收集各类车票交易数据,并上传到LC。数据包括各种车站设备对各种车票的赋值、发售、充值、扣值、进出站、更新、替换、退款等各种交易类型的数据,交易数据可以不解析入本地库,但需对传输的数据进行记录,并进行备份,便于差异跟踪、分析。
5)时钟管理
灾备系统以LC通信时钟服务器作为主时钟源。系统使用SNTP协议进行时钟同步。
系统从时钟源获得标准时钟后,把自己作为SNTP服务器,向本区域中心管理终端提供标准时钟。每隔1个时间段(由参数设置)同步一次,当时钟出现差异时,在1秒内得到同步,其中大于7200秒的差异不能自动同步,系统进行日志记录备案,小于5秒的差异不需要同步(阈值可由参数设置)。
系统通信中断的情况下可人工修正时钟。对于不能自动同步的终端,可通过强制同步终端时钟,并记录日志。
时钟接口、传输协议等应与ZLC保持一致。
ZLC-SC-SLE各级之间的SNTP报文传输采用基于 Socket的TCP联机报文方式实现,上层为服务端、下层为客户端。
各同步终端,将时钟状态上传给上级监控,醒目列出时钟差异在设定范围以外的设备,并可以发送命令强制进行时钟同步。
6)参数管理
参数主要包括EOD参数、黑灰名单和模式履历。EOD参数又分为ACC级参数和ZLC级参数。ACC级别的参数在ACC生成,向全线网所有区域中心发布。
LC级别的参数,向本ZLC的下级SC发布,SC转发给下级设备。黑灰名单在ACC生成,以文件的形式向全线网所有区域中心发布。模式履历在ACC生成,以文件的形式向全线网所有区域中心发布。
灾备系统能接收LC下达的系统参数,同时将参数下达到相关车站设备。对于系统参数应能实现以下功能:
1、正确接收、确认并保存ZLC所下达的系统参数;
2、将系统参数下载到相关车站设备。若与车站设备通信中断,在恢复通信时能自动更新车站设备的系统参数;
3、灾备系统每日能自动确认所保存的系统参数是否与车站设备一致,如不致将自动更新车站设备参数;
4、灾备系统所保存的系统参数在设置的参数生效时间能进行自动生效;
5、操作员应可查询或打印ZLC下载的系统参数。
7)设备管理
系统实现如下设备管理功能:
1、管理设备数据库,该数据库中包含系统中所有的设备信息,但 SC设备只能查看本站的设备信息,也不具有设备信息编辑功能。
2、提供数据访问接口以供其他软件包访问设备信息。
3、监视设备数据库的改变,当改变发生时,其通知相关设备信息敏感模块。
4、接收来自ZL下发的系统初始设备信息及变更的设备信息。
8)日始处理
系统在每日运营开始时,自动执行运营开始处理程序。
系统具有手动配置日始处理任务的功能,当系统到达设置的日始程序运行时间后,将启动日始程序。日始步骤如下
1、准备日始;
2、检查参数版本,如果有新版本时需要下载;
3、下载黑名单文件;
4、下载模式履历文件;
5、日终处理
系统在每日运营结東后,自动执行运营结束处理程序,处理当天买有数据及文件,并完成运行结束管理工作。
系统具有手动配置日终处理任务的功能,当系统到达设置的日终程序运行时间后,将启动日终程序。运营结程序应至少包括:
1、交易、审计和事件文件流水号连续性检查;
2、如果文件流水号不连续,索取设备文件;
3、备份交易数据;
4、对超过保存日期的数据进行清理。
6.结束语
车站在线容灾备份系统通过最小成本实现了车站服务器故障时线路的稳定运营。
车站计算机故障时,技术人员进行确认后断开车站服务器连接。灾备系统提供配置界面,技术人员对灾备系统进行配置修改后,接入AFC系统即可。
车站计算机故障修复,技术人员将备份系统断开,原车站计算机继续工作,可将灾备系统在故障期间的交易恢复至车站计算及,对原系统不产生影响。
设备故障时,实现车站业务正常無缝无差别继续运行,保证了对车站设备状态的正常监控,数据正常接收解析,收益客流数据正常上报等,实现了SC服务器发生故障对业务和现场零影响的效果,灾备系统对设备交易文件提供补传机制,确保交易文件上传,数据准确率不低于99.99%。
在以后新线建设中,各专业的服务均可借鉴本次改造的方案,实现在线容灾备份,,即提高了服务器系统的可靠性,也复用了服务器资源,为公司节约新线建设成本,降低故障影响。
参考文献:
[1]刘韫晖,宋茂强.基于消息同步的双机热备份系统[J].北京邮电大学学报,1998, 21(2)