李 琪,于 澎,刘相坤,徐东平
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
铁路客票系统中故障处理流程的设计
李 琪,于 澎,刘相坤,徐东平
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
在铁路客票系统日常监控和维护工作的基础上,总结系统运行管理的优化工作,设计了故障处理流程模板,运用模板生成铁路客票系统监控维护流程图。
系统监控;维护管理;流程模板;流程图;客票系统
互联网售票上线以来,铁路客票的售票模式和系统维护发生了很大变化。在此之前,监控和维护主要集中在各个铁路局的席位服务器上,业务相对单一,故障处理流程不太复杂。现在,由于互联网购票用户的大量出现,互联网售票的业务需求及系统能力不断扩大,设备的种类和数量也在大量增加,以及各种新技术的使用,使得监控和维护的压力在逐渐增加,故障处理流程也趋于复杂化。因此,简明、有效的监控和管理对铁路客票系统的稳定运行非常重要,故障处理流程模板将使处理流程的产生变得容易。
流程模板应具备一定的通用性。整体上体现主要流程,使监控人员、维护人员以及管理人员能够在较短的时间内理解和掌握处理流程的使用方法,及时找到处理突发情况的顺序。如果流程本身太多且不容易在一张图上体现,也可在主图上画出主要流程,体现整体,将子流程作为附图。流程设计中应避免出现歧义,对于存在判断的地方必须明确每一个分支的处理过程。
流程图中体现必需的版本信息、常用电话信息、故障等级、故障处理人员等级、流程的说明信息等。其中,故障等级体现日常事务、一般故障和紧急故障3类;故障处理人员等级体现监控人员、二线维护人员和三线维护人员3类。
2.1 故障要素
日常事务包括交接班事务、定时监控事务、定时巡查事务、记录状态事务、及时报告事务、阶段报告事务等,一般由监控服务台人员完成。日常事务是发现问题的重要渠道,需要在管理方法、人员态度、技术手段上加强。
管理应重视制度的建立,形成各类记录和报告,及时填写记录与报告;加强对监控人员的培训;技术手段上应采用软件自动化与人工处理相结合,有效减轻人员的负担。
一般故障指监控页面出现黄色告警,但是未达到紧急故障级别的故障,此类故障级别较低,影响面较小,需及时将问题交由二线维护人员处理。
紧急故障指监控页面出现红色告警且监控值达到指定阀值的严重问题。此类故障级别高,可能引起业务中断和较大影响,需要及时按照流程汇报,复杂严重问题需要组织相关专家会诊解决。
2.2 故障处理人员要素
监控人员是发现问题的第一步,必须加强对监控团队的人员培训,所有成员需要非常熟悉每一种监控页面的监控信息、出现告警信息的报告流程、对不同级别报告条件的判断、故障性质的判断、紧急故障的判断、不同问题对应的不同等级维护人员等。同时,监控人员还需要做一些日常事务,比如问题记录、巡检记录、周报告、月报告等。
二线维护人员根据监控人员提供的监控信息进行分析,及时处理问题并录入问题库。如果不能及时处理问题,需要判断问题是否影响生产,如果影响生产,需要升级为紧急故障报告给主管主任;如果不影响生产,则将问题升级报给相应组的三线维护人员处理。根据铁路客票系统维护的实际情况,这里的二线人员包含了维护组的夜班值班人员和夜班备叫人员。二线人员应具备对相关领域的问题初步分析并处理的能力,对影响范围和级别能作出判断。为了使大部分问题能够在二线人员层次处理,需要经常开展必要的交流和培训,对常见问题应及时形成共性的统一处理方法导入问题库中,为下次及时解决类似问题提供参考。
三线维护人员根据二线维护人员提供的初步分析结果,及时处理问题并录入问题库。如果不能及时处理问题,需要升级为紧急故障报告给主管主任,必要时需要请相关专家会诊解决。三线维护人员一般由资深的技术人员组成,具备对复杂问题的综合分析、判断、处理能力。团队应根据维护考核情况及时调整三线人员,以保证维护队伍技术能力的发展和提升。
对每次复杂问题的处理过程、分析结果、处理办法应单独形成报告,并录入问题库。
采用分区和二维相结合的设计方法。通过分区设计将每个区域充分体现本区域的内容,且具有扩展能力;通过二维设计将故障和处理人员对应关系充分体现;通过二维坐标方法直观体现故障级别的严重程度和处理人员的先后顺序。
模板如图1所示,该流程模板的区域3为横坐标,体现故障等级,从左至右严重程度逐渐升高。区域4为纵坐标,体现故障处理人员级别,从上到下能力逐渐升高。区域5至区域13为故障等级与故障处理人员的结合区,体现主体故障的处理过程。区域1为版本信息,区域2为常用电话信息,区域14为注释说明信息,区域15为紧急故障条件说明。
图1 模板示意图
5.1 流程图
铁路客票系统监控与维护流程如图2所示。
5.2 流程管理说明
5.2.1 流程的逻辑关系
逻辑关系是流程图中最重要的部分,直接决定故障处理的流畅性和效率,也决定了执行的可行性。
监控服务台的监控人员、二线维护人员、紧急故障情况下的主管负责人之间的逻辑关系:监控服务台的监控人员对故障问题进行判断,是否达到报告处理的条件、故障是否升级、提交到哪一级人员。如果判断为一般故障,根据不同的时间段白班和夜班的情况处理。白班时根据故障类型分别报告给对应业务组的二线人员处理,夜班时报告给夜班专职值班维护人员,由值班人员首先处理,如果出现困难无法处理,需要联系专门配置的夜班备叫人员协
图2 流程示意图
助处理。如果判断是紧急故障,要直接汇报给主管主任和系统组组长,由负责人直接组织人员处理。
二线维护人员、三线维护人员、紧急故障情况下的主管负责人之间的逻辑关系:二线维护人员通过判断能否及时处理和是否影响生产汇报到三线维护人员和紧急故障情况下的主管负责人。三线维护人员如果不能及时处理也需汇报到紧急故障情况下的主管负责人。由负责人请相关专家会诊解决疑难问题。
5.2.2 故障监控页面和故障升级
故障监控页面的形式多样化,但是应尽可能实现报警统一化,减少因监控繁杂带来准确性的下降。客票系统目前的监控页面如:全路复制队列界面,系统异常界面,互联网全景界面,客票监控系统界面等。
在达到紧急故障条件、影响生产、三线维护人员无法处理时,将会升级故障等级。
5.2.3 紧急故障说明
紧急故障说明信息必须是容易理解且明确的,应在流程图中突出重要性,字体和流转线宜使用红色醒目显示。紧急故障的情况说明也应突出显示在紧急故障区的上方,便于各级人员在紧张的情况下查找。客票系统目前的紧急故障如:数据库进程故障、文件系统空间≥95%、数据空间≥95%、data库日志≥50%、其它数据库日志≥30%、铁路总公司的复制队列≥10%、其它复制队列≥70%、余票和订单待处理≥500、网络同一点故障≥2 min等。
故障处理流程是为铁路客票系统运行服务的,随着业务需求、新技术使用、系统能力而变化。流程中各个区域功能之间的关系是流程的纽带,需要根据实际需要进行调整,使其更适用于系统的维护,发挥其作用。
[1]杨孝如,徐 任,李 立,等.Sybase数据库系统管理指南[M].北京:中国水利水电出版社,1997.
[2]客票总体组.客票系统5.0技术手册[S].北京:中国铁道出版社,2006.
[3]Jeffrey L.Whitten,Lonnie D.Bentley,Kevin C.Dittman.系统分析与设计方法[M].肖 刚,孙 慧,译.北京:机械工业出版社,2003.
[4]Jack R.Meredith,Samuel J.Mantel.项目管理—管理新视角[M].郑 晟,杨 磊,李兆玉,译.北京:电子工业出版社,2002.
责任编辑 陈 蓉
Fault treatment procedure in Ticketing and Reservation System
LI Qi ,YU Peng,LIU Xiangkun,XU Dongping
( Institute of Computing Technologies,China Academy of Railway Sciences,Beijing 100081,China)
This article summarized the optimization work for system operation management,made useful exploration based on the work of daily monitoring and maintenance in Ticketing and Reservation System,designed the template of fault treatment procedure.The template was used to generate the fow chart of monitoring and maintenance.
system monitoring;maintenance and management;process template;Ticketing and Reservation System
U293.22∶TP39
A
1005-8451(2016)07-0027-04
2015-12-03
李 琪,副研究员;于 澎,助理研究员。