王月梅,胡 蔷
(呼和浩特铁路局 信息技术所,呼和浩特 010057)
随着信息技术的普及与快速发展,网络与信息系统已成为铁路局运输组织、安全生产、经营管理不可或缺的重要组成部分。呼和浩特铁路局信息技术所承担着全局核心网络与信息系统的运行维护任务:内蒙古资源网、物流服务平台、客票预订与发售、电话订票及客服、三级建库、MQ、客票安全、网络安全、TDM S、mTUP、十八点、现车、ITSM、安全看板、办公、电子邮件、电子公文等近200个应用信息系统,200余套网络、空调、消防、供电动力系统设备和近400台计算机设备的7×24 h在线运行维护。面对数目如此庞大,还在与日俱增的设备与系统规模,各类信息系统故障维护处理逐渐成为运维管理部门面临的一项繁重而紧急的工作任务。
铁路信息系统故障处理联动平台的设计是以网络与信息系统软硬件设备基础资料的动态登记与实时维护为基础,建立了各类应用系统及关联附属设施的运维管理资源库,多方面多角度地为值班调度人员和运维管理人员提供了丰富而准确的计算机资源信息,以实现在最短时间内统筹调配所有运维资源,最大化地发挥设备厂商、保修单位以及相关部门间的故障联动处理作用。
该平台的最大优点是实现并发式的故障排查与处理,通过系统细分、岗位细分、责任细分提高故障处理效率和运维管理质量的留痕式登记销号制度,有效规避了故障处理不够及时、相互推诿、有始无终、惯性问题复杂化处理的诸多弊端,实现了信息系统故障处理与应用运维的网络流程化闭环管理,做到信息畅通、响应迅速、有效管控,大大提高了信息系统故障的应急处置效率。
该平台与现有信息服务管理系统(ITSM)及“网络与信息系统安全风险集中管控平台”形成联动,把平台中历史性遗留问题或需要长期处理才能得以解决的特殊问题纳入“网络与信息系统安全风险集中管控平台”中作为安全风险源进行重点排查与整改,使安全管理工作得以强化。
该平台提供文字、图表、报表、查阅等功能,使每一起故障都能够做到处置留痕、严格卡控、上板消号、动态考核、对比分析和实时统计的闭环式管理。其中,对惯性问题及典型故障的发生原因与处理方法经专家讨论认定后全部存入到经验库,为运维管理人员提供开放式检索,达到借鉴使用的目的。同时,构建了网络与信息系统知识库,对复杂问题附属了针对性的处理方法与应急预案,实现了各运维人员之间根据方法或方案均能够处理问题的作用。经验库与知识库的设计为新职工提供了一个自学平台,实现了快速进入工作角色、快速适应工作岗位的人才培育目标,也为老职工提供了一个总结经验与互动交流的舞台,起到了真正“传、帮、带”的作用。
(1)科学性:系统适应网络与信息系统故障联动处理的应用需求。(2)实用性:系统界面美观友好,功能实用,操作简便,易于使用和维护。(3)可靠性:系统7×24 h不间断运行,在发生故障时能保证数据的完整性。(4)推广性:系统为全局性网络与信息系统故障联动处理预留了相应接口,包括站、段、车间、班组都能利用该平台实现网络与信息系统故障联动处理,应用前景广泛。
该平台主要功能模块如图1所示。
按照“逐级负责、专业负责、分工负责、岗位负责”分层次、分系统建立信息系统故障的登记与闭环处理,具体流程如图2所示。
图1 主要功能模块图
图2 功能实现流程图
(1)系统采用W indows Server 2010 R2+IIS7.5架构的W eb应用服务器平台;代码开发采用基于.NET Fram ew o rk的W eb动态设计技术ASP.NET。(2) 模 块 设 计 采 用 了 RUP(Rational Unified Process)方法,并适当地采用了XP(极限编程)的部分方法作为辅助。(3)本系统采用B/S架构,主要分为W eb应用、W eb服务和数据库3层,如图3所示。
图3 系统结构
(1)日常接报故障登记
运行调度值班人员电话接报故障报警信息后,利用该模块把发生的故障情况进行详细登记,内容主要包括故障的报告单位、报告人、发生地点、发生时间、现象、影响范围、类别、联系电话等。每条记录均由当班运行调度值班人员填写,系统自动记录登记人姓名和班种。运行调度值班人员登记完成记录后进行派单,把该条记录流转至相关运维工程师进行处理,并电话或短信通知。故障处理界面图如图4所示。
图4 故障处理界面图
(2)ITSM故障报警转入
ITSM的作用是实时发现隐患与故障后报警提示,实现机房环境、计算机网络、数据库、中间件、业务应用及系统平台等的实时监控与报警,系统采用B/S方式面向机房值班及信息生产管理人员。运行调度值班人员只需要进行几个简单的操作就能够把需要处理的报警信息自动转入到信息系统故障处理联动平台中进行统一处理。
(3)故障流转处理
该平台把运行调度值班人员的姓名与电脑IP地址进行捆绑,故障记录只能在机房值班专用电脑上录入,故障记录一经流转,维护工程师终端电脑开始出现警告提示,同时接到电话或短信通知,这种三位一体的通知方式大大提高了故障处理的响应速度。维护工程师根据故障记录内容,有方向有目的地开展故障排查与处理。接收过程有回执记录,以便运行调度值班人员确认。
(4)申请销号
维护工程师在处理完故障后,及时填写处理过程及处理方法,内容详实、明了。填写完成后点击申请销号,系统通过声音提示自动通知运行调度值班人员。
(5)闭环管理
运行调度值班人员看到申请销号的通知后,核实处理结果及填写内容,给予销号或提醒处理人员重新填写处理内容。
(6)记录优化
得到闭环处理的故障记录由运行调度值班人员进行优化后流转至专管领导进行审核,如果合格则直接转入销号库或知识库;如果不合格则重新分配人员进行优化后最终转入销号库或知识库。
(7)上板考核
根据维护工程师处理故障流程、处理结果和造成的影响,为干部考核管理系统提供参考依据。
(8)统计分析
根据系统名称、故障类型、解决部门和解决人员对登记的故障进行统计。通过统计数据,安委会对发生的信息系统故障进行现场分析和集中研讨,有针对性地加强安全管理工作。
(1)经验录入
经验录入模块根据日常维护的类型主要分为3种:完善性维护、适应性维护和改正性维护。
(2)记录审核
在日常工作中,每位职工都承担着不同应用信息系统的维护工作,在每日下班之前将本日所维护和处理过的问题按照发生时间、报告人、处理完成时间进行统一录入,为月度或年度个人工作量化考核提供依据,也为系统优化提供重要数据来源。记录审核由各科主管科长完成,对合格的记录直接转入经验库或知识库,对不合格的记录科长优化后最终转入经验库或知识库。
(1)投产信息系统基本信息登记
对于上联集中型信息中心机房,内部设备数量庞大、型号复杂、上线信息系统各异,如何在故障报出的第一时间正确定位设备位置,首先需要为每一台信息系统设备建立基本档案,包括设备型号、基本配置(基本硬件配置、存储、主备机、网络设备及网口、IP地址)、位置、编号、购置时间、投产使用日期、保修期限、保修公司、联系电话、硬件安装与日后维护人姓名、系统安装与日后维护人姓名、应用部署与日后维护人姓名、数据库(版本、介质存放)、操作系统(版本、介质存放)、设备管理责任人、应急处理预案(主备机关系、应急流程、相关人员)、故障分类记录(硬件故障、系统故障、应用故障)、历史故障查询(按故障分类检索、按日期检索、按原因检索、按结果检索)、季度汇总报表(按故障分类记录)、年终汇总报表(按故障分类记录)。
(2)信息系统基本信息维护
升级记录(版本、日期、作用);维护记录(维护工程师姓名、维护原因、日期、处理结果、警示、备注);修改记录(修改人员姓名、修改原因、修改日期、修改结果)。
(3)信息系统维护要求
系统重要参数的监控数据维护,根据数据重要性排序,以数据表示其重要性。
各使用部门根据权限进行不同类别的树状信息维护。
知识库与经验库的设计理念相同,均起到技术交流的作用,为新职工搭建起快速学习的桥梁,也为各业务系统之间搭建起快速协作的通道,目的是确保铁路运输工作的安全稳定。
信息系统故障处理联动平台涉及到铁路信息系统的方方面面,以基础设施台账为基础,每条故障从登记到销号,实现统一流水作业,问题环节明了,处理时间紧凑,良好地杜绝了互相推诿和拖拉处理情况的发生,提升了信息系统维护处理效率。平台坚持系统控制、整体协调的原则,强化信息系统各个环节以及与此相关的“结合部”安全风险控制和防范,确保了铁路运输生产安全稳定。
[1] 陈立云,金国华.跟我们做流程管理[M]. 北京:北京大学出版社,2010.
[2] 丁 浩,高学贤.信息系统分析与设计[M]. 北京:清华大学出版社,2009.
[3] 林小村,马玉林,翁小云.数据中心建设与运行管理 [M].北京:科学出版社,2010.
[4]陈宏峰,刘亿舟.中国IT服务管理指南:理论篇[M] .北京:北京大学出版社,2012.
[5]贝 克,安德瑞斯.解析极限编程—拥抱变化[M].雷剑文,李应樵,陈振冲,译. 2版.北京:机械工业出版社,2011.