铁路信息系统运维管理工作的思考

2013-08-15 00:50上海铁路局信息技术所
上海铁道增刊 2013年2期
关键词:投产备份机房

赵 光 上海铁路局信息技术所

1 前言

近年来,随着铁路信息化建设的深入,我局已经建立起多种信息管理系统,几乎涉及了铁路的各个专业,功能覆盖了客、货、行以及办公自动化日常管理等等,信息系统越来越成为调度指挥的神经中枢和各专业业务开展的支撑平台,在日常的决策管理中也越来越发挥着不可替代的重要作用。

随着各种信息系统应用的数量越来越多和其重要性的与日俱增,对相关信息部门的运维保障工作也提出了更高的要求,维护好、运行好、管理好这些信息平台,是信息技术工作的重要任务。从系统安全、稳定运行的目标出发,做好系统运行管理工作需要引起高度重视。那么如何在目前的条件下,更好地做好相关信息系统项目的运维工作,为信息系统的稳定运营提供相应的保障,是摆在相关人员面前的一个值得思考的问题。

2 问题分析与建议

多年的信息系统运维工作的实践,笔者深深体会到,要做好相应的信息系统运维工作,必须把握好以下几点:

一是做好系统投产前的试运行,严把系统投产前的质量关。目前在路局实施的信息系统项目有很多是铁道部下发的或路外的软件公司开发的。诚然,有些系统的健壮性很强,例如铁科院开发的客运售票系统,但也有相当一部分信息系统在实现其相应的业务功能的同时也存在明显的不足,如:对网络资源占用太高;网络要求实时性太强;系统历史数据没有做任何处理,致使数据越积越多,系统越来越慢;信息系统自身提供的数据备份手段很少或没有,致使发生问题时数据很难恢复,迫使运维人员琢磨别的数据备份手段。同时,一些信息系统自身可维护性不强,这都给运维工作的顺利增加了困难。笔者以为,要保障运维工作顺利开展,必须严把信息系统项目投产前的质量关,做好项目投产前的试运行,在项目真正投产前充分暴露系统的缺点和弱点,做好相应的对策。对于暴露出的软件健壮性问题,责成相应的厂商或有关部门拿出解决方案。由于此时信息系统项目还没有真正投产,对于用户反映的问题,软件提供方大都能认真对待,努力改正,避免了中断运行,干扰正常的生产过程。因此做好信息系统项目投产前的试运行,把好投产前的质量关,对于以后的运维工作的顺利开展至关重要。

二是查找问题时要充分发挥相关部门的配合与组织协调。目前信息系统项目大部分都采用数据库加前台显现(B/S或C/S)结构的方式。很多信息系统项目都涉及到服务器、小型机、数据库、网络及中间件、应用业务等诸多方面。一旦系统出现问题,如何协调好相关部门和相关技术人员共同查找问题,对信息系统运维管理工作提出要求,比如用户反应某信息系统运行较慢,可能的会有网络、操作系统、数据库和系统本身等方面原因,要快速排除故障,需要协调好相关技术人员齐心协力解决问题。大型的信息系统项目,可能涉及到多业务部门的情况,比如车号识别ATIS 系统涉及到:车辆、车务、通信、调度、信息等业务部门,快速排除故障,解决相关问题,需要运维管理人员提高自身的组织协调能力,做好部门内部的纵向协调和不同业务处室之间的横向协调。

三是加强运维专业技术人才队伍建设,充分发挥一线运维人员的作用,提高业务技能,调动积极性。信息系统的运维离不开一线人员的工作,特别是站段相关人员,他们直接面对生产,是相关信息系统的直接监控者和问题的第一处理者。铁路部门一直以来站段信息维护人员普遍收入相对较低,对信息工作的重视程度也相对不高,站段一线运维人员的综合业务水平相对偏低。平时信息系统在运行稳定时,运维工作相对轻松,同时工作环境相对舒适,给人的印象是运维工作不太重要,受重视程度不高。因此,调动一线运维人员的积极性对于适时的排查隐患、即时的故障处理与反馈很有必要。相关的业务领导部门可以每年定期举办相应的培训或相关的研讨班,大家交流自己的工作心得,共同提高。对于共性问题,比如服务器、小型机、操作系统、数据库、网络和中间件以及安全管理等,举办专题的培训班。相关信息系统的管理者要完善技术沟通的渠道,要让运维人员有一个交流的平台,同时建立问题处理知识库,提高运维效率。

四是重视机房环境建设,做好机房基础设施。多年的信息系统项目运行的实践表明,大型的信息系统项目故障大部分都与机房环境密切相关。这里的机房环境,包括机房电源及UPS、地线、制冷、防雷设施等。良好的机房环境是服务器、小型机和路由器、交换机平稳运行的基本条件。一旦这个基本条件出现问题,必定影响相关信息系统项目的平稳运营,即便是再高深的软件专家也无能为力。在这方面常见的问题主要有:机房零地电压偏高,达不到机器需求;有的信息系统机房只有一路电源,无两路电源;UPS 常时间没做过充放电;无空调等制冷设施;雷击高发区的机房相应的防雷设施不到位等。因此,对于比较重要的信息系统机房,要加强机房环境设施的建设,平时对口部门要做好相应的检查。只有基础工作做得好了,才能谈得上相关信息系统项目的平稳运行。

五是做好备份应急和风险防范工作,确保备份系统能真正发挥作用。要保持好信息系统项目的平稳运行,平时须对系统项目做好备份,并且要尽可能做到备用的东西处于可用的状态。比如双机cluster,要保证在用的主机一旦出现故障时,备用机器能正常接管,保持信息系统的不间断运行。在保持好机房环境的情况下,信息系统项目发生的其它硬件故障大多数不可预测。在这种情况下,要保持信息系统项目的不间断运行,必须要使备份能尽快顶替上去,因此平时对备份系统的检查就很重要。如果是冷备,还必须要保证备份机器上的应用软件版本与主用的一致。对于相对重要的信息系统项目,在系统运行相当一段时间以后和重要的时间节点前,可组织相应的切换演练。适时重启服务器,可解除软件可能产生的系统死锁,释放相应的系统资源,同时也检查了备用机器的接管状态。对于比较重要的、不能间断运行的信息系统项目,例如客运售票系统等,要做好相应的灾备建设。

六是完善监控手段,建立科学的快速反应体系。信息系统运营项目的监控不能完全依赖人力。大多数运维人员都遇到过夜间或周末必须赶到机房处理故障的尴尬情况或是重要的节假日,不能离开市区等要求。为把故障出现时的“救火”变成平时的“防火”,相关的信息系统项目可以参考引入自动检测,例如网络设施可以通过SNMP 协议检测到网络的状态,以此判断网络通断。操作系统和数据库亦可以相关的日志检查有没有报错。如果有异常,及时给相关人员发出提示。可考虑引入短信或电话自动转发机制。一旦出现异常,自动把相关的短信内容等转发到相关负责人的手机上,增强运维系统的响应机制,需要注意的是,利用软件检测信息系统的运行,是要牺牲相关系统的部分运行效率为代价的。同时运维管理人员要合理安排相关技术负责人的响应。对于应急故障的处理,管理人员要协调好故障的配合检查,在追究故障原因的同时合理安排相关技术负责人的业务能力培训,故障的处理以尽快恢复生产为第一要务。重要的信息系统机房可以考虑引入互联网接入铁路网的联入方式,加快故障的响应处理时间。借助于建立的知识库和完善的检测手段,建立科学的快速综合反应体系。

3 结束语

信息系统项目运维的目标是保持系统的平稳正常运营。围绕这个目标,要建立长效机制,杜绝面子工程,不断总结出现的问题,合理利用资源,建立员工业务素质提高体系和快速的故障反应机制,力争把信息系统项目的运营保障工作做得更好。

猜你喜欢
投产备份机房
“备份”25年:邓清明圆梦
350MW抽水蓄能机组投产发电
世界最大抽水蓄能电站正式投产发电
白鹤滩15号机组投产发电
创建vSphere 备份任务
旧瓶装新酒天宫二号从备份变实验室
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造
谈有线电视前端机房的防雷接地