信息服务管理系统设计与实现

2016-03-28 03:35钱逢安上海铁路局信息技术所
上海铁道增刊 2016年4期
关键词:知识库运维信息系统

钱逢安 上海铁路局信息技术所

信息服务管理系统设计与实现

钱逢安 上海铁路局信息技术所

基于我局信息运维部门目前面临的现实困难,设计并实现了信息服务管理系统,该系统规范和监督运维工作各环节,降低运维人员劳动强度,提高运维知识共享,保障各信息系统的持续稳定运行。

机房监控;运行维护;故障管理

经过多年的努力,我局信息化应用得到长足发展。信息系统已经成为我局决策支持、客货运营销、调度指挥的重要工具。目前运行的信息系统主要有:客票系统、调度系统、三级建库系统、办公自动化系统、安全平台系统、其他专业信息系统等。作为支撑这些应用运行的底层平台小型机、服务器、网络日趋复杂多样。目前全局核心小型机多达百余套,主要机型是IBM P系列、HP SuperDome系列、Oracle SPARC系列,存储涉及IBM、HP、EMC、HDS等多家产品,网络设备涉及思科、华为、港湾,服务器、微机更是数以千计。随着应用范围的不断延伸,投入运营的软硬件系统更加庞大复杂。

1 信息运维部门面临的实际困难

信息系统项目投入生产之后,信息运维部门承担相关软硬件系统的所有监控维护责任。如何保障这些系统24 h不间断稳定运行是对铁路运维保障部门一个重大挑战。分析我局实际情况,各信息运维部门普遍存在如下困难:

1.1 故障管理过程不规范,故障处理效率不能保证

故障管理是对运行生产过程中发生的故障进行管理,这是信息运行维护部门日常工作的重要内容,其主要工作包括故障报告、故障登记、故障解决、故障事后分析总结等过程。及时、规范处理故障是保证信息系统持续运行的首要条件。标准的故障管理规范要求对故障事件进行科学、量化分类,并设定事件的优先级。依据在铁路内部和外部签订相应的合同与服务级别协议,获得必要的资源和支持,及时解决突发事件和故障,减少因突发事件和故障导致的信息服务中断。

1.2 缺乏运维知识积累,不利提高运维人员的知识能力

建立运维知识库是信息运维管理的一项重要的工作。信息运行维护人员在实际工作中经常会碰到曾经发生的类似故障和事件,这些故障和事件的解决方案无疑是一笔重要的财富。由于缺乏必要的工具,运维部门常常无法记录和共享这些宝贵知识。信息运维部门必须建立企业级别知识库管理机制,通过建立知识库框架、建立与变更管理、事件管理等流程的接口、梳理知识分类、定义持续改进机制等,使得知识管理融入运维日常工作中,持续提升信息运维部门知识质量。

1.3 铁路计算机核心资源的监控

铁路计算机设备状态以及关键资源对生产系统的稳定运行起着重要作用。定期巡视各类设备状态、查看关键资源是铁路运维人员的首要工作。目前,主要依赖铁路运维人员定期查看被检查设备系统日志和资源使用状况,这种监控方式有很大的局限性:故障发现依赖运维人员的个人工作态度和工作能力、运维人员的劳动强度太大、间休期间不可能进行巡视和检查,期间发生的故障也就不可能发现和记录。

2 信息服务管理系统设计

2.1 总体结构

信息服务管理系统以ASG-SENTRY为基础,以事件为驱动,从整体架构上,系统可以分为:监测数据采集与加工、异常事件报警、运维过程规范化管理3大部分。

数据采集与加工功能主要是将所有被监控系统的监控信息采集收集并写到预定义的信息交换数据库中。数据处理模块从交换数据库读取信息,进行分类、加工和整理,再写入目标数据库中。

异常事件报警模块从目标数据库中读取信息,根据事件影响的轻重程度,以不同颜色的文字信息等不同形式报警,提醒运维人员及时处理。运维人员随时通过Web浏览器查看监控信息,技术支持人员通过该平台接收查看故障描述,进行故障分析,故障处理结束后通过该平台反馈故障处理结果。

运维过程规范化管理部分主要是对信息运维过程中各类过程进行规范化管理,确保各类过程可控可追溯,确保运维效率和责任考核。信息服务管理系统总体框架如图1所示。

图1 信息服务管理系统总体框架

2.2 开发环境

2.2.1 系统平台

2.2.2 ASG软件

3 信息服务管理系统核心功能实现

上海铁路局信息服务管理系统已经实现功能包括:事件管理、值班管理、故障管理、知识库、文档管理、系统维护、统计输出等主要功能模块。系统采用web方式,用户通过浏览器完成全部操作功能。

3.1 事件管理

事件管理是通过安装在被监控对象(小型机、服务器、微机等)设备上的信息采集插件或配置监控对象(网络设备),将被监控对象的监控数据主动发送到交换数据库中,信息服务管理系统数据加工模块将原始数据过滤加工并送到目标数据库中,信息服务管理系统Web服务器提取这些数据并对比相关字典,产生报警信息。该功能模块包含如下几项功能:报警事件查看与处理,报警信息历史查询。

3.2 值班管理

我局信息运维部门大多实行倒班制,有三班倒或四班倒。运维人员需要记录值班期间发生的各类事项,确保各类信息系统相关事项可追溯跟踪。该功能模块包含以下几项功能:

值班人员交接班功能,由交班人员向接班人员报告当班期间发生的各类事项,核心内容包括上个班遗留的未结束故障及其处理结果、本班发生的故障及其处理结果、其他需要交接的其他重要事项等;

值班日志功能,记录和查询值班期间一些零碎事项,如重要部门通知、本班期间应急演练情况、新设备安装、旧设备报废等;

巡视记录功能,记录和查询值班人员的机房定期巡视信息,主要是对不能自动监控设备和系统进行人工监控和现场巡视。

3.3 故障管理

故障管理主要是对信息系统运行过程中发生的各类软硬件故障处理过程进行规范化管理,确保发生的故障及时有效处理,保证各类信息系统持续稳定运行。故障处理模块包含以下各项功能,涵盖故障处理过程的每个环节:

故障登记对发生的故障进行登记,确保故障处理技术人员得到相关故障信息。故障登记内容包括故障现象、发生时间、负责故障处理的技术人员及其主管、故障通知的时间等。故障登记最后生成故障处理工单并分发相关技术人员。

故障通知是当故障需要多人员、多部门协作处理时,通知其他的技术人员及其主管,协调多部门共同处理。故障通知功能主要是为了提高故障处理效率,强化故障处理人员的合作和工效的考核。

技术支持是故障处理结束后,故障处理人员对本故障的故障原因以及故障处理过程进行分析总结,并反馈值班人员。值班人员开始结束故障过程。

故障结束是在故障处理完成,值班人员收到所有故障处理人员的故障原因及故障处理总结后,正式关闭故障的过程。

故障统计提供故障分类查询统计功能。值班人员可以根据故障发生的时间、故障报告单位、故障涉及项目、故障等级、故障责任部门等条件来统计故障,为相关决策、考核提供依据。

3.4 知识库管理

知识库的主要内容是各类信息系统软硬件故障的成熟解决方案。知识库来源于以下途径:路内相同或类似信息系统已发生故障的成功处理经验、路外厂家提供的各类故障官方处理方案、个人提供且经检验为正确解决方案。信息服务管理系统实现以下功能:知识库录入、知识库变更、知识库审核、知识库检索、知识库删除等。

3.5 文档管理

文档管理是信息运维管理一个组成部分,也是信息系统配置管理的一个重要组成部分。信息服务管理系统实现了文档常见的功能:文档上传、文档查阅、文档删除等。为了便于查阅故障分析文档,特别增加故障分析报告文档专栏。

3.6 系统维护

系统维护主要是对信息服务管理系统本身进行管理,其主要功能有系统日志管理、用户及授权管理以及系统字典管理等。

3.7 统计输出

统计输出模块主要包含值班日报表和历史报表输出功能。将电算站、路局值班日志及故障信息按照每天或指定时间段综合成报表输出,为相关领导提供参考。

信息运维监控系统实现关键计算机状态的自动监控,减轻了运维人员的工作强度,有效提高运维部门的工作效率;信息运维监控系统对运行生产过程中发生的故障进行管理,对故障提供相应的资源和技术支持,提高了信息系统故障处理效率;信息运维监控系统知识库收录技术人员各类故障处理的解决方案,通过共享管理机制,使知识管理融入运维日常工作中,持续提升运维部门的工作质量。

责任编辑:王华 胡雄伟

来稿日期:2016-09-22

4 系统开发意义

猜你喜欢
知识库运维信息系统
企业信息系统安全防护
运维技术研发决策中ITSS运维成熟度模型应用初探
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
风电运维困局
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
杂乱无章的光伏运维 百亿市场如何成长
高速公路信息系统维护知识库的建立和应用
基于SG-I6000的信息系统运检自动化诊断实践
基于ITIL的运维管理创新实践浅析