岑忠先
摘 要:集约化和高效化管理已经成为当下信息网络管理的趋势,在这一过程中网络故障管理具有一定难度,并且是管理重点。集中监控是信息通信故障管理的主要方式,它通过告警、工单处理、渠道优化等方式完成。大数据、云计算和虚拟化技术都是这一时期的主要技术之一。基于此,将集中监控下的信息通信网络故障管理相关问题进行了分析。
关键词:集中监控管理;信息通信网络;告警管理;工单管理
中图分类号:TB
文献标识码:A
doi:10.19311/j.cnki.1672-3198.2017.16.105
集中故障管理是指将区域化管理逐渐转化为互联的全局管理。其主要内容包括告警管理、工单管理和故障管理。其中告警管理是故障管理的信源,而工单管理则是故障管理的信宿,故障管理则将管理流程的两端融合。具体技术探讨如下。
1 告警管理
集中监控模式下的告警管理主要过程包括告警获取和标准化管理过程。
1.1 网络设备告警获取
设备的告警获取是通过全量接入的方式来实现集中管理,分为主动高警和被动告警两种。主动告警将设备的运行状况上传至管理系統,而被动告警则是由网络管理系统发送消息至设备,通过信息反馈结果判断其运行稳定性。主动上报类告警通常是提前设计类,是由于生产厂家设定的告警级别和告警范围,将网络信息上传于综合网管,可以提供告警时间、发生频率以及告警特征。被动探测类告警的原理是告警标准化,也就是对设备的规划和处理过程。网络设备的告警系统具体复杂性,并且告警系统肩负着整个网络的安全,因此在信息传输上和网络告警字段上均采用解析协议的方式,并且要合理设置字段的长度,选择自动网络信息匹配原则,防止垃圾信息累积。设置通信设备告警时间并派发工单,为整个网络故障的处理提供基础。
1.2 告警标准化管理
不同生产厂家对于告警信息的设置不同,因此对于企业应用而言,需定义标准化的告警管理。告警标准化字段是由告警逻辑分类、告警逻辑子类、告警产生的影响以及业务量组成,设备在运行和更新过程中均会产生告警,但是如果网络系统已经部署,则告警很难发生。标准化的管理系统从系统的运行需求出发,致力于满足智能化、高效化需求。自动匹配告警信息关键字段,通过是否匹配成功来判断故障工单的形成。检查告警工单,是否存在工单缺失现象,并要求厂家给予补充,如未达到要求,则需填写评审意见并退还给网络设备厂商。
2 工单管理
告警类型会由于专业、生产厂家的不同而存在差异,全量告警则会导致工作量巨大,并且无法找到故障位置。因此工单管理是企业的重要项目之一,单条告警管理通常可以分为正向梳理和反向梳理。也就是区分正常运行软件与存在问题的软件,列出“白名单”或“黑名单”,将不需要的告警单排除,两组梳理方法应用的环境不同,应根据监控现场的特点具体来定。具体为:以告警关联逻辑、地理维护区域和设备链接拓扑为基础,形成工单合并逻辑。通过告警时间图确定告警周期和故障告警历史分布。若合并后告警满足派单时延要求则形成故障工单,当故障工单已告警但未消的同时,出现新的告警,则应将该工单追加为新的故障工单,并且可以建立告警数据库,对数据进行优化与评价,分别对相关的派单规则进行分析评估,形成新的信息评估方法。
信息评估方法从故障工单的处理量和网络系统承载的负荷两个角度进行分析,对优化后的告警进行评估,提供告警关联数据,使工单追加更加方便,也使问题的发现和解决更加方便。在这一背景下,工单追加实现了可视化,并且分析能力增强,告警工单模拟分析后,维护需求也将随着派单规则及时准确的维护网络运维管理能力。故障工单处理包括预处理和工单直派两个过程。故障工单预处理主要应用于无线传输设备,是在预处理后形成自动执行系统并下达相关命令,但是对于跨专业来说,主要以人工输入的方式呈现,可以实现故障的具体定位。以无线专业为例,对告警网元的物理名称及相关的物理位置信息进行提取。信息传输告警单元依次经过传输链路、动环机房,最后输出全部的告警信息,并实施信息分析和处理,判断故障点所在位置。集中监控技术的优势在于可进行中英文描述转化,可以将告警信息中的大量因为信息转化为汉语告警形式,使其更加清晰,辅助汉字的出现满足了使用者的需求,使其更加清晰的解读故障,分析故障原因,以免造成歧义或者内容重复。最终使工单内容文字量最小化,但故障判断效率最大化,缩短故障诊断和处理时间。故障的准确定位与信息通信系统而言是十分重要的,随着我国移动通信用户的增多,这一问题的解决更是迫在眉睫。通过对各专业告警数据信息的关联及智能分析,实现了故障准确定位同时对定位准确性进行了事前验证评估,可以实现对故障的精准派单,支撑维护排障,缩短故障时长。
3 故障管理
首先,建立集中监控系统后,信息通信网络故障应建立渠道优化路径,并建立停工应急预案,以便于尽早的解决故障问题。所谓集中故障管理是指将所有信息同时处理,但是这明显的增加了故障管理和处理成本,因此,有必要建立完善的信息渠道,包括网络设备性能和板卡端口,实施状态查询的工作。一线维修人员的素质对于故障管理而言是重要的,随着科技的发展,可以搭建良好的沟通方式,对网络运行状态要把握清晰,通过关键性指标原则,建立自主查询系统。并提供指标实时报道,发布不同等级的预警信息,保证网络运行安全。提供最新的网络运行资讯,建立具有层次性的网络维护体系,提供网络维护相关方案,对出现故障或者失效的网站给予正确的解决措施,建立二级和三级监控系统,实现对应急故障的处理。
其次:管理流程穿越与质量管控。将告警数据信息流和工单主要字段流进行公布并且要对故障的类型进行区分,保证故障信息发布的钻取分析,采取集中监控制度可以对其进行事前分析,以便于做好故障预警工作。对各个环境进行优化匹配,比如工单质量的控制,再比如故障的处理效率评估,以及故障的诱因分析等。告警级别具有层次性,告警工作量是巨大的,在变化波动的前提下,基于告警等级将故障进行分类,并及时检测隐性故障,分析故障分布情况。对故障分析原因提供数据支持,进一步确定故障原因。而“渠道优化与应急预案”则使故障管理更加稳固和高效,提高移动通信网络的整体监控能力和网络质量。
4 总结
集中监控下的信息通信网络故障管理是移动通信行业的重要任务之一,但这一过程度技术和设备都具有较高要求,并且这一过程应贯穿始终。通过网络监控,进而提高系统的运行稳定性。一旦出现故障,将会影响系统的整体运行,因此其管理应设计大网络管理、监控等各个环节,我国的移动通信网络故障时有发生,通常会影响网络运行状态,导致网络信号不佳甚至断网。故障的监控效率还需要进一步提高,除了设备更新外,还需要进一步的保证管理人员的素质提高。本章虽然将重点放在故障管理技术的实施上,但是依然不能忽视管理人员的作用,要对管理和维修人员进行培训,使其掌握第一时间的故障处理意识,在集中监控下,信息通信网络会第一时间预警,在不同的预警方式下,工作人员均须及时关注,查找故障位置,并进行故障维修。总之,集中监控下的信息通信网络故障管理是一项长期的、艰巨的任务,需要进一步的完善与提高。
参考文献
[1]叶长根.基于业务平台综合网管的全业务流程监控设计思路和解决方案[J].电信技术,2014,(3).
[2]吕雪峰,陈刚.电信企业网运体制改革探索[J].通信企业管理,2014,(2).
[3]施雪华,陈勇.大部制部门内部协调的意义、困境与途径[J].深圳大学学报,2012,(3).
[4]雷璟.安全桌面虚拟化信息系统设计与实现[J].电讯技术,2014,(5).
[5]陈为,沈则潜,陶煜波等.数据可视化[J].电讯技术,2013,(7).