基于事件关联和数据挖掘的网络故障分析平台设计研究

2021-03-30 17:37:55吕永庆
广东通信技术 2021年12期
关键词:网络故障关联检修

[吕永庆]

1 现状和难点分析

随着智能通信网络规模不断发展,企业通信网不断扩大,网络异构性和复杂性不断增加,网络中所承载的业务越来越多。故障管理是网络管理的重要工作,主要用于告警分析和故障诊断。当通信网络中的设备或线路出现故障的时候,快速定位故障和进行故障修复是保证网络安全、可靠运行的关键。面对如此繁复的网络运行环境,当告警故障发生后很难快速确定通信网络中故障发生的准确位置。因为在一个复杂、多层异构的通信网络中,各个网元设备之间相互连接相互影响,如某个通信光缆发生故障,与之相关的网络设备也会产生告警。由于网络本身的复杂以及在逻辑和物理上的关联性,可能会由单一的故障引起大量的告警信息,从而形成“告警风暴”。在排除故障的过程中,网络运维人员在接收到这些告警信息的时候,很难从众多专业、众多设备的告警信息中找到故障的根源,这些大量的重复告警信息既增加了网络的流量开销,也掩盖了真实故障点,尽管各个厂家的网络管理系统可以实现对该品牌子网的告警管理,但是由于组网成分差异以及网络规模扩大,难以依靠单一品牌网管系统实现告警事件的综合管理。同时在排除故障的过程中,通信运维人员在接收到这些告警信息的时候,难从分辨其系由网络计划检修还是由真实故障产生。这就给网络管理人员排查故障带来巨大困难,这使得通信网络管理变成一项非常困难和复杂的工作。

2 研究目标

为网络维护管理部门设计建立一套基于事件关联和数据挖掘的网络故障分析系统,系统的应用能安全、可靠的充分通过事件关联和故障历史数据的深度挖掘,对通信网络进行详尽的故障分析和预警分析,达到网络告警管理精确化,提高通信运维效率,降低人员工作复杂度的目的。

(1)实现通信网络故障引发告警事件的快速关联分析。完成对通信网网络告警关联分析模型构建,将多个告警事件归结成较少的告警事件,过滤无用、无意义、不相关的告警,丰富告警包含信息,加快故障原因推理速度,快速求解产生告警的根源或者可能根源的集合,提高故障定位和故障判别、预测的准确性,缩短故障存在时间、提高网络服务质量、增强用户满意度。

(2)实现历史告警事件信息背后潜在规律的获取。通过采用数据挖掘技术对历史告警事件进行挖掘,发现隐含在大量的告警事件背后潜在的规则,并把挖掘出来的关联规则和序列规则添加到基于规则推理的网络故障管理系统的规则库中,增加系统性故障、告警处理规则获取的途径,增强系统故障处理的能力,提高系统的智能性,提高通信运行人员驾驭的能力,提升通信专业面向通信网络的服务保障能力。

(3)实现通信设备故障预测与健康预报管理的智能化。通过分析设备本身的当前健康状态、历史状态等信息,建立告警预报模型。进一步地,根据诊断规则以及预测结果等状态信息,提供检修资源调度建议,为下一步的维护检修活动提供辅助决策。

3 研究内容分析

通信告警管理过程中,针对事件关联和数据挖掘存在可以进一步分析深入的地方。

(1)网络故障发生时,大量的报警信息在短时间内涌入,运行人员难以从大量未过滤、未归并的信息获得有用的故障信息,易使通信运行人员误判、漏判,为了适应各种简单和复杂事故情况下故障的快速、准确识别,需要基于事件关联和数据挖掘的网络故障分析及预警系统进行决策参考。另外,由于告警信息未处理、无差别发送,造成短信资费的浪费。

(2)当前的告警采集技术,无法分辨告警的真实来源,例如告警是由计划检修产生还是由真实故障产生。真实的故障极有可能淹没在无用的信息之中,容易造成遗漏的情况。

(3)各个通信系统中存在庞大的存量告警事件信息,这些信息被孤立地存放或简单记录在综合监视系统之中,缺少有效手段对其进行分析,难以从存量信息中挖掘出易调用、可运用、能够支持运行决策的价值信息。

(4)单一网络系统的监控比较完备,而在整个网络层面缺少统一整体的关联性的监控手段。尤其在跨越不同的网管系统平台查看告警、事件时,可视性差,难以一览告警事件发生后的各个通信子网告警时序和关联情况。另外,在网络分析中,仍然依靠人工的方式进行传统的告警相关性分析,进而判断故障源。故障推论效率较低,且质量过于依靠员工技术水平与经验。

综上分析,本项目研究内容主要包括。

(1)告警管理精确化,提高运维效率

基于告警关联规则的分析评判,使得故障点定位更加精确和故障分析结果准确,减少故障根源分析中的人工介入,降低通信运行工作人员工作量,提升通信网运维管理工作效率。全程物理光缆网的建设,在“抗风救灾”应用中,更加真实、准确、完整展示“抗风”应用。分析对象定位更准确,分析结果更精准。分析过程直观可视、便捷高效;解决图实不相符的现场产生问题,从而进一步提升通信运行与管理人员的效率与工作质量。

(2)强化通信告警协同处置能力与效率

增强通信与单位其他专业在告警管理上协同联动与数据共享,提升通信风险数据影响力。建立电网基准风险/关键设备对相关通信关键设备的影响、研判知识库,提取和分析已有历史数据,总结经验教训,有利于有效地提升电网基准风险/关键设备对相关通信关键设备影响的研判与风险分析能力,增强通信与电网其他专业数据互通共享,提升通信风险数据的影响力。

4 技术研究分析

4.1 告警综合呈现平台

基于日常的运行管控流程系统获取日常通信检修、通信故障的当前/历史告警工单,通过与综合监视模块的告警进行过滤、规范化后,同步到故障分析模块中的告警数据库,为用户提供基于工单数据和告警数据的关联告警呈现功能。

用户可通过WEB 页面展示和查看当前所有告警信息的统计数据,支持按各通信专业子网(例如传输网、光缆网、数据网等)、地市局、站点、机房、时间段等维度进行查看;同时可以按各类资源类型(例如光缆段、网元、业务名称)查找已归类的历史告警信息,展示相关的通信网络物理资源或虚拟资源在其生命周期内所产生的告警、告警过程过程、告警关联的处理措施、外力活动等全过程的告警信息管理和呈现。

4.2 告警关联分析库

根据网管侧综合资源管理模块已建立的资源和资源拓扑结构数据,在故障分析模块中分析各专业子网的业务层次结构与关联关系,实现与故障分析平台中实时更新的告警数据库的关联分析,为用户提供告警关联性分析、告警故障源、根告警溯源、追踪等功能。

可通过对接电网公司已建设的运行管控流程系统获取当前维护检修工单数据,本平台通过定期或实时获取的方式,同步已有的维护检修数据并入库;根据检修场景的不同进行差异化分析,平台通过对告警对象名称、类别、速率等进行归类,获取运行管控流程系统的历史维护检修数据。

4.3 智能化告警处理规则挖掘模型

根据光缆网、传输网、数据网、接入网等“故障-告警”产生原理,建立静态规则库,可自动识别告警与告警、告警与运行数据、告警与资源业务关系、告警与逻辑拓扑、告警与物理拓扑、告警与逻辑路由等之间的关联关系,形成量化的指标值分析和呈现。

结合设备告警生成原理、专家经验、告警归类原理、告警与资源关联关系等建立本地告警规则分析库,通过规则引擎与推理机制形成告警预测分析结果向用户推送。

告警规则库中可用于保存经过预处理的规范化告警信息,事件预处理模块负责对收集到的告警事件进行事件信息格式化和事件过滤。其中,事件规格化是指对收集的告警事件使用统一的格式,方便事件关联过程而进行的统一处理;事件过滤是合理、高效的事件过滤机制,实现快速、准确的过滤无效告警、次要告警和滤瞬时告警,通过对告警的等级归类处理和海量压缩处理,防止“告警风暴”。

4.4 网络健康主动预测模型

平台通过结合设备告警的相关属性,建立各专业子网中的光缆、通信设备、电源的健康模型,建立通信设备、链路的健康预测模型,分析设备当前状态与模型之间的差异;根据差异结果对设备当前状态进行诊断与预测,并根据设定的推送规则主动向相关用户推送,辅助决策设备运维策略。根据各途径同步搜集到的网络告警信息和规则库中保存的规则进行推理和演算,进行故障定位以及故障预测,实现告警事件推理的智能化,提高推理效率。

5 现有研究开发基础

(1)基于微服务架构的统一告警采集平台,以及各专业网管的告警采集、告警压缩、资源管理、资源和告警拓扑关联、光路关联、业务管理等告警和资源数据的综合管理,可以作为本系统框架和功能的基础平台使用;

(2)基于B/S 架构的数据汇聚系统,作为本系统基础数据源使用;

(3)网管系统已经采集各专业网管告警数据、资源数据等作为数据分析的基础。

6 结束语

本项目通过管理思路和技术手段的相结合的方式解决了这个难题,并在企业通信内网用户的实际工作中取得了一些成绩。项目作为通信行业企业中基于事件关联和数据挖掘的网络故障分析平台,可以大力提高企业通信网的安全稳定水平和调度运行控制能力,为企业各生产系统提供可靠通信的保障,为今后企业各通信网的稳定良好的发展奠定基础,满足相关部门各种业务对基础通信通道安全性、可靠性需求,提高企业通信应对重大人为事件、通信事件、自然灾害事件的处理能力。同时也希望本平台相关技术应用实践案例会为其他企业通信部门做通信网管相关管理的优化工作思路带来参考。

猜你喜欢
网络故障关联检修
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
VxWorks网络存储池分析在网络故障排查中的应用
基于信息流的RBC系统外部通信网络故障分析
检修
当代工人(2019年24期)2019-01-17 03:13:38
奇趣搭配
智趣
读者(2017年5期)2017-02-15 18:04:18
电力系统继电保护二次回路的维护与检修
电子制作(2016年19期)2016-08-24 07:49:56
Wireshark协议解析在网络故障排查中的应用
论自动化焊接设备的预检修
茂名式大修