李 凌,金文杰,陈跃国
(国网浙江省电力有限公司金华供电公司,浙江 金华 321000)
电网系统建设作为国家重要的发展战略之一,始终是我国基础建设投入资金最大的项目之一。尤其是近年来,随着工业化水平的不断发展,电网系统承载的工作量与日俱增,电网系统的各项内容不断趋向智能化。与传统电网系统相比,现代电网系统拥有更加复杂的结构、承载更多的工作内容且运行程序更加多样。因此,任何一个环节出现问题,都会对供电系统的正常工作带来困扰[1]。所以,专业人员需要有效监督和管理电网系统。智能网络告警系统可以有效监督管理系统,全天候监控系统的运行,并在发生故障时第一时间反馈并精准定位故障地点,帮助工作人员快速解决问题。
随着互联网技术的不断深化,网络规模与复杂程度越来越高。基于网络智能化的电力告警系统将直接影响电力系统的安全和正常运行[2]。电力系统监控涉及许多复杂的设备,而告警系统的工作是集中收集和管理监控设备内容,并及时反馈突发情况。
电力监控系统与其他系统相比,具有设备与用户相对确定、网络空间隔离性强且服务私有可控等特点。所以,一旦出现脱离用户和设备常规使用内容的操作,便被视为出现安全隐患[3-4]。安全监测系统与产品一般基于网络流量与报文分析技术,工作对象一般基于互联网通用服务与协议,并不适用于电力监控系统。
传统使用的内网安全监控平台只能对便捷网防护进行有限范围的监控,无法排除系统内部的危险隐患,也无法及时有效地监控分析安全区内部主机和数据库等的相关内容。基于此,在原有的内部安全平台上,采用基于事件和面向设备的技术路线,以主机操作系统和网络设备固件作为依托,实时直接管理设备[5]。另外,基于调度数据网络、厂站监控、配网调度、配电自动化以及负荷控制等系统实现集中监控,并且进一步完善网络综合管理功能,保证电力系统的安全运行。
电力系统的内容复杂,其告警系统的流程涉及较多,主要步骤如图1所示。
图1 告警系统流程图
当前电力系统中的网络告警系统在各个阶段还存在许多问题。第一,告警信息采集阶段。当前告警信息的采集主要依靠专业网管或者厂商设备采集告警消息,存在告警通报方式缺乏统一的通报标准、告警信息漏报以及告警风暴与接入数据不完整等问题。第二,告警关联分析阶段。该阶段主要是向告警内容添加标注,常见问题包括缺乏清晰的关联规则与对业务产生影响的关联分析等。第三,告警呈现阶段。该阶段将经过关联与分析后的处理信息告知用户,常见问题包括告警呈现存在滞后性、关键的告警信息往往因为大量干扰导致推送缓慢等,后期应当与物理对象和地理等各类信息相结合,实现故障定位。第四,告警预处理阶段。该阶段的主要问题包括无法自动识别和判断故障原因、难以将日常人工经验以智能程序化处理方式固化。第五,告警处理阶段。该阶段的主要问题是如何有效屏蔽工程预警并实现智能派单。第六,故障恢复阶段。该阶段主要通过分析告警信息对异常告警信息进行归档,并对规章告警指标进行专题分析,面临的主要问题是无法全面准确地分析异常告警,难以有效体现故障收集管理取得的成果。
4.1.1 告警标准规范统一化
通过多对一的映射关系,统一标准且清晰的告警信息,搭建消息连发机制,杜绝漏报告警现象。设备生产厂家在设备消息发送时,要求数据消息以连续正整数作为编号[6]。从数字1开始,以信息实时发布通道(如一个MQ队列或socket端口)为单位进行编号。当编号数值超过最大值时,可以重新开始编号。在信息缓存方面,数据生产者最少要保存5万条以上数据,或者保存6 h之内的告警。
4.1.2 搭建优先上报通道,解决告警风暴
优先上报通道的流程,如图2所示。建立重要告警优先上报机制,依据告警级别、专业、标题以及对象类型等相关参数,制定告警优先上报规则[7]。将优先队列和普通队列同时解析入库,告警风暴出现后,优先触发重要告警优先触发机制,优先处理普通队列,并且生成相关文件。
图2 优先上报通道
4.1.3 建立资源与告警核查,保证接入的数据可覆盖全专业
核查接入的资源,内容包括数据的完整性、有效性、数据格式的规范性以及网元连接关系。
选择可能出现关联性的告警条目范围,分析以往经常出现的大范围故障类报警。例如,大范围设备退服等,时常伴随大量的los和linkdonw告警[8]。
自主设定关联规则,确定可关联告警所包括的专业网元类型,选择可关联的字段,包括资源关联关系、端口描述以及机房地址等,还可选择关联规则,如模糊匹配和完全匹配等。
模拟验证告警关联。主要模拟两类告警,第一类是关联告警,第二类为衍生告警[8-9]。制定关联规则后,选取相关历史警告开展模拟关联、生成关联成功率和无关联告警清单等数据。
依据故障的具体情况,根据相关监控部门的预处理能力,将故障分成人工预处理与系统预处理两类。通过两类处理方式补充相关信息,以此不断完善处理方案,并为下一环节的工作提供参考,以此提高整体效率。告警预处理的工作流程如图3所示。
自我设定工程告警的屏蔽规则,即首先汇总各专业网管的屏蔽规则,其次选取故障告警系统和专业网管屏蔽规则数据共有的数据,再次选择跨专业网元关联规则并对其进行人工确认,最后完成工程告警屏蔽。
4.5.1 告警入库阶段
告警入库后,统计专业网管的告警是否标准化,是否为异常告警,并汇总无法归纳的告警。
图3 告警预处理
4.5.2 告警关联阶段
判断可能需要关联的告警,并分析和总结无关联告警与无法关联情况。
4.5.3 告警预处理阶段
记录每次进行预处理的告警过程,包括是否经过预处理和结果等[9],并对预处理失败情况进行分析和分类,如登陆或者指令下失败等。
综合网管告警系统的网络方案不仅考虑当下的实际需要,还要从未来考虑整体规划。所以,告警系统的网络架构要保证做到开放性和可扩展性。系统网络架构如图4所示。
图4 系统网络架构
系统由集中告警、告警采集、告警发布平台、数据库以及业务处理与WEB服务器等部分组成。系统使用插件方式与各专业网管系统的告警数据相连接,如将数据适配器插件和数据库接口连接[10]。在具体的实际应用中,可以依据具体情况将多个平台安放在一台机器中,如将数据库、业务处理以及WEB服务器放置在同一机器。
随着经济的快速发展,电力系统的规模逐渐扩大,以往单纯依靠内网安全监视平台和增加维护人员的方式已经无法解决现存问题。通信网络的变化带来告警信息量的增加,使用最少的投入实现最大化的解决维护困难问题是根本途径。综合网络告警收集系统除了要智能化升级传统的内网安全监视平台外,还要利用维护人员制定的告警信息分类和维护规则,准确分辨和优先处理重要告警事件。不仅提高了工作效率,还提高了反应速度和准确性,保证了电力系统运行的稳定性。