朱鹏宇 ,蔡新忠 ,徐士元 ,吴季桦 ,王敬宇
(1.国网电力科学研究院有限公司,江苏 南京 210012;2.北京邮电大学网络与交换国家重点实验室,北京 100876)
电子化和信息化时代的到来,给电力通信网的管理和维护带来了新的挑战。如何保证电力通信网络的通信质量和信道要求,如何减少运维人员压力,如何保证电力通信网的稳定性和可靠性等问题是亟待解决的问题。借助电子信息技术和人工智能技术打造“互联互通”的智能电网,实现电力网和通信网的一体化深度融合,国家电网有限公司提出了建设泛在电力物联网的方针。泛在电力物联网的建设依托现有智能电网展开,致力于实现电力系统各个环节万物互联、人机交互、动态信息感知和高效信息处理等[1]。泛在电力物联网为传统电网赋能,可实现电力系统各环节设备及客户的状态全面感知,达到高度信息交互与数据共享[2]。
传统电力骨干通信网缺陷诊断主要依靠各级运维人员定期巡检设备网管,根据专家知识和运维经验进行缺陷分析和缺陷定因。其准确性依赖于人为经验,并且需要操作员根据实时情况动态调整缺陷诊断规则。
由于电力通信网在保证经济建设、社会生产中的重要性,要求其保证高度的可靠性和出现故障时保持服务的能力。基于人工经验的缺陷诊断方法,主观因素影响较大,并且难以应付指数级增长的海量告警信息。
缺陷诊断分为事件检测和定位。事件检测和定位则基于事件分类。传统事件分类由运维人员根据运维经验确定,这种分级分类只考虑电力系统中发生频率最高的事件[3]。已经有许多研究将人工智能技术应用到电力通信网事件分类和缺陷诊断领域中以摆脱对规则的依赖,减少人力资源的投入[4]。电力通信网的智能化以及人工智能技术的应用提升了电网整体运营能力,提高了电力通信网的运维效率和可靠性。但智能电网的大量监管数据汇入带来了新的挑战,业务依靠海量数据支撑并且要求短时内处理高并发信息,完成数据采集、数据传输、数据清洗、数据分析,对运维中心带来了巨大的计算压力和开销。
为了应对海量数据和计算量带来的挑战,边缘云和边缘计算(Edge Computing,EC)技术被应用到电力通信领域[7]。
边缘计算技术能够有效支撑分布式数据采集和处理,分布式模型训练,分布式需求响应,将计算压力下沉到边缘侧,减轻运维中心压力。作为一种新兴的计算模式,边缘计算将电力通信网中心的云计算资源扩展到网络边缘,使得计算中心从电力通信骨干网扩展到边缘节点,缩短了业务与计算资源之间的距离,协同完成电网所分配的业务。目前已有的边缘计算包括移动云计算[8]、雾计算[9]和移动边缘计算[10]等。边缘计算生态搭建已在国内逐步推行,部分工业领域正积极部署边缘计算的应用。
本文提出一种电力通信网边缘计算架构,旨在构建智能电网运维新生态,实现电力网通信网有机结合、互联互通,并提出一套基于边缘计算架构,面向电力通信网告警数据进行缺陷诊断的技术方案。
电力通信网边缘计算架构如图1 所示,主要有以下特点:
(1)异构设备统一接入。目前电力通信网中存在不同制造商、不同接入技术和标准协议的传输设备。传输设备异构共存,运维中心管理困难,浪费大量人力资源。电力通信网边缘计算架构基于智能电网,经过网管对于网元进行数据采集、内容筛选、数据清洗,满足运维中对于多样化业务的监管要求。
(2)电力通信骨干网分布化。对于电力通信骨干网进行重构,计算资源下沉至网络边缘节点。边缘云具有一定的计算资源和存储资源,向上接受中心云的策略和业务,向下对区域内网元进行资源调度和数据监控。中心云负责管理全局数据,层间解耦,下发业务需求时由部署在边缘节点的边缘云协助完成相应业务场景的接入控制、数据转发、数据采集、模型训练等功能。从而缩短网元到计算资源之间的距离,降低需求侧业务需求的通信时延,分布式完成中心云海量计算任务。
缺陷诊断是通过利用电力系统及其保护装置的广泛知识和继电保护等信息来识别故障的元件位置(区域)、类型和误动作等参数。
图1 电力通信网边缘计算架构
应用于电力通信网的缺陷诊断的技术方法主要有专家系统、神经网络、优化技术、Petri 网络、粗糙集理论、模糊集理论、贝叶斯网络、多Agent 技术等[11]。电力通信网缺陷诊断的典型方法是基于规则的系统,把运维人员的专家经验用规则表示出来,形成故障诊断专家系统的知识库。根据知识库对实际业务环境中的告警数据进行推理,获得故障诊断的结论。其在实际应用中的缺陷也比较明显:(1)要求获取完备的知识库才能够匹配到所有故障;(2)当网络情况或者设备情况发生变化时,维护更新知识库所需要的工作量很大。
缺陷诊断流程可以归纳为:(1)数据采集。对于电力通信网的数据,包括设备的告警数据、端口的指标性数据、电压状态等原始数据进行采集以及挖掘。进行数据预处理。(2)事件检测。对于从电力通信网中得到的数据和信息采用数据驱动的方法进行实时事件分类和检测。在面向电力通信网告警数据的多种缺陷诊断方法当中都采用先进行告警归并的方式生成扰动事件集的方法。(3)缺陷诊断。对于扰动事件集,对于每个集合采用缺陷诊断方法得出缺陷诊断结果。
如图2 所示,电力通信网缺陷诊断系统架构包含三层:数据采集层、能力层、应用层。
数据采集层包括运维数据中心、采集服务和应用拓扑三个功能。采集服务通过中心下发策略对接入侧设备进行配置管理,实现对于异构设备、异构数据内容、异构数据格式的采集和结构化以及半结构化处理,进行数据清洗和预处理;应用拓扑负责维护设备间拓扑关系状态,提供分析运维信息的物理依据;运维数据中心对数据组织和治理,进行持久化存储,负责数据调度和传输。
能力层包含知识库、运维信息服务、AI 引擎。知识库负责维护以数据驱动为方法对运维数据进行分析挖掘从而形成的知识图谱以及缺陷库;运维信息服务实现对于系统产生的告警、数据监控等信息的查询和分析;AI引擎实现了缺陷诊断所使用到的模型的训练、部署、验证等流程。
应用层包含告警归并、缺陷发现、缺陷诊断、智能运维服务。告警归并实现基于实时告警数据分析进行告警关联,将大概率从属于同一个扰动事件的告警归并到同一个集合;缺陷发现实现基于告警集的异常检测;缺陷诊断实现多个业务场景下的包括网管级别到网元级别的缺陷定位以及缺陷定级;智能运维服务实现缺陷诊断后的缺陷单派发以及根据运维人员现场反馈对于缺陷库进行迭代更新。
图2 电力通信网缺陷诊断系统架构
系统依托国网电力科学研究院有限公司建设的国家电网通信管理系统(SG-TMS)进行实验数据采样、模型调试并进行算法验证。SG-TMS 系统在国家电网通信处2019 年通信专业重点工作部署项目中,依据人工规则制定缺陷自动派单规则,实现了传输网监视优化及缺陷自动派单功能[12]。
使用基于边缘计算的电力通信缺陷诊断云边端架构,可以由边缘节点对端设备进行告警采集,在边缘节点进行告警归并和缺陷诊断,完成边缘计算资源生命周期管理,最后将告警归并结果返回边缘侧或云侧,支持后续的缺陷定位定级、可靠性评估、迂回路由优选、缺陷单自动派发等功能,实现知识库的自动化迭代更新,助力建立电力通信行业边缘计算新生态。系统的技术难点主要集中在告警归并和缺陷诊断部分。
图3 介绍了中心云和边缘云设备上告警归并方法的基本流程。缺陷单数据经过自动化文本分析和分词得到缺陷单以及对应告警的关系,保留数据以支持后续有效性评估[13]。系统使用基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)。
(1)特征抽取和向量化空间映射过程:DBSCAN[14-15]是基于密度的算法,意味着输入的特征应当是对应空间的坐标点,或者是点之间的距离矩阵。在实际背景当中告警是连续的文本信息,因此对于非结构化的告警文本信息结构化之后进行特征抽取,而告警的向量化过程应该体现为特征提取和特征向量之间的权重分配。
基于一个缺陷可能会引起一个或多个设备在一段时间内持续输出相似告警的特性,聚类目标是将拥有这种特性的属于同一缺陷的告警聚为一个簇[15]。对告警而言,有两方面的信息较为重要:告警本身的相关参数(告警种类、发生位置、设备类型、设备位置等)以及告警时间[14]。其中告警本身的相关参数反映了告警之间的相关程度以及告警在空间上的相近程度,告警时间是当前告警产生的时间,蕴含了缺陷发生的时间信息。系统中对于告警本身的相关参数进行one-hot 映射[16],而对于告警时间参数进行模型构建,通过调整权重平衡告警时间分量和告警相关参数分量,从而得到告警向量。
(2)聚类过程:将结构化的告警数映射为向量之后进行聚类。不同样本的距离综合考虑了告警本身相关参数距离和时间距离。以此对所有告警进行聚类,则最后得到的聚类结果应该是使得时间上较为聚集的相似告警或者是时间上极为聚集的较相似告警成为同个簇。从而得到的告警集合大概率从属于同一个扰动事件。
不同告警归并方法的缺陷一致性对比结果如表1所示。实验结果表明本系统的告警归并方法能被部署在边缘侧节点完成数据收集和告警归并,具有较强的鲁棒性和泛化能力,同时实验效果表明将无监督方法应用到告警归并流程中能够显著提高归并率和告警与缺陷的匹配率。
表1 不同告警归并方法的缺陷一致性对比
图3 中心云和边缘云上告警归并流程
图4 介绍了中心云和边缘云上缺陷诊断的流程。对告警归并得到的扰动事件集进行缺陷定位定级。
对于由同一种缺陷原因引发的缺陷,应当在设备类型、设备数量、拓扑连接等方面存在相似。系统依托知识图谱,对于告警集中告警发生的设备集进行拓扑抽取,构建异常子图,通过对于异常子图进行无监督聚类,挖掘异常子图之间的共性,发掘电力通信网扰动事件拓扑图模式,经过专家检验判定扰动事件模式是否为缺陷模式,构建基础的缺陷事件知识库避免冷启动;在后续基于知识图谱完成缺陷诊断业务中则依据维护的网络拓扑以及缺陷事件知识库进行推理,找寻缺陷事件知识库中固有的结构特征来完成缺陷诊断,对于无法匹配的结构特征则判定为新的扰动事件模式,再次经过专家检验完成缺陷事件知识库的迭代更新。
(1)子图表示:知识图谱中维护的电力通信网络拓扑结构是典型的异质图(heterogeneous graph)。MANZOOR E A[17]等人将时间间隔内出现的边构成子图并且将子图表示成k-shingle 的形式,利用多个流哈希函数(StreamHash)对图进行sketch。Zhang Chuxu[18]等人利用HetGNN 模型对于异质图进行图的结构表示,采样邻居节点,根据邻居节点类型分类,对于每个邻居节点进行feature encoding,对于同类型邻居节点进行embedding aggregation,进一步对于不同类型邻居的embedding 进行aggregation,如此得到节点的embedding。对于告警归并过程得到的告警集合,以集合内的告警发生的设备作为子图的节点,根据系统维护的知识图谱获得子图节点之间的连接关系作为子图的边,系统采用HetGNN 模型对于子图进行node embedding。
(2)聚类过程。对于异质图当中子图的表示有基于特征的方法[19]和基于行为的方法[20]。WANG S[21]等人提出了MatchGNet 模型用以解决异质图中图匹配问题。MatchGNet 模型数据驱动的方法,使用GNN(Graph Neural Network)进行图表征学习和相似度度量。本系统中使用Attentional 机制对于子图中的node embedding 进行聚合形成graph embedding 用以表征子图。对于得到的graph embedding 基于相似度度量进行聚类,从而得到频繁出现的子图模式。对于频繁出现的子图模式通过专家知识进行标注计入缺陷知识库。此后对于实时告警数据构建的新到达子图与缺陷知识库内模式进行相似度度量,实现缺陷诊断。
图4 中心云和边缘云上缺陷诊断流程
(3)业务影响分析和缺陷单自动派发。基于通信网设备告警情况、检修信息、当前性能参数、电源及环境情况,分析通信网中运行的设备、光缆及其拓扑关系对业务通道的影响程度,建立特征模型;并根据缺陷诊断情况完成缺陷定位定级、缺陷单起单、缺陷单派发、缺陷逐级检视、缺陷信息反馈(更新缺陷事件知识库)。
缺陷诊断模块具有可扩展性,可以使用多种算法,包括基于特征的聚类方法[22]以及基于模式挖掘的频繁子图挖掘算法[23]等。
表2 给出了本系统基于gSpan[24]挖掘得到频繁子图进行图匹配得到的缺陷诊断混淆矩阵,缺陷种类分为card abnormal、fiber breaking、power abnormal、power interruption,其中card abnormal 和power abnormal 预测结果和真实结果完全一致,有两个fiber breaking 被预测为power interruption,一个power interruption 被预测为fiber breaking。实验结果表明本系统的缺陷诊断方法能够获得较高的准确性。后续可以使用多种算法以获得更好的性能表现。
表2 缺陷诊断混淆矩阵
电力通信网技术的发展和信息化、智能化的需求使得电网结构日渐复杂、庞大。引入边缘计算这一新型计算技术,有利于构建电力通信网新生态,实现电网资源配置效率优化,为运行、检修人员提供缺陷诊断的辅助分析和决策手段。
本文提出了一种具备边缘计算能力的基于现有电力通信网构建的缺陷诊断系统。该系统在接入侧云网融合基础设施上提供数据采集功能,在边缘侧和中心侧提供告警归并和缺陷诊断能力,系统中提出了一种基于知识图谱和无监督学习的缺陷诊断方法,通过对设备告警日志的分析和网络拓扑的跟踪实现对缺陷的及时发现和派单维护。