李 刚,李银强,王洪涛,谢 庆,黄文琦,侯佳萱
(1. 华北电力大学控制与计算机工程学院,河北省保定市 071003;2. 复杂能源系统智能计算教育部工程研究中心(华北电力大学),河北省保定市 071003;3. 华北电力大学电气与电子工程学院,河北省保定市 071003;4.南方电网数字电网研究院有限公司,广东省广州市 510670)
电力设备(如发电机、变压器、继电保护装置等)状态评估(如风电机组状态预测、变压器剩余寿命、输电线路状态监测等)对保障电力系统安全稳定运行有着重要的理论意义[1]。随着智能电网体系的不断完善,电力设备的类型、数量、工况复杂性大幅增加。以变压器为例,国家电网有限公司在运110 kV及以上电压等级变压器已达30 000 余台[2]。随着投运设备的增加,存在于电力设备健康管理全生命周期各环节中的大量相关知识也大幅增加,如何有效管理和利用这些知识,是电力设备精细化运维与健康管理的重要内容之一。已有研究将计算机领域中近年来广泛应用的知识图谱(knowledge graph)技术引入电力系统领域[3]。
知识图谱的概念最初由Google 公司于2012 年提出[4],Google 知识图谱通过三元组对“概念实体”、“属性”和“关系”等核心要素进行形式化描述,以最小的代价将大规模网络信息有效组织起来,实现了互联网领域的数亿实体、属性和关联关系的可视化存储、组织和管理[5]。知识图谱可定义为形如(h,r,t)的三元组,其中h为头实体,r为关系,t为尾实体。知识图谱本质上是一个有向图。通过网状拓扑结构对知识进行更好的串联和呈现,它可以对多源异构数据进行整合和知识提取,包含了实体之间更丰富的语义关联,并且可以结合推理得到的隐含信息为用户提供个性化服务,被广泛应用于智能搜索、智能问答、文本分类等领域[6]。国外在知识图谱构建方面 起 步 较 早,较 为 知 名 的 有YAGO[7]、Wikidata[8]。国内已有不少互联网和研究机构在知识图谱构建方面做了相应工作,比如上海交通大学最早构建的中文知识图谱平台zhishi.me;百度推出的中文知识图谱搜索;复旦大学GDM 实验室推出的中文知识图谱展示平台等[9]。
知识图谱作为人工智能领域的一个重要分支,目前在各个领域均开始有一些初步的研究,在电力领域尚属起步阶段。例如,文献[10]根据调度自动化系统的源码、配置文件、数据库和专家经验整理出离散的调度知识,构建了调度自动化系统知识图谱,用于业务知识的动态搜索;文献[11]采用电力词典抽取缺陷信息实体,构建了电力设备缺陷知识图谱,用于故障缺陷信息的检索;文献[12]利用知识图谱建立了面向智能变电站的搜索引擎,开发了安全措施自动生成系统,对二次检修的效率以及安全措施的准确性有一定提高;文献[13]基于知识图谱技术构建了以Neo4j 图数据库为支撑的电网信息搜索引擎,较之于传统的搜索引擎可更便捷、快速、准确地获取信息;文献[14]针对电网业务数据无法跨专业贯通、数据资源无法被智能分析与管理等问题,提出基于全业务统一数据中心的知识图谱构建方法,实现了运检数据的自动匹配;文献[15]从电网调度规则、故障预案以及人工经验知识中进行知识抽取,构建了电网故障调度知识图谱,用于辅助配电网故障决策诊断。当前,知识图谱在电力系统中的应用尚属起步阶段,应用场景并不明确,并且缺乏对关键技术的深入研究,如知识图谱的构建、知识推理、图谱补全等。文献[10,12,14]采用基于模板的方法进行图谱构建,灵活性较低,难以应对时变的数据,而文献[11,15]则是采用了机器学习的方法和针对文本处理特定的方法进行图谱构建,需要在特征工程上耗费大量精力。
综上,知识图谱在电力系统的各业务环节均有所研究,但并未形成一套有效的知识图谱构建方法,对知识图谱的应用也处于起步阶段。在电力设备健康管理中存在着大量的专业业务知识,如何构建完备的知识图谱,并在此基础上挖掘其应用价值,实现设备的精细化运维以及知识和健康管理的良性互动,是当前及今后一段时间内,能源电力系统推动数字化转型的重要方向之一。
知识图谱可以分为不限领域知识图谱(通用知识图谱)和限定领域知识图谱(领域知识图谱)[16]。通用知识图谱涵盖面广,其知识来自各行各业,而领域知识图谱则是面向特定行业进行知识抽取,需要有丰富的领域背景知识。本节将对知识图谱的构建方法及其关键技术进行详细介绍,如图1 所示。由于当前不同文献对知识图谱中所出现的部分术语表述有差异,本文尝试做了梳理,如附录A 表A1所示[17-21]。
图1 知识图谱构建过程Fig.1 Construction process of knowledge graph
1.1.1 自顶向下
自顶向下(top down)的构建方法可分为本体学习(ontology learning)、实体学习(entity learning)。“本体”是对知识图谱在概念层面的定义,定义了知识图谱构建的规则、概念,本体较为抽象。例如,在构建电力设备健康管理知识图谱时,首先需要对电力设备进行分类,这个分类就是本体。而本体中的具体对象就是实体,如变压器、气体绝缘金属封闭开关设备(GIS)等。本体学习的目的是从当前语料、文本中提取行业术语,习得本体的概念,抽取本体之间的关系完成本体层的构建,制定数据层实体、关系抽取规则。实体学习则是在本体学习的基础上对数据进行实体、关系抽取,并完成实体对齐任务,获得实体的统一描述,如“局放”、“局部放电”、“局部放电故障”,均可归纳为“局部放电故障”,然后进行实体填充获得完备的实体表述。
1.1.2 自底向上
自底向上(bottom up)的构建方法可分为知识抽取(knowledge extraction)、知识融合(knowledge fusion)、知识加工。知识抽取包含:1)实体抽取(entity extraction);2)关 系 抽 取(relationship extraction);3)属性抽取,从数据源中抽取实体,获取实体之间的关联关系,通过关系将实体连接起来构成知识网,最后进行实体信息抽取。知识融合包括:1)实体对齐(entity alignment),自底向上的实体对齐同自顶向下实体对齐,都是对同一实体的不同表达去噪得到统一描述;2)实体消歧(entity disambiguation),是对知识图谱中存在多种含义的实体进行区分,如“变压器”,可指代“110 kV 变压器”,也可指代“220 kV 变压器”,通过实体消歧可将具有同样名称的实体进行区分;3)属性值填充,目的是将抽取的属性按照实体进行匹配,以完善实体。知识加工包括:本体构建、质量评估、知识推理(knowledge reasoning),通过计算实体相似度形成本体层与数据层结合形成知识图谱,通过人工或者自动化的方式对知识图谱质量进行评估,最后对知识图谱进行推理,发现其中包含的错误实体关系对或者隐性知识。
构建知识图谱所涉及的关键技术可分为2 种:一是构建知识图谱本身所需的关键技术,如实体抽取、实体关系抽取、实体-关系联合抽取(joint extraction of entity relations)等,属于自然语言处理的范畴;二是知识图谱的本源技术,如图谱完善,旨在通过现有的知识挖掘出新的知识、不断完善知识图谱。本文接下来将从实体抽取、关系抽取、知识推理等几个关键环节做详细介绍。
1.2.1 实体抽取
实体抽取又称命名实体识别,其任务包括识别文中提及的命名实体,消除实体的歧义,并将抽取的实体与知识库中的对象连接起来[22]。实体抽取方法可分为传统实体抽取方法、基于机器学习的抽取方法和基于神经网络的抽取方法[23]。传统方法多依靠领域专家制定抽取规则和模板完成实体抽取,自动化程度较低,适用于小数据集。基于规则的方法往往需要大量的语言学知识,且费时费力、可移植性不好。目前,部分实体抽取任务被机器学习算法解决[24]。基于统计机器学习的实体抽取方法通常需要进行特征工程如数据升维、降维、量化等,对特征选择要求较高,同时需要大规模语料集。而深度学习方法可以实现特征的自动学习,采用低维、稠密的实值向量表示数据,避免对人工和专家知识的严重依赖。近年来,基于深度学习的实体抽取方法受到关注[25]。通常采用机器学习或者深度学习的方法能够较为灵活地抽取实体。例如,文献[26]提出一种基于双向循环神经网络(BiLSTM)与条件随机场(CRF)的神经网络模型,用于序列标注与实体抽取任务,较之于隐马尔可夫模型(HMM)和CRF 实验效果更好;文献[27]采用BiLSTM+CRF 构建了二次设备功能缺陷知识图谱;在复杂的电力实体抽取任务中传统方式以及基于监督学习的方式难以应对,因此,文献[28]分别使用了BiLSTM 与CRF 模型进行电力实体抽取,同样获得了不错的表现。
1.2.2 关系抽取
关系抽取又称实体关系抽取,通过从文本中抽取未知的实体关系并加入知识图谱中,它是知识图谱构建的关键任务[29]。同样,关系抽取可分为基于模式匹配的关系抽取、基于机器学习的关系抽取、基于深度学习的关系抽取[30-31]。关系抽取和实体抽取密不可分,通常进行实体抽取的模型和方法对关系抽取同样适用。早期采用的方法大多基于模式匹配的关系抽取,即通过领域专家制定关系抽取规则,然后与数据进行匹配完成关系抽取任务。基于规则的关系抽取方法的缺点是对跨领域的可移植性较差、人工标注成本较高以及召回率较低[30]。目前,关系抽取任务逐渐被机器学习替代,基于统计的机器学习方法首先需要大量人工标注的语料库,然后再进行特征抽取和选择,利用不同的机器学习算法训练分类模型,自动抽取、发现新的实体对及其关系[32]。基于传统机器学习的关系抽取方法在特征提取过程中存在误差传播问题,而深度学习因其能够自动学习更高阶语义特征并具有较高的精确度,逐渐成为实体关系抽取领域新的研究热点[33]。文献[34]就采用了基于注意力机制的门控循环神经网络进行电力实体关系抽取,与传统方法相比可获得更高的准确度。
1.2.3 实体-关系联合抽取
实体抽取和关系抽取作为构建知识图谱中最重要的2 个任务,其抽取质量直接关系着最终知识图谱的质量,通常它们是2 个分离的任务,但存在以下问题:传统的关系抽取划分为2 个流水线式的子任务,即命名实体识别和关系分类,实体抽取的误差会传播至关系分类,即前一个子任务的错误会累积到下一个子任务,导致性能较差;同时流水线式模式还忽略了2 个任务之间的相关性,尤其是在实体抽取时没有利用到关系信息[35-36]。针对此情况,越来越多的研究集中在单个模式中同时抽取实体和关系,通常称之为“实体-关系联合抽取”,因充分利用了上下文信息,在抽取的结果上往往有更好的表现。但在目前电力系统相关知识图谱构建中尚无应用。
1.2.4 图谱完善
图谱完善又称图谱补全,即通过挖掘缺失实体、关系或者发现新的知识,对知识图谱进行完善,被广泛应用到知识图谱上游应用中,是提高知识图谱质量的重要方法[37]。例如,目前规模较大的开放知识图谱Freebase 中,有75% 的人没有国籍信息,Dbpedia 中有60%的人物实体没有相关的出生地信息等。这时使用图谱完善技术对其中缺失或者错误的实体、关系进行补全或纠正就显得尤为重要,尤其是对领域知识图谱进行补全工作,能够帮助人们更好地理解潜在的专业知识。与图谱完善对应的是知识推理,即从现有数据中推断出新的实体关系,并对图谱进行反馈、丰富[38]。图谱完善和知识推理都可以对当前图谱中存在的错误或缺失信息进行纠正,但图谱完善仅对图谱进行完善补全工作,而知识推理则更注重在完善图谱的同时发现隐性知识,帮助人们获得更高阶的知识表示,因此,图谱完善可以看作是知识推理的子任务。
当前电力领域知识图谱的构建工作大部分是没有进行质量评估的,不能形成对知识图谱质量的全局把控,在图谱完善和知识推理方面还有待完善。
当前电力设备健康管理工作所使用的数据多为一段时间连续的在线监测数据,如电压、电流、油色谱,或者采用红外、紫外、设备外观图像进行故障分类与诊断,忽略了日常巡检累积的大量电力文本语料,同时大量使用数据驱动的方法进行健康管理工作,最直接的问题便是结果的可解释性,基于符号主义的知识图谱在文本数据挖掘和可解释性方面有较好的优势。随着知识图谱技术的发展,研究者提出了诸多知识图谱驱动的智能问答、商品推荐、数据挖掘范式,展现了知识图谱广阔的应用前景[39],其在电力领域的应用也逐渐开始。因此,本章首先分析电力设备健康管理知识图谱的特点,然后给出知识图谱在电力设备健康管理中的应用场景。
电力系统数据已呈现海量化、多样化和快速化的大数据特征[40],包含文本、图像、音频等这样的结构化和非结构化数据,这些多样性的数据导致了在构建电力设备健康管理知识图谱时,在知识和信息的表示上呈现多模态的特点。
从所构建的图谱来看,电力设备健康管理知识图谱涵盖如下3 个方面:1)最基本的知识图谱,其知识来源为关系型数据库、文本、文档等结构化数据,用途为管理结构化知识和图谱可视化;2)多模态图谱,多模态知识图谱将多模态知识(文本、视频、图片)进行整合,可为用户提供多个不同维度的知识,还可以实现不同模态数据之间的跨模态交互[41]。例如,电力设备故障诊断和健康管理中通常有基于红外光谱数据[42]、紫外光谱数据[43]、振动信号[44]等方法。通过神经网络提取这些非结构化数据特征进行分类,可得到设备故障类型的文本描述,有助于图谱构建,常见的方法有卷积神经网络、目标检测,通过预先标注的故障类型和设备类型进行模型训练,从而得到图片中设备或者故障类型的文本描述;3)事理图谱,又称事件图谱,以事件为节点,以事件关系为边,能够较好地表现事件之间的耦合关系,实现事件因果关系的预测[45]。例如,当设备发生故障时,由于设备故障具有较强的耦合性和因果关系,构建电力设备事理图谱可有效进行故障溯源,明晰故障原因、部位,极大提高运维的灵活程度。
电力设备健康管理知识图谱应具有更好的知识表达能力,涵盖丰富的电力设备信息,因其应用场景特定,加之电力行业积累的海量数据,能对电力设备知识做到较完备的表示。另外,无论是从保证用电安全的角度,还是确保巡检人员安全的角度,所构建的图谱在参与辅助决策时应具有良好的知识表达能力,这就要求所构建的知识图谱较之于通用知识图谱应拥有更细粒度的知识。
通常在完成本体构造、实体和关系抽取任务后便可得到知识图谱的大体框架,但正如前文所述,实体和关系抽取的质量将影响最终知识图谱的质量,所以在构建知识图谱之前须确保抽取的实体及关系有着较高的准确率。当前不少工作是将实体抽取和关系抽取视为2 个分离的任务,故本文对实体-关系联合抽取做了相应回顾。实体、关系分离抽取存在的最大问题就是忽视了误差传播因素,随着自然语言处理(NLP)的快速发展,必将涌现出一系列实体-关系联合抽取方法,以获得高质量的实体及关系。在知识图谱构建完成之后须进行图谱完善以及知识推理工作,并对现有的知识图谱进行反馈得到更为全面的知识图谱。同时,数据的不断累积将导致关键数据稀疏情况的出现,所以,如何从海量数据中获取目标数据也是知识图谱构建过程中的一大难题。因此,本节将从数据准备、图谱构建、图谱完善等方面展开论述,详细介绍电力设备健康管理知识图谱的构建过程,总体框架如图2 所示。
图2 电力设备健康管理知识图谱构建过程Fig.2 Construction process of health management knowledge graph of power equipment
2.2.1 数据准备
电力系统运行、检修和管理过程中产生的海量全景状态数据通常存储在生产管理系统(PMS)、管控平台、文件系统、数据中台等,并夹杂着大量的噪声[46],这就需要研究如何从高噪声、价值密度稀疏的数据中有效挖掘目标数据及其潜在价值。通常通用知识图谱可以通过网络爬虫的形式增加数据集以获得更多数据,但对于电力知识图谱来说,该方法具有一定的局限性;此外,在知识抽取环节,通常开放领域知识图谱可采用开放众包的方式来加快知识抽取过程,但是电力数据通常有保密性要求,文本标注环节只能在电力行业内部进行,进一步加大了知识图谱构建的难度,可在开源第三方工具(如Jieba 分词)的基础上增加电力设备数据模板(如借助行业内规范、白皮书等),进一步加快抽取过程,并形成标签供使用。
其中,电力设备数据的稀疏性主要表现为:设备故障存在偶然性,历史数据及在线监测数据中故障样本偏少,导致现有故障诊断算法由于数据分布不均使得诊断效果低下。针对此种情况,需选取合适的方法对故障样本进行扩充。例如,文献[47]提出一种基于注意力机制的对抗生成网络,可实现输电线路中螺栓缺陷样本的生成,有效扩充了可用于训练的样本集。
2.2.2 图谱构建
知识图谱的构建方式通常可分为自顶向下、自底向上和混合方式3 种[29],电力设备健康管理知识图谱属于领域知识图谱,通常采用自顶向下和自底向上相结合的混合构建方式,即先定义本体层,然后在数据层进行知识抽取,同时反复更新本体层,再将新得的知识添加至本体中完成图谱构建,灵活性较高。
普通图谱只由实体和关系组成,而多模态图谱需对数据做出意图理解,然后将所识别的意图加入实体或者关系中;事件图谱则是将事件和事件关系作为图谱的实体和关系。依靠传统的基于模板的方法较难处理海量电力数据,缺点在于处理速度较慢,且实体和关系抽取精度不高。因此,针对多模态图谱和事件图谱,可考虑使用自动化方法进行实体和关系抽取、意图理解、事件抽取等,其中深度学习方法前景较好。
属性在知识图谱中起到的作用是描述实体,然而,实体属性填充面临着如下的困境:1)由于电力设备健康管理中的实体多为电力设备或器件,而在线监测系统会大量采集其相关属性和指标,如果全部加入知识图谱中会导致图谱规模过于庞大影响上层应用;2)所采集的数据具有一定的不完备性,可能存在指标缺失的情况,因此,将何种指标作为属性还有待进一步研究。
2.2.3 图谱完善
图谱完善可看作是知识推理的子任务,因此,可使用相同的模型及算法来简化完善流程以及知识推理过程。常用的方法有基于规则的推理、基于分布式表示的推理和基于神经网络的推理[38]。其中,基于分布式表示的推理在应对大规模知识图谱推理时表现了良好的伸缩性和效率,能更为有效地推断出新的知识[48]。而电力设备在线监测数据、巡检数据、维修记录等源源不断的信息,导致知识图谱的规模也会不断增大,基于规则的推理灵活性较低,难以应对时变数据,泛化力较差。基于神经网络的推理模型复杂度高且可解释性差。因此,在需要进行知识的快速推理、明晰故障原因的场景下,知识推理和图谱完善可选择基于分布式表示的推理,主要以多关系嵌入模型(TransE)[49]为主,后续衍生出了超平面知识图谱嵌入(TransH)[50]、自适应稀疏矩阵图谱完善(TranSparse)[51]等模型,其思想是将实体和关系映射到低维空间向量,利用语义表达式进行推理,充分利用了知识图谱中的结构信息,方法简单,适用于大规模知识图谱,但基于分布式表示的推理方法在建立推理模型时没有考虑先验知识,只考虑满足知识图谱中事实三元组的约束条件,缺乏更深层次的成分信息,限制了推理能力。由于电力设备运行的特殊性,可考虑牺牲计算时间,采用基于神经网络的推理方法以获得更准确的结果。该推理方法依靠深度学习模型的自学习能力抽取特征,然后利用其记忆推理能力建立实体关系预测模型。
综上所述,选取何种方式进行知识推理以获得隐性知识,依赖于具体的应用场景。
目前,知识图谱在电力领域尚处于起步阶段,在电力设备健康管理的应用和落地方面,可参考其他领域应用的成功经验并结合行业特点进行分析。文献[52]指出,知识图谱可用于电力调度故障处理、电力巡检工单处理、电力客服智能问答,未来在智能搜索、智能推荐、智能问答、智能决策等应用上也有较好潜力。因此,本节在现有工作的基础上,详细阐述电力设备健康管理知识图谱的应用场景,总体如附录A 图A1 所示。
2.3.1 电力设备知识管理
电力设备知识来源于2 个方面:1)设备固有特性所组成的知识,如电力变压器是由铜、铁、纸等材料组成的复杂设备;2)人为经验知识,如检测变压器套管故障可依据其测量温度。前者是设备固有的属性和知识,可直接进行知识抽取;后者的知识却是动态变化的,并受限于科技发展程度、从业者经验等。早期健康管理工作可借助专家经验展开,但是随着电力设备投运数量的大幅增加,其所蕴含的知识也快速增长,这些知识零散地分布在在线监测系统、设备运行日志、电力巡检工单中,仅依靠专家经验难以应对快速增长的业务需求。因此,对这些海量多源异构数据进行处理并提取有用知识,形成电力设备知识管理系统,用于指导健康管理工作将是未来的应用场景之一,运用知识图谱可更快捷、高效地抽取和管理知识,为其他需要知识图谱的场景提供数据保证。
2.3.2 健康管理辅助决策
设备健康管理辅助决策包含3 个阶段:问答生成、搜索匹配和决策策略生成及推荐。问答生成面向的是机对机和人-机问答。机对机是由故障诊断系统评判后交由知识图谱进行处理,诊断结果一般比较规范,便于机器处理和理解。但人-机问答则需先理解人为意图,并将得到的数据处理成知识图谱可计算的三元组数据,然后送至知识图谱进行匹配操作,得到历史类似应对方案。例如,文献[53]就将用户意图转化为了诉求子图并与知识图谱中的故障描述匹配得到运维方案。在进行匹配时往往会得到多个结果,但是选取何种方案需要考虑运维方案给电力系统带来的影响,在此种情况下需要对生成的运维方案进行评分,并借助专家经验综合评定得到最优解。较之于传统的决策方式,更加全面地考虑了辅助决策会给电力系统带来的影响,并且可以为每个电力设备制定独特的巡检和运维方式。
2.3.3 数据+知识驱动的计算引擎
目前,电力行业正在积极部署数字化转型战略,数据中台的建设就是内涵之一,通过有效整合数据、发挥数据价值,可为电力设备数字化转型提供良好的数据基础。电力设备故障预测与健康管理目前主要分为数据驱动、模型驱动及混合方法3 类[2]。在电力数字化转型的背景下,基于数据驱动的电力设备状态评估和健康管理也必将迈上新的台阶。知识驱动和数据驱动策略各有优劣,前者过于依靠知识的质量、准则、专家意见以及其他可提供支撑的数据,后者仅依赖数据质量[54]。数据驱动的方法多基于机器学习和深度学习,数据稀疏性严重制约了该方法在设备健康管理中的发展。知识驱动的方法多依赖专家经验,此类方法具有较强的主观性,并且需要大量的人为经验积累,如何整合存在于其中的知识是个难点。人类所能理解的知识对计算机而言较难计算和理解,而知识图谱的出现就很好地解决了这个问题,它能从多模态数据和多源异构数据中提取知识,更好地对知识进行建模,将其转变为计算机可计算的数据或者程序。例如,文献[55]提出了一种基于数据和知识联合驱动的电力系统暂态稳定评估方法。单一依靠数据驱动或知识驱动具有很大的局限性,数据驱动表现为不可解释性,知识驱动表现为主观性,二者结合后在消除不可解释性带来的影响的同时也减少了知识的主观性。
2.3.4 自动化运维问答机器人
知识图谱广泛应用的另一个场景就是自动问答系统,旨在利用知识图谱中的事实来回答自然语言问题。它使普通用户能够通过自然语言方便地访问大型知识图谱中有价值但复杂的信息,这也是一个具有挑战性的问题[56]。自动化运维问答机器人属于知识推理的高阶应用,对比传统的巡检运维方式,运维人员需查阅大量的操作手册和处置规范,自动问答机器人通过理解问答,在知识图谱中进行搜索、推理得到答案,可帮助巡检运维人员快速查找问题,得到故障应急处置方案和巡检方案,明晰故障原因等,达到随时随地、所问即所得的目标,在最大程度上提高运维的灵活性。随着智能终端在电力系统中的广泛应用,自动问答机器人可有效与智能设备集成,形成嵌入运管系统中的中间件,而问题答案的质量则依赖于所构建知识图谱或者知识库的质量。例如,文献[57]详细总结了自动问答中的关键技术、评价标准、潜在挑战等问题,可为运维问答机器人的构建提供参考。
2.3.5 设备家族缺陷故障分析
电力设备的采购通常是大批量、集中采购,往往同一厂商生产的同一批次设备存在类似的缺陷和故障,不同厂家的产品质量也不尽相同。当某一电力设备发生故障时,就要进行设备家族缺陷跟踪,对同一批在运电力设备安排巡检,可有效避免由于家族缺陷带来的故障,也能为设备状态的多维度和差异化评价提供支撑,形成电力设备多维度状态评价的指标体系[58]。
传统的故障溯源工作涉及的设备数量较多,并且设备数据离散地存储在电力系统中,实现故障溯源是不小的挑战。在原有电力设备家族缺陷分析方法上应用知识图谱、知识推理及图分析技术,可实现知识的多跳推理和知识发现,挖掘隐含的实体关系对,可为健康管理工作提供新的思路。例如,文献[59]使用知识图谱对设备家族缺陷进行分析,构建了电力设备质量综合管理系统,可得到设备疑似家族性缺陷的概率并排序,便于用户判断其他相关设备发生潜在缺陷故障的可能性。
2.3.6 设备知识智能搜索引擎
谷歌最初提出知识图谱的目的是为了构建下一代搜索引擎,它可实现语义搜索,将用户意图转变为知识图谱能够理解的三元组进行匹配得到结果,在语义搜索的基础上还可以将搜索结果进行可视化展示。在知识图谱上也可以进行关系搜索,获得实体之间的关系。例如,搜索套管,可能会得到(套管,属于,变压器)、(套管,产生,过热故障)这样的三元组事实,便于对结果的理解。区别于传统的搜索方式,基于知识图谱的搜索引擎能在知识推理的基础上进行多跳搜索,获得更多的潜在知识。
随着电网规模的不断扩大,投运的电力设备越来越多,积累的设备运维日志、在线监测数据、行业标准文件等也呈现上升趋势,日常设备健康管理工作都需在这些文件中进行搜索获得想要的答案,而目标内容通常零散存在于各类文件和系统中,不能仅仅依靠单一文档制定相应的维护方案,通常是结合多个文件使结果更加精确、全面。而不同的巡检人员在面对同样的情况时可能会有不同的意见,如何使用较少的描述得到完备的搜索结果也是需要考虑的问题,知识图谱的出现就为设备知识的检索提供了全新的思路,可将图谱中相关联知识以及隐藏知识经过整合以后反馈给用户。
能源互联网的技术内涵是运用新一代信息通信技术,将电力用户及其设备、电网企业及其设备、发电企业及其设备、电工装备企业及其设备有机连接起来,通过信息广泛交互和充分共享,通过数字化管理手段大幅提升能源生产、消费和相关领域的安全、质量和效率[60]。能源互联网的构建离不开“电网一张图”业务的推进,其内涵是将电力系统中存在的各个子系统通过融合方式形成图拓扑结构,这也是能源电力系统实现数字化转型的途径之一。此外,电力系统输、变、配环节连通的各类电力设备天然形成了物理拓扑结构,也为电网一张图的构建提供了支撑。目前,电网一张图的构建还处于初步阶段,受限于数据及构建方法,一定时间内建立完整大规模的图结构还较为困难,可在单独的领域开展先试工作,再将各个分散的图进行融合。
电力设备健康管理知识图谱在数据的计算和存储上与电网一张图所使用的技术路线基本一致,都需要将数据存放在图数据库,这就确保了数据来源的一致性。知识图谱本质是由实体和关系构成的图结构,在空间结构上与电网一张图相同,从可计算性上保证了一致性。例如,文献[61]就提出一种电力图计算平台用于取代传统关系型数据库的计算方法,展示了图计算在电力系统中应用的可行性。
建立电力设备健康管理知识图谱可有效感知电力设备运行质量,而该过程需要解决数据-知识融合问题。长期以来,大数据融合主要集中在多源数据的统一访问上,缺乏对知识的理解,数据结构松散,没有解释数据背后的含义。因此,数据融合应与知识理解并行,尽可能形成机理模型,发现数据之间存在的关联关系[62]。
因此,健康管理知识图谱可视作电网一张图的一部分,知识图谱完成知识计算后再融入电网一张图中,通过打通数据壁垒,从设备健康管理环节,延伸至输、变、配环节,最终延伸至整个能源互联网领域,实现多图谱融合计算,如附录A 图A2 所示,其中,附录A 图A2 左侧部分是本文在已有数据的基础上构建的一个电力设备健康管理知识图谱(示例)。本文给出一个变压器运维知识图谱,见本文支撑数据,供感兴趣的读者参考阅读。附录B 表B1 与B2 为变压器实体信息及实体关系三元组举例。
一般情况下,为了契合各业务场景的需要,构建图谱时会为每个业务方单独开发知识图谱,方便与业务方共同管理数据。然而,随着业务及管理层级的深入,就会发现单个业务知识图谱因为规模较小,在文本语义理解类任务上非常受限,此时就需要将多个知识图谱进行融合,打通知识边界。例如,针对某电力设备可以构建其知识图谱,针对电力设备的某类故障也可以构建其知识图谱。由于不同的知识图谱信息来源不同,其知识描述体系也是不同的,多知识图谱融合不是简单地把知识图谱合并,而是要发现图谱中的等价实例,如何对知识图谱进行融合表示,对于建立统一的大规模知识图谱意义重大[63]。知识图谱融合涉及多种技术,这里就不展开介绍,读者可参阅文献[64]。
多知识图谱融合后的电力设备健康管理,在知识表示上会更为丰富,在事实呈现上会更加精确,在跨度上囊括了设备出厂、投运、检修、报废等环节的知识,对上层应用的支撑效果更好,进行知识推理能获得更多潜在知识,明晰数据之间的联系,为健康管理工作提供新的思路,让传统的运维巡检方式由感知变为认知。
电力系统数字化转型方兴未艾,传感技术、通信技术、智能电力装备以及电力系统集成化、智能化技术快速发展,为电网可观性、可控性以及智能化的提升带来巨大机遇[65]。电力设备健康管理作为电力系统中的关键一环,保障着设备安全和用电安全,在能源转型与碳中和背景下,借助知识图谱技术促进健康管理数字化转型迫在眉睫。
“数据先行”是数字化转型过程中的基础工作,通过挖掘企业积累的数据中的价值,有助于改变传统业务架构。例如,文献[66]将数字化转型的共性归结为技术、价值、结构和财务方面的变化。电力设备健康管理数字化转型中,同样需要引入新的技术,一方面是新型传感技术和在线监测技术的更新迭代,另一方面则是更为有效的数据管理方法、电力设备状态评估算法、更加智能的设备健康管理方案推荐算法。知识图谱技术的引入可满足数据知识管理的需求,而基于知识图谱的推荐算法也能较好地契合智能运维的推荐场景,将基于经验的运维方式转变为知识导向的运维,提前发现设备存在的运行风险,将事后维修转变为预防性维修,在评估结构上改变了传统模式,加入知识的解释之后更能阐释数据和故障的因果关系,做到定点、定向精准运维服务。从2020 年发布的《中国知识图谱应用趋势报告》[67]来看,能源电力领域作为劳动密集型企业,吸收了大量的劳动资源,业务复杂,面临着知识难以积累、人员培训难度大等痛点,在数字化转型过程中需要加快推进领域知识库的建立。利用知识图谱,可打通底层数据,将数据形成知识,整合行业知识形成知识中台,赋能上层应用。
电力设备智能运维强调2 个方面:一是设备具有智能性,二是对设备的运维管理方案具有智能性。设备的智能性是指基于对自身的智能感知、状态分析与健康管理而具备自主思维,可通过在电力设备本体(或边缘侧)配置嵌入式传感器与人工智能模块,完成本体信息采集、就近计算与信息交互,使电力设备本身具备“智慧”功能[68]。运维管理方案的智能性体现在系统能够根据当前设备运行的状态、风险给出最佳的巡检方案,将设备风险降到最低。由于故障的发生具有不确定性,定期巡检仍难以应对突发情况,智能运维就需要增加灵活性来应对电力设备故障的不确定性。传感设备的大量投入缓解了数据瓶颈问题,但是运维方案的生成、故障的推理溯源却是当前电力设备健康管理有待深入的问题,知识图谱技术的出现可有效解决智能运维方案生成及故障推理溯源。
开放领域中知识图谱技术最为广泛的应用场景就是推荐系统,通过对知识图谱中的节点进行聚类和分布式表示,以获得特征;对原有节点和新增节点进行分类,实现个性化推荐。同理,在电力设备健康管理知识图谱中也可实现对故障的分类和个性化运维方案推荐。通过设备运维日志、巡检手册、行业标准等电力文本语料所构建的电力设备健康管理知识图谱,涵盖了电力设备历史故障信息以及应急处理方案、运检方案等,为电力设备个性化运维提供了数据上的支撑。近年来,随着图神经网络、图卷积网络、深度学习在知识图谱实体分类、关系预测等任务中的应用,也为研究者提供了对于非欧氏空间数据处理的思路,为智能运维方案推荐提供了模型及算法上的保障。
电力设备健康管理知识图谱的构建是多学科融合的典型场景,不仅需要利用计算机技术从复杂的电力文本、语料中挖掘实体、关系、本体等构建知识图谱所需的关键成分,更需要电力系统良好的先验知识作为支撑。优质的数据和使用方法决定了图谱质量的下限,而对电力设备的深入理解则决定了知识图谱质量的上限。对本体层和数据层定义的不一致最终也会导致所构建的知识图谱有本源差别。所以,对计算机知识和电力系统知识的充分了解可使得构建的知识图谱具有良好的鲁棒性。
电力设备健康管理需要加强故障诊断方法、状态评估方法、故障机理、图谱构建方法、推理算法等的研究。完备的故障机理模型能够有效刻画现实物理模型,从设备机理出发,研究新型传感器获得能表征设备运行状态的关键数据,为故障诊断方法、评估方法提供理论上的支撑,这就需要电力系统从业人员加深对电力设备全生命周期的理解。为应对电力数据分布不均的问题,使用小样本学习、生成对抗网络等方法在现有数据上学习获得特征或者直接进行数据扩充,为知识图谱的构建提供方法上的保障也是研究的重点。
因此,在构建电力设备健康管理知识图谱的过程中,不同学科之间相互独立,却又互相联系,电力学科和计算机学科表现最为明显,而针对特定电力设备的一些部件,如变压器绝缘纸、GIS 绝缘气体等,甚至还需要材料学的介入。在能源电力系统转型的背景下,需要各个学科深入研究各领域中存在的难点和痛点问题,最终形成多学科交叉融合研究的新范式。
当前人工智能分为符号主义、连接主义、行为主义三大流派。符号主义的代表是知识图谱和专家系统,连接主义的代表是深度学习和人工神经网络,行为主义的代表是强化学习和机器人。符号主义拥有良好的解释性,而连接主义预测精度高但缺乏可解释性,行为主义不需要标注样本,可在复杂的环境中自行学习样本特征。在智能电网阶段,基于连接主义的人工智能方法在电力设备故障诊断、状态评估中获得了重要的应用,卷积神经网络、循环神经网络、生成对抗网络在各类电力设备故障诊断、故障预测、故障样本生成任务中取得了优异的表现,为健康管理工作提供了良好的算法模型支持。端到端的深度学习故障诊断和状态评估算法,接受大样本作为训练输入,所获得的模型本质上是神经网络结构的参数,而预测的过程则是参数计算的过程,计算和预测的过程不是透明的,过程缺乏可解释性。深度学习模型实质为黑箱模型,学习器对输入输出的映射往往不具可解释性,因而对电力系统生产实践的指导效果有限[69]。而根据深度学习模型得到的结果在参与电力设备健康管理辅助决策时通常是缺乏证据支撑的,且不能给出合理的解释[70],导致电力系统从业人员对机器产生的结果无法全部相信,还需借助专家经验。因此,需要加强对电力人工智能可解释性的研究,增强其可信度和可解释性。
知识图谱技术的出现打破了上述僵局,知识图谱的可解释性在于它是一种语义网络结构,包含了丰富的实体、关系、属性、概念等信息,更符合人类逻辑思维,这便使得解释成为可能。2017 年,国务院印发了关于新一代人工智能发展规划的通知,将关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理等技术作为新一代人工智能关键共性技术体系的重点突破领域。而知识图谱所带来的解释性可分为2 个方面:1)在所构建的知识图谱中应用知识推理技术,可获得故障原因并按需生成可解释的运维方案;2)与深度学习相融合,将深度学习诊断的结果转化为知识图谱可以理解的三元组进行推理,理解数据驱动方法的黑箱模型。
因此,虽然针对知识图谱本身的研究正在逐步展开,但是对于知识图谱与深度学习融合的可解释性研究目前尚处在探索阶段。这也是“人工智能2.0”时代最大的瓶颈问题——可解释性,这是因为现有人工智能过于依赖训练数据,缺乏深层次数据语义挖掘,导致可解释性差。未来的弱人工智能、可解释性和可理解性人工智能、强人工智能等在理论研究方面仍将任重道远[71]。这同样是今后研究中需要通过知识图谱增强电力人工智能可解释性的重点之一。
由于知识图谱技术具有良好的结构化知识表示方式和推理能力,近几年得到快速发展,并开始逐渐被引入电力系统调度、电网故障诊断、电力问答等领域,而在电力设备健康管理中还鲜有研究。在对电力设备进行状态评估、故障诊断、故障预测时,可在历史运维日志数据的基础上,构建电力设备健康管理知识图谱,可有效进行知识管理,并进一步采用数据+知识联合驱动的方法形成上层应用,可对数据驱动的黑箱模型进行解释,为辅助决策提供证据支撑,有助于理解电力设备故障机理,达到精准运维的目标。而在“电网一张图”、数字化转型等背景下,知识图谱的出现更是为“电力设备一张图”提供了良好的支撑。
随着知识图谱在电力设备健康管理工作中研究的深入,相信在未来会形成以知识为主体的“电力设备健康管理大脑”,赋予设备自我感知、自我认知的能力,更好地与业务场景相融合,最终提升电力设备健康管理的水平。
支撑数据和附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。