知识图谱及其在电力系统中的应用研究综述

2020-10-23 01:55高海翔苗璐刘嘉宁林湘宁董锴何祥针
广东电力 2020年9期
关键词:本体图谱实体

高海翔,苗璐,刘嘉宁,林湘宁,董锴,何祥针

(1.广东电网有限责任公司电力调度控制中心,广东 广州 510600;2.华中科技大学 电气与电子工程学院,湖北 武汉 430074)

随着电力系统规模的日益增大,新的知识不断涌入,系统中的知识总量呈爆炸式增长,其原因主要包括[1-2]:①电力系统的规模增大,动态特性日趋复杂,调度控制方法也越发复杂;②电力系统中的测控和通信装置不断升级,同步相量测量装置(phasor measurement unit,PMU)大量接入,数据的分辨率、精度和传输带宽增加;③光伏、海上风电等新型装置接入电网,在改变电网特性的同时也增加了新的知识;④电力市场化改革不断推进,电力系统的业务链条逐步细化,新的业务不断拓展。

这些电力系统中的新知识呈现出复杂和多变的特性:知识结构复杂,异构化知识不断增加;知识更迭迅速,更新频率逐渐缩短[3]。

面对电力系统中急剧增长的新知识,传统的知识组织和管理方式已经无法满足当前电力系统的需要。当前,以知识表示和知识推理为基础的知识库在电力系统中得到了较多应用,如结合传统专家系统的智能决策系统[4-6]、故障定位系统[7-8]和输电网规划决策[9]等。但是,这些知识库大多依赖于专家提取、整理并将数据以图表形式存储于数据库的传统知识管理方式,其所能够存储的知识结构较为单一,且每次更新都需要专业技术人员花费大量时间。特别对于电力调度、设备管理、数据交互、业务查询等知识更迭迅速的领域,现有的知识管理方式已经严重滞后于系统的发展需要。电力系统亟需新型、自动、智能的知识组织、存储、提取、推理方法和工具。

为了实现有效的知识组织和管理,已有研究将计算机领域中近年来广泛应用的知识图谱(knowledge graph)技术引入电力系统领域。知识图谱是以图的形式表现客观世界中的实体及其相互关系的知识库,是大数据时代人工智能符号主义的知识表达方式之一。知识图谱由谷歌公司(Google)于2012年提出,此后在互联网、金融、医药等领域得到了迅猛发展和广泛应用[10-11]。自知识图谱被加入谷歌公司的搜索引擎后,其规模在7个月内扩大了3倍。至2016年,谷歌公司构建的知识图谱已拥有超过5亿个实体和700亿条实体关系信息[12]。在当今的互联网领域,知识图谱已经成为语义搜索、智能问答、知识推理等多种知识智能服务的基础技术之一[13]。知识图谱可以有效组织、管理和利用海量信息,实现智能化的知识抽取、推理、存储和检索,其特性及应用场景与电力系统的需要十分契合。

在已有综述电力系统知识图谱的文献中,文献[14]介绍了知识图谱在智能电网建设中的意义和具体的应用场景,文献[15]介绍了电力系统领域知识的中文专业词典和知识图谱的构建分析方法,文献[16]简要探讨了知识图谱在电力系统领域的应用思考。现有的综述性文献并未对电力系统知识图谱的特性以及构建中的关键技术展开详细介绍,也尚未深入探讨电力系统知识图谱可能的应用场景和研究方向。其他有关电力系统知识图谱的文献则更多地聚焦于某个具体应用场景,探讨知识图谱在设备运维检修[17-18]、调度故障处理[19]、电力客服[20]和电网信息搜索[21]等场景中的构建和应用。值得指出的是,电力系统知识图谱目前的应用场景还较为有限,大多是对原有智能系统应用的直接扩展。例如,设备运维检修知识库和信息管理系统原为语义网(semantic web)的典型应用场景,调度事故决策原为智能专家系统的典型应用场景,将知识图谱应用于这些场景是对原有场景的进一步扩展和深化。事实上,知识图谱作为优质的对知识的组织、存储、获取和查询的人工智能方法,在电力系统领域具有更为广阔的应用潜力和前景。

本文在综述相关研究文献的基础上,阐述电力系统知识图谱技术的概念及其应用。首先,介绍电力系统知识图谱的概念及其在电力系统知识管理中的优势。其次,分别介绍电力系统知识图谱的自顶向下和自底向上2种构建方法。再次,结合电力系统知识图谱的特性,总结知识图谱在电力系统中的典型应用场景。最后,在分析当前研究热点的基础上,指出知识图谱在电力系统中应用的关键问题和可能的研究方向。

1 电力系统知识图谱的基本概念

1.1 知识图谱的定义

知识图谱是以图的形式表现客观世界中的实体及其相互关系的结构化语义知识库[13]。在知识图谱中,实体间关系的基本组成单位为“实体-关系-实体”三元组,实体的属性特征则使用“属性-值”对来表示[22]。在知识图谱中,“实体”是知识图谱的基本元素,“关系”是不同实体之间的关系,“属性”是对实体的说明,“值”为实体属性的具体数值。事实上,如果将属性视为实体与属性值之间的映射关系,那么“属性-值”对也可转化为“实体-关系-实体”的三元组。如果用节点表示实体,用边表示实体间的关系或实体的属性,那么在知识图谱中,实体(节点)间通过关系(边)相互连接,形成网状的图知识结构,构成对客观世界中知识的符号化表达方式[23]。

知识图谱本质上是一种语义网[24-25],其发展历程可追溯至20世纪50年代提出的“知识图谱”(mapping knowledge domain)[26]和语义网络(semantic network)[27-28]。当然,当今的知识图谱与之前提出的“知识图谱”相比,从概念到内容都已经出现了较大的变迁和扩展。

1.2 电力系统知识图谱的概念

按照应用领域划分,知识图谱可以分为通用知识图谱(generic knowledge graph)与领域知识图谱(domain knowledge graph)2类[29]。通用知识图谱中存储的知识为全面性、常识性的知识,不局限于特定应用领域范围[30-31],其典型应用场景为互联网中的智能搜索引擎,这类图谱对知识广度的要求较高,而对知识准确度的要求相对较低。领域知识图谱面向特定行业领域,也称行业知识图谱[32],这类图谱中存储的知识主要为专业性的领域知识。

电力系统知识图谱是将知识图谱技术应用于电力系统领域的技术形式,属于领域知识图谱,其典型应用场景包括知识管理、辅助分析和支持决策等[11]。电力系统知识图谱具有多种分类方式:按照图谱中存储电力知识的实体种类划分,电力系统知识图谱可分为文本知识图谱、图像知识图谱和多模态知识图谱[33];按照实体的存储规模划分,电力系统知识图谱可分为基于单样本的知识图谱和基于样本集的知识图谱[34];按照图谱中实体数据的存储和表达方式划分,电力系统知识图谱可分为资源描述框架数据库知识图谱和图数据库知识图谱[35]。

1.3 电力系统知识图谱的结构

从逻辑结构上,电力系统知识图谱可以划分为数据层(data layer)和模式层(schema layer)[13]。知识在这2个层次中均以“实体-关系-实体”三元组或“属性-值”对的形式存储。

数据层存储事实和实例,数据层中的实体一般为电力系统中较为具体的实际事物,如人、电网设备、组织机构、地点、日期时间以及电网中的具体操作等。模式层存储概念、规则、公理和约束条件,模式层中的实体一般为电力系统中经过提炼的抽象名词,也称本体[36]。在人工智能领域,本体被定义为清晰、规范化、可用语义描述的概念模型[37],如电力术语、物理量及公式等。模式层中的本体描述知识的概念层次体系,是模式层中事实的概念模板。

在电力系统知识图谱中,模式层是数据层的概念模型和逻辑抽象,数据层是模式层的实例化和事实应用[36]。例如,调度事故处置的原则性知识存储于模式层,而某次具体的事故处置过程则存储于数据层。由于模式层具备知识的概念提炼和逻辑推理的特性,因而一般可将模式层视为电力系统知识图谱的核心。一般来说,专业应用的电力系统知识图谱对知识的深度和准确性要求较高,因此需要构建较为精确的模式层[38]。而通用领域的电力系统知识图谱,如电力维基百科、电力政策知识图谱等,则更侧重数据层中实体数目的扩充,一般难以构建比较规范的模式层[39],部分图谱可能只有数据层而没有模式层[40]。

1.4 电力系统知识图谱的优势

电力系统规模庞大、结构复杂,随着信息化推进和电力业务拓展,电力的发、输、变、配、用等各生产和服务环节每时每刻都在产生海量的数据和知识。从知识特点上讲,这些电力系统中的知识具有以下特点[41-42]:①专业性——电力系统中的知识具有较高的专业门槛,其知识的种类繁多,形式复杂;②关联性——电力系统中的知识都不是孤立存在的,不同事件之间可能存在关联或依赖关系;③协同性——电力系统中的决策往往无法由单一专业作出,必须协同多专业共同决策;④异构性——电力系统中的知识不仅由结构化数据构成,还包含很多非结构化数据,而且这些数据的格式和维度都可能不同。这些庞大、分散、多源、异构的数据共同构成了电力系统中的知识。

面对这些海量知识,传统的依赖于人工的知识管理方式难以准确表达知识间的关联和协同关系,也难以实现异构知识的抽取、管理和利用,极大地影响了知识的管理和利用效率。与传统的知识表达方式相比,电力系统知识图谱的优势主要体现在以下3个方面[15,31,36]:

a)准确性。知识图谱将不同结构化的实体通过知识相互连接,更为准确地表达知识之间的关联和协同关系,从而将图谱中的异构信息组织起来成为相互联系、可以被利用的知识。而传统数据库仅通过表格和字段来组织和展示数据,难以准确描述信息间的关系,使得数据之间较为孤立。

b)智能性。知识图谱改变了传统的数据检索方式,可通过知识推理实现概念和逻辑层面的深层次检索,更为符合电力系统用户天然的检索需求。此外,电力系统知识图谱的构建技术也包含了自动化的知识更新和学习技术,能够通过不断更新和学习持续提高图谱的智能性。而传统数据库大多采用基于字符串匹配或者超链接等字面意义上的检索方式,无法实现知识推理,更新难度较大。

c)可解释性。不同于神经网络提供的黑盒模型,知识图谱基于逻辑符号表达的推理过程对人是可解释的,因此基于知识图谱的电网辅助决策系统不仅能够给出决策结果,还可以提供决策的依据和过程。通过理解决策过程,增加人对决策结果的信赖度,更好地提升辅助决策效果。这一点也是传统的智能决策系统难以实现的。

2 电力系统知识图谱的构建

电力系统知识图谱的构建方法可分为3种:自顶向下(top-down)、自底向上(bottom-up)和两者混合[43],以下主要介绍自顶向下、自底向上2种方法。

2.1 自顶向下

自顶向下方法先构建知识图谱的模式层,然后再构建数据层[43]。在自顶向下构建中,首先根据现有的结构化数据或专家知识库构造模式层中的本体及其相互关系,形成对应的概念模型和规则关系,然后再依照此模式从数据中抽取实体,构造数据层[30]。由此可见,自顶向下构建方法是从抽象到具体,先有概念而后有具体实现的构建过程。自顶向下构建方法包括本体学习和实体学习2个步骤[28],如图1所示。

图1 电力系统知识图谱自顶向下构建方法Fig.1 Top-down construction method of the knowledge graph for power systems

2.1.1 本体学习

本体学习构建知识图谱的模式层,主要包括术语抽取、概念抽取、关系抽取以及规则学习4个步骤[28]。

a)术语抽取。术语是知识图谱中的实体、概念在电力系统领域专业化的固定表示形式。术语抽取的目标是获取用于表示电力系统中概念或本体的专业标记集合。术语抽取的主要方法包括基于规则的方法、基于字典的方法和基于统计的方法等[30]。

b)概念抽取。在术语抽取的基础上,进一步对电力系统中的概念进行抽取。概念是更加抽象、具有代表性和概括性的术语,能够代表一定范畴内部的全部实体。例如,“线路”这一概念可代表“架空线”“电缆”“混合线路”等多个术语本体。概念抽取的方法包括基于规则的方法、基于统计的方法以及两者相结合的方法等[29]。

c)关系抽取。关系抽取用于构建概念之间的关系。对于电力系统中的概念,通过识别数据源中概念间的语义关联关系,从而将其关系抽取出来。关系抽取方法包括基于词法模式的方法、基于百科的方法和基于共现分析的方法等[18]。

d)规则学习。规则学习是指在本体抽取过程中,对包含了实体、关系的通用句式或者模板进行学习的过程。在模式层中提炼得到的规则,可用于数据层的实体抽取中。常用的规则学习方法是基于自举的方法[30]。

2.1.2 实体学习

实体学习构建电力系统知识图谱的数据层,在本体学习的基础上,抽取数据中的实体及关系信息。这些抽取的实体可以根据其所对应的概念,按照模式层的关系层次组成实体间的结构关系。实体学习的主要关键技术包括实体对齐和实体填充[30]。

a)实体对齐。实体对齐是指将同一实体的不同表达方式归一化的知识融合过程,也称共指消歧(coreference resolution)。在原数据中,同一个实体可能由于语言习惯、使用范围和应用领域的不同而存在不同的表示方式。例如,在实际使用中,“#1母线”可能具有“#1M”“1#母线”“1M”等多种不同的表示方式。实体对齐将这些表达方式合并,使用全局唯一的标志表征此实体,从而达到有效精简图谱中实体数量、提高构建和检索效率的目的。实体对齐的方法包括基于概率的方法和基于机器学习的方法等[11]。

b)实体填充。实体填充为已获得的实体增加描述,使得实体能够更好地被人理解和区分。实体填充增加的描述数据包括实体属性和实体同义名称等[11]。例如,“#1母线”实体可填充的属性包括“设备类型”“维护单位”“设备型号”“间隔数量”等。

2.2 自底向上

自底向上方法先构建电力系统知识图谱的数据层,然后再构建模式层[38,40]。在自底向上构建中,首先从现有的结构化数据或电力百科中提取实体、属性和关系加入数据层,然后对这些知识要素进行归纳,将其抽象为本体概念,并最终形成模式层。由此可见,自底向上构建是从具体到抽象,先有具体实现而后归纳抽象为概念规则的构建过程[24]。自底向上构建方法包括信息抽取、知识融合和知识加工3个步骤[34,44],如图2所示。

图2 电力系统知识图谱自底向上构建方法Fig.2 Bottom-up construction method of the knowledge graph for power systems

2.2.1 信息抽取

信息抽取从数据中抽取实体、属性与实体间的相互关系。信息抽取的关键步骤包括实体抽取、关系抽取和属性抽取[45]。

a)实体抽取。实体抽取从数据中抽取实体,实体抽取质量对知识图谱的构建效率和质量影响很大,是信息抽取的基础和关键步骤。实体抽取的方法包括基于字典的方法、基于规则的方法、基于统计的方法和基于机器学习的方法等[29]。

b)关系抽取。关系抽取从语料数据中抽取实体之间的关联关系,将离散的实体关联起来形成网状的知识结构。常用的关系抽取方法包括基于规则的方法和基于学习的方法[46],其中后者又分为有监督、半监督和无监督学习。

c)属性抽取。属性抽取从数据中抽取实体的属性信息,对实体进行完整描述。由于实体的属性可视为实体与属性值之间的描述关系,所以可将属性抽取问题视为关系抽取问题。从数据来源上区分,属性抽取方法包括源于百科的方法和源于其他数据的方法[44]。

2.2.2 知识融合

由于数据来源和质量的不同,信息抽取得到的数据层中可能存在大量的冗余和错误,因此需要通过知识融合对这些抽取得到的数据进行梳理和规范化整合。知识融合的关键步骤包括实体对齐和实体消歧[46]。

a)实体对齐。实体对齐与自顶向下构建中的实体对齐类似,主要解决同一实体采用不同表达方式的问题,将同一实体的不同表达方式归一化表示。这两者的不同在于,自顶向下构建中的实体对齐主要针对数据源数据,而知识融合中的实体对齐针对数据层中已经抽取得到的实体数据。例如,如果已经抽取得到“#1母线”“#1M”“1#母线”“1M”等多个实体,那么实体对齐过程会将这些实体合并为一个实体,用标准的“#1母线”对其进行命名,并对这些实体的属性、与其他实体的关联关系等进行合并。

b)实体消歧。实体消歧主要解决不同实体采用相同名称的问题,从而建立准确的实体链接。在电力系统的实际语言环境中,经常存在某个名称对应多个具体实体的问题。例如,“#1母线”可以用于代表不同变电站内的母线,也可以表示同一个变电站中不同电压等级的母线。通过实体消歧,可以根据实体的不同属性和关联关系,区分这些不同实体。实体消歧的主要方法是聚类法[46]。

2.2.3 知识加工

知识加工是对已构建好的实体网络进行抽象,将实体抽象为本体,由数据层构建模式层的过程。知识加工的关键步骤包括本体构建、知识推理和质量评估[33]。

a)本体构建。本体构建将实体进行抽象,进而构建本体。本体构建既可以采用人工构建,也可采用数据驱动构建。其中,数据驱动构建包含3个关键步骤:实体并列关系相似度计算、实体上下位关系抽取以及本体生成[46]。

b)知识推理。知识推理从模式层中已有的本体关系出发,经过推理建立新的关系。知识的推理方法包括基于逻辑的推理和基于图的推理[33]。知识推理可以拓展和丰富图谱中存储的知识,从现有知识中发掘新的知识,是电力系统知识图谱构建的关键环节。例如,知识图谱可以从电力系统连锁事故实例的发展过程中识别系统的薄弱环节,从而采取相应的预防措施提升系统安全性。知识推理是知识图谱的知识发现功能的核心环节,其具有广阔的应用范围。从层次上,知识推理不仅可用于模式层,也可应用于数据层;从内容上,知识推理不仅可用于关系推理,也可用于属性推理;从阶段上,知识推理不仅可用于知识图谱构建,也可用于知识图谱更新和学习。

c)质量评估。通过本体构建和知识推理得到的模式层中可能存在错误,如本体识别错误、关系推理错误或者逻辑错误等。质量评估通过量化知识的可信度,舍弃可信度较低的知识,提高模式层的质量。质量评估的方法包括基于随机抽取的方法、基于深度学习的方法和采用专家人工评定的方法等[33]。

2.3 电力系统知识图谱的更新

电力系统中的知识在不断增加和更新,知识图谱在建成后还需要动态构建和迭代更新,不断增加新的知识、删除旧的知识并相应调整知识图谱的结构。知识图谱的更新包括数据层的更新和模式层的更新[20]。相对而言,数据层更新对知识图谱的整体架构影响较小,而模式层更新的影响较大;因此,知识图谱的数据层往往可以采取自动化的更新方式,而模式层更新则往往需要人工确认和审核。

从更新方式上分,电力系统知识图谱的更新可以分为增量更新和全量更新[47]。增量更新是以新增数据作为输入对知识图谱进行更新,其资源消耗较小;全量更新是以更新后的全量数据作为输入,从零开始重新构建知识图谱,其资源消耗较大。

3 电力系统知识图谱的应用

知识图谱技术已经在互联网、金融、医疗等专业领域具有较为成熟的应用,本文结合电力系统知识图谱的特点,介绍其在电力系统中的典型应用。

3.1 异构数据管理

电力系统的正常运行依赖于各个业务系统间的数据传递和相互配合,而这些业务系统是先后在不同年代、不同平台上建设的,它们所使用的数据库、操作平台和具体的数据结构均可能不同,由此导致自动化系统中大量异构的结构化和非结构化数据出现,例如不同格式的电网拓扑和运行数据、电力设备信息、地理环境数据、气象数据、音频视频和大量不同格式的文本数据等。为了实现这些异构数据之间的沟通交互和信息集成,电力系统需要在不同平台间加入大量的数据转换接口和中间环节。这些数据平台各自相对独立,数据之间缺乏联系,难以实现快速、跨平台的数据检索和集成管理。异构数据管理和集成成为制约电网自动化水平提高的瓶颈[48-51]。

电力系统知识图谱继承了本体和语义网技术在异构数据集成和管理方面的优势[25]。在知识图谱中,实体可以由不同结构的数据构成,这些实体通过关系相互连接形成网状结构。利用电力系统知识图谱,可以有效组织、存储和查询电力系统中的异构数据,构建可被各业务系统共享的电网运行知识库[41,52-54]。电力系统知识图谱在异构数据管理方面的典型业务场景,包括在能源互联网中的能源数据管理[24]和包含众多设备异构化信息的电力设备信息管理[55],进而建立电力系统中全业务贯通的统一数据中心[14]。数据中心将收集到的、分散在各个专业数据库中的异构数据整理起来,实现跨专业的统一知识管理、数据关联推理和数据检索服务。统一数据中心可以实现电力系统中数据的“一处录入、全网使用”,保障数据的真实性、完整性和一致性,减少跨专业数据检索和沟通所需的人力资源成本。

3.2 智能搜索与深度问答

随着电力系统中知识总量的不断增长,对知识的智能搜索和深度问答需求也在逐渐增加。例如,社会公众需要查询电力能源相关政策、电力系统基础科普知识和安全用电常识等,电力市场主体需要查询电力市场规定需要披露的公开信息和相关的发文通知,电网公司的员工需要查询公司内部的规程规章、公司内部的办事业务流程和所需材料等。传统的搜索引擎仅能够实现简单的关键字匹配和检索,缺乏灵活、智能和个性化的知识检索方式,因此部分场合仍采取人工咨询的方式,占用了较多的人力资源和沟通成本[21]。

电力系统知识图谱可以实现智能化的搜索和深度问答,采用知识图谱技术的智能化人工助手能够像人一样与客户聊天,也被称为“聊天机器人”。当用户发起检索时,搜索引擎可以借助知识图谱对用户查询的关键字进行解析和推理,将其映射到具体概念或实体上,然后根据图谱中的关联关系,向用户返回高质量的搜索结果[46]。通过电力系统知识图谱,智能语义搜索不仅可以通过上下文理解用户所查询的具体内容,避免相同名称引起的歧义,还可以提供与搜索结果相关的结构化背景和相关知识,使得搜索结果更为准确和丰富。电力系统知识图谱技术在智能搜索与深度问答方面的典型场景包括电网模型本体智能问答系统[19,56]、调度自动化系统业务与流程检索[51]和电力设备质量综合管理查询系统[57]等。电力系统知识图谱使得人机交互不仅可以使用传统的搜索方式,还可以采用正常对话的形式。当用户提出问题后,人工智能会对问题进行语义分析并将其转化为结构化数据,并在检索到答案后以自然语言的方式解答用户的问题或者执行用户指令[41,46]。例如当用户以“八月份电费多少”这样的问题来查询电费时,电力系统知识图谱不仅能够准确识别问题并回答,还可以给出按天和按时段的用电量统计分布,进而针对性地给出节约用电的建议,如“中午时段将空调调高一度,一个月可以节约3%的电费”。据统计,1个省级电网客户服务热线受理的工单数年均数量可达400万条[20],且涉及业务咨询、故障报修、投诉申诉等多种供电服务类型。使用电力系统知识图谱可以大幅提高电力公司受理用户服务的效率、缩减用户等待时间、提升用户体验,使电网企业更好地为用户服务。

3.3 智能辅助决策

电力系统的调度决策实质上是对多维数据的处理和推理过程,这些需要处理的数据既包含当前电网的实际状态和事故的具体信息,也包含调度规范规程、故障处置预案、已有事故的处理过程和经验等。调度决策就是调度员根据这些多维数据,结合自己的工作经验和专业知识,推理事故发生的原因和处置方法,制订调度决策隔离故障,减少停电损失,并使电力系统恢复到正常运行状态的过程。现有的调度自动化系统无法理解这些多维信息所代表的深层次含义,也无法利用这些信息实现事故处置的推理和决策;因此,当前的电网调度仍然依赖于调度员的人工决策,而调度员在处理海量信息时受限于人的反应速度和思考能力,难以在海量故障信息中及时准确地识别故障并作出决策。此外,调度专家的经验也难以传承和积累[18]。

电力系统知识图谱可以实现电力系统的调度辅助决策。目前,电力系统知识图谱在辅助决策方面的典型场景包括电网调度控制决策[18,58-59]和电力通信网智慧大脑[60]等。图谱对事故处理所需的多维数据进行抽取、表达、学习、组织和存储,当事故发生后根据事故特征对知识图谱进行检索和推理,提供相关知识和决策方案为调度员提供辅助参考。对于事故处理中的部分非关键环节,如故障初报、保护信息汇总、日志记录、信息通报,都可以由知识图谱直接调用相关模块完成,从而减少事故处理期间对调度员的干扰,使调度员能够将精力集中于事故处理中。知识图谱基于逻辑符号表达的推理过程对人是可解释的,理解决策过程可以增加人对决策结果的信赖度,进而增加辅助决策的实用性。根据每次的决策实践效果,知识图谱可以不断更新完善,从而为决策提供全方位、多层次、动态化的支持。

4 电力系统知识图谱的关键问题和研究方向

4.1 研究现状与热点

在理论算法层面,目前知识图谱技术的研究热点为如何改进知识图谱的建模方式和检索算法,实现更加快速、智能、高效的图谱构建、知识检索和推理应用。典型的研究包括:文献[61]提出了基于共享嵌入方案的多语言实体对齐技术,通过嵌入学习过程和自学习对齐过程,利用文本语料库附带的监督信号来改善实体对齐效果;文献[62]探索了知识图谱的多层次扩展,将层次化和网络可视化结合,构建了统一数据表示的层次知识图谱模型;文献[63]提出了以贝叶斯网络为知识表示和推理框架的知识图谱知识检索技术,将知识图谱中描述的领域知识与用户行为记录中蕴含的知识进行有效融合;文献[64]用神经模型对知识图谱中的三元组进行建模,从而可以根据学习过程构建关系模型,并能够准确预测三元组的正确性;文献[65]提出了基于辩论动力学的知识图自动推理新方法,从而创建了能够保持竞争性预测准确性的可解释方法。

由于知识图谱在电力系统领域的研究尚处于起步阶段,已有研究更多地聚焦于探讨知识图谱在电力系统中具体的应用场景,以及在这些场景中如何构建相应的电力系统知识图谱。当前知识图谱在电力系统领域的应用场景还比较有限,大多是原有智能系统应用场景的直接扩展,如电网运行知识库、信息管理系统、电力系统辅助决策等,将知识图谱应用于这些场景是原有应用场景的扩展和深化。然而,知识图谱作为优质的知识组织、存储、获取和查询方法,在电力系统领域具有更为广阔的应用前景和潜力。为了扩展知识图谱技术在电力系统中的应用场景,可能存在以下关键问题和研究方向。

4.2 专家标注的电力系统知识图谱构建

目前,电力系统中的知识大多分散存储于各个不同的数据库中,而且存在专业性强、异构性高、关联性大等特性,因此相比通用领域,电力系统知识图谱的构建中存在以下难题[58]:

a)电力系统知识图谱构建所能够获得的数据源较少,没有成熟的开放语料库可供训练和学习,缺乏足量可复用的知识源。而在通用领域,数据来源较多,而且已有较为成熟的开放语料库。

b)电力系统知识图谱可供学习的数据一般比较零散、非结构化、质量不一,在知识图谱构建过程中本体、实体等知识的抽取难度较大,难以制订统一化的抽取规则。在开放通用领域,出现次数多的实体一般是用户更为关注、也即更为关键的实体。然而在电力系统的语料数据中,很多关键概念的出现次数并不一定很多。如果采用通用的知识抽取方法,这些概念就有可能在抽取中被弃置。

c)电力系统知识图谱构建时需要分别对各专业的业务需求和经验进行梳理和分类,不同专业间的业务壁垒可能导致知识图谱构建方法适用范围的局限性。

因此,电力系统知识图谱无法直接采用与通用领域相同的构建方法,必须针对性地对其构建方法展开研究,并在应用于不同专业时对其进行差异化调整。后续研究需在理解电力系统知识特性的基础上,挖掘不同专业中知识表达的固定模式,研发适用于电力系统的自动化知识抽取方法,从而提升知识图谱构建的规模和精确性。此外,电力系统中存在一些比较晦涩难懂的专业术语和表达方式,这些术语和方式难以简单从字面意义上理解,也难以完全通过机器学习过程准确纳入知识图谱。因此电力系统知识图谱的构建必须有专家参与,由专家对原始数据进行标注,使数据包含一定的语义信息用于机器理解和学习。如何筛选需要专家标注的数据、如何使得机器读懂专家标注的语料信息、如何在保证准确性的前提下尽量减少构建过程中所需的专家工作量,都是电力系统知识图谱构建中需要研究的关键技术和难题。

4.3 电力系统知识图谱的知识推理

知识推理是电力系统知识图谱知识发现的主要方式。通过电力系统知识图谱的知识推理,有助于知识图谱挖掘出现有数据中没有明确表达的隐含关联关系,从而使知识图谱更好地理解人的思路。这些关联关系可能在技术人员日常交流时作为无需特意指出的常识或者默认前提,从而使得知识图谱更好地满足电力系统中知识管理、检索和决策的需求。同时,知识推理也有助于知识图谱挖掘出新的知识关联关系,从而丰富电力系统中的知识,并反过来促进人的思考和提升对电力系统的理解。

在现有电力系统知识图谱的研究中,尚未提出有效的知识推理方法。为了实现电力系统知识图谱的知识推理,一方面要研究符号化的自动知识推理方式,结合已有的基于图和基于逻辑的推理方法,分别设计模式层和数据层的推理方法,并给出新知识在2个层次间相互印证和启发的机制。另外一方面,需要制订知识推理的评判指标和验证流程,通过指标对推理出的知识进行评判和筛选,综合利用逻辑判断、仿真分析、实例验证等方法,剔除不合理的知识、保留更为合理的知识,并最后提交专家进行鉴别和筛选。

4.4 电力系统知识图谱的增量更新和质量评估

当前电力系统处于史无前例的发展变革中,新厂站、新线路、新设备不断接入,增量配电网业务逐渐推进,市场化改革使得电网运营方式和调度模式不断变化,电力系统中的知识也在经历不断增加和更新换代,因而电力知识图谱也需要不断地学习和更新。

现有研究中,电力知识图谱的更新技术对人工干预的依赖性较大,导致知识图谱更新的工作量很大。可以预见,随着知识不断积累,依靠人工制订规则和逐条检视等图谱更新模式所需的人力资源将大幅增加,而且其更新频率也将无法满足电力系统的实际需要。特别是将知识图谱应用于电力调度辅助决策中时,由于电力系统状态随着负荷分布、发电出力、系统拓扑等物理量的变化而实时变化,电力系统的控制原则和事故处置过程也可能随时变化,电力系统知识图谱的更新频率也必须与之匹配,才能够在事故发生时给出与系统实际相符的实用决策建议。研究电力系统知识图谱的自动化增量更新方法,制订指标对其更新质量进行评估,并在更新质量过低时及时舍弃更新或寻求人工干预,进而通过反复迭代提高自动化更新质量,减少更新过程对人工干预的依赖,同样是电力系统知识图谱的重要研究方向之一。

5 结束语

在当今的大数据时代,各行业知识都面临爆炸式增长,知识的表达和组织方式成为了各专业领域的研究热点。知识图谱是以图的形式存储实体及实体间关系的知识库,可以实现有效的知识组织、管理和利用。为了将知识图谱技术应用于电力系统,本文介绍了电力系统知识图谱的概念、构建方法及其应用场景。

目前知识图谱技术在电力系统中的应用研究尚处于初步阶段,针对现有研究的不足,本文提出了知识图谱在电力系统中应用的关键问题和可能的研究方向,以期为后续研究提供参考。

猜你喜欢
本体图谱实体
眼睛是“本体”
绘一张成长图谱
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
专题