张凡,陈浩敏,姚森敬,邓远发
(1.南方电网数字电网研究院有限公司,广东广州 510700;2.南方电网深圳数字电网研究院有限公司,广东 深圳 518000)
知识图谱是一种大型的语义网络,用于描述客观世界的概念实体时间以及实体映射关系[1-2]。与电网结构传统语义网络相比,构建电力知识图谱能够全面覆盖电力网络实体,能够有效采集电网数据属性、关系、实体信息等[3]。文献[4]给出了基于知识图谱的安全分析架构图,整个架构分为数据采集层、数据预处理层和安全分析层。通过数据采集层采集构建知识图谱所需的原始安全数据。利用数据预处理层加工安全数据,从而获得更深层次的知识。选择安全分析层预处理电网数据,构建安全分析知识图谱。安全分析层可以制定查询规则,查询异常行为、异常实体,同时可以基于已有的风险评估模型进行资产风险评估。文献[5]基于知识图谱技术,探索电力设备缺陷记录检索方法,提升缺陷记录检索效果。但上述方法存在重复采集电网数据问题,使最终生成的知识图谱置信度过低,效果不理想。因此,该文提出基于电网多源数据的电力知识图谱构建方法,提高知识图谱置信度。
采集实体电网多元素数据时,以电力发电厂与电网客服系统作为采集对象[6]。实体电网多源数据采集架构如图1 所示。
整合实体电网架构中相同源头的电力知识数据[7],赋予实体电力知识权重:
其中,E|ε|表示电网中实体电力知识数量。电力知识间的相似性表示为:
其中,a、b分别表示不同的电力知识实体,φ(a)、φ(b)分别表示知识相似性函数和变换约束函数。定义上述得到的相似性电网多源数据的实体集合为E。为了减少相同电网知识的重复采集[8-9],将可能含有语义相似的实体进行平滑处理:
其中,ei、ej分别表示含有相同电力知识的电力知识实体,计算得到重复采集的电力知识实体:
其中,wij表示采集得到电力知识实体间的连接矩阵,N(ei)表示参与计算的电力实体数量。将采集处理后的电网多源数据作为处理对象,抽取实体内的电力知识。
将电力知识间的关系转变为分类器可识别的特征数值[10],转变过程为:
其中,M(r)表示差异参数,vr(ei,ej)表示电力知识的差异函数。转化处理电网多源数据后,计算可识别知识变量中的互信息表征:
其中,f表示电力知识类别中的变量,P(r)P(f)表示变量与特征数值间的联合分布[11]。
在标注互信息表征关系的同时构建最大熵模型,电力知识的抽取过程如图2 所示。
图2 电力知识抽取过程
根据图2 可知,电力知识最终生成一个具有实体关系的三元组[12],构建电力特征筛选过程:
其中,fi(x,y)表示第i个电力知识关系三元组的特征方程,λi表示特征方程的权重参数,k表示得到的三元组数量,Z(X)表示归一化因子。
计算上述抽取得到的电力知识逻辑参数:
其中,z表示电力知识集合,Q(z(i))表示具有逻辑性的电力知识,P(x(i),z(i))表示电力知识的似然函数[13-14]。
构建电力知识图谱前,消除该部分冗余,消除过程为:
其中,E(Δ)表示电力知识冗余结构参数[15],γ表示冗余的间隔参数[16]。消除该部分冗余后,汇总上述逻辑参数对应的电力知识[17],知识谱构建过程如图3 所示。
图3 电力知识谱构建过程
在电力知识谱构建过程,控制实际电力知识采用自顶向下的构建方向。设定电网多源数据开放获取链接,不断更新电力知识的实体关系。综合上述处理,最终完成基于电网多源数据的电力知识图谱构建。
以表1 电力系统运行标准参数为准,搭建电力实验平台。
表1 电力系统运行标准参数设置
采用集中部署的电力平台作为电网多源数据的采集对象,采集数据的电网结构如图4 所示。
图4 电网多源数据目标采集结构
在电网多源数据目标采集结构下,使用文献[4]方法、文献[5]方法以及文中设计的方法进行实验,对比不同知识图谱构建方法的性能。
对图4中的电网多源数据采集20次,将电力知识常识作为标准,构建知识图谱准确率,计算公式为:
其中,T1表示被正确预测的知识关系数量,T2表示预测出的知识关系数量。
不同图谱构建方法的准确率结果如图5 所示。
图5 不同图谱构建方法准确率结果
根据图5 可知,文中设计的知识图谱构建方法最终产生的准确率数值较高。在处理相同数量的多源数据数量时,准确率保持在97%左右。
保持上述实验环境不变,将构建知识图谱中各项指标作为处理对象,对多源数据进行召回,获取不同方法的召回率,计算公式为:
其中,T3表示电网多源数据包含的知识图谱关系。不同构建方法产生的召回率结果如图6 所示。
图6 不同图谱构建方法召回率结果
根据图6 可知,文献[4]方法平均召回率约为0.50%,知识图谱构建时对电网多源数据的召回数量较小。文献[5]方法产生的平均召回率约为0.58%,实际召回的电网多源数据数量较多。而文中设计的方法平均召回率约为0.78%,召回处理的电网多源数据数量高于文献[4]方法和文献[5]方法,最终得到的知识图谱结构更加完整。
以不同知识图谱构建得到的三元组F 值作为对比对象。知识图谱三元组中的F 值越大,则表示构建得到的电力知识图谱置信度越高,计算公式为:
变换构建方法处理的多源数据组数量后,计算并统计不同方法的F 值。F 值大小如表2 所示。
表2 不同图谱构建方法F值结果
根据表2 可知,文献[4]方法得到的F 值在53 左右,实际构建得到的电力知识图谱的置信度较弱。文献[5]方法得到的F 值在73 左右,对应得到的电力知识图谱的置信度较高。而文中设计的方法得到F 值在93 左右,与文献[4]方法和文献[5]方法相比,文中设计的方法实际构建得到的知识图谱置信度较高。
随着电力电网规模增大,电力数据管理工作趋于复杂。为此,以电网多源数据为基础,构建电力知识图谱具有一定意义。电网多源数据的电力知识图谱构建方法能够改善现有图谱构建方法的不足,为今后电力知识图谱系统设计提供理论支持。