基于知识图谱与人工智能的电力数据分析算法研究

2023-11-21 14:12薛晓茹徐道磊路宇唐轶轩
电子设计工程 2023年22期
关键词:三元组图谱分布式

薛晓茹,徐道磊,路宇,唐轶轩

(国网安徽省电力有限公司信息通信分公司,安徽合肥 230000)

随着电力企业数字化转型的推进,当前电力公司已普遍依靠移动网络系统提供智能客服功能,并由智能机器人进行客户疑问解答。但智能机器人存在复杂专业问题难以识别、无法帮助客户进行业务办理、与客户在线实时互动能力不足等问题,从而影响了客户线上办理业务的体验及电力公司线上业务的进一步拓展。目前,系统后台所使用智能客服机器人的服务能力有限,且知识更新仍需软件提供商现场维护,费时费力。因此,亟需建设实时、互动化与智能化的线上服务渠道[1-6]。

随着人工智能技术(Artificial Intelligence,AI)的发展,传统的离散、非结构化知识体系已逐步被高组织性的语义网络所取代。建立电力营销领域的知识图谱(Knowledge Graph),是将复杂多源的专业业务知识结构化的过程,也是高效查找复杂关联信息、提升电力数据分析效率及整体服务效能的关键路径[7-11]。基于知识图谱可随时完成新营销业务流程的学习和嵌入,从而不断推进“互联网+”营销服务的深入。该文在电力营销知识图谱的基础上,对数据分析的方法展开了研究,并介绍了传统知识图谱的构建与表示方法。同时还基于神经网络(Neural Network,NN)对知识图谱的分布式表示方法进行了改进,进而提升了传统方法在复杂电力营销语义下映射的准确性。

1 理论基础

1.1 知识图谱的分布式表示

知识图谱是一种由节点、边组成的大规模语义网络,且其边表征了节点间的语义关联[12-14]。知识的获取、融合、计算与推理是知识图谱中的关键技术。而这些技术的实现基础则是知识图谱的分布式表示,其对于图谱的构建、管理效率均具有决定性的影响[15]。通过分布式表示,可将节点、关系间的词向量映射至低维空间,并高效存储知识图谱的结构及语义特性。

对于电力营销系统,基于原有基础数据构建知识图谱的过程如图1 所示。

图1 电力营销服务知识图谱构建

在图中流程的基础上,为实现电力营销知识图谱的构建,需研究图谱的分布式表示技术。在计算机中知识图谱的基本存储单元是三元组,其可表示为:

其中,h为头实体,t为尾实体,r则为h到t的约束关系。E、R、S分别为知识图谱网络的实体、关系与三元组集合。根据如图2 所示的基于翻译的知识图谱分布式表示方法TransE(Translating Embedding),在h和t之间经过关系r可达到距离最近,即:

图2 TransE方法示意图

记f为度量h、t实体间的分数函数:

其中,Ln为范数。通过优化得到基于式(3)的铰链损失(Hinge Loss)准则Ψ为:

根据h、r、t三者映射空间的不同,在TransE 的基础上又发展出TransD、TransH 等系列算法。这类基于翻译思想的Trans 系列分布式表示方法,凭借其参数少、训练高效的优势均取得了良好的应用效果。但此类方法更适用于一对一的线性约束,而对大规模知识图谱下的复杂三元组关系无法准确表述。

1.2 基于TBPN的分布式表示

为表述知识图谱的多约束特性,考虑到实体、关系之间并无本质差异,文中从三元组的交互特性出发[16],设计了如图3 所示的三分支并行神经网络(Three Branch Parallel Neural Network,TBPNN)。该网络内的分支结构相似,且每个分支均由交互层、非线性层及输出层组成。

图3 TBPNN网络结构

记W为网络的传播权重矩阵,b为神经元传播的偏置项,则网络在交互层、非线性层、输出层的传播函数分别可表示为:

TBPNN 网络在训练时,采用误差反向传播(Back Propagation,BP)算法。由于三分支网络的输入对于正样本具有相似度,而对负样本的相似度则较低。因此,传统网络的损失函数会在正负样本间震荡。为了克服该影响,引入了比例Sigmoid 函数,则有:

其中,α为动态调整因子,其可调节Sigmoid 函数的取值范围。根据式(9),能够得到铰链损失函数为:

其中,γ是正负样本间隔,且为S(T′)的负样本集。由随机抽取的实体或关系h′、r′、t′对原有三元组的实体或关系进行替换得到:

经测算,机组90%THA、75%THA和50%THA负荷工况锅炉给水温度分别提高6 ℃、12.1 ℃和18.1 ℃;汽轮机热耗下降5、13和44 kJ/kWh;锅炉排烟温度升高1.5、3和5 ℃,锅炉效率下降0.05%、0.15%和0.25%。汽轮机回热系统优化后,各负荷工况锅炉脱硝装置入口烟气温度提升至310 ℃以上,有利于部分负荷工况脱硝系统的安全运行[16],确保SCR脱硝装置在全负荷范围内处于催化剂的高效区运行。

为保证式(10)的函数在梯度下降过程中是平滑的,该文使用FLOYD 算法对其进行平滑近似,则有:

在训练过程中,式(12)的渐进上界如下:

2 方法实现

2.1 实验设计

实体和关系之间通过上文中的算法训练完成分布式表示,并得到低维嵌入向量。为评估该向量是否能准确表征知识图谱的结构和语义特性,文中通过链接预测(Link Prediction)和三元组分类(Triple Classification)进行判别。

1)链接预测

链接预测模拟了知识图谱的知识推理过程,即通过(h,r,t)中的两个元素预测第三个元素。具体可表示为:

以h的预测为例,首先,将h替换为E中的所有实体,构造与E规模相同的候选集。然后,使用上文所述的函数进行评价,进而可得到h所对应的三元组在该候选集中的排名。同时,t的预测也与此一致。记候选集的规模为N,则使用以下两个指标对链接预测结果进行评估,则有:

其中,rank(i)表示被预测的三元组在所有生成候选集中的排名,n表示rank(i)<10 的个数。根据二者的定义,MeanRank 越大,Hit@10 越小,且表示链接预测的效果也越优。

2)三元组分类

该分类实验用于模拟给定的三元组是否符合知识图谱的语义约束,从而避免知识图谱的错误扩增。在实验前需提前设定阈值δ,用于区分正确与错误的三元组。当传播函数的输出值大于δ时,将该样本评判为正确三元组,并记正确样本的个数为T;而当输出值小于δ时,则将该样本评判为错误组,且记错误样本的个数为F。使用分类精度P作为评价指标,则有:

由于在已构建的电力营销知识图谱中仅包含正样本三元组,因此为了开展实验,需要人工构造一定比例的负样本三元组。文中通过将正样本三元组中的实体随机替换为其他实体的方式,来构造等量的负样本三元组。构建完成后,所使用的知识图谱相关统计信息如表1 所示。

表1 知识图谱统计信息

仿真实验所使用的计算机软硬件环境,如表2 所示。而实验中的TBPNN网络的相关参数,如表3所示。

表2 算法仿真软硬件环境

2.2 系统测试结果

根据TBPNN 的网络结构,交互层、非线性层的数量决定着模型训练过程中的参数个数,并会影响模型的泛化性能。因此,需结合电力营销数据库的规模,合理设计网络结构。

对于交互层而言,若网络需要取消该层,则仅需将其权重传递矩阵参数设置为0 即可;而针对非线性层,使用与第一个交互层相同结构的非线性层便可进行扩增。此外,为了评估模型的性能,该文还使用了经典的TransE、TransH 及TransD 作为对照组。链接预测的实验结果,如表4 所示。

表4 链接预测实验结果

表4 中,TBPNN_i表示该网络具有i个非线性层,no_inter 表示无交互层。由表可知,在无交互层时,算法的MeanRank 和Hit@10 与Trans 系列算法结果较为接近。而当引入交互层后,算法的性能指标有了显著改善。此外分支网络非线性层数的增加会造成模型中的参数增长,并导致模型训练出现过拟合现象。根据表4 的测试结果可知,选取单层非线性层结构具有最优的预测效果。此外,相较于TransE 算法,该文算法在MeanRank 上降低了39.9%,而在Hit@10 指标上则提升了41.5%。

在进行三元组分类时,根据电力营销数据库的组成,将三元组按照映射关系进行分类。当一个头实体对应两个及以上实体时,则将其记作一对多实体。各种映射关系在数据集中的占比如表5 所示。

表5 三元组映射关系分类占比

不同算法的三元组分类实验精度对比结果,如表6 所示。

表6 三元组分类实验精度统计

从表中可看出,在无交互层时,模型在一对多、多对多关系分类上的精度明显下降。结合表4 中的实验结果可以证明,交互层主要作用于三元组中不通过元素间复杂关系的映射。此外,从TBPNN_i的不同实验结果看,随着实体与关系间的映射关系逐渐复杂,多参数构成的多非线性层TBPNN 网络的性能与单网络的分类性能也在不断接近。由此说明,对于较为复杂的元素关系分布式表示,可通过增加非线性层的数量来提升网络拟合能力。整体来看,所提TBPNN 算法相较于Trans 系列方法在三元组的分类精度上具有明显的提升。同时与TransE 算法相比,该文算法在对一对一关系、一对多关系、多对多关系的三元组分类上,精度分别提升了3.3%、39.0%、54.7%。

3 结束语

在电力营销系统的知识图谱中,该文针对传统分布式表示在复杂图谱下多语义实体间约束力不足的问题进行了改进,提出了一种三分支并行神经网络算法。仿真分析结果表明,所提出的TBPNN 方法较TransE 等算法在知识图谱的分布式表示效果上具有较大的提升。随着未来电力营销知识图谱的迭代,该文算法将有效提升电力营销系统的数据分析效率与智能化水平。

猜你喜欢
三元组图谱分布式
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
绘一张成长图谱
关于余挠三元组的periodic-模
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL