基于知识图谱与优化数据架构的电力服务系统设计

2023-10-21 06:10靖,方锐,周婕,张
电子设计工程 2023年20期
关键词:顶点图谱架构

张 靖,方 锐,周 婕,张 迪

(国网安徽省电力有限公司信息通信分公司,安徽合肥 230000)

当前,电力公司的营销服务主要包括95598 电话、掌上电力、电e 宝、微信公众号与营业厅现场等多种方式[1-5]。其中线下服务渠道人员成本较高,且服务范围有限;而线上服务渠道仅限于客户业务的线上自助办理,故无法提供实时在线的人工客服功能。以某省公司为例,该省营销服务中心的人工客服坐席有20 余人,服务方式仍为线上通话,基本可满足话务需求。但其一对一的服务模式不仅时效性较差,且还无法提供图片等多媒体交互方式[6-11]。随着线上咨询工单数量的迅速增加,现有客服人员的规模与工作模式已难以满足客户日益增长的服务诉求。因此,亟需增加多元化的在线互动服务模式。即通过拓展文字、图片等交互手段来实现一对多的服务方式,进而提高人工坐席的工作效率,并提升客服人员的服务质量。

知识图谱(Knowledge Graph)是实现电力服务智能化中智能问答及搜索的关键技术。该技术是一种由节点和边组成的语义网络,其特点是规模庞大、数据稀疏,还可根据系统需求不断增长数据量。因此,如何实现大规模的数据存储,并在海量噪声数据下完成对知识图谱的查询是智能化服务的关键。该文基于知识图谱设计了线上电力服务系统,同时对其数据存储架构设计、查询方法进行了深入研究。

1 理论基础

1.1 系统设计

文中基于软件工程理论的指导进行了系统设计。在该理论下,需要通过详细的需求分析将系统的相关功能转化为软件技术可实现的模块。

根据前期调研,参与电力智能化服务业务的人员主要可分为三类,其各自的角色定义如表1所示。

表1 智能化服务的角色定义

为实现电力服务的智能化,设计了系统功能模块,具体如图1 所示。

图1 系统功能模块设计

各模块的功能如下:

1)在线服务接入

该模块主要用于实现在线会话流程的创建、会话服务的分派与人工服务的接入等。同时还可智能化判断客户接入的优先级,并完成对客户排队策略的控制,从而进行智能化的服务引导。

2)人工交互管理

该模块主要负责线上人工服务对接与在线业务受理。具体服务包括智能识别用户需求、实现会话控制和及时完成在线交互等。此外其还能为客户提供智能化的问答内容推荐,并进行服务指导。最终,再根据用户的需求完成电力报修、工单生成等服务。

3)知识图谱管理

该模块是实现系统智能化的核心模块。文中依据电网运行、用电服务过程中积累的结构化或非结构化数据进行规律性组织,进而构建知识图谱并辅助客服人员对线上业务加以办理。在该模块中,首先需完成知识图谱的建模,包括概念定义、属性定义及关系规约的建立;其次,进行结构化数据的架构,实现知识图谱的高效存储;最后,实现对知识图谱的模糊、精准、关联及推荐等多维度搜索。

4)系统支撑管理

该模块主要实现对系统运行状态、数据、服务及告警的智能化监控;并对系统的运行参数、用户权限等进行设置与管理。客户使用此模块能够查询用户信息、用电量、电费、缴费记录及停电公告等。

1.2 知识图谱的查询算法

该文基于FastDFS 文件系统实现了知识图谱的分布式存储,而如何快速、有效地完成知识图谱查询是提升电力服务系统效率的关键。因此,文中引入了一种分布式知识图谱查询的方法[12-13]。

知识图谱的本质是一张具备顶点标签的实体网络,在FastDFS 文件系统上,通过图的数据结构进行存储。因此,知识图谱的查询可转化为数学中的子图匹配问题[14-15]。首先,以无向图表示知识图谱过程的表达式如下:

式中,v、u表示知识图谱的顶点,V、E、T和L分别是顶点、边、顶点类型与标签类型的集合。记全量的知识图谱、查询的子图分别为G=(VG、EG、T、L)和Q=(VQ、EQ、T、L)。

在查询过程中,还需定义Q、G之间的相似度。则此时需引入邻域向量:

式中,q∈V,m为Q的顶点个数。φQ的计算方式如下:

式中,lu,v是两个顶点间的最短路径长度,nu,v则是最短路径的数量,α为取值在[0,1]之间的调节因子。

基于式(2)的定义,对于查询顶点qi,可得到其与匹配顶点邻域向量间的相似度:

其中,f是图的一个嵌入。而Θ 的定义方式如下:

图2 给出了算法对于图谱的查询示意,已知Q找到了两个嵌入f1和f2。通过式(2)的邻域计算与式(4)相似度对比,得到f1(q3)为更优匹配点。

图2 查询图与查询结果

为避免采用枚举法(Enumeration Method)来求解子图匹配的问题,该文对每个待搜索的顶点均进行了筛选,并在G中提取高质量顶点,以缩小搜索空间。对于嵌入f,将其代价C分解可得:

2 方法实现

2.1 分布式存储系统搭建

文中设计的电力服务系统预计用户规模为2 500 万,并根据通用估算公式:并发数=(用户总量/统计时间)×影响因子=(25 000 000/(8×60×60))×1≈868,估算出系统的并发用户量约为1 000 个。因此,服务系统的知识图谱建设需求如表2 所示。

表2 系统建设需求

经前期的数据库设计,知识图谱共包含84 张数据表,涉及795 个字段。其中包括了电力服务的知识、问题与素材等数据,后续每年的增长量为110 GB。为满足上述需求,并保证知识图谱的存储、查询及扩增效率,采用分布式的文件架构FastDFS 实现存储,具体架构如图3 所示[16]。

图3 系统硬件架构

根据FastDFS 架构,系统中部署了3 台追踪服务器(Tracker)并开启22122 端口侦听,进而保证客户端(Client)可通过专用的API 接口找到对应的存储服务器(Storage)。同时,还使用了9 台Storage 来保存知识图谱的元数据。且将这9 台Storage 分成3 个集群(Group),每个集群有3 台Storage。所有的Storage 均默认开启23000 端口以监听服务端请求。此外Storage 及Tracker 的单机配置一致,具体如表3 所示。

表3 单台服务器配置

系统实现时,其他相关技术参数如表4 所示。

表4 知识图谱管理后台技术实现参数

2.2 系统测试结果

在系统实现后,需对上文知识图谱查询方法的查找效率进行验证。文中使用RDF-3X、NESS 算法与该文方法进行对比,算法的相关特性对比如表5所示。

表5 3种算法相关特性对比

从表中可以看出,相较于现有算法,该文算法可完全支持知识图谱的近似匹配,且对于数据的组织形式要求也较低,故其应用场景更为广泛。在进行查询测试时,结合电力服务场景设计了100 个查询实例,测试结果如表6 所示。

表6 查询测试结果

从表中可以看出,3 种算法的匹配精度在相同空间复杂度下基本一致,但该文算法相较RDF-3X、NESS 分别提升了0.88%及1.71%。该文算法的提升主要体现在知识图谱的查询效率上,相较于RDF-3X和NESS算法,用时分别降低了85.59%和73.71%。

最后,对系统数据库后台的相关性能进行了普通黑盒测试和业务高峰下的压力实验,结果如表7所示。

表7 压力测试结果

作为对比,该文通过断开部分Storage 和Tracker间的通信,来模拟采用集中式存储文件系统的SQL响应和知识图谱查询时间,具体结果如表8 所示。

表8 集中式存储文件系统的测试结果

根据表7、8 可知,该文算法采用分布式存储对系统的数据架构优化后,在业务高峰时期,系统数据库的SQL 平均响应时间从22.3 s 降低到9.3 s,降低了58.3%;知识图谱的查询时间从26.2 s 降低到2.18 s,降低了91.7%。

3 结束语

该文以提升电力营销服务的智能化水平为目的,整合现有的营销服务体系,设计了电力服务平台。文中对知识图谱的存储、查询两项关键技术进行了研究,保障了系统在高并发下的运行效率和后期数据增长的可扩展性。系统的设计和实现可以进一步提高电力公司业务办理效率,提升服务管控水平。

猜你喜欢
顶点图谱架构
基于FPGA的RNN硬件加速架构
过非等腰锐角三角形顶点和垂心的圆的性质及应用(下)
功能架构在电子电气架构开发中的应用和实践
绘一张成长图谱
关于顶点染色的一个猜想
LSN DCI EVPN VxLAN组网架构研究及实现
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
一种基于FPGA+ARM架构的μPMU实现
杂草图谱