面向电力项目的知识图谱构建及应用研究

2024-06-03 18:21:47张思慧胡广林魏国旺
现代信息科技 2024年6期
关键词:知识图谱

张思慧 胡广林 魏国旺

收稿日期:2023-07-31

DOI:10.19850/j.cnki.2096-4706.2024.06.025

摘  要:文章针对电力公司在项目管理过程中存在的项目数量多、范围广、管理链条长、项目各阶段数据难以深度融合和应用的问题,基于语义网、知识图谱、自然语言处理等人工智能技术,对项目管理智能化提升的关键技术进行了研究,提出了项目智能化管理提升的技术方案,包括以项目为中心的知识表示、知识存储、知识服务应用三部分内容,基于技术方案撘建了知识图谱平台,并总结了该技术在项目时序图谱构建、项目智能问答两个场景的应用及成果,明确了基于知识图谱提升项目效率效益,支撑精准投资,促进精益管理的研究方向。

关键词:知识图谱;项目时序;标签推荐;智能问答

中图分类号:TP391    文献标识码:A    文章编号:2096-4706(2024)06-0115-07

Research on Knowledge Graph Construction and Application for Electricity Power Projects

ZHANG Sihui, HU Guanglin, WEI Guowang

(Beijing Guodiantong Network Technology Co., Ltd., Beijing  100070, China)

Abstract: Aiming at the situation that the electricity power companies encounter problems such as a large number of projects, a wide range of projects, a long project management chain, and difficulties in deep integration and application of data at various stages in the process of project management, this paper researches the key technologies for intelligent improvement of project management based on artificial Intelligence technologies such as Semantic Web, Knowledge Graph, and natural language processing. It proposes a technical solution for the improvement of intelligent project management, including three parts of project-centered knowledge representation, knowledge storage, and knowledge service application. Based on the technical solution, it builds the Knowledge Graph platform and summarizes the application and achievements of the technology in the two scenarios of timing map construction of project and Intelligent Q&A of project. In summing up it may be stated that the research direction of improving project efficiency and benefits based on Knowledge Graph, supporting accurate investment, and promoting lean management is clarified.

Keywords: Knowledge Graph; project timing; label recommended; Intelligent Q&A

0  引  言

知識图谱是人工智能的一个分支,对可解释人工智能具有重要作用,近几年,随着知识表示和机器学习等技术的快速发展,知识图谱相关的技术取得了突破性进展,特别是知识图谱涉及的知识抽取、表示、融合、推理、问答等技术以及知识服务技术,都得到了快速的发展。这些技术的进步使知识图谱在工业、电力行业受到广泛的关注,并取得显著成果。谷歌、微软、百度等互联网公司率先构建了大规模通用化知识图谱,提供基于实体和关系的语义搜索,可以更好地理解和帮助用户进行查询[1]。知识图谱还在智能决策系统、推荐系统和智能问答系统中起到了重要作用,知识图谱不仅具有巨大的应用价值,而且具有重要的理论价值。

基于知识图谱推理、探索挖掘等技术,实现了项目数据资源的网络化表达,一方面将孤立的数据资源建立关联关系,有助于跨地域、跨专业的数据共享和检索利用,提高了企业数据资产化管理水平;另一方面为用户提供快速检索、数据收集、精准推荐等个性化服务,提高信息检索效率,辅助提升项目管理决策分析水平,为电网发展赋能、赋值、赋智[2]。

1  电力项目管理现状及问题

电力企业项目管理特点突出,一是项目数量多,项目投资数千亿,执行项目达数十万;二是项目管理分布广,项目专项多达16类,分布在公司各专业;三是项目全过程管理链路长,涉及各专业、各单位、各层级。

当前政府监管日趋严格,电力改革、国企改革进入关键突破期,公司加快推进战略目标落地,促进产业升级,推进管理体制变革,这都对公司项目管理提出了更高的要求,为了提升管理效率效益,要支撑精准投资,促进精益管理,衔接外部监管,提高管理透明度,规范信息发布渠道。在中台架构体系基本建成的基础上,提出重点推动服务深化、数据贯通、智慧赋能,为适应改革发展新形势,全面提升项目管理数字化水平。助力全面跨越,共享服务需要进一步迭代建设,强化数字化运营、精准化管控和智能化决策,为各类业务服务、为各级管理赋能。

为了适应改革发展新形势,响应公司项目管理改革创新要求,实现公司项目全景可见、投资精准、决策规范、协同高效、风险可控、降本增效的总体目标,需建立统一、规范的全链条全口径项目管理流程,构建风险防范及预警机制,推进项目管理数字化转型,驱动发展方式、管理模式变革[3]。加强项目管理意义重大,项目作为公司经营管理的最小单元,是落实中央决策部署、服务经济社会发展的重要载体,是推动公司“一体四翼”发展布局落地、促进公司高质量发展的重要抓手;在管理上,要聚焦效率效益,聚焦规划落地,切实提升投入产出水平。

2  项目知识图谱关键技术研究

2.1  项目知识图谱构建技术

知识图谱是以图的形式来描述知识和建模,以表现客观世界中的概念和实体及其之间关系的知识库[4]。知识图谱由结点和边组成,结点可以是实体,如知识图谱、人工智能,边可以代表实体的属性,如项目的名称和分类,也可以是实体之间的关系,如朋友、师生。

知识图谱旨在从数据中识别、发现和推断实物与概念之间的复杂关系,是事物关系的可计算模型。知识图谱构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱应用则涉及语义搜索、智能问答、语言理解、决策分析等多个领域[5],事物关系的可计算模型如图1所示。

图1  事物关系的可计算模型

2.1.1  项目结构化数据知识抽取技术

项目相关的结构化数据包括项目属性特征信息,如项目名称、项目编码、电压等级、专项类型、项目标签等,这些知识和信息来源于支撑企业业务的关系数据库中,通过定义直接映射规范,确定关系数据库表与类、属性、实体的映射关系,将数据库表结构和数据直接转换为RDF(Resource Description Framework, RDF)数据[6]。

2.1.2  项目非结构化数据知识抽取技术

项目管理过程中存在大量以自由文本和文件形式存在的非结构化数据,如项目内容信息、项目《可行性研究报告》文件等。通过实体和关系抽取,实现从项目文本信息中提取实体信息的元素,包括项目名称、单位、投资、解决问题、关联设备等,以及两个或多个实体间的语义关系。本文所述采用基于规则模板的抽取和智能模型的方式实现对非结构化项目文本的实体和关系信息抽取,具体内容如下。

1)基于模板的关系抽取,该类方法基于语言学的知识,结合语料的特点,基于专家经验确定具有固定格式的描述文本,较适用于小规模、限定领域的实体关系抽取问题上[7]。例如项目关联的电网设备通常描述为“武宁站1#主变、南武线”,变电站、变压器、线路名称表现出较为突出的模板属性,针对此类型项目信息,模板构建简单,可以比较快在小规模数据集上实现关系抽取[8]。

2)基于统计模型的方法。针对电力公司历年项目可行性研究报告数据,分别利用条件随机场(CRF)、LSTM-CRF实体识别模型(长短时记忆神经网络(Long Shot-Term Memory Neural Network, LSTM)与CRF相结合进行实体识别),将WORD、PDF、WPS等非结构化数据,通过数据标注、关系提取等方式,实现内容信息的结构化提取[9],LSTM-CRF实体识别模型如图2所示。

图2  LSTM-CRF实体识别模型

2.1.3  知识存储

从数据模型的角度来看,知识图谱的本质是一种图数据。目前表示知识图谱的两种图数据模型主要为RDF图和属性图,在RDF三元组集合中,每个资源具有一个唯一的ID;一个RDF图定义为三元组(s,p,o)的有限集合;每个三元组可表述为一个陈述句,s为主语,p是谓语,o是宾语;(s,p,o)代表资源s与资源o具有关联关系p,或表示资源s具有属性p且取值为o [1]。

三元组表是将知识图谱存储到关系数据库中最简单、最直接的办法,其原理就是在关系数据库中建立一张具有三列的表,表的模式为:三元组表(主语,谓语,宾语),将构建的知识图谱中的每一项三元组存储为三元组表中的一行记录。面向RDF的三元组数据库是专门为了存储大规模RDF数据而开发的知识图谱数据库,其支持标准RDF的标准查询语言SPARQLA。在项目知识图谱构建及应用场景中,综合考虑语义分析需求、组件的兼容性及易扩展性的因素,选取语义网RDF模型作为电力项目知识图谱的知识表示模型,使用支持RDF存储的三元组数据库及开源MongoDB数据库组件实现对电力项目知识图谱数据的存储[10]。

2.2  知识图谱和智能问答

基于知识图譜的知识问答(Knowledge-based Question Answering, KBQA)是智能问答的核心,是一种人机交互的自然方式。知识问答依托大型知识库(例如知识图谱、结构化数据库等),将用户的通过自然语言描述的问题,转化为结构化查询语言,直接从知识库提取出用户想要的答案。知识问答主要聚焦于解决事实型问答,事实型问题按类型分为单知识点问题(Single-hop Questions)和多知识点问题(Multi-hop Questions),按问题的领域分为垂直领域问题和通用领域问题[11]。本文所述电力项目智能问答场景,相较于通用领域或开放领域,内容的垂直度较高,知识图谱规模更小,精度更高,故选取基于语义分析和意图识别的方法,在基于语义解析的方法训练过程中,问题模型会对标注数据中蕴含的语法和解析规律进行隐式的学习,使得模型具有更好的可解释性,以实现针对项目有效信息检索式的知识问答[12]。

3  知识图谱技术框架

3.1  总体架构

基于上述项目知识图谱关键技术的研究和探索,构建知识图谱平台,整体功能结构设计从上到下分为三层,分别是应用层、核心层和数据层。

数据层:通过规范的流程处理,抽取关系型数据并统一存储为符合RDFS/OWL标准的三元组数据[13]。

核心层:针对数据消费场景,提供数据处理过程中的算法和知识图谱分析算法。

应用层:基于数据和核心算法能力,提供图谱管理、概念管理、属性管理、数据管理、图分析等多种业务应用场景,项目知识图谱技术框架如图3所示。

3.2  工作流程

工作流程如下:

1)用户首先建立图谱schema,也就是一个业务领域内的数据模型,包含这个领域内有意义的概念类型、概念属性和关系。

2)关联结构化数据来源,由于原始数据往往存在脏数据和格式问题,一般需要人工介入清洗处理。

3)在数据抽取中,将schema概念与数据关联,导入调增好格式的结构化数据,这些数据大多为各业务系统核心数据,这种数据结构基本完整或清洗程度較低,稍做结构调整即可进入图谱使用。

4)随着数据的增长或多个数据来源时存在数据冲突问题,这时候通过属性相似度、实体相似度等方法将描述同一个概念、实体的信息融合起来。

5)提供可视化的知识地图呈现知识图谱的内在关系,同时提供了基于节点、关系的数据挖掘分析工具,知识图谱构建工作流程如图4所示。

4  项目知识图谱应用成果

4.1  项目时序图谱构建

按照本文2.1节所述的知识图谱构建方法,收集历年项目基本信息、项目文件数据,针对项目特征,如名称、编码、专项类型、标签等构建概念模型;从项目资源、项目规划、项目储备等各业务数据中抽取数据信息,完成实体项目知识图谱构建。

4.1.1  本体建模

针对项目知识图谱本体建模分为两种模式,一种是图形化的本体建模方式,通过拖拉拽的方式完成电力项目涉及概念、属性、关系的定义,并将建模成果以图形化方式展示;另一种是支持用户通过Excel定义本体,并快速导入系统,并支持本体在不同系统之间的数据迁移,建模成果图形化展示如图5所示。

4.1.2  数据存储

基于属性图模型对数据进行了存储,并通过多种索引方式,实现对图数据的存储和快速读取。

4.1.3  实体融合

知识融合包括实体链接和实体合并,通过知识融合消除实体歧义,剔除冗余和错误数据,从而提高知识的质量。实体冲突的原因有多种,如实体名称冲突、同一属性的值不同、同一个关系指向的实体不同。平台在实体融合功能中提供了自动融合算法融合和手动融合两种方式,项目实体融合对比情况如图6所示。

4.1.4  图谱构建

融合电网公司16类项目专项,设计包括:名称、编码、分类、单位、类型在内的30个概念并构建其关联关系,项目概念关联关系如图7所示。结合8个项目环节特征,抽取各环节数据,形成项目时序图谱,项目时序图谱如图8所示。

4.1.5   图谱分析

将知识图谱数据运用可视化技术将实体、关系以一种复杂网络展现并对其计算分析[14]。实现针对项目图谱关键路径、图谱实体分布、图谱知识探索三种场景的分析。

1)关键路径分析。支持用户为多个实体设置不同步长,平台根据用户选择实体和步长信息,可以自动计算出符合步长的多个路径连线,实体路径分析如图9所示。

2)实体分布分析。以图的形式按比例展示图谱中各概念下实体数量分布情况,支持对其筛选过滤。

3)图谱知识探索。支撑对特定实体模糊查询,并展示该实体的具体项目图谱信息,并支持各节点的展开和下钻。

4.2  客服智能问答

在实现各类型数据进行融合关联的基础上,将用户检索意图计算排序,按优先级进行数据组合排列,充分理解搜索语境、精准反馈数据资源,自动选择最优展示呈现方式,优化基于全量数据的智能化搜索及分析服务能力,构建项目客服智能问答应用场景。

4.2.1  意图识别

智能识别用户查询意图,通过对用户的输入进行分词,识别其查询的目标意图,并将其识别的查询检索意图对应到知识图谱的概念槽位,项目智能问答解析流程如图10所示。

4.2.2  智能机器人

构建项目一句话问答、项目关键词搜索、标签关联查询项目、合规规则解释等智能问答和贴签服务,支撑项目信息智能查询及检索[15]。

1)如输入“打开标签查询服务”,机器人会打开标签查询服务页面;如输入“储备超时”,机器人会展示“储备项目超时”的规则详情,或输入“储备项目超时的规则说明”展示其规则说明及规则解释信息。

2)根据“电压等级”“专项类型”“规则名称”查询对应的合规规则的异常项目明细。如输入“110 kV电网基建储备超时的项目明细”,机器人会打开合规明细页面并传入相应的参数,您可以点击查询按钮进行查询。

5  结  论

本文总结了近年在电力项目管理领域应用和构建知识图谱的技术、研究和实践成果,基于CRF和LSTM-CRF实体识别模型,提出了项目知识图谱产品架构及流程设计,并针对该架构在电力公司项目时序图谱构建、项目客服智能问答场景的应用进行了研究和探索,实现了针对项目全过程时序图谱的构建,项目标签智能推荐和智能问答。

参考文献:

[1] 王昊奋,漆桂林,陈华钧.知识图谱:方法、实践与应用 [M].北京:电子工业出版社,2019.

[2] 乔泰.下一代企业:人工智能升级企业管理 [J].互联网经济,2016(8):26-31.

[3] 骆瑞玲.电力企业投资计划管理中的问题及对策 [J].科技与创新,2016(19):54.

[4] 孙晨,付英男,程文亮,等.面向企业知识图谱构建的中文实体关系抽取 [J].华东师范大学学报:自然科学版,2018(3):55-66.

[5] 王颖,钱力,谢靖,等.科技大数据知识图谱构建模型与方法研究 [J].数据分析与知识发现,2019,3(1):15-26.

[6] 王鑫,鄒磊,王朝坤,等.知识图谱数据管理研究综述 [J].软件学报,2019,30(7):2139-2174.

[7] 张敏杰,徐宁,胡俊华,等.面向变压器智能运检的知识图谱构建和智能问答技术研究 [J].全球能源互联网,2020,3(6):607-617.

[8] 蒋逸雯,李黎,李智威,等.基于深度语义学习的电力变压器运维文本信息挖掘方法 [J].中国电机工程学报,2019,39(14):4162-4172.

[9] 周博通,孙承杰,林磊,等.基于LSTM的大规模知识库自动问答 [J].北京大学学报:自然科学版,2018,54(2):286-292.

[10] 贾海锋,王冰洁,王浩,等.从通用知识图谱中剖析电力知识图谱的应用 [J].电力设备管理,2021(11):206-207+234.

[11] MANNING C D. Computational Linguistics and Deep Learning [J].Computional Linguistics,2015,41(4):701-707.

[12] MANNING C D,RAGHAVAN P,SCH?TZE H. An Introduction to Information Retrieval [M].Cambridge:Cambridge University Press,2009.

[13] 李文鹏,王建彬,林泽琦,等.面向开源软件项目的软件知识图谱构建方法 [J].计算机科学与探索,2017,11(6):851-862.

[14] 刘津,杜宁,徐菁,等.知识图谱在电力领域的应用与研究 [J].电力信息与通信技术,2020,18(1):60-66.

[15] 徐沐霖,邱涛.人工智能在电力系统中的应用 [J].电子技术与软件工程,2017(8):257.

作者简介:张思慧(1986—),女,汉族,山东烟台人,中级工程师,硕士,研究方向:项目管理业务咨询、人工智能技术;胡广林(1983—),男,蒙古族,辽宁沈阳人,中级工程师,硕士,研究方向:项目管理业务咨询、人工智能技术;魏国旺(1988—),男,汉族,山东聊城人,初级工程师,本科,研究方向:项目管理业务咨询。

猜你喜欢
知识图谱
国内外智库研究态势知识图谱对比分析
现代情报(2016年11期)2016-12-21 23:54:23
国内信息素养研究的知识图谱分析
现代情报(2016年11期)2016-12-21 23:53:46
国内图书馆嵌入式服务研究主题分析
现代情报(2016年10期)2016-12-15 12:32:46
国内外政府信息公开研究的脉络、流派与趋势
现代情报(2016年10期)2016-12-15 12:27:57
近十五年我国小学英语教学研究的热点、问题及对策
基于知识图谱的产业集群创新绩效可视化分析
智富时代(2016年12期)2016-12-01 16:28:41
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
专家知识图谱构建研究