基于知识图谱技术的电网项目数据关联分析

2024-03-09 01:11胡广林张思慧魏国旺李海涛
机械与电子 2024年2期
关键词:项目名称集群图谱

胡广林,张思慧,刘 丹,魏国旺,李海涛,林 雪

(北京国电通网络技术有限公司,北京 100070)

0 引言

随着电力工程领域的不断发展和电网系统的日益复杂,实现对电网项目数据的深入洞察和准确分析变得至关重要。在这一背景下,知识图谱技术作为一种结构化、语义化的信息表示和处理手段,为电网项目数据的关联分析提供了新的途径[1]。通过将电力工程中的各类实体、属性和关系抽象为图谱的形式,基于知识图谱技术的电网项目数据关联分析旨在揭示实体之间的潜在联系、依赖关系及影响因素[2],从而为电力工程的决策制定、故障诊断和资源优化等方面提供支撑。

电力工程中应用知识图谱技术的主要研究现状如下:

a.电力设备管理与维护。 知识图谱技术被用于整合电力设备的技术参数、运行记录、维护历史等数据,构建设备的结构化表示[3]。通过建立设备之间的关系,可以实现设备之间的相互影响分析,预测潜在的故障,优化维护策略,提高设备可靠性和运行效率。

b.电力系统优化与规划。 知识图谱技术有助于建立电力系统的拓扑结构、输电线路和变电站等实体之间的关系图谱[4-5]。这可以支持电力系统的规划和优化,帮助决策者更好地理解系统中各部分之间的相互作用,优化供电策略,提高电网的可靠性和稳定性。

c.电力市场分析与决策支持。 知识图谱技术可以整合电力市场的市场参与者、电价走势和供需关系等数据,帮助分析市场动态,支持决策者做出更准确的电力交易决策,优化市场资源配置[6]。

d.电力工程知识管理。知识图谱技术有助于将电力工程中的各种知识、标准、规范进行结构化整合[7],构建知识图谱以支持知识的查找、归类和应用。这有助于提高电力工程团队的协作效率和决策水平[8]。

e.电力系统故障诊断与预测。基于知识图谱的分析,可以更准确地判断可能的故障原因,采取相应的应对措施,减少停电和损失[9-11]。

为此,本文针对基于知识图谱技术的电网项目数据关联进行分析,提出了数据提取特征抽取、关联知识图谱分析方法及系统网络结构等,并结合实际应用进行了效果分析。

1 电网项目特征库构建

1.1 历史项目特征提取

针对电网基建项目、生产技改大修项目和其他项目[12],基础数据来源和项目特征提取方法可能有所不同。

1.1.1 电网基建项目

a.基础数据来源。 电网基建项目的基础数据可以来自多个渠道,包括电力公司内部的设备台账、技术参数,规划部门的电网规划数据,能源监管机构的数据等。

b.项目特征提取方法。 对电网基建项目的特征进行提取可能涉及以下方面:

①设备信息: 提取变电站、输电线路、变压器等设备的基本信息,如名称、容量、位置等。

②规模和范围: 提取项目的规模和范围,包括涉及的地理范围、涉及的电网节点数量等。

③时间计划: 提取项目的计划时间表,包括起止时间、不同阶段的时间安排等。

④投资成本: 提取项目的投资成本,包括设备采购、施工等各项成本。

⑤技术特点: 提取项目采用的技术方案、创新性质等技术特点。

1.1.2 生产技改、大修项目

a.基础数据来源。 生产技改、大修项目的基础数据可以来自生产设备的运行数据、维护记录,技术部门的技术方案,以及生产计划等。

b.项目特征提取方法。 对生产技改、大修项目的特征进行提取包括以下内容:

①设备信息: 提取涉及的设备信息,包括设备名称、型号和技术参数等。

②维护历史: 提取设备的维护历史,包括维护频次、维护内容和故障记录等。

③技术方案: 提取技改、大修项目的技术方案,包括改进措施、更换部件等。

④预计效益: 提取预计的效益,如降低维护成本、提高生产效率等。

1.1.3 其他项目

a.基础数据来源。 其他项目的基础数据来源可能因项目类型而异,可来自市场调研、用户反馈和政策文件等。

b.项目特征提取方法。从项目目标、项目背景、项目需求和项目时间等提取。

具体分类方法如表1所示。

表1 特征提取方法

表1(续)

1.2 新增储备项目特征提取

针对新增储备项目,为避免项目名称的不规范,满足项目关联分析的应用需求,根据各类项目命名基本要素,在项目名称生成工具的信息填写页面中,依次填写项目类型、项目所在地、电压等级、项目性质和项目内容等信息后,可自动生成项目名称。

针对预储备项目,可使用项目名称校验工具,根据项目命名规则对项目名称的准确性进行校验,校验通过的项目进入储备库。

2 电网项目知识图谱构建技术

2.1 基于规则的信息抽取

在结构特征比较明显、符合特定规律的情况下,最直接的方式是人工构建抽取规则,以实现特定项目信息的抽取[13]。本文提出的规则如下:

规则1:(变电站||间隔||主变)&扩建。

规则2:(变电站||间隔||线路)&送出。

规则3:(变电站||主变)&改造。

2.2 基于序列标注的机器学习信息提取

序列标注是自然语言处理技术中比较基础的任务,在分词、词性标注、命名实体识别、关键词抽取、语义角色标注和槽位抽取等实质上都属于序列标注的范畴[14]。采用基于字序列的特征序列标引方法,排除分词对于标引的局限性,可以保证较高的特征实体抽取结果,即

Labelset={B,M,E,S}

(1)

式中:B为这个汉字是词汇的开始字符;M为这个汉字是词汇的中间字符;E为这个汉字是词汇的结束字符;S为单字词。

2.3 电力项目知识图谱基本元素

在电力项目知识图谱的构建中,可以从概念、属性和关系这3个维度来分析其基本构成元素:

a.概念。 概念是知识图谱中的实体或对象,代表电力项目中的各种要素。在电力项目知识图谱中,概念可以包括以下类型的实体:

①电力设备:发电机、变压器和开关设备等。

②电力系统组件:输电线路、配电变电站和控制系统等。

③技术规范:电力标准、安全规程等。

④项目信息:工程项目、施工计划和维护记录等。

b.属性。属性是与概念相关联的特征或信息,用于描述概念的各方面。在电力项目知识图谱中,实体的属性可以包括:

①电气参数:功率、电流和电压等。

②技术特性:设备型号、额定容量和制造商等。

③位置信息:地理坐标、安装位置等。

④时间信息:维护日期、投运时间等。

c.关系。关系表示概念之间的连接和依赖关系,是知识图谱的核心。在电力项目知识图谱中,关系可以包括:

①物理连接:设备之间的连接关系,如输电线路连接发电站和变电站。

②依赖关系:设备之间的功能依赖,如发电机依赖于燃料供应。

③影响关系:操作或故障对系统其他部分的影响,如设备故障影响供电可靠性。

④遵循关系:设备符合的技术规范、标准等。

基于这些维度,电力项目知识图谱的构成元素可以被表示为一系列实体、属性和关系的集合,通过图数据库等工具进行存储和查询。这有助于电力项目的管理、维护、规划以及决策支持。

2.4 电力项目知识图谱构建方法

知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、判断和归类。知识图谱中的图并非图像的概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识图谱在电力工程项目中的构建方法可以按照以下步骤进行:

a.需求分析与数据收集。首先,明确电力工程项目的需求和目标。确定需要在知识图谱中表示的实体(如电力设备、系统组件和技术规范等)以及它们之间的关系。收集来自各种数据源的信息,包括结构化数据(数据库、表格)、半结构化数据(XML、JSON)和非结构化数据(技术文档、报告)。

b.数据预处理与转化。对收集到的数据进行清洗、转化和集成,以便将其映射到知识图谱的实体和关系上。可能需要进行数据标准化、归一化、实体识别和关系抽取等操作,以确保数据的一致性和准确性。

c.知识图谱建模。根据实际需求,选择适当的知识图谱建模技术。将电力工程中的实体和关系转化为类似化学分子式的结构,其中实体可以是电力设备、技术标准和工程项目等,关系可以是连接它们之间的物理、功能和依赖关系等。这些实体和关系应该以属性和属性值的形式进行表示。

d.图数据库存储。 选择合适的图数据库来存储知识图谱。图数据库能够有效地存储图形结构数据,并提供高效的查询和推理能力。将转化后的实体、关系和属性信息存储到图数据库中。

e.查询与推理。 利用图数据库的查询和推理功能,实现对知识图谱的灵活查询、关联分析和推理。这有助于从图谱中提取出有价值的信息,支持决策、分析和问题解决。

f.可视化与应用开发。 借助可视化工具或应用开发框架,将知识图谱中的信息以图形化形式展示出来,使用户能够更直观地理解和使用其中的知识。可以开发针对不同用户群体的应用,以满足他们的具体需求。

电力工程项目中构建知识图谱需要从需求分析开始,经过数据收集、预处理、建模、存储和查询推理等多个阶段。这将帮助电力工程团队更好地组织和利用项目中的知识信息,提高项目效率和质量。

3 项目多维关联分析平台

3.1 基于项目特征库的关联分析方法

在电力领域中,实施电网基建、技改、大修项目以及与之相关的设施购置项目的关联性对于提高项目的管理效率、资源利用效益以及整体运营水平至关重要。本文提出实施项目特征关联方法如下:

a.项目特征提取。首先,针对每种类型的项目(如电网基建、技改、大修和设施购置等),从项目本身的角度提取特征。这可能包括项目的目标、规模、时间计划、投资成本、所涉及的设备或设施等方面的信息。

b.设施和设备的关联。对于同一变电站、线路或设施,将所有与之相关的项目进行关联。这可以通过建立项目数据库或信息系统来实现,将每个项目与相应的设施进行绑定。

c.项目目标和关联性分析。分析不同项目之间的目标和关联性。如某个电网基建项目可能与设施购置项目相关,因为需要购置新的设备来支持基建。技改项目可能与大修项目关联,因为需要在技改过程中进行设备维修和更新。

d.项目计划协调。在项目规划阶段,要充分考虑关联项目之间的时间计划。避免在短时间内对同一设施进行多次干预,以减少设备停机时间和工程冲突。

e.资源共享和协同效应。针对相关项目,可以优化资源的分配和利用。如同一设施上的基建和技改项目可以共享施工设备,降低成本。

f.风险分析和控制。通过关联分析,可以更好地预测可能的风险。如果某项项目出现延误,可能会影响到其他关联项目的实施计划。因此,可以采取风险控制措施来降低影响。

g.数据管理和信息共享。建立统一的项目信息管理系统,将各类项目的数据集中管理,并提供信息共享和查询功能,以便更好地监管和决策。

可见,项目特征关联方法有助于将不同类型的电网项目以及与之相关的设施项目进行协调、优化和整合,从而提高电力系统的运营效率和可持续性。这种方法可以促进资源共享、风险控制和信息流通,为电力领域的项目管理和运营提供有力支持。

关联方法如图1所示。

图1 基于项目特征库的关联分析方法

3.2 基于文本相似比对算法的项目关联分析方法

在电力领域中,实现电力项目关联可以借助文本相似比对算法,通过分析项目名称、去除干扰词和计算文本相似度等步骤,建立相似项目集合,从而实现项目功能关联。

a.项目名称获取。首先,获取所有待关联的电力项目的项目名称。项目名称是识别和比对项目的重要依据,但通常会因为命名的差异而存在一些变化。

b.分词处理。对每个项目名称进行分词处理,将项目名称分解成不同的词汇单元。这有助于对项目名称进行更细粒度的比较。

c.去除干扰词。从分词结果中去除一些常见的干扰词,如“电力”、“工程”、“项目”等。这些词汇通常不会对项目关联造成实质性影响。

d.文本相似度对比算法。使用文本相似度计算算法来比对项目名称之间的相似性。常用的算法包括余弦相似度、Jaccard相似度和编辑距离等。这些算法可以量化2个项目名称之间的相似程度。

e.相似度阈值设定。设定1个相似度阈值,用于判断2个项目名称是否相似。根据实际情况,可以调整阈值来平衡准确性和覆盖率。

f.相似项目集合构建。遍历所有项目名称,对每个项目名称进行与其他项目名称的相似度计算。如果相似度超过设定的阈值,则将这2个项目视为相似项目,加入相似项目集合。

g.项目功能关联。对于同一个相似项目集合中的项目,可以认为它们在功能或内容上存在关联。这些关联可以是由于相似的电力领域背景、相同的设备或设施等引起的。

h.实现项目功能关联。在获得相似项目集合后,可以根据集合中的项目相似性,来实现项目功能的关联。如可以将相似项目集合作为参考,辅助决策、资源分配等。

综上所述,通过项目名称的分词、文本相似度对比算法等步骤,可以实现电力项目的关联。这种方法可以自动识别潜在的功能关联,从而更好地管理和优化电力项目,提高运营效率。但需要注意,该方法的准确性可能会受到项目命名的规范性和相似度算法的选择等因素的影响。

分类方法如图2所示。

图2 基于文本相似比对算法的项目关联分析方法

3.3 项目图谱关联流程分析

a.构建项目规则库。首先,为了进行关联分析,需要定义一系列规则,这些规则可以是领域专家的经验知识。如规定哪些电力设备之间可能存在相关性,哪些属性需要被关注等。

b.提取信息来源。收集来自不同数据源的信息,包括电力设备的技术参数、运行记录和维护报告等。这些信息来源可以包括数据库、文件和API等。

c.提取项目特征。从收集到的数据中,提取出与电力工程项目相关的特征,如设备的属性、状态和运行数据等。这些特征将作为关联分析的基础。

d.配置字段获取方式。确定如何从数据源中提取项目特征。这可能涉及到数据清洗、转换和整合,以便将不同数据源的信息映射到统一的字段中。

e.规则维护。根据实际情况,定期更新和维护项目规则库,确保其中的规则和知识与电力工程的发展保持一致。

f.构建集群库。根据提取的特征,将电力设备或项目划分成不同的集群,这些集群代表了具有类似特征的设备或项目组合。

g.集群查询。利用构建的集群库,进行查询以找出具有相似特征的设备或项目。这有助于发现一些隐藏的关联性和趋势。

h.集群调整。分析查询结果,检查集群的合理性,如有需要,可对集群进行调整,如合并或细分。

i.集群确定。确定最终的设备或项目集群,这些集群可以反映出潜在的关联关系,如设备运行模式的相似性、设备故障的相关性等。

j.集群分析与决策支持。对确定的设备或项目集群进行进一步的分析,探索其中的关联模式、趋势等。这些分析结果可以为电力工程项目的决策提供支持,如维护策略的制定、设备更新计划等。

3.4 系统网络结构

基于技术中台的人工智能平台[15],提供获取项目各环节关键关联信息服务,支撑业务描述规划、储备、计划、执行和评价各环节项目状态。系统网络结构如图3所示。

图3 系统网络结构

基于技术中台的人工智能平台,提供维护、获取图谱的服务,可根据不同业务需求对概念、实体、图谱和关系等进行管理。

针对项目关联分析需求,通过项目规则库建立,进行项目规范性审查等进行项目关联分析,形成项目集群库,如项目重复性项目集群等,并对外采用服务和微应用2种方式提供服务,对外提供微应用、微服务。

4 应用效果分析

4.1 标签提取

结合实际工程案例,给出利用本文方法的标签提取结果,如表2所示。

表2 标签提取结果

4.2 项目特征抽取流程

以某工程特征抽取为例,说明特征抽取的具体流程,如图4所示。

图4 抽取流程

4.3 应用效果分析

通过集群分布式情况分析,可以对已构建的集群分析其单体项目资金来源、各专项中集群类项目的占比等功能。结果如图5所示。

图5 占比分析

分析关联结果,得到2个集群的关联结果,如图6所示。

图6 关联关系分析

根据本文的分析结果,说明在设备关联、功能关联和电气关联方面,集群1体现出较强的优势,而集群2在其他关联方面优势较强。

5 结束语

本文提出了基于知识图谱技术的电网项目数据关联分析方法。通过对特征抽取、知识图谱构建、多维关联分析进行论述,说明了电力项目工程在信息维护中的具体应用。通过对应用效果进行分析,可以对已构建的集群分析其单体项目资金来源、各专项中集群类项目的占比等功能。另外在功能关联方面也展现出较强的优势。说明了本文提出的分析流程和特征提取的有效性。

猜你喜欢
项目名称集群图谱
绘一张成长图谱
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
A Study of the Balanced Scorecard: The Rockwater Case
Python与Spark集群在收费数据分析中的应用
补肾强身片UPLC指纹图谱
勤快又呆萌的集群机器人
2016年四川省财政补助健康服务业重点项目(二)
主动对接你思维的知识图谱