基于自然语言理解的电力调度文本检索方法研究及应用

2023-11-27 08:24张小韬季小龙
黑龙江电力 2023年5期
关键词:规程关键图谱

张小韬,季小龙

(1. 南瑞集团有限公司(国网电力科学研究院有限公司),南京 211106;2.北京科东电力控制系统有限责任公司,北京 100192)

0 引 言

随着新型电力系统的建设,电网运行特性和运行方式也将发生变化,电网调控业务越来越复杂,调控人员工作强度也越来越大,这对调控业务的自动化、智能化提出了更高的要求[1-3]。电力调度文本中含有大量调度人员处置业务的经验、方法和规定,现行调控方式主要以人工经验分析为主,在处置电网业务过程中,调度人员没有时间查阅复杂繁多的文本,导致电力调度文本利用率低、应用效果差。因此,通过电子化电力调度文本使其能够在线进行检索,有助于提高电力调度文本的利用率和调度业务处置的智能化水平。

近年来,人工智能和自然语言处理技术得到高速发展,并且在金融、医疗、教育等领域取得了显著成果,知识图谱和文本相似技术作为其重要的技术手段,被广泛应用到各个领域[4-6],在电力调控领域也得到了应用和发展。知识图谱本质上是一种语义网络[7-8],通过实体和实体间关系表征物理世界事物之间的联系,以“实体-关系-实体”三元组的形式将各知识单元链接起来。文本相似度算法可以定量描述不同的自然语言文本间的相似度,是实现自然语言文本检索和知识融合的有效手段。文献[9]基于注意力的双向长短期记忆网络和条件随机场建立调度规程文本知识抽取模型,为构建电网调控知识库提供知识要素。文献[10]基于深度学习网络识别电力设备检修文本中设备、故障现象等实体,为设备检修提供知识要素。文献[11]基于混合神经网络建立电力调度文本事件抽取模型,实现故障处置预案的实体和实体关系的解析,可以为故障智能处置提供知识要素。文献[12]基于正则表达式和文本卷积神经网络实现了故障处置预案实体识别和操作事件语义理解,为故障处置预案在线推送提供了基础。综上所述,目前对电力调度文本的研究多集中在电力实体识别方面,难以对大规模的形式复杂的电力调度文本进行建模。目前调度员亟需从大规模电力调度文本中快速和准确地获取关键信息,但缺乏对大规模电力调度文本精细化检索方面的研究。

针对现行电力调度文本利用率低和应用效果差的问题,提出基于自然语言理解的电力调度文本语义检索方法。根据电力调度文本特点和应用方式,基于正则表达式对电力调度文本进行解析,提取出检索关键信息以及对应的解释文本内容。将颗粒化的电力调度文本信息以“实体-关系-实体”三元组形式链接形成电力调度文本知识图谱,即电力调度文本语义知识库。基于文本相似度技术计算待检索调度信息与电力调度文本知识图谱中实体信息的相似距离,将相似距离最近的实体信息作为检索内容,并通过多个区域电网调控中心电力调度文本验证算法的有效性。

1 电力调度文本检索模型建立

1.1 基于正则表达式的电力文本解析

20世纪50年代,正则表达式作为一个简单计算模型被提出,随后Thompson等人将其匹配功能引入计算机主流应用。正则表达式由一系列ASCII字符构成,并包含一部分元字符,如点号(.)、星号(*)和垂直符号(|)等,这些元字符增强了正则表达式丰富的表现能力。正则表达式是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过元字符+普通字符进行模式描述,实现对文本的模糊匹配。这种工具适合处理自然语言文本,使用简单方便,效果显著。

电力调度文本是对调度员处置业务方法、规定、经验等信息的总结和提炼。文本结构较为规范,一般以各级标题和各级标题所对应的内容的形式呈现,适合用正则表达式定义电力调度文本结构匹配模式,实现对电力调度文本关键标题和对应的内容的解析,一般调度文本的关键信息均存在调度文本各章节的标题中。在定义正则表达式匹配模式过程中,根据电力调度文本标记数据编号和格式的特点,将标题分为一级标题、二级标题、三级标题和四级标题等,依据各级标题的特点定义正则表达式匹配模式。通过文本结构解析表达式可以得到电力调度文本各级标题以及各级标题对应的解释内容,从而得到电力调度文本关键信息与其对应的解释内容。在对电力调度文本检索时,使用待检索问题模糊匹配各级标题中的关键信息,将匹配程度最高的关键信息对应的解释内容作为最佳检索内容推荐给调度员以供参考。

1.2 电力调度文本知识图谱

知识图谱是一种语义知识网络,可以通过“实体-关系-实体”三元组的形式描述客观事物的内在联系,实体和属性用节点表示,关系用有向边表示。知识图谱因其在知识推理方面的优势,被应用于智能搜索、对话问答等领域。鉴于知识图谱这种知识表示形式和能力,可以将电力调度文本解析为颗粒化实体知识,形成电力调度文本知识图谱,为调度文本检索提供语义知识库。

根据应用需求,文中对电力调度文本知识图谱进行概念建模,指导知识图谱构建整个过程和建模思想。将电力调度文本信息分为五类,即运行常备规程、保电规程、稳控管理规程、专业管理规程和事故应急规程。将这五类信息作为知识图谱的概念实体,每种概念实体包含各自对应的电力调度文本,如运行常备规程包括:调度运行规程、调度运行细则、作业指导书等。每个规程包含各章节关键信息、关键信息解释内容等实体,同时包含规程标识、来源、编制日期、作者、原始HTML文件等属性信息。根据上述原理和机制可以将电力调度文本信息建立为电力调度文本知识图谱,即电力调度文本语义知识库。

电力调度文本知识图谱采用自底向上的知识图谱构建方法,经历知识来源、知识抽取、知识融合、知识存储、知识平台、知识应用等步骤,构建方案如图1所示。

图1 电力调度文本知识图谱构建方案

首先,收集电力调度文本和电网模型数据,然后对电力文本信息进行清洗和预处理,基于正则表达式识别电力调度文本信息中检索关键信息和其对应的解释内容,形成“实体-关系-实体”三元组知识结构,通过实体融合后,将其存储到数据库中,建立电力调度文本知识图谱,支撑电力调度文本信息的语义识别和语义检索,具体步骤如下:

1)收集调控中心各系统中电力调度文本信息以及电网模型数据。采用文本填补、归一化、标准化等方法对调度文本进行预处理和清洗。

2)识别电力调度文本实体信息。通过正则表达式解析电力调度文本信息结构,得到电力调度文本关键信息及与其对应的解释内容。同时根据调度经验和规则构建电力调度专业术语库,对解析后的电力调度文本关键信息中专业词汇进行泛化,得到关键信息的泛化表述,提高电力调度文本信息与待检索调度文本关键信息的匹配程度。

3)融合电力调度文本信息实体知识。采用规则匹配、相似度计算和人工修正等方法对电力调度文本信息中含义相同表述不同的颗粒化知识进行融合。

4)存储电力调度文本信息颗粒化知识。将融合后的电力调度文本信息依据“实体-关系-实体”三元组形式存储到MongDB数据库中,构建出电力调度文本知识图谱。

根据上述步骤构建电力调度文本知识图谱,所建知识图谱为待检索电力调度文本信息提供语义检索知识库,所建部分电力调度文本知识图谱如图2所示。

图2 部分电力调度文本知识图谱

2 基于文本相似度的电力调度文本语义检索

文本相似度计算可以采用统计学、机器学习、深度学习等方法计算不同的自然语言文本间的相似度,考虑到调度员在检索关键信息时,所表达的问题描述与真实的问题描述间存在差异,因此可以采用文本相似度计算方法,计算待检索问题在一定范围内的语义表达,从而提升电力调度文本语义检索准确率。电力调度文本语义检索采用文本相似度算法计算待检索信息与电力调度文本知识图谱中关键实体的相似度,通过相似度值对待检索信息进行语义识别,将匹配到相似度最高的关键实体对应信息答案推荐出来。采用词频-逆文件频率(term frequency-inverse document frequency,TF-IDF)方法生成电力调度文本特征词的词向量,再利用余弦相似度计算各特征词间相似度。向量余弦值计算表达式如下:

(1)

式中:Xi表示检索信息的特征向量;Yi表示电力调度文本知识图谱中电力调度文本信息的特征向量。

通过式(1)可以定量描述待检索调度专业语言文本与电力调度文本知识图谱实体信息之间的相似度,通过判别相似度值与设定阈值间关系,检索出知识图谱相关内容,将相似度值大于阈值所对应的电力调度文本知识图谱信息作为检索内容。

3 电力调度文本检索方法应用

获取某区域电网调控中心的电力调度文本作为研究对象,基于正则表达式识别53篇电力调度文本中关键检索信息与其对应的检索内容,生成大量的电力调度文本知识,依据其内在联系以“实体-关系-实体”的知识组合方式构建电力调度文本知识图谱,其中包含运行常备规程、保电规程、稳控管理规程、专业管理规程和事故应急规程五类知识。

采用规则和TF-IDF+规则的检索方法验证对电力调度文本的检索效果,并对两种算法的检索准确率进行统计,见表1。

表1 电力调度文本检索效果对比

其中基于规则的检索方法是指根据电力调度文本特点定义的专业术语匹配模式,待检索问题中含有匹配模式关键词将会检索出应对的内容。基于TF-IDF+规则的检索方法是指通过计算待检索问题词向量与知识图谱内容的相似度,检索出对应的内容,对于语义理解不准确的,可以通过适当的规则进行提升。

通过对表1数据分析,电力调度文本五类知识的查准率均在80%以上,其中事故应急类知识查准率在90%以上,检索效果要远优于基于规则的检索方法,检索过程耗时小于1 s,具有较高的检索准确率和检索效率,适合实际工程应用。

目前文中所提的电力调度文本检索方法已经在调控知识库产品中应用,可以部署在智能调度控制系统、调控云系统以及正在建设的新一代调度技术支持系统中,同时也封装了电力调度文本智能检索服务,供其他系统应用访问,大幅度提升了电力调度文本关键信息的检索准确率和检索效率,同时提升了海量电力调度文本的在线管理能力,为调度运行知识传承和共享提供了技术支撑。

4 结 语

为了提升电力调度文本的在线应用效果和辅助决策能力,提出了基于自然语言处理的电力调度文本检索方法。基于正则表达式识别出电力调度文本中关键信息与其对应的解释内容,采用知识图谱构建方法建立了电力调度文本知识图谱。基于TF-IDF方法生成电力调度文本特征词的词向量,通过计算待检索信息特征向量与电力调度文本知识图谱实体特征向量间的相似度值,实现了电力调度文本信息的检索。通过某电力调控中心文本数据的验证,文中所提电力调度文本检索方法具有较高的检索效率和准确率,工程实用价值较高。

猜你喜欢
规程关键图谱
基于规程法的雷击跳闸率计算
高考考好是关键
《四川省工伤认定工作规程(试行)》出台
绘一张成长图谱
中国新车评价规程
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
国内外风电有功控制规程要求的研究与探讨
获胜关键
生意无大小,关键是怎么做?