面向数字孪生工程的水利知识图谱构建及应用

2024-06-03 11:45张军珲黄希扬桂明宇昝红英张坤丽
人民黄河 2024年4期
关键词:数字孪生应用

张军珲 黄希扬 桂明宇 昝红英 张坤丽

摘 要:构建水利领域的知识图谱可为数字孪生水利工程建设提供结构化的知识支持。基于黄河小浪底、万家寨水利枢纽预报调度、工程安全、业务规则数据,使用实体识别和关系抽取模型构建面向数字孪生工程的水利知识图谱(KG4DT),并对图谱进行可视化展示。以水利枢纽为核心确定实体分类体系及关系分类体系,构建KG4DT 的模式层。使用二次开发的标注平台对非结构化文本进行半自动标注和人工校对,构建KG4DT 的数据层。以黄河小浪底和万家寨水利枢纽防洪、减淤、供水、发电业务为主线,结合AC 自动机等技术设计知识检索、预案自动生成应用,可为工程运行提供智能决策支撑。

关键词:水利知识图谱;数字孪生;知识描述体系;应用

中图分类号:TV61;TP391 文献标志码:A doi:10.3969/ j.issn.1000-1379.2024.04.020

引用格式:张军珲,黄希扬,桂明宇,等.面向数字孪生工程的水利知识图谱构建及应用[J].人民黄河,2024,46(4):121-124,130.

水利部把智慧水利建设作为推动新阶段水利高质量发展的六条实施路径之一。2021 年10—11 月,水利部印发《关于大力推进智慧水利建设的指导意见》和《“十四五”期间推进智慧水利建设实施方案》等文件。随着水利信息化的不断发展,水利枢纽工程积累了海量的异构数据,这些数据存在内容分散、利用效率低等问题。

知识图谱的概念于2012 年5 月由Google 提出,知识图谱本质上是一种语义网络(semantic network),网络中的节点代表实体(entity)或者概念(concept),边代表实体或概念之间的各种语义关系[1] 。采用知识图谱可以从海量异构数据中提取结构化知识,同时知识图谱可与各个行业的下游应用相结合。例如,医学知识图谱可以为医疗问答系统提供医学知识支持,期货知识图谱可用于文本分析、舆情监控和推理决策[2] 。在智慧水利建设中知识图谱有着广泛应用。例如,依据水利行业业务需求和流域管理特征,采用知识图谱可进行空间查询服务、智能问答等[3-6] 。然而,现有的水利知识图谱存在知识涵盖范围较小、与实际业务联系不紧密等問题。为此,本文构建一种面向数字孪生工程的水利知识图谱(KG4DT),使用实体识别和关系抽取技术从非结构化数据中提取实体、属性等并建立链接,围绕预报调度、工程安全、库区管理等核心业务,结合小浪底和万家寨水利枢纽(万家寨水利枢纽是黄河中游治理开发的关键工程,地位极其重要,被水利部列为数字孪生水利工程建设先行先试重点工程。小浪底水利枢纽是黄河干流的关键控制性工程。)防洪、减淤、供水、发电业务主线,为数字孪生水利工程提供知识检索、预案自动生成等应用。

1 KG4DT 整体框架

KG4DT 构建和应用整体框架见图1,数据资源层和知识抽取层为KG4DT 构建部分,应用服务层为KG4DT 应用部分。整体框架分为3 层,下层为上层提供服务,其中数据资源层包含3 类原始数据,原始数据经过知识抽取层处理后,为上层应用服务层提供结构化的知识支持,应用服务层为用户提供知识检索、预案自动生成等应用。

KG4DT 中原始数据为黄河小浪底、万家寨水利枢纽相关数据。根据业务应用的不同,将收集的数据分为3 类,分别为:1)预报调度数据。其包括防洪预报调度方案、调水调沙方案、汛末蓄水方案、超标洪水应急预报调度方案等相关数据。通过对水文气象监测数据进行分析,结合水利工程的水文、水资源等特征,可对潜在的水灾害风险进行预测并制定科学合理的水资源调度方案,从而保障水资源的合理利用以及减少水灾害的发生。2)工程安全数据。其包括工程风险隐患、隐患事故案例、事件处置案例、工程安全会商等相关数据。根据结构化工程安全知识可以在出现工程安全隐患时快速检索应急预案,提高应急处置能力。3)业务规则数据。其包括工程调度运用规程、机电设备运行规程、工程安全监测资料整编规程等相关数据。规程主要是水利工程建设、管理等业务活动中的制度性规定,确保水利工程安全、高效、可持续运营。

2 KG4DT 具体构建过程与方法

KG4DT 具体构建过程分为模式层构建和数据层构建,见图2。模式层制定知识描述体系,数据层通过实体关系三元组对模式层各类知识的定义进行表达。

2.1 模式层构建

模式层的构建首先需要对收集的预报调度方案、业务规则等进行整理分析。将模式层分为3 个部分:预报调度知识描述体系、工程安全知识描述体系、业务规则知识描述体系。3 类知识描述体系中部分实体关系定义见表1,各体系的实体关系侧重点不同,例如,虽然预报调度和工程安全的核心实体均是“水库”,但是预报调度的重点是对潜在的水灾害风险进行预测并制定科学合理的水资源调度方案,因此在预报调度知识描述体系中“水库”应与“水位”建立关系,根据水库水位的变化生成防汛预案。工程安全包含水利枢纽各结构和各系统的安全事件处置经验,因此工程安全知识描述体系侧重于对水库—位置等实体关系进行描述。根据各体系知识种类以及应用的不同,分别建立不同实体之间的关系,形成包含实体分类体系和关系分类体系的知识描述体系,即完成模式层的构建。

2.2 数据层构建

数据层的构建需要对采集的数据进行半自动标注和人工校对。在数据标注过程中,为了确保标注效率和标注的一致性,借鉴医学实体关系标注平台[7] ,结合水利领域知识进行二次开发,形成面向水利领域的实体关系标注平台。采用多轮交叉标注方式在该平台对知识库中的实体及实体关系进行标注,采用基于规则的方法对非结构化数据进行实体识别,采用深度学习方法对非结构化数据进行实体关系的自动抽取。本文采用Bi-LSTM-CRF 模型进行实体识别、采用PCNN模型进行关系抽取。Bi-LSTM-CRF 模型由双向长短期记忆网络(LSTM)和条件随机场(CRF)组成,该模型能够捕获句子的双向信息,降低对词向量的依赖。PCNN 模型能够对实体的特征分布进行编码,有效提高关系抽取的准确率。实体识别及关系抽取过程见图3。

在采集的数据中,除文本数据外还存在一定数量的图表数据,这些数据包含结构化的水利知识,可为知识检索应用提供支撑,须对图表数据进行单独处理。将单独的表格或图片定义为一个实体,图表的题目即为实体名称。将图表的实体名称存入Neo4j 数据库,再将原始图表的基础信息存入MySQL 数据库,两者之间通过唯一的实体名称相关联,在知识检索应用中通过对图表题目进行模糊匹配即可展示出对应的图表。

2.3 KG4DT 可视化展示

KG4DT 中共有70 类水利实体概念、108 类实体关系、12 908 个实体关系三元组,其中预报调度实体概念28 类、实体关系28 类,工程安全实体概念21 类、实体关系50 类,业务规则实体概念21 类、实体关系30 类。为了直观反映KG4DT 中各概念之间的关系,设计KG4DT 可视化展示平台,见图4。通过系统页面的搜索框可以检索到各类水利实体,并以查询的实体为中心,链接与其相关的各类实体。

3 KG4DT 具体应用

数字孪生水利工程通过与物理工程的同步仿真运行以及对各种软硬件设备的实时监控,可提高水利枢纽综合监管能力。通过对小浪底和万家寨水利枢纽防洪、减淤、供水、发电业务主线的分析,结合工程管理实际业务需求,设计知识检索、预案自动生成等应用。

3.1 知识检索

水利枢纽工作人员通过知识检索功能可以快速查询预报调度方案、工程安全和业务规则等水利知识,以提高工作效率、促进知识分享、快速决策和规划。知识检索界面见图5。

知识检索功能的实现基于AC 自动机( Aho -Corasick automaton)和Neo4j 数据库。AC 自动机是一种高效的字符串多模式匹配算法,其核心思想是将KMP 算法的失配指针应用于Trie 树中,实现对所有模式串的单次文本串扫描,并输出匹配结果。例如:给定一个有限模式集{水库回水长度,小浪底水库排沙,小浪底水利枢纽,库容峰值}和待检索问题“小浪底水利枢纽的水库回水长度是多少?”,首先为模式集创建AC 自动机(见图6),然后对AC 自动机上所有的节点构造失配指针,失配指针表见表2。在匹配阶段,AC自动机会从待检索问题的第一个字符开始匹配,如果当前字符可以转移到下一个节点,则继续匹配下一个字符。如果匹配失败,AC 自动机就会查找失配指针表,跳转到下一个可能匹配的位置。如果到達某个节点时,这个节点表示一个模式串的结尾,则说明匹配成功,可以记录下这个模式串的位置和长度。最终AC自动机检索出头实体“小浪底水利枢纽”和关系“水库回水长度”,根据检索出的头实体在Neo4j 数据库中进行条件查询并返回查询结果。

3.2 预案自动生成

预案自动生成功能具有重要的实际意义,针对实时监测和预测的水库水雨情和工情数据,采用基于规则的方法将数据与KG4DT 中的匹配内容进行对比,做出逻辑判断后生成防汛预案。以小浪底水利枢纽为例,预报预警匹配规则见表3,把小浪底水利枢纽、西霞院工程防汛预警划分为Ⅰ、Ⅱ、Ⅲ、Ⅳ共4 个等级。

预案生成过程分为两步:第一步为判别响应等级,第二步为自动生成预案。判别响应等级时应依据调度方案期内各水文站的最高水位和流量,若同时有多个水位、流量达到不同等级,则取最高等级。预案自动生成案例见图7,采集的实测和预测入库流量、出库流量、水位数据以图表形式可视化展示,将这些数据与预报预警匹配规则匹配后,自动判别对应的响应等级。生成的预案包括4 个部分,分别为水情形势、工程安全研判、枢纽运用方案和安全举措。例如,根据“2021 年秋汛洪水100508-按调令出库”调度方案,在调度时间范围内小浪底水库预测最高水位为273.82 m、预测最大出库流量为4 012 m3 / s,潼关水文站预测最大流量为8 200 m3 / s,系统自动预判启动Ⅲ级应急响应。预案中水情形势展示内容为小浪底、西霞院、三门峡水库水位和潼关、花园口、利津水文站流量;工程安全研判内容为水库预警、水文站预警和工程监测指标预警信息;枢纽运用方案内容为机组、孔洞的运用条件和运行状态;安全举措中应急响应内容为“小浪底管理中心防汛领导小组全体人员在6 h 内抵达枢纽管理区,统筹部署防汛工作。开发公司防汛指挥部全体人员及防汛工作人员在6 h 内抵达枢纽管理区,按照防汛预案开展巡查监测及通信后勤保障工作,做好抢险准备。投资公司防汛指挥部分管旅游公司的副总指挥、防办、旅游公司负责人及防汛相关工作人员在6 h内抵达枢纽管理区,按照预案开展防汛工作”,还包括公司职责、抢险队伍、物资保障等。用户可分别对以上预案内容进行筛选查阅,以获得细粒度预案信息。

4 结束语

本文描述了面向数字孪生工程的水利知识图谱构建以及应用过程。首先在模式层构建中整合3 类水利文本,然后在分析水利文本结构的基础上,经水利领域专家指导设计图谱描述体系,在数据层中通过多轮迭代的方式标注文本,同时使用深度学习方法进行实体关系自动抽取,对人工和自动标注的三元组进行校对。最后结合小浪底、万家寨水利枢纽实际业务场景设计了知识检索、预案生成等应用。本文构建的KG4DT 可以让决策者更加快捷方便地辨识调度相关信息,通过任何一个实体搜索获得其完整的知识体系,为工程安全、防洪调度提供数据查询分析。

参考文献:

[1] 王萌,王昊奋,李博涵,等.新一代知识图谱关键技术综述[J].计算机研究与发展,2022,59(9):1947-1965.

[2] 李雯昕.期货领域知识图谱的构建研究[D].郑州:郑州大学,2022:20-28.

[3] 曾晓玲,张弓.基于黄河资源整合共享的知识图谱研究和应用[J].人民黄河,2021,43(增刊2):282-284.

[4] 刘建华,岳铭睿.黄河流域生态保护和高质量发展研究知识图谱分析[J].人民黄河,2021,43(7):7-12,23.

[5] 高凤宁,高祥涛,曹帅,等.面向智能搜索应用的水利知识图谱构建[J].江苏水利,2021(10):59-64.

[6] 冯钧,徐新,陆佳民.水利信息知识图谱的构建与应用[J].计算机与现代化,2019(9):35-40.

[7] 张坤丽,赵旭,关同峰,等.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44.

【责任编辑 栗 铭】

基金项目:河南省科技攻关项目(232102211033,232102211039)

猜你喜欢
数字孪生应用
环境偶双极的数字孪生及其应用
“数字孪生”很美,但风险被低估了
基于大数据的智能工厂数据平台架构设计与研究
浅析大数据时代的机械设计发展趋势
“数字孪生”改变行业规则的顶尖技术
图书馆未来的技术应用与发展
多媒体技术在小学语文教学中的应用研究
分析膜技术及其在电厂水处理中的应用
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析