胡杰, 许刚,齐立忠,郄鑫,荣经国
(1.华北电力大学电气与电子工程学院, 北京市 102206; 2.国网经济技术研究院有限公司,北京市 102209)
碳达峰、碳中和国家战略目标下,新型电力系统以清洁低碳、开放互动为目标不断建设,成为实现“双碳”目标的重要抓手[1-3]。在此背景下,输变电工程建设加速推进,尤其是特高压工程已成集中开工态势[4-5]。工程规模与数量的不断扩大、建设复杂度的不断提升,对输变电工程建设提出了更高要求。随着数字技术与实体经济的深度融合,推动输变电工程建设领域数字化转型,成为支撑新型电力系统建设、把握新一轮科技革命和产业变革新机遇的战略选择[6-8]。工程评审作为工程建设管控关键环节,目前仍停留在以专家线下评审为主的低效率模式中,难以满足输变电工程大规模、高质量建设需求。亟需通过知识图谱、推理解析、大数据等数字化手段,建设输变电工程辅助评审系统,推动实现输变电工程评审工作数字化、智能化转型升级。
目前,输变电工程辅助评审系统通常使用浏览器和服务器架构(browser/server, B/S),相比较客户端服务器端架构(client/server, C/S),具有分布性强、开发简单、共享性强、维护方便等优势[9-10]。在此基础上,结合工程评审单位以及相关电力设计院具体业务需求,开展系统建设工作。文献[11]提出适用于110 kV及以下输变电工程设计评审管理平台的关键因素提取法和光学字符识别(optical character recognition,OCR),实现历史数据的收集、分析和研究。文献[12]面向110 kV及以上输变电工程智能规划评审需求,提出基于典型历史工程关键特性指标的辅助评审系统架构,提升数据收集、意见发文管理效率。文献[13]研究了福建输变电工程设计评审系统,指出使用B/S模式的系统架构,在评审业务的标准化管理和评审文件的模板化管理方面发挥了良好的作用。文献[14]基于B/S和.NET平台设计并实现了输变电工程设计评审系统,其底层数据库采用了常见的SQL Server 2005关系型数据库。电力规划总院根据自身业务需求及已有数据储备,建立了咨询评审平台和专家辅助决策系统,实现了工程库信息录入、计划管理、评审管理、知识库、辅助决策等业务功能。上述分析的系统平台多聚焦于评审业务流程线上开展,对历史工程数据进行分析以辅助工程评审方面开展的工作较少。随着电网规模的不断扩大,工程数据量不断增加,亟需具备对历史工程文本数据进行知识建模、存储和分析能力的新型软件平台。
知识图谱是最初由谷歌公司提出的一种用于增强搜索引擎功能的辅助知识库,它采用“实体-关系-实体”三元组的形式描述现实世界中的物体及其之间的关系,具有关系表达能力强、推理、纠错能力强等优势[15-19]。目前,知识图谱在电力系统的应用尚处于起步阶段,主要应用场景有电网故障处置[20-21]、电力设备故障诊断[22-23]、智能问答[24-27]、电力调度[28]等,在输变电工程建设领域尚属空白。文献[29]提出了电力领域知识表示架构图,并详细列举了电力系统知识图谱的应用业务需求及应用方向。文献[30]分析了电网故障处置预案的文本特点,采用TextCNN、LR-CNN和BiGRU-Attention完成了命名实体识别和关系抽取,在没有使用基于变换器的双向编码器表示技术(bidirectional encoder representation from transformers, BERT)等常见的预训练语言模型背景下,仍取得了较好的效果。文献[31]提出了面向配电网故障调度的知识图谱构建流程,并以neo4j数据库为核心,设计了故障调度辅助决策系统。文献[32]面向配电网故障处置,分析了配网设备台账数据、故障预案数据、调度规程数据和配网缺陷数据,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别方案。文献[33]针对电力文本实体边界模糊、术语较多等特点,设计提出了一种新的命名实体识别方法I-BRC。文献[34]基于ALBERT语言预训练模型,开展电力变压器运维数据的命名实体识别和关系抽取,提出基于知识图谱的电力变压器运维策略。
本文基于以上研究基础,通过梳理分析输变电工程评审业务流程,提出基于知识图谱的智能辅助评审体系架构,从知识图谱构建和图谱解析推理等方面分析了系统实现所需关键技术,最后介绍基于知识图谱的输变电工程辅助评审系统在工程中的应用,为新型电力系统构建和数字化转型背景下输变电工程建设提供技术支撑。
输变电工程评审是工程建设阶段的关键环节之一,其工作质量对电网建设工作的设备选择、工程量计算和造价产生直接影响。与一般民建工程相比,输变电工程评审更加严格,可研阶段增加了设计审查环节;初步设计阶段需要对全部电压等级工程组织设计审查,而非特殊工程或达到一定规模的工程;施工图阶段重点关注土建相关部分,由同一图审部门进行评审。另外,国家电网有限公司还会对重大工程,如特高压工程及部分常规工程组织全专业施工图审查工作。输变电工程评审主要内容包括初步设计评审(含概算、技术规范书、安稳专题等)、施工图评审(含预算、重大设计变更等)、相关专题评审等。涉及电气一次、电气二次、线路结构、土建等多个领域,具有专业性强、流程复杂、对评审人员的经验要求高等特点。
输变电工程评审需要相关电力设计院和工程评审单位共同完成,具体流程如图1所示,其中评审资料的收集验证、各专业评审、评审意见形成、工程资料归档入库是所有工作的重点。由于评审资料多为非结构化文本数据和图纸类文件,为了提高评审效率,充分利用历史工程数据及评审成果,需在总结专家经验基础上,提出输变电工程评审关键要素,为辅助评审平台建设提供支撑。
图1 输变电工程评审流程图
根据不同的工程实际情况,输变电工程评审主要包括变电、架空线路及电缆工程评审,主要依据现行的国家、行业及企业标准,例如《国家电网公司输变电工程通用造价》《电力建设工程装置性材料预算价格》《国家电网公司输变电工程通用设计》《国家电网公司基建技术经济管理规定》《国家电网公司输变电工程初步设计审批管理办法》《国务院关于调整和完善固定资产投资项目资本金制度的通知》《国家电网公司输变电工程初步设计内容深度规定》《电网工程建设预算编制与计算标准》等。结合现有标准规范、专家经验和工程实际情况,共总结出54个大类指标,共189个二级指标,其部分内容如表1—3所示。
表1 变电工程评审要素
表2 架空线路工程评审要素
表3 电缆线路工程评审要素
构建输变电工程辅助评审系统,一方面要充分利用现行国家标准、行业标准、企业标准及历史评审经验,另一方面要避免专家个人经验的局限性和倾向性。要实现业务需求和数据基础的兼顾,关键在于从大量低价值密度数据中抽取出高价值数据,同时保证数据准确性和完整性,构建结构化数据库,服务于检索、问答等基本业务功能。另外,考虑到电网工程各项技术参数和设计规范的不断优化更新,辅助评审系统的数据模型应具备自适应更新升级能力,并能够处理好新数据模型与旧数据模型之间的关系,从而得到更加完备准确的数据库,支撑评审平台上层应用。
本文提出基于知识图谱的输变电评审系统架构,如图2所示,重点在于基于结构化数据形成知识图谱,推动数据和业务需求的高度融合,提高输变电工程历史数据利用价值,达到提质增效的目的。系统架构主要由五个组件构成:原始数据接入组件、人工智能平台组件、知识图谱组件、应用场景组件及其他辅助组件,通过设计报告、专题报告等各类数据的安全接入、存储与综合管理,辅助评审业务工作开展。
图2 基于知识图谱的输变电辅助评审系统框架图
1)原始数据接入组件。该组件实现从业务系统、数据中台或线下采集输变电工程评审所需数据,并通过数据接口安全可靠地将数据接入到人工智能平台中去。根据以上对输变电工程评审业务的分析可知,需要提交分析的数据资料包括初步设计报告、专题报告、设备清册等文本数据。目前,国网经济技术研究院有限公司已经建设完成了基建全过程综合数字化管理平台,从数据收集、接口设计、数据字典等多个方面对数据的汇集、整理、传输做了详细的要求和规定,可以为输变电辅助评审平台提供数据接入服务。为保证数据传输的统一性和规范性,接口API仍采用基建全过程综合数字化管理平台数据贯通实施方案,即面向不同数据结构类型,去掉适用于进行流媒体类的视频直播、回放等场景的第5类接口,使用简化的4类接口传输结构化和非结构化数据。
2)人工智能平台组件。该组件主要实现人工智能模型的管理、训练和样本的存储等功能。其作用是使用业务、专家团队预先标注的样本对训练语言预训练模型,得到适用于输变电工程评审的命名实体识别模型、关系抽取模型等服务于知识图谱构建和应用的人工智能模型。
3)知识图谱组件。知识图谱组件是输变电工程辅助评审系统的核心,主要承担完成评审原始数据的接入、知识建模、数据存储、可视化及相关基于图数据的推理分析等功能。该组件将经过评审专家分析的、通过众包形成的大量包含历史工程知识的文本数据通过数据清洗、知识抽取、知识表示等流程,形成准确度较高的结构化数据,并以知识图谱的形式,使用Neo4j、GraphDB、ArangoDB等图数据库进行存储,并最终服务于可视化、语义检索、知识推理、知识图谱问答等应用。根据细分的不同业务需求,返回的数据通过RESRful API、SDK、WebService、HTML等服务接口传递给不同用户,并支持不同终端、不同业务部门高并发访问。
4)其他组件。同一电压等级输变电工程已有典型设计规范,但最终设计文件的编制,不同设计院仍有自己的标准和习惯,这也就导致需要不同的辅助模块以应对多种不同的情况。例如,需要OCR模块对PDF文件进行预处理,提取出文件中的字符;自然语言处理(natural language processing,NLP)模块对使用自然语言的访问需求进行理解和分类,减少使用人员对系统内在构建机理的要求,降低系统操作的复杂度,扩大输变电工程辅助评审系统的使用范围。
输变电工程辅助评审系统集数据收集、处理、建模、传输、应用为一体,依托知识图谱构建、解析推理等关键技术作为数据处理的核心手段,满足输变电工程评审数据关联信息抽取、技经指标纠错、工程综合评分等典型需求,对于实现评审业务的数字化和智能化具有重要意义。
2.2.1 知识图谱构建技术
知识图谱的本质是一种结构化的语义网络,主要用于描述物理世界的各种概念、实体以及他们之间的相互关系。知识图谱主要采用资源描述框架(resource description framework,RDF)来进行标识,形式上可以表示为SPO三元组,即A=(S,P,O),其中S代表主语(subject),O代表宾语(object),P代表谓语(predicate)。知识图谱的构建过程通常分为模式层和数据层两部分。模式层的构建方法主要分为自顶向下、自底向上和两者的混合方式,输变电辅助评审系统知识图谱属于垂直领域知识图谱,具有专业性强、术语更新快等特点,通常采用混合方式构建。数据层的构建方式可依据数据的特点而定,通常情况下,对于结构化程度较高的设备清册等表格类文件可采用正则表达式或规则抽取的方法,而对非结构化的初步设计说明书等文件,则需要使用命名实体识别、关系抽取、实体消歧等自然语言处理技术提取数据文件中的知识,并进行知识建模。本文基于专家经验提出了面向输变电工程评审的知识图谱构建总体框架图,如图3所示。该框架主要包括图谱模式层、数据处理层和图谱构建层。
图3 面向输变电工程评审的知识图谱构建技术框架图
1)图谱模式层:由变电工程模式层、架空线路模式层和电缆线路模式层组成,主要负责为知识图谱提供本体架构。这些本体架构通常来源于专家评审经验和历史工程建设实践,可以为知识图谱的本体抽取、关系抽取的训练提供标签集。当新型设备设施引入电网后,受益于知识图谱可拓展性较强的特点,只需在模式层构建新的概念和关系,即可方便引入新的技术。
2)数据处理层:由输变电工程评审中实际处理的气象等结构化数据、初设说明书等非结构化数据和设备清册等半结构化数据组成数据源,为知识图谱构建提供数据准备。由于这些数据通常来源于各电力设计院,数据量较大,数据冗余程度较高,且往往存在一定程度的数据缺失和错误等问题,同时会存在PDF格式的文件数据,因此有必要使用OCR技术识别文档中的字符,然后通过数据挖掘、神经网络技术对生数据进行数据清洗,最后针对特高压工程等工程数量少的典型输变电工程进行文本增强,扩大样本数量,为后续知识图谱应用提供良好的数据基础。例如经过OCR技术后的某段非结构化数据为:“系统接入方案:本工程特高压站扩建2×3 000 MVA主变,本期无新增 1 000 kV及500 kV出线;为降低短路电流,变电站500 kV母线分列运行,至A地2回、B地2回出线在一段母线运行;至C地2回、D地2回出线在另一段母线运行。后续需结合‘十四五’电网规划,进一步研究论证降低该地特高压站及周边 500 kV 站点短路电流的措施。”这段文本数据充分说明了该特高压变电站的工程类型、系统接入方案及后续工作需要注意的情况。
3)图谱构建层:图谱构建层是输变电工程辅助评审系统中负责图谱生成、管理及更新的模块,主要从已经清洗好的数据中按照模式层的指导提取出相关的工程知识,形成结构化的知识图谱。由于从海量数据中人工抽取数据耗时长、准确率不高,采用基于自然语言处理的计算机自动处理技术成为了抽取结构化知识的首选方法。针对现有语言预训练模型对样本库敏感的特点,首先需要通过众包、正则表达式等方式从结构化和非结构化数据中构建样本库,然后采用实体抽取、关系抽取、属性抽取等知识建模的方式从输变电工程文本数据中抽取结构化知识,便于形成变电工程知识图谱、架空线工程知识图谱、电缆工程知识图谱和典型设计知识图谱,其中典型设计图谱不同于其他三类历史数据知识图谱,是一种规范化、样本化的子图,体现了输变电工程设计专家的经验。知识图谱完善模块可以促进知识图谱的演进,提取新的特征,挖掘缺失实体并补充完成他们之间的关系,形成新的工程建设知识。
2.2.2 基于知识图谱的解析推理技术
基于知识图谱的解析推理技术主要由关键信息解析和推理两部分组成。其中关键信息解析指的是将知识图谱中存储的设备、属性、工程规模等信息通过检索提取出来的技术,这项技术的实现有助于对错误信息进行比对和纠错,从而减少工程评审中人工信息查找所需要的时间。为了扩大变电工程辅助评审系统的用户范围,让缺少计算机相关知识的专家也能顺畅使用该系统,在关键信息检索技术的前端通常会增加自然语言识别系统,将专家使用的自然语言处理形成关键词,投入到基于知识图谱的数据库的查询系统中,常用的自然语言处理前端可以是以BERT为基础的预训练语言模型,也可以使用ChatGPT等新技术。基于知识图谱的推理主要是通过图神经网络等基于图的深度学习网络,结合正则表达式,对新建工程与历史工程的关键信息进行比对、相似度查询和匹配,并通过典型设计等案例进行分析和处理。
本文所提基于知识图谱的输变电工程辅助评审系统架构借鉴了国网经济技术研究院设计评审管理系统,更新了后台数据库模式为知识图谱图数据库结构,建设完成后可以满足关键指标纠错、修改建议生成和知识图谱质量分析等典型应用需求。
输变电工程关键指标纠错指的是依据相关的设计规范和工程实际,对电力设计院提交文件的关键信息进行全面的梳理分析,及时快速提出可能影响工程实施的问题,为专家人工评审提供参考。输变电工程评审需要关注的关键问题包括设计深度是否达标、基建标准化应用程度是否达标、建设规模与核准规模是否一致、投资概算是否合理、新技术应用情况等[35]。目前,现有的评审关键指标纠错方法主要还是以人工纠错为主,对专家经验的依赖程度较高,因此探索使用辅助评审系统将可能存在的问题提前梳理出来,交由各领域的专家进行二次审核能够大大减小专家的工作量,提高工作效率。
综合分析上述输变电工程可能存在的问题,可以将其分为两类:指标类问题和合规性问题。指标类问题涉及工程规模、设备选择、设备参数等问题,可以简单地从数据中提取关键信息后与历史工程或规范文件进行比对,从而得到准确的结果。合规性问题包括投资概算是否合理、新技术新材料的应用情况等问题,这些问题受特定工程自然条件、设备及工人工资等因素的影响,与历史工程数值可能产生一些偏差,因此只要数值在一定范围内或满足一定的发展趋势均可视为正常。从知识图谱的角度看,指标类问题通常可以看作实体或属性纠错的问题,可以通过预先定义关键指标集,通过检索和与历史数据或规范类文件比对的方式解决,需要注意的是由于不同设计院惯用的命名规则均有所不同,所以在对特定指标进行对比之前,需要通过本体层构建的数据字典进行实体对齐,保证数据的完整性;合规类问题不仅仅需要对指标进行单独判断,还需要对工程概况有深入理解,因此可以将工程基本信息看作子图,进行图嵌入学习,从而得到较多的特征值,同时可以使用正则表达式的方式引入专家经验,对关键指标进行聚类分析,从而得到可能存在的合规类问题,提交专家审核。
修改建议生成是输变电工程评审后的一项工作,是面向电力设计院的一项服务。目前主要以评审会后的会议纪要为主要依据,由专家编写生成,通常包括工程信息概况、问题说明和修改建议等多个部分。其中工程信息概况需要提取多专业关键信息,问题说明通常会指出数据中存在的错误和位置,而修改建议需要总结上述所有信息,对工程给出一个总结性概括说明。输变电工程辅助评审系统修改建议生成功能展示如图4所示。
图4 输变电工程辅助评审系统修改建议生成功能展示
综合以上分析,修改建议生成需要知识图谱检索技术、语义槽填充技术和自然语言理解生成技术。利用知识图谱的快速检索特性,将检索到的工程概况信息和电气一次、电气二次、土建消防等各专业的关键信息提取出来,利用预先定义的语义槽填入会议纪要中,最后基于自然语言生成技术产生对该工程的修改建议。该技术框架中对工程信息的准确理解和对专家意见倾向的明确分类是修改建议生成的基础和前提,因此,构建准确性高、泛化能力强的输变电工程辅助评审预训练模型是该领域研究的重点和难点。
目前对知识图谱的质量、效能的研究仍然较少,尚未形成统一的国际标准。由于知识图谱是由模式、实体、属性三类对象及其之间的关联关系组成的,因此对知识图谱质量的评判主要也是面对几类对象分别进行的。从数据的角度看,知识图谱的准确性、一致性、完整性和时效性可以作为评判知识图谱质量的四个要素。其中准确性考察知识的准确度,由于从原始数据中获取的知识往往存在不可避免的错误,因此可以通过抽样的方式对已建成的知识图谱的准确度进行分析;一致性衡量的是知识图谱中知识表达是否一致,是否存在矛盾的知识;完整性考量的是已建成的知识图谱是否能够完整覆盖输变电工程建设辅助评审业务;时效性侧重考察知识是否是最新的,我国电网建设工程的电压等级不断提高,随之而来的新设备和新技术也应及时体现在知识图谱的模式层和数据层中。
通过梳理输变电工程评审业务的主要流程和业务要素,本文以知识图谱为关键技术,设计了面向工程实际的辅助评审体系架构。该框架集数据收集、人工智能模型训练、知识图谱模型生成为一体,可以实现自上而下的数据模式层设计和自下而上的数据抽取及价值挖掘。最后,文章从关键指标纠错、修改建议生成和图谱质量分析三个方面对评审典型业务需求进行了梳理,为平台的落地应用提供了技术参考。