基于双向迭代的航空发动机试验知识图谱构建方法研究

2023-03-26 00:34聪,梁丹,刘
燃气涡轮试验与研究 2023年3期
关键词:图谱实体航空

张 聪,梁 丹,刘 振

(中国航发四川燃气涡轮研究院,四川 绵阳 621000)

1 引言

随着现代航空发动机研制需求的不断提高,对其研制活动中重要环节的试验验证也提出了更高的要求。一方面,需要进一步降低试验成本和试验风险,提升试验对多样化验证要求的技术支撑和实施效率;另一方面,需要试验环节获取的信息能够主动为正向研发提供系统性的知识支撑,助力推动发动机研制进程。

航空发动机试验一般分为试验设计和试验实施两部分。试验设计包括试验规划、测试设计、试验流程设计等环节;试验实施包括车台改造、试验件上台、试验准备、试验现场测试执行、试验数据分析等环节。每个环节都会产生大量复杂信息数据。这些信息以试验件为核心,涉及诸如人员、设备、工具、环境等人机协同的物理要素,关系错综复杂,数量日渐庞大。目前,信息存储主要以传统关系型数据库、半结构化文件和非结构化文档形式为主,分布在不同的信息化平台甚至是本地终端,提供的信息获取方式以关键字字面含义匹配为主。这一现状使得数十年的试验学科知识、业务经验积累与工程数据没有形成相应的知识体系和直观形象的知识表达,从而无法满足对发动机研制工作的有效支撑。

知识图谱通过描述真实世界中的实体和概念及其关系,可以实现在机器层面对信息的语义理解。相较于列表和段落文字,知识图谱对复杂知识体系的图形化表达方式,更符合人类的认知习惯,可以有效辅助快速获取关键知识信息。知识图谱分为通用领域知识图谱和行业领域知识图谱,通用领域知识图谱构建技术较为成熟,代表性的成果有国外多语言的DBpedia[1]和经过高质量评估的YAGO[2],国内的CN-Probase 和百度构建的“知心”等。这类知识图谱数据来源主要是开源百科和互联网公开网页资料,覆盖范围广,但是知识深度较浅。行业领域知识图谱构建技术目前主要以民用金融和医疗领域为主,其特点是高度依赖行业领域数据,知识范围不广但深度较深,以基于海量文本和深度学习的自动化构建技术为主。近年来,军用领域也开始积极探索知识图谱构建技术,包括雷达情报装备知识图谱[3]、武器装备信息知识图谱[4-5]、装备维修保障知识图谱[6]等。该类知识图谱信息主要来源,一部分是开源百科和网页公开资料,一部分是行业专家手动构建的本体,以及内部的结构化数据库,以传统词法分析和统计学习技术与本体论结合的半自动化构建技术为主。

面向行业领域的知识图谱技术是与行业知识特点和业务应用深度结合的技术,不同的知识范畴、业务应用目的和信息来源需要探索不同的构建技术。航空发动机试验领域是具有一定保密性的大型协同工程科学,相关有效信息难以公开、直接获取,实体关系复杂度高、深度深,高度依赖特定的业务经验,导致上述常规自动化构建技术难以实施。同时,涉及的很多经验型知识,由于存在大量隐含背景常识和业务专家理解不完全一致等特点,使得难以直接通过统一本体建模进行业务工程层面的知识指导,导致上述军用领域的以本体论为基础的半自动化构建技术同样难以复用。

目前,航空发动机试验领域还未形成适用于本领域的知识图谱构建方法及其相应图谱。为此,针对航空发动机试验领域面向不同场景的业务应用需求,基于试验领域统一遵守的标准规范条文和权威手册条目,结合业务过程中积累的大量数据表、技术文件,从知识图谱构建角度,对知识自动化获取关键技术开展综述研究。并在此基础上提出基于双向迭代的领域图谱构建技术方法,充分利用现有数字化资源,最小化减少人力投入,以便精准高效构建知识图谱用于有效辅助基层业务技术工作与发动机设计研发工作。

2 知识自动化获取关键技术

知识自动化获取技术主要用于从非结构化文本中发现和识别实体与关系,以及补全现有知识网络,从而构造结构良好的大规模知识图谱,以便于在实际工作中结合工程业务模型,提供可解释性的智能知识服务。知识获取关键技术主要包括实体发现技术、关系抽取技术和知识补全技术[7]。

2.1 实体发现技术

由实体发现技术根据不同的知识获取目的,可分为实体识别、实体链接和实体对齐。实体识别(NER),主要是对文本中的实体角色确定边界,是知识获取的基础。经典实体识别技术主要分为3 类:第1 类基于规则和词典,以语言学专家手工构建模式和字符串匹配为主要手段[8],适用于规则明确,范围单一,风格统一的领域文本提取;第2 类是基于统计的方法,利用人工标注的语料进行训练,代表性算法为基于隐马尔可夫模型[9],基于条件随机场[10]等。第3 类为基于规则和统计的多种类融合,通过借助规则知识,缩小统计方法的搜索空间,达到提升效率的目的[11]。由于中文在语言学特性上与英文差距大,因此国内学者通过引入先验概率[12],最大熵混合[13]等方法,用于提升中文实体识别准确率和召回率。

实体链接主要是将文本中的指称(mention)链接到知识库中对应的实体(entity)上。实体链接需要解决两方面的问题,分别是同一个实体有不同的指称,以及同一个指称在不同上下文表征不同的实体。传统采用候选实体生成方法,主要基于百科、日志、人工标注构建别名词典,也是目前工业领域常用方法。而新一代实体消歧技术主要基于上下文独立特征和上下文依赖特征,自动从文本中学习到指称与实体的对应性,主要分为3 类方法:排序法,概率法和基于图的方法。近期较为代表性的学术成果是通过深度学习直接学习到知识库实体的图特征、上下文特征和先验概率特征,综合采用这3 类方法最终输出指称对应于实体的概率排序[14]。

2.2 关系抽取技术

关系抽取技术主要用于从非结构化文本中自动提取实体之间未知的关系事实,即构建知识的语义联系,是构建大规模知识图谱的关键,分为基于知识工程的方法和基于机器学习的方法。前者主要基于领域知识结合语言学知识抽取有效的关系信息,代表性的包括人工编写规则进行匹配[15],谓语信息判定语义关系[16]以及句法分析结合人工标注识别复杂语义[17]等。后者则主要通过自动学习标注语料的特征训练模型提取有效的关系,根据对标注语料的依赖程度可分为有监督学习、弱监督学习和无监督学习。

有监督学习将关系抽取视为分类问题,代表性的方法为通过启发式方法选取多层次的语言学特征显式构造向量用于训练分类器[18],以及通过计算文本字符串或者句法分析树结构的相似度训练分类器[19]。弱监督主要是基于自举的思路:首先根据人工构造少量关系实例作为种子集合,然后利用模式学习扩展迭代更多实例集合[20]。无监督学习主要是采用聚类技术利用大规模预料的冗余性挖掘出潜在关系集合[21]。

2.3 知识补全技术

由于知识图谱在构建过程中存在固有的缺失性,因而需要知识补全技术添加新的三元组,包括两项子任务,分别是实体预测和关系预测。知识补全技术通常分为人工补全和机器自动化补全两类。人工补全主要是通过构建规则推理实现补全,机器自动化补全则是通过表征空间、打分函数、编码模型和辅助信息构建知识表征学习模型实现补全。目前机器自动化补全采用的表征空间是低维度的嵌入式表示,因此通常采用基于嵌入的方法,代表性方法是基于TransE 编码模型计算替换了实体的三元组打分排序结果作为评价指标。

3 基于双向迭代的航空发动机知识图谱构建技术

航空发动机试验领域知识特征具有3 点特殊性:①航空发动机试验领域具备一定的保密性,不具备大规模获取开放性有效数据的资源环境;②航空发动机试验领域既属于较深层次的子领域,又属于与其他学科专业深度结合的跨学科综合独立领域,浅层次的材料梳理和结构化表单无法直接用于构建知识体系;③航空发动机试验领域是大型协同工程,知识信息的关键关联来源于业务实践经验,属于隐性知识,通常离散分布在不同的信息系统和文档中,难以先构建统一的本体模型对知识体系进行规划约束。这些特殊性导致垂直领域常用的人工构建与通用领域常用的自动化构建技术存在较大的应用难度。为此,基于以上3 点特殊性,本文提出了面向航空发动机试验领域的知识图谱框架结构,并在此基础上提出了基于双向迭代的领域图谱构建技术。通过在线闭环反馈的人机协同机制,将自上而下的知识数据模式设计和自下而上的弱监督自动化知识获取结合,从而有效构建航空发动机领域知识图谱。

3.1 航空发动机试验领域知识图谱总体框架设计

基于不同的业务需求和数据特性,航空发动机试验领域知识图谱框架结构如图1 所示。主要由两类知识图谱构成,分别是基础知识图谱和专题知识图谱。基础知识图谱用于表示面向各类试验业务通用的基础背景知识,主要分为术语词汇概念知识、试验标准规范知识和试验专业系统背景知识。具体可横向扩展不同图谱库,可包括航空涡轮喷气与风扇发动机试验词汇概念图谱库、地面整机与高空模拟试验标准规范图谱库、试验中测试专业系统背景知识图谱库等。专题知识图谱是面向具体的试验业务工作开展和决策辅助需求,构建更为细粒度和深层次的知识关联体系,主要分为静态主题和动态主题。该层图谱可根据实际业务变化进行横向或者纵向扩展,可包括试车台资源实例图谱库,试车台作业知识图谱库,面向参数有效性决策支持知识图谱库,面向某型号的故障跟踪知识图谱库等。

图1 航空发动机试验领域知识图谱总体框架结构Fig.1 General framework of aero-engine test knowledge graph

每个知识图谱库组包括多个知识图谱库,每个知识图谱库内部有多个关联的知识图谱。图谱类型分为概念图谱和实例图谱,概念图谱主要是用于表示型号、车台设备、试验任务中多类别多层级的术语概念、功能角色、属性分类;实例图谱主要用于表示指代对象和属性值,可继承概念图谱的结构进行扩展,也可独立存在。总体而言,基础知识图谱以概念图谱为主,专题知识图谱以实例图谱为主。因此,专题知识图谱与基础知识图谱是监督与补全的交互迭代构建关系。即专题知识图谱前期主要通过基础知识图谱的部分知识,以弱监督形式结合其他数据源快速搭建框架,后期则可通过对库组中具体图谱内容扩充的归纳总结,为基础知识图谱提供知识补全。

3.2 基于领域文档的航空发动机试验知识自动化获取技术方案

航空发动机试验领域文档隐含和积累了大量的知识要素,通过分析领域文档的信息特征,提出了基于领域文档的航空发动机试验知识自动化获取技术方案,如图2 所示。方案主要由4 部分构成,分别为外部采集、语料生成、预处理和知识要素获取。领域文档分为内部资料和外部资料,内部资料包括技术文件、内部标准规范;外部资料包括公开标准规范、行业专家丛书和学术论文报告以及百科和公共词库。算法支持主要分为两类,一类为规则解析,这类规则主要依赖人工及公开词库与百科进行初步发现和最后的组合计算;另一类为模型预测,主要采用深度神经网络智能模型进行阅读理解或者实体识别与关系抽取。

图2 基于文档的航空发动机试验领域知识自动化获取技术方案Fig.2 Automatic acquisition technical proposal of aero-engine test knowledge graph based on document

外部采集主要是通过爬虫技术,从互联网中自动获取页面上的领域相关文本内容,具体而言采用了动态任务调度机制、基于验证码屏蔽的页面检测异常和文本类型识别。其中文本类型识别是用于判别该页面内容类别为长文本、富文本、表格、清单等种类。针对不同种类的预处理方法有所不同,预处理主要包括结构化解析、模块提取、分词及其统计指标计算。其中结构化解析、模块提取主要针对富文本进行层次化的结构处理。分词是基于正则表达式等规则进行的初步指代词识别,并对其统计指标进行计算从而获取该词汇的统计特征属性。语料生成主要用于智能模型的训练集与测试集构造,以及对规则模板的构造与匹配,包括分句、语义标注、数据增强和正负样本构造。知识要素获取主要是基于深度神经网络智能模型对文本语义片段和语义三元组进行自动化获取,主要包括词汇挖掘-关系抽取流水线处理技术、抽取式阅读理解、端到端三元组抽取和组合计算匹配。其中词汇挖掘-关系抽取流水线处理技术,主要采用远程监督技术利用外部百科和公共词库对领域文本进行新词发现和关系抽取;抽取式阅读理解主要是针对长文本的语义问答知识进行识别;端到端三元组抽取主要是采用语义框架和值抽取技术提取形式化的知识要素;组合计算匹配主要采用就近匹配原则,将提取到的知识元素进行初步的重构形成显性的知识要素。

3.3 基于双向迭代的领域图谱构建方法

领域知识数据模式设计是领域知识图谱构建的前提。一般而言,自顶向下的模式设计方法为从顶层概念逐步向下细化形成分类学层次结构,并将文本中的指代实体链接到概念中。但是这种方法在大量隐性经验知识分散在文本中的多专业协同工程领域重构代价很高,且难以统一。为此,提出了一种基于双向迭代的航空发动机试验领域知识图谱构建方法,如图3 所示。该方法主要包括两个部分的工作,分别是知识数据模式设计和领域知识自动化获取。模式设计为概念图谱和知识自动化获取提供不同形式的知识表示,随后知识自动化获取在概念图谱的指导下依次获取文本中的指代实体、链接概念和对应关系,并在此基础上进行知识补全和知识纠错,从而形成实例图谱。专家根据机器自动获取的实例图谱比对原始文本进行模式设计的完善和优化等更新工作。即首先是自上而下地通过预定义的数据模式获取了一定的指代实体,再通过机器学习泛化抽取的指代实体自下而上地归纳抽象、补充完善、优化数据模式。

图3 基于双向迭代的航空发动机试验领域知识图谱构建方法Fig.3 Construction method of aero-engine knowledge graph based on bi-directional iteration

知识数据模式设计是根据文本内容特征和该图谱使用目的进行的。根据图1 所示的航空发动机试验领域图谱,总体框架包括了基础术语/主题概念关联结构、试验业务活动流程结构、专业系统运行逻辑约束、事实要素划分和典型句式模板。具体的表示形式分为结构、规则、标签、表格和文本模板。结构在本文中主要指树状的层次结构,标签主要指类别标签,文本模板主要是句式结构简单的短文本。结构可直接作为概念图谱内容,其余知识表示形式可作为知识自动化获取工作部分中的监督标签、先验条件、处理逻辑和预定义模板,因此知识自动化获取现在可以结合概念图谱进行实体发现、关系抽取和知识补全。关系抽取包括了同义关系、分类学关系、属性关系、结构关系和基于模板的约束关系。其中,分类学关系主要用于表示上下位层次关系;结构关系体现整体-部分关系;属性关系是多维度的关系概念,某个概念实例可以作为另一个概念实例的属性值进行关联;基于模板的约束关系则是为了匹配不属于上述任何一种关系的特定描述。

4 方法验证及试验效果

本文以涡扇发动机的整机试验测试相关知识及其文档资料为试验对象,进行方法验证和图谱效果演示。

4.1 涡扇发动机整机试验测试知识数据模式设计

根据图1 的框架可知,在基础知识图谱中构建涡扇发动机整机试验相关的术语词汇概念知识结构,以及以测试专业为例的背景知识结构。图4 给出了部分结构设计示例,该部分主要是表示型号术语、车台术语、试验技术术语、关联的国军标等知识。在专题知识图谱中选择构建面向某型号台份试验的参数有效性决策信息图谱,部分结构设计示例如图5 所示。

图4 涡扇发动机整机试验的知识数据模式示例Fig.4 Schema example of turbofan engine test domain

图5 试验参数有效性专题图谱的知识数据模式示例Fig.5 Schema example of the thematic graph of aero-engine test parameter for validity evaluation

4.2 基于领域文档的整机试验测试知识自动化获取验证结果

根据图2 的自动获取技术方案和上文设计的数据模式可知,用于验证的领域文档主要包括专家技术丛书《高空模拟试验技术》,国军标《航空涡轮喷气与涡轮风扇发动机通用规范》、《航空燃气涡轮动力装置术语与符号》和《航空涡轮喷气和涡轮风扇发动机高空模拟试验要求》,某车台的作业指导书和某型号台份试验的试验测试相关的技术文件。方法验证过程及其结果如下。

首先进行文本预处理,主要是结构化解析,根据目录结构信息构建文档结构树,再将段落和字句作为单位挂载在结构树节点上,形成JSON 形式,如图6 所示。然后进行知识要素获取,主要采用了端到端三元组抽取。由于上述文件均属于富文本和长文本,并且缺少有效的标注信息,因此采用了针对特定关系的尾实体标注模块,并在语料生成部分进行分句处理。针对国军标的术语概念抽取结果如图7 所示。

图6 文档结构化解析Fig.6 Structural transformation of document

图7 国军标的术语概念抽取结果Fig.7 Extraction results of terms of national military standard

4.3 试验测试知识图谱演示效果

根据整机试验测试相关的模式设计,通过文档树构建—实体识别和关系抽取-实体链接形成完整的知识三元组。图8 展示了某车台设备能力相关知识信息三元组示例。

图8 图谱的知识三元组示例Fig.8 Example of subject-predication-object

根据本文设计的动态主题图谱的数据模式和相关试验测试技术文件,对面向某试验的参数有效性支持知识漫游进行了演示效果验证。结果表明该知识点可扩展漫游至相关的车台知识、专业系统知识、关联异常事件信息等。

5 结论

针对航空发动机试验领域的知识特征所具有的封闭性、层次结构深且多学科交叉以及分散的隐性知识三大应用难点,构建了面向航空发动机试验领域的知识图谱框架结构。结合知识自动化获取关键技术研究,提出了基于双向迭代的领域图谱构建方法。以涡扇发动机整机试验相关知识及其文档作为方法验证对象,实现了从不同类别知识图谱数据模式设计,到双向迭代构建的主题图谱漫游效果演示,验证了基于双向迭代的领域图谱构建方法的可行性。

下一步将持续深入开展有关航空发动机试验领域的多种知识表示技术研究,进一步迭代完善知识图谱框架体系;基于业务发展现状扩充知识服务场景,积累更多数据资源,并设计开发形成生态闭环的工具系统;以切实提升试验效率,助力航空发动机试验数字化转型和智能化升级。

猜你喜欢
图谱实体航空
“闪电航空”来啦
“闪电航空”来啦
绘一张成长图谱
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱
达美航空的重生之路