一种基于知识图谱的飞行器试验训练数据关联整合方法*

2022-01-06 08:35栾瑞鹏
舰船电子工程 2021年12期
关键词:图谱飞行器关联

栾瑞鹏

(91550部队 大连 116023)

1 引言

当前,全面推动军事装备大数据建设,已成为军地各方的共识。装备试验鉴定,是检验武器装备技术、战术性能进行全面考核并独立作出评价结论的综合性活动[1]。试验鉴定在装备全寿命周期中处于承上启下的关键地位,试验场在试验鉴定过程中产生了内容丰富、体量庞大的试验数据;装备列装部队后,以部队为主体的各类训练工作,尤其是近年来的大型演训活动,同样产生了大量数据[2]。从数据体量和作用范围看,装备试验与训练数据,是装备全寿命周期的数据主体。试验与训练数据的关联整合,对在役考核等试验鉴定工作,对效能评估、战法研究、作战能力提升等演训相关工作,以及面向全寿命周期的装备管理工作,都有着重要意义[3]。

本文从飞行器试验训练工作实践出发,分析了当前飞行器试验数据与训练数据关联整合的难点,将知识图谱理论与技术引入关联整合研究,针对性地提出了一种基于知识图谱的飞行器试训数据关联整合方法,为型号装备试训数据融合提供了一条便捷有效的技术路径。

2 试训数据关联整合难点分析

飞行器试验数据、训练数据关联整合的难点,源自飞行器试验工作与结合飞行器的训练工作之间的差别。二者之间最为显著的差别是试验与训练的目标不同,装备试验的目标,是考核武器装备相关性能、效能指标,强调确定输入、有限状态;结合装备的训练工作目标,是巩固和提升部队战斗力,发现作战方面的问题短板,其作用范围是“人+装备”,强调体系、强调对抗、强调“背靠背”。不同工作目标,带来了环境构设、组织实施、测试采集等一系列差别,这些差别最终都会体现在数据上,导致试训数据关联整合困难。具体表现在两个方面。

一是数据结构方面。为开展相关型号飞行器试验工作,试验场通过多年建设,一般拥有以高精度测控系统为代表的试验条件体系,通过试验专用装备获取全面数据,历来是试验关注的重点。由于试验专用装备精密性、数字化、网络化特点,飞行器试验数据多以观测数据,即结构化数据为主,附加一定的半结构数据(如图像等)。而飞行器训练数据,由于目标、对象、范围、采集装备的不同,数据多为录取数据,特别是一线部队关键数据,多数要通过“采集表”完成采集,即飞行器训练数据的主体,是“数据采集表”为代表的非结构化录取数据。

二是数据场景方面。飞行器是飞行器试验工作的核心,由于其考核性特点,其输入往往采用预先装订的方式,强调确定环境、有限状态,作战平台直接参与较少,同时,试验有阶段性,同步伴随着飞行器技术状态的变更,需要恢复相应的数据场景,数据才具备关联的可能性。结合飞行器的训练工作,特别是演训工作,是侦察预警、作战平台、飞行器等多种类装备在指挥链路下的体系运用,飞行器只是其中的一个环节,其与训练的体系运用之间,是“部分”和“整体”的关系。对数据场景恢复的要求更高,如果不能恢复从指挥所到发射台的整个数据链路,而单独提取飞行器数据,如同脱离“整体”描述“部分”,往往导致只见树木不见森林,数据本身也容易“碎片化”,很难发挥应有作用。

综上,飞行器试训数据关联整合难点,在于非结构为主体的混合结构数据管理以及数据场景的恢复。传统的基于关系型数据库开发管理系统的方式,处理优势在于结构化数据,难以在非结构数据建模、数据场景恢复方面发挥作用。需要新技术手段的支持。

3 知识图谱技术概述

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系[4]。其基本组成单位是“实体-关系-实体”三元组,以及“实体-属性”值对,实体间通过关系相互联结,构成网状的知识结构[5]。知识图谱技术广泛应用于搜索引擎、智能问答、数据挖掘等领域,涌现出DB-pedia[6]、Freebase[7]等著名通用领域知识库,以及中医[8]、金融[9]等垂直领域知识图谱,并在故障分析[10]、公安警务[11]等方面发挥了实际作用,是公认的人工智能技术重要基石[12]。由于试验鉴定领域的特殊性,知识图谱服务于试验数据管理的相关研究较为匮乏。

知识图谱技术源自语义网,以实体和关系描述语义,语义本身就是非结构的,故知识图谱在非结构数据以及混合结构数据的描述方面,有着天然优势。同时,知识图谱的底层是图结构,图结构在数据追溯、链路关联等方面,得到广泛研究和大量应用[13]。

知识图谱的数据存储,常采用Neo4j数据库[14]。Neo4j是一款基于Java开发的开源NoSQL图数据库,Neo4j完全支持ACID事务,具有良好的稳定性和可靠性,由于其Java内核,可以部署在多种平台上,具有高性能、可定制、可视化、易于开发测试等优点,自2007年发布至今,已在各领域得到广泛应用,是目前最流行的图数据库。

知识图谱的上述特点,使其特别适用于非结构为主体的混合结构数据管理以及总体数据场景的恢复工作,可为试训数据关联整合工作提供有力技术支持。

4 基于知识图谱的试训数据关联整合方法

4.1 方法概述

传统的知识图谱建模方式,包括本体构建、信息抽取、知识融合等过程[5]。飞行器试验与训练具有高度复杂性,覆盖试验训练的本体构建,在成本和时间方面代价太大;同时,飞行器试训数据关联整合是复杂的系统工程,本方法的功能定位,是数据的顶层引导,故简化了构建流程,采用属性图模式的知识图谱描述方式,由领域专家人工定义实体集与关系集,以自动抽取加人工干预的方式构建,方法流程如下。

Step1:对飞行器试验、训练数据进行全面解析,解析粒度均为数据文件级;

Step2:定义关联数据模型Ga={Es,Ex,Ra};

Step3:定义试验实体类型集Es={Es1,Es2,…Esn},n为实体类型数量;

Step4:定义训练实体类型集Ex={Ex1,Ex2,…Esm},m为实体类型数量;

Step5:定义关系集Ra={R1,R2,…Rt},t为关系类型数量;

Step6:以自动抽取加人工干预的方式,对关联数据模型Gs={Es,Ex,Ra}进行实例化;

Step7:将实例化后的三元组列表,导入Neo4j数据库。

4.2 实体描述

根据飞行器试验与训练的工作特点,以及试验、训练数据特点,由领域专家设计相应的试验训练实体类型。由于篇幅限制,这里仅列出六类试验实体,“数据文件、试验情况、被试装备、发射情况、试验条件”,组成试验实体类型集,Es={Esjwj,Esyqk,Ebszb,Efsqk,Edytnl,Esytj};七类训练实体,即“训练数据文件、任务情况、环境条件、飞行器情况、平台、指控武控系统、战果情况”,组成训练实体类型集,Ex={Exlsjwj,Erwqk,Ehjtj,Ewqxtqk,Ehjtj,Ept,Ezkwkqk,Ezgqk}。通过实体类型指导具体实体的实例化,不同试验、训练实体类型与对应属性如表1、表2所示。

表1 试验实体类型与属性表

表2 训练实体类型与属性表

4.3 关系描述

实体间的关系是知识图谱模型结构的重要组成,在图谱功能发挥方面起到关键作用,关系由头实体、尾实体、关系属性组成,是有方向的边,可描述为ri={ehead,eend,ratrr1,rattr2,…},如图1所示。

图1 关系示例

关系将飞行器试验实体集与训练实体集“链接”为一个整体,进而实现关联整合。根据飞行器试验、训练数据特点,设计“输入、输出、包含、邻进(邻接递进)、邻接、时序、调用、演变、关联、依据、记录”十一类关系(由于篇幅限制,暂不列出相关属性)。

下面以Neo4j数据库为存储环境,结合简单示例,说明知识图谱的“实体与关系”结构,对试训数据关联的支撑作用。如图2所示,某型飞行器执行xx试验任务,发射“xx01”、“xx02”两飞行器,武控系统产生“发射参数”装订文件,通过数据处理,计算获得两飞行器的“轨迹数据”文件;该型飞行器在xx训练任务中发射“xs08”、“xs09”两飞行器,武控系统生成“发射参数”文件,并获得两枚弹的轨迹数据文件。四飞行器属于相同“技术状态”,故轨迹数据之间,通过“xx技术状态”实体实现关联,而该型号其他试验中如“xx03”飞行器,属于不同技术状态,与训练没有关联关系,在图谱中呈现不联通状态;“xx01”、“xx02”飞行器属于双发齐射,故其“发射参数”文件存在相互关联,试验中的“xx02”发射参数中“xx参数”与训练中的“xs09”发射参数一致,故二者存在关联(“xx参数”为关联属性)。

图2 基于知识图谱的试训数据关联示例

5 试训数据关联的计算效率分析

飞行器试、训数据体量庞大,试训数据之间的广域关联以及数据场景的恢复,往往会产生大量的关联计算操作,这是试训数据关联整合必须考虑并解决的问题。而知识图谱在数据关联方面的计算效率,相比关系型数据库有着非常强的优势。知识图谱存储于Neo4j图数据库中,图数据库中的每个节点都维护与它相临节点的引用,因此,每个节点都相当于与其相邻节点的微索引,这种方式的显著优点是,查询时间和图的整体规模无关,只与它附近节点的数量成正比。在关系数据库中,使用全局索引连接各个节点,这些索引对每个遍历都会增加中间层,因此会导致非常大的计算成本。

以如下场景为例,比较说明知识图谱的关联计算效率。“某飞行器试验中的双发齐射任务,在演训中哪些平台也执行了该飞行器的双发齐射?进一步关联,执行了双发齐射的某平台,还执行了哪些任务?”对于该关联场景,如果在关系数据库下实现,如关联训练中执行双发任务的平台,要执行邻接表的索引查询,时间成本为O(log(n)),n为索引表长度。该复杂度还是可以接受的,但若继续关联执行了双发齐射的某平台,还执行了哪些任务,则需要遍历整个索引,时间复杂度为O(n),如果平台数量为m(m远小于n),则总的时间复杂度为O(mnlog(n))。

图3 关系型数据库计算效率示例

同样场景下使用知识图谱进行关联。知识图谱中每个实体节点都直接或间接指向其相邻节点的指针。要关联训练中执行双发任务的平台,只需要在关系链表中遍历,每次的遍历成本仅为O(1)。若继续关联执行了双发齐射的某平台,还执行了哪些任务,时间复杂度也仅为O(m),其中m远小于n,相比于关系数据模型,知识图谱在数据关联追溯的计算效率方面,占有绝对的优势。

图4 基于Neo4j的知识图谱计算效率示例

6 结语

本文提出了一种基于知识图谱的飞行器试训数据关联整合方法,该方法通过实体、关系描述与提取,建立了覆盖飞行器试训数据的知识图谱,实现了复杂结构数据的管理以及数据场景恢复,在广域数据关联的计算效率方面,相比关系数据库模型具有明显优势。需要指出的是,飞行器试训数据关联整合是复杂的系统工程,任何一种技术方法,都不可能完成全部任务,本文提出的方法,适用于“数据文件”这种粗粒度的关联与场景恢复,数据元素粒度的关联整合,是未来的研究重点。

猜你喜欢
图谱飞行器关联
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
高超声速飞行器
“一带一路”递进,关联民生更紧
飞去上班
图表
奇趣搭配
智趣
神秘的飞行器
试论棋例裁决难点——无关联①