军事装备概念图谱构建技术的应用与研究

2021-11-18 07:34刘语婵袁清波
火力与指挥控制 2021年9期
关键词:图谱实体装备

姚 奕,杨 帆,刘语婵,袁清波

(陆军工程大学指挥控制工程学院,南京 210007)

0 引言

军事装备的信息化、智能化是国防与军队现代化发展中的重要一环,充分利用军事装备数据是夺得未来战场主动权的关键。知识图谱作为一种以图的形式表现客观世界中概念和实体及实体之间关系的知识库[1],其本质上是一种大规模的语义网络,能够将海量数据组织为一张互相关联的网络图,从而帮助指挥人员快速了解相关知识,挖掘有价值的信息。车金立等人[2]在百科知识的基础上构建了军事武器装备的知识图谱,并实现了相关装备的智能问答应用。但是并没有进一步挖掘装备实体之间的关联关系,其问答应用仍是基于传统文档型数据库,没有真正将知识图谱的图特性应用到产品中。

随着信息技术的发展,海量的半结构化网页数据使得知识的来源变得广泛,但随之而来的问题是信息质量的下降。一方面,各数据来源之间缺乏统一的规范,导致了诸多实体的命名与分类存在差异,为知识图谱的构建带来了困难;另一方面,由于军事装备数据保密性高、专业性强等特点,很少有官方公布的完整数据,大部分网络数据来源庞杂、质量参差不齐,这直接导致了该领域知识图谱的构建缺少依据。而军事应用场景对数据一致性要求高、对本体依赖大,因此,需要构建专门的概念图谱来支撑知识图谱的构建。此外,在未来武器装备的信息化建设中,武器装备更新换代的频率随之加快,新式武器装备的出现意味着新实体的出现,如何让机器理解这些新的实体,以及如何将这些新实体相关的上下位关系加入图谱都是需要思考的问题。这不仅关系到所构建的军事武器知识图谱的完整性,也关系到相应军事应用的准确性、可靠性。

1 概念图谱概述

1.1 概念图谱的起源与定义

在互联网发展的早期,人们使用共同的、标准的概念体系本体来构建计算机相互理解的基础[3]。Gruber 提出:本体是对共享概念模型的明确规范说明[4]。也就是说,人们可以使机器像人类一样通过产生范畴化概念来对事物进行“理解”。虽然目前对于“理解”一直缺乏严格的定义,但是从“歼-20”联想到“战斗机”显然是人们理解“歼-20”的重要体现之一。概念使人们只需要记住一类事物的根本特征,比如能轻松识别各种不同的武器装备,即使有些装备从来没有见过,但是仍然知道它属于哪一类。人们显然不可能记住所有武器装备的细节,但是可以记住一类事物的特征,而这些概念级的对象特征识别使其获得强大的认知能力。

概念图谱是一类专注于实体与概念之间的isA关系的知识图谱[5]。从本质上说,概念图谱是知识图谱的一个部分,是知识图谱的概念模型和逻辑基础,其实体和概念之间有着固定的从属关系。从认知和语言两个角度而言,概念图谱分为面向认知的概念层级体系和面向语言的词汇层级体系。其主要区别在于,在概念层级体系中,连接节点的边是实体与概念之间的InstanceOf 关系和子概念与父概念之间的SubclassOf 关系;而在词汇层级体系中,连接实体的边是一种词汇之间上下位关系。

从机器信息处理的角度来说,概念认知是指对某个形态的数据输入产生符号化概念输出的过程。比如,对于“歼-20”一词,能产生“战斗机”这一概念,这里的“战斗机”就是一种符号形式的概念。人类很容易获得这样的认知,显然,没有任何先验知识的机器是无法产生这样的概念的。因此,建立概念分类体系,并为数以千万计的实体建立概念图谱,通过构建概念图谱来使机器获得认知实体的能力,是人类在让机器具备认知能力的征程中所迈出的至关重要的一步,也是构建完备的军事装备知识图谱的第一步。

1.2 相关工作

在谷歌提出知识图谱概念并将其应用于搜索引擎[6]以前,就有许多公司和实验室进行概念图谱的研究,如反映英文词汇基本语义关系的Word-Net[7]、利用维基百科以及自动分类方法构建的语义网络WikiTaxonomy[8]和利用基于文本理解的概率分类方法构建的Probase[9-10]。随着概念图谱的应用越来越广泛,国内也相继开始中文概念图谱构建技术的研究,如以弱监督为框架构建的大词林[11]和以针对中文分类学的自动化生成加验证为框架进行构建的CN-Probase[12]。这些概念图谱在各种应用中发挥着积极的作用,它们的部分数据对比如表1 所示。

表1 部分公开的概念图谱数据对比

随着技术的进步,通用概念图谱已具有较大规模,其研究也逐渐向特定行业或领域落地。在情感分析领域,Xu 等人[13]提出了一种基于概念图谱和语言模型的意图领域分类方法,有效解决了大规模语料获取困难和用户话语多样性的问题。在分类领域,Nitta 等人[14]提出了一种自动化构建地理空间概念图谱的方法,并将其应用于地理感知细粒度图像识别,使其结果更加高效、准确;Shanavas 等人[15]则是利用医学培训文档中的统一医学语言系统进行了医学概念图谱的自动化构建和补全,提升了医学文本文档分类的性能。此外,王鹏伟[16]提出了一种基于概念图谱的概念驱动模型,通过将词向量表示与概念向量表示相结合,对一词多义的问题进行了有效的处理。概念图谱的应用已经深入各行各业,而针对军事装备领域的研究则稍显空白,现有的通用知识图谱无法满足装备知识保密性和生僻性的特点,针对生僻的装备名词、装备别称,基于百科数据的在线构建方法也存在识别率不高的问题,因此,构建装备知识的概念图谱是当下亟待进行的一项工作。

2 基于百科数据的军事装备概念图谱的构建

通用概念图谱相当于一个面向通用领域的“结构化的百科知识库”,其中包含了大量现实世界中的常识性知识,覆盖面极广。其构建过程一般采用基于模式[17]的方法和自底向上的方法[18]。基于模式的方法主要根据语料中的固定句式抽取实体概念以及关系,但是这种方法提取能力有限,并且由于中文语法的灵活多变性,从文本中获取的语法模式质量通常很低。而自底向上的方法主要是从百科网站中抽取概念之间的isA 关系,这种方法取决于百科网站的规模,虽然质量较高但是覆盖率往往不高。针对垂直领域概念图谱具有的概念偏、专业性强的特点,本文采用两种方法相结合的方式,既保证了图谱的广度,又保证了图谱的精度。其流程如图1 所示。

图1 军事装备概念图谱构建流程

2.1 半结构化数据的获取

随着信息技术蓬勃发展,大量文本信息充斥于互联网上,这些非结构化数据十分广泛,是知识图谱概念抽取的重要来源之一[19]。但是,这些文本由于没有固定的数据结构,不易于机器直接处理,需要人工进行复杂的预处理才能被使用。而现如今各大百科网站都有高质量的概念标签,以维基百科为例,每个词条均可视为一个实体,其相关属性信息均由人工标注,具有较高的质量。因此,可以使用这些在互联网中以HTML 格式存在的网页文档进行概念图谱的构建。

在军事装备领域,传统百科网站均存在概念不全的缺陷,无法对全部装备知识进行覆盖。目前,公开的军事资料不多,而环球军事网的兵器库是其中结构化程度较高、装备信息较全的一个数据库,其中包括了飞行器、舰船舰艇等8 大类武器,100 余小类,共计5 794 项武器结构化数据。

本文利用爬虫技术爬取环球军事网的兵器库数据,具体流程如图2 所示。首先,获取初始URL,在其页面中进行内容解析和新URL 的发现,一方面,通过查找关键信息标签,提取所需的装备数据,处理成结构化数据后进行存储;另一方面,提取新的URL 放入队列中供后继数据爬取。最终当所有数据爬取完毕后结束程序。

图2 网页数据爬取流程图

爬取到的半结构化数据具有较多的HTML 标签,通过数据处理提取出武器装备的关键信息,最终形成如图3 所示的结构化数据文档:

图3 部分装备结构化数据文档(隐藏部分技术指标)

2.2 isA 关系抽取

传统知识图谱以<实体1,关系,实体2>、<实体,属性,属性值>这样的三元组来表达事实,而概念图谱之间的isA 关系则主要以< 实体,Instance-Of,概念>、< 概念1,SubclassOf,概念2> 这样的三元组来体现[20]。这种词汇之间的层级关系是一种词汇间的上下位关系。比如,“歼-20 是战斗机”,那么“歼-20”是“战斗机”的下位词,“战斗机”是“歼-20”的上位词。因此,在构建过程中需要在句子中找到这种上下位关系,然后以三元组的形式存储。

在前期获取的半结构化数据中,得到了相应装备的简介以及属性信息。从简介信息中,抽取实体的概念标签,并建立起概念之间的层级关系,将专家构建的标签系统转换为有结构的概念层级体系。例如,前期提取的数据如图2 所示,从中可以提取出“歼-20 是双发重型隐形战斗机”。然后利用已知的本体知识,可将“隐形战斗机”归属于“战斗机”,“战斗机”归属于“飞行器”,其具体抽取步骤如下:

1)概念标签识别。百科数据中的标签往往具有明显的类别,如描述实体相关属性信息的属性型标签、描述实体所属类型的概念型标签,以及描述实体所属主题的主题型标签等。根据前期已分好的武器类别,对每项实体数据进行标签识别,提取概念型标签,从中抽取isA 关系。比如,“双发重型隐形战斗机”中心词是“战斗机”,“战斗机”是已有的概念标签,那么可以得出“双发重型隐形战斗机”也是一个概念标签。

2)概念层级体系构建。在识别概念标签后,将这些概念标签与已确定的百余类装备概念建立subclassOf 关系,进而构建一个比原有分类体系更大、更细粒度的概念层级体系。

2.3 基于迭代方法的isA 关系补全

作为现实世界的一种抽象映射,概念的构建必须确保其准确性。而互联网的知识往往有很多歧义,比如“歼-20”的绰号是“威龙”,但是“威龙”也是香港手表一线品牌,如何保证机器的理解不发生歧义,使机器能在特定的语句中准确识别出实体的类别,需要对现有的isA 关系进行补全。

现有补全方法有基于isA 关系传递性的补全[21]和基于协同过滤思想的补全[22]。基于传递性的方法适用于存在中间概念的关系,而另一种方法的思想是相似实体具有相同的上位词,两种方法都有其理论依据,但是都存在一定的局限性。并且单一来源的数据往往不够全面,因此,本文以已构建的概念层级体系为基础,通过迭代学习,借鉴前两种方法的思路从维基百科、百度百科等多源数据中不断提取新的关系对来对装备实体与概念进行补全。具体算法如表2 所示。

表2 迭代学习算法

算法以Probase 的迭代抽取算法[9]为基础并进行改进,增加了对于实体的判断过程。在该算法中,Φ 是前期根据单源数据提取的概念关系集合,Γ 表示总isA 关系对的集合,S 是多源数据中的装备数据语句,e、Xs、Ys分别表示从语句中提取出的新实体、候选超概念和候选子概念。首先,将已有的关系集合赋予Γ,然后在文本中迭代搜索isA 关系对直到没有新的关系对被发现,在此过程中,对抽取到的e、Xs、Ys分别进行判断,如果是新挖掘的实体或概念,则在相应函数中进行相似度判断,如果其可信度较高并且未在已有的Γ 中出现,则将其加入Γ。最终在不断迭代的过程中,完成isA 关系补全与实体的消歧。

2.4 基于neo4j 图数据库的存储与维护

目前概念图谱的存储方法主要是基于图数据库的存储,其存储方式是将实体存储为节点,关系存储为边。不同于传统关系型数据库以二维表结构存储的方式,图数据库更加侧重于关系的表达,能更简洁、直观地表示实体和概念、概念和概念之间的关系。neo4j 是目前广泛使用的图数据库之一,不仅具有高效的查询性能,而且在数据库设计上具有很大的灵活性,使半结构化数据的表示变得容易。另外,neo4j 提供分布式高可用模式,可以支持大规模的数据增长,有利于后期进行装备知识的扩展。

利用Cypher 语句将前期处理好的装备实体数据,以及装备与概念关系、概念与概念关系数据导入数据库。最终形成一个完整的军事装备概念图谱,其可视化界面如图4 所示。图中只展示了部分数据,中心节点表示划分的装备的大类,与之相连的外围节点表示大类下的子类型,最外围深色节点则是代表相应的武器实体,实体与子类型之间的边表示InstanceOf 关系,子类型与大类之间的边表示SubclassOf 关系。

图4 装备概念图谱部分可视化数据展示

概念图谱的维护主要在于概念的纠错与更新。虽然在构建过程中已经通过多源数据对数据进行修正,但仍会存在不可避免的错误,这些源于数据集的错误往往依赖人工进行干预。另外,科学技术日新月异,武器装备也是如此,其更新换代频率较快,部分概念实体可能会随着技术发展而变化,比如部分装备退役不再被使用,或者有新型型号甚至新式类型的装备出现。要想在战场先发制人,需要对知识库进行定期更新,知己知彼方能百战不殆。一方面,定期从互联网收集各类军事信息,通过迭代抽取其中有价值的信息;另一方面,及时将各类新式装备的相关资料输入数据库,将相应概念实体添加到概念图谱中,不断丰富装备概念图谱。

3 装备概念图谱在军事领域的构建与应用

随着信息技术的深入发展,当前武器更新换代的频率逐渐加快,装备数据日渐庞大且复杂。新式武器装备从生产到列装都面临着一系列的挑战,研发人员如何科学统筹装备数据、确保装备切实贴近部队实际需求,指挥人员如何整合繁杂的装备信息、在战场上发挥出装备最佳性能,以及战斗人员快速熟悉装备性能参数、熟练掌握相应使用和维修方法等,这些挑战对大数据时代下的装备数据管理提出了新的需求,而当下兴起的知识图谱技术适逢其时,为装备数据的存储、分析与应用提供了着力点。概念图谱作为知识图谱的概念模型和逻辑基础,是构建装备知识图谱的基石,想要用好装备数据这把利剑,需要从概念图谱构建技术出发,对装备概念图谱进行顶层设计。因此,本文基于通用知识图谱的构建流程[1],结合第2 节中装备概念图谱的构建技术以及部队实际应用需求,从逻辑架构、技术架构和应用领域3 个层面,对装备概念图谱的构建流程与应用方向进行设计,整体框架如图5所示。

图5 装备知识图谱的构建流程及应用展望

3.1 逻辑架构

在逻辑架构上,从模式层和数据层两个角度对装备数据进行建模,建立起能够用计算机语言表示现实世界装备数据特征的规范模型。

数据层存储真实的数据,针对数据的流动过程进行设计,主要包括数据获取、数据处理、数据存储、数据更新和数据应用。数据获取是第一步,首先需要考虑获取什么样的数据、从哪些地方获取数据、如何获取这些数据。军事装备数据由于其军事特性,保密性高、专业性强,有别于其他领域的数据获取,其来源主要是各类装备的技术手册、操作规程、培训讲义和保障案例等,这些数据往往需要更进一步的处理,而互联网等其他来源仅作为参考依据以及他国武器数据的扩展。数据处理即对获取到的数据进行加工,通过信息融合等技术手段抽取出有用的信息,并形成结构化的数据文档。数据存储则是如2.4 节中介绍的利用图数据库对数据进行存储,并通过不断地迭代构建流程来更新数据,保证装备概念图谱的时效性。最后是数据的应用阶段,针对不同使用对象的应用需求不同,设计不同的算法来对数据进行深入挖掘并可视化呈现,最终达到科学统筹装备数据、整合繁杂装备信息的效果。

模式层在数据层之上,是概念图谱的核心,通常通过构建本体库来管理模式层。其构建内容包括层次结构、关系定义、领域定义和属性定义。层次结构是装备类别之间的从属关系,例如,“战斗机”从属于“飞行器”,其子类可以继承其父节点的属性。关系定义则是类之间存在相互的关系,类之间可以定义单向的关系,也可以定义双向的关系。例如,“舰艇”指向“舰载雷达”的关系是装载,“舰载雷达”指向“舰艇”的关系是被装载。另外,为了管理方便,可以定义多个领域,便于将类进行分组管理,如不同军种的装备属于不同的领域,当然也可以有跨领域的多域协同作战装备。属性定义分公共属性和专有属性,公共属性指从公共类里抽取一些基础的属性,例如名称、生产时间等,另外,每个类可以定义自己的专有属性,例如最大射程、载重量等。

3.2 技术架构

装备更新迭代,其数据也需要不断更新,因此,构建概念图谱是一个迭代更新的过程。根据知识获取的逻辑,每轮迭代包含信息抽取、知识融合和知识加工3 个阶段。

信息抽取是从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达,也就是通常所说的“三元组”。实体抽取也称为命名实体识别,即从装备数据文档中抽取出概念实体;属性抽取则是依据概念图谱中相关实体属性,从数据源中采集特定实体的属性信息;将属性与实体,或者实体与实体之间建立起关联关系,将其连接起来,最终完成关系抽取。

知识融合是在获得新知识之后对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。知识融合是目前较难的一个部分,概念图谱的知识融合过程主要包括实体对齐、属性对齐、共指消解、规范化等,因为不同来源、不同形态的数据缺乏统一的规范,往往存在许多差异,很难找到一种通用的方法实现这一过程,需要对不同类型数据的特性进行针对性地处理,将装备的“别名”、“代号”与装备实际名称关联起来,确保概念的准确性。

知识加工指对经过融合后的新知识、新本体,进行质量评估,为保证概念准确,部分情况可能需要人工参与鉴别。将合格的部分存储到概念图谱中,以确保知识库的质量。此外,还可以基于图数据库对已有的知识进行知识推理,挖掘出数据中隐含的知识。

3.3 应用领域

经过多次迭代,装备概念图谱可以应用于装备知识图谱的构建,并在相关的上层服务中发挥作用,如装备数据查询、装备知识问答等。此外,在实际应用中还需要考虑不同装备数据的密级不同,如通用装备密级较低,所有使用者都可以查询到,而最新的装备密级较高,只有相应研发人员和相关指挥人员能够查询到。综合以上研究,本文针对3 种不同的使用对象对概念图谱提出了几种应用方向。

1)针对研发人员。装备研发主要分为装备研发和软件研发两类。对于装备研发人员,需要全面了解各类装备,确保不同类型装备之间能够协同配合。对于软件研发人员,装备概念图谱能为装备知识图谱的构建提供逻辑基础,其规范的本体说明和关联关系能够确保知识图谱的精确性。此外,通过装备之间的关联关系进行装备数据挖掘,能进一步推理出各装备之间的隐含联系,为联合作战提出理论支撑。

2)针对指挥人员。指挥人员主要指上级领导者,需要统筹全局,不仅要掌握装备的详细信息,从宏观层面调配各类装备的使用部署,还需要对各类情报有所了解。而利用概念图谱结合自然语言处理技术,不仅能有助于情报挖掘,将互联网上的海量信息碎片联系在一起,还能够快速进行情报处理,提取庞杂情报数据中有价值的内容。此外,还有语义问答等应用,帮助指挥员快速获取所需信息,减少指挥员决策时间,将信息优势转化为决策优势。

3)针对作战人员。作战人员是武器装备的使用者,其主要任务是熟练掌握武器装备的使用与维修,因此,需要对相关装备的性能参数、使用方法、维修技巧等有所了解。但记住这么多纷繁复杂的装备数据需要长期的积累,因此,可以借助装备知识图谱构建装备百科搜索引擎,而构建一个成熟的搜索系统首先要精准地理解用户的搜索意图。比如,当搜索“J-20 维修发动机”等关键词时,用户的搜索意图显然是要搜索战斗机发动机的维修方式,而不是发动机信息或者J-20 的信息,这个时候应该返回战斗机发动机的维修方式。为了帮助机器产生这样的理解,就需要使用装备概念图谱建立J-20 与战斗机之间的从属关系,帮助平台识别搜索核心词汇,进而准确理解搜索意图。此外,不能保证每名用户都拥有相关的专业知识,当搜索语句出现偏差时,基于关键词匹配的方式将不再适用。而使用概念图谱则可通过对搜索的实体进行概念理解,推荐该概念下相关实体,帮助用户进行更方便、更精确的查找。除了智慧搜索,智能实体推荐[23]也是以概念图谱为基础建立的智能化应用。搜索引擎不仅能通过提供直接答案来提升用户的信息搜索体验,还能进一步在搜索结果中为用户推荐相关信息[24]。比如,当用户搜索“81 杠”、“95”等特殊词汇时,采用概念图谱的搜索引擎可进一步推断用户搜索意图是枪械,然后可以向用户推荐其他枪械的相关知识,有利于用户明确搜索目标以及拓展知识面,从而更好地增强用户的信息发现体验。

基于上述应用展望,本文以flask 框架为基础,构建了web 可视化的智能搜索应用实现,其界面如图6 所示。当用户输入搜索词时,能够自动构建cypher 语句,并从数据库中获得结点关系,并依据关系进行实体推荐。

图6 web 应用可视化示意图

4 结论

在大数据时代,利用知识工程技术为装备数据添加语义,使机器可以像人一样产生范畴化概念,是实现装备信息化的第一步,有助于用户利用机器快速处理数据、系统学习知识。本文从装备信息化的实际需求出发,对军事装备概念图谱的构建进行了探讨与实现。以环球军事网的兵器库数据为基础,在抽取半结构化数据的基础上形成概念层级关系,完成初步概念图谱的构建。然后从多源数据中利用迭代学习的方法进行实体补全,确保了最终得到的装备概念图谱的精度和广度。最后从顶层设计的角度出发,对装备知识图谱的构建流程和应用领域提出了展望,为下一步装备知识图谱构建工作的展开和后续技术落地提供支撑。

猜你喜欢
图谱实体装备
哪些装备为太空之旅护航
这些精锐与装备驰援泸定
基于图对比注意力网络的知识图谱补全
港警新装备
实体书店步入复兴期?
图表
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱