面向战例知识图谱的本体构建

2021-01-28 03:09赵颜利李连军余红梅史玉彬
海军航空大学学报 2020年5期
关键词:本体图谱实体

赵颜利,李连军,余红梅,史玉彬

(32179部队,北京100012)

知识图谱作为科技领域前沿技术,在解决数据组织管理、提供知识支撑与服务方面存在巨大优势。将知识图谱引入战例数据治理,具有以下5大优势:

1)数据融合[1]。知识图谱从关系的角度出发,对数据进行采集、提取、关联,将海量多源、分散孤立的战例数据进行融合与组织;

2)知识扩充。传统数据库扩充新类型数据,须修改设计库表结构,耗费大量时间和精力。而知识图谱可在不改变原有知识关系结构的情况下,简易方便地扩充新知识;

3)知识共享[2]。传统的信息系统,不同系统间没有统一规范的数据格式,相互间无法联通,难以实现数据共享和复用。知识图谱基于本体模型实现了对知识的统一语义描述和规范,能够实现知识的共享;

4)智能应用。知识图谱通过本体对战例数据赋予语义,实现了计算机与人、计算机与计算机之间的理解、交互,可为智能语义检索、知识推理等应用提供支撑,也可为上层各类业务决策提供辅助;

5)知识展示。知识图谱采用基于图的结构表达知识,以直观可视化的形式对知识及知识之间的关系进行展示,使得用户对知识的理解更为容易。

本体是知识图谱的核心内容和重要基础,更是构建知识图谱的关键。本文提出了一种面向领域知识图谱的工程化本体构建方法,基于该方法实现了战例领域知识图谱本体模型构建,并研究建立了本体与实体知识的映射机制。

1 基础理论

1.1 本体概述

本体的概念起源于哲学领域,用于表示世界的本质。20世纪80年代,本体被引入到信息科技领域,成为自然语言处理、信息集成、信息检索、知识工程、人工智能等领域研究的重点[3-5]。1998年,Studer提出“本体是共享概念模型的明确的形式化规范说明”,成为广泛接受的定义[6]。该定义包含以下4个层次含义:

1)概念化。表明本体是对客观世界进行抽象描述得到的概念集模型;

2)共享性。表明本体概念集是被共同认可的,具有通用性;3)形式化。表明本体是计算机可理解和处理的;4)明确性。表明本体的概念以及概念间关系被明确的定义,无歧义。

由本体的定义可知,本体是某领域概念及概念间的关系的模型,可实现该领域的形式化描述[7]。战例本体则是战例领域知识中的概念及其相互关系的形式化描述模型。战例本体构建了统一认知的概念集,克服人、组织以及系统之间因不同背景、语言、技术之间的沟通障碍,使得领域知识得以共享和复用。

1.2 知识图谱概述

知识图谱概念由谷歌公司于2012年提出,并迅速成为学术界与业界研究的热点。知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息转化为更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力[8]。知识图谱本质上是基于图结构的语义网络知识库[9],知识图谱中的知识用“节点—边—节点”组成的“三元组”表示,其中“节点”表示现实世界中的概念、实体,“边”表示实体、概念间的相互关系,具体表现为“概念—关系—概念”“实体—关系—实体”的“三元组”。知识图谱逻辑上分为本体层和实体层。本体层建立在实体层之上,由一系列对领域知识形式化描述的概念集合库组成;实体层是概念层的实例化,由一系列具体的实体知识库组成。

知识图谱包括2 类通用知识图谱与领域知识图谱[10-11]。通用知识图谱基于通用的常识进行构建,其知识面覆盖大,知识深度及准确性要求相对较低,一般面向广大普通的用户;领域知识图谱基于专业的领域知识进行构建,其知识面覆盖较窄,知识深度及准确性相要求相对较高,一般面向特定的领域用户。知识图谱构建方法包括自顶向下和自底向上2种[12]。自顶向下的方法是先建立本体知识模型,而后依据模型实例化知识构建实体库,形成知识图谱;自底向上的方法是先抽取实体知识,而后归纳概念模式形成本体模型。自顶向下的方法须要在专家的指导下建立本体模型,常用于领域知识图谱构建;自底向上的方法则主要对百科等开源数据集进行知识抽取,归纳出概念模型,常用于通用知识图谱构建。

战例知识图谱是军事战争中具体战争行动、战斗行动所涉及数据信息的知识描述与组织,属于典型的领域知识图谱。本文战例知识图谱的构建采用自顶向下的方法,先建立战例本体模型,而后本体实例化。

2 战例领域本体构建研究

2.1 领域本体构建方法

目前,本体构建尚没有统一的标准,现有本体的构建方法依据其涉及的领域和具体工程而不同。经典的本体构建方法,如,IDEF5[13]、TOVE 法[14]、骨架法[15]、METHONTOLOGY 法[16]、七步法[17]、五步循环法[18]等,都来自具体的应用和实践,国内外学者对上述的经典方法进行了系统的比较。为保证语义的完整性和正确性,本体构建的过程须要领域专家的参与和指导。但由于本体的构建过程复杂,形式化的描述等又须要工程技术人员参与。如何平衡领域专家与工程技术人员的合作是本体构建的一个难题。为此,本文提出了一种面向领域知识图谱的工程化本体构建方法,由领域专家根据业务需求明确领域范围、列举重要术语,指导工程技术人员确定概念分类体系,明确概念、关系,再通过校验评价进行迭代进化修正,如图1所示,具体操作如下。

1)确定本体的领域及应用范围。根据业务需求,确定本体领域具体应用范围,划定本体的数据边界。

2)列举领域中的重要术语。搜集相关的数据,列举领域内重要的术语概念,为建立概念分类结构奠定基础。

3)定义概念类及分类层次体系。在领域专家指导下,设计确定概念类,并建立概念类的分类层次,实现领域知识的概念化描述。

4)定义概念类之间的关系。定义概念类之间的关系,实现领域知识关联的关系描述。

5)定义概念类的属性。定义概念类的属性,实现信息的进一步描述。

6)本体校验。通过专家鉴定、用户检验等方法对本体校验、评价,并持续迭代优化完善。

图1 本体构建流程Fig.1 Ontology construction process

2.2 战例本体构建实现

2.2.1确定战例本体的领域及应用范围

由于知识存在相关性,领域知识图谱在构建过程中往往会出现知识超出领域范围,边界失控,导致难度与复杂度增大,产生大量冗余知识等问题。为此,构建领域知识图谱本体须正确理解业务需求,确定本体具体应用范围,划定本体的数据边界。

战例本体的构建目的主要是实现战例领域知识的描述,为战例领域知识获取、组织和管理提供模型支撑。军事战例所涉及的数据比较广泛、复杂,对战例领域数据资料进行分析,涵盖以下数据:①作战对象数据,包括组织编制、人员编配、岗位编配等;②武器装备数据,包括参与作战的各类武器装备;③战场环境数据,包括作战地域的电磁、交通、地形、气象、水文等;④战例基础数据,包括作战时间、背景、过程、样式、视频、音频、图像等基本信息;⑤资料报告数据,包括战例研究的各类论文、研究等;⑥军事理论数据,包括作战条令、作战想定、任务清单等。

2.2.2列举战例领域中的重要术语

在明确战例领域知识范围的基础上,对数据收集整理,依据《中国人民解放军军语》《国防科学技术叙词表》、作战条令等军事领域专业文献资料列举该领域相关术语,为后续建立概念分类体系奠定基础。

2.2.3定义战例领域的概念类及分类层次体系

以列举的术语集为基础,在领域业务专家和技术专家的共同参与下,归纳出战例领域知识的顶层最宽泛的概念,而后进行细化,实现整个战例知识体系框架描述。

1)定义顶层概念类。设置组织、装备、人员、时间、地域、环境、战例事件、文献资料为顶层概念类,代表战例领域知识体系的顶层描述。

2)细化建立概念分类等级层次。顶层概念类确立后,继续细化分类,实现对战例领域知识的进一步详细描述。概念层级分类,可采用2种方法:一是复用已有的本体概念分类,即借鉴已有的本体分类,在战例领域中复用该本体;二是以行业标准为指导进行分类,参照遵循行业的各类标准规范,借助专家指导意见进行分类。目前军事领域已构建的本体较少,难以查找和复用。故此,以《中国人民解放军军语》、国家军用标准文件等为指导,结合军事领域专家意见,进行战例本体概念分类体系细化。

概念分类体系中,各概念类的层级深度根据实际情况确定,分至不同层级。图2 为战例领域本体分类层次体系部分展示。以装备概念类为例,“战例本体―装备―主战装备―单兵班组武器―手枪”经5 级结构完成层次分类;“战例本体―装备―电子信息装备―陆基信息装备―情报侦察装备―电子信号侦察装备―无线通信侦察装备”经7级结构完成层次分类。

图2 战例领域本体分类层次体系Fig.2 Ontology classification hierarchical system of battle field

2.2.4确定概念间关系

概念间的关系分为等级关系和非等级关系。等级关系用于规定自顶级概念开始至各级概念间的树状层次结构关系,每个概念与其他概念构成上下位的关系;非等级关系用于规定不同概念类间的关联关系。等级关系在第3步骤建立分类层次体系时已经完成,该步骤主要确定非等级关系。本体概念类之间部分关系示例,见表1。

表1 战例本体概念类之间部分关系Tab.1 Some relations between concept classes of combat case ontology

2.2.5确定概念属性

确定概念分类层次体系后,尚无法对领域知识进行完整表示,还须要描述概念的内部结构,即对概念的属性描述,实现对知识的深层描述。首先,确定顶层概念类的属性;而后,逐级确定下级子类概念的属性。子类可以继承上级父类的属性,同时可以扩充自身属性。战例本体概念类的部分概念类属性示例如表2所示。

表2 战例本体部分概念类属性Tab.2 Attributes of some conceptual classes of battle case ontology

2.3 战例本体的实例化映射

知识图谱由本体库与实体库构成,本体库、实体库由节点与关系形成的三元组进行表示,记为

G=(Node A,Relation,Node B),

其中:G 表示三元组;Node 表示节点;Relation 表示节点间的关系。

由此,战例知识图谱可表示为

KG={OG,EG},

其中:OG表示本体库集合,由一系列概念节点及关系三元组组成,如,(主战装备,子类,直升机);EG 表示实体库集合,由一系列实体节点及关系三元组组成,如,(阿帕奇直升机,火力支援,B连战斗分队)。

上述表示中,本体库OG是对实体库EG的规范和约束,实体库EG是本体库OG的实例化。构建战例知识图谱,须建立本体库到实体库的映射机制,实现本体到实体的三元组实例化映射。

将战例本体层级结构当作树结构,各层级结构的概念类作为树节点,节点间的关系用连线表示;战例实体间结构作为网状图结构,实体节点为图的节点,实体间关系用连线表示。由此,本体库与实体库之间的映射可以记为树与图之间的映射关系,如图3所示。

图3 以部分战例的本体概念与实体知识为代表,展示了2者之间的映射。图中上半部分为战例本体库的树状结构图,节点代表概念类,节点间连线代表子类继承关系;下半部分为战例实体库的网状关系图,节点代表实体知识节点,节点间连线代表实体知识间的相互关系;图中的虚线代表本体中的概念类节点到实体类节点映射,每个知识实体节点都有本体库中的概念类映射。

图3 战例本体的实例化映射Fig.3 Instantiation mapping of battle case ontology

3 检验实证

为检验本体构建方法的有效性,构建战例本体的合理性,依据上述战例本体和映射机制作为规范和指导,构建战例领域知识图谱。通过对战例领域所涉及的组织编制、作战编成、装备运用、作战地域、作战环境等数据进行采集、提取、融合,最终实现知识实例化,形成关系纵横交织的知识网状图谱,同时设计原型系统进行知识服务。

图4 展示了“落锤行动”战例的基本情况查询,图中左侧展示了该战例的全部知识关联图谱,右侧是对具体知识节点选择后的信息查询展示。

图5 展示了“落锤行动”战例中装备运用情况,图中左侧显示了以装备运用为中心的知识关联网络,右侧为选择具体装备的性能指标展示。

图6 展示了“落锤行动”战例中兵力运用情况,图中左侧展示了参战力量的编制编成情况,右侧为选择组织节点具体信息。

图4 战例基本情况查询Fig.4 Basic information query of battle case

图5 装备作战运用查询Fig.5 Query of equipment operational application

图6 兵力运用查询Fig.6 Query of force utilization

4 结论

为构建合理可用的战例知识图谱,以解决战例数据组织、管理、共享及重用等难题,本文主要完成了以下工作:①提出了一种面向领域知识图谱的工程化本体构建方法;②基于该方法构建实现了战例本体模型;③研究建立了战例本体与知识实体间的映射机制;④构建知识图谱及设计原型系统,对战例本体进行了检验验证。

检验实证,基于本文方法建立的战例本体合理有效,能够规范和指导战例知识实体的实例化,建立的知识图谱可为科研人员、军事专家开展相关理论研究、教学实践、实验评估等提供智能化的知识支撑与服务,能够对我军新作战思想产生、新战法形成、作战力量建设、新型装备研制等过程起到推动作用。

本文主要对领域知识图谱的核心基础本体模型进行研究和实践,领域知识图谱的其他重要内容,如知识获取、知识融合等,则通过人工手段实现,未进行研究和探讨。大数据环境下,构建大规模的领域知识图谱,手工方式已无法满足需求,人机结合的自动化、半自动化知识获取与融合成为领域知识图谱构建的难点,也是后续研究的重点。

猜你喜欢
本体图谱实体
基于图对比注意力网络的知识图谱补全
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
眼睛是“本体”
实体书店步入复兴期?
图表
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱
专题