慈 颖,秦留洋,韩惠婕
(1.北京跟踪与通信技术研究所,北京 100094;2.北京航天测控技术有限公司,北京 100041)
知识图谱实质上是一种对知识的有效组织和表征的手段,是一个庞大的知识库,知识以图的结构形式进行链接[1]。知识图谱通过描述数据之间的关系,减少了数据的提取和计算的困难。知识图谱的应用可以将隐藏在数据中的难以利用的价值得到充分地挖掘。尤其是通过信息抽取、知识加工等技术将某些非结构化数据构建为知识图谱,使其能够以结构化、关联化的状态和接近人类认知的形式被组织、管理和理解。
航天装备体系组成复杂、装备重多,信息量、复杂度和获取难度都很大。而对航天装备的在役考核目前碍于各方面条件限制,开展的程度较低,很多还处于理论研究的初级阶段。应用知识图谱技术对航天装备在役考核进行深度分析评估是一种较为可行的方法。
知识图谱是一种用图模型来描述知识和建模关联关系的技术方法[2],由节点和边组成。节点表示实体,是知识图谱的基本单元,承载了文本的重要信息;实体之间连接的边为关系,不同的关系将独立的实体连接在一起编制成图。
知识图谱在构建中,以“实体—>关系—>实体” 结构化三元组存在,通常通过“实体—>属性—>属性值”的形式体现链接关系,存储现实世界中的实体(概念)。G=
。其中有些关系称为属性,相应地,尾实体称为属性值[3]。关系定义灵活,支持使用者根据扩展。图1为典型的知识图谱表示形式。
图1 知识图谱表示示例图
由于其简洁直观的展示形式、丰富的建模方法和对多维数据的高效融合,知识图谱以其丰富的表达形式和表达内容,成为当前各个领域的研究热点。广泛应用于机器翻译、智能问答、推荐系统等各个领域[4-7]。
由于知识图谱在生成过程中需要对知识数据进行全面的分析、分类和归纳,因此以模型化、模块化方法完成知识图谱的构建流程。其主要过程如图2所示。
图2 知识图谱建模流程
图3 航天装备知识图谱构建过程
数据和信息是知识图谱构建和应用的主要载体,知识图谱的构建过程就是对数据和信息的组织、归纳和分析,以建模手段完成模型创建和校验,从而形成完备的知识模型。
装备知识图谱通过模型确定装备的多级知识的表达形式,可视化、直观的模型表达是知识图谱构建的首要工作和重要基础。知识图谱的表达模型要求在可视化的直观图形控件之中,最大程度描述事物间的基本关系、内在特点与发展规律。通过知识本体可定义领域内不同的实体概念、特别属性及概念间的关系和链接。
知识图谱可视化模型起到支撑整个知识图谱的概念架构和主体框架的作用,进而实现规范数据信息、规范表达语境、规范理解层级等客观要求,实现多维知识的有机统一、提升资源的利用率。因此保证知识图谱可视化模型搭建的高准确率十分必要[8]。
知识来源大致包括结构化数据(如状态监控数据)、半结构化数据(如日志文件)和非结构化数据(如图片、文档、视频)等几类[9]。从数据信息形式和获取途径上来说,知识作为知识图谱的实体,涵盖的范围较为广泛。知识图谱技术可以有效利用数据信息,构建高质量的知识库,以知识库作为知识结构化表示的重要依托。
每一种数据源的知识化都需要综合各种不同的技术手段。其中:
非结构化数据是装备知识的重要来源,这类知识的获取需要综合实体识别、实体链接、关系抽取、事件抽取等自然语言抽取技术,实现从文本中抽取[10];
结构化数据是最常用的数据来源之一。已有的结构化数据库通常不能直接作为知识图谱使用,需要将结构化数据定义到本体模型之间的语义映射,再通过编写语义编译工具实现结构化数据到知识图谱的转化。
此外,需要综合采用实体消歧、数据融合、知识链接等技术,提升数据的规范化水平,增强数据之间的关联。
知识表示就是使用计算机符号描述表示自然知识,以支持机器进行模拟推理的方法和技术。知识表示决定了图谱构建的产出目标,即知识图谱的语义描述框架(Description Framework)、Schema与本体(Ontology)、知识交换语法(Syntax)、实体命名及ID体系。
基本描述框架定义知识图谱的基本数据模型(Data Model)和逻辑结构(Structure)。Schema与本体定义知识图谱的类集、属性集、关系集和词汇集。交换语法定义知识实际存在的物理形式。实体命名及ID体系定义实体的命名原则及唯一标识规范等。
按知识类的不同,知识图谱包括词(Vocabulary)、实体(Entity)、关系(Relation)、事件(Event)、术语体系(Taxonomy)、规则(Rule)等。词一级的知识以词为中心,并定义词与词之间的关系,如WordNet、ConceptNet等。实体一级的知识以实体为中心,并定义实体之间的关系、描述实体的术语体系等。事件是一种复合的实体。
对应与知识图谱的“头实体—关系(属性表达)—尾实体(属性值)”的三元组结构,知识获取过程可大致分为实体获取、关系获取和属性获取。由于属性本身是一类从属于中央实体的特殊子实体,因此知识获取过程可简化为“实体获取”和“关系获取”。
在实际应用和模型创建过程中,由于需要兼顾后续知识图谱的应用和对知识数据与信息的有效管理,在实体获取过程中要对泛化表述进行概念化提取。而关系作为知识推理和智能检索的重要依据和桥梁,其对各类型、各层级实体的组织规则、提取触发的事件形式等均需要进行特别的设计。
综上,现代知识图谱建模过程主要涵盖了概念获取、实体识别、关系获取、事件获取和规则获取等几大步骤[11]。其中:
概念获取针对泛化、通用的基本表述进行概念化阐释,使之可以构成可识别的概念语族;
实体获取在概念语族的基础上,识别领域内的专有名词和特殊词语并加以归类;
关系获取是将众多离散的实体以网状的知识结构建立实体间的语义链接;
事件获取是对关系触发的事件进行定量化抽取和结构化转化的过程;
规则获取是对关系触发的形式、触发后的响应等内容进行定量化抽取和结构化转化的过程。
在遗忘很长一段时间里,传统的知识获取过程要依赖专家经验和专家系统,知识获取的方式也主要依靠专家手动录入。随着人工智能技术的推广和应用,现代知识框架和模型的构建主要采用自主学习和智能获取的手段,依靠完备的多元数据库中已有的结构化数据和信息资源进行转化,形成基础数据集,再依靠自动知识抽取和知识图谱补全技术,从多种数据来源进一步扩展知识图谱,实现知识图谱质量的进一步提升[12]。
其中,尤其以从文本等非结构化数据中获取知识最为关键和重要。当前主要的从非结构化数据中获取知识的方法包括实体识别和关系抽取。实体识别主要分为实体类识别、时间类识别和数字类识别3个大类。通过将文本语料进行预处理后,从中提取句子特征,并输入到实体识别模型中,识别出具有特定意义的实体。典型的关系抽取方法可以分为基于特征模板的方法[13]、基于核函数的监督学习方法[14]、基于远程监督的方法[15]和基于深度学习的监督方法[16]。
知识融合技术有效解决了固定化的知识图谱难以扩展的问题,从谱系中心实体的本身知识拓展需求和多型异构谱的融合需求等多个方面实现了已有知识图谱模型的扩充和晚上。在多个知识图谱作为子谱进行同一化融合,或者将外部数据库数据信息合并到本体知识库时,需要处理两个层面的问题:
首先,结构、关系等模式层的异构必然为多子谱融合造成障碍,如何通过模式层的融合,将新得到的本体融入已有的本体库中,以及新旧本体的融合是知识图谱模型融合的重要问题;
其次,数据信息本身的结构、内容和存储方式等数据层的差异也会对融合和并构的准确率与效率造成影响。如何通过数据层的融合(即实体和关系(包括属性)元组的融合),包括实体的指称、属性、关系以及所属类别等,避免实例以及关系的冲突,造成不必要的冗余,是知识图谱融合过程中需要解决的另一个主要问题。
特别的,在考虑数据层的融合过程中,现有的常规方式是实体匹配或对齐。由于多维异构的知识库中实体类型和存储方式并不相同,因此会出现大量的实体含义相同,但标识符不同的现象,导致标识符指称和本体内容出现歧义和混淆。因此需要对这些实体进行合并处理[17-18]。此外,新增实体之后,为了保持新图谱模型的可用性、内容一致性和准确性,还需要对新增实体和关系进行验证。
实体验证完成实体的准确性、合规性的校验评估,主流方法通常是在校验过程中,为新加入的中心实体节点信息和属性实体节点信息等均赋予置信度的值,据此进行知识的过滤和融合。通过实体对齐实现对实体的表述意义和方式的明确。
实体对齐主要用于解决多源实体的指代异常结构和存在的问题。通常包括两方面内容和功能,分别为实体消歧和共指消解。其中实体消歧指的是判断知识库中的同名实体是否代表不同的含义,而共指消解主要判定知识库中是否存在其他命名实体表示相同的含义。通过实体消歧和共指消解等技术手段,实现了融合后新谱的知识实体和属性实体具有“3个一性”,即统一性、唯一性和同一性。常见的实体消歧和共指消解方法主要是聚类法,即通过空间向量、语义模型、社会网络模型、百科知识模型和增量证据模型定义实体对象与指称项之间的相似度。
本体是针对特定领域中Schema定义、概念模型和公里定义而言的,实现弥合词汇异构性和语义歧义的间隙,使沟通达成共识。这种共识通过一个反复的过程达到,每次迭代都是一次共识的修改。因此,本体对齐带来的是共识模式的演化。本体演化管理框架采用KAON[19]、Conto-diff[20]和OntoView等。
知识推理通过知识图谱补全方式实现。基于本体推理的补全方法是一类常见的知识图谱补全方法。主要针对概念层进行推理(TBox),也可以用来对实体级的关系进行补全。
还有一类补全方法是基于图结构和关系路径特征的方法,主要包括基于随机游走获取路径特征的PRA算法、基于子图结构的SFE算法、基于层次化随机游走模型的PRA算法等。这些算法的共同特点是通过两个实体之间的路径,以及节点周围图的结构提取特征,并试图降低特征提取的复杂度,然后叠加现行的学习模型进行关系的预测。
另一类常见的知识图谱补全算法是基于表示学习和知识图谱嵌入的链接预测。对于简单的单步推理,可采用基本翻译模型、组合模型和神经元模型等简单的嵌入模型,对于复杂的模型,可以采用向量空间中引入随机游走模型的方法。
此外,文本信息也常被用来辅助知识图谱的补全,从而实现非结构化信息的最大化应用。
基于知识图谱的知识检索是知识图谱的主要应用形式,是将知识来源的元知识应用到特定领域的最后一步。目前主要的形式包括语义检索和智能问答两种。其中,语义搜索通过直接对来自文本、图片等各种信息资源的事物语义进行搜索,并提这些事物的分类、属性和关系的描述,有效提高搜索的效率和准确率。例如直接搜索某型卫星的基础指标出厂检验值等属性内容作为分析评估的判定输入。
智能问答实现对用户提出的问题进行解答,根据用户输入的自然语言问句进行分类,按照已经制定好的模板规则进行匹配,再转逻辑查询语言到数据库中查询。在对问句进行预处理后,与既定的问题模板进行匹配,然后将自然语言查询转换为数据库查询语言,与此同时,将问句中的核心实体识别出来,并将该实体的概念图谱在前端呈现,最终,依据概念图谱与查询语句便可以得到该问题的答案。如以某故障现象的排除作为问句,到故障诊断相关的知识图谱中匹配答案,系统识别关键实体为故障现象,关系(理解为操作)为排除此故障的方法,则会通过案例等故障诊断资源实现排故建议答案的给出和生成。
航天装备由一系列不同类型(型号)的卫星装备和相应配套的地面站构成,共同完成相应的作战和保障任务。由于复杂的装备构成和装备本身的复杂精密的特性,以航天装备为典型评估对象,依托本文提出的基于三元组的知识图谱对其进行综合评估,可以有效提高知识的检索和应用效率。下图为航天装备知识图谱构建与应用的方法流程。
本文基于自主研发的航天装备在役考核综合评估系统,在全面收集、梳理相应的装备零散知识的基础上,应用本文所述的知识图谱创建与关联方法实现了航天装备的知识图谱的创建与应用,并以软件形式对本文方法进行了验证。
航天装备的知识来源主要包括组成体系的卫星装备本体知识、体系构建的结构知识、体系服役期间的使用维护知识、体系的支援保障任务知识等内容。航天装备的知识特点是“静态知识与动态知识深度融合、历史数据和实时数据互为依托、单体知识和体系知识各有侧重”,总体呈现“知识体量庞大、知识来源复杂、知识体系零散、知识结构多样”的鲜明特征。
1)卫星系统本体知识。主要来源于卫星装备的研制单位、生产单位、测试单位和使用单位。包括装备设计文档、技术资料、出厂检验资料、使用履历资料等多类型非结构文本、结构化数据库数据。
2)体系构建应用知识。主要来源于航天装备的应用单位(以军事航天部队为主)。包括航天装备的基本信息、体系的装备构成、体系的应用数据等多类型非结构文本、结构化数据库数据。
3)体系综合维护知识。主要来源于航天装备的应用和维护单位。包括在役考核分析评估的指标体系数据、航天装备故障数据、综合保障维护数据等多类型非结构文本、结构化数据库数据。
4)作战保障任务知识。主要来源于请求保障单位和航天装备的应用维护单位。包括航天装备的作战和保障任务详情、多维度多层次约束条件等。
图4为航天装备知识的组织结构图,直观地说明了航天装备的知识来源。
图4 航天装备知识来源说明软件示意图
图5 典型核心航天装备知识图谱表示软件示意图
图6 航天装备多层次知识获取软件示意图
图7 多元子谱融合软件示意图
图8 基于知识图谱的检索推理软件示意图
航天装备的知识表示结合体系复杂的知识来源和知识结果,以及航天装备的特点,以体系内的主战装备为核心节点,通过多维语言描述和关系运算,对知识进行体系化串联、多极化表示和网络化构建[21]。
以型号为主轴,将主要型号装备作为知识图的核心要素,进行多级多维知识图谱子谱的构建。如创建某型卫星的知识图谱,则该型卫星就作为中心节点,该卫星的特征属性、卫星系统内的其他装备实体、装备指标体系等均可以藉由特定的关系描述与该卫星连接,从而形成丰富的知识图谱。
航天装备的知识数据形式多种多样,涵盖了结构化数据、半结构化数据和非结构化数据等类型,因此协调统一的知识获取方式尤为重要。
从结构化数据库表中获取知识一般使用现有的D2R工具,如Triplify、D2RServer、OpenLink、SparqlMap、Ontop等。从非结构化文本信息中获取知识一般使用简单CNN、MP-CNN、MWK-CNN、PCNN、PCNN+Att和MIMLCNN等智能化分析算法。
航天装备的的深度综合分析评估涉及多类装备系统、多型装备型号、多个装备实例等复杂情况,对应的体系级知识图谱必然要涵盖这些分立的知识图谱,这就需要构建融合知识图谱。在融合知识图谱的构建和应用过程考虑两个主要问题,即体系作为新的本体,如何融入已有的装备本体库中,以及不同实体之间是否存在关系的冲突或冗余(易发生在同型装备的不同实例之间)。
通过为航天装备创建全新的虚拟核心节点(即不需要真实装备实体作为节点支撑)实现体系节点的具象化表达。为了实现对基于装备型号的子谱的融合、囊括和一体化表征,以实际运行的航天装备组成为关系链条(边),通过多维语言描述建立体系节点与型号装备节点之间的连接,从而融合了以装备节点为核心要素的型号装备的子谱,构成了统一的体系知识图谱。
子谱融合过程中,采用语义分析和关系检验方法对子谱进行节点校验和析分、融合和冗余剔除。以多实例同型装备子谱融合为例,在实际体系级知识图谱创建过程中,基于体系构成和智能分析方法,对多实例装备采取两种策略。对体系整体功能没有特异性影响,实例的体系贡献相同,只是单装功能的线性叠加和增强的装备实例而言,通过对其核心节点与体系节点的边进行赋权表征数量的方法实现融合;若不同实例的功能作用、体系贡献、布局影响等要素不同,需要作为不同的节点分别与体系节点连接,从而精准划分装备节点,优化知识图谱。
航天装备基于知识图谱的综合评估综合运用知识图谱对多维知识的有效组织和层次化建模功能,满足自身对知识定位、综合评估的综合性、高效性、实时性的需求。
以语义识别为基础,通过多种录入搜索模式实现对知识的推理、检索和分析。在广泛丰富的数据资源的支撑下,通过补全图谱方法,应用深度学习和神经网络技术,实现对知识图谱的深化推理和拓展应用。准确的自然语义识别和分析、功能完善强大的多线程检索引擎等技术的引入,实现了知识需求的快速分析、知识要素的精准匹配和知识结果的高效输出。
知识图谱作为人工智能技术领域的知识容器和孵化器,已经在AI领域的发展中发挥了重要的作用。而面对以航天装备为代表的全军各类型装备的信息化升级和智能化应用需求的不断上升,以知识表示、抽取、存储、计算、应用等一系列技术“有机集合、体系整合、链条融合”为特征的知识图谱技术,必然会在智能装备研制、生产和使用维护中真正落地,发挥重要的作用,助力装备的升级和我国国防现代化事业的建设。