军事知识图谱的构建和检索方法研究

2022-07-06 07:43:50侯振瑜张仰森苏振江谢少辉胡昌秀
关键词:语句军事图谱

侯振瑜,张仰森,苏振江,谢少辉,胡昌秀

(1.北京信息科技大学 仪器科学与光电工程学院,北京 100192;2.北京信息科技大学 智能信息处理研究所,北京 100192)

0 引言

现代的军事化建设在逐步向信息化转型,相关领域人员在面对数量众多的军事领域知识时,如何从大量未整合的数据中快速、准确地查询到自己需要的信息是亟待解决的问题。传统的检索方式主要是基于关键词匹配实现的,得到的结果往往忽略了对关键词的语义理解,无法满足用户的真正需求。

自2012年谷歌搜索引擎首次融入知识图谱技术[1-2]后,知识图谱已被广泛应用于智能搜索领域,在医疗、工业生产、金融等特定领域都有很多成功的案例[3-5]。与其他领域不同,军事领域的数据获取难度大,实体间的关系也较为复杂,这些都为军事知识图谱的构建带来了困难[6]。

Chen等[7]针对军事信息化进程中数据孤立、关联组织缺失、数据难以有效利用等问题,提出了一种基于互联网开源、多数据的军事知识图谱构建技术;车金立等[8]基于武器百科上的开源装备数据,构建了军事装备知识图谱,并利用该图谱实现了知识问答,从而辅助相关使用人员快速准确地获取所需知识;Liu Chenguang[9]等提出了一种基于条件随机场(conditional random field,CRF)和句法分析树的实体关系提取方法,通过海量数据训练、模型对比和改进,优化军事知识图谱的构建。

以上研究大都针对武器装备来进行军事知识图谱构建,其实体的类别和数据规模较小,并且在构建时没有考虑到军事文本数据的特点,无法为军事领域工作者提供较为全面的军事知识库。然而,构建高质量的知识图谱是实现语义检索的前提,军事知识图谱的缺失导致针对军事领域检索算法的相关研究较少。

针对上述问题,本文对非结构化和半结构化的开源军事数据进行知识抽取、存储等方面的研究,构建了军事领域知识图谱,并基于该知识图谱提出了一种语义检索方法。该方法通过对用户的检索语句进行语义分析,从构建好的军事领域知识图谱中返回相应信息,使用户可以更加快速地获取与需求相符的军事领域知识。

1 军事知识图谱的构建

1.1 资源库的构建

本文采用网络爬虫与应用程序编程接口(application progoramming interface,API)相结合的方式从开源军事网站上采集所需的数据信息。通过对各网页结构的分析,采用Scrapy爬虫框架进行军事数据采集,并通过垃圾信息过滤、特殊符号删除等预处理操作获得军事领域资源库。

1.2 基于BERT-CRF-PRF模型的知识抽取

将采集到的军事数据转换为所需的知识是构建军事知识图谱的核心。针对半结构化数据通过规则将其转换为“实体—属性—属性值”的形式,对非结构化数据采用基于转换器(Transformer)的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型[10-12]进行关系抽取。本文重点对军事领域中的实体识别进行研究。

通过对军事数据进行分析,需要识别的实体包含人物、地点、时间、军事组织、军事武器、军事事件6类标签。命名实体标签如表1所示。

表1 命名实体标签

例如,语料“1990年,人民解放军向联合国中东维和任务区派遣5名军事观察员,首次参加联合国维和行动。”的标注序列为“[0,4,‘time’],[6,10,‘org_name’],[15,21,‘location’],[26,30,‘person_name’],[36,42,‘event’]”。

本文采用BERT和CRF相结合的方式实现了非结构化数据中面向军事领域的命名实体识别任务。其中BERT主要由嵌入层、Transformer 编码器、损失优化3部分构成。虽然Transformer编码器具备自注意力机制和双向结构的优点,但是它仅通过位置向量来获取位置信息,只能得到单个输入在序列中的最优结果。而CRF模型则能通过相邻位置标签关系来表示整个特征序列的联合概率,可以得到整个序列的最优预测结果。研究表明,将两者相结合构建的BERT-CRF模型在通用领域中的识别效果较优[13-14]。

本文在BERT-CRF的基础上加入校对处理层(proofread,PRF)来提高模型对军事领域独有的实体类型的识别质量。具体做法如下:在人工收集武器装备名、军事组织名、军事事件名的同时参照《军语》、《军事信息资源分类法》等军事资料中的相关词条构建军事实体校对库;基于军事组织、武器的特点设置触发词规则,如“**战斗机”、“**团”中存在着代表武器特征的“战斗机”和军事组织特征的“团”;添加使用校对处理层对BERT-CRF的结果进行校正,具体流程如图1所示。

图1 实体校对流程

将BERT-CRF模型的输出分别与校对处理层中的军事实体校对库和触发词规则进行匹配。如果匹配成功则按照实体校对库、触发词规则的优先级进行替换,否则直接输出BERT-CRF模型的识别结果。

1.3 知识存储

本文将识别出的实体、实体与实体之间的关系以三元组的形式导入图数据库Neo4j中,从而实现对军事领域知识图谱的存储与可视化,在提高用户查询效率的同时,增强了领域知识的可读性。图2是军事领域知识图谱的部分实例,其中节点代表各个实体,节点间的边代表实体间相互关系。

图2 图谱可视化

2 基于军事知识图谱的语义检索

基于军事知识图谱进行检索的核心分为两个步骤:①对用户的检索语句进行语义理解;②将经过语义理解后的检索语句准确地转换为知识图谱的查询语句(本文中为Cypher语句)。

针对已经构建好的军事领域知识图谱,设计了基于知识图谱的语义检索方法:首先,对用户的检索语句进行分词处理,将检索语句分解为检索关键词,并将其与同义词典进行匹配与转换;其次,对检索关键词进行语义扩展并构建新的检索语句;然后进行依存句法分析从而将其转换为图谱对应的检索语句;最后,对得到的检索结果进行相关性排序,返回最符合用户真实检索意图的结果。具体流程如图5所示。

图5 检索流程

2.1 检索语句处理

2.1.1 分词

相对于英文的结构特点,在中文语句中,词语之间没有显性的界限。因此分词就成为了中文自然语言处理的基础条件,分词的好坏会对检索结果的质量产生直接的影响。目前的自然语言处理领域有着许多成熟的分词工具,但这些分词工具往往都是只有一个通用的字典。本文的研究领域具备很多专业名词和军事用语,如果不单独构建军事领域词典,就会在专用词汇的识别上出现较大的误差,进而影响检索结果。因此为了提高分词的效果,在添加自定义词典(由图谱中的各个实体、属性构成)的基础上,使用开源中文分词工具HanLP来进行检索语句分词。

2.1.2 同义转换

用户在进行检索时输入的检索语句与个人的知识储备和表达方式有关,如果使用的检索词与图谱中存储实体名称不一致,就会检索失败。

为了解决这个问题,本文利用已经构建好的军事知识图谱,对实体、实体的属性以及常用词汇进行分析与统计,构建军事领域实体的同义词典。该同义词典用来对检索关键词进行同义转换,从而消除因各种原因造成的检索词汇的差异性。表2所示为军事同义词典中部分词汇。

表2 军事同义词典示例

2.2 多相似度融合的语义计算方法

2.2.1 实体扩展

实体扩展作为扩展检索的一种实现方式,可以用来识别检索用户的潜在需求,丰富检索结果。本文将实体扩展分为两种:一是经同义转换等操作处理后的检索关键词未能与知识图谱实体成功匹配,此时需要计算该关键词与知识图谱中各实体之间的相似度,选择相似度高的实体进行检索查询;二是经处理后检索关键词与知识图谱中的实体成功匹配,此时需要计算该实体与其他实体之间的相似度,选择与其相似度高的实体对检索结果进行扩展。

1)关键词与实体间相似度计算方法

传统基于字面相似计算的方法主要是基于文本本身的结构进行匹配计算,无法获取到两者之间语义层面的关联。因此本文将字面相似计算与语义相似计算相结合,提出了关键词与实体名称的相似度计算方法:

S(K,E)=λSvec(K,E)+(1-λ)Slit(K,E)

(1)

式中:λ为权重参数;K为关键词;E为实体名称;Svec(K,E)表示检索关键词和实体名称之间的向量空间相似度,计算式为

(2)

其中:k为检索关键词对应的词向量;e为实体名称对应的词向量。余弦值越大表示两词向量夹角越小,词之间的相似度就越高。

Slit(K,E)表示检索关键词和实体名称之间的字面相似度,计算式为

(3)

其中:M(K,E)表示检索关键词K和实体名称字符串的最大长度。L(K,E)表示检索关键词和实体名称之间的莱文斯坦编辑距离[15]。

根据式(1)得到检索关键词和实体名称之间的语义相似度,选取相似度最高的前N个实体作为检索扩展词。

2)实体与实体之间相似度计算方法

属性是对实体的主要描述,如武器装备中的各种参数,实体的属性数量越多其包含的信息含量越大,判断两个实体之间是否有关联可以通过他们之间共同属性的数量来代替。两个实体之间共有属性越多则二者越相似,用Sattr(E1,E2)表示实体E1和E2之间的属性相似度,具体公式如下:

(4)

式中:I(E1,E2)表示实体E1和E2共有属性的数量;U(E1,E2)表示实体E1和E2所有属性的数量。

综合实体节点间的距离和两节点的公共属性数量,提出了实体间的语义相似度计算方法如下:

Sentity(E1,E2)=(1-μ)Sattr(E1,E2)+μD(E1,E2)

(5)

式中:D(E1,E2)表示两实体节点之间的最短路径,μ为权重参数。

3.2.2 检索语句转换

将经过语义理解后的检索语句转换为Neo4j中的Cypher查询语言是从图谱中找到检索结果的关键。本文针对军事领域图谱的特点,采用问题模板匹配的方法来进行检索语句的转换,构建了检索语句模型,如表3所示。

表3 问题模板

一些特殊的查询句式,如武器装备之间的参数比较、多实体查询等,这些情况都无法通过基础的谓语属性模板匹配来得到对应检索语句。因此本文对常见的查询进行分析,将这些特殊的句式分类并设置特定的匹配模板。如当检索语句中有“比…快的”或者“比…称重大的”这样的标识时,在生成对应的Cypher语句后添加WHERE语句来进行比较查询。

在进行检索语句转换时,对照同义词典进行同义转换,转换之后则根据其中的关键词将其分类,确定查询模板,最终根据模板来生成对应的Cypher语句。

2.3 检索结果排序

为了使用户能够快速地搜索到自己需要的信息,需要对已经查询出来的结果进行排序,将结果按照相关性从大到小返回给用户。本文主要将检索结果分为两种:①原始查询结果:原始语句经过分词、同义词转换等处理后直接在图谱中匹配到答案的查询结果;②扩展查询结果:检索语句经过实体扩展后查询到的检索结果。对以上两种查询结果重新排序,算法如下:

1)根据检索语句,经过语义检索后得到原始查询结果集R1和扩展查询结果集R2;

2)若R1不为空,则将R1的结果排到R2结果之前;

3)若R1为空,则依据式(1)来计算每个结果的相似度;否则依据式(5)来计算相似度;

4)计算每个实体关联其他实体的数量,以此衡量实体的重要程度;

5)对实体语义相似度和实体重要度的结果采用综合线性加权公式,获得每个检索结果的综合得分;

6)根据得分降序排列并返回结果。

3 实验与分析

3.1 实验数据集

由于目前并不存在公开且统一的军事语料库,因此采用爬虫与API相结合的方式构建军事文本库。本实验所用的数据集为爬虫所得的非结构化数据,包括法律法规、军事情报、军事新闻、武器装备、作战案例5大类。其具体统计信息如表4所示。

表4 非结构化数据

3.2 命名实体识别效果验证

知识图谱的构建质量会直接影响到最后的检索结果,而军事领域上的命名实体识别是构建军事知识图谱的关键步骤。为了直观地看出不同方法在军事数据上的识别效果,本文采用准确率、召回率、F1值来评估每个方法的性能。准确率与召回率计算式如下:

(6)

(7)

从军事领域资源库中每种类型选取200个文档,然后通过规则处理和人工标注相结合的方式对数据进行标注,并将标注过后的语料文本按8∶2的比例分为训练集和验证集。在该数据集上,4种不同模型的识别效果如表5所示。

表5 四种不同模型识别效果 %

前3组实验为通用领域中实体识别效果较高的模型。从实验的结果来看,因为PRF层的校对作用,本文提出的方法指标值最优,比BERT-CRF模型在准确率、召回率、F1值上分别提升了2.14%、3.83%、2.98%,说明本文提出的方法在军事领域命名实体识别方面比传统模型有着更好的表现。

3.3 检索效果验证与分析

本文采用查全率、查准率和F1值3个指标来评价检索方法的有效性。查全率与查准率的计算式如下:

(8)

(9)

首先通过实验确定式(1)和式(5)中权值λ和μ对检索查准率的影响。根据实验结果,当λ、μ的取值分别为0.6和0.65时查准率最高,因此选取这两个权值来计算相似度。为了验证本文方法的有效性,从军事领域资源库中每种类型选取200个文档构成实验数据集。在该数据集上,3种不同方法的检索效果如表6所示。

表6 三种方法的检索结果对比 %

从表中可以看出,基于关键词匹配的方法查全率和查准率都较低,检索效果最不理想;传统基于知识图谱的方法,其检索结果与基于关键词的方法相比有所提升,但是由于该方法只是对检索语句进行分析处理后就直接从知识图谱中进行查找,因此查全率较低;而本文提出的方法在查全率和查准率上都有较大的提升,证明了本文方法在检索任务中的有效性。

4 结束语

本文对军事领域知识图谱的构建进行了研究,并提出了一种基于军事图谱的检索方法。首先,针对军事文本数据的特点提出了BERT-CRF-PRF军事领域实体识别模型,提升了实体识别效果,构建了军事领域知识图谱;然后将处理后的检索语句结合图谱结构对其进行语义分析;最后根据实体相似度和实体重要程度对检索结果进行排序,优先返回最符合用户需求的数据。

在后续研究中将继续对军事知识图谱进行扩充,丰富实体节点的数量并细化实体间的关系;并进一步优化检索过程中的语义理解,以提高检索速度和准确率。

猜你喜欢
语句军事图谱
绘一张成长图谱
重点:语句衔接
精彩语句
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
主动对接你思维的知识图谱
如何搞定语句衔接题
语文知识(2014年4期)2014-02-28 21:59:52
杂草图谱
杂草学报(2012年1期)2012-11-06 07:08:33
作文语句实录
军事幽默:局
军事文摘(2009年9期)2009-07-30 09:40:44
军事