融合本体特征的BiLSTM-CRF军事实体识别模型

2020-06-07 03:17:16齐玉东丁海强吴晋豫司维超

兵器装备工程学报 2020年5期

齐玉东，丁海强，吴晋豫，司维超

(1.海军航空大学，山东烟台 264001； 2. 92199部队, 山东青岛 266000)

随着军队信息化水平的迅速提高，军事业务数据呈现爆炸式增长，“技术密集型”、“数据驱动型”特点日益突出。在军事数据中，大量信息以文本形式存在与使用，文本类型数据具有数量大、蕴含信息丰富、难以直接利用等特征，研究如何有效处理军事文本数据成为亟待解决的问题。命名实体识别(Named Entities Recognition，NER)[1]是文本信息抽取的基础性工作，用于取文本中具有基本语义的实体单元。在军事领域，可以将命名实体分为军事人员、军事保障机构、军事保障设备、军事保障设施、军事装备名称5种类型。

目前，在军事实体识别研究方面，使用深度学习[2]方法成为主流趋势。例如，朱佳晖[3]等人提出双向LSTM和CRF的实体识别框架，实现军事语料文本中的作战相关命名实体的识别和链接，较其他前沿方法在F值上获得了更加优秀的结果。李建龙[4]等人采用双向LSTM模型解决军事领域命名实体识别问题，并增加注意力机制进行模型优化，在军事测试语料集上的测试F值达到了87.38%。王学锋[5]等人结合BiLSTM、字向量以及CRF，构建了character-BiLSTM-CRF实体识别模型，通过实验证明该方法比传统方法的识别准确率、召回率、F值均有大幅度提升。以上军事实体识别方法虽然减轻了人工提取特征的繁琐过程，实体识别准确率也达到了一定的高度，但没有考虑到领域知识对军事实体识别的影响。相较于传统领域的命名实体识别，军事命名实体种类多，且命名实体之间的辨析难度更大，增加领域知识对提高军事实体的识别效果具有重要作用。

综合上述分析，本文提出融合本体特征的BiLSTM-CRF军事命名实体识别方法，将本体特征作为军事命名实体识别的领域知识特征，融入到文本向量特征中，有效解决命名实体种类多、命名实体间辨析难度大难题。同时，模型中加入字向量描述词语的内部形态学特征，解决分词准确率低、未登录词对军事命名实体识别的影响，最后采用BiLSTM-CRF方法完成军事实体识别过程。

1 军事本体的构建与应用

本体(Ontology)源于拉丁文Ontologaia，意思是事物的本质。在计算机学科中，被广泛应用在知识表示、信息系统、领域分析、人工智能等领域[6]。根据军事领域本体提取文本相应的本体特征，并将其融合到命名实体识别方面，可以有效提高军事实体识别的准确率。本节通过构建军事领域本体，将军事领域知识进行体系化组织，方便领域知识的检索与获取，并进一步将本体特征融入到文本向量中，构建融合本体特征的文本向量表示。

1.1 军事领域本体

军事领域本体以军事保障本体[7]为上层本体参考，遵循“七步法”本体建模方法，使用Protégé本体开发工具进行构建，构建流程如图1所示。

图1 军事领域本体构建流程框图

军事领域本体构建流程具体如下：

1) 明确军事领域本体涉及军事装备以及部分军事装备保障方面的概念。构建军事领域本体目的是建立具有逻辑检测与可扩展的本体库，为军事命名实体识别提供领域知识指导；

2) 参考《军语》、《军械勤务》、《军事主题词简明词典》等专业词典，查阅大量军事装备相关报告与学术论文，汇总整理得到军事保障设备(64个术语)、军事保障设施(61个术语)、军事保障机构(40个术语)、军事人员(21个术语)、军事装备及主要组成部件(218个术语)总计404个术语；

3) 定义等价、属种、相关、非交4种关系将众多军事概念联系起来；

4) 对军事领域概念的属性进行定义，参考《可靠性维修性保障性术语》(GJB/Z 139—2004)对概念的数据属性信息进行描述，构建军事装备领域概念的属性集合；

5) 选择概念，通过查询《军事保障数据库》，为所建本体添加概念实例；

6) 本体模型校验，利用Racer推理机进行逻辑检测，对本体概念进行一致性和包含性检测，对实例进行冲突检测，以发现本体中概念定义矛盾、实例属性关系关联有误的情况，确保本体库逻辑上的正确性；

7) 军事领域本体模型文档化，利用Protégé的文档生成工具进行规范化文档的生成工作。

1.2 融合本体特征的文本向量表示

神经网络模型只能接受数值向量作为输入[8-9]。因此，本节将本体特征、分词、字三者分别处理为相应的向量，共同构成文本向量表示。

1.2.1本体特征向量

根据领域本体，可以方便地推理出某个词语所蕴含的深层语义关系。通过分析军事装备领域本体，得到指导命名实体识别的语义关系包括：(1)子类关系，体现普遍性与特殊性的关系；(2)属性关系，体现本体的对象与对应属性的关系；(3)实例关系，体现抽象与具体的关系。将上述三种语义关系作为军事词语的本体特征表示，具体军事本体特征类别如表1所示。

表1 军事本体特征类别

实体本体特征符号表示军事人员子类P_sub军事人员属性P_att军事人员实例P_ins军事保障机构子类O_sub军事保障机构属性O_att军事保障机构实例O_ins军事保障设备子类E_sub军事保障设备属性E_att军事保障设备实例E_ins军事保障设施子类F_sub军事保障设施属性F_att军事保障设施实例F_ins军事装备子类W_sub军事装备属性W_att军事装备实例W_ins

根据表1中的军事本体特征类别，使用One-Hot Encoding表示不同的本体特征标注。定义本体特征标注集为O，定义单位矩阵E∈R|O|×|O|，其中单位矩阵E的每一个行向量表示一个本体特征标注。则第i个词语wi的本体特征向量表示为O(wi)。

1.2.2词向量和字向量

使用结巴分词库对输入文本进行分词处理，并采用word2vec[10-13]工具生成词向量字典W。假设输入文本为s，分词处理得到n个词语，根据词向量字典W将可以得到每个分词的向量化表示，从而拼接成整个输入文本的向量，记做s=(w1,w2,…,wn)。

考虑到军事文本中专有名词数量较多，分词准确率较低，且由于词向量字典不够完备，未登录词现象普遍，对命名实体识别也会造成影响。本文加入字向量以提供词语的内部形态学信息，以缓解分词不准确以及未登录词对命名实体识别的影响。本文同样使用word2vec工具，以单字为粒度进行字向量训练，生成字向量字典C。根据字向量字典，确定第i个分词wi的字向量组成为wi=(c1,c2,…,cl)。

在实践过程中发现，中文分词的长度不固定，有1个字长度的分词，也存在6～7字甚至更长的分词。将原始字向量输入神经网络，则会造成长分词向量对模型的影响大，短分词向量对模型的影响小，影响命名实体识别的效果。因此，本文使用双向循环神经网络(Bidirectional Recurrent Neural Network，BiRNN)[14]对字向量进行编码处理，得到同等长度的字向量。使用前向循环神经网络进行字编码操作记做RNNf(c1∶l)，使用后向循环神经网络进行字编码操作记做RNNb(c1∶l)，其中c1∶l=[c1,c1,…,cl]。

综合上述分析，本文采用本体特征向量、词向量、字向量三者结合的方式，作为文本向量表示。定义模型的第i个输入文本向量为xi，则：

xi=[O(wi);wi;RNNf(c1∶l);RNNb(c1∶l)]

(1)

式(1)中：O(wi)为本体特征向量；wi为词向量；c1∶l为词wi的字向量组成；RNNf(c1∶l);RNNb(c1∶l)为字向量编码。

2 Bi-LSTM-CRF模型

将文本处理为融合本体特征的向量后，输入到Bi-LSTM-CRF模型中，识别出其中的命名实体。包括Bi-LSTM编码模块、标注预测模块、线性CRF模块三部分。

2.1 Bi-LSTM编码模块

Hochreiter and Schmidhuber于1997年提出长短期记忆网络(Long Short-Term Memory,LSTM)，通过设计特殊的门结构使得模型可以选择性的保存上下文信息。LSTM模型将状态向量si分解为记忆单元cj与隐藏状态单元hj两部分，其结构定义如下：

sj=RLSTM(sj-1,xj)=[cj;hj]

yj=OLSTM(sj)=hj

cj=f⊙cj-1+i⊙z

hj=o⊙tanh(cj)

i=σ(xjWxi+hj-1Whi)

f=σ(xjWxf+hj-1Whf)

o=σ(xjWxo+hj-1Who)

z=tanh(xjWxz+hj-1Whz)

sj∈R1×2·dh;xj∈R1×dx;cj,hj,i,f,o,z∈R1×dh;

Wxo,Wxi,Wxf,Wxz∈Rdx×dh;

Who,Whi,Whf,Whz∈Rdh×dh

(2)

式(2)中：xj表示j时刻的输入向量；sj表示j时刻的状态向量；yj表示j时刻的输出向量；cj表示记忆单元部分；hj表示隐藏单元部分；i、f、o表示输入门、遗忘门、输出门；z表示更新状态；⊙表示对应元素相乘操作；σ表示激活函数sigmoid操作。

为了更有效地利用上下文信息，识别文本序列间的顺序关系，本文采用Bi-LSTM进行军事命名实体识别工作，分别从正向(从第一个词到最后一个词)和反向(从最后一个词到第一个词)对输入向量进行编码操作，最后将两部分输出向量进行拼接处理。

2.2 标注预测模块

命名实体识别通常被建模为序列标注任务，通过对文本进行标签标注从而进行对应命名实体的提取。本文使用BIO标注模型进行文本序列标注。

模型输入向量x1∶n=[x1,x2,…,xi,…,xn]经过Bi-LSTM编码模块进行编码处理后得到输出向量，然后将每个输出向量送入一个多层感知器(Multi-Layer Perception，MLP)网络中，并通过softmax函数进行归一化处理，得到此分词被标注为各类军事命名实体标签的概率值，从而完成标注预测过程。其中，第i个分词标预测标注为标签的概率表示为：

p(ti=j|w1,w2,…,wn) =

softmax (MLP (biLSTM (x1∶n,i)))[k]

(3)

式(3)中：biLSTM (x1∶n,i)表示输入为x1∶n的双向长短期记忆网络的第i个输出；softmax (x)[k]表示向量x归一化处理后的第k维表示。

使用上述方法对每一个分词进行标签预测，得到向量ti，ti[k]表示ti的第k维度，表示第i个分词被标注为j标签的概率，即ti[k]=p(ti=j|w1,w2,…,wn)。同时，本文引入标签对(tag-tag)因子，对相邻标签之间的兼容性进行评分，将标签之间的影响反映到序列评分中。定义评分矩阵Α∈RK×K表示相邻标签之间的兼容性得分，其中K表示标签类别数目，在本模型中K=11。

(4)

式(4)中，规定位置0和n+1的标签是*START*、*END*。

2.3 线性CRF模块

经过标注预测模块，得到输入文本s的多个可能标注序列y=y1,y2,…,yn以及每个标注序列的评分score(s,y)。根据标注序列评分score(s,y)以及线性CRF(Conditional Random Field)[14]可以进一步为每一个标注序列赋予概率值，从而筛选概率最大的标注序列。参考Lample等[12]使用的概率CRF目标函数，为所有可能标注序列y=y1,y2,…,yn赋予概率，即：

(5)

式(5)中，y(s)表示文本s的所有可能标注序列集合。

模型的损失函数可以定义为标记序列的负对数似然函数，即：

(6)

通过线性CRF模块，输出概率最大的一组标注序列为：

(7)

并根据标注序列提取文本中的军事实体。

3 实验与结果分析

3.1 实验过程设计

整个实验过程包括文本向量化、Bi-LSTM编码、标注序列预测、军事实体提取四个阶段。以文本“结合导弹技术单位上报，拟申请通用拖车4辆”为例。在文本向量化阶段，使用jieba分词工具进行原始文本分词，并根据军事本体、词向量字典W、字典C获取本体特征向量、词向量、字向量，并拼接成整个文本向量；在Bi-LSTM编码阶段，将文本向量输入到Bi-LSTM模型中进一步提取文本向量特征；在标注序列预测阶段，根据文本向量特征为每个分词预测标签，得到可能的标注预测如下(预测标签位于每个词后)：

标注预测1：结合(O)导弹(B_ORG)技术单位(I_ORG)上报(O)，拟(O)申请(O)通用(B_EQU)拖车(I_EQU)4辆(O)。

标注预测2：结合(O)导弹(B_EQU)技术单位(I_ORG)上报(O)，拟(O)申请(O)通用(O)拖车(B_EQU)4辆(O)。

标注预测3：结合(O)导弹(B_EQU)技术单位(B_ORG)上报(O)，拟(O)申请(O)通用(B_OUT)拖车(I_OUT)4辆(O)。

根据概率CRF目标函数，得到正确概率最大的标注序列为第1组。在军事实体提取阶段，根据标注序列提取其中的军事实体，其中“导弹技术单位”为军事保障机构实体，“通用拖车”为军事保障设备实体。

本实验使用的军事文本语料来源于军事装备全生命周期运转过程中产生的真实文本，通过机器标注与人工校验结合的方式构建，包含战斗文书、执勤文书、军用文书分词总计 218 941个。其中标记实体包括军械人员、军械保障机构、军械保障设备、军械保障设施、军械装备5类，标记方式采用BIO方式，并在语料中加入本体特征标记。实验随机抽取80%作为训练语料，其余20%作为测试语料。

为验证本体特征向量在军事实体识别方面的作用，实验1、实验2、实验3分别采用词向量、字词向量、字词向量+本体特征三种向量输入方式进行测试。实验指标采用准确率P、召回率R、F1值F三项。

3.2 模型参数设置

在本实验中，Bi-RNN模型隐藏层数目设置为1，隐藏层神经元数目设置为100；Bi-LSTM模型隐藏层数目设置为3，隐藏层神经元数目分别设置为100、200、200。词向量维度设置为100维，模型单次输入序列长度设置为20。神经网络模型训练采用小批量随机梯度下降算法，批量样本数为20，样本总迭代轮次设置为100，训练过程采用Adam优化器，dropout设置为0.5，学习率设置为0.001。

3.3 实验结果与分析

对词向量、字词向量、字词向量+本体特征3组实验进行准确率、召回率、F1值统计，结果如表3所示。

表3 军事命名实体识别实验结果

实验1仅仅采用词向量作为模型输入，在军事命名实体识别方面准确率、召回率、F1值仅为81.95%、81.83%、81.89%，效果较差，达不到命名实体识别的一般效果，说明传统的命名实体识别方法仅采用词向量作为输入，不能有效解决军事领域的命名实体识别问题。

实验2采用字词向量结合的方式，在军事命名实体识别方面准确率、召回率、F1值分别为85.93%、84.28%、85.10%。相比于实验1，实验2中加入字向量的输入，准确率、召回率、F1值分别提高了3.98%、2.45%、3.21%，说明字向量的输入，有利于模型对分词内部形态学特征的获取，在一定程度上解决了军事领域分词不准确以及未登录词对命名实体识别的影响，提高了识别的性能。

实验3采用字词向量+本体特征的方式，在军事命名实体识别方面准确率、召回率、F1值分别为91.08%、90.64%、90.85%，能够达到与通用领域命名实体识别相当的水平。相比实验2，实验3中加入本体特征作为领域知识指导军事命名实体识别，准确率、召回率、F1值分别提高了5.15%、6.36%、5.75%，说明本体特征的加入，在模型中引入了军事领域知识，能够大幅提高对命名实体的识别能力。

为了进一步说明本体特征对军事命名实体识别的影响，分别统计3组实验下的军事人员、军事保障机构、军事保障设备、军事保障设施、军事装备5类命名实体的F1值，结果如图2所示曲线。

根据图2可以直观得出，与实验1、实验2相比，实验3中加入本体特征，使得5类军事命名实体的F1值均有所提升。尤其是军事保障设备、军事保障设施、军事装备3类易混淆命名实体识别的F1值提高幅度最为明显，分别达到91.13%、89.74%、91.46%，相比实验2分别提高了8.37%、7.21%、8.17%，相比实验1分别提高了10.70%、9.12%、9.97%。说明加入本体特征作为领域知识，有利于提高军事实体识别的准确率，从而进一步说明了本体特征对军事命名实体识别的提高具有重要作用。

图2 各类军事实体的F1值曲线

4 结论

1) 融合本体特征的Bi-LSTM-CRF军事实体识别模型，将本体特征作为领域知识融入到文本向量中，补足了传统的命名实体识别方法领域知识不足的缺陷，并在向量输入模块中用字向量描述词语的内部形态学特征。

2) 字向量的加入，能够解决分词不准确以及未登录词问题，提高军事命名实体识别的性能。

3) 加入本体特征，能够显著提高军事实体，尤其是保障设备、军事保障设施、军事装备3类易混淆命名实体识别的效果，使军事命名实体识别效果达到通用领域水平。