融合多类型特征的特定领域实体识别研究

2019-11-12 05:02:02雷树杰邢富坤王闻慧
计算机应用与软件 2019年11期
关键词:对模型特征向量句法

雷树杰 邢富坤 王闻慧

1(战略支援部队信息工程大学洛阳校区 河南 洛阳 471003)2(青岛大学外语学院 山东 青岛 266000)

0 引 言

命名实体识别(Named Entity Recognition,NER)是自然语言处理的一项基础性任务,可以为关系抽取(Relation Extraction)、机器翻译(Machine Translation)、自动文摘(Automatic Summarization)等更复杂的自然语言处理任务提供支持。在军事领域的信息处理中,军事类命名实体的识别同样起着基础性的作用,武器装备名就是非常重要的军事类命名实体。

对于传统统计模型而言,命名实体识别任务的完成需要相应的特征输入,从词形、词性、句法特征等一般语言学特征到由领域专家总结出来的领域特征,都在命名实体识别任务中发挥着重大作用。随着深度学习的出现,机器可以自己从大规模数据集中学习到抽象特征并在该抽象特征的支持下完成命名实体识别任务,进而可以一定程度上摆脱专家特征(通用特征+领域特征),其中应用最广泛的就是词向量[1]。在深度学习框架下,研究者的主要研究内容也转到对深度学习模型本身的研究和应用上来,而对专家特征的研究和应用不再是提升模型识别效果的主要方法。为此,本文主要探讨在深度学习框架下不同专家特征的有效性、必要性以及在模型中呈现出的不同特点。

本文以英文武器装备名识别为任务,对比模型在加入多类型专家特征前后的表现,探索了专家特征在深度学习框架下的效果。通过设计多种指标对多类型特征在语料中的分布进行定量统计并在不同语料规模下进行实验,揭示了多类型专家特征在分布上的异同点并分析了这些异同点对模型识别效果的影响。

1 相关工作

在研究领域上,命名实体识别任务主要受到了如CoNLL(Conference on Computational Natural Language Learning)等评测会议的影响,这使得现有的命名实体识别研究主要集中在对人名、地名、组织机构名、时间表达式等通用命名实体的识别上,缺乏对领域实体的识别研究。

在研究内容上,命名实体识别方法经历了从早期的规则识别方法,到后来传统的统计识别方法,再到近些年的深度学习方法的转变,而对命名实体识别的效果也得到了逐步提升。文献[2]采用自助取样方法(Bootstrapping Method),通过对统计模型识别出的时间表达式进行迭代、拓展和筛选,在识别准确率和召回率上都取得很大的提升;文献[3]利用支持向量机(Support Vector Machine,SVM)来对命名实体进行识别,该方法将词向量融入模型,获得了很好的效果;文献[4]采用长短时记忆网络(Bidirectional Long-Short-Term Memory,Bi-LSTM)与条件随机场(Conditional Random Fields,CRF)的联合模型对社交媒体上的命名实体进行识别,该模型采用预训练的词向量、基于字符的词向量和句法特征向量作为模型输入,有效克服了社交媒体信息噪音多、句子过短的不利因素;文献[5]提出了循环神经网络(Recurrent Neural Network,Parallel RNN)的概念,该方法通过将一个LSTM单元分成多个更小的LSTM单元,使得网络由全连接网络为局部连接网络,从而减少整个神经网络架构的参数数目并提升训练效率。实验结果表明,该方法能够在减少模型规模的基础上达到与目前最好的模型相当的识别效果。中文命名实体研究方面,文献[6]在中文上训练了基于字的词向量,并与基于上下文的词向量一起作为神经网络模型的输入,得到了优于SVM模型和CRF模型的识别效果。

综合分析,目前命名实体识别任务的开展主要采用深度学习的方法,研究重点也集中在对模型本身架构的优化和参数的调整上,对专家特征(通用特征+领域特征)所能起到的作用不足。为此,本文将多类型特征加入到了模型当中,通过对多类型专家特征在语料中的分布特点进行定量统计,以分析不同类型的专家特征对模型识别效果的影响,从而论证专家特征在深度学习框架下的有效性和必要性并揭示影响专家特征对模型支持效率的关键因素。

2 Bi-LSTM+CRF模型

Bi-LSTM+CRF模型在2015年被正式提出后[7],广泛应用于线性序列标注任务中。Bi-LSTM+CRF模型整体上由输入层,双向LSTM层,输出层和CRF层组成,模型的整体架构如图1所示。

图1 模型整体框架

LSTM是RNN的一种变体,其在RNN模型的基础上增加了记忆单元和门限机制,从而可以一定程度上避免梯度弥散和梯度爆炸问题,并在处理长序依赖问题上有着出色的表现。一个LSTM单元的架构如图2所示。Bi-LSTM模型则采用了正序与反序两个方向的LSTM网络,从而可以将正反两个序列方向上的信息考虑进来,更好地处理线性序列标注问题。

通过在Bi-LSTM模块之上增加CRF层来接受Bi-LSTM模型的输出,可以弥补Bi-LSTM模型在线性序列标注任务上没有考虑输出值之间转移概率的缺陷,以此来提高模型在命名实体识别任务中的性能。

3 多类型专家特征及对比

专家特征可以分为通用特征和领域特征。其中通用特征是指在任何领域都存在的特征,如词性、句法特征等普通语言学特征,领域特征则是指某一领域特有的特征,如英文武器装备名的构造特征就是一种领域特征,其只存在于英文武器装备名这一领域实体当中。

3.1 英文武器装备名构造特征与获取

英文武器装备名内部构成成分类型有限,具有很强的领域特征。雷树杰等[8]在2019年对英文武器装备名的内部构造模式和特征做了专门研究。根据其研究成果,英文武器装备名可以用两层体系来描述:第一层是对武器装备名的总体性描述;第二层是对各总体性描述要素的具体划分。第一层分类将武器装备名分为型号(A)、别称(N)、描述(P)和缩写(R)四类。第二层分类将第一层分类中的型号(A)做进一步区分,区分为系列E和具体型号V;第二层分类对第一层分类中的描述(P)也做了具体区分,如表1所示。

依据英文武器装备名内部构成成分的分类体系,本文对来自维基百科词条的6 402条英文武器装备名的内部构成进行人工特征标注,并构造了规模为8 714的武器装备名领域特征集,部分内容如表2所示。表中第一列是武器装备名构成成分,第二列是该成分所属构成类型。该特征集作为领域知识参与到对武器装备名的识别当中。

表2 领域特征集

3.2 词性、句法特征与获取

词性是一个语言学术语,其以句法特征为主要依据、兼顾词汇意义对一种自然语言中的词进行分类,词性能够一定程度上反映一个词在句子中的句法作用和含义。由此可见,与英文武器装备名的构造特征不同,词性是一种通用特征,在一种自然语言中任何领域的文本中都会出现。本文使用宾州树库的词性标注集作为模型使用的词性特征集。

句法以句子为研究单位,分析句子的组成成分及它们之间的排列顺序。不同流派对句法有着不同的看法,本文则选择了依存句法作为模型用句法特征。依存句法由法国语言学家L.Tesniere提出,其指出了句子各个词汇之间的依存关系,从而将一个句子分析为一棵依存句法树。与词性一样,依存句法特征也是一种普通语言学特征,是一种通用特征,存在于一种自然语言的各个领域当中。本文使用宾州树库的依存句法标注体系作为模型使用的依存句法特征集。

命名实体在文本中一般属于名词性成分,这使得命名实体内部组成成分的词性与承担的句法成分较为有限。从理论上分析,词性与句法特征可以为武器装备名识别提供帮助,这是本文选择词性与句法特征作为模型所用通用特征的依据所在。

本文通过斯坦福大学的斯坦福词性标注器来获取语料中每一个词所对应的词性,并通过斯坦福句法分析器[9]获取语料中每个词汇相对应的依存句法特征。

3.3 特征向量获取与使用

本文采取预训练的词向量和特征向量作为神经网络模型的输入,并使用Python的开源工具包Gensim对词向量和特征向量进行训练。

word2vec[1]是神经概率语言模型(Neural Probabilistic Language Model)的一种实现,其中包含了CBOW与Skip-gram两种模型。word2vec可以在构建神经概率语言模型的同时得到词的嵌入式表示(Word Embedding)。其中,CBOW模型是通过上下文来预测当前词,而Skip-gram则是通过当前词来预测上下文。来斯惟[9]在2016年证明:当用于训练词向量的语料规模达到百兆级时,CBOW模型要好于Skip-gram模型。本文用于训练词向量的语料来自于维基百科,其规模超过了600 MB,为此,采取CBOW模型来训练词向量。

特征向量方面,本文共选取了词性、句法信息和英文武器装备名的构造特征共三种类型的特征。其中词性特征通过Stanford POS Tagger获取,句法特征通过Stanford Parser[10]获取,英文武器装备名的构造特征则通过本文前期构造的英文武器装备名构造特征集获取。通过将训练词向量的维基百科语料转化为相对应的词性语料、句法特征语料、英文武器装备名构造特征语料,并使用word2vec来进行训练,本文得到了词性特征向量,句法特征向量与领域特征向量。

通过将预训练的词向量与特征向量首尾相连,形成联合向量作为神经网络的输入。本文的输入层结构如图3所示。

图3 模型的输入层:词向量+特征向量

4 实验设计与结果分析

4.1 实验语料与标注集

本文收集了美国国防部网站2017年度110篇新闻报道与美国2018年武器装备采购书中的部分文本共120篇语料作为待标注语料,并对其中的武器装备名进行了人工标注与校对。本文选取其中90篇作为训练语料,30篇作为测试语料。

本文采用了BIO标注集。其中,“B-MILEQP”表示一个英文武器装备名的起始部分,“I-MILIQP”表示英文武器装备名的非起始部分,“O”表示非英文武器装备名成分。只有将一个武器装备名的各部分全部识别出且边界界定正确才视为模型成功识别该武器装备名。

4.2 评测标准

为了全面评价模型在对多类型特征利用方面的异同点,本文设计了六个评价指标来评价模型的识别效果,如表3所示。

表3 评价指标

其中:整体标注的正确率Pw用来评价模型对整体文本的标注情况;武器装备名识别的准确率Pm与召回率Rm用来评价模型对武器装备名的识别情况;F值则用来综合评价模型对武器装备名的识别情况;为了排除模型对某一特定武器装备名多次识别成功或失败所造成的对总体评价指标的影响,本文设置了武器装备名type识别的召回率Rtype这一指标,在这一指标下,对同一武器装备名的多次识别成功只计算一次;而未登录词识别的召回率Ruk则用来评价模型对未登录词的泛化能力。

4.3 实验设计

为了验证专家特征(通用特征+领域特征)在深度学习框架下的有效性和必要性,本文分别将词性特征、依存句法特征与领域特征加入到了神经网络当中,对在各特征支持下英文武器装备名的识别效果进行了实验。

为了探究语料规模对不同专家特征的影响,本文将训练语料依次减为80篇、70篇、60篇,并在同一测试集上进行测试,从而更好地揭示不同专家特征对Bi-LSTM+CRF模型产生不同支持作用的背后原因。

4.4 实验结果

在90篇训练语料上,Bi-LSTM+CRF模型分别在词性特征、依存句法特征与领域特征支持下的实验结果如表4所示。

表4 多类型特征加入Bi-LSTM+CRF模型中的识别结果(90篇训练语料)

从表4可以看出,在加入领域特征向量后,模型对武器装备名的识别效果得到了很大的提升,其中在整体标注准确率上提升了0.85%,对武器装备名的识别准确率提升了9.1%,召回率提升了9.57%,从而在对武器装备名识别的F值上提升了9.5%。随着领域特征的加入,对未登录武器装备名的识别提升了8.19%,这表明领域特征增强了模型的泛化能力,使得通过词向量识别不出的未登录武器装备名在领域特征的帮助下成功地被识别了出来。这样的例子有“P-8A”,“Bradley fighting vehicles”等。同时,模型的约束能力也得到增强,仅使用词向量会错误识别为武器装备名的一些非武器装备名也在领域特征向量的帮助下没有被错误识别出,如“stealthy”等。这表明,在深度学习框架下,领域特征的作用依然非常突出,其依然具有不可替代的作用。

在加入词性特征向量后,与只使用词向量相比,模型对武器装备名的识别效果得到了提升,其中整体识别准确率提升了0.23%,武器装备名识别的F值提升了0.97%,对武器装备名类型的召回率提升了0.6%,对未登录武器装备名识别的召回率提升了1.79%。这些数据表明,在加入词性特征后,模型的泛化能力得到增强,词性特征在深度学习框架下仍有其价值。

在加入句法特征向量后,相对于只使用词向量,模型的识别效果产生了下降,其中在整体识别准确率上下降了0.5%。武器装备名识别准确率与召回率都产生了下降,使得武器装备名识别的F值下降了9.9%。而武器装备名类型的召回率与未登录武器装备名召回率分别下降了7.24%与9.27%。这表明,在加入句法特征后,模型对武器装备名的识别效果产生了下降。然而,考虑到词性特征、领域特征对模型识别效果的提升作用,不能就此否认专家特征或通用特征在深度学习框架下的有效性和必要性,而应该从特征本身的层面去分析导致词性与句法特征在深度学习框架下产生不同效果的原因,以更好地指导模型和特征的使用。

为了探究造成上述结果的原因,本文将训练语料规模依次减少为80篇、70篇、60篇。在不同语料规模下,Bi-LSTM+CRF模型在不同特征支持下的识别结果分别如表5、表6、表7所示。

表5 多类型特征加入Bi-LSTM+CRF模型中的识别结果(80篇训练语料)

表6 多类型特征加入Bi-LSTM+CRF模型中的识别结果(70篇训练语料)

表7 多类型特征加入Bi-LSTM+CRF模型中的识别结果(60篇训练语料)

对比表5、表6、表7可以看出,随着语料规模的减少,模型在不同特征支持下的识别效果逐步下降,这显示了语料规模在Bi-LSTM+CRF模型中的重要性。此外,有一个非常值得注意的现象是,随着训练语料规模减少至80篇、70篇、60篇,以词向量加词性向量为输入的模型的识别效果开始低于以词向量为输入的模型的识别效果。这意味着,随着语料规模的下降,词性特征开始干扰模型对武器装备名的识别,这一点与表4中句法特征表现出的识别效果相一致。但词性特征与句法特征表现出的对模型识别效果的反向作用在领域特征上没有出现,随着语料规模的减少,领域特征仍然表现出对模型识别效果的正向作用。

综上所述,要使专家特征对模型的识别产生正向作用,单靠相应的特征向量还不够,特征向量需要与之相对应的语料规模才能对模型产生正向作用。

4.5 特征分布与实验结果分析

随着语料规模的减少,在加入不同类型专家特征后,Bi-LSTM+CRF模型表现出了不同的识别效果,在训练语料、测试语料、预训练词向量与所用模型都相同的情况下,这只能是特征本身造成的。对于机器而言,不同的特征只是符号形式上的不同,对模型真正造成影响的是隐藏在特征符号形式背后的特征分布特点。因此,本文对词形、词性、句法特征与武器装备名领域特征在测试与训练语料中的分布进行了统计,并以此为依据分析造成4.4中识别结果的原因。

4.5.1评价指标

词性、依存句法特征与英文武器装备名的构造特征是三种类型的特征,其在语料中的分布特点也各不相同,而这种分布上的不同很大程度上影响了该特征对模型的支持效果。为了定量地描述多类型特征分布上的不同,本文设计了四个评价指标,如表8所示。

表8 特征分布评价指标

表中,特征覆盖率Cf用于描述特征在语料中的稠密程度;特征准确率Pf与特征召回率Rf用于评价语料中特征的领域性,即特征对武器装备名的判断能力,其中特征准确率Pf可以评价特征内武器装备名的集中程度,特征召回率Rf可以评价语料中武器装备名内特征的集中程度;特征F值Ff则用于综合评价语料中武器装备名与该特征类型的关联程度,即该特征的领域性。

4.5.2统计结果与分析

本文对训练语料与测试语料中三种类型的专家特征的分布情况进行了统计调查,统计结果如表9所示。

表9 不同类型特征在语料中分布情况统计

从表9中可以看出,在特征覆盖率Cf这一指标上,词性特征与句法特征的特征覆盖率都为100%,而英文武器装备名构造特征的特征覆盖率只有29.78%。这显示领域特征在文本中的分布较为稀疏,并不是所有词汇都有其对应的领域特征,这是领域特征与通用特征的重要区别点。从特征分布的稠密程度上可以解释领域特征对模型的提升效果要强于通用特征的现象,其分布更为稀疏,特征性更为明显。

在特征准确率Pf与特征召回率Rf两个指标上,词性特征与句法特征的表现一致,都表现为在特征召回率Rf上达到了100%,即所有武器装备名都拥有相应的通用特征,而在特征准确率Pf上的指标却很低,只有6.52%,即在拥有该特征的所有词汇中,武器装备名的占比很低,这是由于通用特征在语料中的全分布所导致的。而英文武器装备名构造特征在这两个指标上显示出不同于词性、句法特征的特点,其在特征召回率Rf上达到了93.32%,这表明,绝大部分武器装备名都拥有相应的领域特征,在特征准确率Pf上的指标也较高,达到了20.44%,即在拥有英文武器装备名构造特征的词汇中,有20.44%的词汇属于武器装备名称。综合两个指标,从特征F值Ff上看,英文武器装备名构造特征要高出词性与句法特征21.29%。从上述统计指标上看,相对于通用特征,英文武器装备名构造特征的领域性要强很多,其与武器装备名这个领域实体的关联程度也要较通用特征高很多,具体表现为有相应领域特征的武器装备名占比高,而在有相应领域特征的词汇内,武器装备名占比高。从这三个指标上也可以解释领域特征对模型的支持作用要高于通用特征的现象。

从特征类别覆盖率Ct来看,词性特征为54.84%,即54.84%的词性类别在英文武器装备名中出现过;句法特征为61.30%,即61.30%的句法特征类别在英文武器装备名中出现过。而作为通用特征,有更多比例的句法特征类别在武器装备名中出现,这表明句法特征比词性特征在武器装备名中的分布更为分散。

此外,特征的不同也反映在不同特征与词形之间的具体组合类型数目上。对于神经网络而言,不同特征与词形之间的具体组合类型数目决定了模型输入向量的种类数。从模型的角度讲,模型输入向量的种类数越多,模型就需要越多的语料来进行模型的参数训练。在模型输入向量种类数增多,而语料规模不变的情况下,模型就有可能出现欠拟合现象。本文在不同特征组合下,具体组合类型的数目如表10所示。

表10 不同特征组合的具体组合类型数目

可以看出,在词形特征与句法特征组合下,具体组合类型数目比词形特征多出了87.86%;在词形特征与词性特征组合下,具体组合类型数目比词形特征多出了26.27%;而在词形特征与领域特征组合下,具体组合类型数目相较于词形特征保持不变。这一方面反映了句法特征比词性特征在语料中的分布更为分散,另一方面也可以验证4.4中的实验结果。

本文实验是在小规模语料库下进行的,因此对于句法特征而言,随着句法特征向量的加入,模型输入向量的种类数也提升了87.86%,因此也需要更多的语料来进行模型训练。受限于语料规模,在词向量加句法特征向量的支持下,Bi-LSTM+CRF模型不能很好地收敛,从而使得句法特征向量产生了干扰模型识别效果的现象。对于词性特征而言,随着词性特征的加入,模型输入向量的种类增加了26.27%。由表4可知,在90篇语料上,词性向量显示出了对模型识别效果的正向作用,但随着语料规模减少到80篇、70篇、60篇,词向量加词性向量的识别效果开始低于词向量的识别效果,词性向量对武器装备名的识别产生反向作用。这是由于语料规模减少造成词向量与词性向量组成的联合向量种类数的相对增加,从而使得Bi-LSTM+CRF模型不能很好的收敛,产生了干扰识别的情况。由于句法特征造成模型输入向量种类的增加要远远大于词性,因此句法特征对模型产生正向作用所需要的语料规模也要远远大于词性特征。除此之外,造成句法特征向量对模型产生干扰的另一个重要原因是,目前句法分析的准确率相对于词性标注而言要低很多,句法特征没有得到正确分析也是造成即使在90篇语料下,句法特征对模型依然产生反向作用的重要原因。

不同于词性特征与句法特征,本文的领域特征对模型输入向量的种类数目没有产生影响,因此即使语料规模在不断减少,由于领域特征向量给模型带来了词向量不包含的新信息,模型的识别效果依然得到了提升。

5 结 语

本文以英文武器装备名识别为任务,使用Bi-LSTM+CRF模型,在深度学习框架下对词性、句法特征与英文武器装备名构造特征对模型的有效性和必要性进行了实证研究。通过定量统计上述专家特征在语料中的分布并在不同语料规模下进行实验,比较了不同专家特征在语料中分布的异同点以及讨论分析了这些异同点对深度学习框架下模型识别效果的影响。通过实验,本文总结了几点结论:(1) 在深度学习框架下,普通语言学特征与领域特征对提升模型识别效果有正向作用,其有存在的必要性与有效性。(2) 对于特定领域的任务而言,在深度学习框架下,领域特征对模型的提升作用强于普通语言学特征,领域特征研究仍然必不可少。(3) 词性特征、句法特征与领域特征在语料中有着不同的分布特点,不同的分布特点决定了其对模型的作用效果不同。领域特征由于其分布上的集中性,对模型提升作用最大,而句法特征与词性特征的分布则较为分散,且这两种特征对模型产生正向作用对语料规模有要求。句法特征对语料规模的要求要高于词性特征。

本文不仅有助于研究者更好地了解深度学习模型,而且对不同特征在深度学习框架下对模型支持效果的不同特点进行了探索。此外,本文还可以为研究者如何根据任务的不同来评价特征与选择特征提供参考,具有很强的实践意义。

猜你喜欢
对模型特征向量句法
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
句法与句意(外一篇)
中华诗词(2021年3期)2021-12-31 08:07:22
述谓结构与英语句法配置
光源对模型贴图的影响——3种人造光源在三维数字化采集中的应用
广州文博(2020年0期)2020-06-09 05:15:44
句法二题
中华诗词(2018年3期)2018-08-01 06:40:40
一类特殊矩阵特征向量的求法
诗词联句句法梳理
中华诗词(2018年11期)2018-03-26 06:41:32
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
中华建设(2017年1期)2017-06-07 02:56:14
蒙药特润舒都乐对模型小鼠脾脏NK细胞活性的影响
兽医导刊(2016年6期)2016-05-17 03:50:15