郭旭超 郝 霞 姚晓闯 李 林
(1.中国农业大学信息与电气工程学院, 北京 100083; 2.山东农业大学信息科学与工程学院, 泰安 271018;3.中国农业大学土地科学与技术学院, 北京 100083)
意图识别与槽位填充是自然语言理解的两大核心子任务[1],是进行知识问答的前提。前者一般可被视为句子级的文本分类任务,旨在将给定问句划分为预先设定好的意图类别;而后者可被视为字符级序列标注任务,即将长度为n的问句序列X=[x1x2…xn]标记为槽位标签序列Y=[y1y2…yn][2]。以问句“水稻恶苗病的俗称叫什么?”为例,本文旨在通过上述任务分别识别出该问句的语义槽“水稻恶苗病”和意图“别称”,从而构成三元组(水稻恶苗病,别称,?),其中“?”表示根据语义槽(头实体)“水稻恶苗病”和意图(关系)“别称”从知识图谱中查找并反馈给用户的答案(尾实体)。由此可见,意图识别与槽位填充任务是正确解析问句语义的关键,在基于知识图谱的农业病虫害问答系统中发挥重要作用。
目前,针对意图识别与槽位填充的方法总体上可分为流水线方法和联合抽取方法。流水线方法将意图识别与槽位填充分别进行建模[3-8]。而目前农业病虫害领域主要采用流水线方法实现意图识别和槽位填充任务[9-12]。此类方法容易导致错误传播问题,并且容易忽略两者之间的相关性。
为此,近年来提出许多基于深度学习的联合抽取方法,此类方法能够对上述任务进行联合建模,可进一步细分为参数共享、单向关联和双向关联模型[13]。参数共享模型采用共享参数隐式地学习意图识别与槽位填充任务之间的相关性[14]。例如,一些学者分别将门控循环网络(Gated recurrent unit, GRU)、注意力机制、RNN以及BERT相结合,提出了多种面向意图识别与槽位填充的隐式联合抽取模型[15-17]。虽然上述方法的整体识别性能相对于流水线方法有所提升,但仅通过联合优化损失函数隐式地利用两者之间的相关性,可解释性较弱[13]。
单向关联模型采用意图或槽位信息显式地指导槽位填充/意图识别任务。例如文献[18]提出了一种语义槽门控机制(Slot-gated mechanism,Slot-Gated),建立了意图上下文语义信息到槽位填充任务的单向关联,从而提高了模型整体性能。文献[19]提出了一种结合单词级意图标签的栈式传播框架(StackPropagation),该框架直接利用意图信息作为槽位填充任务的输入,以便获取意图语义知识。此外,该模型还为栈式传播框架执行了字符级意图识别机制以进一步缓解错误传播问题。文献[20]在文献[17]基础上通过引入意图-槽位注意力机制,提出了JointIDSF模型,该模型通过“软”意图标签嵌入显式地将意图上下文信息集成到槽位填充任务中。在面向越南语的PhoATIS数据集上全局F1值达到86.25%,比JointBERT+CRF提升0.7个百分点。
双向关联模型旨在对两任务之间的双向关联关系进行建模。例如,文献[21-22]在文献[18]基础上分别提出了两种基于双向门控机制的联合抽取模型DCNN-Gate和Biass-Gate,建立了意图识别与槽位填充之间的双向关联。文献[23]则提出了一种意图识别-槽位填充双向关联网络(Slot filling-intent detection, SF-ID),构建了两任务之间的直接关联,增强彼此交互能力,但需考虑任务顺序。为解决上述问题,文献[24]提出了一种协同互作Transformer机制,该机制同时考虑两任务之间的交叉影响,在ATIS和SNIPS数据集上分别取得87.4%和90.30%的整体识别精度。
农业病虫害领域的意图识别与槽位填充仍存在以下问题:该领域的意图识别与槽位填充研究仍处于初级阶段,因此还有任务相互独立、忽略彼此相关性等问题亟待解决;相应地,已有模型并未充分考虑意图嵌入表示信息,导致意图识别指导槽位填充任务能力有限;就数据而言,该领域公开可用的语料仍处于空白,直接增加了识别农业病虫害意图和语义槽的成本和难度。
因此,为了能更好地解决农业病虫害领域的意图识别与槽位填充问题,本文首先在领域专家指导下收集并标注首个面向农业病虫害的意图识别与槽位填充数据集,然后针对现有模型存在的问题提出一种基于意图嵌入表示和门控机制的意图识别与槽位填充联合模型AgIG-IDSF。
由于本文研究包含意图识别和槽位填充两个子任务,因此需要预先确定意图和槽位两种标签类型。对于槽位,在已有工作基础[25-26]上初步确定了虫害、病害、作物、药剂、病原、周期/时期、部位和品种等8种槽位类型。另外,为了确保完整性,本文还额外添加了“症状”和“其他”,最终确定了10种槽位类别;对于意图,本文在对收集语料进行分析基础上,结合文献[27]确定了病害、虫害、危害作物等21种常用意图。此外,考虑到数据集的完备性,本文同样设置了“其他”类别,用于表示与农业病虫害相关的其他未知意图,以便进一步细分。最终得到如表1所示的22种意图类别。
表1 意图类别Tab.1 Details of intent categories
本文所需语料主要来源于中国农技推广信息平台(http:∥njtg.nercita.org.cn/user/index.shtml)。由于用户来自全国各地,因此形成的问答语料更具普遍性和广泛性,更加适用于实际应用场景。鉴于此,本文在该平台上爬取了2019年4月21日至2021年5月15日之间的农业病虫害相关问答数据作为原始语料,通过解析、筛选和去噪等操作对语料进行了预处理,最终得到11 976条原始样本。
语料详细标注过程如图1所示。由图1可知,给定原始语料,标注对象包含槽位与意图两方面:前者表示参与问答的实体(即槽位),为了加快标注速度,对于所有待标注样本,本文首先采用文献[25]所提CNNs-BiLSTM-Attention模型预测每个字符的标签,然后通过人工校验和修正,得到最终的槽位标注序列;本文主要通过人工方式对每条样本的意图类别进行标注。最终得到完整标注结果。最终得到包含10个槽位类型、22个意图类别和11 976条训练样本的中文农业病虫害意图识别与槽位填充标注数据集(Intent selection and slot filling corpus for agricultural diseases and pests, AGIS)。为了使数据集的标签分布尽可能均匀,本文按照比例8∶1∶1采用分层抽样法对数据集进行划分,其中训练集、验证集、测试集样本数分别为9 576、1 199、1 199条。部分样本如表2所示。数据集各类意图与槽位数据分布如图2所示。
图1 意图识别与槽位填充语料标注过程Fig.1 Labeling process of corpus for intent detection and slot filling
表2 中文农业病虫害意图识别与槽位填充数据集样例Tab.2 Samples of intent detection and slot filling for Chinese agricultural diseases and pests
图2 AGIS数据集意图与槽位数据分布图Fig.2 Data distributions for intents and slots in AGIS
本节首先给出意图识别与槽位填充的形式化定义,然后描述本文所提模型AgIG-IDSF的实现细节。如图3所示,本文所提模型主要由共享编码模块、意图识别模块、意图-槽位交互模块以及槽位填充模块构成。
图3 AgIG-IDSF模型整体架构图Fig.3 Overall framework of AgIG-IDSF model
(1)
采用权重矩阵WQ、WK、WV∈Rn×d分别将嵌入表示E映射为维度为d的Q、K和V。然后基于
C=[H;A]
(2)
得到自注意力机制模块的输出A∈Rn×2d。
最后,通过级联操作将双向时序特征表示H和注意力上下文表示A在特征维度上进行拼接,得到最终的共享上下文语义C=[c1c2…cn]∈Rn×2d。
意图识别模块旨在将长度可变的嵌入表示序列C聚合为大小固定的意图上下文向量cI。因为注意力机制能够动态调整每个字符级向量的权重,进而实现动态聚合,缓解语义损失问题,因此本文选用注意力机制聚合文本序列的共享上下文语义C,其计算过程为
αi=softmax(Wci+b)
(3)
(4)
其中
式中W——可训练权重
ci——第i个字符的共享上下文语义
b——偏置
αi——第i个字符归一化权重,取0~1
cI——意图上下文语义表示向量,为n个字符的上下文语义表示的加权和
所有意图标签相对于问句X的概率分布为
pI=σ(WIcI+bI)
(5)
式中WI——可训练权重
bI——偏置m——意图标签数量
σ——激活函数,本文采用softmax
本文选择最大概率对应的意图标签作为最终预测的意图类别,即
(6)
采用交叉损失函数计算意图识别的损失LI,公式为
(7)
该模型主要用于对意图与槽位的相关性进行建模,使得槽位上下文表示中能够融合意图信息,从而实现意图信息指导槽位填充任务。与文献[18,22]采用意图上下文向量cI作为输入不同,本文从另一个角度出发,通过引入意图嵌入表示矩阵EI∈Rm×dI,采用意图标签概率分布中最大概率对应的意图嵌入表示向量eI∈RdI作为该模块的输入,其优点在于该向量中包含丰富的意图特征,这有助于提高意图指导槽位填充任务的能力,进而提高模型的性能。
相应地,为了充分利用意图嵌入表示向量和字符级上下文语义特征,对意图和槽位之间的关系进行建模,本文采用意图嵌入表示向量eI和共享上下文表示C作为门控机制的输入,用于生成联合权重向量g。g越大,说明意图与槽位的相关性越高,在槽位填充任务中越重要。g的计算公式为
g=∑vtanh(ci+WeI)
(8)
其中
v∈R2dW∈RdI×2d
式中v——可训练权重
本文采用条件随机场(CRF)[23-24]对相邻字符之间的槽位标签依赖进行建模,即
C′s=C+Cg
(9)
首先采用联合权重向量g对字符级上下文表示C进行加权求和,得到融合意图信息的槽位上下文语义C′s,最后采用全连接层进行两次变换,即
ps=Ws2(tanh(Ws1C′s+bs1))+bs2
(10)
其中Ws1∈R2d×dWs2∈Rd×tbs1∈Rdbs2∈Rt
式中Ws1、Ws2——可训练权重
bs1、bs2——偏置
得到最终的槽位上下文语义表示ps∈Rn×t。
(11)
则标签序列Os的条件概率为
(12)
本文通过最小化负似然对数来计算损失值。最后,本文采用维特比(Viterbi)算法对得分最高的标签序列进行解码,得到最终的预测标签
(13)
最后,对两任务进行联合优化,最终的目标函数定义为两损失函数的加权和
Loss=φLI+(1-φ)Ls
(14)
φ为加权因子,介于0~1之间,根据文献[19],本文将其设置为0.5。
本文选择第1节所构建的AGIS数据集作为基准数据集,以评价本文所提模型对农业病虫害意图识别与槽位填充任务的识别效果,同时在公共数据集ATIS和SNIPS上进行实验,以验证该模型的泛化性。其中,ATIS主要包含了航班、城市等6种航空旅行信息、21种意图类别、120种槽位类别和5 871条样本;而SNIPS涵盖了天气、餐厅和娱乐等多个领域,共包含7个意图类别、72个槽位类别和15 884条样本。根据文献[29],环境配置如表3所示。在超参数设置方面,根据模型调试结果,AGIS和SNIPS数据集上无需设置Dropout,而在ATIS数据集上对应的Dropout设置为0.1,以缓解过拟合问题。其他超参数设置如表4所示。除第3.3.5节外,对于中文数据集,所有模型均采用维度为300的预训练向量[30]作为初始的字符级嵌入表示;英文数据集则采用斯坦福大学(https:∥github.com/stanfordnlp/GloVe)预训练的词嵌入向量。
表3 实验环境配置Tab.3 Experimental configuration
表4 超参数设置Tab.4 Settings for hyper-parameters
为了定量评价本文所提模型的有效性,本文采用F1分数评价模型的槽位填充性能,采用准确率(Accuracy, Acc)评价模型的意图识别性能,同时采用句子级准确率评价模型整体识别性能,即意图和槽位标签均识别正确的问句占总样本的百分比。
为了充分说明本文所提模型的有效性,本文采用以下5种主流模型进行对比实验:①Slot-Gated[18]、②StackPropagation[19]、③SF-ID[23]、④DCA-NET[24]、⑤BiAss-Gate[22]。其中,①和②属于单向关联模型,③、④和⑤属于双向关联模型。此外,本文还引入了JointBERT[17]、JointIDSF[20],以深入探究本文所提模型在采用BERT预训练模型时的性能。
3.3.1实验结果
图4给出了各模型在AGIS数据集上的实验结果。与其他对比模型相比,本文所提模型无论在槽位填充和意图识别单任务上还是在整体识别精度上均得到较大提升,这一方面是因为AgIG-IDSF模型采用注意力机制有助于丰富上下文语义特征,另一方面是因为所引入意图嵌入表示包含丰富的意图信息,有助于提高指导槽位填充任务的能力(详情可参考3.3.3节)。虽然Slot-Gated模型同样利用门控机制指导槽位填充任务,但由于对意图嵌入表示信息的获取能力有限,导致在AGIS数据集上的性能不如其他模型。虽然StackPropagation采用字符级意图标签投票机制在一定程度上缓解了错误传播问题,但同样无法充分利用意图嵌入表示信息,导致对槽位填充任务的指导能力有限,因此限制了模型性能。SF-ID虽然能够在一定程度上利用意图识别与槽位填充两任务之间的互作关系,但需考虑建模顺序,导致上述模型的识别结果稍低。主要表现为该模型的整体识别精度与AgIG-IDSF模型相差1.84个百分点。而BiAss-Gate进一步改进了Slot-Gated模型,具备双向关联能力,使得整体识别精度进一步提高,达到87.82%。DCA-NET是近几年提出的较先进的双向关联模型,该模型所提的协同Transformer包含两个彼此交互的注意力机制,打破了交互顺序限制,显式地建立了彼此的双向关联。因此在AGIS集上取得优于其他对比模型的识别结果。而本文所提模型槽位填充F1值和全局识别精度更高,相较于DCA-NET分别提高0.24、0.16个百分点。因此,上述实验结果不仅表明了本文所提模型在农业病虫害意图识别与槽位填充任务上的有效性,而且其性能优于双向关联模型。
图4 各模型在AGIS数据集上的实验结果Fig.4 Experimental results for each model on AGIS
为了进一步说明本文所提模型的识别细节,如图5所示,本文以AGIS数据集为例,分别统计了AgIG-IDSF、DCA-NET、BiAss-Gate、StackPropagation、SF-ID和Slot-Gated对该数据集各类意图和槽位的识别详情。由图5a可知,对每类意图,所有模型在防治方法、病害和防治药剂等意图类别上的识别精度普遍较高,这是因为上述意图类别样本占比较大,训练相对充分。而由于简介、分布区域和别名等意图类别样本量少,导致各模型在上述意图上的识别精度普遍偏低。此外,通过对预测结果进行统计后发现,诸如“危害时期”意图与“虫态/周期”意图容易在上下文语义上混淆,因此降低了彼此的识别精度。而本文所提模型不仅能够有效识别那些较易识别的意图,而且进一步提高了别名、简介和防治时期等较难识别意图的精度。例如,相较于基准模型DAC-NET,本文所提模型针对上述意图的准确率分别提高9.09、24.24、5.79个百分点。对每类槽位,如图5b所示,本文所提模型不仅能够有效识别病害、作物和药剂等常见槽位类型,而且对症状等难以识别槽位类型仍保持有较高的识别性能,例如相较于DCA-NET,其F1值提高7.5个百分点,这得益于本文所提的融合意图嵌入表示的门控机制能够使槽位上下文语义表示充分融合意图信息进而提高模型的槽位填充性能。
图5 各模型对AGIS各类意图和槽位识别细节Fig.5 Detailed results of intents and slots on AGIS
其次,如图6所示,本文同样以AGIS数据集为例,可视化了AgIG-IDSF、DCA-NET、BiAss-Gate、StackPropagation、SF-ID和Slot-Gated模型的意图分类混淆矩阵。由图可知,大多数预测意图分布于对角线上,表现出对各类意图识别的有效性。此外,部分模型将“其他”意图归类为危害时期、防治时期和防治药剂等,对预测结果进行分析后认为包含“其他”意图的问句语义容易与包含上述意图的样本语义混淆,导致识别错误;相反,各模型在属科、别名和发病规律/条件等意图类别上错误预测数量较少,这是因为包含上述意图的问句具有明显的语义特征。比如问句“小麦赤霉病的发病规律是什么?小麦赤霉病还有其他名称吗?”,模型很容易将其意图分别识别为“发病规律/条件”和“别称”。而与大多数模型相比,本文所提模型在多数意图类别上取得较高的识别精度,虽然略逊于DCA-NET模型,但由图4可知,本文所提模型的整体识别精度优于DCA-NET模型。
图6 各模型对AGIS意图识别混淆矩阵Fig.6 Confusion matrixes for each model on AGIS
3.3.2泛化性分析
为了进一步探究本文所提模型的泛化性,将AgIG-IDSF模型及对比模型在ATIS和SNIPS两种公共数据集上进行了对比实验。如表5所示,本文所提模型在ATIS和SNIPS数据集上取得最大整体识别精度,分别为87.57%和90.43%,高出BiAss-Gate模型0.34、0.14个百分点,表现出最优性能。而其他模型性能则呈现出不同程度的差异性。比如在SNIPS数据集上,Slot-Gated模型的槽位填充F1分数、意图识别准确度和整体识别精度分别与AgIG-IDSF模型的相应值相差1.41、5.11、8.23个百分点,可能的原因有:中英文不同语言本身差异性;垂直领域语料的专业性;由于缺乏充足的意图嵌入表示信息,槽位上下文语义融合意图信息存在限制。虽然StackPropagation模型的意图标签投票机制在一定程度上缓解了上述问题,但仍然存在意图特征缺失问题[24,31],其识别精确度比AgIG-IDSF略低。另外,由实验结果可知AgIG-IDSF在两种数据集上的性能明显优于双向关联模型DCA-NET。因此,上述实验结果不仅再次表明了该模型优于双向关联模型,而且还验证了该模型还具有一定泛化能力和稳定性。
表5 各模型在ATIS和SNIPS数据集上的识别结果Tab.5 Experimental results for each model on ATIS and SNIPS %
3.3.3消融实验
为验证本文所提模型各模块的有效性,本文以AgIG-IDSF为基准模型设置了4个对照组,分别以AGIS、ATIS和SNIPS数据集进行实验,结果如表6所示。如实验1,当AgIG-IDSF模型采用注意力机制时,该模型在3种数据集上的整体识别精度高于实验2不采用注意力机制的AgIG-IDSF模型的相应值,分别提高0.91、0.34、0.29个百分点,这在一定程度上说明了在共享编码模块采用注意力机制的有效性。实验3直接采用式(4)所得意图上下文语义作为门控机制的输入,虽然在SNIPS数据集上取得88.43%的整体识别精度,但在AGIS和ATIS数据集上的整体识别精度明显偏低,仅为46.29%和28.56%,泛化性表现较差,同时反映了本文所提模型引入意图嵌入表示的合理性和必要性。相应地,与实验4采用级联槽位代替门控机制相比,本文所提AgIG-IDSF模型在3种数据集上的整体识别精度更优,表明了门控机制的有效性。
表6 AgIG-IDSF在3种数据集上的消融实验结果Tab.6 Ablation experiments for AgIG-IDSF on three datasets %
3.3.4意图识别与槽位填充
为了探究意图识别和槽位填充任务对全局识别精度的影响程度,如图7所示,以AGIS数据集为例,采用混淆矩阵可视化了两任务句子级识别结果。其中,横坐标表示意图标签样本数,纵坐标表示槽位标签样本数,均分为正确和错误识别两类。通过分析图7可得如下结论:各模型可识别出大部分样本对应的意图与槽位标签,均正确识别数超过1 000条;意图识别或槽位填充单任务预测错误标签数较多,例如在图7b中,意图标签识别正确但槽位标签识别错误的样本数为79条,而槽位标签识别正确但意图标签识别错误的样本数为53条,说明在给定样本中单任务识别错误率对模型整体识别性能影响较大;并且与意图识别相比,槽位填充任务对模型整体识别精度影响更大,因为在意图正确识别情况下,上述模型的槽位填充错误率更高。而与其他模型相比,本文所提模型不仅提高了同时识别正确样本的数量,而且也降低了同时错误样本数量,分别为1 056条和13条,因此提高了模型的整体识别精度。由上述可知,相对于意图识别任务,槽位填充任务对模型整体识别性能的影响更大。
图7 句子级意图识别与槽位填充混淆矩阵Fig.7 Sentence-level confusion matrix of intent detection and slot filling for AGIS dataset
3.3.5BERT有效性
以上研究均采用基于传统word2vec或glove预训练的词嵌入,但此类词嵌入是静态的,无法根据动态生成上下文相关的高质量文本表示。近年来,BERT等预训练模型的提出极大促进了各项NLP任务的性能。因此,为探究本文所提模型在采用预训练模型条件下的有效性,采用BERT动态生成包含丰富语义的文本表示,并与JointBERT和JointIDSF在3种数据集上进行了对比实验,结果如表7所示。JointBERT在3种基准数据集上的整体识别准确率分别为88.82%、87.34%和88.90%,显然优于图4和表5所示多数模型的相应值,说明BERT有助于提高模型的意图识别与槽位填充性能。基于此,JointIDSF模型在3种数据集上的识别结果略有上升,这是因为该模型引入意图槽位注意力机制,能够使意图根据其重要性与句子中的每个字符动态融合,进而促使意图信息指导槽位填充任务。然而,由于该模型所提意图槽位注意力机制强依赖于预测的意图概率矩阵,未引入意图嵌入信息,因此对整体识别性能提升能力有限。而本文所提AgIG-IDSF模型在3种数据集上均取得最优整体识别准确率,分别为89.15%、87.57%和92.29%,比JointIDSF模型分别提升0.09、0.22、2.29个百分点。总之,上述结果说明了BERT的有效性,还表明了AgIG-IDSF模型在采用BERT情况下能够进一步提高农业病虫害意图识别与槽位填充性能。
表7 基于BERT的模型在各数据集上的识别结果Tab.7 Experimental results for BERT-based models on three datasets %
本文主要针对农业病虫害领域意图识别与槽位填充存在的语料有限、现有模型未充分利用意图嵌入表示信息等问题,构建了首个农业病虫害领域的意图识别与槽位填充数据集,并提出了面向该领域的基于意图嵌入信息和门控机制的意图识别与槽位填充联合模型AgIG-IDSF。该模型在采用注意力机制进一步丰富上下文语义基础上,引入了意图嵌入表示信息,并采用门控机制对上述向量进行融合,从而生成了包含丰富意图信息的槽位上下文语义。实验结果表明,本文所提AgIG-IDSF模型能够更好地利用意图信息指导槽位填充任务,与其他模型相比在农业病虫害的意图识别与槽位填充任务上性能更优,且具有一定的泛化性和稳定性,为构建基于知识图谱的农业病虫害问答系统提供了技术支撑。