结合问题类型及惩罚机制的问题生成

2021-05-27 05:31武恺莉朱朦朦朱鸿雨张熠天洪宇

中文信息学报 2021年4期

武恺莉，朱朦朦，朱鸿雨，张熠天，洪宇

(1.苏州大学计算机科学与技术学院，江苏苏州 215006；2.国家工业信息安全发展研究中心，北京 100043)

0 引言

问题生成(question generation，QG)是智能问答领域一个重要的任务。问题生成任务有多种输入形式，比如自由文本、表格数据等。本文研究答案可知的句子级问题生成任务，即输入为陈述句和目标答案，自动生成对应的问句。如例1所示(选自SQuAD测试集)，通过理解陈述句和目标答案的语义，自动生成疑问句。问题生成任务可以应用于医疗、教育、对话等领域。此外，该任务还可以生成大量问答对，用于扩充问答系统的语料资源，协助自动问答系统构建[1-2]。

本文对答案可知的问题生成(answer-aware question generation)任务展开研究，对现有基于神经网络的问题生成模型进行改进，以优化该任务的性能。特别地，本文主要关注以下两个问题：其一是提高疑问句对应问题类型的准确率；其二是减轻生成问题与目标答案重复词的现象。如例1、例2所示，例1中疑问句的问题类型为“what”，例2为“when”。问题类型标识该疑问句提问的目标，对一个疑问句来说这是很重要的。所以，提高问题类型的准确率有助于生成正确的疑问句，保证与目标答案匹配。另一方面，从语言学角度，疑问句中包含要回答的答案的现象很少见。据观测，在现有研究生成的问句中不存在上述现象。因此，本文提出一种融合问题类型和惩罚机制的问题生成模型来改进上述问题。

例1

源端陈述句：Antibiotics revolutionized medicine in the 20th century,and have together with vaccination led to the near eradication of diseases such as tuberculosis in the developed world.<译文：抗生素在20世纪使医学发生了革命性的变化，并与疫苗一起使发达国家的结核病等疾病几乎根除。>

目标答案：20th <译文：20世纪>

疑问句：In what century did antibiotics revolutionized medicine?<译文：抗生素在哪个世纪彻底改变了医学？>

例2

源端陈述句：By 1139,Portugal had established itself as a kingdom independent from León.<译文：到1139年，葡萄牙已经建立了一个独立于里昂的王国。>

目标答案：1139

疑问句：By what year had Portugal established itself as an independent kingdom?<译文：葡萄牙在哪一年建立了自己的独立王国？>

本文在斯坦福阅读理解数据集(Stanford question answering dataset，SQuAD)[3]上进行实验，使用Du等[4]的数据划分方式。实验结果显示，本文所提方法能取得较好的性能。

本文的主要贡献包括：

(1) 通过BERT[5]模型训练问题类型分类器，得到每个输入的问题类型表示。利用门控机制在编码端融入问题类型，得到具有问题类型信息的源端陈述句表示。

(2) 提出一种惩罚机制，即在损失函数中加入对生成目标答案中词的惩罚，用于减轻从目标答案生成词的情况。

本文组织形式如下，第1节简要介绍问题生成任务的相关工作；第2节给出本文所研究的答案可知的问题生成任务的定义；第3节详细描述本文所提方法的细节；第4节介绍本文所用的数据集、实验配置以及评价指标；第5节展示和分析实验结果；第6节总结全文并展望未来工作。

1 相关工作

目前，问题生成的研究思路主要分为两种，其一是基于人工编写的问题模板转换得到疑问句，其二是基于端到端的神经网络将陈述句编码后解码生成疑问句。

基于规则的问题生成依赖于深层的语言知识，以及精心设计的陈述句到疑问句的转换规则。Lindberg等[6]结合语义标记信息提出一种复杂的基于模板的方法。将基于语义的方法的好处与基于模板的方法的表面形式灵活性相结合，最重要的一点是不受语法的严格约束。Heilman等[7]重复使用人工编写的规则将陈述句转换为疑问句，然后使用逻辑斯蒂回归模型将重复生成的疑问句进行排序，按比例保留排序靠前的疑问句。

随着神经网络以及大规模数据集的出现，基于神经网络的问题生成研究逐渐被关注。Du等[4]首次将神经网络模型应用在问题生成任务中，使用基于注意力机制的端到端模型，实验表明生成的疑问句在自动评价方法上可取得不错的性能，人工评价也优于基于规则的问题生成方法。由于Du等[4]未使用答案信息，这类研究也称为答案不可知的问题生成(answer-agnostic question generation)。Scialom等[8]将Transformer[9]框架应用于答案不可知的问题生成任务，并提出三种解决未登录词的策略。为了使生成的疑问句用于提问某个答案的，出现了答案可知的问题生成(answer-aware question generation)任务。Zhou等[10]加入词汇特征以及目标答案的信息，帮助模型生成更为具体的疑问句，并且使用拷贝机制[11]拷贝一些词表中没有的源端单词。Dong等[12]利用问题类型的语义特征，通过使用问题分类模型对目标答案的类型进行预测，加入到问题生成过程，生成具体的问句。Zhou等[13]将语言模型作为辅助任务，通过多任务学习提升性能。

基于规则的方法领域性较强，普适性较低。而且问题模板更注重于句子的结构信息，忽略句子的语义信息。与此相比，基于端到端神经网络的方法可以使模型自适应学习，省去人工构造规则。此外，大规模阅读理解数据集的开放，也为问题生成任务提供了更多的语料资源，推动了基于端到端神经网络方法的发展。

2 任务定义

(1)

其中，P(y|X,A)表示给定X和A的条件下，预测问句的对数条件概率。

3 方法

本文基于编码器-解码器框架，结合问题类型以及惩罚机制，对现有答案可知的问题生成架构进行优化。使用预训练模型BERT[5]微调问题类型分类器，得到问题类型的表示。在原有编码端产生的语义表示上，通过门控机制与问题类型表示进行融合，用于提高生成的问句对应类型的准确率。此外，在解码生成疑问句时，加入对复制目标答案词的惩罚项，减轻从目标答案生成问句的现象。本文的模型总体架构如图1所示。

图1 模型总体架构图

3.1 编码层

因此，经过编码层得到X对应的隐状态表示为o={o1,o2,…,om}。

3.2 问题类型分类器

本文定义了常见的7种问题类型(“what”“who”“how”“which”“when”“where”“why”)以及其他类“others”。根据疑问句中是否出现上述问题类型词，给出对应的问题类型标记；若都未出现，则标记为“others”。

本文使用BERT模型[5]在问题类型分类任务上进行微调。考虑到同一个源端陈述句可能包含多个目标答案，从而生成不同问题类型的疑问句。所以，本文输入为源端陈述句X和目标答案A，输出为对应问题类型。

(5)

3.3 交互层

其中，wo、wq、bgate为模型参数，σ表示sigmoid激活函数。

3.4 解码层

3.4.1 初始化解码状态

本文使用单层Bi-LSTM对目标答案A单独编码，得到隐状态表示，并用最后一个时刻的隐状态han初始化解码状态h0，如式(8)所示。

h0=han

(8)

3.4.2 注意力机制

注意力机制的作用是在当前解码时刻生成问句中词的时候，注意到源端陈述句中有关的部分，从而生成更好的问句。本文用Bahdanau等[15]提出的注意力计算方式。在解码的每个时刻t，计算当前时刻对源端表示s的注意力分布at，加权求和得到语义向量ct。计算过程如式(9)～式(11)所示。

其中，v，Ws，Wh，battn为可训练的模型参数，ht指当前时刻的隐状态。

3.4.3 拷贝机制

拷贝机制的作用是让模型能从源端陈述句中生成词。本文使用的拷贝机制继承自See等[16]的工作，通过计算从词表中生成词的概率pgen来实现，则从源端拷贝单词的概率为1-pgen。计算过程如式(12)所示。

(12)

其中，wc、wh、wx、bp为可训练的参数。

3.4.4 生成器

解码生成词的概率分布由两部分组成，其一，从词表生成词对应的概率分布Pvocab；其二，使用注意力分布at直接从源端陈述句拷贝生成词。利用公式(12)中的生成概率pgen计算最终的概率分布P(W)，计算如式(13)～(14)所示。

Pvocab(wt)=softmax(V(V′[ht,ct]+b)+b′)

(13)

(14)

其中，V、V′、b、b′为可训练的模型参数。利用最终的概率分布即可得到当前时刻生成的单词。当解码生成的单词为“”时，表示疑问句生成完成，停止解码过程。

3.5 损失函数与惩罚机制

本文使用交叉熵作为损失函数，计算模型生成的疑问句与目标疑问句的损失，如式(15)所示。

(15)

其中，T为目标疑问句的长度，P(wt)为当前时刻目标疑问句中的单词对应的生成概率。

本文在损失函数中加入惩罚机制，用于抑制模型从目标答案中生成词，本文在损失函数中加入罚项Lans，计算如式(16)所示。

(16)

其中，n为目标疑问句的长度，P(wt)为目标答案中的词对应的生成概率。即，当前目标答案中词对应的概率P(wt)越大，则对应的损失值越大。

最终的损失函数为两部分损失加权求和，如式(17)所示。

Lall=λL+(1-λ)Lans

(17)

其中，λ为权重因子。

4 实验配置

4.1 数据集

本文在SQuAD问题生成数据集上进行实验，来验证所提方法的有效性。该数据集来源于阅读理解数据集SQuAD，数据划分方法和Du等[4]相同。

原始SQuAD数据集是从维基百科的536篇文档的段落中构建的问答对，这些问答对由众包工作者提供，并且要求答案是段落的一部分，共有超过100k的问答对。Du等人将包含答案的句子抽取出来作为问题生成语料的源端陈述句，问题则为要生成的疑问句。因为原始SQuAD数据集的测试集不公开，所以Du等重新划分训练集、开发集和测试集，数量分别为70 484、10 570和11 877条。由于Du等人没有使用目标答案，本文根据原始SQuAD 数据集从陈述句中抽取目标答案。表1列出了该数据集源端陈述句、目标答案以及目标疑问句对应的平均长度。

表1 平均长度统计表

本文所使用的问题类型分类器数据集输入为陈述句和目标答案。输出为问题类型标签，通过构造规则从目标疑问句中抽取，规则如下：

(1) 定义问题类型标记列表[“what” “who”“how”“which”“when”“where”“why”]。

(2) 查找疑问句中是否包含上述某个标记，若有，则对应问题类型为此标记；若无，则对应问题类型标记为“others”。

(3) 对训练集、开发集以及测试集进行问题类型标记，得到问题类型分类数据集。

经统计，每个类别对应的数量如表2所示。

表2 问题类型统计表

续表

4.2 超参数设置

4.2.1问题类型分类器超参数设置

本文使用BERT-Base模型(12-layer,768-hidden,12-heads)进行微调，最大长度设置为150，训练阶段batch_size为16，学习率(learning_rate)为5e-5。

本文使用验证集上性能最好的模型作为分类器，对所有数据抽取问题类型进行表示。

4.2.2 问题生成模型超参数设置

本文在源端和目标端使用相同的词表，词表大小为47 385。预训练词向量来源于GloVe[17]，其维度为300。位置向量是随机初始化的向量，其维度为16。编码层和解码层的LSTM隐含层单元(hidden size)为256维。模型优化器为Adam[18]，其学习率(learning rate)为0.000 5。批量数据大小(batch size)为16。测试阶段，使用集束搜索(beam search)，其大小(beam width)为4。源端陈述句最大长度为100，目标答案最大长度为5，解码生成疑问句的长度为30。损失函数的权重因子λ取0.5。

4.3 评价指标

4.3.1问题类型分类器评价指标

本文使用准确率(accuracy,A)评价问题类型分类器，即正确预测的数量/样本总数。

4.3.2 问题生成模型评价指标

本文使用和Du等[4]相同的评价指标评价生成的疑问句，包括BLEU[19]、METEOR[20]以及ROUGEL[21]，使用现有开源的评价方法包[22]计算上述值。BLEU用来评价候选文档在一组参考文档上的平均n-gram精度，并对过短的句子进行惩罚。BLEU-n表示计算BLEU值使用n-grams统计共同出现的次数，常用计算值有BLEU-1、BLEU-2、BLEU-3以及BLEU-4。METEOR是一种基于召回率的评价指标，通过考虑同义词、词干和释义来计算生成的句子和参考答案的相似度。ROUGE(recall-oriented understudy for gisting evaluation)是一种面向n元词召回率的评价方法。本文使用ROUGEL进行评价，该值基于最长公共子序列统计共现词的次数。