自动问句生成综述

2021-02-25 01:28谢红，孙锐

乐山师范学院学报 2021年12期

谢红，孙锐

（乐山师范学院人工智能学院，四川乐山 614000）

0 引言

自动问句生成（Question Generation,QG）旨在根据文本段落或上下文生成问题[1]。该任务被广泛地应用于教育、对话、自动问答等领域。在教育领域，问句生成可用于课程材料的评价，亦可作为智能辅助教学的组成部件。通过构建高质量的问题集，对学生知识掌握程度或自主学习能力的评估起到至关重要的作用。在对话领域，生成流畅的问句是对话系统的一个重要技能。作为问答系统（Question Answering,QA）的逆向任务，问题生成具备提供大规模问答对的潜质，可减少构建大规模数据集所需的人力。

1 任务概述

一般地，问句生成的目标为给定源文本生成一个问题集合，其中每个问题均能在文本中找到对应答案。问句生成任务框架如图1 所示，大体分为三个子任务：

图1 问句生成框架

a）内容选择旨在选择和设定待提问的目标或想要的答案，主要解决“问什么”的问题。故需要抓住文本重要信息，标记出待提问的重要属性。

b）问题类型选择旨在给定目标答案后，确定待提问的问题类型（What、When、Who、Which、Where，Why，How 和Yes/No 等）。此子任务常用在基于规则的方法里。在基于神经网络的模型里，问句类型和句法形态可通过语句或词的特征和问句表示的构造来确定。

c）问句构造旨在给定目标和问句类型后构造问句，主要解决“如何问”的问题。此子任务关注如何用自然语言描述待提问的重要属性，因而需聚焦于语法正确性、语义精确性和语言灵活性。

自动问句生成任务面临的挑战有：（a）问题类型众多；（b）文本理解中的部分语言学挑战，如否定检测和指代消解等；（c）问句形态多样化，特别是在中文领域。例如，百度老总是谁？谁是百度老总？（d）词形词义多样化，例如，百度老总是谁？百度董事长是谁？

2 主要方法

自动问句生成方法主要分为两类:一类是基于规则的问句生成[2-5]，多利用启发式规则将语句转换为相关问句；另一类是基于神经网络的问句生成模型[6-9]，主要利用深度学习中的序列到序列（Seq2Seq）技术。

2.1 基于规则的问句生成模型

多数基于规则的基本思路，将输入语句转换为语法结构表示，利用这种结构表示去匹配预定义模板或者利用句法特征对语句进行重排以生成问句。典型地，此类方法需要确定输入语句的句法模板、关键字或语义角色，故多以语法和语义为依托进行语法或语义解析。在问句生成时，采用转换（Transformation-based）方法重排输入语句的表达，或利用模板方法（Template-based）来定制问句的生成。

为提升问句生成质量，此类方法多从以下几个技术角度改进：a）词形和词义。词性识别、实体识别、关键词识别、词干化、词相似性；b）语句句法结构。语义依存关系、语义角色标注、句法成分结构；c）语句相似性或主题相关性。

Yllias[2]等提出根据主题从正文信息生成所有可能的问句。首先进行语句简化去除冗余句子成分，以便利用命名实体信息和谓词论元信息生成问句；然后利用主题模型和字符串核方法计算问句与正文以评估主题相关度；最后采有句法树核方法计算问句与正文的句法相似度以评估句法正确度。Karen[3]等探索了在教育领域下构建各种深度或不同类型的问句，结合语言学特点深度分析了语句的语义角色关系，设计了约42 个语义模板，以生成语句相关的问句和答案。Mass[4]等利用依存分析工具、PropBank、VerbNet、WordNet 等知识库或工具开发了一套句法规则，有效地实现了全局依存关系、浅层语义分析、词汇资源和习惯性规则的平衡，最后利用回译技术生成语法准确、高度相关的问句。

可以看出，基于规则的方法简单且易于实现，但无一例外，都面临着一些较难的语言学挑战，如否定词检测、指代消解和动词形态变化等。问句语用学的研究对问句生成应能产生积极的影响。

2.2 基于神经网络的问句生成模型

主流的深度问句生成模型大多沿用Seq2Seq框架，如图2 所示。给定一个段落X={x1,...,xn}false 和目标答案Afalse，模型旨在针对Afalse 生成一个问句Y={y1,...,ym}false。故，模型优化目标为最大化给定Xfalse 和Afalse 时生成最佳问句Y^false 的条件概率，即：

图2 基于神经网络的模型典型结构

多数基于神经网络的模型关注以下两方面的技术细节：

a）与QG 有关的因素，如答案编码、问句词的生成和段落级的上下文表示等。

（a）答案编码。答案作为模型输入用于指导模型在问句生成时关注哪些信息，以免模型生成与特定目标无关的问句。主要有两种实施方案，一是利用额外的答案指示特征增广答案中的每个词向量，如BIO 标记，位置向量等，另一种则采用特定的词条替换答案以进行段落编码。

（b）问句词生成。问句词在问句生成起着重要的作用。当前大多的模型中存在着问句词生成和答案类型不一致的情况。

（c）段落上下文。有统计表明，约20%的问句需要借助段落上下文信息作答。但随着输入问句长度的增加，Seq2Seq 模型的学习需要较高的耗时才能有效利用上下文信息。

b）常见的自然语言处理技术，如拷贝机制和语言特征等。

（a）拷贝机制。在解码过程中，若回指了在源语句中的短语或实体，或用于构建事实性问句或难以用RNN 解码生成稀疏词时，可以直接从源语句拷贝相关词到问句。

（b）语言特征。用于补充词表示，包括词的大小写、词性（POS）、命名实体（NER）标签、指代和依存信息等。

Zhou[6]等提出应用神经编码-解码模型以生成有意义的多样化的问句。编码输入为文本和答案位置，以得到答案敏感（Answer-aware）的输入表示，再由解码器生成聚焦答案（Answer-focused）的问句。模型使用BiGRU 获得前向和后向编码，除传统的词向量输入，还引入NER 和POS 标签作为额外特征来标注答案的位置，使得模型对目标答案更敏感，在解码时采用了注意力和拷贝机制。Sun 等[7]提出一种和位置敏感的神经问句生成模型。通过聚焦答案以引入答案表示，显式地对疑问词的生成建模，有助于疑问词和答案类型的匹配。通过对上下文和答案的相对距离建模，以生成相应的位置敏感的注意力，有助于原文中拷贝相对距离较近且相关的上下文词条。同Zhou[7]等的工作类似，引入了NER 和POS 等特征，在解码阶段同时支持在拷贝和生成两种模式的切换。Zhao[8]等聚焦于答案敏感的问句生成，以段落和答案为输入，生成针对给定答案的问句，假定答案是由给定段落中的某些文本片段组成。提出一种带门自注意力（Gated Self-attention）的指针机制，以处理问句生成中长文本挑战。其中，门自注意力用于在每个时间步聚集来源于段落的信息，嵌入段落内部依存以提炼段落答案的编码表示；在解码时每个时间步上的词均被看成单独的一个拷贝目标并限制重复词的得分。Kim[9]等认为大多数现有神经网络模型通过答案位置特征引入目标答案信息，从而使得生成的问句中大多包含了目标答案中的词。因此，聚焦于如何把原始段落和目标答案分离开，提出答案分离（Answer-separated）的Seq2Seq 模型，更好地利用段落和目标答案的信息。采用掩码替代目标答案，单独保留对应的目标答案，采用基于检索的词生成方式以纠正传统Seq2Seq 模型的缺陷（传统Seq2Seq 倾向于记忆序列模式而非词义），有效地抓住语义。