多项选择式机器阅读理解综述

2021-11-10 14:27马晨辉施水才肖诗斌
关键词:向量选项机器

马晨辉,施水才,2,肖诗斌,2

(1.北京信息科技大学 计算机学院,北京 100101;2.拓尔思信息技术股份有限公司,北京 100101)

0 引言

随着大数据时代的到来,信息呈现出爆炸式的增长,无论是数据存储还是信息查找,都给人们带来了巨大的挑战。有效信息的查找离不开信息检索,而信息检索的关键是机器阅读理解(machine reading comprehension,MRC)。机器阅读理解中包含语言理解、知识推理、摘要生成等复杂技术,所以面临着许多挑战。本文针对多项选择式机器阅读理解(multiple-choice reading comprehension,MCRC),从任务类型、数据集、研究方法等方面进行介绍。

1 任务及评价指标

1.1 任务介绍

在机器阅读理解中,一般每个问题都有它对应的文本上下文信息,机器阅读理解的目标就是让计算机理解文本,并根据问题从文本中提取出正确的答案或者生成更加复杂的答案。通过近几年机器阅读领域的发展,机器阅读理解任务主要分为:片段抽取式任务、完形填空式任务、多项选择式任务和自由问答式任务。片段抽取式任务需要从文章内抽取句子或短语作为答案;完形填空式任务的答案通常是对某个内容的改写;多项选择式任务是从多个候选答案中选择正确的答案。因此,多项选择式阅读理解的答案更加灵活,通常需要根据原文和问题进行相关推理才能选出正确的答案。

多项选择式机器阅读理解任务是,对于给定的文章C、问题Q和候选答案A={A1,A2,…,An},模型通过学习函数f从A中选择正确的答案Ai,如式(1)所示。多项选择式机器阅读理解的关键就是找到合适的学习函数f。

Ai=f(C,Q,A)

(1)

1.2 评价指标

对于不同的阅读理解任务,有不同的评价指标。片段抽取任务需要对抽取的答案和真实答案进行对比,因此通常使用Rajpurkar等[1]提出的Exact Match(EM)和F1计算来衡量模型的性能。由于自由问答的答案不受原来语境的限制,故广泛使用ROUGE-L和BLEU。

2 数据集

数据集是推动机器阅读理解领域发展的重要因素,2015年至今,多项选择式阅读理解任务评测的主要数据集如表1所示。

表1 多项选择式阅读理解相关数据集

其中最具代表性和被广泛使用的数据集为MCTest和RACE。

MCTest数据集是早期的多项选择式阅读理解数据集,它由500个虚构的故事构成,每个故事有4个问题,每个问题有4个候选答案。虚构故事的问题完全可以根据故事本身来回答,避免了引入外部知识。虽然MCTest的出现促进了机器阅读理解的研究,但由于数据规模较小,对一些需要大量数据的技术并不支持。

RACE数据集来源于中国中学生的英语考试题,包括了2.8万篇文章和接近10万个由专家构建的问题,涵盖了多个领域的内容和多种不同类型的篇章,如广告、新闻、故事、传记等。作为多项选择式任务,RACE数据集中很多问题的回答需要模型有一定的语义推理能力才能选择出正确的答案。因为问题和答案都是人为生成的,如果仅仅是基于检索或者匹配的方式来选择答案,其准确率往往较低。相对于MCTest,RACE的数据量很大,能够满足深度学习模型的训练,对机器阅读理解研究具有较大的促进作用。

3 基于传统特征匹配的方法

传统特征匹配的方法是通过人工构建一系列的规则或抽取文本特征进行句子或词语之间的匹配。该方法主要利用词语特征、句法特征以及句子语义特征进行匹配,进而挑选出匹配度最高的答案。在2013年MCTest数据集出现之初,很多的研究者基于特征匹配的方法对文章、问题以及候选项进行匹配,从而选择出正确的答案,该方法比较简单,但准确率较低。Richardson等[2]提出了一种基于距离的滑动窗口方法,根据文章、问题以及候选答案词语的共现数量来计算答案的匹配程度。该方法虽然简单易实现,但是滑动窗口的大小有限,无法对多句答案推理任务进行准确判定。在该方法的基础上,Smith等[8]提出了一种基于强词汇匹配可变窗口大小的阅读理解答案选择方法,该方法考虑了多个上下文窗口、问题类型和共指解析,增强了答案匹配的性能。Wang等[9]通过引入语法、语义框架、词嵌入和共指来提升模型的性能,语法和语义框架对于理解故事非常重要,词嵌入解决了故事和问题在词语选择上的差异。Sachan等[10]提出了统一最大边距框架来找答案蕴含的结构。

上述方法虽然在多项选择式阅读理解任务中都取得了一定的研究进展,但这些传统方法受特征构建和词语匹配的影响较大,很难泛化到大规模数据集。

4 基于深度学习的方法

基于深度学习的阅读理解模型已经成为当前的主流方法。

4.1 模型架构

一个完整的多项选择式阅读理解模型由嵌入层、特征提取层、文章—问题选项交互层和答案预测层构成,如图1所示。

1)嵌入层(embeddinglayer):由于机器阅读理解无法直接理解自然语言,因此在多项选择式机器阅读理解任务开始时,需要将输入的词转化为固定维度的向量表示。该层将文章、问题和选项作为输入,通过一些特征表示方法输出文章、问题和选项的编码表示。

2)特征提取层(featureextractionlayer):为了更好地理解文章、问题和选项,在嵌入层之后,将文章、问题和选项的编码表示输入该层,使用递归神经网络或者卷积神经网络进一步挖掘上下文特征。

3)文章—问题选项交互层(context、questionandoptioninteractionlayer):文章与问题选项之间的关系对预测答案起着至关重要的作用,为了更好地捕获它们之间的相关信息,一般采用单向或者双向注意力机制对文章、问题以及选项之间的关系进行交互。

4)答案预测层(answerpredictionlayer):该层根据阅读理解任务类型的不同,采用的方式也不同,比如多项选择式任务是从候选项中选出正确的答案;完型填空任务则是从候选词汇中选择一个填入句子中空缺的位置。

4.2 各个层级的实现方法

4.2.1 嵌入层

嵌入层是机器阅读理解模型的首要步骤,作用是将输入的自然语言表示成机器可以理解的固定维度向量,该向量表示的好坏对后续阅读理解任务性能影响很大。在现有的机器阅读理解模型中,嵌入方法主要可以分为词嵌入(例如Word2Vec[11]和GloVe[12]模型)和预训练的上下文嵌入(例如CoVe[13]、ELMO[14]、GPT[15]和BERT[16]预训练模型)。

词嵌入虽然能够通过低维向量对词语进行编码,并且可以很好地反映出词语之间的相关性,但是在阅读理解任务中不能有效地挖掘出词语对应的上下文信息。对此,许多研究者引入了基于上下文语境的词向量表征方法。该方法预先使用大型的语料库进行词向量的训练,然后在特定任务中进行微调或者直接使用预训练的词向量进行表征。使用预训练的上下文嵌入在机器阅读理解任务中表现出了良好的性能。

4.2.2 特征提取层

特征提取层的主要作用是基于嵌入层输入的特征编码,在句子层级上挖掘阅读理解任务中文章的上下文信息,该层主要采用递归神经网络(recursive neural network,RNN)、卷积神经网络(convolutional neural networks,CNN)和Transformer结构进行特征提取。

虽然以上3种方法都可以对阅读理解任务中的句子信息进行有效特征提取,但也各自存在一定的优缺点。RNN模型对顺序信息进行建模效果较好,但是由于不能并行处理,它的训练过程非常耗时;CNN模型虽然能够并行训练,比RNN模型训练速度更快,但对于篇章级长文本阅读理解全局特征提取效果较差;Transformer主要基于注意力机制,并行运行的同时更关注全局依赖关系,在近些年阅读理解任务中表现出了较好的性能。

4.2.3 文章—问题选项交互层

交互层的作用是采用注意力机制提取阅读理解任务中文章、问题以及选项之间的相关性,以便找到正确答案。注意力机制在机器阅读理解中表现出良好的性能。

以问题感知段落为例,由于段落中的单词越接近问题,就越有可能是问题的答案词,所以通过计算问题感知段落来突出段落中与问题最相关的部分。计算过程分为3步,首先计算段落C中每个单词Ci和整个问题句子编码的相似度,得到权重Si:

Si=f(Ci,Q)

(2)

式中:f为计算相似度的函数;Q为问题的编码。然后对权重进行归一化处理,得到每个单词的注意力权重αi:

(3)

式中n为段落中单词的个数。最后将注意力权重和问题Q中的单词qi进行加权求和,即可得到问题感知段落表示。

4.2.4 答案预测层

答案预测层的作用是根据上下文特征预测正确答案。针对多项选择式阅读理解,常用的方法是计算交互层输出的注意力表征和候选答案表征之间的相似性,然后选择相似度最高的候选答案作为正确答案。

4.3 主流的多项选择式阅读理解模型

与传统基于特征匹配的方法相比较,深度神经网络在机器阅读理解任务中表现出了良好的性能。最早Lai等[6]利用基于双线性匹配函数的深度学习模型Stanford Attentive Reader和Gated-Attention Reader在RACE多项选择式阅读理解任务上进行实验。接着Soham等[17]提出了一种用于多项选择式阅读理解的选项消除模型,该模型认为当人类在做任务时并不是只关注正确的候选项,而是会对多个候选项进行比较,去掉一些候选项后再做选择。具体来说,通过一个门机制来判断在给定{文章,问题}对的情况下,某个选项是否需要被消除,如果判断结果为“是”,则将文章的表示向量与该选项的表示向量乘积设为0,表示忽略掉此选项。该模型进行多轮局部消除以完善段落表示,最后使用选择模块选出最佳选项。受层级结构模型的启发,Zhu等[18]提出了一种层次注意流的多项选择式机器阅读理解模型,该模型将候选项和问题进行组合,采用注意力机制计算组合后的信息与文章信息的权重,以加强模型对文章的理解能力,同时利用候选项之间的相互关系,加强对候选项的理解,从而提高了阅读理解的性能。Xu等[19]提出了动态融合网络的阅读理解模型,该模型采用动态的多策略注意过程,将文章、问题和选项三者联合融合成注意向量,结合动态的多步骤推理模块进行答案的选择。如果把{问题,选项}连在一起看成一个句子,然后与文章进行匹配,那么问题和选项之间没有交互的信息。因此Wang等[20]提出了一种协同匹配的多项选择式阅读理解模型,该模型将文章既和问题匹配又和选项匹配,弥补了匹配感知不足的问题。有研究者提出了一种多范围推理的阅读理解模型,利用多尺度n元语法信息来实现语义融合,得到更好的文档表达,为后续注意力机制的推理进行服务。Chen等[21]提出了一种卷积空间注意力的多项选择式阅读理解模型,该模型首先提取文章、问题以及选项之间的互信息,其次使用互信息增强各自的向量空间表示,最后通过使用不同窗口大小的卷积神经网络来抽取匹配矩阵的匹配特征,得到每个选项作为答案的概率。得益于预训练模型的成果,Alec等[22]利用GPT进行多项选择式阅读理解实验,取得了较好的效果。Vaishali等[23]提出了基于生成选择模型的多项选择式机器阅读理解模型。该模型先从段落中生成问题的答案,然后将生成的答案与给定的答案进行匹配,最匹配的选项即为答案。Ran等[24]提出了一个选项比较网络(option comparison network,OCN),该网络可在单词级别对选项进行比较,以更好地识别其相关性,从而有助于推理。同时使用skimmer将每个选项编码为向量序列,以尽可能保留细粒度的信息。利用注意力机制逐个矢量地比较这些序列,以识别选项之间更细微的相关性,这对于推理可能具有潜在的价值。Zhang等[25]提出了一种用于多项选择式阅读理解的双重共同匹配网络 (DCMN+)模型,该模型在Bert的基础上结合了两种阅读策略,从而提升了模型性能。同时,基于ALBERT和RoBERTa模型的多项选择式阅读理解性能也有较大的提升。

上述基于深度神经网络的方法虽然对阅读理解的性能都有所提升,但也存在以下问题:

1)模型的可解释性不强。基于深度神经网络的阅读理解模型参数较多,且模型结构复杂,针对模型预测的结果,难以根据模型给出准确的解释。

2)模型的推理性能不足。实验表明当前模型对于简单匹配能够直接找到问题答案的数据集模型性能较高;当加入一些需要进行推理的问题时,模型的性能急剧下降。

3)模型受数据规模的影响较大。数据规模越大,模型的性能表现越好。然而,当前很多任务没有大规模、高质量的训练语料,导致很多场景下的阅读理解性能较差,无法满足实际工业使用的要求。

5 结束语

本文对多项选择式机器阅读理解的任务、评价指标、数据集和实现方法等进行了归纳。虽然多项选择式机器阅读理解技术在学术界取得了很多的成果,但是为了更好地将其应用于实际场景中,还需要提高其准确性和计算速度。在未来的研究方向上可以从以下两个方面进行实践:

1)外部知识的融入。多项选择式机器阅读理解中涉及的外部知识较多,可以从外部知识的种类和融入方式两个方面进行改进,以更好地满足模型对外部知识的需要,提升模型的准确性。

2)预训练模型的压缩。预训练模型虽然对多项选择式机器阅读理解的准确性有较好的提升效果,但模型参数众多,计算速度较慢。通过模型压缩的方式在保证准确性的前提下减少模型参数,节省计算的等待时间,将对多项选择式机器阅读理解的发展起到较好的促进作用。

猜你喜欢
向量选项机器
机器狗
向量的分解
机器狗
聚焦“向量与三角”创新题
未来机器城
跟踪导练(四)
阅读理解
跟踪导练(5)
单项填空精选练习100道
向量垂直在解析几何中的应用