陈志刚,华 磊,刘 权,3,尹 坤,魏 思,2,胡国平
(1. 科大讯飞股份有限公司 人工智能研究院,安徽 合肥 230088;2. 认知智能国家重点实验室,安徽 合肥 230088;3. 中国科学技术大学 信息科学技术学院,安徽 合肥 230026)
自动句子填空任务旨在从给定的词语或短语集合中选择最佳的候选答案填在目标句子的合适位置,使目标句子具有正确的语法和完整的语义。本文以高考英文单项选择题作为切入点,对自动句子填空技术中的一些重点问题进行了研究探索。
自动句子填空任务涉及到对句子语法、用语习惯、语境判断等多个方面的考察。以高考中的英文单项选择题为例,为了更好地考察学生对于英文的掌握情况,高考中的单项选择题覆盖的知识范围比较广泛,题型也比较丰富。总体而言,可以将题型分为以下四类:
(1) 区别不同词语,包含动词、名词、副词、形容词、介词、情态动词、连词以及疑问词(what、which、who、when)等;
(2) 区别相同动词所对应的不同时态;
(3) 区别不同的短语以及固定搭配;
(4) 根据上下文,选择合适的句子。
图1针对每种分类,列举了对应的例子。从上面的分类可以看出,一个好的自动句子填空系统需要有精细的语义建模能力,并准确地区分词语、词语的时态以及所处的语境。本文利用深度学习方法,并结合神经网络技术,构建了一个融合多源信息的自动句子填空系统。
图1 高考答题题型举例(正确答案在括号内)
本文的主要贡献如下:
(1) 提出了一种依存句法展开序列建模方案,可以高效地将依存句法信息引入到句子填空任务中并发挥显著效果。
(2) 提出了一种基于语言模型隐含状态信息排序的句子填空模型并取得显著效果。
(3) 构建了一个多源信息融合的排序模型,实现对(1)中的依存句法信息以及(2)中的隐含状态信息深入融合,并在测试集上获得76.9%的答题准确率。
(4) 构建了一个完备的高考自动答题实验数据集,可作为标准数据集为自动句子填空技术服务。
近年来,随着深度学习技术在自然语言处理领域的广泛应用,自动句子填空任务被业界普遍关注。早期典型的自动句子填空任务为微软句子填空任务(Microsoft Sentence Completion)。2012年,微软研究院Zweig等发布了MSR Sentence Completion Challenge数据集MSR_SCC,该数据集总共包括1 040个句子,句子主要来源于福尔摩斯小说集。其中,每个句子包括4个错误答案,1个正确答案[1]。该文献[1]同时还提出了两个基准模型: N-gram语言模型和隐含语义分析(Latent Sematic Analysis,LSA)模型。语言模型可以用来衡量一个句子的合理程度,可以根据语言模型得分判断填入答案的句子是否合理[2]。在Zweig等的N-gram语言模型方案中,他们利用一个预训练的4-gram(以及平滑的4-gram模型)语言模型,对每个候选答案进行打分,选择得分最高的句子作为正确答案,该方案在测试集上可以获得39%的准确率;LSA是一种将文档和词语映射到潜在语义空间的语义分析方法[3],Zweig等先利用LSA计算每个词语的词向量,然后利用向量间的余弦距离计算每个词语和候选词之间的相似度。最后,选择得分最高的候选词为正确答案。该方法相对于语言模型,性能有很大提升,并最终获得49%的准确率。
近年来,随着深度学习的发展,越来越多的自然语言处理方面的工作开始利用神经网络作为主流模型。循环神经网络 RNN(Recurrent Neutral Network)作为句子序列建模最常用的模型,也被成功地应用到句子填空任务中。Mikolov等首先利用RNN结构,在大规模的英文语料库上训练了一个通用的语言模型。然后,利用该语言模型,对每个候选答案计算句子概率,从而选择正确答案。该模型在微软公开数据集 MSR_SCC上,获得了58.9%的准确率[4-6]。Tran 等在RNN 语言模型的基础上,在网络中加入了记忆网络(Memory Network)的结构[7-9],改进的 RNN 模型在微软数据集上获得了最好的准确率69.2%。但无论是RNN还是N-gram语言模型,本质上都是对序列整体进行建模。在句子填空任务中,对于每个候选答案而言,它们所对应的上下文都是一致的。因此,进行单一序列的建模,可能会丢失细节信息。针对这个问题,本文在第3节提出了RNN语言模型和状态排序相结合的自动句子填空方案。该方案一方面充分利用了语言模型信息,另一方面,可以通过定义状态细节特征来提高对候选答案的区分性。
此外,考虑到答题任务中存在着大量的语法结构分析题,所以一些学者也开始将句法分析运用到答题任务中,Joseph Gubbins等利用句法分析解决了N-gram模型只能运用序列特征的缺点,并以依存句法分析为基础,训练节点之间弧序列的N-gram模型。其在微软MSR_SCC 任务中,相比N-gram 模型提高了8个点左右的准确率[10]。Piotr Mirowski 等将句法信息融入到 RNN中,相对序列建模RNN语言模型,其准确率在微软的MSR_SCC任务中有10个百分点左右的提升。该方法在引入句法信息的同时,也将句子序列信息丢失,这在一定程度上会影响模型效果[11]。本文在第2节提出了一种依存句法分析和RNN序列建模相结合的方案,该建模方案,在序列和句法信息上都有所侧重,并在答题任务上取得了较好的效果。
同微软句子填空任务相比,本文研究主要针对初、高中英语考试单选题。单选题中考察的知识点非常丰富,覆盖了词性、语法、语义和句法等多方面。因为考察点的不确定性,可以更加真实地模拟机器在面对不确定性题目时的解题能力,更能反映机器的自然语言理解水平。同时,该任务与微软数据集也有较大的区别。首先,微软数据集中的题干是一个句子,而初、高中英语单选题可能出现多个句子。句子之间可能是对话或因果等逻辑关系,机器答题需要考虑到这些句子间的逻辑关系、语义关联关系等,才能得到正确的答案;其次,微软数据集中的题目只含有一个需要填空的单词,而本文中每个题目可能会有多个需要选择的位置,每个位置的答案词数也可能不相等。因此,难度将进一步加大;最后,微软数据集的候选词是经过语言模型挑选出来的,而本文的数据来源于真实的教育考题,任务的真实性更强。
本文的组织结构如下: 首先,考虑到语言模型以及句法信息对句子填空任务的重要性,并结合高考答题任务的特点,在第2节提出了依存句法分析和RNN序列建模相结合的自动句子填空方案;其次,在第3节提出了RNN语言模型和状态排序相结合的自动句子填空方案;最后,本文设计了一种融合句法、语言模型以及状态信息的自动句子填空方案,并在答题任务上取得最优效果。
本文设计提出结合依存句法分析和RNN序列建模的方案(简称depRNN)来实现句子自动填空。先对给定的句子进行依存句法分析,再将依存分析结果展开成序列形式,利用RNN对该序列进行建模,获得给定句子的语义表达。最后,利用句子的语义表达,训练一个语义排序答题模型,支持系统输出最优答案。
依存句法分析主要通过分析单词之间的依存关系来解释句子的句法结构。词与词之间直接发生依存关系,构成一个依存关系对,其中一个是核心词,另一个称为修饰词。图2上半部分是利用Stanford parser对例句“Iwanttogohome”进行依存句法分析的结果[12]。以依存对“I”和“want”为例,这里“I”为修饰词,“want”为核心词。表明单词“I”受到单词“want”支配,它们之间的关系为“nsubj”(表示主谓关系)。依存句法结构图中,关系用一条边来表示,边的箭头指向核心词。如果将每个单词作为一个节点,单词之间的关系作为边,可以将句子依存句法分析的结果展开成句法树的结构,这种树的结构称为依存句法树(图2的下半部分)。
图2 句子“I want to go home”依存句法分析结果
对于高考答题任务而言,一方面,引入依存句法分析可以帮助理解答题任务中存在的大量语法结构分析题;另一方面,在依存句法分析中,单词之间可以跨越多个单词进行关系依赖。通过引入长距离的依赖信息,将有助于解决高考答题中,依赖长距离进行信息理解的题型。
为了充分利用依存句法信息,现有研究大多基于Tree-LSTM模型,利用递归遍历的方式,从底向上地学习句子的语义表达[13-16]。这类方法充分考虑了单词之间的依赖关系、句子的结构层次信息,然而却丢失了句子的序列特征。与此同时,由于这类方法大多基于依存句法树进行操作,导致很难并行计算,会带来较大的模型训练成本。为了实现对句子句法结构和序列结构的有效融合,本文设计了一种融合句法树展开结构的句子语义建模方法(depRNN)。实现在引入句法信息的同时,保留序列特性以及高效的训练能力。
在依存句法分析中,每个单词只受到一个核心词支配。因此,句子中的每个单词都可以表示成唯一的三元组形式: (当前单词,依存关系,核心词)。本文提出一种便捷的句法树展开的方式。以图2中的句法分析结果为例,可以将其展开成如图3所示的序列结构。在图3中,以单词“I”为例,其对应的核心词为“want”,依存关系为“nsubj”。因此,可以将单词“I”表示成(I,nsubj,want)这样的三元组形式。对于句子中的每个单词,本文都设计采用该方式进行展开。
图3 依存句法树展开结果
为了描述方便,本文将第i个单词对应的三元组xi用式(1)表示。
(1)
(2)
这样,对于一个输入长度为N的句子,可以用p=[x1,x2…xN]来表示。
(3)
为了有效利用输入序列的每一个隐含状态信息,本文利用注意力机制(Attention Mechanism)去获取句子层面的语义表达[18-19]。对于每个隐含状态hi,可以通过式(4)计算它的对应权重ai。其中,v∈Rk,W∈Rk×k,k对应为hi的维度。
ai=softmax(vTtanh(Whi))
(4)
最终输入句子的语义表达h*∈Rk,如式(5)所示。
(5)
本文所探索的高考答题任务中,每一个单项选择题,都存在四个候选句子。其中,只有一个为正确句子,其他三个为错误句子。虽从单个句子的角度看,句子本身是语义合理通顺的,但在答题任务中,只有一个候选句子是最符合语言逻辑习惯、上下文以及背景知识的。因此,本文采用了排序学习(Learning to Rank)的思想[20],目地在于训练模型,使得模型对于正确候选句子的得分,要大于其他三个候选句子。
(6)
其中,m是自定义的间隔数值,f是一个得分函数,如式(7)所示,其中u∈Rk。
f(x)=σ(uTx)
(7)
本文中,设置m为0.2。在训练阶段,目标是尽量使得正确答案的得分与错误答案的得分差距大于m。在测试阶段,则选择4个答案得分最高的句子作为正确答案即可。
本文第二节重点说明了如何利用依存句法分析以及RNN进行句子的语义建模。它是对句子整体层面的语义建模,得到的是一个句子整体层面的句子语义表示向量。然后,用这个向量去对句子进行排序打分。考虑到在高考答题任务中,对于每道试题的多个候选答案而言,它们所对应的上下文均一致。因此,整体层次的建模可能会忽略细节信息。在实际模型中,如果模型能够显式指出在填入不同答案时所对应的状态信息,将更加有助于模型选择最优答案;另一方面,现有工作均证实了无监督训练的RNN语言模型在答题任务中的重要作用。因此,为了充分利用语言模型信息,并突出细节信息,本节首先基于大规模文本语料训练的RNN语言模型来对输入句子序列进行编码。然后,基于句子序列的隐层节点,定义了多状态信息。并最终基于这些状态信息,训练答题模型,实现对最优答案的预测。
语言模型本质上是基于当前输入序列,预测下一个单词出现的概率。而基于RNN的语言模型,则是先通过RNN对输入序列进行编码,再基于当前序列的隐含状态去预测下一个单词出现的概率。基于RNN的语言模型的定义可以通过式(8)表示。式(8)中,ht对应的是输入序列w1:t的t时刻隐含状态;U是一个映射矩阵,可以将ht映射到词表空间;softmax是一个概率归一化函数,用于计算下个单词是wt+1的概率。
P(wt+1|w1:t)=softmax(Uht)
ht=RNN(wt,ht -1)
(8)
语言模型的优化目标选择交叉熵函数,如式(9)所示。其中,N是输入句子长度,而M则是句子的个数。
(9)
此外,为了学习到反向的语言模型特征,可以将输入的句子序列反向,然后采用上述方式训练一个反向语言模型。为了避免梯度弥散问题,本文统一采用LSTM结构作为序列编码单元。
本小节重点介绍了定义的状态信息。为了与第二节中的展开句法树表示区别,本小节采用I=[n1,n2…ni…nN]来代表输入句子。其中,ni∈Rd代表每个输入单词所对应的词向量。I会进一步送到3.1节中介绍的前向和后向LSTM语言模型分别进行编码。若在每个单词上将正向和反向隐含状态进行拼接,可最终得到句子在每个单词上的编码h=[h1,h2…hN]。
为了更方便解释清楚状态的定义,本小节依然以句子“I want
基于句子的隐含编码h,本文定义了5种状态信息。对应的状态信息,如图4所示。
图4 本文定义的多状态信息
(1) 答案位置信息。由于LSTM是从左到右(反向为从右到左)序列建模,所以跟答案相邻的位置既包含答案信息,同时也包含历史信息,因此本文定义位置信息为所填答案左边和右边的隐含状态,即s1=hj-1,s2=hj+l。
(2) 序列的最终隐含状态信息。一般来说,LSTM的最终隐含状态包含句子整体层面的信息。因此,本文定义s3=hN,s4=h1。s3和s4分别对应前向和后向LSTM的最终隐含状态。
(3) 答案与上下文的交互信息s5,定义如式(10)所示。由于答案可能存在多个单词,本文将答案状态的平均作为答案的语义表达,式(10)中,avg则为平均函数,f作为关联函数,主要用来衡量当前答案表达跟上下文的相关性。本文分别选择softmax和sigmoid两个函数作为关联函数f。s5的最终表达,则是上下文隐含状态所对应的加权求和。
(10)
关于状态信息的选择,本文所遵循的原则是尽量体现差异性信息。本文重点突出答案所对应的状态信息,比如定义的s1、s2和s5都是同对应的答案相关的细节状态信息。而s3和s4这种整体层面的信息,是对细节信息的补充。
本文的数据主要来源于互联网题库中的高中英文单项选择题。考虑到某些重点题型会被反复考察,对于抓取到的答题数据,本文采用编辑距离过滤内容相似的题目对。当两个问题对之间的编辑距离小于8时,这两个题目被认为是同一个问题。最终,本文收集到了62 834条答题数据。进而,本文按照8∶1∶1的比率,将整个数据集分成训练集、验证集和测试集三个部分。数据集的分配情况如表1所示。
表1 自动答题数据集
在实验数据预处理方面,本文采用 Stanford parser 对文本进行词性标注以及句法分析。此外,为了进一步观察答题数据的特点以及后续的实验分析,本文将答题数据进行了细粒度的划分。图5展示了对验证集数据划分的情况。图5中数据划分的方法可以结合词性标注以及词根分析。以“区分名词题型”为例,如果候选答案为单个词语,并且预测词性为名词,且候选答案的词根不一致,则可以判断该题为“区分名词题型”。我们可通过类似的规则去定义其他类型题型。从图5中可以看出,这种划分方式可覆盖约86%的题型。对于其他类型题目,本文划分到“其他”部分。
图5 验证集上各种题型的分布情况
此外,本文收集了包括Wikipedia、Gigaword以及英语学习网站在内的约26G的英文文本,并利用Stanford parser可以对这些文本进行预处理。基于预处理好的文本,本文训练了一个通用的LSTM语言模型。
本文将LSTM的隐含节点数目均设置为512,词向量(包括单词向量以及依存关系向量)对应的维度都为300,batch-size则设置为50,候选排序模型中的m都设置为0.2。本文采用梯度下降的方式来学习模型的参数。为了动态的调整学习率,本文选择Adadelta[21]作为梯度优化算法,并将初始学习率设为0.5。
4.3.1 实验结果
在第二节中,如果不考虑句法信息,也就是在式(1)中,直接令xi=wi,那么最终获得的句子语义表达h*则完全依赖LSTM建模。本文将这个模型作为基线模型,而需要对比的模型则包含两个: depRNN拼接模型和depRNN门模型,分别对应于式(2)中定义的两种映射函数。
表2给出了depRNN模型对比结果。
表2 depRNN模型与基线模型对比结果
从表2中可看出加入句法信息后,相对LSTM基线模型来说,depRNN拼接模型在答题任务上准确率有至少11个点的绝对提升。这表明,句法信息在英文自动答题任务上是有用的。本文通过进一步对模型的一些典型错误进行分析,发现在引入依存句法信息后,相对于基线模型而言,一些长距离依赖的问题得到了明显改善。具体如例1所示。
例1Lindaisahardstudentandsheusually____Englisheveryevening.
A.studyB.studies
C.studiedD.hadstudied
正确答案: B
该题考察的是英文语法中的并列从句,两个子句之间的时态是相关的。其中,动词“is”和正确答案“studies”之间属于长距离依赖,通过依存句法分析,可以产生(is,conj,studies)这个三元组。该三元组表明这两个单词处于并列的结构。通过展开句法树结构,在编码到单词“is”的时候,已经可以看到单词“studies”的信息,这相当于拉近单词“is”和“studies”之间的距离,从而提升了句子的语义建模能力。
在表2中,同时给出了式(2)两种句法信息融合方案的对比结果(表格的后两行)。在融合句法信息的句法语义模型中,采用门控融合方案要比采用拼接融合方案,绝对提升2.2个百分点。 一个直观的解释为: 基于语言模型的方案表明,序列特性在句子填空任务上是有效的。如果仅从表达形式上看,拼接结构只是将当前单词、核心词以及依存关系三个向量拼接在一起作为当前表达。可以看出,拼接的方式并没有重点突出当前单词的特征,这在一定程度上会模糊序列的特性。而门结构则是采用向量相加的方式,类似于残差网络,相当于是在当前单词特征的基础上进行了调整,能较好地保留当前单词的特性。因此,同拼接方式相比,门的结构在引入句法信息的同时,能够更好地保留序列特性。
4.3.2 depRNN与Tree-LSTM实验结果对比
在2.2节中,本文提到现有的融合依存句法信息的方案大多基于句法树训练递归网络。作为对比,本文选择Tree-LSTM[13]作为句子编码方案,并同本文提出的depRNN模型进行了对比。
表3给出了depRNN模型和Tree-LSTM模型的对比结果。从表3中可以看出,Tree-LSTM 的效果相对于depRNN方案,准确率降低了绝对10个百分点,这说明仅依赖依存树结构的句子语义建模方法,会丢失重要的句子序列信息。同时,实验结果显示,depRNN模型较Tree-LSTM模型的训练效率更高。
表3 depRNN与Tree-LSTM模型对比结果(训练耗时: 秒/epoch)
另一方面,为了验证本文提出的depRNN是否做到对依存句法信息的有效利用,本文以拼接模型作为depRNN基线模型,设计将Tree-LSTM得到的句子表示向量与depRNN句子表示向量融合后训练答题排序模型,仅得到0.3个点的绝对提升(64.4%至64.7%)。 这说明融合模型从Tree-LSTM得到的增量信息有限,也从侧面说明depRNN方法是有效的。
除效果上的优势之外,本文提出的depRNN模型,相对Tree-LSTM模型,训练效率上也展现出非常大的优势。在depRNN模型中,可以采用 mini-batch 的方式进行训练,因此可以并行化操作,而Tree-LSTM由于是在依存句法树上进行操作,因此无法并行训练。从表3也可以看出,即使同depRNN基线模型相比,Tree-LSTM每次迭代花费的时间是depRNN的 4.4倍。因此,从效果和效率两个方面来说,本文提出的depRNN模型,都优于当前主流的Tree-LSTM模型。
4.3.3 依存关系可视化结果
通过depRNN模型所得到的依存关系向量,利用PCA进行降维后,可视化结果如图6所示。
图6 depRNN模型所得依存关系向量可视化结果
图6中,每个依存关系为标准的Stanford parser所定义的关系。以图6中右下角的advcl和ccomp两个依存关系为例,这两个依存关系均为描述主从句中两个动词之间的关系。反映到图6中,可看出这两个关系在空间距离上是接近。对于aux以及advmod这对依存关系,它们均是对动词的修饰,因此两者在图6中的距离也较近。此外,对于csubj和csubjpass这种相对的依存关系(前者表示主动,后者表示被动,主被动区分在高考答题任务中也属于常见题型)。从图6中可看出,它们在空间距离上相对较远。这些例子表明,本文的depRNN模型在一定程度上能学习到功能相近的依存关系,并同时区分功能不同的依存关系。
为了验证不同的状态信息对于英文答题任务的影响。本文设计了以下对比模型。具体的实验结果如表格4所示。
表4 不同模型配置下对应的准确率
从表4中可看出,加入预训练的语言模型能够显著的提升效果。模型3相对于模型1,准确率有9.3个点的绝对提升。此外,从图7中的错误率对比结果可看出,加入预训练的语言模型信息后,对于区分性的题型以及填写固定搭配的题型,错误率有显著下降,这与本文的预期是一致的。因为,从无监督语料学习到的语言模型带有丰富的语义信息。它能够有效编码通用的语义表达,这种通用的表达会有助于模型区分各种类型的单词和固定搭配。
图7 模型3和模型1在每种题型下的错误率对比
与此同时,在答题任务中,对于同一个问题,不同候选答案所对应的上下文是一致的。因此引入答案和上下文的交互信息s5,是为了显式指出当前答案所带来的差异性信息。从模型2和模型3的实验结果对比也可以看出,融合交互信息s5后的模型3,可以提高1.4个点左右的准确率。
此外,在交互信息s5计算过程中,本文选择了两种类型的关联函数: softmax和sigmoid。从数学计算上来说,softmax是在计算上下文同答案相关性的归一化权值,它在上下文的每一个词语上都有一个权重,这些权重之和为1;而sigmoid是将权值映射到了0到1之间,权重之和不一定为1。从答题任务来看,一方面,对于题目所填入的答案,与其相关的上下文大多包含几个单词。由于softmax是归一化的数值,很难同时赋予这些相关单词很高的权重。sigmoid则不存在归一化的约束,它可以同时赋予多个重要单词高的权重;另一方面,softmax在上下文的每个单词上都有权重。考虑到相关单词只有几个,因此可能会引入无关信息,而sigmoid则可以选择赋予无关词语较小的权重,从而过滤掉无关信息。因此,在答题这个任务上,选择sigmoid会更加合理。从模型3和模型4的实验结果对比也可以看出,修改关联函数为sigmoid,准确率有1.7个点左右的提升。
为了验证不同的状态信息对于实验结果的影响,本文以模型4作为基准模型。在此基础上,分别去除交互信息s5(得到模型5),边界信息s1、s2(得到模型6),以及最终隐含状态信息s3、s4(得到模型7)。模型5、6、7相对于基准模型,准确率都有所下降,表明细节特征是有效的。
本文所提出的多源信息融合模型,通过将depRNN模型、以及多状态融合模型的特征进行拼接,并训练候选排序答题模型。实验结果如表5所示,可以看出,在多状态信息的基础上,加入句法信息,最终的融合模型相对于状态排序模型,准确率有0.8个点左右的提升。
表5 多源信息融合模型实验结果
本文所提出的融合模型虽然取得76.9%的答题效果,但在一些难点问题上还面临挑战。本节对模型的典型错误进行了分析。
首先第一类错误,是模型无法区分部分细粒度的语义信息。这主要受限于有限的训练语料,通用的语言模型也很难覆盖所有的情况。一些典型的例子如下,例2中,模型无法区分4个名词,例3中,模型则无法区分四个动词。
例2Whaton____doyoumeanbysayingso?
A.earthB.world
C.landD.ground
正确答案: A
例3Donotleavethewindowopen;itis____thievestoenter
A.invitingB.advising
C.persuadingD.getting
正确答案: A
第二类比较典型的错误是对于部分时态类问题,模型的区分较差。主要原因在于时态类问题要求模型具有较强的推理能力。典型的难点题型如例4所示,“this week”暗示着将来时,当前通用的语义模型较难完全覆盖解决这类问题。
例4Anotherfivevolunteers____totakecareofthehomelesschildrenthisweek.
A.willselectB.haveselected
C.willbeselectedD.havebeenselected
正确答案: C
本文首先提出了一种展开句法树结构dep-RNN。在LSTM序列建模方案的基础上,将依存树中弧的信息编码成三元组形式并实现高效的语义建模。该方案在句子建模过程中无损地引入依存句法信息,提升了句子语义建模的能力。实验结果表明,一方面,相对于双向 LSTM 基线模型,本文提出的展开句法树结构在高考答题任务上,准确率有11个点的绝对提升,这充分验证了句法信息在答题任务上的有效性;另一方面,同 Tree-LSTM模型相比,depRNN模型的效果和效率上都有显著提升。
其次,本文从高考答题任务的特点出发,指出了基于整体句子建模的语义方案在答题任务上的局限性,设计答案位置、序列的最终隐含状态以及答案与上下文的交互三种类型信息,并基于这三种信息类型定义了多种状态信息。实验结果表明,相对于句子整体层面的建模,基于多状态信息融合的答题模型取得显著效果,在答题任务上最高达到76.1%的准确率。最后,本文提出结合序列表示、依存句法信息、多状态信息的多源信息融合模型,并取得76.9%的答题准确率。
后续工作方面,模型结构上可以尝试多源信息进行交互,并引入注意力机制,对于每种问题,自动挑选最优特征。此外可以进一步研究将该答题框架应用到高考完形填空这种篇章结构中。