宋泽宇 王笑月 张 虎* 李 茹,2
1(山西大学计算机与信息技术学院 山西 太原 030006)2(山西大学计算智能与中文信息处理教育部重点实验室 山西 太原 030006)
机器阅读理解是自然语言处理领域中一项重要研究任务,目标是通过机器理解给定的相关材料和问题实现自动作答。机器阅读理解任务主要有四种类型:完形填空、多项选择、片段抽取和自由作答,其中选择型阅读理解由于其易构建和易评价的特点受到越来越多学者的关注和研究。选择型阅读理解任务旨在结合相关材料和问题从若干选项中选出正确的答案。
高质量的机器阅读理解任务对于评估机器理解人类语言的综合水平具有重要的参考意义。在一些阅读理解任务中,通过使用深度学习技术,机器的答题效果已接近了可以与人类相媲美的程度,如MCTest[1]使用DCMN模型作答正确率达到了86.5%[2],SQuAD[3]数据集使用BERT模型F1值已达到93.2%[4]。其原因主要有三点:① 解答难度设置较低。在某些阅读理解任务中候选选项或答案的设置大多是从材料中直接截取相关实体或者文本片段,这导致大多数问题仅仅以词匹配或者文段匹配的方式就可以实现解答,无需深层的语义理解。② 数据质量不高。有些数据集是通过众包或者机器自动生成的方式形成的,重复较多且局限性大。③ 文本主题类型单一。有些数据集仅涉及特定的领域文本,可应用场景有限。然而,很多其他阅读理解任务的实验表明机器仍不具备真正的语言理解能力,高考阅读理解题作为我国普通高等院校招生考试语文科目中的一项测试内容,旨在衡量考生中文阅读理解综合能力,涉及考察的文本主题范围较广,包括科技、历史、生物、医学和经济等领域,同时所有问题和候选答案均由专家结合材料内容精心设计,因此在作答过程中对文本内容的细节分析、归纳、总结和推理等能力均有较高的要求,对于评估现有模型的阅读理解能力具有较高的参考价值。
在高考阅读理解选择题任务中,题干信息作为答案选择的重要依据,决定着答案与材料信息之间的语义关系,如图1所示,示例一中的问题要求选出与材料内容语义保持一致的选项,而示例二中的问题则要求选出与材料内容表述不符的选项,题干要求会限定材料与正确答案的语义联系,进而影响答案的选择,因此理解题干要求对于作答至关重要。现有高考阅读理解任务作答方法研究大多仍在使用传统机器学习方法,且更关注于选项和材料内容之间的语义关联,而对问题信息的关注度较低,同时研究范围集中在数量较少的单一问题类型高考数据中,方法普适性较差,如李茹等[5]针对高考真题中的观点支持类选择题提出的一种基于题干与选项一致性判别模型,郭少茹等[6]针对高考真题中的科技文类选择题提出的基于多维度投票算法的句子语义相关度计算方法,关勇等[7]针对高考真题中的标题选择类问题提出的标题与篇章要点相关性分析模型。常见的基于深度学习技术的阅读理解方法通常直接将材料、题干和选项输入深度学习模型,期望模型不仅能理解题干要求,还能分析选项与材料的语义相关性并进一步选出最佳答案,这对深度学习模型的阅读理解能力提出了较高的要求。
图1 题干信息对答案选择的影响示例
为进一步探索高考阅读理解选择题任务,本文搜集了近15年中国各省市高考语文真题和模拟试卷,经过整理和筛查其中现代文阅读理解的单项选择题,最终形成了包含7 886个问题的高考数据集,并结合问题对材料和选项间语义关联的不同要求,提出一种基于BERT和题干要素语义增强的高考阅读理解自动答题方法。该方法通过构建问题模板获取题干中的关键要素信息,按照不同的题干要求划分问题类型并生成问题标签,然后通过改写题干内容使问题统一为选择与材料信息语义最为接近的选项,之后使用BERT模型对材料、题干和选项信息的语义一致性进行分析,最终结合问题标签信息挑选出答案。通过在高考数据集中的实验,本文模型得到了有效验证。
早期比较著名的阅读理解数据集如Who did what[8]、MCTest[1]、CNN/DailyMail[9]、SQuAD[3]和NewsQA[10]等受到了诸多研究者的关注,在一定程度上推动了机器阅读理解技术的发展,但是这些数据集中大多数问题的答案通常是材料中的某个词组或一段连续文本,其问题难度相对较低,依靠简单的语义匹配方法即可得到很好的解答效果。近年来,语义推理成为阅读理解研究中的研究热点,出现了大量相关推理任务的数据集。这些数据集的提出代表着机器阅读理解任务开始不断向真实场景下的复杂推理问题方向发展,但其与真正复杂的综合推理任务还有一定的差距。如TriviaQA数据集[11]的答案常常需要跨越多句获取,而且问题和相关的答案句子添加了一些句子结构和词汇的变化,使得问答形式更贴近于真实生活,提升了作答难度,但其实并未涉及较多推理问题。针对英语试卷阅读理解题的大型数据集RACE[12]尽管包含有多步推理和全文总结等类型的复杂问题,但由于大量简单的问题的存在,无法准确衡量现有模型在复杂语义理解场景下的真实阅读理解水平。WikiHop[13]和Hotpot QA[14]数据集都是结合多文档信息实现多步推理的任务,在这两种数据集中几乎所有问题的解答均需要推理能力,但大多数问题仅在较少的推理步数内即可完成作答,并未实现真正的多步推理。还有源自中国司法考试的JEC-QA数据集[15],数据内容仅涉及法律领域的推理问题,解答过程依赖于大量专业知识的理解和常识知识的运用,这为推理问题的研究带来了新的挑战,但同时也限制了推理形式的多样性。
关于机器阅读理解的方法在国内外已有较多研究。Richardson等[1]提出一种启发式滑动窗口和词信息距离算法结合的方法在MCTest数据集中作答,通过简单的词位置信息分析材料与选项的语义联系。Narasimhan等[16]通过在联合概率模型中加入篇章关系特征实现作答,实验结果得到有效提升。Mrinmaya等[17]使用文本蕴含系统,将问题、选项和文章三者之间的关系转换为文本蕴含结构,从而实现答案的选取。Yin等[18]提出一种基于Attention[19]机制的CNN模型对问题与选项的拼接序列和文章信息进行语义匹配,进而判断答案。Wang等[20]结合双向LSTM[21]和Attention机制对文章、问题和选项三者信息进行协同语义匹配,在RACE数据集中取得较好的效果。Jacob等[4]提出BERT预训练语言模型,通过使用大规模文本语料库进行预训练,然后再对特定任务的小数据集微调,从而降低了单个NLP任务的难度,在语言表征方面产生了深远的影响,在多项机器阅读理解任务中取得了显著的进步。Yang等[22]针对BERT预训练模型无法同时引入上下文信息和处理长文本的问题进行改进,提出了XLNet预训练模型,在多项机器阅读理解任务中的作答效果超越了BERT模型。Lan等[23]提出一种轻量级的BERT预训练模型,即ALBERT,通过简化原版BERT模型的参数量,缩减预训练过程的时间,同时增大预训练数据量,在机器阅读理解任务中得到了非常优异的实验效果。
尽管深度学习技术在机器阅读理解领域已取得长足的进展,但面向高考阅读理解的相关研究技术仍相对落后,多数研究仍在使用传统的自然语言处理和机器学习方法。李茹等[5]提出一种基于题干与选项语义一致性的判别模型,通过结合篇章对题干的相关度和对选项的支持度,定义了联合打分机制,并加入句子相似度特征、反义匹配特征和否定特征三个语义特征来对篇章、问题和选项三者的关系进行建模,进而判断三者语义一致性,最终完成作答。郭少茹等[6]提出一种基于多维度投票算法的句子语义相关度计算方法,该方法采用投票算法的思想,将词袋模型、HowNet、Word2Vector及汉语框架网(Chinese Frame Net,CFN)语义场景四种不同的语义相关性度量方法集成,对材料和选项进行语义相关度分析,采用投票算法的思想进行集成,最终选取到相关问题的最佳选项,所使用的数据为全国各省语文真题中的192道科技文类选择题。关勇等[7]重点关注高考阅读理解中标题选择类问题,通过结合双向LSTM模型构建标题与篇章要点的相关度矩阵,同时融入标题结构特征,最终选出与篇章最相关的标题。
为进一步探索深度学习技术在高考阅读理解任务中的应用情况,本文使用多种深度学习的方法解答高考阅读理解选择题,并通过分析高考阅读理解选择题数据的特点,提出一种基于BERT和题干要素语义增强的高考阅读理解自动答题方法。
本文提出的基于BERT和题干要素语义增强的高考阅读理解自动答题方法(BQS)的模型整体架构如图2所示,主要包括三个部分:题干要素分析、材料与选项的语义一致性分析和答案选择。首先在题干分析阶段对题干内容进行分析,依据问题中包含的关键要素信息生成问题类型标签并通过改写题干信息统一题干要求;然后在语义一致性分析阶段结合BERT模型计算材料、问题和选项三者之间的语义相关度;最终在答案选择阶段依据得到问题标签和四个选项的语义相关度选择最合适的选项作为答案。
图2 基于BERT和题干要素语义增强的高考阅读理解自动答题方法的模型架构
本文方法是一种基于BERT模型的深度学习方法,因此作答前需要对模型进行训练。模型使用一个四元组Gi代表一组输入,Ar表示模型的输出,即模型最终预测的答案选项序号,具体公式如式(1)和式(2)所示。
Gi=(P,Q,Oi,L)
(1)
Ar=Max(f(G1),f(G2),…,f(Gk))
(2)
式(1)中:P表示输入的材料信息,Q表示相关问题,Oi(i∈{1,2,…,k})表示选项信息,L(初始值为0)表示问题类型标签。式(2)中:f(·)表示模型预测选项为正确答案的概率值,Max(·)表示选取最大值的序号。
在高考阅读理解选择题中,通过题干内容中的一些关键要素信息可以直接分析出问题考查的主题范围以及正确答案与材料之间的语义关联。以表1所示的问题六为例,根据问题描述,可以看出考查内容主要围绕材料中“生物多样性危机”这一相关主题,同时依据题干中关键词“不属于”分析得出正确选项应与材料中“生物多样性危机”这一主题内容的语义一致性关联程度最低。
表1 高考阅读理解问题类别示例
按照题干内容要求的不同,本文将正确答案与材料的语义联系简单地划分为两类:一致和不一致,并以此定义问题类别,具体问题类别样例如表1所示。对于不一致类问题,本文整理如“不符合文意的一项”“不正确的一项是”“不属于…的一项是”等包含否定词的问题形式模板来判断,除此之外,均定义为一致类问题。
在划分问题类型的同时生成问题标签信息,并将不一致类问题通过反义词替换等操作改写为一致类问题,具体改写示例如图3所示。
图3 问题改写示例
在题干要素分析阶段,得到改写后的新问题和问题标签信息,其形式化分析过程如式(3)所示。
(P,Q′,Oi,L′)=R(G)
(3)
式中:R(G)表示对原始输入经过题干要素分析处理后的操作;Q′表示经过改写后的新问题;L′表示问题标签,取值为1或-1,当问题为一致类问题时,L′=1,否则L′=-1。
本文模型以BERT模型结构为基础,网上公开的BERT-base预训练模型参数为模型初始化参数,使用高考数据集进行模型训练,最后通过训练好的模型计算得到材料与选项的语义相关度分数,完成语义一致性分析。在训练过程中,首先将改写后的问题Q′和选项Oi直接拼接,形成新的文本拼接序列C,然后将文章P和拼接序列C按照“[CLS]P[SEP]C[SEP]”的形式作为BERT模型的输入序列,获得BERT模型最后一层隐状态序列的第一个Token即“[CLS]”的向量作为该选项与材料的语义一致性特征表示,最后经过一个线性映射函数得到选项与材料的语义相关度分数,具体如式(4)-式(6)所示。
C=concat(Q′,Oi)
(4)
Bi=BERT(P,C)
(5)
Ri=WBi+b
(6)
式(5)中:Bi表示选项Oi与材料P语义一致性特征表示。式(6)中:Ri(i∈{1,2,…,k})表示选项Oi与材料P的语义相关度分数,W和b分别为模型训练时需要学习的权重和偏差参数。
由于在题干要素分析阶段,不一致类问题被统一改写为一致类问题,因此在模型训练过程中,不一致类问题的答案也相应由一个改为多个。基于此,本文将模型每条数据的损失值的计算当作多标签任务损失值的计算。对于同一问题下每个选项,采用二元交叉熵函数计算选项的损失值,最终将所有选项的损失值求和计算平均值,作为每条数据的损失值,计算公式如式(7)和式(8)所示。
Si=sigmoid(Ri)
(7)
(8)
式(7)中:Si表示选项Oi是改写后新问题Q′对应答案的概率值大小。式(8)中:yi取值为0或1,yi=0表示选项Oi不是问题Q′的答案,yi=1表示选项Oi是问题Q′的答案,L(Oi|P,Q′)表示选项Oi是问题Q′正确答案的损失值。式(9)中:L(Ar|P,Q′)表示对于问题Q′预测结果的整体损失值,是其对应的多个选项的平均损失值。
选择与材料语义相关性最大的选项还是最小的选项是由题干信息决定的,因此在得到同一个问题下每个选项对材料的语义相关度分数Ri后,需要结合题干要素分析阶段得到的问题标签L′,对语义相关度分数进行更新,强化对题干信息的理解,即对其大小顺序进行重排序。本文采用语义相关度分数Ri与问题标签L′相乘的方式进行重排序,当L′=1时,原有一致性程度分数大小不变,大小顺序保持不变,当L′=-1时,原有一致性程度分数均取反,大小顺序实现逆排序。具体如式(10)所示。
重排序后,选项Oi是正确答案的概率计算公式如式(11)所示。
在测试阶段,本文选取概率值P(i|Q,P,Oi)最大的选项作为预测的答案。
现有的一些高考阅读理解选择题研究工作所使用测试数据较少且题型单一,难以准确地评估当前高考阅读理解任务整体的研究进展。因此,本文搜集了近15年中国各省市高考语文真题和模拟题,挑选其中的现代文阅读理解单项选择题,经整理和筛选质量较高的数据,最终形成高考语文阅读理解单项选择题数据集,简称高考数据集。同时在本文实验中,使用高考数据集完成模型的训练和测试。
高考数据集由7 886个问题和3 179篇相关材料组成,每篇材料可能包含多个问题,材料的主题内容涉及科技、社会、生物、医学、历史、艺术和文化等多个领域,同时每个问题有四个选项,其中仅有一项为正确答案。本文设置每条数据由一篇材料、一个问题、四个选项和一个正确答案组成,具体数据形式如图4所示。
【2019年北京卷·高考真题】材料三:……多伦多、波士顿等城市里的白车轴草,为提高抗寒性而舍弃了释放氰化物的能力。释放氰化物可抵御来自食草动物的威胁,但抗寒性会降低。而在市中心,城市高温使得积雪极易消融,没有了积雪的覆盖,植物就难以抵御夜间冰冻。……问题:根据材料三,下列理解不符合文意的一项是A、 白车轴草为抵御积雪的覆盖而舍弃了释放氰化物的能力,这与城市高温有关。B、 哺乳动物因夜行性增强而改变了习性,繁殖能力降低,这与人类的活动有关。C、 城市白足鼠可能因为吃了比萨饼等食物,涉及消化的某种基因出现过度表达。D、 路灯吸引并聚集了大量的大型昆虫,家蝠或因捕食它们而颅骨体积不断增大。答案:A
本文按照约8∶1∶1的数据数量比例将高考数据集划分为训练集、验证集和测试集,具体数量如表2所示。同时为了避免答案分布不均匀,本文通过调整选项位置,将训练集、验证集和测试集中的A、B、C、D四种不同答案类型比例均设置为1∶1∶1∶1。
表2 高考数据集数量划分情况
为了验证本文方法的有效性,本文设置了一些较为常见的阅读理解基线模型进行对比,具体包括:
1) Co-Matching[20]使用双向LSTM编码器对文章、问题和选项的词向量表示分别进行语义编码,然后针对文章中每一句话的语义编码,通过注意力机制使其分别与问题、选项编码进行语义编码交互并拼接起来。随后,将每句话的拼接编码按照在文章中的顺序进一步拼接,通过一层双向LSTM解码器,得到文章对选项支持度,最终选取支持度最高的一项作为正确答案。本文的模型实验使用网上预训练好的微博中文词向量作为文章、问题和选项的词向量表示。
2) BERT[4]的核心是由多个双向的Transformer[19]编码器堆叠而成的,其优势在于获取丰富的文本特征表示。本文结合其模型结构,使用网上公开的BERT-base版本中文预训练模型参数为初始化参数,通过高考数据集进一步微调,得到最终的BERT模型。
3) DCMN[2]通过使用BERT模型分别获取材料、问题和选项相关上下文的编码表示,然后结合注意力机制,使材料、问题和选项三者两两间进行双向的语义编码交互,从而实现双向匹配的阅读理解策略,并且在多个阅读理解任务中有一定的提升效果。本文实验中的DCMN模型是基于本实验的BERT模型进行的复现。
4) BERT-wwm[24]考虑到中文和英文的差异性实现了对原始BERT模型的改进,在预训练阶段通过全词掩码操作替代了原有的基于WordPiece的分词方式,使得模型更适用于中文文本的处理。本文对该模型的实验初始化参数采用网上公开的中文base版本。
5) XLNet[22]是一种自回归语言模型,通过引入排列语言模型和Two-Stream自注意力机制,不仅解决了BERT模型在预训练和微调阶段不一致的问题同时实现了双向上下文的建模。除此之外,模型还引入Transformer-XL[25]机制,解决了Bert模型输入文本最大截断长度限制的问题。本文对该模型的实验初始化参数采用网上公开的中文base版本。
6) ALBERT[23]是BERT预训练模型的一种精简改良版本,它通过两种参数削减技术解决了BERT模型参数过大、训练过慢的问题,同时提出一种句间连贯性预测任务,使模型在语言层面学习到更细粒度的区分。本文对该模型的实验初始化参数采用网上公开的中文tiny版本。
本文方法将Google官方公开的中文BERT-base预训练模型作为初始化模型,使用高考训练集进行模型的微调,最终使用微调后的模型进行答案的选择。在微调过程中,epoch设置为6,学习率设为0.000 01,输入的文本序列最大截断长度设为450,batch size设为40。
3.4.1对比模型实验
本文分别使用Co-Matching、BERT、DCMN、BERT-wwm、XLNet、ALBERT和BQS(本文方法)在高考数据集上进行训练和测试,以答题准确率作为模型的评价指标,具体的实验结果如表3所示。
表3 各模型在高考数据集的实验情况(%)
从表3可以看出,本文方法在验证集和测试集中的答题准确率都是最高的,其中验证集准确率达到了42.13%,测试集准确率达到了42.38%。与其他基线模型相比,作答准确率提升了约10%。
同时,依据表3数据可以发现,对比实验中的几种深度学习作答模型在高考阅读理解任务中作答效果普遍较差,答题准确率基本在30%左右,这表明现有的一些基于深度学习方法的阅读理解模型在高考阅读理解任务中的适用性较差。
3.4.2不同问题类型的作答情况
为了探究本文方法在不同问题类型中作答效果提升的具体情况,按照上述题干要素分析部分中定义的一致类问题和不一致类问题,将测试集划分成两部分,并分别使用本文模型作答,同时与BERT模型的作答情况进行对比,其具体实验结果如表4所示。
表4 BERT与本文方法在测试集不同类问题中的作答情况(%)
可以看出本文方法相比BERT模型在两类问题中的作答准确率均有不同程度的提升,其中一致类问题的准确率提升了将近18百分点,而不一致类问题仅提升了约5百分点。本文方法将不一致类问题全部改写成一致类问题,使模型在训练过程中更关注与材料语义相关度较高的选项,更易于分析一致类问题,因此一致类问题的作答效果提升相对明显。
显然,尽管两类问题的作答效果均有所提升,但准确率仍偏低。通过分析答题错误的样例,我们了解到本文方法仅从题干内容的角度增强了材料与答案之间的语义一致性判断,还有较多涉及语义推理和常识知识的问题尚未得到有效解决。
3.4.3模型不同实验参数的影响
为进一步验证本文方法的有效性,观察不同实验参数对实验结果的影响。本文分别选取模型输入文本的最大截断长度和训练轮数为主要影响参数,在其他参数相同的情况下进行训练,并分别在验证集和测试集中进行实验,实验结果如图5和图6所示。
图5 不同截断长度对实验结果的影响
图6 不同训练轮数对实验结果的影响
可以看出,不同参数确实会对实验结果造成一定的影响,但总体来说,作答效果趋于稳定,在验证集和测试集上的作答准确率均在39%~43%之间,已远远超过其他对比实验模型的作答准确率,进一步验证了本文方法在高考阅读理解选择题任务中的有效性。
3.4.4使用EDA方法增强高考数据的实验
为探索高考数据量对模型的影响,本文使用EDA方法[26]进一步扩充数据,即通过同义词替换、随机插入、随机替换和随机删除四种操作对训练集中的材料和选项进行数据增强。最终,训练集由原先的6 310条数据增加至11 517条,之后使用本文方法重新训练模型并进行测试。具体实验结果如表5所示。
表5 使用EDA方法增强数据的实验情况(%)
由表5可以看出,通过结合EDA数据增强方法,尽管训练数据增加将近一倍,但实验准确率却未能提高。由此分析可知高考数据集作答准确率无法通过简单的数据增强方法得到有效提升,需要进一步考虑扩充后数据的质量。
本文针对高考阅读理解选择题任务,构建了高考语文现代文阅读理解单项选择题数据集,并结合深度学习方法,提出了一种基于BERT和题干要素语义增强的高考阅读理解自动答题方法。该方法对高考数据题干信息采用模板匹配的方式进行分析,获取题干内容的关键语义要素信息,并依据关键信息生成问题标签,同时以改写题干信息的方式统一题干要求,降低后续BERT模型在语义一致性分析阶段的理解难度,使BERT模型在语义一致性分析阶段更专注于材料与选项信息语义相关性程度的判断,不需要关注题干对答案选择的影响。实验结果表明,在作答高考阅读理解选择题任务时,本文方法相比其他常见深度学习方法的作答准确率更高,适用性更强。
尽管本文提出的模型在高考阅读理解任务中取得了较好的作答效果,但是距离实现真实人类的作答效果仍有很大的差距。在高考阅读理解数据中,答案信息不仅会涉及材料局部内容,也可能需要从材料整体内容的角度考虑,并且需要结合逻辑推理的方法和常识知识进行解答。因此在未来的高考阅读理解研究工作中,需要深入挖掘复杂的语义推理关系,并结合常识知识强化材料、题干与选项的深层语义表示,这是目前机器阅读理解研究的难点,也是我们下一步要重点研究的内容。