基于多知识源融合的级联式常识问答方法

2022-06-07 06:14李志峰邹博伟李烨秋金志凌洪宇
关键词:常识编码选项

李志峰,邹博伟,李烨秋,金志凌,洪宇*

(1.苏州大学 计算机科学与技术学院,江苏 苏州 215000;2.新加坡资讯通信研究院,新加坡 999002)

0 引言

常识即人类社会对同一事物普遍存在的日常共识,常识推理在日常生活中扮演着重要的角色,而常识问答任务考验的正是模型的常识推理能力。本文聚焦多项选择式常识问答,这类任务需要模型针对给定的问题进行推理,从而选择最为贴切的答案,与之相关的数据集如OpenbookQA[1]、CommonsenseQA[2]( 简 称CSQA)等。区别于机器阅读理解和事实性问答等传统问答任务,常识问答通常只给出题干,而没有给出相关的背景知识。表1列举了CSQA数据集中的一个样本,所有候选答案都与问题描述的沟通场景存在关联性。回答该问题,模型不仅要理解问题和选项的语义,还需要具备相关知识,如“老板需要员工向他汇报消息”,才能推理出正确选项B。在缺乏相关常识背景的情况下,根据问题对答案进行推理,这正是常识问答任务的难点所在。

表1 CSQA数据集中的样本示例Table 1 An example from CSQA

现有方法将预训练语言模型引入常识问答研究,如 BERT[3]、RoBERTa[4]等。训练这类模型的语料规模庞大,因此,这些模型在预训练阶段可以将一些和常识相关的语言现象编码到参数中,从而隐式地学习到同类常识的编码方式。但这类方法受制于模型自身的参数量和预训练语料所蕴含的知识量,仍存在学习和推理能力上的局限性。换言之,相较于高质量的知识库,混杂了各类数据的预训练语料,不能有针对性地引导模型学习常识之间的联系。

一些由专家构造的知识库,可以为模型补充相关常识背景,如“the effect of communicating is transfer of information.”(译文:沟通的效果是信息的传递)。显式地引入这类知识可以建立问题和候选答案的联系,为模型的判断提供依据。现有的方法通过检索、匹配等方式从知识源中获取相关知识,但这些方法获得的外部知识往往包含大量的噪声,它们对常识推理没有帮助。然而,由于缺少判断知识和问题相关与否的分类标注数据集,因此难以直接训练用于噪声过滤的模型。

此外,虽然外部知识源可为模型提供常识背景,但单一知识源蕴含的知识量有限。引入多个外部知识源,有助于扩充知识数据并提供更为丰富多样的信息。然而,不同的外部知识源存在异构现象,在语言表达、信息类型和数据组织上存在明显差异。因此,同时根据多种知识源的知识进行推理也是一个挑战。

针对以上问题,本文从外部知识的获取、多知识源信息的融合推理两个角度出发,提出了一种基于多知识源融合的常识问答方法。该方法采用贪心策略从两个外部知识源筛选知识,将筛选后的知识分别与问题选项组合编码,再融合多个知识源的编码表示,进行答案推理。算法在CSQA数据集进行实验,并选取了ALBERT[5]和 GRHEK[6]基线方法进行比 较。结果表明,本文的方法在测试集的性能为78.3%,与两个基线方法相比,分别提升了4.8%和3.0%。总体而言,本文的贡献包括如下两方面:

(1)分析了外部知识质量对模型的影响,提出了一种基于贪心策略的知识筛选方法。

(2)提出了一种融合多知识源的常识问答方法,有效地融合了多知识源的信息,并据此进行常识推理。

本文结构如下,第1节介绍常识问答领域的研究状况;第2节讲解本文提出的基于多知识源融合的级联式常识问答方法;第3节比较了本文方法与现有方法的性能,并针对知识筛选方法和多知识源融合方法的有效性进行了验证;第4节对本文的工作进行总结并提出未来的研究方向。

1 相关工作

传统的问答任务主要考验模型的语义理解能力,通常在给定的上下文中即可找到问题的答案。为进一步评估模型学习常识以及根据常识进行推理的能力,研究者们提出了许多常识推理类的问答数据集,例如,多跳推理问答Hotpot QA[7]、先验常识问答 CSQA[2]、社交常识问答 Social IQA[8]、典型情境问答 Proto QA[9]等。这些数据集涵盖抽取式、多项选择式和生成式等多种问答形式,而本文主要研究的是多项选择式常识问答任务。该任务的核心是判断每个候选答案的合理性,基本的做法是将问题与候选答案分别组合,构成多个问答对,再利用模型为每个问答对的合理性打分,分数最高组所对应的候选答案即为模型的推断结果。

常识问答领域的早期研究主要围绕词嵌入技术和循环神经网络开展,例如,Liu等[10]提出的基于知识增强的词嵌入技术。而随着大规模预训练模型的出现,模型的学习和推理能力有了巨大的提升。研究者们在常识问答任务上应用预训练模型,并围绕其提出了一系列改进方法,例如,Zhu等[11]提出的基于对抗训练的方法,在训练数据上增加扰动从而提高模型的常识推理能力。但预训练模型对常识的学习能力存在局限,相较于人类的水平,这些完全依赖预训练模型的方法还有较大提升空间。

一些外部知识库可以为模型提供额外的相关知识,已有研究将外部知识与预训练模型相结合,以弥补模型在常识问答任务上的不足。这些研究引入的知识源主要分为结构化知识源和无结构知识源,例如,Lin等[12]引入的ConceptNet[13]、Chen 等[14]引入的剑桥词典①https://dictionary.cambridge.org/就属于结构化知识源,这类知识源以图状或层级的形式组织,主要通过基于规则匹配的方法获取知识;Lü 等[6]引入的 Wikipedia②https://www.wikipedia.org、PLA Academy[15]引入的 Open Mind Common Sense[16]则属于无结构知识源,这类知识源主要以自由文本的形式组织,可利用基于语义检索的方法从中获取知识。这些研究使用的架构主要有两类:预训练模型与图神经网络的混合架构、纯粹的预训练模型架构。例如,KagNet[12]和 MHGRN[17]是使用预训练模型和图神经网络混合架构的典型,他们善于利用图神经网络编码外部知识并据此进行推理;而 DREAM[18]和 Path Generator[19]则是纯粹的预训练模型架构,他们以文本序列的方式组织外部知识,完全利用预训练模型进行推理。

2 基于多知识源融合的级联式常识问答

本文提出的基于多知识源融合的级联式常识问答方法由两部分组成:1)外部知识获取与筛选模块;2)多通道信息融合推理模型。方法的框架如图1所示,外部知识获取与筛选模块根据问题和选项从外部知识源获取相关知识,并利用贪心策略对知识进行噪声过滤;信息融合推理模型则采用多通道知识编码方式,融合多个知识源中不同类型的知识信息进行表征编码与常识推理。

图1 本文方法的整体架构Fig.1 Overall architecture of the method proposed in this work

2.1 外部知识获取与筛选

CSQA数据集中的样本包括给定的问题、五个候选答案和问题概念(问题中的关键词或短语)。构建CSQA数据集时,数据标注员根据问题概念和候选答案编写问题。因此,外部知识获取与筛选模块旨在查找和获取与问题概念以及候选答案相关的知识。如图1左侧“外部知识获取与筛选模块”所示,该模块从Open Mind Common Sense[16]知识库(简称 OMCS)和维基字典①https://www.wiktionary.org(Wiktionary,简称WKDT)两个外部知识源中获取知识并进行筛选。

2.1.1 基于语义检索的OMCS常识抽取

OMCS是一个大型常识知识库,由450 k条常识断言组成,这些常识断言的特点是能够建立概念之间的联系。例如,表2中第07条常识断言“convey information while communicating.”(译文:在沟通的同时传递信息)给出了两个概念“information”和“communicating”之间的联系。本文采用ElasticSearch②https://www.elastic.co工具为每个选项从OMCS知识库中检索相关常识断言。Elastic-Search以“问题概念+答案选项”为关键字进行检索,取出最相关的15条常识。

表2 基于贪心策略的外部知识获取方法示例Table 2 Knowledge retrieval methods based on greedy strategy

2.1.2 基于规则匹配的WKDT释义抽取

WKDT是一套开源且覆盖面广的词典,包含百万个英文词条,每个词条包含该词的多个释义表述。例如表2中的“communicating”在WKDT中有两个释义。由于问题概念与候选答案均为单词或短语,为了使模型能够获取更多语义信息,本文从WKDT中为问题概念与候选答案找到相关释义,并将其作为问题的上下文。具体地,本文采用匹配规则,依次在WKDT中匹配问题概念或候选答案对应的词条。匹配规则为:1)原文匹配;2)词形还原匹配;3)词形还原后正向最大匹配。以表2中选项B为例,模块优先采用文本的原始形式“transfer of informations”进行匹配;如未查询到相关词条,再对其进行词形还原得到“transfer of information”,并进行匹配;如仍未查询到结果,则采用正向最大匹配算法,依次采用文本的子串“of information”和“information”进行查询。本例中,模块最终以“information”作为检索词,在WKDT中匹配到对应的词条并将其作为选项B的上下文。本文采用上述的规则为CSQA数据集中99.8%的问题概念和选项概念匹配到了词条。

2.1.3 基于贪心选择策略的知识排序筛选

通过关键词检索和概念规则匹配,模块为问题概念和答案选项检索到了多条常识断言以及多个释义。然而,这些获取的知识中包括一些与问题选项无关的常识断言以及不符合语境的词条释义,本文将这些不相关的常识和不符合语境的释义称为噪声知识,如表2中OMCS的15号常识以及WKDT中“communicating”的01号释义。本文在开发集上进行了抽样统计,结果表明从OMCS和WKDT获取的知识中分别包含36%和44%的噪声知识。

因此,本文首先对获取的知识进行筛选,知识筛选的最优解是选出能支撑模型做出判断的知识。然而在实际测试中,待推理的答案不能作为已知条件参与上述全局最优的筛选过程,因此难以直接求得最优解。为此,本文提出一种基于贪心策略的知识排序方法,将筛选目标弱化为求较优解,即选择与问题选项相关的常识以及符合当前语境的释义(有效知识)。

首先分别为每个知识源(OMCS/WKDT)训练判断选项正误的二分类模型,模型由预训练模型和分类器组成。其中,模型的输入为问题、选项和外部知识的文本拼接序列,输入格式与图2中编码通道#2和#3相同;预训练模型对输入的文本信息进行编码;分类器采用非线性层,对句子整体的特征表示[CLS]进行降维,最后经sigmoid函数激活得到选项的分数。

从模型的预测结果中观察到,选项的分数受到候选知识的影响,相较于噪声知识,选项与有效知识组合往往会得到更高的分数。换言之,通过比较同一个选项在不同知识背景下的分数,一定程度上可以从候选知识中筛选出有效知识。基于此,本文设计了一种知识排序算法,如表3的算法所示。给定问题Q、选项组C和候选知识Kall,算法遍历每个选项,将当前选项Ci与候选知识输入模型,得到相应的分数(步骤2至4)。完成所有候选知识的分数计算后,算法根据该分数对选项Ci的候选知识进行排序。对于OMCS,取前k条常识断言作为筛选结果(本文在3.4节中对k的取值进行了实验和分析);对于WKDT,取排名最前的释义组合作为筛选结果。表2展示了获取的知识在排序前后的位置变化。

表3 候选知识排序算法Table 3 Candidate knowledge ranking algorithm

2.2 多通道信息融合推理

OMCS知识注重描述概念间的常识关系,而WKDT知识注重解释概念的含义,利用这两种知识需要不同的推理方式。为了让模型充分利用不同知识源的信息,本文提出一种多通道的信息融合推理模型。如图2所示,模型由基于预训练模型的信息编码通道、融合推理层和分类器组成。

图2 多通道信息融合推理模型Fig.2 Multi-channel information fusion reasoning model

2.2.1 基于预训练模型的信息编码通道

给定CSQA数据集的一个样本,本文用Q表示问题,用QC表示问题概念,用Ci表示第i个选项。知识获取与筛选模块为选项Ci提供了两个知识源的知识:k条OMCS常识断言,问题概念的释义Dqc和选项概念的释义Dci。首先,本文将问题、问题概念和选项拼接,构成CSQA问答文本[CLS]Q[SEP]QC[SEP]Ci[SEP],记 作SQ。将从OMCS获取的k条常识进行拼接,得到OMCS常识文本记作SO。最后,将问题概念和选项概念与对应的WKDT释义拼接,得到WKDT解释文本序列QC∶Dqc[SEP]Ci∶Dci[SEP],记作SW。其中概念和释义间的冒号用于帮助模型在语义上区分概念和释义。

针对以上三类不同的文本序列,本文采用三通道的文本编码架构,每个编码通道对应一个预训练语言模型,如图2所示。其中,通道#1仅对CSQA问答文本SQ进行编码;通道#2将问答文本SQ与OMCS常识文本SO拼接后进行编码;通道#3将问答文本SQ与WKDT解释文本SW拼接后进行编码。三个通道的输入均包含SQ,通道#1可以利用预训练语言模型本身具备的知识信息,而对于通道#2和#3,引入SQ使得模型编码外部知识时,倾向编码与问答文本相关的信息。最后,本文将三个编码通道输出的[CLS]向量作为多源的知识关系表征,即三个通道信息的独立编码表示,分别用HQ、HO和HW表示。编码过程如下:

其中,“;”符号表示向量拼接。这些向量表征将传递给融合推理层,使得来自多个知识源的信息进行深层次的交互。

2.2.2 融合推理层和分类器

给定上述来自不同编码通道的信息表征HQ、HO、HW,融合推理层对其进行拼接得到Hconcat,为了使不同通道的信息充分交互,本文利用非线性层对Hconcat进行维度不变的特征映射,形成融合的多知识源信息表示Hmerge:

其中,W1和b1是非线性层的参数,ReLU为激活函数。随后,分类器采用多层感知机对多知识源的信息表示进行降维,得到候选答案的分数S:

其中,多层感知机MLP包含两层,第一层是使用ReLU激活函数的非线性层,第二层是未使用激活函数线性层。

通过向量化操作,模型可以同时处理五个选项组合的输入。因此,经过公式(1-9)计算得到的分数S是一个五维向量,它存放了每个候选答案的分数。最后,应用softmax函数对分数S进行归一化,即可得到模型的输出结果P(每个选项为正确项的概率,概率最大项即为预测结果):

2.2.3 编码通道的分步训练

由于编码通道的参数量较大,同时训练多个通道易受到设备限制,因此本文采用分步训练方式(级联训练),即先独立训练三个通道的编码器,再固定其参数,训练融合推理层和分类器。本文首先在CSQA数据集上分别训练各编码通道对应的预训练模型。如图2虚线所示,在每个通道的预训练语言模型后接分类器。这些分类器采用线性层,对公式(2)、(4)、(6)中三个通道的编码结果HQ、HO和HW进行降维,再经softmax得到预测结果向量P^,该向量的每个维度表示对应的选项为正确项的概率:

其中,H表示通道输出的信息表征,分别为HQ、HO和HW;W2、b2是分类器的参数。完成训练后,模型断开分类器,保留三个编码通道作为编码器与融合推理层和图2中最右侧的分类器进行训练。

3 实验及分析

本节将首先介绍实验设置,再将本文所提方法与其他方法进行对比,最后展示消融实验的结果并进行分析。

3.1 实验设置

CSQA是多项选择类型的常识问答数据集,它根据ConceptNet中的实体构建,共包含12 102个样本。回答数据集的问题,需要结合常识并运用推理能力,对现有的预训练语言模型(如BERT,ALBERT,RoBERTa等)而言,回答这些问题是极具挑战的。为便于和相关研究进行比较,本文使用CSQA数据集发布者的训练集、开发集和测试集划分。由于数据发布者未公开测试集的答案标签,且每两周才能进行一次提交,本文仅在与其他方法对比时使用测试集上的性能,其余实验均汇报开发集上的结果。

本文使用CSQA排行榜的官方评价指标准确率(Accuracy,简称Acc)评估模型的性能,即模型正确回答的问题在所有问题中的占比。此外,本文主要使用ALBERT-xxlarge预训练语言模型作为编码器,该模型由12个共享参数的transformer层组成。模型输入的总长度设置为140,其中,问题及选项的最大长度为54;WKDT概念释义的最大长度为40;OMCS常识断言的拼接数量为3,每条断言的最大长度为25。模型在训练阶段的批量大小(batch size)设置为16,优化方法的学习率(learning rate)设置为1×10-5,学习率的热身比率(warmup rate)设置为 0.1,权 重 衰 减 比 率(weight decay)设 置为0.1。

3.2 对比方法

CSQA数据集是由标记员根据ConceptNet中的实体而构建的,在每个问题对应的五个选项中,有四个选项与问题概念存在直接关联,剩余一个选项则是人工添加的干扰项。直接利用ConceptNet中的实体关系会导致模型在处理人工添加的干扰项时变得容易,潜在地降低了任务难度。因此,CSQA数据集排行榜①https://www.tau-nlp.org/csqa-leaderboard根据是否引入ConceptNet知识库,将任务划分为两个赛道。注意,本文提出的方法虽引入了两个外部知识源(OMCS和WKDT),但未如基于ConceptNet的方法那样能够轻易地排除一个干扰项。

本文根据是否使用外部知识源,将对比的方法分成两类:1)未使用外部知识源的方法:如 BERT、RoBERTa、ALBERT 和 T5[20]等方法直接在训练数据上对预训练模型进行微调,这些方法体现了预训练模型学习常识知识和进行常识推理的能力。2)使用外部知识源的方法:引 入 Wikipedia 知 识 源 的 DREAM[18],引 入OMCS 知识源的 KEDGN[15],引入 ConceptNet②此类方法引入了ConceptNet,但并未直接利用其实体关系。的 QA-GNN[21],MHGRH[17],HybridGN[22],Path Generator[19]以 及 引 入 两 种 知 识 源 的GRHEK[6]。其中,Path Generator方法先训练生成模型学习ConceptNet中概念之间的关系,再利用该生成模型生成与问题选项相关的关系路径,最后采用ALBERT根据问题选项和关系路径进行判断;GRHEK方法引入了ConceptNet和Wikipedia知识源,分别用图神经网络和预训练模型对两种知识源的知识进行异构编码,再通过基于图的推理模块判断正确答案。

3.3 实验结果和分析

表4列出了本文提出的基于多知识源融合的级联式常识问答方法(Multi-Source Knowledge Fusion,简称MSKF)与其他方法的性能比较,其中,“*”符号标记了引入ConceptNet知识源的方法。

表4 本文所提方法与其他方法的性能对比Table 4 Comparison of the performances from different methods

组1中的方法均未引入外部知识,这些方法在性能上的差距反映了预训练模型在常识推理能力上的差异。造成该差异的主要因素是参数量,模型的参数越多,模型便越可能在预训练阶段学习到更多的知识信息。例如,T5模型的参数量为110 B,远大于其他模型(如ALBERT仅包含233 M参数),其在组1中达到最好性能。本文方法的性能优于组1中的方法,比采用相同预训练模型的基线方法ALBERT提高了4.8%。这表明外部知识为模型的常识推理提供了依据,从而克服了预训练模型在利用知识上的局限性。

组2中的方法均引入了外部知识,其中,除了GRHEK方法引入了两种外部知识源,其他方法均引入一种外部知识源。本文所提方法在开发集和测试集上均达到最好性能,这表明多个外部知识源包含更为丰富的知识信息;与使用两种外部知识源的GRHEK基线方法相比提高了3%,表明本文方法可以有效地融合多个知识源的外部知识,有效地利用这些知识信息进行常识推理。尽管组2中标注“*”的方法借助ConceptNet的信息,潜在地排除了一个干扰项,但本文方法的表现依然超过了这些方法。

3.4 消融实验

本文在开发集上通过消融实验,分析知识筛选方法和多通道信息融合推理模型的有效性。

3.4.1 知识筛选方法分析

本文首先以不使用外部知识的ALBERT模型为基准,在使用单一外部知识源的情况下,分析知识筛选方法对融合推理模型的影响。本文在进行筛选与未进行筛选的情况下,分别为每个知识源训练两个使用单一外部知识源的MSKF模型。实验结果如表5所示,对于未进行筛选的模型,其性能均低于基准模型,说明在未对知识进行筛选的情况下,引入的外部知识中可能包含较多噪声;而采用知识筛选方法后,模型性能均有较大提升,这说明本文提出的知识筛选方法能一定程度上消除噪声知识给模型性能带来的影响。

表5 引入知识筛选方法前后的性能Table 5 Comparison of performances before and after knowledge screening

此外,本文还分析了知识筛选方法在不同数量OMCS常识下的表现。实验将问答文本与不同数量的常识进行拼接,以此为输入分别训练多个ALBERT模型并进行比较(此处选用参数量较小的base版本)。根据是否采用知识筛选方法,实验分为两组:针对不进行筛选的实验组,取检索到的前k条常识作为输入;针对进行筛选的实验组,取排序后的前k条常识作为输入。实验结果如图3所示,在输入相同数量OMCS常识的情况下,采用知识筛选方法的模型均优于未进行知识筛选的模型。由此可见,知识筛选方法能够确保有效的知识在候选知识中排位靠前,模型的性能在k=3时就达到了较高水平。而未进行知识筛选的模型,由于受到噪声知识的干扰,在k≤4的情况下模型表现得与基准模型相当,甚至在k=1和k=3时性能低于基准模型;随着知识数量的增加(k=5,6),一些有效知识被包含进来,模型的准确率才获得提升。两组模型的不同表现说明本文提出的知识筛选方法有效地过滤了一部分噪声知识,提高了输入模型的知识质量。

图3 ALBERT-base在不同数量OMCS常识下的表现Fig.3 Performance of ALBERT-base with different numbers of OMCS

3.4.2 多知识源融合方法分析

为验证本文提出的多知识源融合方法的有效性,本文对比了其他两类知识融合方法:方法1将两种外部知识同时与问答文本进行拼接,输入编码通道;方法2采用本文方法的三通道编码方法,但三个通道的编码器共享参数。实验结果如表6所示,方法1的性能与基线方法相比有所下降,说明简单地拼接多种类型的知识可能会导致模型无法有效地进行问题和知识的交互;方法2的性能和基线方法相比略有提升,这说明将不同来源的知识单独编码一定程度上能增强模型的知识表征能力。本文所提方法性能优于上述两类方法,说明预训练模型根据多种类型知识进行推理的能力存在不足,而采用独立通道的编码器分别针对一种类型的知识进行编码,是弥补这种不足的有效方式。

表6 知识融合方法的对比Table 6 Comparison of knowledge fusion methods

本文所提方法使用了三个独立的编码通道分别对问题和不同类型的知识进行编码:通道#1的输入是问答文本,通道#2的输入是问答文本与OMCS常识文本的拼接,通道#3的输入是问答文本与WKDT解释文本的拼接。本文对不同的编码通道组合进行实验,结果如表7所示。通过观察可得如下结论:1)对比使用单一编码通道的模型性能(1-3行),可见引入单一的外部知识源对模型的性能提升有限;2)比较第4行和第2行以及第5行和第3行的结果,可以看出将问题选项与知识分开进行编码能更好地增强各通道信息的表征,从而提高模型的性能;3)比较第4、5行与第6行,可以看出采用多种知识源的模型比使用单一知识源的模型表现更好,达到了本文融合多知识源的目的;4)采用三个独立编码通道的模型(第7行)获得最佳性能,验证了本文所提多知识源融合方法的有效性。

表7 编码通道的消融实验Table 7 Ablation experiment of encoding channels

4 结论

本文提出了一种基于多知识源融合的级联式常识问答方法,该方法由基于贪心策略的知识筛选模块和多通道知识信息融合推理模型组成。多组对比实验的结果表明:1)本文提出的知识筛选方法能有效地过滤部分噪声知识;2)本文提出的多通道信息融合推理框架能较好地结合多知识源的信息进行常识推理。本文的研究聚焦在多项选择式常识问答,提出的方法可应用于结合外部知识对候选进行排序的问答匹配场景。为增强常识问答模型的泛用性,未来的研究工作将更多地关注生成式常识问答任务。

猜你喜欢
常识编码选项
HEVC对偶编码单元划分优化算法
住院病案首页ICD编码质量在DRG付费中的应用
生活中的编码
靠不住的常识
健康常识我知道
常识:哪杯更冰凉
跟踪导练(四)
阅读理解
跟踪导练(5)
单项填空精选练习100道