基于多视角匹配和比较-聚合框架的文本匹配模型

2022-04-29 03:51田学志王同喜
电脑知识与技术 2022年4期
关键词:自然语言处理深度学习

田学志 王同喜

摘要:机器理解、答案选择和文本蕴涵等许多自然语言处理任务都需要对序列进行比较。序列间重要单元的匹配是解决这些问题的关鍵。文章引用了一种基于多角度匹配的方法来改进通用的“比较聚合”框架的文本匹配模型。给定两个句子p和q,模型首先使用预训练的词嵌入模型将其转换为向量矩阵,然后对其进行编码使每个词都能获得上下文信息,接下来对编码后的两个句子进行多视角匹配,然后使用卷积神经网络将匹配结果聚合成定长的匹配向量,最后基于匹配向量进行决策。将改进后的模型在WiKiQA和Quora数据集上进行了测试,实验结果表明相比原来的模型性能有较大的提升。

关键词:深度学习;自然语言处理;文本匹配;文本相似度

中图分类号:TP311     文献标识码:A

文章编号:1009-3044(2022)04-0103-03

1 引言

最近,对序列匹配问题的一些研究的一个共同特点是使用了“比较-聚合”框架[1]。在这样的框架中,两个序列的比较是通过比较两个分别代表整个序列的向量来完成的,然后聚合这些比较结果,做出最终决定。然而框架[2]中的比较部分的组成单元选择过于单一,并且比较函数过于简单,不能很好比较两个序列中的语义相似性。所以在本文中,笔者引入了一种多视角、多比较决策的比较匹配方法[3]。

2 问题描述

可以将QA任务的每个例子表示为一个包含三个元素的元组(P, Q, y),其中P= (p1, ..., pj, ..., pM)是一个长度为M的句子,Q= (q1, ..., qi, ..., qN)是另一个长度为N的句子,y∈ Y是表示P,Q之间关系的标签。QA任务可以表示为基于训练集估计条件概率Pr(y|P, Q),并通过y*= arg maxy∈YPr(y|P, Q).预测测试示例的关系。具体地说在问答匹配任务中P是一个问题,Q是一个候选答案,Y={0,1},y=1表示Q是对P的回答,y=0则表示不是。

3 方法

本节,首先在第3.1小节介绍比较-聚合框架模型,然后在第3.2小节中给出引入的多角度匹配操作。

3.1 模型介绍

笔者提出的基于多角度、多比较策略的比较-聚合框架模型来估计概率分布Pr(y|P, Q)。图1显示了模型结构,模型分为以下五个层次。

1)词嵌入层

这一层的目标是用预训练的GloVe模型[4]将P和Q中的每个单词用d维向量来表示这一层的输入是两个由单词序号组成序列,输出是两个由词向量组成的序列P: [p1, ...,pM]和Q: [q1, ...,qN]。

2)上下文表示层

该层使用递归神经网络来处理这两个序列,使用LSTM[5]的改进版本,其中只保留用于记忆有意义单词的输入门。其中⊙为逐元素相乘,W和b是要学习的参数,Wi、Wu∈Rl×d,bi、bu∈Rl。“b⊗eX”表示将偏置向量b重复X次。

3)比较层

这是模型的核心层。这一层的目标是将P的每个上下文嵌入(时间步长)与Q的所有上下文嵌入(时间步长)进行比较。如图1所示,将p的每个时间步与q的所有时间步进行多角度匹配操作⊗得到匹配结果T=[tp1,...,tpM],将在第3.2小节中详细介绍⊗这一操作。这一层的输出是一个匹配向量序列(图1中⊗操作的正上方),其中每个匹配向量对应于一个时间步与另一个句子的所有时间步的匹配结果。

4)聚合层

该层用于将两个序列的匹配向量聚合成一个定长匹配向量。将匹配向量输入单层CNN网络进行聚合得到一个定长匹配向量。

其中r∈Rn×l,n为CNN的窗口数,文中使用的CNN结构为text-CNN[6]中所使用的结构相同。

5)预测层

该层使用了一个两层前馈神经网络并使用SoftMax激活函数来评估概率分布Pr(y|P, Q)。

3.2 多角度匹配

多角度匹配首先定义一个相似度函数

其中v 1与v 2表示的是两个d维度的向量,W ∈ R l × d 是权重,其维度为( l , d ),其中l表示的是匹配的角度数量,结果m是一个l维度的向量,m = [ m 1 , . . . , m k , . . . , m l ]每一个mk表示的是第k个角度的匹配结果,其值的相似度计算方法如下

如图2所示,fm有四种策略来求相似度。

(1) Full-Matching.如图2(a)所示,该策略会把序列P每个时间步pi和序列Q最后一个时间步qN进行相似度计算。

(2) Max-Matching.如图2(b)所示,该策略会把序列P每个时间步pi和序列Q每个时间步qj进行相似度计算,最后只保留每个维度的最大值。

(3) Attentive-Matching.如图2(c)所示,该策略首先会计算序列P每个时间步pi和序列Q每个时间步qj余弦相似度,然后用该相似度作为对应时刻的权重与序列Q加权平均得到注意力加权的序列Qmean,最后求序列P每个时间步pi和序列Qatt每个时间步的相似度。

(4) Max-Attentive-Matching.如图2(d)所示,该方法和Attentive-Matching类似,只不过把加权求平均改为求最大值。

将这四种匹配策略应用到序列P的每个时间步上,并将生成的四个向量串联起来作为序列P的每个时间步的匹配向量。

4 实验及结果

4.1 数据集

本文采用公开的WikiQA数据集和Quora数据集,其中WikiQA数据集由问题ID、问题、回答ID、回答和标签组成,标签为0表示不是答案,为1则表示是答案,数据集有20360条训练数据、2733条验证数据、6165条测试数据。而Quora数据集同样由以上特征组成,但是标签为0表示语义不同,为1则表示语义相同,数据集有404000条数据,本文按8:1:1将其划分为训练集、验证集、测试集。

4.2 模型参数设置

词嵌入层使用使用预训练的glove.6B.300d,里面包含常用英文单词的词向量,向量维度为300,问题长度为30,答案长度为90,batch_size为64,所有隐藏层节点数均为128,dropout为0.5,学习率为0.001,匹配角度数为8。

4.3 实验结果及分析

首先验证匹配角度数量对实验结果的影响,将匹配角度数量分别设置为{4,8,12,16,20},在其他参数不变的情况下在Quora数据集上进行测试。结果如图3所示,可以看到模型就算是只增加4个匹配角度也能有较大的提升,但不宜增加过多,匹配角度数量大于16之后虽然还能提升但会增加模型训练难度。

笔者还验证了四种匹配策略在该模型上的有效性。每次测试都会去除一种匹配决策,并与全匹配策略和改进之前的策略进行比较,在Quora数据集上测试。结果如表1所示,从表中可以看出去除任何一种匹配策略都将影响模型的性能,并且明显优于改进之前的策略,验证了匹配策略在模型中的有效性。

最后对比了模型在采用改进之前的策略和改进之后的策略在WikiQA数据集上的测试结果,结果如表2所示。可以看出改进匹配策略之后模型性能有较大的提升。

5 结束语

本文将一种基于多视角的匹配策略引用到基于“比较聚合”框架的文本匹配模型中在性能上取得了较大的提升,但仍然有很多提升空间,还可以在多个粒度上来表达句子并在不同粒度上进行匹配,在上下文表示层还可以使用更高级复杂的基于RNN的网络来提高模型性能。

参考文献:

[1] Wang S, Jiang J. A compare-aggregate model for matching text sequences[J]. arXiv preprint arXiv:1611.01747, 2016.

[2] Wang Z, Bian W, Li S, et al. Improved Compare-Aggregate Model for Chinese Document-Based Question Answering[C]//National CCF Conference on Natural Language Processing and Chinese Computing. Springer, Cham, 2017: 712-720.

[3] Wang Z, Hamza W, Florian R. Bilateral multi-perspective matching for natural language sentences[J]. arXiv preprint arXiv:1702.03814, 2017.

[4] 周艷平,朱小虎.基于正负样本和Bi-LSTM的文本相似度匹配模型[J].计算机系统应用,2021,30(4):175-180.

[5] 孟金旭,单鸿涛,万俊杰,贾仁祥.BSLA:改进Siamese-LSTM的文本相似模型[J/OL].计算机工程与应用:1-10[2022-01-04].http://kns.cnki.net/kcms/detail/11.2127.TP.20210726.0907.014.html.

[6] 郭知鑫,邓小龙.基于BERT-BiLSTM-CRF的法律案件实体智能识别方法[J].北京邮电大学学报,2021,44(4):129-134.

收稿日期:2021-09-15

作者简介:田学志(1998—),男,湖北武汉人,硕士,学生,研究方向为自然语言处理。

猜你喜欢
自然语言处理深度学习
基于组合分类算法的源代码注释质量评估方法
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析