基于去偏对比学习的多模态命名实体识别

2023-02-04 05:46袁景凌
中文信息学报 2023年11期
关键词:实体语义语境

张 鑫,袁景凌,2,李 琳,2,刘 佳

(1. 武汉理工大学 计算机与人工智能学院,湖北 武汉 430070;2. 数字出版智能服务技术教育部工程研究中心,湖北 武汉 430070;3. 中国科学院 武汉文献情报中心,湖北 武汉 430071;4. 科技大数据湖北省重点实验室,湖北 武汉 430071)

0 引言

多模态命名实体识别(Multimodal Named Entity Recognition, MNER)作为命名实体识别的一个重要研究方向,由于其在多模态深度学习和命名实体识别领域具有很高的研究价值而受到越来越多的关注和广泛应用。MNER通过将图像作为额外的输入,极大地扩展了传统基于文本的命名实体识别[1-6]。其背后的假设为: 视觉信息有助于丰富文本中对应实体的语义,以此提高实体识别性能。

作为MNER的关键,显式对齐通常被认为可以挖掘出文本与图像之间细粒度的对应关系。然而,当图像中不具有与文本中的实体相对应的视觉对象时,这种显式对齐方法就难以实现。例如,在图1(a)中,显式对齐是将图片中的两个“人”与两个实体(“Kim Kardashian”和“Kanye West”)进行关联的有效方法。而在图1(b)中,显式对齐方法难以在图像中找到与“Miami”相对应的视觉对象来帮助文本中“Miami”的识别。在这种没有明确对应关系的情况下,使用视觉对象代表图像的方法[5]以及基于多模态图对实体与视觉对象关联关系建模的方法[6]均效果欠佳。

图1 Twitter平台中用户发表的文本及图片

近年来关于MNER的研究[5-6]主要集中在如何挖掘多模态语义单元(实体和视觉对象)之间的各种语义对应关系,这些工作认为通过显式对齐的方式将视觉对象用于指导实体的识别是有必要的。基于这样的出发点,这些方法[5-6]往往只反映了当图像中存在与实体相对应的视觉对象时的对应关系。因此,当图像中的视觉对象与文本中的实体在数量或语义上不一致时,视觉对象所带来的模态偏差可能会影响实体的准确识别。同时,根据本文统计,两个MNER基准数据集中不一致性数据的占比分别达到了49.32%和47.61%,因此急需有效缓解不一致性数据中视觉对象所带来的模态偏差。

图像作为文本的跨模态语义上下文,除了突出的视觉对象外,其背景中同样包含丰富的语义信息[7],特别是当图像中视觉对象稀疏时,这些背景信息可以有效模型判断帮助文本的实体类别。如图1(b)所示,我们难以从图像中找到较明显的视觉对象,然而它所包含的丰富背景信息同样有助于文本中的“Miami”的识别,本文将这种去除视觉对象之后所剩余的背景信息统称为“视觉语境”。基于这一观察,本文考虑引入视觉语境对文本语义进行补充,进一步缓解模态偏差,提高MNER性能。

基于上述动机,本文提出了一种基于去偏对比学习的MNER方法(Debias Contrastive Learning Approach,DebiasCL),利用去偏对比学习来缓解模态对齐中不一致性数据存在的模态偏差。具体来说,为了缓解偏差,本文首先提出一种视觉语境丰富的扩充样本挖掘算法,筛选出富含视觉语境信息的图像-文本对作为去偏对比学习的扩充样本;随后,借助去偏对比学习实现潜在语义空间的学习优化,使得图像与文本隐式地进行对齐;最后,通过一个MNER解码器对语义空间中的文本表示进行序列标记得到实体信息。与以往的方法相比,DebiasCL能在优化隐式对齐的基础上引入视觉语境信息,有效缓解模态偏差。本文工作的主要贡献如下:

(1) 提出一个基于去偏对比学习的MNER方法,该方法通过优化图文共享的潜在语义空间学习,实现二者的准确隐式对齐,提高实体识别性能。

(2) 在所提出的去偏对比学习中,将图像中的视觉对象密度用于指导视觉语境丰富的扩充样本挖掘,有效引入视觉语境信息,缓解不一致性数据存在的模态偏差。

(3) 为了验证所提出的方法对于模态偏差的缓解效果,本文对两个MNER基准数据集进行了不一致性统计,结果表明DebiasCL在高不一致性数据上的F1性能显著优于最先进的方法。

1 相关工作

1.1 多模态命名实体识别

由于社交媒体信息往往长度较短,且形式多样,常规基于长文本的实体识别方法[8-9]难以有效应对。近年来,研究者们开始利用互联网中丰富的视觉信息来帮助文本识别实体。Zhang[1],Moon[2]和Lu[3]等人率先对MNER任务进行了探索,他们采用对整个图像进行编码的方法,提出的多模态BiLSTM模型隐式地将两种模态信息进行交互。Yu等人[4]进一步探索了MNER领域的多模态Transformer模型,对图文之间的跨模态交互进行建模,为缓解模态偏差,提出实体跨度预测辅助模块指导最终预测。然而,较为简单的多模态交互在语义对齐上效果较差,难以挖掘出潜在的对应关系。近来,Wu[5]与Zhang等人[6]认为视觉对象可以作为细粒度的图像表示,以此为出发点,捕捉实体和视觉对象间的语义关系进行实体预测。这些方法[5-6]主要关注图像中的视觉对象,通过学习实体与视觉对象之间的关联权重实现显式对齐。与这些方法不同的是,DebiasCL试图通过结合对比学习以优化图文共享的潜在语义空间学习,进一步提升图文之间的隐式对齐效果,以达到更好的MNER性能。

1.2 对比学习

对比学习作为一种自监督学习方法,已经在各种计算机视觉和自然语言处理任务中取得了显著成功。其主要思想为通过拉近语义空间中正样本的距离,增大负样本的距离,以区分不同对象的高阶特征表示。一些研究者[10-12]所提出的使图像不同数据的增广表示在语义上相互一致的方法均取得了显著的效果,这些工作的主要区别在于采用了不同的数据增广方法,如图像的旋转、裁剪、缩放、颜色或饱和度变化等。与图像类似,自然语言处理领域的研究者们[13-14]也探索了适用于文本的数据增广方法,如词汇的删除、重排和替换等。然而,上述方法均只考虑了单模态数据下的对比学习,Li等人[15]提出的多模态预训练模型UNIMO则在训练过程中探索了多模态对比学习,通过对图像-文本对进行数据增广,将文本与视觉信息对齐到统一的语义空间当中。然而,其中图像-文本对数据增广主要体现为文本模态的变换,未考虑从视觉对象角度进行优化,而这正是MNER任务所面临的难点。受上述工作的启发,本文提出一种去偏对比学习,充分利用图像中的视觉对象信息,通过计算视觉对象密度指导视觉语境丰富的扩充样本挖掘,提高对比学习优化效果。

2 方法

给定一个由图像-文本对所组成的数据集,MNER旨在利用图像中的视觉信息帮助文本识别出其中所有的实体及其类型。

与经典的多模态双流结构相比,DebiasCL额外增加了一个去偏对比学习模块,整体框架如图2所示,包括三个部分: ①基于图文交互的表示学习; ②去偏对比学习; ③MNER解码器。本节将从这三个部分对DebiasCL进行详细介绍。

图2 基于去偏对比学习的多模态命名实体识别方法结构图

2.1 基于图文交互的表示学习

如何有效捕获图像-文本对充分融合后的特征表示是MNER任务的核心之一。对图像和文本分别进行特征编码可以有效获得模态自身的原始特征表示。对图文特征表示之间的潜在交互进行有效建模则可以进一步对各个模态语义进行丰富。因此,本节将从这两个方面对基于图文交互的表示学习进行介绍。

2.1.1 文本编码器

2.1.2 图像编码器

2.1.3 图文交互

为了更好地将文本信息与视觉信息进行语义上的交互,本文提出了一种多模态交互模块(Multimodal Interaction,MMI),该模块通过堆叠多个模态融合层对输入图文特征进行编码。在每个模态融合层中,MMI依次进行模态内融合和模态间融合来更新视觉和文本表示。随着迭代层数的增加,MMI最终学习到图文共享的潜在语义空间,并从中得到图像和文本充分融合后的准确语义表示。

其中,SA(Q,K,V)为一个多头自注意力函数,输入分别为同一模态的query矩阵Q,key矩阵K和value矩阵V。

其中,CA(Q,K,V) 为一个多头交叉注意力函数,输入分别为某一模态的query矩阵Q,另一模态的key矩阵K和value矩阵V。

为简单起见,在上面的描述和图(2)中均省略了归一化层和残差连接层。

2.2 去偏对比学习

与常规对比学习不同的是,去偏对比学习旨在通过引入视觉语境丰富的扩充样本优化学习,缓解模态偏差。对于不同特征分布的训练样本,对比学习所得到语义空间大不相同。对于相同的训练样本,通过不同的损失函数也会对训练结果产生重要影响。因此,本节将从这两个方面对去偏对比学习进行详细介绍。

2.2.1 去偏对比学习样本构建

在图文数据背景下的对比学习中,图像与文本之间先验的配对关系可以有效用于正负样本的构建,不同图像-文本间语义关联的相互对比可以有效缩小正样本之间的语义距离,扩大负样本之间的语义距离。然而,由于常规通过随机采样得到的正负样本之间差异往往较大,语义距离通常较远,对比学习只能学习到文本与视觉表示之间较粗糙的隐式对齐关系。因此,本文所提出的去偏对比学习尝试在随机样本的基础上挖掘得到视觉语境丰富的扩充样本,进一步优化潜在语义空间的学习,在实现隐式对齐的同时引入视觉语境信息缓解模态偏差。

具体来说,首先,给定图像-文本对组(V,S)中第t对的图像vt,DebiasCL使用预训练目标检测模型Mask R-CNN[20]对图像进行检测,得到vt的视觉对象集合{obj}t,如式(7)所示。

{obj1,obj2,...,objn}t=MaskRCNN(vt)

(7)

根据vt的视觉对象数量nt和vt的像素大小pt计算得到vt的视觉对象密度dt,如式(8)所示。

dt=nt/pt

(8)

去偏对比学习假设图像中视觉对象越少,图像所包含的背景信息,即视觉语境就越多。基于此,DebiasCL根据计算得到的视觉对象密度d对图像-文本对(hv,hs)进行排序,然后将其中视觉对象密度最小的N组图像-文本对作为扩充样本(hv,hs)expand,如式(9)、式(10)所示。

其中,Sort()表示基于视觉对象密度d的升序排序方法,FirstN()表示取前N个图像-文本对。这意味着DebiasCL从(hv,hs)中选择出了视觉语境最丰富的N个图像-文本对作为扩充样本。

假设所有图像-文本对数据需要迭代K轮,每轮中数量为b,整个视觉语境丰富的扩充样本挖掘算法过程如下:

算法1: 视觉语境丰富的扩充样本挖掘算法输入: {(V,S)},{(hv,hs)},迭代次数为K,每轮大小为b输出: {(hv,hs)expand}1 初始化 {(hv,hs)expand}←{}2fork = 1 to K do:3 检测(V,S)k中图像视觉对象数量(n)k;公式(7)4 计算(V,S)k中图像视觉对象密度(d)k;公式(8)5 根据(d)k对(hv,hs)k升序排序;公式(9)6 (hv,hs)Nk←(hv,hs)k前N对,N∈[2,b];公式(10)7 将(hv,hs)Nk加入{(hv,hs)expand};8end for9return {(hv,hs)expand}

最后,将这些挖掘的扩充样本(hv,hs)expand与 (hv,hs)一起作为去偏对比学习损失函数的输入,进行对比训练计算损失。

2.2.2 去偏对比学习损失函数

(11)

其中,χ{+},χ{-}分别为(v,s)的正负样本,d为余弦相似度函数,τ为温控参数。

如图3所示,通过所定义的损失函数,去偏对比学习优化后的潜在语义空间与优化前相比,正样本中图像与文本在语义空间上的距离更接近,而负样本对之间的距离则相对更远,整体上,图像与文本对齐的效果也更加准确。

图3 去偏对比学习前后的图文共享潜在语义空间

其中,losscl_base和losscl_expand即为最终的去偏对比学习损失。

2.3 MNER解码器

去偏对比学习优化的MMI模块将视觉信息有效融合到了文本表示中,为了成功识别出文本表示中的实体,需要一个解码器来进行序列标记。由于条件随机场(Conditional Random Fields,CRF)具有从语义空间挖掘信息进行序列标注的能力,在许多MNER任务[1-6]中产生了较好的效果,本文考虑将CRF作为DebiasCL的MNER解码器,与去偏对比学习模块共同计算损失。

最后,DebiasCL的损失可定义为losscl_base、losscl_expand和losscrf的加权和,如式(14)所示。

loss=losscrf+λ1losscl_base+λ2losscl_expand

(14)

3 实验

3.1 实验设置

实验环境: 实验采用的环境如表1所示。

表1 实验环境

数据设置与现有的工作[4]相同,本文选取了两个MNER基准数据集(Twitter-2015[1]和Twitter-2017[3])作为实验数据。数据集中每条数据由一条短文本和一张图片组成,其中文本通过人工进行了标注,标记模式为BIO,包含的实体类型为Person,Location,Organization 和Misc.。在Twitter-2017中有部分图像缺失。与Zhang等人[6]类似,本文采用一张默认图片来代替缺失图片。数据集设置与Yu等人[4]一致,划分为训练集、验证集和测试集三个部分,如表2所示。

表2 多模态命名实体识别数据集分布

参数设置在本实验中,DebiasCL的优化器为Adam,其中BERT、MMI模块和其他部分的初始化学习率分别为5e-5、1e-4和0.01。MMI模块设置与Zhang等人[6]文中融合模块一致,多头数为8,不同的是,为了更好地挖掘出隐含语义,其中融合层数为其一倍,共12层。其他神经网络参数首先根据Twitter-2017验证集对模型进行训练调参,然后再针对Twitter-2015验证集进行部分参数的调整,最终的参数设置如表3所示。

表3 DebiasCL参数描述

评价准则与现有的MNER方法[1-6]一致,本文采取F1(F-Measure)作为方法实体识别性能的评估指标。

3.2 实验结果

3.2.1 数据不一致性统计

针对引言中提出的图像-文本对不一致性问题,本文进行了统计验证。具体来说,本文通过预训练的目标检测模型[20]得到图像中的视觉对象数量,通过人工标注的实体类别标签得到文本中的实体数量。由于预训练的目标识别模型[20]往往是无差别检测,可能会检测到大量噪声对象,根据Wu 等人[5]的研究结果,本文考虑对视觉对象数量不大于4的图像-文本对进行度量,对比其中的视觉对象数量No和实体数量Ne以判断是否具有一致性。结果如表4、表5所示,可以看到,在Twitter-2015和Twitter-2017两个数据集中,整体的不一致性数据占比分别达到49.32%和47.61%,其中视觉对象少于实体的情况(No

表4 Twitter-2015中数据不一致性情况

表5 Twitter-2017中数据不一致性情况

3.2.2 基准方法介绍

为了验证所提出的DebiasCL方法有效性,本文使用以下几种最新的基准方法与之进行比较,并根据模态和对齐方式进行了划分。具体如下:

(1) 基于文本的单模态方法

CNN-BiLSTM-CRF[21]: 一种经典的基于CNN和LSTM的神经网络。

HBiLSTM-CRF[22]: 一种CNN-BiLSTM-CRF的改进方法,采用LSTM层代替底层的CNN层。

BERT[16]: 一种基于BERT编码的方法,使用softmax层进行实体预测。

BERT-CRF: 一种BERT的变体,采用CRF层代替softmax层进行预测。

(2) 基于隐式对齐的多模态方法

ACoA[1]: 一种基于CNN-BiLSTM-CRF的多模态方法,通过自适应的共同注意力网络来学习图文共享的隐式语义信息。

VG[3]: 一种基于HBiLSTM-CRF的多模态方法,利用视觉注意力和门控机制从图像中挖掘隐含信息以丰富词表示。

UMT[4]: 一种基于Transformer的多模态方法,对图像感知的单词表示和单词感知的视觉表示进行建模,并引入一个实体跨度检测辅助模块以缓解视觉偏差。

(3) 基于显式对齐的多模态方法

OCSGA[5]: 一种将视觉对象作为图像表示的方法,通过密集共同注意力网络对视觉对象和实体之间的语义关联进行显式建模。

UMGF[6]: 一种基于多模态图的方法,将视觉对象和实体作为图节点,通过一个基于图的多模态融合模块实现显式语义对齐。

为了验证所提出的去偏对比学习以及扩充样本挖掘算法的有效性,在DebiasCL之外,本文分别构建了两种DebiasCL的变体方法。具体如下:

DebiasCLw/oCl: 一种DebiasCL的变体方法,去除了整个去偏对比学习模块(第2.2节提出),仅通过MMI模块学习潜在语义空间。

DebiasCLw/oEx.: 一种DebiasCL的变体方法,去除了扩充样本挖掘模块(第2.2.1节提出),仅通过基于随机样本的常规对比学习对潜在语义空间学习进行优化。

3.2.3 实验结果分析

表6为各方法的实验结果,从中可以发现:

表6 多模态命名实体识别方法在单模态(文本)和多模态(文本和图像)的性能结果

(1) 当仅使用单模态信息时,基于BERT的方法(BERT和BERT-CRF)在F1上显著优于基于CNN和 LSTM的方法(CNN-BiLSRM-CRF和HBiLSTM-CRF),说明了BERT作为文本编码器有效融合上下文信息的优势。通过BERT- CRF与BERT的对比,可以看出CRF作为MNER解码器对文本表示进行有效标注的优势。

(2) 与单模态方法相比,多模态方法的识别性能普遍较好,CNN-BiLSTM-CRF与ACoA相比总体上提高了3.54%和2.78%,VG和HBiLSTM相比总体上提高了1.63%和1.50%,证明了视觉信息对实体识别的帮助。最新的方法UMGF总体上性能要优于所有基于隐式对齐和显式对齐的方法,与UMT相比提高了1.44%和0.20%,与OCSGA相比提高了1.93%。我们推测其性能提升主要来自以下方面: 首先,UMGF作为近年来显式对齐方法的代表,通过将实体和视觉对象作为图中的节点,对实体和视觉对象之间的显式对齐关系进行了有效建模。其次,该方法提出的多层多模态融合方法可以挖掘潜在语义关系,最终实现实体识别性能的提升。

(3) 不同于如UMGF的显式对齐方法,本文提出的DebiasCL不采取显式地对视觉对象与实体之间的关系进行建模,而是通过提出的去偏对比学习,引入视觉语境信息,对文本和图像之间的全局隐式语义交互进行充分建模。在两个数据集上,DebiasCL在总体性能与UMGF相比分别提高了0.19%和1.00%,证明了方法的有效性。在两个数据集中的高不一致性数据(“PER.”和“MISC.”实体类别数据)上DebiasCL分别提高了4.41%、6.06%和3.11%、7.30%,证明了本文所提出的DebiasCL可以有效缓解模态偏差。

(4) 对于提出的DebiasCL变体方法, DebiasCL与DebiasCL w/o Cl相对比,各类别性能均有所提高,总体上分别提高了0.92%和1.08%,表明了去偏对比学习对于优化潜在语义空间学习、实现语义准确对齐的重要作用。DebiasCL与DebiasCL w/o Ex.相对比,可以看到在两个数据集上的性能均有所上升,但主要表现在“PER.”和“MISC.”这些高不一致性类别上,验证了在模态对齐中引入视觉语境对于缓解模态偏差的帮助。

3.3 实验分析

3.3.1 参数敏感实验

正如第2.2.1节中所提到,DebiasCL基于视觉对象密度由低到高选取N对图文作为扩充样本,当视觉密度较低时,图像所包含视觉语境就较多,也就是说,N的大小在一定程度上反映了扩充样本中视觉语境的比例,对MNER中的视觉语境效果有着重要影响。因此,本文选择对N的大小进行参数敏感实验,结果如表7所示。

表7 DebiasCL在不同N下的性能结果

从结果中可以看出,当N从很小开始增加时,性能首先下降后逐渐增加,表明当负样本过少时,很难学习到有用的视觉语境,反而可能引入了噪声,随着N继续增加,负样本也增加,学习效果逐渐变好。当N分别为4和5时,DebiasCL在两个数据集上取得了最好的性能。然而,随着N持续增加,样本中所包含的视觉语境开始减少,导致当N超过一定值时,学习效果开始下降。

此外,为了更好地了解扩充样本中视觉对象密度的分布情况,本文分别对两个基准数据集进行了统计,由于在对图像进行处理时统一转为了相同尺寸,视觉对象密度可以通过视觉对象数量直观反映,统计结果如图4、图5所示。

图4 数据集中视觉对象密度分布

图5 N分别为4和5时扩充样本中视觉对象密度分布

首先从图4可以看到,在数据集中视觉密度较小的样本占比较大,但同时存在较多高视觉对象密度的样本。而从图5可以看到,由于所提出的扩充样本挖掘算法,当N分别取4和5时,扩充样本中视觉对象基本均在4以内,相对整体数据集视觉对象密度较低,所包含的视觉语境丰富。

综上,可以认为通过选取适当数量的扩充样本可以有效挖掘潜在视觉语境优化学习效果,验证了所提出的扩充样本挖掘算法的有效性。

3.3.2 不一致性实验

为了进一步探索DebiasCL在不一致性数据上更加细粒度的性能表现,基于第3.3.1节中数据集不一致性数据统计结果,本文分别对两个数据集测试集中视觉对象数No多于、等于和小于实体数Ne时的性能进行了实验,结果如表8所示。

表8 DebiasCL在不同数据下的性能结果

可以看到,当视觉对象与实体数量一致,即在数量上不存在偏差时,DebiasCL在两个数据集上的表现均较好,分别高于包含了偏差数据时性能0.97%和0.49%。当视觉对象数少于实体数时,性能相较于等于以及大于时均有较大的提升,达到了76.68%和89.64%,推测这可能是因为此时视觉对象整体较少,即视觉密度较低,存在着较多的视觉语境信息,丰富了语义信息。而当视觉对象大于实体时,可以看到相较于整体只有Twitter-2015数据集上获得了提升,且提升不大,这可能是受到数据集分布和过多的实体导致的偏差以及无法挖掘出语境信息等原因影响。

3.3.3 案例分析

为了更好地展示所提出的DebiasCL实体识别效果,本文对测试集中的实体识别结果进行了案例分析,如图6所示。

图6 数据集中的两个案例及相应方法的识别结果

从图6(a)可以看到,BERT-CRF能准确识别出“Leonardo”这个实体,但UMGF却识别错误了,这可能是视觉对象数量与实体数量不一致,视觉对象“婴儿”与实体“Leonardo”没有显式对齐所导致。UMGF通过注意力来学习节点之间的关联权值,在面对不一致性数据时可能会遇到困难。由于DebiasCL可以实现语义隐式的对齐,当视觉对象与实体不一致时,DebiasCL可以缓解视觉对象偏差,成功识别实体。

从图6(b)可以看到,BERT-CRF和UMGF都难以正确识别出“Bishop Chatard”的实体类型。由于文本较短,BERT-CRF难以获得足够的语义成功进行预测。UMGF作为多模态方法,图像中视觉对象与实体无法直接对应,难以有效实现显式对齐,但其中仍包含着较多有利于实体识别的视觉语境信息。与上述两种方法相比,DebiasCL基于去偏对比学习,充分利用视觉语境丰富了文本中的实体语义,成功识别了实体。

4 结语

本文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用去偏对比学习来缓解在模态对齐中不一致性数据存在的模态偏差。DebiasCL通过结合去偏对比学习优化潜在语义空间的学习,实现视觉和文本表示的隐式对齐,通过利用视觉对象密度指导视觉语境丰富的扩充样本挖掘,有效引入视觉语境信息进一步优化潜在语义空间学习,缓解模态偏差。实验结果表明,DebiasCL在Twitter-2015和Twitter-2017两个基准数据集上F1值分别达到了75.04%和86.51%,在“PER.”和“MISC.”高不一致性数据上F1值显著优于最先进的方法。

在未来的工作中,我们计划研究基于图像-文本对的数据增强方法来获得对比学习中的正负样本,进一步探索图文间隐式的语义对齐方法。

猜你喜欢
实体语义语境
语言与语义
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
“上”与“下”语义的不对称性及其认知阐释
语言学习中语境化的输入与输出
跟踪导练(三)2
认知范畴模糊与语义模糊
论幽默语境中的预设触发语