基于关系挖掘的跨模态行人重识别

2024-02-23 09:14金昌胜王海瑞
空军工程大学学报 2024年1期
关键词:编码器全局损失

金昌胜, 王海瑞

(昆明理工大学信息工程与自动化学院,昆明,650500)

基于文本的行人重识别(text-based person re-identification)是跨模态行人重识别的重要方向,它根据给定的文本描述从大型人物图像数据库中识别目标人物图像。在处理难以获得合适的目标人物照片的场景中寻找嫌疑人或寻找走失老人与儿童等问题时,这种方法非常有用。

早期的研究[1-4]一般采用卷积神经网络和递归神经网络将图像和文字分别编码为全局特征,然后计算特征距离作为其相似度。然而,一方面由于遮挡、穿着相似和视角差异等因素,更加稳健的视觉特征难以被提取;另一方面,不同图像或文本描述的相似性很高,会导致模态间差异远大于模态内差异。为了学习更有细粒度和判别性的特征,一些局部对齐的模型来匹配图像和文字描述的方法被提出[5-11],这些方法表明准确提取和匹配局部特征可以提高模型的性能,但是,大多数方法都使计算复杂度大大提高,并忽略了模态间和模态内的相关信息。例如穿着相似的人容易和同一段文本描述相匹配,因此必须强调图像-文本间不匹配的关系信息,以降低负图像-文本对的整体相似性。如图1(a)所示,2张图像都能正确匹配“男性”“黄色短袖”“黑色鞋子”等词汇,但是实际上左图并非目标图像,因此应更加关注匹配错误的区域,如“蓝色双肩包”和“白色短裤”(图1(a)中用中红色虚线框标识)。此外,图像和文本自身蕴含的关系信息对模型性能有影响,如图1(b)所示,文本描述中的“右肩膀”和“红色背包”所蕴含的关系信息可以帮助模型很好地过滤掉“背包在左肩”或者“背着双肩包”等图像。

(a)模态间关系信息 (b)模态内关系信息

针对目前基于文本的行人重识别中缺少模态内和模态间的关系信息挖掘的问题,本文提出了一种基于关系挖掘的跨模态行人重识别模型。该模型在全局特征对齐和局部特征对齐的基础上,通过负相似度挖掘实现更有细粒度的模态间特征辨别,从而过滤掉相似却错误的识别结果,最后通过特征关系编码器学习图像和文本中隐含的关系信息,实现关系级别的特征对齐。该模型在基于文本的行人重识别大型数据集CUHK-PEDES和ICFG-PEDES上均取得了较高的识别精度。

1 相关工作

目前,主流的跨模态检索算法的基本思想是从不同模态中提取有效特征来表示挖掘跨模态数据之间的相关性。早期研究[12]将深度神经网络与典型关联分析(CCA)相结合,提出深度典型关联分析(Deep CCA)来实现不同模态之间复杂的非线性变换关系;文献[13]为了充分利用训练数据的监督信息,同时设计了多个深度网络,形成层次化网络结构,通过约束模态内和模态间的相关性来学习图像和文本的表示;文献[14]设计改进的三元组损失函数用来监督训练过程;文献[15]中检测图像中的显著区域并计算每个区域与文本描述词之间的相似度以实现跨模态局部对齐;文献[16]进一步使用注意力机制来增强图像区域和文本词之间的相关性挖掘;文献[17]针对少样本场景,提出了一种跨模态记忆网络来实现跨模态检索;文献[18]为了解决跨模态训练数据不足的问题,结合对抗学习和知识迁移技术,实现了从单模态数据到跨模态数据的大规模数据迁移。上述方法虽然实现了全局或局部关系挖掘,但缺乏对模态间负面关系信息和模态内关系信息的挖掘和利用。

基于文本的行人重识别最早由Li等[1]提出,提出用GNA-RNN模型计算每个图像文本对之间的似度,并收集了一个名为CUHK-PEDES的大规模人物描述数据集。文献[19]提出了一种深度对抗图卷积网络通过图卷积操作学习图像区域和文本描述词之间的关系,有效地提高了跨模态表示的辨别力。文献[20]提出了一种DSSL模型,明确分离环境信息和人物信息,从而获得更高的检索精度;NAFS[6]使用阶梯式CNN和局部约束BERT在全尺度特征表示上进行联合对齐;ViTAA[8]从属性对齐的角度将图像和文本分解为属性组件,并使用细粒度匹配策略将身份与多个属性线索对齐,极大地提高了模型性能。然而由于对齐策略复杂、计算量巨大,这些方法仍无法简洁高效地处理基于文本的人物重识别问题。

2 建立模型

为了挖掘利用模态内和模态间的关系信息,并设计简单高效的网络,本文提出了基于关系挖掘的行人重识别模型,包含3个组件:①双流主干网络:分别提取图像和文本的多尺度特征;②负相似度挖掘模块:增强图像-文本对中不匹配区域的关注度;③特征关系编码器:学习图像和文本中隐含的关系信息。整体结构如图2所示。

本文模型首先采用预训练的ResNet50和BERT[21]模型分别对图像和文字进行全局特征提取;其次,利用PCB[22]的分割策略分别对CNN输出的特征图和经过多分支残差组合得到的文本特征图进行水平分割,进而提取局部特征;然后通过负相似度挖掘以捕获更具有细粒度的图像-文本关系;最后,通过关系编码器获得图像和文本的关系信息,实现关系级别的特征对齐。

图2 基于关系挖掘的行人重识别模型

2.1 多尺度特征

2.1.1 全局特征

对于全局图像特征,首先将所有图像调整为相同大小,其次,由于ResNet50原网络最后2个残差块可以捕获不同层次的视觉特征,本文采用在ImageNet上预训练的ResNet50网络分别获得完整的低级图像特征与高级图像特征,最后,在上述特征上应用全局最大池化操作分别捕获低级图像特征Igl和高级图像特征Igh。

对于全局文本特征,首先采用在大型语料库训练好的BERT模型提取文本基础特征,然后将提取的特征经过一个1×1的卷积核、BN层,最后通过全局最大池化操作捕获低级文本特征Tgl。值得注意的是,在训练之前,为了确保文本长度的一致性,当文本长度大于L时,本文选择前L个标记,当文本长度小于L时,在文本末尾用零填充,并且在每个句子的开头和结尾插入[CLS]和 [SEP]。而在训练时,BERT参数会被固定,这种方法一方面可以有效利用BERT强大的语言建模能力,另一方面可以有效减少训练模型的时间消耗。

为了捕获高级文本特征,与TIPCB[23]类似,本文所提的模型通过多分支残差卷积模块隐式提取与图像区域相对应的文本局部特征,文本特征每经过一层残差结构就会生成一级部分级特征, 将所有生成的部分级文本特征进行拼接, 再应用全局最大池化操作得到最终的高级文本特征Tgh。具体的,多分支残差卷积模块由6层残差结构组成,每层残差结构由3组瓶颈层组成,第1组瓶颈层和第3组瓶颈层由1×1 的卷积核和BN层组成,第2组瓶颈层由1×3的卷积核和BN层组成。

2.1.2 局部特征

受到PCB[22]的启发,本文采用分割策略对经过双流网络得到的高级图像特征和高级文本特征进行水平分割,局部图像特征为:

局部文字特征为:

式中:K为水平切割条数。文中K取6。

2.2 负相似度挖掘

如前文所述,负相似度挖掘的目标是为了降低负图像-文本对的整体相似度,以有效的方式突出不匹配的图像-文本对对模型匹配结果的影响。

(3)

式中:θ(ik)=Wθik,φ(tj)=Wφtj。

图3 负相似度挖掘

基于文本的行人重识别,图像区域几乎都可以被文本匹配到,因此对相似度矩阵进行最大池化操作sj=max (sk,j)搜寻与所有图像区域匹配相似度最低的文本区域,以此证明该文本与任何图像区域都不匹配,最后,为了增强判断的准确性,通过掩码挖掘过滤掉正相似度,并通过Sum求得最终的负相似度,其计算式为:

(4)

式中:Mmining表示输入为正数时,输出为0;输入为负数时,输出保持不变。

2.3 特征关系编码器

关系编码器可以隐式捕获图像和文本的关系信息,从而实现关系级别的特征对齐。

然后通过下列转置相加计算初步构建2个局部区域之间的关系特征:

为了挖掘更加细腻的相邻区域的关系信息,如图4中的相邻关系分支所示,本文构建了1×1的卷积层和ReLu激活函数组成的组合层,将fpc通过N层组合层(图4中N=3,得到低级的相邻关系特征fl_ad_r∈RCr×K×K;最后,通过与(6)式类似的计算获得最终的相邻关系特征:

为了挖掘更加细腻的全局区域的关系信息,如图4中全局关系分支所示,本文采用与相邻关系分支类似的结构,获得最终的全局关系特征可以表示为:

最后,将经过上下2路分支分别获得的相邻关系特征fadr与全局关系特征fgr进行拼接操作得到最终的关系特征Fr,其计算式为:

Fr=[fadr,fgr]

(9)

图4 特征关系编码器

2.4 损失函数

多个研究证明,不同粒度的特征对齐可以有效的减少图像和文本之间的特征差异性。受到相关研究的启发,本文在低级、高级和局部级特征上选择跨模态投影匹配(CMPM)损失[24]监督网络训练;在负相似度挖掘模块中,本文采用排序损失约束模态间差异、降低负样本相似度;在特征关系编码器中,采用MSE损失实现关系级别的特征对齐。

2.4.1 CMPM损失

对于全局特征而言,假设输入的图像-文本对数量为N,将全局图像特征I与全局文本特征T组合起来得到图像-文本对(由于全局低级特征与全局高级特征对齐方式类似,故省略其区分下标),其表达式为:

式中:yi,j表示第i个图像特征Ii与第j个文本特征Tj匹配情况,其匹配的概率为:

(11)

由此,可以计算出正确匹配图片Ii的损失值为:

(12)

式中:qi,j为归一化的真实匹配概率,为了避免数值问题,添加极小数ε在分母之中。于是,图像到文本的CMPM损失可以计算为:

(13)

同理可以得出文字到图像的CMPM损失Lt2i。故全局CMPM损失为:

LCMPM=Li2t+Lt2i

(14)

对于局部特征而言,首先计算出图像与文本分割后对应区域的CMPM损失,然后计算总的局部CMPM损失:

式中:K为水平切割的条数。

综上,最终的CMPM损失为:

2.4.2 Ranking损失

为了抑制模型对错误匹配结果的相似区域的关注度,本文采用排序损失。具体而言,首先计算图像与文本的局部相似度:

其次,由于在第2.2节已经计算过样本负相似度Sneg,故局部特征的排序损失为:

LRanking=max (α-sl_neg(I+,T+)+

sl_neg(I+,T-),0)+

max(α-sl_neg(I+,T+)+

sl_neg(I+,T-),0)

(18)

式中:sl_neg=sl+sneg,α代表排序损失的边界值,(I+,T+)代表匹配的图像-文本对,(I+,T-)或(I-,T+)代表不匹配的图像-文本对。

2.4.3 MSE损失

对于关系特征而言,MSE损失函数可以缩小模态间关系特征的差异,其计算如下:

(19)

2.4.4 最终损失

通过前面的计算,分别得到了CMPM损失、Ranking损失和MSE损失。故最终损失函数为:

L=LCMPM+LRanking+Lr

(20)

式中:LCMPM为多尺度CMPM损失之和。

3 实验

3.1 数据集

CUHK-PEDES[6]最早是唯一用于基于文本的行人重识别的大型数据集,现在也是主流的数据集。该数据集包含13 003名不同行人的40 206张图像,每个行人图像都用2个可变长度的描述性句子进行注释。在实验中,本文采用与文献[6]中相同的数据集拆分方法,得到一个包含来自11 003个不同行人的34 054张图像的训练集,一个包含来自1 000个不同行人的3 078张图像的验证集,其余3 074张图像用作测试集。

ICFG-PEDES[25]数据集是一个新收集的数据集,它包含 4 102 人的 54 522 张图,每个图像仅用1个文本描述。与CUHK-PEDES相比,ICFG-PEDES拥有细粒度更高的文本描述。ICFG-PEDES数据集被分为训练集和测试集,分别使用 3 102 人的 34 674 个图像-文本对和其余 1 000 人的 19 848 个图像-文本对。

3.2 评价指标

为了评估行人重识别模型的性能,本文采用了经典评价指标累计匹配曲线(cumulative matching characteristic,CMC)和平均精度(mean average precision,mAP)。rank-N指模型在一系列结果中前N个包含正确行人的概率;mAP则表示正确结果在结果排序中的前列程度。通过综合使用这2个指标,可以更全面地测量模型性能。

3.3 实验设置

训练过程在基于文本的跨模态行人重识别数据集CUHK-PEDES和ICFG-PEDES上进行。在图像分支上采用预训练的ResNet50提取视觉特征,在文本分支上采用预训练的BERT模型。输入图像的尺寸统一调整为384×128,文本长度统一为64。预训练的ResNet50模型和本模型其他参数一起更新,而预训练的BERT参数则被冻结。设置局部特征分块数K=6,设置关系编码器模块中的组合层个数N=3,设置排序损失中的α=0.2。在训练过程中训练批次设置为32,选择Adam优化器来优化模型,训练90个epoch,学习率在开始训练时设置为 3×10-3,每30个epoch衰减到原来的1/3。本文模型都是在基于深度学习的框架PyTorch下实现,实验设备为单块显存为12 GB的NVIDIA GeForce GTX 3060 GPU。

3.4 实验结果分析

在CUHK-PEDES数据集上将本文模型与其他模型进行比较。主流模型可以大致分为: ①全局匹配方法,如GNA-RNN[1]、IATV[26]、Dual Path[2]和CMPM-CMPC[24];②全局-局部匹配方法,如PMA-VGG[7]、PMA-ResNet[7]、MIA[9]、ViTAA[8]、NAFS[6]、TIPCB[23];③其他方法,如CAIBC[27]、AXM-Net[28]和TFAF[29]。实验结果具体如表1所示,通过分析可知:

表1 在CUHK-PEDES数据集上与其他方法比较

1)使用全局特征加上局部特征的多尺度匹配方法,相比于仅使用全局匹配方法,能够捕获更具有细粒度的特征,从而达到更好的识别效果。

2)优秀的模态特征提取方法对模型性能有显著提升。例如MIA方法在从使用VGG提取图像特征到使用ResNet50提取图像特征后,rank-1精度从48.00%提升到53.10%;同样的,TIPCB从使用LSTM 提取文本特征到使用BERT提取文本特征后,rank-1精度从60.82%提升到63.63%。

3)本文提出的模型应用了全局、局部、关系的特征对齐机制,并且采用了负相似度挖掘的方法实现更有细粒度的关系挖掘,通过在CUHK-PEDES数据集上实验,实现了较高的识别精度提升,rank-1、rank-5、rank-10分别达到了66.37%、85.46%、90.78%。相比于图像特征提取使用了金字塔视觉Transfomer的TFAF[29],本文模型在rank-1、rank-5、rank-10精度上仍旧提升了0.68%、1.71%、1.85%。

为了验证模型的泛化性,本文还在ICFG-PEDES数据集上进行了实验,实验结果如表2所示,其实验结果与2022年的工作IVT[31]相比,rank-1、rank-5、rank-10精度分别提升了0.58%、2.29%、2.81%。

表2 在ICFG-PEDES数据集上不同方法试验结果对比

3.5 消融实验

为了进一步验证本文提出模型的有效性,实验均在最常用的CUHK-PEDES数据集上进行。

首先,在整体模型上分别删除局部特征对齐模块、负相似度挖掘模块和关系编码器模块,其他参数保持不变,实验结果如表3所示,其结果说明:

1)局部特征对齐可以有效提升识别精度:在只使用全局特征对齐的情况下,rank-1和mAP只有56.24%与48.45%,而加上局部特征对齐之后,rank-1和mAP分别提升了3.67%和3.00%达到了59.91%和51.45%。

2)负相似度挖掘和关系编码器的有效性。在使用全局特征和局部特征对齐的基础之上,本文提出

的负相似度挖掘模块和关系编码器模块分别在rank-1和mAP上提升了4.03%、4.98%和2.34%、2.46%。

3)负相似度挖掘和关系编码器可以很好地配合实现对齐特征。在同时采用负相似度挖掘和关系编码器的情况下rank-1和mAP分别提升了6.46%和5.25%。负相似度挖掘和关系编码器的共同使用可以有效提升识别精度,这是由于负相似度挖掘可以很好地探索模态间的关系信息,使模型关注模态间不匹配的区域,从而过滤掉相似却错误的结果,而关系编码器可以很好地探索模态内的关系信息,实现更细腻的关系级别的特征对齐。

表3 模型不同模块对实验结果的影响 %

其次,为了验证关系编码器的相邻关系分支和全局关系分支对模型整体性能的影响,分别采用相邻、全局和相邻-全局对同样的数据集进行训练和测试。实验结果如表4所示,单独使用相邻关系挖掘或者全局关系挖掘,rank-1精度分别为64.27%和64.53%,而同时使用相邻关系挖掘和全局关系挖掘,rank-1和mAP分别达到66.37%和56.70%。由此可见,同时使用相邻关系挖掘和全局关系挖掘可以更全面精确地捕获模态内的关系信息,识别效果更好。

表4 关系编码器中上下分支对模型性能影响 %

同时,为了验证关系编码器中的组合层个数对于模型性能的影响,本文将N∈{1,2,3,4,5,6}对CUHK-PEDES数据集进行训练和测试,实验结果如图5所示。从图5的实验结果可以得出:模型的性能受组合层数量影响较为明显,组合层数量过低或过高都会影响模型性能。当N=1和N=6时,rank-1的精度只有65.56%和65.59%;而当N=3时,模型性能较好,rank-1的精度为66.37%。综合考虑模型识别精度和复杂度,本文模型中N取值为3。

图5 组合层数量N对模型性能影响

最后,对于局部特征分块数K,为了验证不同的分割粒度对于模型性能的影响,本文将K∈{1,2,3,4,5,6}对相同的数据集进行训练和测试,实验结果如图6所示,其表明当K=6时,模型性能最好;当K=1时,算法接近于全局特征匹配模型,性能显著下降;当K过大时,分割细粒度过高,无法捕获完整的局部特征,性能同样有所下降。综上,本文模型中的K取6,这与PCB中的实验结果也是一致的。

图6 局部特征分块数K对模型性能影响

4 结语

为了捕获模态内相关信息、缩小模态间差异,本文提出了一种基于关系挖掘的跨模态行人重识别方法,其中包含双流主干网络、负相似度挖掘模块、关系编码器3个模块。其中,双流主干网络通过残差块的结构捕获多尺度特征;负相似度挖掘模块挖掘图像-文本不匹配的关系信息,降低负样本整体相似度;特征关系编码器捕获图像以及文本模态内关系信息实现更细腻的关系特征对齐。实验结果表明,本文提出的模型有着不复杂的结构和良好的识别精度。如何更加简单高效的提取模态内特征和缩小模态间差异,以及模态内的关系信息对于跨模态问题中遮挡、背景干扰和姿态变化等问题是否有改善,都是今后重点研究的方向。

猜你喜欢
编码器全局损失
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
胖胖损失了多少元
玉米抽穗前倒伏怎么办?怎么减少损失?
落子山东,意在全局
基于FPGA的同步机轴角编码器
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
一般自由碰撞的最大动能损失
损失