结合MASP和语义分割的双链路行人重识别方法

2022-12-22 11:46朱亚梅施一萍江悦莹
计算机工程与应用 2022年24期
关键词:集上空洞全局

朱亚梅,施一萍,江悦莹,邓 源,刘 瑾

上海工程技术大学 电子电气工程学院,上海 201620

行人重识别旨在通过给定的图像在不同的摄像机中搜索同一个人。由于其在视频监控、基于内容的图像检索等实际应用中的重要性,近年来受到了广泛的关注。现如今,行人重识别仍然面临许多挑战,如人的姿势,光照和背景混乱等。此外,不同人群的衣着外观相似,行人检测不完善,进一步增加了其在实际应用中的难度。

传统的行人重识别方法主要依赖手工设计的特征和测量学习。Li等人[1]提出在行人重识别的距离度量学习中为了克服样本量小的问题,学习一个满足零类内散射和正的类间散射的有判别力的零空间,在训练数据的判别零空间匹配行人。Liao等人[2]提出了一种有效的特征表示方法——局部最大概率(LOMO)和一种度量学习方法——交叉视图二次判别分析法(XQDA)。传统行人重识别方法存在一些缺点,比如特征表示不足,相似性匹配精度低以及行人识别过程慢等。目前,基于深度学习[3]的行人重识别方法是一个热点研究课题。典型的基于深度学习的行人重识别方法关注两点:学习强有力的特征表示来描述行人以及学习一个有效的度量学习方法,使同一个行人的距离更近,不同人的距离更远。Sun等人[4]设计了一个PCB网络通过硬划分提取局部特征,然后又提出用于后续精修的池化部分RPP(refined part pooling),学习更具有区分性的部件信息。Li等人[5]通过多尺度上下文感知网络(MSCAN)和空间转换网络(STN)学习行人的全特征和局部特征。Cheng等人[6]对三元组损失进行改进,考虑了行人的正负样本对之间的绝对距离。Xiao等人[7]提出了一种挖掘困难样本的方法,利用最有相似性的负样本和最不相似的正样本来训练网络。

基于深度学习的方法在准确率和速度上相较于传统方法都有提升,但仍存在一些问题。现有的行人重识别模型通常学习输入行人图像的全局特征表示,或者学习一个基于部位的预定义的刚性部位特征表示或者学习两者的特征融合[8]。尽管这些模型在现有的行人重识别数据集上已经得到了显著的结果,但是仍然存在两个问题。第一,对于特征学习,目前流行的深度学习模型通常使用单尺度卷积和最大池化层来生成深度网络。随着层数的增加,这些模型很容易丢失一些小规模的视觉线索,比如太阳镜和鞋子。然而这些细粒度属性对于区分类间差异较小的行人对是非常有用的,因此这些模型并不是行人特征学习的最佳选择。第二,由于姿态变化以及行人检测的不完善,行人图像样本可能会存在未对齐的情况。有时候会包含背景信息或者缺少某些部位,比如腿。在这些情况下,对于基于部位的特征表示,预定义的刚性分割网络可能无法得到两个行人图像之间的正确部位对应关系。因此,对于基于部位的特征学习,刚性的预定义网格分割远远不够鲁棒。

在本文中,提出了联合学习行人的全局特征和语义部位特征并进行融合。针对第一个问题,本文提出多空洞空间卷积金字塔(multiple atrous spatial pyramid,MASP)模块,来对主干网络提取的浅层特征进行采样,对于MASP的每个卷积层,采用具有不同感受野的空洞卷积来获得多个特征图,通过这种方式,增强了局部视觉线索的细粒度区分,然后通过级联融合结构连接不同卷积核的特征图作为本层的输出。最后,将MASP输出的特征图与主干网络输出的高级特征连接得到融合多尺度信息的行人全局特征。针对第二个问题,不同于刚性部位分割,本文通过语义分割得到行人部位概率图,然后与行人特征图加权融合,得到行人语义部位特征。

一般来说,全身特征和身体部位特征是相辅相成的,全身特征更关注全局信息,而身体部位特征更关注局部区域信息。为了更好地利用这两种特征,本文将全局特征和局部特征连接起来,形成最终的行人表示。在测试阶段,对两个特征进行L2归一化,然后采用欧式距离度量相似度来进行行人重识别。

1 结合MASP和语义分割的双链路模型

1.1 网络结构

本文提出的方法的重点是学习强有力的特征表示来描述行人,该方法的总体框架如图1所示,主要由全局特征提取链路、语义特征提取链路组成。

图1 本文提出的网络结构图Fig.1 Network structure diagram proposed in this paper

全局特征提取链路首先通过主干网络提取浅层特征,通过MASP模块,使用空洞率分别为1、2、3、4的3×3的空洞卷积对特征图进行采样,然后通过级联融合结构连接不同卷积核的特征图作为本层的输出。最后将输出的特征图与主干网络输出的高级特征连接得到行人的全局特征fg。

语义特征提取链路通过语义分割网络,得到行人部位标签图,将其缩放并变换得到通道部位图,然后通过主干网络提取中层特征,与通道部位图按照通道相乘得到语义部位特征,最终的语义特征fp为语义各部位特征的最大值融合而得。

1.2 基于MASP的全局特征提取

在行人重识别过程中,不仅需要提取行人的高级特征,还需要提取行人的小尺度上下文信息,如帽子、太阳镜等。采用深度神经网络提取行人特征。随着网络深度的增加,虽然可以获得行人的高级特征,但随着网络不断使用池化操作对特征进行下采样,这些小特征会丢失。针对这一问题,本文提出了一种有效的解决方案,利用不同空洞率的卷积对浅层特征图进行采样,并将其连接到高级特征图上,从而可以获得包含多个比例的图像上下文信息的特征表示,解决了池化操作导致的小规模信息丢失问题。

空洞卷积[9]操作可以根据空洞率扩大普通卷积核的大小。空洞卷积核大小与原卷积核大小的关系如式(1)所示:

其中,Filter2为空洞后的卷积核的大小,d为空洞率,Filter1为原卷积核的大小。由式(1)可以看出,利用原卷积的相同大小,使用不同的空洞率,可得到不同大小的空洞卷积。

图2是卷积核尺寸为3×3,空洞率为1、2、3的空洞卷积示意图。采用空洞率为1、2、3,卷积核大小为3×3的卷积,而不采用卷积核大小为3×3、5×5、7×7的卷积,是因为后者会产生更多的冗余信息,增加计算量。

图2 空洞卷积示意图Fig.2 Schematic diagram of void convolution

受文献[5]的启发,本文设计了MASP网络结构,即通过一个多尺度的信息融合模块来提取行人的上下文信息。如图3所示,主干网络Resnet50提取浅层特征U2。然后使用空洞率分别为1、2、3、4的3×3空洞卷积,对特征图进行采样,通过级联融合结构进行连接,得到该层的输出,然后采用1×1卷积调整特征图的大小。最后将MASP模块输出的特征图U5与主干网络提取的高级特征U4连接,得到融合多尺度上下文信息的全局特征。

图3 MASP网络结构Fig.3 MASP network architecture

1.3 基于语义分割的部位特征提取

行人语义分割是一个细粒度的语义分割任务,也称为行人解析,是指对行人图像上的像素点按照人体的语义部位进行分类。语义分割能够精确定位身体各部位的任意轮廓,即使是在严重位姿变化的情况下,因此语义部位信息非常适合用于辅助行人再识别问题。

给定输入图像,使用现有的语义分割方法SCHP[10]计算语义解析图。通过语义分割网络,将行人分为5个语义区域,分别为头发、脸、上半身、下半身和脚。图4展示了部分行人图片以及行人图片通过SCHP得到的语义分割图,第一行为行人图片,第二行是对应的语义分割结果,不同部位用不同的颜色表示。

图4 行人语义分割图示例Fig.4 Person semantic segmentation graph example

然后,通过ResNet50网络来提取行人的全局特征。本文选择网络中间层提取的行人特征与行人语义解析图加权融合。之所以选择使用中间层,是因为随着网络的加深,神经网络会编码更多的抽象信息以及编码更高的语义级别特征,比如,深层特征图和输入图像的部位位置关系不是很清晰,因此将语义解析图和神经网络中间层特征图结合,是一个很好的选择,因为中间层没有很多的抽象信息,并且同时对丰富的信息进行了编码。

为了将中间层输出的特征图U3与行人语义部位概率图融合,先将中间层特征U3进行双线性插值变换得到U3',然后将语义部位概率图M缩放到与U3'同一空间尺度,得到M',再根据分类转为5个通道部位图,得到{Mi∈Rw×h}i=1,2,3,4,5。

然后通过两步得到行人的语义部位特征,先是将通道部位图Mi和行人特征图U3'的每个通道之间应用逐元素乘积,再分别进行平均池化,得到行人语义部位特征Fi=pooling(U3'×Mi),i=1,2,…,5,F∈R1×1×c×5,然后将各语义部位特征进行最大值融合得到行人部位特征fp=(Fi)。

1.4 损失函数

为了增强模型学习特征的判别能力,本文结合度量损失和分类损失共同指导网络参数的学习。

在行人重识别的分类任务中,经常用到交叉熵损失函数[11]。交叉熵损失函数的公式如下所示:

其中,ρ表示错误率,ρ可以提高模型的泛化能力。根据文献[11]本文中将其设为0.1。N表示行人类别总数。当训练数据相对较小时,标签平滑函数能够比较有效地提升行人重识别模型的性能。使用标签平滑后,交叉熵损失函数表示为:

其中,bi的值为

在深度度量学习中,经常使用三元组损失函数。三元组损失函数使同一类别行人样本的距离更近,不同类别行人样本之间的距离更远,从而实现在特征空间中对同一类行人样本进行聚类。但是,三元组损失只度量样本间的相对距离,由于其不能提供全局最优约束,所以类间的距离可能小于类内的距离。因此本文中采用边界样本挖掘损失(margin sample mining loss,MSML)[7]。边界样本挖掘损失不仅考虑正负样本对间的绝对距离,而且引入了难样本采样的思想。训练时,在一个batch选择最不相似的正样本对和最相似的负样本对。

在公式(5)中,(x)+=max(x,0)。表示a和b的欧式距离,α是用来区分正样本与负样本的边界值,a和b是最不相似的正样本对,r和q是最相似的负样本对。如果a和r是同一个类别中的行人,则考虑正负样本对之间的相对距离,如果a和r不是同一个类别中的行人,则考虑正负样本对的绝对距离。

本文中的行人重识别模型使用度量损失函数和分类损失函数联合训练。语义部位特征链路输出的特征向量fp使用交叉熵损失,全局特征U6使用边界样本挖掘损失,同时对fg使用交叉熵损失。最终的损失函数表示为:

在测试阶段,将两个链路中的特征fp与fg进行级联得到行人最终的特征表示,用于行人间的特征比对。

2 实验与结果分析

2.1 数据集和评价指标

2.1.1 数据集

为了验证本文方法的有效性,所采用的实验数据主要来自目前行人重识别常用的数据集:Market1501[13]和DukeMTMC-reID[14]。Market-1501数据集包含6个摄像头拍摄得到的32 668张行人图像,是由DPM检测得到的固定尺寸的图像框。数据集包含1 501个行人,训练集有751个,测试集有750个。DukeMTMC-reID数据集包含8个高分辨率摄像机拍摄得到的1 812个行人总共36 411张行人图像,其中有1 404个行人出现在两个以上的摄像机中,408个行人仅出现在一个摄像机中,这408个行人身份用作干扰项。数据集分为两部分,其中702个行人的16 522张图像用来训练,其他的2 228张图像用于查询,测试集包含17 661张图像。

2.1.2 评价指标

本文采用两个评价指标来与现有的方法进行对比,第一个指标为Rank-n,是指给定查询集中的一张图片,计算这张图片与图库集中所有图片的相似度,从高到低排序,计算在前n个样本中有同一个行人的概率。另一个评价指标为mAP,同样首先计算相似度,然后计算AP值即准确率召回率曲线下方的面积并求均值得到mAP,mAP综合考虑了查全率和查准率,对性能的评价更全面。

2.2 实验细节

本文中的模型使用PyTorch来实现。在开始训练之前将数据集中图片大小调整为256×128,通过随机擦除进行数据增强,随即擦除概率为0.5。实验中使用的2个数据集,预先使用SCHP[10]模型进行行人语义解析,该方法是在LIP[15]数据集上训练的。模型训练共迭代100次,每个训练批次由8个不同身份的行人,每个行人随机选取4张图片组成,即训练批次大小设置为32。每个批次使用随机梯度下降来更新参数,动量设置为0.9。初始学习率设置为0.03,在经过60个批次后学习率降为0.003。图4显示了Market-1501和DukeMTMC-reID的语义分割示例结果,SCHP对这两个数据集都有很好的泛化。

2.3 对比实验

本节将所提出的模型与现有的先进方法进行比较。在Market-1501和DukeMTMC-reID数据集中分别测试了Rank-1和mAP性能指标,从表1可以看出,本文提出的模型在2个数据集中都取得不错的效果。BagTricks[11]提出了一个强有力的基线模型,即通过分别对backbone使用6个训练技巧,来提升基线模型的识别能力,证明一些训练技巧可以有效提升网络性能,本文与BagTricks相比,重识别效果提升不是很明显,但是研究的侧重点不同,本文通过改进网络模型来提升重识别准确率,根据BagTricks的研究结果,如果要进一步提升识别准确率,采用适当的训练技巧,将会有显著提升。PCB[4]对行人的局部特征进行了有效的学习,但是缺少对全局特征的学习,因此在Market-1501数据集上,本文方法的Rank-1提高了2.4个百分点,mAP提高了8.9个百分点;在DukeMTMC-reID数据集上Rank-1提高了5.2个百分点,mAP提高了9.1个百分点。SP-ReID[16]利用行人解析模型来提取行人的语义部位特征,并将行人的全局特征、前景特征和语义部位特征融合得到行人最终的特征表达,但是缺少对因网络加深而丢失的小规模视觉线索的特征提取,因此本文方法的Rank-1在Market-1501数据集上提高了3.2个百分点,在DukeMTMC-reID数据集上提高了3.6个百分点,mAP在Market-1501数据集上提高了6.6个百分点,在DukeMTMC-reID数据集上提高了6.4个百分点。实验结果表明,本文的方法优于当前主流的方法。

表1 不同方法在两个数据集上的性能比较Table 1 Performance comparison of different methods on two datasets 单位:%

考虑到采用不同空洞率的卷积以及空洞卷积的数量对行人识别效果的影响,分别设置对比实验来验证本文选取的方法的有效性。首先设置4组空洞率分别相同的卷积与本文方法进行对比,空洞率分别设为1、2、3、4。在两个数据集上的实验结果如图5所示。由图可知,采用空洞率分别为1、2、3、4的卷积组合的mAP和Rank-1值均高于采用空洞率相同的卷积组合,由此证明本文采取的卷积组合性能优于采用相同卷积的组合。

图5 空洞率尺寸组合对性能的影响Fig.5 Effect of dilation ratio size combination on performance

其次,分别设置空洞卷积个数为1、2、3的卷积组合与本文方法进行比较,在两个数据集上的实验结果如图6所示。由图可知,随着卷积数量的增加,Rank-1识别率和mAP值也在逐步增加。当卷积数量增加到5时,虽然Rank-1和mAP略有提升,但提升不是很大,考虑到模型复杂度,最终选取空洞卷积数量为4来提取行人的多尺度信息。

图6 空洞卷积数量对性能的影响Fig.6 Effect of number of dilation convolution on performance

2.4 消融实验

本节通过消融实验来深入研究本文提出方法的有效性。其中基线模型是ResNet50,用LG表示,在此基础之上进行改动。用LG-P表示使用行人全局特征和语义部位特征融合的方法,但是不采用MASP模块,LG+MASP表示加入了MASP模块的全局特征,但是没有融合语义部位特征,LG-P+MASP表示本文的网络结构。分别评估LG-P+MASP网络、LG+MASP网络、LG-P网络和LG网络在2个数据集上的识别性能,如图7所示,对于每张查询的行人图像,按照相似度计算的结果,排列出前10张,其中正确的结果用绿色数字表示,错误的结果用红色数字表示。从图7可以看出,LG-P+MASP网络的性能最优,LG-P网络和LG+MASP网络次之,LG-P+MASP网络和LG-P网络以及LG+MASP网络性能都高于ResNet50网络。

图7 行人检索结果排序图Fig.7 Person retrieval results sequencing map

表2所示为LG、LG-P、LG+MASP网络和本文提出的LG-P+MASP网络的定量实验结果,相较于LG,LG-P网络在Market-1501数据集上,mAP提升了6.5个百分点,Rank-1提升了3.8个百分点,在DukeMTMC-reID数据集上,mAP提升了5.6个百分点,Rank-1提升了4.3个百分点,即在2个数据集上,LG-P网络比ResNet50网络对行人重识别的识别效果更好。实验结果表明,行人重识别中,全局特征和语义部位特征的结合共同作用,可以使行人重识别效果提升。语义部位信息从一定程度上补充了全局特征的不足,语义特征是由语义部位特征得来的,相当于局部特征的融合,能够与全局特征互补,使得最终的行人特征具有不同尺度的信息。

表2 本文提出的行人重识别方法在两个数据集上的实验结果Table 2 Experimental performance of person re-identification method proposed in this paper on two datasets 单位:%

相较于LG网络,LG+MASP网络在Market-1501数据集上Rank-1提升了5.7个百分点,mAP提升了8.7个百分点,在DukeMTMC-reID数据集上,Rank-1提升了5.5个百分点,mAP提升了9.5个百分点。相较于LG-P网络,本文提出的LG-P+MASP网络同样能够使重识别效果进一步提升。在Market-1501数据集上,Rank-1提升了6.4个百分点,mAP提升了12.2个百分点,在DukeMTMC-reID数据集上,Rank-1提升了4.3个百分点,mAP提升了9.8个百分点。因此可知,在特征提取时采取MASP模块对浅层特征进行采样,提取多尺度特征,并与高级特征连接的方式是有效的。本文提出的网络结合了全局特征和语义部位特征,且通过MASP模块获得包含多个比例的图像上下文信息的特征表示,相比于ResNet50网络,本文提出的方法明显使行人重识别性能有效提升。

3 结束语

由于行人重识别中存在行人姿势多变,行人图像样本未对齐等问题,为了学习鲁棒的特征表示来描述行人,本文提出了结合MASP和语义分割的双链路行人重识别方法。通过MASP模块对行人浅层特征通过并联的空洞卷积进行采样,然后与高级特征连接,得到融合多尺度信息的行人全局特征,同时使用语义分割网络输出概率图与主干网络的中层特征加权融合提取行人的语义部位特征,并最后在测试阶段,将行人全局特征和语义部位特征连接,用于相似性度量。本文方法对特征进行了多细粒度表示,有效地提升了特征向量的复杂性和多样性。在2个行人重识别数据集Market-1501、DukeMTMC-reID上对本文方法进行评估,实验结果表明,本文方法能够使行人重识别效果明显增强。未来的工作是进一步优化网络模型,在不增加网络复杂度的情况下,提升行人重识别的准确率。

猜你喜欢
集上空洞全局
实数集到时标上的概念推广的若干原则
GCD封闭集上的幂矩阵行列式间的整除性
锻造过程中大截面塑料模具钢中空洞缺陷的闭合行为
如何避免想象作文空洞无“精神”
落子山东,意在全局
记忆型非经典扩散方程在中的全局吸引子
空洞的眼神
师如明灯,清凉温润
新思路:牵一发动全局
几道导数题引发的解题思考