融合头肩部位特征的行人重识别*

2022-11-09 02:34沈宇慧
计算机与数字工程 2022年9期
关键词:集上分支全局

沈宇慧 王 琪

(南京信息工程大学 南京 210000)

1 引言

行人重识别(ReID)是计算机视觉的一个主流任务,在实际场景中有众多应用,例如智能安防、防疫工作等。行人重识别旨在给定一个监控行人图像,跨设备检索多个摄像头下该行人的所有图像。近几年,由于深度学习的发展,行人重识别取得了巨大进步,在众多公开数据集上都取得较好效果。但是大部分ReID方法主要都是针对光线充足、行人衣着亮丽区分度大的环境,依靠行人衣着来提取特征。在实际场景中,冬天ReID性能会大大下降。而通过监控数据发现,很多人(尤其是男士)冬天都换上了黑衣服,使得衣着的特征属性严重缺失。

最近,深度学习的方法通过学习鲁棒的行人特征在行人重识别方面取得了巨大成就。基于深度学习的方法通常用于提取行人图像的稳健全局特征[1],但忽略了类内变化(例如遮挡、姿势、背景)。为解决这个问题,用学习局部特征的方式获得更具辨别力的信息表达。基于局部特征的方法可分为三类:第一种是基于姿态的ReID[2],从手臂、腿和躯干等身体部位提取局部特征。使用姿态估计器来提取姿态信息,以对齐身体部位[3]或生成行人图像。但在整个训练和测试过程中都使用姿态估计器,网络耗时耗力。第二种是基于部位的ReID[4]将图像或全局特征分割成几个水平网格,分别进行训练并整合,以获取辨别性的行人表征。因为具有不同语义的对应部分,该方法对姿势变化和遮挡较为敏感。第三种是采用注意力机制的局部信息[5],可在弱监督下进行训练。关注感兴趣的区域,减少背景噪声的影响,但关注区域可能不够准确。然而,这些方法提取特征主要依赖于服装的属性(例如颜色、纹理、风格)。身穿深色衣服的行人或因场景光照不足而丢失特征信息会影响这些方法的性能。如图1所示,仅根据衣着很难区分。

图1 身着深色衣服行人

文献[6]是致力于头肩部位的ReID方法。头肩部位是重要的可判别信息,实际场景中身体部位可能会被遮挡,但头部肩部会更多被拍摄。同时头肩特征具有丰富的鉴别属性,例如发型、肤色或人脸。作者提出一种基于多姿态学习的模型,该模型以头肩部位为输入,旨在解决拥挤条件下ReID问题[7]。通过学习多个姿势间关系的集合,以验证条件概率分布来处理头肩姿态的变化。主要集中在姿态变化上,对头肩定位、特征提取以及与全局特征融合的研究不足。

针对上述问题本文提出一种融合头肩部位特征的行人重识别网络(Fusion Head and Shoulders Features Network,HSN)。在 注 意 力 模 块(Squeeze-and-Excitation Networks,SE)[8]和AlignedReID等多条带局部特征方法的启发下,设计双分支网络:全局分支从输入行人图像中提取全局特征;借鉴空间变换网络(STN)[9],通过定位头肩部位,表征出多条带的头肩部信息。将注意力模块嵌入到残差网络,加强对头肩部关键特征的提取,构成局部分支。再结合自适应权重分配机制,共同构成更全面、泛化能力更强的行人重识别网络。

2 本文方法

在本节介绍融合头肩部位特征的行人重识别网络(HSN)。首先介绍网络的整体架构;其次介绍网络的全局分支、头肩部位注意力分支和自适应权重分配机制;最后介绍网络中使用的损失函数。

2.1 网络整体结构

网络由两分支组成,如图2所示:采用ImageNet[10]预训练的ResNet18和ResNet50[11]残差网络分别作为分支网络的主干。ResNet50全局分支提取行人图像全局特征。轻量级ResNet18网络用于定位头肩区域,类似图像分割任务学习一个边界框表示头肩区域。通过一个全连接层(FC),生成空间变换的参数θ,仿射变换函数Tθ进行缩放和移动,裁剪输入图像。⊙是采样器,根据输入图像和Tθ,输出最终裁剪的头肩图像。裁剪出头肩区域表示为三个水平条带,输出到头肩特征提取网络。采用注意力机制表征头肩信息,构成头肩局部分支网络。在模型结束时,通过自适应权重分配机制聚合全局和头肩特征分支。使用交叉熵和三元组损失函数对网络进行端到端训练。在测试时提取行人特征,并计算行人间的欧式距离以匹配具有相同ID的人。

图2 本文整体网络结构

2.2 全局分支

输入的图像经过ResNet50网络,将最后一层conv的last stride改为1,扩大特征图尺寸[4]。行人图像中提取大小为C×H×W的特征图,其中C、H、W分别表示通道数、高度和宽度。然后,通过全局平均池化(GAP)、1×1卷积和批量归一化层(BN)对特征图进行处理,生成c×1×1的全局特征,用fg表示。BN层能平滑嵌入特征分布,增强嵌入特征类内紧凑性[12]。

2.3 头肩部位分支

图3是头肩部位分支详细结构。由于特征映射的不同通道代表不同含义,即辨别性特征权重因通道而异,且特征不同空间位置也具有不同语义。因此,引入通道和空间注意力模块,来增强网络表征能力。

图3 提取头肩特征的分支结构

对于第i个(i=1,2,3)条带特征,输入特征图经过通道注意力机制:一个用于降维的加权的全连通层,ReLU函数,另一个加权的全连接层和Sigmoid激活函数,r为还原率。然后,通过短路连接和对应元素相加对通道进行重新加权,表示为

其中|·|是元素乘法,Ai是通道注意力后的输出。是Ai每个通道特征。空间注意力是通过强化峰值反应实现的,具体表示为

最后通过1×1卷积和GeM池化聚合条带的完整特征fh。

2.4 自适应权重分配机制

对于穿着鲜艳或深色服装、暴露或被遮挡的人,大多数方法对全局特征的关注度与对局部特征的关注度相同。为解决这个问题,本文提出自适应权重分配机制,通过区分行人类型来确定全局和局部特征权重。对于被区分穿深色衣服或被遮挡的人赋予更多的关注在头肩部位上。

如图2中结构所示,首先将全局特征fg输入到一个全连接层中,整合N×2大小的特征,其中N是批量大小,用fb表示输入行人是否衣着深色或被遮挡。然后,将fb馈入另一个全连接层,给出N×2的特征映射fw。fw=[w1w2]是全局特征和头肩特征的权重。即行人着深色衣服或被遮挡时,对头肩特征分配更大的权重。最后聚合全局特征和头肩特征,如下所示:

其中|·|是元素相乘,fg和fh分别是全局特征和头肩特征,⊛表示连接方法,f是最终特征表示。

2.5 损失函数

为训练本文网络模型,使用三元组和交叉熵损失,如下式:

分别用ℒtriplet和ℒce表示三元组和交叉熵损失,参数α和β是平衡权重,交叉熵损失定义为

N是批量大小,yi是特征的标签,C是类别数。由锚样本、正和负样本特征(即、和)组成的三元组,批量难例三元组损失[13]公式如下:

其中δ是三元组损失度量边距,一般设置为0.35。

3 实验与结果分析

3.1 实验环境与细节设置

实验采用的操作系统为Windows 10,显卡为NVIDIA GeForce GTX3080TI,显存为16GB。环境采用Python 3.8和Pytorch1.7的深度学习框架。训练图像大小调整为384×128。将特征通道数C设置为1536,批量大小N为64。采用水平翻转和随机擦除[14]来增强数据。根据文献[4],将GAP和全连接层从原始ResNet-50体系结构中移除。先分别对全局分支和头肩局部分支进行50个阶段的训练,然后将它们与自适应权重机制模块一起训练40个阶段,共90个阶段。使用Adam作为优化器,初始学习率设置为3e-4,并在40和70个阶段衰减10%。损失权重参 数α和β均设置为1,以便与ResNet50集成。

3.2 数据集与评估方式

在Market1501[15]和DukeMTMC-reID[16]两个公开数据集上评估本文网络。Market1501包含6个相机视角,1501个被标记人的32668幅图像。训练集为自751个行人的12936幅图像,测试集为750个行人的19732幅图像。DukeMTMC-reID是另一个大规模行人ReID数据集,从8个相机视角的1404个行人收集36411幅图像。训练集为702个行人的16522幅图像,测试集为其他702个身份的19889幅图像。实验采用单一查询评估,利用常见的平均精度(mAP)和首位命中率(Rank-1)来评估模型性能。

3.3 消融实验

本文基于HSN(ResNet50)对两大数据集进行了广泛的消融研究,具体实验如下。

1)全局特征与头肩部位特征

由表1可知不同分支对行人重识别性能的影响。在数据集中使用全局特征、头肩部位特征以及两特征融合,分别用HSN(ResNet50-全局,即BoT网络)、HSN(ResNet50-头肩)和HSN(ResNet50全局+头肩)表示。HSN(ResNet50全局+头肩)在Market1501数据集上,mAP和Rank-1值上分别比HSN(ResNet50-全局)和HSN(ResNet50-头肩)高出2.4%、1.1%和29.5%、25.6%。HSN(ResNet50全局+头 肩)在DukeMTMC-reID数 据 集 上,mAP和Rank-1值上分别比HSN(ResNet50-全局)和HSN(ResNet50-头 肩)高 出2.7%、2.3%和31.6%、33.5%。实验结果表明,全局和头肩特征的整合取得了最好效果。提取头肩特征能克服全局特征的对衣着属性的局限性,提升网络的泛化能力。

表1 数据集不同特征分支比较/%

2)头肩部位嵌入注意力

本文在头肩部位特征提取中嵌入注意力模块。为验证注意力模块有效性,将嵌入注意力模块和非嵌入网络进行对比。由表2可知,嵌入注意力网络在Market1501数据集上,mAP和Rank-1值分别提升了0.8%和0.7%;在DukeMTMC-reID数据集上,提升了1.1%和0.6%。实验结果表明,头肩注意力模块能有效提取关键性的行人头肩部位特征,提升网络性能。并且验证了头肩部位信息的可靠性。

表2 头肩部位注意力模块的影响/%

3)自适应权重分配机制

本文通过自适应权重分配连接全局和头肩特征。为验证其有效性,在整个训练和测试过程中,全局和头肩特征直接连接在一起,然后与采用自适应权重分配机制的网络进行对比。直接连接全局、头肩特征(no自适应权重分配)与通过自适应权重分配连接(自适应权重分配)结果如表3所示,加入自适应权重分配在Market1501上的mAP和Rank-1值分别提高了0.4%和0.5%,在DukeMTMC-reID上的mAP和Rank-1值分别提高了1.1%和0.8%。实验结果表明,自适应权重分配能有效性连接全局和头肩特征,改善网络模型整体性能。

表3 自适应权重分配模块有效性验证/%

3.4 与其他方法比较分析

将本文提出的方法与Market1501和DukeMTMC-reID数据集上的其他方法进行比较。由表4可知,HSN(本文方法)在两个数据集上均获得最好结果,mAP值显著提升。HSN在Market1501上达到了88.3%的mAP值和95.6%的Rank-1值;Duke-MTMC-reID达到了79.1%的mAP值和88.7%的Rank-1值,均超越了基于局部特征的三种类别方法以及基线方法。

表4 Market1501和DukeMTMC-reID上方法的性能比较/%

图4将数据集上的训练结果进行可视化,输出Rank1到10的检索结果。在一些衣着属性缺失的深色衣着行人图像上,验证本文网络的有效性。

图4 检索结果可视化

4 结语

本文为解决行人衣着属性缺失或被遮挡问题,提出一种融合头肩部位特征的行人重识别网络。网络通过自适应权重分配机制高效地结合全局分支和头肩部位分支,提升网络模型的泛化能力;头肩部位分支将通道和空间注意力模块加入到网络中,在衣着属性缺失的情况下,以输出具有代表性的头肩特征。在Market1501和DukeMTMC-ReID数据集上取得的最好性能证明,本文网络能够有效解决行人衣着属性缺失或者被遮挡问题,未来将进一步探究将头肩部位分支与不同主干网络集成融合的效果。

猜你喜欢
集上分支全局
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
巧分支与枝
落子山东,意在全局
一类拟齐次多项式中心的极限环分支
复扇形指标集上的分布混沌
新思路:牵一发动全局
生成分支q-矩阵的零流出性