行人重识别中基于多分支的鲁棒性特征挖掘网络设计

2022-06-13 16:47汪淑娟
电视技术 2022年5期
关键词:特征向量分支全局

刘 润,汪淑娟

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

0 引 言

近年来,行人重识别(Person Re-identification,Re-ID)因在视频监控、身份验证、人机交互等计算机视觉应用中的重要作用而受到研究者们的广泛关注。行人重识别的主要目标是确定一个给定的人是否出现在一个摄像机网络上,从技术上讲需要对目标行人的全局外貌特征建立一个稳健的模型。由于背景、照明条件、身体姿势以及拍摄对象方向的变化都会导致照片中的行人外观出现显著变化,因此行人重识别任务具有一定的挑战性。行人重识别模型构建的主要目标是生成任意输入图像的丰富特征表示,从而进行行人的匹配。

深度卷积神经网络对外观变化和空间位置变化具有鲁棒性,在提取行人图片的全局特征时不会被这类变化过多影响。由于全局特征提取容易忽略识别特定人物表示时的详细和潜在相关信息,为了加强细节特征的学习,引入注意力机制和平均分块方法[1-3]。具体来说,注意力机制降低了网络提取特征时背景噪声的影响,并专注于行人的相关特征。而基于部分的模型将特征图划分为空间水平部分,从而允许网络专注于细粒度和局部特征。尽管注意力机制和基于部分的网络模型在重识别任务中均提升了性能,但这些方法并没有挖掘更丰富和多样化的行人特征。深度学习模型显示出一种有偏倚的学习行为,检索的是有助于减少所见类的训练损失的部分属性概念,而不是学习全面的细节和概念[4-6]。深层网络倾向于关注表面的统计规律,而不是更一般的抽象概念,即网络需要具有提取更丰富和多样化特征表示的能力。

针对以上问题,本文提出了基于多分支的鲁棒性特征挖掘网络,包括全局分支、局部分支以及输入擦除分支。输入的图片在擦除分支中会被删除部分特征,然后将部分删除的特征图输入到后续的网络中,来让网络挖掘更多样化的特征作为输出。与此同时,将注意力模块加入到局部分支与全局分支中,以此让网络学习更鲁棒的特征。

1 模型设计

所提出的方法模型包括3 个分支,分别是全局分支、局部分支、输入擦除分支。在各分支中加入注意力模块,总体框架如图1 所示。

图1 整体框架

1.1 全局分支

全局分支对应于一个标准的CNN 骨干网络,如ResNet50。本文的主干网络由B个卷积块组成,当图片经过第i个卷积块Bi时,输出的特征表示为Yi。将一个全局最大池化(步长设为1)加到最后一个卷积块后获得一个输出向量fg,该向量为一个人的整体特征表示。

1.2 擦除分支

相关研究表明,CNN 倾向于关注图像中最具鉴别性的部分。在行人再识别的背景下,网络可能不会挖掘某些身体部位或衣服纹理等弱显著性特征。针对此问题,在骨干网络中增加新的分支,从图像中挖掘更多样化的特征。具体来说,将擦除模块添加到初始主干来获得擦除分支。在任意一个卷积块Bi之后都可以添加擦除操作来获得新的特征图并作为后面卷积块的输入,擦除操作如图2 所示。

图2 擦除操作

1.3 局部分支

虽然擦除分支帮助网络挖掘更多样化的特征,但这些新的分支着重获取行人的整体特征。为了帮助网络挖掘更精细的特性,本文增加了一个局部分支。该分支位于卷积块B3之后,由卷积块B4l组成,与B4具有相同的层结构。训练时不同分支之间不会共享权值,这样可以让网络挖掘不同的具有鉴别性的鲁棒特征。如图3 所示,局部分支输出特征映射时,将特征映射按通道平均划分为4 个水平特征,这4 个水平特征经过全局平均池化层获得4 个局部特征向量,最后通过将4 个局部向量拼接起来获取行人的局部特征向量fl。

图3 局部特征分支

1.4 注意力机制

注意力模块通常用于各种深度学习应用任务,如语义分割、目标检测等,在行人重识别的模型中可以显著提高模型检索更多相关特征的能力。为了强调注意模块在本方法中的有效性,设计了一个由空间注意模块(Spartial Attention Module,SAM)和通道注意模块(CAM,Channel Attention Moudle)组成的简单注意模块。特征映射Yi先由SAM 处理,然后由CAM 处理,得到的特征记为Att(Yi)=CAM[SAM(Yi)]。SAM 在空间域内捕获和聚集行人最相关的鉴别性特征,其运算流程如图4 所示[11]。

图4 SAM 运算流程

图5 CAM 运算流程

对空间注意力模块输出的特征SAM(Yi)应用卷积层获得大小为的特征图,然后通过第二个卷积层获得H×W×C的特征图,对此特征图应用Softmax 激活并逐元素乘以SAM(Yi)得到最终结果为CAM[SAM(Yi)]。

1.5 损失函数

经过上述操作,每一个分支最终获得对应输出的特征向量fBr。对每个特征向量应用相同的损失,包括带有标签平滑的ID 损失LBrID和软三元组损失总损失为:

定义ID 损失为:

式中:N表示样本个数,为身份i的预测概率,qi为身份i的平滑标签。qi的作用是防止模型过拟合,其定义为:

式中:y为行人的硬标签,ε为精度参数(本文设置为0.1)。在预测ID 概率的线性层之前,对特征向量fBr应用BNNeck 策略,即将经过网络提取的特征向量fBr用来做三元组损失,然后该特征向量再经过BN(Batch Normalization)层之后送入线性层做交叉熵损失[13-14]。

式中:P表示每批行人ID 的数量,K表示每个ID的样本数量,表示样本i的第k张图片,表示对应分支的行人预测特征表示对应行人身份图片的正样本特征向量表示对应行人图片的负样本特征向量。

2 实验与分析

2.1 实验设置

使用深度学习框架Pytorch 和64 位的Ubuntu18.04 操作系统进行算法训练,图像尺度大小统一调整为256×128 像素,采用ADM 优化器来实现网络参数的更新。实验中batch size 设置为32,每个batch size 包含8 个行人,每个行人包含4 个样本。在训练过程中,训练网络需要120 个epochs。在0 ~10 epoch 中,使用预热学习策略调整学习率;从第11 个epoch 开始,学习率保持不变,持续到第40 个epoch;在第41 个epoch,学习率衰减10%,然后保持不变并持续到第70 个epoch;在第71 个epoch,学习率再次衰减10%,并保持不变直到第120 个epoch。

2.2 数据集与评价指标

为验证本文算法的有效性,使用4 个具有挑战性的数据集对本文算法性能进行测试,分别为两个普通行人数据集Market-1501[7]和DukeMTMCreID[8]以及两个遮挡数据集Occluded-DukeMTMC[9]和Occluded-ReID[10]。Market-1501 包含1 501 个行人的32 668 张图像,这些图像由6 个非重叠相机拍摄得到。在该数据集中,训练集包含751 个行人的12 936 张图像,测试集包含750 个行人的19 732张图像。DukeMTMC-reID 包含1 404 个行人的36 411张图像,这些图像由8个非重叠摄像头拍摄得到。在该数据集中,训练集包含702 名行人的16 522 张图像,测试集包含剩下702 名行人的19 889 张图像。Occluded-dukemtmc 源自DukeMTMC-reID,专为遮挡行人重识别而构建,每张图像都包含遮挡物,由8 个非重叠相机拍摄得到。在该数据集中,训练集包含702 个行人的15 618 张图像,测试集包含另外519 名行人的19 871 张图像。Occluded-ReID 中包含200 位被遮挡行人的2 000 幅图像,每个行人身份有5 张完整图像和5 张严重被遮挡的图像,这些图像由移动摄像机拍摄得到。

在实验中使用Market-1501 作为训练集,Occluded-ReID 作为测试集。采用累积匹配特征(Cumulative Matching Characteristic,CMC) 中 的Rank-1 和平均精度(mean Average Precision,mAP)作为评价识别性能的指标。累积匹配特性曲线中的Rank-n是指在搜索结果中n张图片的正确率,例如Rank-1 是第一位检索正确的概率,Rank-5 则是前5 张图像中检索正确的概率。

2.3 实验结果与分析

将本文所提方法与只有全局分支的方法在两个完整行人数据集和两个遮挡行人数据集上进行测试,结果如表1 所示。

表1 不同方法在不同数据集上的性能

从表1 中可以看出,本文所提方法在4 个数据集上的Rank-1 和mAP 与只有全局分支的方法相比均有明显的提升。通过设计擦除模块使得网络可以提取更鲁棒的特征,并且利用多分支弥补了信息的缺失。

使用Baseline,P,OS,ATT 定义全局分支、局部分支、擦除分支以及注意力模块,“Baseline+P”表示加入局部分支的双分支网络,“Baseline+P+OS”表示在“Baseline+P”的基础上加入擦除分支,“Baseline+P+OS+ATT”表示在“Baseline+P+OS”的基础上加入注意力模块。为了验证所提方法的有效性,在遮挡数据集Occluded-dukemtmc 上对其进行了消融实验,实验结果如表2 所示。

由表2 可知,骨干网络加入局部分支后的性能要优于只有全局分支的性能。全局分支可以学习到显著特征,而局部分支可以学习到细粒度特征,在此基础上加入擦除模块后获得擦除分支来进一步约束网络挖掘鲁棒性的弱显著性特征,实现更好的特征映射。加入注意力模块后,网络学习到的特征更加鲁棒,对全局分支、局部分支以及擦除分支起到了加强的作用,进一步提升了识别性能。

表2 消融实验结果

3 结 语

基于多分支的鲁棒性特征挖掘网络由相互补充的分支组成,分别是提取行人一般特征的全局分支、对细粒度特征进行挖掘的局部分支以及进一步挖掘更丰富与多样化的鉴别性特征的擦除分支。具体来说,在主干分支中加入擦除操作获得擦除分支,这些分支将部分擦除的特征映射作为输入来挖掘被主干分支忽略的鉴别性特征。通过在4 个数据集上的实验,证明了所提方法在行人重识别任务上的有效性,值得借鉴。

猜你喜欢
特征向量分支全局
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
基于改进空间通道信息的全局烟雾注意网络
克罗内克积的特征向量
一类离散时间反馈控制系统Hopf分支研究
软件多分支开发代码漏合问题及解决途径①
巧分支与枝
一类三阶矩阵特征向量的特殊求法
落子山东,意在全局
记忆型非经典扩散方程在中的全局吸引子
高超声速飞行器全局有限时间姿态控制方法