监控管理中基于交叉姿态平滑的行人重识别

2024-04-23 04:35陈小慧何宜庆
计算机工程与设计 2024年4期
关键词:全局行人姿态

陈小慧,何宜庆

(1.南昌大学 人文学院,江西 南昌 330031;2.南昌大学 经济管理学院,江西 南昌 330031)

0 引 言

基于视频摄像头的安防系统[1]在现代社会安全保障中发挥着重要作用,为了减少城市安防系统中所需大量的人力与时间成本,行人重识别[2,3](person re-identification)应运而生。行人重识别旨在海量监控视频中运用计算机视觉技术来检索特定的行人,该技术在刑事侦查、社会治安、嫌疑人追踪与定位等方面具有广泛的应用前景。传统的行人重识别方法主要是根据行人图像中提取的初级视觉特征(颜色、纹理和边缘信息等)来进行相似性匹配。现有的方法在全局特征的基础上附加上行人局部图像块的信息来提升模型的鉴别能力,但是许多时候行人图像局部块也存在着与行人ID无关的噪声,且局部块之间的上下文信息并没有被模型很好地关联与学习。为了平滑这些局部无关噪声与学习局部上下文信息,本文提出了一种交叉姿态标签平滑的行人重识别方法应用于智能监控管理领域中,主要贡献如下:

(1)提出了一种基于关键点语义交叉划分策略,通过提取人体骨架点对图像进行水平、垂直方向的重叠语义划分,获取具有交叉语义连贯性的局部上下文信息;

(2)设计了一种相对姿态偏移量来定义和关联局部块之间的上下文信息,进而捕获行人局部区域之间的姿态细微变化。为了平滑交叉语义划分后局部图像噪声,通过相对姿态偏移量来获取平滑因子来设计一种基于交叉姿态上下文的局部标签平滑方法,使得网络模型对行人姿态的细微变化更为鲁棒与敏感;

(3)通过大量实验分析表明了本文提出的方法能够有效地平滑局部图像引入的噪声信息,并使得网络模型具有鉴别行人细微姿态变化的能力。

1 相关工作

近年来,卷积神经网络[4-7]被逐渐应用于行人重识别技术之中。其主要研究方向主要分为全局表征学习与局部表征学习。全局的表征学习将重识别视为一个多分类任务来进行训练,进而获取全局信息。Zhou等[4]提出了一种全尺度网络,通过设计多个卷积特征流组成的残差块来进行行人的全方位特征学习。Chen等[5]提出了一种提出了高阶注意模块,利用注意机制中复杂的高阶统计信息来捕捉行人之间的细微差异,并产生有鉴别力的注意力区域。Zhang等[6]提出了一种有效的关系感知全局注意力模块来捕获全局结构信息,从而更好地进行注意力的学习。Chang等[7]设计了一种多层分解网络来进行区分高级与低级语义,整个网络将人类视觉的外观分解为多个语义层且无需任何认为的标注成本。

局部表征学习是在全局信息的基础上结合不同具有鉴别力的局部显著信息来进行特征提取。Sun等[8]提出了基于部分卷积的基准网络,利用平均分片策略将特征输出均匀地切成若干块,随后提出了部分精炼池化对这些特征块重新分配极端值。Suh等[9]提出一个基于人体部位对齐的孪生网络模型,该模型可以将人体姿势表示为部分特征图,并将它们直接与外观整体特征图结合以计算对齐的行人部位表示。Zheng等[10]提出了一个知识提炼的姿势引导特征学习网络,运用行人姿态信息来实现身体部位特征的语义对齐。Wu等[11]提出了一种新的多级上下文感知部分注意模型去学习有鉴别力且鲁棒的局部特征。Fan等[12]提出一种空间通道并行网络,其中每个通道的特征都关注着不同的行人身体部分,空间与通道的对应关系使网络能够学习到更具有鉴别力的全局和局部特征。

2 本文方法

本文提出了一种基于交叉姿态标签平滑的行人重识别方法,旨在缓解平滑局部图像块引入的无关噪声与获取局部上下文信息。整个方法的流程分为两个模块,如图1所示。

图1 本文方法整体流程

(1)首先利用OpenPose框架[15]对全局图像提取行人骨架的关键点坐标信息,再通过这些坐标信息对图像进行水平与垂直方向的局部块划分,从而获取具有交叉语义上下文信息的局部图像块,随后将全局图像和局部图像块输入到网络模型中训练;

(2)为了量化地定义行人姿态的细微差异,设计了一种相对姿态偏移量。根据在水平与垂直方向上的局部区域内所有关键点坐标的均值差来得到相应的姿态偏移量,再输入到映射函数后来获取局部图像的伪标签。整个训练过程在局部交叉熵损失与全局三元组损失的共同监督下将全局图像的ID信息与局部图像块的细微姿态变化信息结合起来进行训练,能够在有效学习行人全局与局部特征的同时进一步平滑局部区域带来的噪声。

2.1 关键点语义交叉划分策略

在真实的交通监控场景中,同一个行人经过不同地点时的姿态往往不同,这将导致拍摄的行人外观差异大,而不同身份的行人在相同姿态的情况下外观差异却很小。先前的方法主要是通过将图像水平均匀地切成若干个局部图像块,通过同时学习全局与局部特征来获取姿态不变性表征。随后也有研究运用人体骨架关键点将图像划分为不同语义的局部区域,通过训练过程中进行语义对齐来缓解姿态变化的影响。但是这些方法划分的局部区域都没有语义关联,即局部区域之间没有重叠的语义信息,这将导致学习的局部信息互相独立。此外,大多数局部区域划分方法是基于水平方向切割的,并没有考虑纵向的局部区域信息。本文提出了一个基于关键点语义交叉划分策略来缓解上述挑战,整个划分策略如图2所示。

图2 关键点交叉语义划分策略

首先利用OpenPose框架估计出18个行人骨架关键点,在全局图像的左上方构建直角坐标系,假设关键点坐标集合S={{si(x,y)∣i=0,2,…,17}}; 随后从水平方向将图片划分两个局部区域Nh1和Nh2(上半身与下半身),在垂直方向上划分的局部区域分别为Nv1和Nv2(左半身与右半身);最后为了让这些局部区域具有语义关联性,本文采用交叉切割的方式来保证局部图像块之间具有重叠的语义交集Nh和Nv, 且满足下式的关系

(1)

从式(1)可以看出,Nh与Nv确保了水平、垂直方向的两个局部块之间的语义连贯性。与此同时,为了让两个方向的局部区域也建立语义交集,交叉划分策略也保证了Nh与Nv之间具有人体骨架关键点的交集。

2.2 基于交叉姿态上下文的局部伪标签平滑

本节分为3个部分,首先通过计算相对姿态偏移量来获得平滑因子;然后结合平滑因子设计基于交叉姿态上下文的局部伪标签;最后通过全局损失函数与局部损失函数的共同监督下来进行表征学习。

2.2.1 相对姿态偏移量

现有针对姿态变化的研究主要是通过先验知识来进行姿态特征的语义对齐,进而消除姿态变化对行人重识别精度的影响。由于行人姿态的变化是一个极为抽象的概念,导致现有数据集中缺乏具体的行人姿态标签信息,如何将行人姿态信息进行合理的量化与定义是缓解姿态影响的关键。

图3 相对姿态偏移量计算

计算水平方向与垂直方向的相对姿态偏移量Ph和Pv如式(2)和式(3)所示

(2)

(3)

SNh1和SNh2分别表示属于局部区域Nh1和Nh2内的所有关键点坐标,num(Nh1) 和num(Nh2) 分别为局部区域Nh1和Nh2内的关键点坐标数目;SNv1、SNv2、Nv1、Nv2同理可得。从上述公式可以得出,相对姿态偏移量能够定量地描述行人在水平与垂直方向上的姿态变化,同时局部区域之间的关键点均值差距也能直接地反应不同行人姿态之间的细微差异。

2.2.2 局部伪标签编码

本文将语义交叉划分后的局部图像块作为全局图像的扩充部分同时进行训练,由于单个的局部图像块并不能完整地描述一个行人的身份,因此局部图像块的标签并不能直接使用全局图像的标签信息,而且在单个局部图像块中存在着一些与整个行人身份无关的像素信息。

(4)

图4展示了整个网络模型训练过程中全局图像与局部图像的标签编码规则,其中全局图像使用One-hot标签编码(如图4(a)所示),即在图像的标签向量中赋予真实类别权重为1,其它类别的权重为0。局部图像则使用本文提出的交叉姿态上下文的伪标签编码(如图4(b)所示),先将平滑因子分配给局部图像所对应的全局One-hot编码,然后局部图像经过网络模型的Softmax函数后,输出预测向量来进一步进行权重的分配,最终获得基于交叉姿态上下文的局部伪标签编码。该标签能更好地学习表达局部图像的上下文信息与行人局部区域的细微姿态差异。

图4 全局图像与局部图像的标签编码规则

2.2.3 损失函数

(5)

3 实验结果及分析

本节在Market-1501[16]和DukeMTMC-reID[17,18]数据集上通过特征可视化分析,最新方法的比较、多种消融实验分析来验证本文方法的性能。

3.1 实验环境与设置

本文所有实验结果是在Pytorch框架中运行的,其中操作系统环境为Ubuntu 20.04.1 LTS,CPU处理器配置为11th Gen Intel®CoreTMi7-11700K @ 3.60 GHz×16,显卡型号为Nvidia RTX A1000(24 GB)。在整个训练过程中使用ResNet作为基准网络模型,batch_size为80,每个行人图像的尺寸统一裁剪为224×224,训练迭代总次数为100次,学习率初始化为0.000 35,weight_decay初始化为0.0005,同时使用随机梯度下降法(SGDM)进行模型参数的更新与调优。

3.2 数据集与评价指标

本文在两个公共开源的数据集Market-1501和DukeMTMC-reID上分别进行实验。

Market-1501数据集来源于清华大学,整个数据通过6个摄像机拍摄了1501个行人,共计32 668张图片。其中751个身份的行人作为训练集,共计12 936张图片;另外采样的750个行人作为测试集,共计19 732张图片。

DukeMTMC-re-ID数据集是由杜克大学开源发布的,由8个摄像机拍摄而成。它包含1404个行人对应的36 411张训练图片,其中训练集拥有16 522张图片,测试集则采样了17 661张图片,训练集和测试集分别采样了702个行人样本。

本文将首位命中率(Rank-1 accuracy)、均值平均精度(mean average precision,mAP)和CMC曲线作为评价行人重识别方法的性能指标。Rank-1是指在排序列表中第一个候选样本就检索出目标行人的概率,mAP则是反映了正确匹配的行人样本在整个排序列表中名次靠前的程度。CMC曲线表示Top-n的击中概率,同ROC曲线一样是模式识别系统重要评价指标,本文将其用于评价行人重识别算法的性能。

3.3 可视化分析

本小节通过对网络模型热力图可视化与排序列表可视化来形象地分析本文方法在处理细微姿态变化问题上的表现力。

3.3.1 热力图可视化

图5 网络模型热力图对比

3.3.2 排序列表可视化

图6列举了ResNet-50和本文模型在两个检索目标上的排序结果(排名前5个),其中灰色方框的样本代表ID身份与检索目标相同,黑色方框的样本代表ID身份与检索目标不同。在ResNet-50与本文方法的Top-5排序列表结果中可以看出,本文方法的列表中包含了更多不同姿态的正确样本,而ResNet-50模型的列表中存在着许多行人衣着与姿态相似的错误样本。这些现象验证了本文方法能够提取更加细微且有鉴别力的行人特征,可以精准地匹配不同姿态下的同一身份的行人。

图6 排序结果Top-5对比

3.4 消融实验

为了进一步验证本文所提方法在识别行人细微姿态差异问题上的有效性与鲁棒性,本节内容展示了4种类型的消融实验。

3.4.1 不同模块的影响分析

为了分析本文中的所有模块对行人重识别精度的影响,分别将语义交叉划分与局部伪标签进行了消融对比分析。实验结果见表1,在Market-1501数据集上本文方法比使用均匀划分和局部伪标签的Rank-1与mAP分别提升了2.95%与2.40%,因为语义交叉划分相比于均匀划分能学习更多的局部信息块之间的关联性;本文方法比仅使用语义交叉划分模块的Rank-1与mAP分别高出4.35%与7.80%,由于加入局部伪标签的平滑学习,能够充分学习不同行人之间的细微姿态差异。同时,在DukeMTMC-reID数据集上本文方法也比使用均匀划分和局部伪标签方法的Rank-1与mAP分别提升了3.70%与1.64%;比仅使用语义交叉划分模块的Rank-1与mAP分别高出6.64%与6.65%。这些结果表明同时使用语义交叉划分与局部伪标签能使得网络模型获得更好的检索性能。

表1 不同模块的对比结果

3.4.2 不同局部表征学习方法比较

通过比较一些最新的局部表征学习方法来证实本文方法在局部特征学习上的优越性。如表2所示,本文的网络相比于其它局部表征学习方法的精度有显著的优势。PCB模型虽然通过平均分片策略来学习判别能力强的细微特征,但对行人姿态没有进行定义与度量学习。精度表现第二好MMGA方法利用人体局部掩模引导注意网络来监督行人上半身于下半身区域的特征学习,但是MMGA并没有对局部图像进行单独的平滑训练,因此并没有完全充分地学习局部区域的所有细微特征。相较于以上方法,本文方法通过语义交叉局部区域划分与局部图像的标签平滑训练来指导网络模型进行局部表征学习,充分地利用了局部图像并学习了相应的细微特征。因此本文方法对行人姿态变化的鲁棒性要优于其它方法。

表2 不同基准网络的对比结果

3.4.3 不同损失函数的影响分析

表3探讨了3种损失函数对行人重识别精度的影响,三元组损失与对比损失虽然通过计算行人ID信息的差异来优化模型,但仅仅停留在ID级别的层面,并不能精确到充行人姿态信息。而本文的损失通过相对姿态偏移量的大小来映射姿态变化的权重,能有效地表达不同行人之间的细微姿态变化,因此本文方法的检索精度要远高于其它两种损失函数。以上结果可以看出级联三元组损失函数能更好量化与表达不同行人之间姿态变化信息。

表3 不同损失函数的对比结果

3.4.4 CMC曲线分析

图7(a)和图7(b)分别为是否使用本文方法在两个数据集上得到的CMC曲线。通过观察可以观察到本文方法始终比基础方法的重识别效果更好,尤其是在Rank-1至Rank-5之间。因为本文方法通过局部上下文的交叉姿态学习促使模型提取了更具鉴别力的细微特征,从而将排序靠后的正样本提升了排名,最终进一步改善了Rank的精度。

图7 不同行人重识别数据集的CMC曲线(%)对比结果

3.5 与其它最新方法比较

表4展示了本文方法与其它最新方法在Market-1501和DukeMTMC-reID数据集上的精度对比结果,从中可以看出本文方法在Market-1501数据集上获得了95.52%的Rank-1和87.09%的mAP;在DukeMTMC-reID数据集上获得了88.96%的Rank-1和76.51%的mAP。重识别性能排名第二的DG-Net模型通过端到端的形式来生成新的图像并实时地微调整个行人重识别模型,但是由于生成图像存在着一些像素级别的噪声,导致网络模型对提取生成图像特征的能力有限。相较于DG-Net模型,本文方法通过已有的全局图像进行语义交叉划分局部图像块能够避免新生成图像的像素级噪声,同时应用局部伪标签编码方法能够降低局部图像中的无关噪声。RANGEv2利用一个双流网络结构联合学习了排序上下文信息和外观特征来获取更有鉴别力的特征,尽管在双流网络结构中引入了部件的细粒度特征来缓解排序过程中不正确匹配问题,但是该方法提取的局部特征依然是对外观特征进行平均地划分,并没有很好地考虑局部特征之间的关联性,所以仍然低于本文方法的精度。MGS通过多粒度形状学习来捕获局部的3D信息与增强三维形状特征多样性。CDNet方法提出了一种新的组合深度空间,并通过一个轻量化的网络架构来进行特征提取与学习。以上两种方法都没有考虑如何有效地平滑局部特征的噪声。而本文方法借助交叉姿态来有效地平滑局部噪声,因此本文方法取得了最好的表现且明显优于MGS与CDNet。

表4 与最新方法的对比结果

4 结束语

本文提出了一种交叉姿态标签平滑的行人重识别方法来学习行人的局部细微信息,该方法通过行人骨架点的坐标信息来划分局部区域,然后结合水平与垂直方向的相对姿态偏移量与映射函数来对局部图像进行伪标签编码,通过全局图像的度量与局部图像的标签平滑来提升网络模型对行人姿态的鉴别能力。大量实验结果表明本文方法能够有效地平滑局部区在训练阶段引入的噪声,并且促使网络模型能够获取更多的局部上下文信息,有效地缓解了治安监控管理问题。

猜你喜欢
全局行人姿态
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
毒舌出没,行人避让
攀爬的姿态
路不为寻找者而设
全新一代宋的新姿态
跑与走的姿态
落子山东,意在全局
我是行人
新思路:牵一发动全局