基于局部特征关联与全局注意力机制的行人重识别

2022-01-14 03:02:34李佳宾李学伟刘宏哲
计算机工程 2022年1期
关键词:全局行人注意力

李佳宾,李学伟,刘宏哲,徐 成

(北京联合大学北京市信息服务工程重点实验室,北京 100101)

0 概述

行人重识别是从若干组摄像设备拍摄的多张多角度行人图片或视频中寻找目标行人的技术,但存在图像模糊不清、易于遮挡、角度与姿态多变的问题。传统算法通过距离度量人手动设计特征(如纹理、颜色等)的差异性,其适应性较差且效率较低。

深度卷积网络在行人重识别领域中可以提取到诸多图像特征。文献[1]利用分类损失与验证损失进行模型训练,先使用分类函数进行识别,再使用验证函数进行判别。三元组损失[2]作为度量学习中的一种损失函数,也是重识别中利用较广的损失函数。文献[3]通过Circle Loss 使相似性特征以不同速率进行学习,使算法收敛目标更明确。文献[4]在遮挡方面利用一种具有判别遮挡能力的池化单元代替传统池化层,有效地处理行人的遮挡情景。文献[5]采用GAN 网络生成行人的多种姿态近似表示。文献[6]提出一种结合RGB 与灰度图的方式提取特征,减少因色彩导致的损失与误差。近年来,文献[7-9]利用注意力机制加强辨别特征并抑制无关噪声。由于注意力是通过局部感受野获得,因此对图像全局添加注意力较困难。针对该问题,文献[10]采用大尺寸的卷积核堆叠多个小规模的卷积[11]。文献[12]利用特征点与全局关系的全局注意力机制以有效地抑制无关特征。基于局部特征也是一种有效的方式,文献[13]通过PCB 方法将特征图进行水平切分并预测。文献[14]提出一种显著性协作融合的方法进行识别。文献[15]使用人体关键点算法描绘关键点,再根据关键点进行识别。文献[16]提出一种分析局部特征与全局关系的方法,分别从全局和局部两个角度计算特征联系。文献[17]采用一种结合注意力机制与核动态上采样的方式实现跨分辨率的识别研究。文献[18]采用一种多任务金字塔的方式重叠匹配鲁棒性特征。对于注意力机制,虽然以上方法与文献[13,19]都能够区分主要特征与无关噪声,但是基于细粒度特征点与全局的关系,信息会分散,难以有效聚集特征点,因此无法充分利用局部信息。局部切分方案将多个局部特征进行相同的权重处理,然而无法利用最具判别力的关键特征,人为将各部分权重提前设定好则不利于算法的自适应性。

本文结合全局注意力机制与局部特征关联方法,提出一种改进的特征关联算法LFR-GA。通过调节局部特征之间的关系挖掘图像全局特征,实现增强局部关键特征语义信息并区别非关键特征的目的。

1 相关工作

1.1 全局注意力

在深度学习算法中,注意力机制能有效突出关键特征点,并合理分配运算资源的算法。在注意力机制的支持下,机器学习算法对图像中的特征信息进行重点提取,区分重要信息与普通信息,并去除背景等噪声干扰,使得图像特征信息得以有效利用。在多种注意力生成方法中,文献[12]设计一种考虑图像各点之间紧密联系的全局注意力机制。这种技术可以有效地去除图像背景等噪声干扰,并具有一定的关键特征提取能力和较强的全局性,其立足点是各个像素点与全局像素点的关系。

1.2 局部特征关联

在机器视觉领域中,不同阶段的全局特征和局部特征能够表示不同程度的视觉信息,将局部与全局特征相关联也是视觉领域的主要方法。文献[16]提出一种特征关联网络,同时考虑局部与全局、局部与局部的关联程度,并计算不同局部特征之间的相互联系,使得关键局部特征得以显现。

1.3 全局注意力机制的改进

本文首先缩减全局注意力生成的步骤,其次使用一种新的局部特征组合方式进行局部特征关联判断,基于这两种方法提出一种新型网络,使得网络可以去除多种噪声干扰,并自适应地提取关键特征点,兼顾全局特征点与局部特征块关系。

2 模型构建

2.1 LFR-GA 网络结构

LFR-GA 网络结构如图1 所示,主要分为基础特征提取网络、全局注意力生成、局部特征关联、损失函数计算4 个部分。

图1 LFR-GA 网络结构Fig.1 Structure of LFR-GA network

LFR-GA 网络经过ResNet 50 基础网络提取特征,对特征分别进行空间注意力与信道注意力的生成计算,并进行初次处理。与原来算法相比,本文在拼接特征模块时,删除特征点转置关系张量部分,并使用局部特征关联补充局部特征关系权重。在局部特征关联中,本文对特征进行分片,将全局特征切分为多个局部特征,并计算局部特征之间的联系以突出关键特征。本文将局部特征分别与其他每个局部特征进行逐个关联,将结果拼接再关联以表示全局联系,最终得到5 个1×1×C的向量,并根据特征向量进行识别。在损失函数计算中,本文使用交叉熵函数与三元组损失函数的联合训练,从分类与度量两个角度进行整体优化。本文主要综合全局注意力机制与局部特征关系,利用全局注意力弥补局部关联中缺少的部分全局信息,并有效抑制无关噪声的影响,以弥补局部特征可能包含噪声导致的预测影响;而使用局部特征关系可以弥补全局注意力难以使用的局部特征块的语义信息,将主要特征中最关键的特征重点利用,使算法能够识别相似度较高且难以区分的样本,进一步增强识别能力。

2.2 全局注意力机制

全局注意力机制考虑到全局范围关系具有结构化信息,其观点类似于聚类信息,具有从全局范围关系中提取语义信息的可能性,使用此类结构信息生成注意力。对于任意一个特征节点,全局注意力机制均可计算出其与全局的关系向量,关系向量能有效地挖掘结构信息,包括其余各点的位置信息和两两成对的关联信息。全局注意力机制包括空间位置注意力和特征通道注意力,两部分注意力可以强化图像特征以抑制无关信息,从单个特征点与全局特征点的联系开始提取信息,生成特征点关联信息图,并依据关联图信息生成注意力。

2.2.1 ResNet50 网络

ResNet 网络又称ResNet 深度残差网络,针对深度学习中网络退化问题,HE 等提出ResNet 深度残差网络。残差学习是ResNet 深度残差网络的核心,残差学习的原理为跳跃连接,在卷积结果中加入原始特征的恒等映射,使得学习过程中即使效果不理想,结果也不会更差。ResNet50 深度残差网络参数设置如表1 所示。

表1 ResNet50 深度残差网络参数设置Table 1 Parameter settings of ResNet50 deep residual network

2.2.2 空间注意力网络结构

空间注意力网络结构如图2 所示,首先经过ResNet50 得到一个特征张量X∈RC×H×W,其中C为特征图通道数,H为高度,W为宽度,从空间位置的角度考虑,每张特征图中包含H×W个特征点,记为N个,则每个特征点可表示为xi∈RC,其中i=1,2,…,N,定义一种关系成为亲和关系,表示空间节点之间的关联程度,记为ri,j。对于空间位置上N个特征点,空间注意力模块需要逐个对其与其他特征点的亲和关系进行计算,将所有亲和关系记录在一个N×N的关系矩阵中,又称空间特征点亲和度图。亲和度既包括局部信息又包括全局信息的关联信息,注意力生成还需要原始特征图的特征信息。由于关系信息脱离关系主体则毫无意义,因此注意力计算需要将原始特征压缩与亲和关系信息结合,以利用与特征相关的全局结构信息。

图2 空间注意力网络结构Fig.2 Structure of spatial attention network

空间注意力的生成步骤主要分为2 步:1)对特征张量R进行两层卷积,调整其规模分别为(H×W)×C和C×(H×W)的两个矩阵,将其进行相乘得到一个维度为(H×W)×(H×W)的关系矩阵,操作其Reshape 改变维度为(H×W)×H×W的三维张量;2)对初始特征图进行最大池化操作得到一个H×W的特征图,将特征图与进行拼接,对结果进行卷积操作得到一个H×W的系数矩阵,对矩阵进行Sigmoid 操作得到空间注意力。亲和关系的计算如式(1)所示:

其中:θS和φS均为包含BN 以及ReLU 操作的1×1 卷积;Wθ∈RC/S1×C且Wφ∈RC/S1×C,S1为一个预定义的正整数,用于控制降维率。根据式(1)计算得到ri,j之间的关系信息,随后对所有特征点逐一执行此操作得到一个亲和关系图RS∈RN×N。为综合学习特征点i的全局与局部信息,空间注意力模块不仅了解特征点之间的亲和关系,还需要原始特征点的特征信息,考虑到这两部分特征不在一个特征域,因此需要进行不同处理,如式(2)所示:

其中:ψs与φs分别为特征本身以及特征亲和关系的嵌入函数,且两者均为包含BN 以及ReLU 的1×1 卷积操作;是一个平均池化操作,将原始特征图按照信道方向进行压缩至维度降为1,使得原始特征为一张1×H×W的特征图;yˉi将两部分进行拼接,结果包含特征本身以及特征的全局关系,根据全局关系挖掘丰富的结构信息,结构信息中的注意力系数如式(3)所示:

其中:W1和W2均为1×1 卷积操作,W1,W2将信道数量减少为1,各个数值经过Sigmoid 函数后变为注意力系数,其维度对应空间位置的所有特征点。

2.2.3 信道注意力模块结构

信道注意力的生成原理与空间注意力基本一致,只是将计算空间特征点之间的关系注意力转变为计算通道之间的关系注意力。信道注意力利用初始特征图R计算C×C的通道关系矩阵,再经过Reshape 操作与特征图R在通道方向的最大池化结果进行卷积得到一个1×C的系数向量。

2.3 局部特征关联网络结构

在全局注意力机制的无关特征抑制下,特征图可以排除部分背景、遮挡等冗余噪声的影响,在此基础上,本文增加一个局部特征关联模块,不仅利用细粒度特征点的关系信息,还可以由多个特征点组成具有一定规模局部特征块之间的关联信息,使得图像关键局部特征更易凸显且自适应性增强。本文参考文献[16]的关系网络内容,具有上述空间注意力的全局关联判断,对另一部分网络one-vs-rest 进行修改,并逐个判别,以增强局部特征关联间的判断。

局部特征关联网络结构如图3 所示,从空间注意力模块中获得特征图按照横向进行切片,本文将图像切为6 个部分,表示6 个C×H/6×W特征部分,分别计算得到其相关联的程度信息。在计算某一部分的关联程度时,局部特征关联模块需将其与其他5 个部分两两组合判别局部关联,再将多个局部关联整合提取全局关联信息。

图3 局部特征关联网络结构Fig.3 Structure of local feature association network

局部特征关联模块将6 个分割张量分别在空间方向上使用最大池化得到6 个局部特征块pi(i=1,2,3,4,5,6),其维度为1×1×C;然后对pi进行1×1 卷积操作使其维度变为1×1×c,将卷积后的6 个特征块记为,最终对每个分别计算其局部-全局的关系向量Qi,使用跳跃连接方式将每个局部特征与其关系向量结合,如式(4)所示:

其中:Rp为一个由1×1 卷积,归一化以及ReLU 非线性激活的子网络,卷积操作将通道数量由5c转变为c;T为特征串联拼接操作;q为两个局部特征模块的关系向量;i、j、m、n、a、b为6 个局部特征中的某一个,各不相同,如i=1,j=2,m=3,n=4,a=5,b=6;Rpi为另外一类1×1 卷积,将2 个拼接特征向量进行卷积使得信道数量由2c变为c。式(4)分别计算某一个局部特征与其余各个局部特征的关系向量,再利用得到的5 个向量生成增强的特征向量。

局部特征关联模块可以充分考虑局部特征之间的相互联系,使特征向量具备更丰富的结构信息,多个局部特征模块能够表示具体的关联强弱,并利用较关键的局部特征以抑制弱化非重要特征的影响。

2.4 损失函数

为了使网络能够精准地提取关键特征,本文结合三元组损失函数与交叉熵函数进行训练,这两种损失函数是重识别算法中常用的函数。交叉熵函数作为一种分类损失函数,如式(5)所示:

其中:N与yn分别为一个batch 数据中的数据数量以及真实标签为每个行人在预测过程中每个识别特征的标签;K为预测标签的数量;为特征fi与标签k的分类器。

三元组损失函数是识别算法中被广泛应用的一种损失函数,其中A、P、N 分别表示目标图片、正样本图片、负样本图片,分别计算AP 与AN 之间的差异性,结合AP 与AN 作为损失函数。三元组损失函数设计旨在增加类间距离,减少类内距离,在训练时为了使算法更加精准,使用与A 距离最远的P 以及与A 距离最近的N 作为训练数据,三元组损失函数如式(6)所示:

其中:K为一个批量数据中行人的数量;M为每个行人对应标记图片的数量;α为预设值,用于调节正负样本判别之间的距离;分别为目标图像、正样本图像以及负样本图像中提取的特征。

3 实验与分析

3.1 实验数据集

本文在3 个数据集CUHK03[20]、Market1501[21]、DukeMTMC-reID[22]上进行实验以验证算法的有效性。CUHK03 数据集是在大学中采集的行人数据集,主要包含使用DPM 算法检测标记的Detected 部分和人为手工标记的Labeled 部分,整个数据集使用6 个摄像头分为3 组拍摄,包含1 467 个行人ID 以及14 097/14 096 个标记框,其测试集包括700 个行人ID 以及5 332/5 328 个标记框;训练集包括767 个行人ID 以及7 365/7 368 个标记框。Market1501 数据集包含由6 个摄像头拍摄的1 501 个行人ID,共有32 668 个检测标记框,测试集包含750 个行人以及19 732 张图片,训练集包含751 个行人以及12 936 张图片。DukeMTMC-reID 包含1 404 个行人ID 以及36 411 张图片,测试集包含702 个行人ID 以及17 661 张图片,训练集包含702 个行人ID 以及12 936 张图。

3.2 实验条件

本文在实验中使用ubuntu16.04 系统,python3.6 编程语言,pytorch1.1.0 深度学习框架,关键计算硬件为TITAN XP 显卡进行加速运算。本文算法将输入图像尺寸调整为384×128,每个batch 的尺寸为64,其中一次选择16 个行人ID,对于每个行人选择4 张图片,总训练批次为500,模型网络的初始学习率为0.000 8,权重衰减系数为0.000 5。

3.3 实验评估指标

在行人重识别中,本文用首位命中率(Rank-1)和平均准确率均值(mmAP)作为评价指标。首位命中率是在所有组行人识别中,每组排在第一位的识别结果正确的命中率;mmAP需要先进行平均精度(AAP)计算,如式(7)所示:

其中:Pc为这一组分类中命中的图像数量;如果第k个图像命中,则rrel(k)为1,否则为0;n为一组图像预测中选择的图像总数量;C为总分类组数。

3.4 实验结果分析

3.4.1 局部特征关系分块数量的影响以及有效性

本文分别将水平切块数量设置为5、6、7,并在CUHK03 数据集上进行验证切分方法的有效性。不同分块的mmAP对比如图4 所示。局部特征关联模块评估指标对比如表2 所示,对比网络为单一注意力网络。

图4 不同分块的mmAP对比Fig.4 mmAP comparison among different blocks

表2 在CUHK03数据集上局部特征关联模块评估指标对比Table 2 Evaluation indexs comparison of local feature association module on CUHK03 data set %

从图4 可以看出,当分块为5 块时,最终Rank-1 低于80%。当分块为6 块时,Rank-1 能够有效地提升,迭代次数500 后Rank-1 达到81.6%。当块数增加为7 块时,前250 迭代次数与6 块的Rank-1 差别不大,与6 块相比,后250 迭代次数7 块的Rank-1 逐渐收敛并略微降低。实验结果表明,局部特征分为6 块时,Rank-1 值最佳。本文实验将块数分为5 时,Rank-1 得到进一步提升,说明将特征尺度缩小时,识别效果能够有效提升;当块数继续增长为6 时,识别效果有了更大的提高,而分为7 块时,局部信息分割过于细微,使得部分特征割裂,降低效果。

3.4.2 算法对比

本文算法在CUHK03、Market1501、DukeMTMCreID 3 个数据集上与目前行人重识别领域较经典以及先进的算法进行对比,以Rank-1 以及mmAP值作为衡量指标,选取的对比算法大多是将ResNet50 网络作为基础,同样运用注意力机制或局部特征切分方法,验证实验存在可对比性,结果如表3、表4 所示。

表3 在CUHK03 数据集上不同算法的实验结果对比Table 3 Experimental results comparison among different algorithms on CUHK03 data set %

表4 在Market1501、DukeMTMC-reID 数据集上不同算法的实验结果对比Table 4 Experimental results comparison among different algorithms on Market1501 and DukeMTMCreID data sets %

从表3 和表4 可以看出,本文算法在多个公开数据集上的评价指标均得到提高。与ResNet 的Baseline 算法相比,在CUHK03 数据集Labeled 上本文算法的Rank-1 与mmAP指标分别提升7.8、10.3 个百分点,在Detected 上其Rank-1 与mmAP指标分别提升10.5、11.7 个百分点。与DAS-reID 算法相比,在Labeled 上本文算法的Rank-1 与mmAP指标分别提升2.7、4.1 个百分点,在Detected 上 其Rank-1 与mmAP指标分别提升2.8、4.1 个百分点。相比GCP 算法,在Market1 501 数据集上本文算法Rank-1 与mmAP指标分别提高0.4、0.5 个百分点,在DukeMTMC-reID 数据集上,其Rank-1 与mmAP指标分别提升0.2、2.2 个百分点。实验结果表明,本文算法无论在清晰还是模糊的数据集中Rank-1 与mmAP指标均较高,具有较优的鲁棒性与自适应性。

3.4.3 实验结果可视化

为了验证本文算法的有效性以及与其他算法的对比效果,本节对上述实验不同场景数据集中的部分实验结果进行可视化。对比算法为PCB 与MGN,以Rank-5 为标准,其中无边框的为正确识别结果,有黑色虚线边框的为错误识别结果。不同算法的整体特征识别结果对比如图5 所示,当查询图像与备选图像整体高度相似时,LFR-GA 算法能够有效利用最关键特征对图像进行准确识别,其他算法在这种高度相似的情况下容易出错。行人自遮挡对不同算法识别结果的影响如图6 所示。在目标被其余行人遮挡的情况下,LFR-GA 算法能够有效处理遮挡图像信息,充分利用有效的局部特征信息识别目标。背景干扰对不同算法识别结果的影响如图7 所示,当目标存在背景行人干扰时,LFR-GA 算法能够充分利用目标的有效特征信息,去除背景噪声影响。因此,针对复杂的多种场景,LFR-GA 算法在限制条件较为严格的情况下依然具有较强的识别效果。

图5 不同算法的整体特征识别结果对比Fig.5 Recognization results of overall feature comparison among different algorithms

图6 行人自遮挡对不同算法识别结果的影响Fig.6 Influence of recognization results of different algorithms on person self-occlusion

图7 背景干扰对不同算法识别结果的影响Fig.7 Influence of recognization results of different algorithms on background interference

4 结束语

本文结合全局关系注意力机制和局部特征关联方法,提出一种改进的局部特征关联算法LFR-GA。根据特征的全局关联与局部关联提取图像语义信息,以增强局部关键特征。实验结果表明,相比PCB、MGN 等算法,LFR-GA 算法的平均准确率和首位命中率较高,具有更强的准确性和自适应性。后续将针对局部特征关联与损失函数进行研究,通过简化模型结构以减少计算量,在保证识别精度的前提下达到加快模型运行速度的目的。

猜你喜欢
全局行人注意力
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
毒舌出没,行人避让
意林(2021年5期)2021-04-18 12:21:17
路不为寻找者而设
扬子江(2019年1期)2019-03-08 02:52:34
落子山东,意在全局
金桥(2018年4期)2018-09-26 02:24:54
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
我是行人
A Beautiful Way Of Looking At Things
新思路:牵一发动全局
中国卫生(2014年5期)2014-11-10 02:11:26