陈元妹 王凤随 钱亚萍 王路遥
摘 要: 針对无监督行人重识别中行人特征表达不充分以及训练过程产生噪声标签等问题,提出了一种基于特征细化的多标签学习无监督行人重识别方法。首先,为提高网络对关键区域信息的利用能力,设计多尺度通道注意力模块(Multi-scale channel attention module, MCAM),嵌入ResNet50网络的不同层来构建特征细化网络,并利用该网络对输入图像通道维度上的关键信息进行强化和关注,以获得更丰富的特征信息;其次,为降低训练过程中产生的噪声标签对网络的负面影响,设计多标签学习模块(Multi-label learning module, MLM),通过该模块进行正标签预测以生成可靠的伪标签;最后,利用多标签分类损失和对比损失进行无监督学习。在数据集Market-1501和DukeMTMC-reID上进行实验,结果表明该方法在这两个数据集上的平均精度均值分别达到82.8%和70.9%,首位命中率分别达到92.9%和83.9%。该方法使用注意力机制强化图像的特征信息,并通过正标签预测减少噪声标签,有效提升了无监督行人重识别的准确率,为无监督行人重识别领域提供了更鲁棒的方法。
关键词: 行人重识别;无监督;特征细化;多尺度通道注意力;多标签学习
中图分类号: TP391.4
文献标志码: A
文章编号: 1673-3851 (2023) 11-0755-09
引文格式:陈元妹,王凤随,钱亚萍,等.基于特征细化的多标签学习无监督行人重识别[J]. 浙江理工大学学报(自然科学),2023,49(6):755-763.
Reference Format: CHEN Yuanmei, WANG Fengsui, QIAN Yaping, et al. Multi-label learning unsupervised person re-identification based on feature refinement[J]. Journal of Zhejiang Sci-Tech University,2023,49(6):755-763.
Multi-label learning unsupervised person re-identification based on feature refinement
CHEN Yuanmei, WANG Fengsui, QIAN Yaping, WANG Luyao
(a.School of Electrical Engineering; b.Key Laboratory of Advanced Perception and Intelligent Control of High-end Equipment, Ministry of Education, Anhui Polytechnic University, Wuhu 241000, China)
Abstract: Aiming at the issue of inadequate expression of person features and noise labels generated in the training process in unsupervised person re-identification, we proposed a multi-label learning unsupervised person re-identification method based on feature refinement. Firstly, to improve the network′s ability to use key area information, a multi-scale channel attention module (MCAM) was designed. We embedded it into different layers of ResNet50 to construct a feature refinement network. This network was used to srengthen and focus the information on the channel dimension of the input image to obtain richer feature descriptions. Secondly, to reduce the detrimental effects of noise labels produced during network training, we designed a multi-label learning module (MLM). Positive label prediction was performed through this module to generate reliable pseudo-labels. Finally, unsupervised learning was carried out by using multi-label classification loss combined with contrast loss. We conducted experiments on Market-1501 and DukeMTMC-reID datasets. The results show that the Rank-1 hit rate is 92.9% and 83.9%, while the mean average precision reaches 82.8% and 70.9%, respectively. This method uses the attention mechanism to enhance the feature information of the image and reduces the noise label by positive label prediction. It effectively improves the accuracy of unsupervised person re-identification and provides a more robust method for unsupervised person re-identification fields.
Key words: person re-identification; unsupervised; features refinement; multi-scale channel attention; multi-label learning
0 引 言
行人重识别任务旨在不同的摄像机中识别出同一行人,这项任务在预防犯罪和维护公共安全方面具有重要意义[1-3]。目前在行人重识别方法中,有监督行人重识别的精准度相对较高,但该方法需要完整的真实标签,成本高昂且标注耗时;无监督行人重识别可以弥补有监督行人重识别需要真实标签的不足,能够从未标记的数据集中学习行人身份的类间差异特征和类内相似特征,降低了标注成本,更适合实际应用。
基于深度学习的行人重识别方法通常利用卷积神经网络(Convolutional neural network,CNN)来提取深层次的特征[4-5]。但由于图像模糊、行人姿态、行人遮挡、光线等因素的影响,CNN无法从行人图像中精确提取关键区域信息,导致行人重识别精度较低。因此,研究基于深度学习的行人重识别方法,首要任务是提升复杂场景下行人图像的特征提取能力,以减少网络训练过程中的噪声标签,提高训练速度和精度。
目前已有大量基于深度学习的行人重识别研究。刘紫燕等[6]提出了一种基于注意力机制的行人重识别方法,利用注意力机制缓解了环境因素的影响,有效提取了整个行人的特征。Cho等[7]提出了一种基于部件的伪标签细化(Part-based pseudo label refinement,PPLR)框架,将交叉一致性分数作为特征相似性,并通过部分特征的预测信息来细化全局特征,以此减少全局特征聚类中的噪声标签。Ge等[8]提出了一种自步对比学习(Self-paced contrastive learning,SPCL)框架,结合源域和目标域信息进行联合特征学习;与其他对比学习框架不同的是,SPCL可以为源域类级、目标域簇级和非簇实例级提供监督信号,并动态更新混合内存,充分挖掘了所有训练数据的信息,提高了目标重识别准确率。为充分获取行人信息,Lin等[9]提出了一种自下而上的聚类方法(Bottom up clustering,BUC),在聚类过程中使用多样性正则项来平衡每个聚类中的样本数量,实现了多样性和相似性的有效平衡。孙义博等[10]提出了一种基于通道注意力机制的行人重识别方法,有效提取了更鲁棒的行人特征,使设计的网络模型达到了更高的识别精度。Yu等[11]提出了一种基于深度聚类的无监督非对称距离度量学习方法,该方法有效降低了由于光线、遮挡等问题引起的图像偏差,从而有利于无监督行人重识别网络挖掘潜在的行人特征信息。Zhang等[12]为充分挖掘行人图像中的判别性信息,并保持跨域标签的一致性,提出了一种基于软多标签和复合注意力模块的无监督行人重识别方法。Xuan等[13]提出了一种相机内和相机间的相似度计算(Intra-inter camera similarity, IICS)方法,相机内的相似度直接利用CNN提取每个相机内的特征,相机间的相似度利用每个样本在不同相机上的分类分数计算;这种相似度计算方法有效缓解了相机间的样本分布差异问题,使网络生成更可靠的伪标签。以上研究虽然取得了一定的成果,可以在复杂背景下提取行人的特征信息,但忽略了行人图像中的细微特征。此外,如果无监督行人重识别网络模型没有充分提取样本中的特征信息,易产生噪声伪标签,使得行人重识别准确率降低。
为充分提取行人图像中的关键信息,减少训练过程中产生的噪声标签,本文提出了一种基于特征细化的多标签学习无监督行人重识别方法。首先设计了多尺度通道注意力模块(Multi-scale channel attention module,MCAM),使得行人重识別模型对全局和局部通道上特征进行加权和强化;其次,设计了多标签学习模块(Multi-label learning module,MLM),利用MLM模块进行正标签预测,以减少噪声标签的影响;最后,利用多损失联合监督网络学习,提高行人重识别模型的训练效率。本文提出的方法强化了行人图像中全局和局部通道中的重要信息,在有效提取行人关键特征的基础上通过MLM模块提高了伪标签的质量;无监督行人重识别网络模型在训练过程中无需额外的信息标注,在节约成本的同时提高了无监督行人重识别的准确率。
1 本文方法
1.1 整体网络结构
本文提出的基于特征细化的多标签学习无监督行人重识别方法,采用ResNet50作为基础网络,并在基础网络的Layer3、Layer4之间和Layer4、Layer5之间添加MCAM模块作为主干网络,整体网络结构示意图如图1所示。
整体网络结构主要分为两个模块:代理辅助学习模块和多标签学习模块。
在代理辅助学习模块,首先对网络提取的特征进行全局聚类;其次,将每个聚类作为多个相机感知代理,并生成一组新的伪标签;最后,将代理特征存储在代理级记忆库中,并利用代理特征更新代理级记忆库,同时计算对比损失。
在多标签学习模块中,将主干网络提取的2048维特征存储在记忆库中,并计算输入特征与其他特征之间的相似性分数。同时根据相似性分数进行正标签预测,提高伪标签质量。最后计算多标签分类损失,多标签分类损失在迭代训练过程中不断更新网络。
1.2 多尺度通道注意力模块
MCAM模块的核心思想是通过添加全局平均池化层来实现多个尺度上的通道注意。MCAM模块由全局和局部通道上下文构成,其中全局通道又分为两个分支。一个分支不改变通道维度,另一个分支先降维后升维,从而学习到不同维度的特征图。多尺度通道注意力模块结构示意图如图2所示。
将MCAM模块的输入特征图记为F∈RH×W×C,输出特征图记为F*∈RH×W×C。
在全局通道上下文结构中,首先,將特征图F输入全局平均池化层(Global average pooling, GAP),得到1×1×C的特征描述。其次,将1×1×C的特征信息分别输入两个分支。其中一个分支仅经过一维卷积层,另一个分支依次经过二维卷积层、BN层、ReLU激活函数层、二维卷积层、BN层。最后,输出全局通道上下文信息g,g可用式(1)计算:
其中:PmA表示mAP值;C表示类别数;PA,i表示第i个类别的平均精度;P(k)代表top-k检索结果的精准率;Δr(k)=R(k)-R(k-1);R(k)为top-k结果的召回率,R(0)=0。每次实验采用随机测试集重复10次,计算平均性能。
2.2 实验设置
本文实验选用的GPU为NVIDIAGeForce RTX 2080Ti(11 GiB),操作系统为Ubuntu 16.04,处理器为英特尔Core i9-10900@3.7 GiHz,深度学习框架为Fytorch 1.2.0。本文采用ImageNet预训练的ResNet50作基础网络。在每个epoch的开始,本文计算k倒数最邻近的Jaccard距离,并使用Density-based spatial clustering of applications with noise (DBSCAN)进行全局聚类。模型的训练批次由从8个代理中随机抽取的32张图像组成,每个代理有4张图像。采用随机翻转、裁剪和擦除等数据增强方法。epoch大小设置为50,在前10个epoch采用预热方案,初始学习率为0.00035,每20个epoch后除以10。正标签预测中相似性阈值设置为0.6,超参数μ=α=0.5,τ=0.07,λ=0.5,ω=5。总损失函数采用对比损失和多标签分类损失,前5个epoch仅使用相机内对比损失和多标签分类损失,在剩余的epoch中,相机间对比损失与其共同作用,训练过程中总损失曲线如图3所示。
2.3 消融实验
2.3.1 MCAM模块嵌入层实验
为分析MCAM模块嵌入不同层的实验效果,本文在Market-1501数据集进行实验,实验结果见表1。其中Layer2、Layer3、Layer4、Layer5分别表示在ResNet50的第2层、3层、4层、5层之后嵌入MCAM模块。Layer3+Layer4表示在第3层和第4层之后同时嵌入MCAM模块。
由表1可以看出,与分别在Layer2和Layer5之后嵌入MCAM模块相比,在Layer3和Layer4之后分别嵌入MCAM模块的实验结果较好,并且在Layer3和Layer4之后分别嵌入MCAM模块的实验结果基本相同。因此本文在Layer3和Layer4之后同时嵌入MCAM模块进行一次实验,结果发现,该方式比分别在Layer3和Layer4之后嵌入MCAM模块的效果更佳。由该实验结果可知,将MCAM模块同时嵌入基础网络的Layer3和Layer4之后,无监督行人重识别网络挖掘行人关键特征的能力更优。因此本文在第3层和第4层之后都嵌入MCAM模块,将此网络作为本文的主干特征提取网络。
2.3.2 MCAM模块和MLM模块有效性验证实验
为进一步验证MCAM模块和MLM模块的有效性,在Market-1501数据集进行消融实验。实验结果见表2,其中:Baseline+MCAM表示在基线网络基础上仅添加MCAM模块,Baseline+MLM表示仅添加MLM模块,Baseline+MCAM+MLM为本文最终的模型。
实验过程如下:首先,对基线网络进行测试,基线网络的PmA为78.0%,R1为90.5%;其次,在基线网络ResNet50中嵌入MCAM模块,由表2可以看出,PmA和R1分别提高了2.0%和1.4%;再次,在基线网络中添加MLM模块,其PmA和R1分别为81.0%和91.8%,相比基线网络分别提高了3.0%和1.3%;最后,将MCAM模块和MLM模块同时添加至基础网络结构中,其PmA达到了82.8%,与原先网络相比大幅提升了4.8%,R1达到了92.9%,在原先网络基础上提升了2.4%。
通过实验结果可以看出,同时添加MCAM模块和MLM模块的评价指标最好,表明联合使用MCAM模块和MLM能够有效提升无监督行人重识别的精确度,本文所提出的改进的方法有效。
2.3.3 参数β取值实验
为探究本文总损失函数中参数β的取值对模型识别精度的影响,本文选取了β=0.4, 0.5, …, 0.8等5个不同的数值,在Market-1501和DuleMTMC-reID数据集上进行实验,实验结果见表3。
表3的实验结果显示,当选取不同β值时,Market-1501和DuleMTMC-reID数据集的PmA和R1均呈先升后降的趋势。当β取0.6时,两个数据集均呈现最佳效果,因此本文中β取0.6。
2.4 可视化结果分析
为比较本文方法与基线方法的行人重识别效果,本文在Market-1501数据集上进行实验,其中行人a、行人b、行人c的识别结果如图4所示。图4中第1列为待识别行人;后10列为行人重识别准确率最高的前10张行人图像,即R1至R10对应的行人重识别结果。每张识别图像上方均标有数字,其中:未标方框的图像表示行人识别正确;标有方框的图像表示误识别为其他行人,即行人识别错误。
由图4可知,对于行人a,应用基线方法的行人重识别结果中有5张图像识别错误,而应用本文方法的行人重识别结果仅出现1张图像识别错误;对于行人b和c,应用基线方法分别出现2张和3张图像识别错误,而本文方法未出现识别错误。上述实验结果表明,本文方法可以充分提取行人图像的细节特征,减少噪声标签,有效提升了无监督行人重识别的准确率;同时该结果表明,多尺度通道注意力模块和多标签学习模块联合使用的行人重识别方法具有较强的鲁棒性。
为验证MCAM模块的有效性,本文利用梯度加权类激活热力图技术(Gradient-weighted class activation mapping,Grad-CAM)[17]对MCAM模块输出的区域注意力特征在Market-1501数据集上进行可视化分析,热力图如图5所示。
图5结果表明,MCAM模块强化了行人图像中多样化的细节特征,如背包、手持物体、衣服图案等,提高了无监督行人重识别网络的特征提取能力。
2.5 与其他无监督行人重识别方法对比实验
本文方法与其他典型无监督行人重识别方法在Market-1501和DukeMTMC-reID两个大数据集上进行了对比,对比方法包括ACAN-GRL[18]、CVSE[19]、MSC-GDC[20]、CAP[21]、CAPL[22]等,对比结果见表4,表身中的空白表示文献中没有报告相关数据。
由表4可以看出,在同一评估指标下,本文方法相较于其他方法取得了更好的识别结果。将本文方法与Attention+RAdam方法相比,在Market-1501和DukeMTMC-reID数据集下,PmA与R1均大幅提升。Attention+RAdam方法与本文方法均使用注意力机制来辅助网络关注行人图像中的关键信息。Attention+RAdam方法仅对全局信息进行关注,而本文的MCAM模块对全局和局部通道上的关键信息同时施加关注,获得了更加丰富的行人特征信息。本文方法与IICS方法相比,PmA分别提高了9.9%和6.5%,R1分别增加了3.4%和3.9%。与CAP方法相比,PmA均提高了3.6%,R1分别增加了1.5%和2.8%。CAP方法与本文方法均采用相机感知代理学习策略,不同的是,本文将相机感知代理学习与多标签学习模块置于同一架构进行联合学习,通过进行正标签预测减少噪声标签,提高伪标签质量。CVSE、MSC-GDC方法在两个数据集上的识别准确率都远低于本文方法,进一步验证了本文所提方法的有效性和先进性。
3 结 语
本文提出了一种基于特征细化的多標签学习无监督行人重识别方法。在特征提取过程中使用多尺度通道注意力模块融合了全局和局部通道信息,更加关注行人重识别网络所需要的信息;在多标签学习中通过标签预测生成了可靠伪标签,有效提高了行人重识别的准确率。实验结果显示,Market-1501和DukeMTMC-reID数据集的平均精度均值分别达到了82.8%和70.9%,首位命中率分别达到92.9%和83.9%,表明本文方法能够在充分提取行人特征的同时减少噪声标签,提升了无监督行人重识别模型的性能。
为进一步提升行人重识别网络提取特征的能力,后续研究可考虑同时使用空间注意力和通道注意力,使行人重识别网络模型分别从位置和通道上关注行人图像中的关键信息,更加准确地定位到目标区域,从而获得更丰富的特征信息。
参考文献:
[1]黄新宇, 许娇龙, 郭纲, 等. 基于增强聚合通道特征的实时行人重识别[J]. 激光与光电子学进展, 2017, 54(9): 119-127.
[2]罗浩, 姜伟, 范星, 等. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049.
[3]Wang Y Y, Li X A, Jiang M X, et al. Cross-view pedestrian clustering via graph convolution network for unsupervised person re-identification[J]. Journal of Intelligent & Fuzzy Systems, 2020, 39(3): 4453-4462.
[4]Kim G, Shu D W, Kwon J. Robust person re-identification via graph convolution networks[J]. Multimedia Tools and Applications, 2021, 80(19): 29129-29138.
[5]潘海鹏, 郝慧, 苏雯. 基于注意力机制与多尺度特征融合的人脸表情识别[J]. 浙江理工大学学报(自然科学版), 2022, 47(3): 382-388.
[6]刘紫燕, 万培佩. 基于注意力机制的行人重识别特征提取方法[J]. 计算机应用, 2020, 40(3): 672-676.
[7]Cho Y, Kim W J, Hong S, et al. Part-based pseudo label refinement for unsupervised person re-identification[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. IEEE, 2022: 7308-7318.
[8]Ge Y X, Zhu F, Chen D P, et al. Self-paced contrastive learning with hybrid memory for domain adaptive object re-ID[C]∥Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, BC, Canada. New York: ACM, 2020: 11309-11321.
[9]Lin Y T, Dong X Y, Zheng L A, et al. A bottom-up clustering approach to unsupervised person re-identification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 8738-8745.
[10]孙义博, 张文靖, 王蓉, 等. 基于通道注意力机制的行人重识别方法[J]. 北京航空航天大学学报, 2022, 48(5): 881-889.
[11]Yu H X, Wu A C, Zheng W S. Unsupervised person re-identification by deep asymmetric metric embedding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(4): 956-973.
[12]Zhang B H, Zhu S Y, Zhou Y F, et al. A novel unsupervised person re-identification algorithm based on soft multi-label and compound attention model[J]. Multimedia Tools and Applications, 2022, 81(17): 24081-24098.
[13]Xuan S Y, Zhang S L. Intra-inter camera similarity for unsupervised person re-identification[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA. IEEE, 2021: 11921-11930.
[14]Xie K, Wu Y, Xiao J, et al. Unsupervised person re-identifcation via K-reciprocal encoding and style transfer[J]. International Journal of Machine Learning and Cybernetics, 2021, 12(10): 2899-2916.
[15]Zheng L, Shen L Y, Tian L, et al. Scalable person re-identification:a benchmark [C]∥2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. IEEE, 2016:1116-1124.
[16]Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 3774-3782.
[17]Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]∥2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 618-626.
[18]Qi L, Wang L, Huo J, et al. Adversarial camera alignment network for unsupervised cross-camera person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(5): 2921-2936.
[19]Zhou S R, Wang Y, Zhang F, et al. Cross-view similarity exploration for unsupervised cross-domain person re-identification[J]. Neural Computing and Applications, 2021, 33(9): 4001-4011.
[20]Pang Z Q, Guo J F, Ma Z Q, et al. Median stable clustering and global distance classification for cross-domain person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(5): 3164-3177.
[21]Wang M L, Lai B S, Huang J Q, et al. Camera-aware proxies for unsupervised person re-identification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 2764-2772.
[22]Liu Y X, Ge H W, Sun L, et al. Camera-aware progressive learning for unsupervised person re-identification[J]. Neural Computing and Applications, 2023, 35(15): 11359-11371.
(責任编辑:康 锋)
收稿日期: 2023-04-14网络出版日期:2023-07-07
基金项目: 安徽省自然科学基金项目(2108085MF197);安徽高校省级自然科学研究重点项目(KJ2019A0162);安徽工程大学国家自然科学基金预研项目(Xjky2022040)
作者简介: 陈元妹(1998- ),女,安徽宿州人,硕士研究生,主要从事智能信息处理方面的研究。
通信作者: 王凤随,E-mail:fswang@ahpu.edu.cn