跨模态行人重识别研究综述

2023-01-16 22:19刘玉林
电视技术 2022年5期
关键词:行人红外模态

刘玉林

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

0 引 言

行人重识别作为视频智能监控系统的核心关键技术之一,旨在从非重叠相机视角获得的数据中,正确检索出相同的目标行人[1-2]。目前,大多数传统行人重识别方法都专注于解决可见光图像的跨视角行人匹配任务,不能较好地适应现实世界场景中的光照变化(如夜间的低光照环境)。为此,在可见光图像和红外图像两种不同模态数据间匹配感兴趣的行人目标(即可见光-红外行人重识别),成为当前行人重识别研究的热点和关键问题之一,引起了研究者们的广泛关注[3-4]。

除背景杂乱、姿态变化、部分遮挡以及相机视角不同引起的类内变化外,可见光-红外行人重识别还存在由相机拍摄波长不同引起的模态差异(如颜色等外观线索不可靠的问题)。这种模态差异加剧了类内变化,使不同模态间的相同身份特征更难对齐。模态差异比模态内变化更能影响跨模态行人重识别的模型性能。这使得跨模态行人重识别必须解决模态差异问题。从模态差异减小角度,可将大多数跨模态行人重识别方法分为基于生成对抗网络(Generative Adversarial Networks,GANs)的跨模态图像合成方法[5-8]和基于网络参数共享的双流网络方法。

1 基于GANs 的跨模态行人重识别

为了尽量减小模态差异,WANG G 等人[7]利用GANs 只将红外图像的风格属性迁移到它们的可见图像对应物,并将红外图像和图像特征联合输入鉴别器,以实现像素和特征的对齐。ZHANG Z等人[6]利用合成的红外图像以知识蒸馏的思想指导可见图像的学习。由于在生成图像的过程中不可避免地丢失一些身份相关的信息,同时保留大量与身份无关的冗余信息,这使得基于GANs 的跨模态合成图像方法并不能取得理想的性能。为了避免从合成图像提取判别特征,CHOI S 等人[10-11]利用解纠缠的思想,以图像的生成和重建实现身份相关特征的提取。但RGB-IR ReID 标准数据集的可见图像和红外图像虽然身份一致但像素并不对齐,导致图像的生成和重建训练困难,且可见光-红外行人重识别的图像层面解纠缠方法不能取得理想的效果。

2 基于共享特征学习的跨模态行人重识别

可见图像和红外图像以共享网络参数的方式实现特征对齐[12-16]。一个代表性的模型结构是双流卷积神经网络[12]。ResNet50 的前两层参数独立,以便网络从图像中提取更加丰富的特征。ResNet50的后三层参数共享,以提取模态共有的特征,实现特征对齐。目前基于共享特征学习的方法正在主导可见红外行人重识别,例如,多项研究[17-18]在双流网络的有利基础上致力于挖掘更加有效的身份损失和排名损失,或利用注意力机制[18]关注图像的显著区域,针对类间和类内变化学习更加鲁棒的判别特征。但上述方法过于关注行人的外观特征,忽略了具有模态不变性的行人身体结构信息和体型等全局信息。

3 亟待解决的问题

近年来,随着深度学习的广泛应用,跨模态行人重识别的研究也达到了前所未有的高度,识别性能实现了质的飞越。但该技术在实际中推广应用仍然存在着以下问题。

(1)行人外貌特征受到风格、视角以及遮挡等因素影响,使得相同行人外貌可能存在较大差异,不同行人可能具有较高相似性。由于行人图像由不同摄像机捕捉得到,且摄像机网络也遍布各处,因此图像中的行人外貌会受到相机风格、视角以及遮挡等各种因素的影响。在这些因素影响下,相同身份的不同行人图像可能存在极大的外貌差异,而不同身份的行人图像相似度较大,这很大程度上影响了模型所学特征的判别性,影响最终匹配的准确性。因此,如何克服上述这些因素的影响,学习更全面、更具有判别性的特征,仍然是行人识别任务的一个重点。

(2)不能满足跨模态行人重识别技术发展需求的数据集。目前,跨模态行人重识别只有两个标准数据集,并且数据集中的图像大多来源于相似型号以及角度的机位,和实际中多样化的场景差距较大[19]。

(3)可见光图像和红外图像间存在较大的模态差异。在跨模态行人重识别技术中,可见光图像与红外图像间存在模态差异,这种模态差异不仅带来颜色等外观线索不可靠的问题,还加剧了类内变化,使不同模态间的相同身份特征更难对齐。研究发现,在跨模态行人重识别技术中,模态间差异比类内变化更能干扰有效判别特征的提取。因此,如何克服模态间较大差异的影响,提高识别性能,是推广应用该技术的关键问题。

4 展 望

目前,尽管跨模态行人重识别受到越来越多的研究关注,也出现了很多相关的论文,但是跨模态行人重识别仍然处在初级发展阶段。想要取得更大的突破,未来的发展方向可以从以下方面考虑。

(1)构建满足跨模态行人重识别技术发展的数据集。目前跨模态行人重识别只有两个标准数据集,数据集只有相机标签和身份标签,如果能获得更多标签和更符合现实场景的数据集,会促进跨模态行人重识别技术的发展。

(2)关注模态转换的研究。以共享网络的方式解决模态差异问题,是目前跨模态行人重识别技术的主流网络,对现有方法的分析发现,采用模态转换的方法如可见光模态转换到红外模态,其识别率明显优于传统的方法。但是基于GAN 的模态转换方法由于在生成图像的过程中不可避免地丢失一些身份相关的信息,同时保留大量与身份无关的冗余信息,使得基于GAN 的跨模态合成图像方法并不能取得理想的性能。如果能获得可见图像和红外图像对齐的跨模态行人重识别数据集,那么利用蒸馏的思想去训练模型,对于可见光图像的输入提取其对应的红外图像特征,对跨模态行人重识别的识别率会大大提高。

(3)结合全局特征学习。在行人重识别中,颜色是识别行人身份的有效信息,但是在跨模态行人重识别中,颜色是不可靠的外观因素,会对行人身份的识别带来干扰。因此,其他信息如体型信息的提取变得异常关键。但是计算机对图像的纹理信息比较敏感,除非给予模型一定的体型信息约束,否则计算机提取不到行人的体型信息。如何巧妙地约束模型或者提出新的神经网络结构以提取行人的体型信息,对于提高跨模态行人重识别的识别率有重要意义。

5 结 语

本文对跨模态行人重识别问题进行了研究,基于模态差异减小的角度,将现阶段的跨模态行人重识别方法分为基于GANs 的跨模态图像合成方法和基于网络参数共享的双流网络方法,并对这些方法进行了介绍;对跨模态行人重识别亟待解决的问题进行了整理分类,并讨论了未来可能的发展方向。作为智能视频监控系统的核心关键技术之一,跨模态行人重识别会受到越来越广泛的关注。

猜你喜欢
行人红外模态
基于BERT-VGG16的多模态情感分析模型
网红外卖
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
闪亮的中国红外『芯』
毒舌出没,行人避让
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
路不为寻找者而设
我是行人