低分辨率行人重识别数据集及其基准方法

2023-05-20 07:36杨露露蓝龙孙冬婷滕霄贲晛烨沈肖波
中国图象图形学报 2023年5期
关键词:低分辨率高分辨率摄像机

杨露露,蓝龙*,孙冬婷,滕霄,贲晛烨,沈肖波

1.国防科技大学计算机学院,长沙 410073;2.国防科技大学量子信息研究所兼高性能计算国家重点实验室,长沙 410073;3.山东大学信息科学与工程学院,青岛 266237;4.南京理工大学计算机科学与工程学院,南京 210094

0 引 言

行 人 重 识 别(Lan 等,2020;Liang 等,2021a;Zhang等,2021a)旨在从多个非重叠监控摄像头中搜索或匹配同一个行人,已经广泛应用于安防和视频监控等场景。行人重识别将在一台摄像机视角中观察到的特定行人与另外一台摄像机拍摄到的诸多候选行人进行比较,自动发现特定行人,从而完成行人在不同摄像头之间的再次识别。但是,在真实的复杂场景中,同一个行人在不同摄像头中的成像存在外貌、尺寸等差异问题,并且由于视角、拍摄距离、身体姿态和遮挡条件的变化,导致拍摄到的行人图像可能会存在低分辨率的情况。相比于高分辨率图像,低分辨率的行人图像包含了更少的身份与细节信息,如果直接对低分辨率行人图像进行相互匹配会造成显著的性能损失(贲晛烨 等,2012;史维东等,2020;沈庆 等,2020;郑鑫 等,2020)。

现有的许多行人重识别方法通常侧重于解决跨分辨率行人匹配问题,即同一个行人不同分辨率图像之间的相互匹配。近年来涌现了许多跨分辨率行人重识别方法(Adil 等,2020;Jing 等,2017),大致可以分为3 类:1)利用超分辨率技术(Wang 等,2018);2)采用对抗学习方法(Li等,2019);3)学习分辨率不变特征表示(Chen等,2019b)。第1类方法是联合训练超分模型和行人重识别模型,然而这种训练方式会导致梯度不能有效地传播,模型难以收敛。为简便起见,许多现有的基于超分辨率的方法在训练过程中直接对高分辨率图像下采样得到对应的低分辨率图像。这种数据采样的方式并不能使超分模型有效地恢复低分辨率图像的细节特征。在真实场景中,低分辨率图像的产生受光照、噪音背景环境等复杂因素影响。因此,通过下采样方式得到的低分辨率图像无法准确反映真实场景中获取的低分辨率图像情况。第2 类方法通常采用对抗学习的思想实现分辨率自适应表示,然而通过这种方法并不能有效地解决不同分辨率行人的相互匹配。第3 类方法通常学习低分辨率和高分辨图像共有的特征表示,但是由于低分辨率图像缺失细节信息,从而无法获取细粒度判别特征。

目前,一些行人重识别方法只关注高低分辨率行人图像不匹配的问题。这些方法只考虑了Probe集合里的图像是低分辨率的,往往忽略了训练集合和Gallery 集合里也存在低分辨率图像。低分辨率图像所包含的行人细节信息较少,不利于同一身份的行人相互匹配。许多行人重识别算法尝试采用超分模型恢复图像细节,但是需要足够的高低分辨率图像对训练超分模型。目前,最常见的方式是直接使用原始的行人数据集作为高分辨率图像集,然后下采样原始行人图像得到低分辨率图像集。虽然通过这种采样方式可以用来训练超分模型,但是并不能确保超分模型能有效地学习真实场景下高分辨图像和低分辨率图像之间的映射关系。

以上的研究工作大都采用模拟的低分辨率数据集解决不同分辨率行人之间的相互匹配,本文聚焦于一个更富有挑战性的行人重识别问题,即实际场景中的低分辨行人之间的相互匹配。为研究该问题,本文首先构建了一个基于枪球摄像机的行人数据集。该数据集由部署在3 个交叉路口的枪球系统收集得到,如图1 所示。每个交叉路口都放置了两台摄像机,其中的枪机摄像头具有固定方向和焦距,拍摄获取低分辨率图像。另一个球机摄像头可以根据目标行人位置,调整焦距和视线方向,从而获得高分辨率图像。枪机摄像头获得的低分辨率图像和球机摄像头拍摄的高分辨率图像如图2所示。

图1 枪球摄像机数据采集系统Fig.1 The gun-ball camera system

图2 基于枪球摄像机的行人数据集示例图像Fig.2 Sample images of the gun-ball camera-based person dataset((a)low resolution images;(b)high resolution images)

基于枪球摄像机的行人数据集共包含200 个有身份标签行人(同一行人在不同位置被拍摄和识别)和320 个无身份标签行人(只在某个摄像头下拍摄的行人),其中每个行人都包含高分辨率和低分辨率图像。有身份标签的行人指的是被至少2 台不同的枪球摄像机从不同地方捕获到,无身份标签行人指的是只被1 台枪球摄像机拍摄到,无法进行跨相机搜索与匹配,但是每个无身份类别的行人也包含低分辨率和高分辨率图像,从而可以有效地训练超分模型。为了研究真实场景下的低分辨率行人匹配问题,本文提出了一个通用的低分辨率行人重识别基准模型。

本文的主要工作包括两个方面:1)从真实场景中构建了一个小型的基于枪球摄像机的行人重识别数据集,其中每个行人具有成对的高分辨率和低分辨率图像,同时被每台摄像机捕获多幅图像。该数据集包含从6 台摄像机收集的大约200 个有身份标签行人和320 个无身份标签行人。这个基于枪球摄像机的行人数据集为未来的低分辨率行人重识别的研究提供了更接近于实际情况的基准。2)基于构建的数据集,设计了一个低分辨率行人重识别基准模型,该基准模型包括超分模块、特征学习模块和特征判别器模块。其中,超分模块由基于Transformer的生成器网络、梯度判别器和图像判别器组成,实现低分辨率图像超分。特征学习模块采用预训练的残差网络,完成行人特征学习。特征判别器模块用于鉴别超分图像和高分辨率图像的行人特征。这个模型可以同时优化行人图像的分辨率和行人判别特征,从而解决实际场景中的低分辨行人识别问题。对比经典的行人重识别模型(Ye等,2022),这个基准模型在基于枪球摄像机的数据上分别将平均精度均值(mean average precision,mAP)和Rank-1指标提高了3.1%和6.1%。

本文是对前期工作(Sun 等,2022)的扩展和创新,系统性地介绍了低分辨率下行人重识别研究,相比于前期工作,主要有两个新贡献:1)更加全面深入地介绍了行人重识别数据集收集方法和使用方式。2)从3 个方面对基准方法进行了大幅优化和创新。(1)设计了一个基于Transformer的生成器网络,并基于此提出了一种新的行人重识别模型用于低分辨率行人匹配,新方法在低分辨率数据集上取得了更高的识别精度;(2)扩充了消融实验,更加全面地验证所提模型的有效性;(3)设计了更优的网络训练方法,有效提高了行人图像的分辨率和特征判别效果。

1 相关工作

1.1 行人重识别

行人重识别是计算机视觉领域的重要任务,受到广泛关注并取得了迅猛发展。现有的许多行人重识别方法通过提取更鲁棒的判别性特征,解决行人匹配中存在的视角姿态变化、背景干扰和部分遮挡等各种挑战。这些外在环境的变化和影响,使行人重识别成为一项具有挑战性的任务,越来越多的行人重识别算法聚焦这些困难并提高行人匹配的精度。Liu 等人(2018)设计了一种姿态可转移的行人重识别框架,通过利用姿态转移的样本增强生成特定姿态的图像,从而解决行人匹配中姿态变化的问题。另外一些方法通过引入注意力机制解决行人匹配中的背景干扰问题。Kalaye 等人(2018)采用语义解析分割出前景和背景信息,从而减少背景的干扰。针对部分遮挡的问题,Li等人(2021a)提出了一种基于Transformer 的编码器和解码器架构,依赖一个完整目标的标签识别遮挡的行人。然而,上述方法大都忽略了真实场景中拍摄的行人会存在低分辨率的问题,不能有效地解决低分辨率行人匹配问题。因此,一些跨分辨率行人重识别方法应运而生。Li 等人(2019)提出了一个跨分辨率对抗双网络(crossresolution adversarial dual network,CAD-Net),利用对抗网络获得分辨率自适应表示并学习恢复低分辨率行人图像的细节。Cheng 等人(2020)通过引入一种模型训练正则化方法(inter-task association critic,INTACT),实现超分和行人重识别模型的有效联合训练。Zhang 等人(2021b)设计了一个伪孪生网络框架,以减少低分辨和高分辨率图像之间特征分布差异。Munir 等人(2021)为了解决跨分辨率图像匹配问题,引入了基于分辨率的特征提取方法学习分辨率不变特征。Wu 等人(2022)提出了一个由超分模块和双流特征融合模块构成的超分辨率双流特征融合子网络,其中超分模块恢复图像分辨率,双流特征融合模块减少图像细节的丢失,从而联合优化行人图像的特征细节和提取。Zheng 等人(2022)设计了一种新的联合双边分辨率身份建模的方法,同时进行特定高分辨率身份特征学习、低分辨率身份特征学习和行人重识别优化。然而这些方法只关注跨分辨率行人匹配问题,即低分辨率Query 图像和高分辨率Gallery 图像之间的相互匹配,而对于真实场景中低分辨率下的Query 和Gallery 图像相互匹配的研究甚少。

1.2 超分辨率

基于深度学习的方法在图像超分(super-resolution,SR)领域取得了极大成功。图像SR旨在从低分辨率图像中重建高分辨率图像,并学习低分辨率图像和高分辨率图像之间的映射关系。Dong 等人(2014)首次使用卷积神经网络解决单幅图像的超分辨率问题。随着深度卷积神经网络(convolutional neural network,CNN)的发展,提出了越来越多的基于CNN 的方法。Zhang 等人(2018)利用残差和残差(residual in residual,RIR)结构建立了一个非常深的可训练网络。此外,考虑到通道之间的相互依赖关系,该工作还设计了通道注意力机制。Liu 等人(2020)提出了一种渐进式多尺度残差网络(progressive multi-scale residual network,PMRN),通过对参数受限的特征进行连续挖掘,解决了单幅图像的超分辨率问题。鉴于SR 模型有利于提升低分辨率图像质量,本文在提出的基准模型中采用了改进的SR模型,并在输入图像中融入梯度信息。

1.3 生成对抗网络

生成对抗网络(generative adversarial network,GAN)在许多无监督学习任务中取得了显著成功。随着不断发展,生成对抗网络已广泛应用于语义分割、目标检测和行人重识别领域。对抗网络由生成网络和判别网络组成,生成网络用于生成新样本,判别网络区分真假样本。Makhzani等人(2015)提出了一种通过聚集后验数据进行正则化的对抗式自编码器。Kim等人(2017)设计了一种自动学习并发现跨域关系的生成对抗网络,用于图像风格迁移。借鉴以上基于生成对抗网络算法的成功应用,本文提出的低分辨行人重识别基准模型采用对抗思想,以减少超分行人和高分辨率行人特征分布之间的差异。

2 本文工作

目前,行人重识别领域的许多研究都倾向于关注分辨率不匹配问题,忽略了实际场景下低分辨率行人匹配的问题。此外,现有的许多算法都是直接从公开的行人重识别数据集中通过下采样的方式构建低分辨率行人数据集,模拟真实场景中出现的低分辨率行人。与高分辨率图像相比,低分辨率图像不仅在尺寸上发生了变化,即图像宽高变小,同时在像素上发生了变化,即像素值变低。放大低分辨率图像,图像会变得模糊。而通过下采样的方式获取低分辨率图像虽然能保证尺寸变小,但不能确保像素值是否变低。在现实场景中,低分辨率图像受许多复杂因素影响,如失真、噪音和相机等因素。简单的下采样过程很难模拟出现实世界中的非线性变换。此外,真实场景中一般是通过低清摄像头拍摄获取低分辨率图像。本文为了验证通过下采样方式获取的低分辨率图像和真实场景中所获取的低分辨率图像不同,在消融实验中,设计了5 组实验对比其差异。实验结果表明,下采样方式获取的低分辨率数据集训练的模型不能很好地处理真实场景中的低分辨率行人匹配问题。因此,通过这种方式构建的低分辨率行人数据集在效果上并不完全等同于真实场景中出现的低分辨率行人。为此,本文从真实场景中收集了一个低分辨率行人数据集,用以解决低分辨率行人匹配的问题。本文构建的基于枪球摄像机的行人重识别数据集包含了一组具有身份标签的高分辨率和低分辨率图像对。其中的高分辨率和低分辨率图像对用于训练超分模型,身份标签信息为行人重识别模型提供了可监督训练。本文探究了图像超分的潜力,一个有效的超分模型能够从降级的低分辨率图像中生成细节丰富的高分辨图像,缓解Probe图像和Gallery图像之间的匹配问题。为了使超分模型生成的高分辨率图像有益于行人识别,本文通过级联超分和行人重识别模型进行多任务联合学习。

2.1 基于枪球摄像机的行人重识别数据集

基于枪球摄像机的行人重识别数据集由部署在3 个交叉路口的枪球摄像机收集,每个交叉路口有1台高清摄像机(球机摄像机)和1台低清摄像机(枪机摄像机)。该数据集包括6台摄像机拍摄的520个不同身份类别的行人。其中200 个行人有身份标签,320个行人没有身份标签。每个行人至少被2台摄像机捕获到。同时每个行人不仅具有高分辨率的图像,还具有低分辨率的图像。这个数据集共包括10 424 幅图像,每个行人平均有17 幅训练图像。数据集中的每幅行人图像均由真实场景中的摄像机自动拍摄获取。枪球摄像机拍摄的是多帧图像,图像里面不仅包含了目标行人还有其他建筑物、道路和车辆等非目标对象。因此,本文利用ImageMagick图像标注工具,将目标行人从整幅图像中裁剪出来。由于每幅图像中目标行人的大小不一,裁剪出来的图像尺寸大小也不一样。为了训练方便,在训练过程中将所有高分辨率图像的尺寸调整为192 × 96 像素,低分辨率图像尺寸调整为64 × 32像素。

基于枪球摄像机的行人重识别数据集中每个身份类别的行人在每个摄像头下都具有多幅图像,这将有利于跨摄像头搜索并匹配同身份类别的行人。本文构建的数据集与现有主流数据集存在以下不同。1)现有的一些数据集(如Market501、CUHK03(Chinese University of Hong Kong)和CAVIAR)主要通过捕获大学校园或者购物商场行人图像,而基于枪球摄像机的行人重识别数据集从交叉路口获取各种路人图像,形成了更丰富、更多样化的行人数据集。2)因为基于枪球摄像机的行人数据集是从视频流中捕获并裁剪得到,所以每幅行人图像具有时序信息,可以捕捉到随时间变化的行人动态。这种具有时序特征的行人图像还适用于研究视频行人重识别。3)本文构建的数据集还包括一些身份未标明的行人,可以用于研究半监督或者无监督领域的行人重识别算法,同时也可以模拟现实世界中身份识别系统的工作模式。即给定一幅未知身份的人员图像,身份识别系统将会在监控画面或者数据库中自动检测到该同类人员。本文构建的数据集与现有主流 行 人 数 据 集Market1501、CUHK03、CAVIAR 和VIPeR的对比结果如表1所示。

表1 基于枪球摄像机的行人重识别数据集与其他数据集对比Table 1 Comparison between the gun-ball camera-based person re-identification and other datasets

从表1 可以看出,本文构建的数据集具有以下优点:1)这是第1 个为每个行人同时提供高分辨率图像和低分辨图像的行人重识别数据集。CAVIAR数据集虽然也包含低分辨和高分辨率图像,但是这两个图像是独立拍摄获取的,彼此之间没有对应关系,所以无法直接用于训练超分模型,而本文构建的数据集中每个行人具有对应的高分辨率和低分辨率图像,因此可以通过超分模型学习低分辨率图像和高分辨率图像之间的映射关系。2)整个数据集中的每个行人是由两台不同的摄像机同时拍摄的。因此,每个行人的高分辨率和低分辨率图像之间可能存在像素误对齐的问题。在某种程度上,该数据集也可以应用于研究图像超分领域的像素误对齐问题。因此,本文构建的数据集对其他领域的研究具有重要的参考价值。

2.2 低分辨率行人重识别模型总体架构

本文提出的低分辨率行人重识别基准模型联合学习超分任务和行人重识别任务,整体网络框架如图3 所示,包括生成器网络G、梯度判别器Dg、图像判别器Ds、行人特征判别器Df和行人特征提取器F。对于输入的低分辨率行人图像,本文基准模型训练目标有:1)将低分辨率图像恢复为高分辨率图像;2)识别并匹配不同摄像机下的同身份行人。

图3 网络总体结构图Fig.3 Overall network structure of the baseline

输入的低分辨图像xLR首先经过生成器G得到超分图像xSR,然后图像判别器Ds区分高分辨率图像xHR和超分图像xSR,同时梯度判别器Dg负责鉴别超分图像和高分辨图像梯度图的真假,最后利用特征提取器F提取超分图像xSR和高分辨图像xHR的判别特征,并将提取的判别特征输入到特征判别器Df辨别是否来自同一特征分布。

2.3 图像超分辨率模型

本文采用的超分模型由生成器网络G、梯度判别器Dg和图像判别器Ds组成。

2.3.1 生成器网络

为了从低分辨率行人图像中获取高质量的行人图像,本文采用基于SwinIR(swin image restoration)(Liang 等,2021b)的生成器网络架构。但是SwinIR只能有效地解决超分领域中像素对齐图像的复原问题,而在像素误对齐图像上使用失效,因此本文对SwinIR 模型中的网络结构进行了两方面的改进:1)网络输入同时包含了低分辨率图像的梯度信息。输入的梯度信息可以使网络学习到图像的结构特征和高频信息,同时结合梯度判别器的使用,能有效地解决像素误对齐的问题。首先低分辨率图像xLR通过梯度函数M(·)(M(·)采用固定的3 × 3大小卷积核对图像的3 个颜色通道分别做水平和垂直方向上的卷积操作,再将得到的卷积结果在颜色通道维度上进行拼接得到最终梯度)得到梯度图x;然后xLR和x分别输入到一个卷积核大小为3 × 3的卷积层提取浅层特征;最后将两者的浅层特征在通道维度上进行连接操作,并将连接后的特征图作为后续模块的输入。2)为了减少上采样操作所带来的计算量,网络结构的上采样层采用最近邻插值算法增大图像分辨率。生成器网络结构如图4 所示,输入图像xLR和x首先经过一个3 × 3 卷积层获取到浅层特征,并将浅层特征进行通道维度拼接。然后,将拼接特征输入到6 个RSTB(residual swin transformer block)(Liang 等,2021b)模块和1 个3 × 3 卷积层提取深层特征。最后,将拼接特征和深层特征相加得到融合特征,并将融合特征输入到上采样层得到最终的高质量图像。

图4 生成器网络Fig.4 The generator network

本文采用像素级损失和感知损失。像素级损失最小化超分图像和高分辨率图像之间的像素级误差,同时最小化超分图像梯度图和高分辨率图像梯度图之间的像素级误差。感知损失最小化超分图像和高分辨率图像之间的特征损失。感知特征由预先训练的视觉几何群网络(Visual Geometry Group network-16,VGG-16)提取。目标函数为

式中,λ,λ,λ是权重参数,φ(·)是感知特征提取函数。在图像、梯度和感知特征的监督下,生成器不仅可以学习到细节信息,还可以避免结构失真。

2.3.2 图像判别器

许多基于生成对抗网络的方法都成功地解决了图像超分领域的问题。本文利用Ds区分生成的图像和高分辨率图像,使得两图像之间更相似。优化目标函数为

式中,ExSR表示log(1 -Ds(xSR))的数学期望,ExHR表示log(Ds(xHR))的数学期望。

2.3.3 梯度判别器

本文构建的数据集是通过人工裁剪视频帧中的行人得到的,因此高分辨率行人和低分辨率行人之间可能存在像素误对齐的问题。为此,本文利用梯度判别器Dg来解决像素误对齐问题。梯度判别器Dg鉴别高分辨率行人梯度图和超分行人梯度图的真假,可以通过对抗学习监督超分图像的生成,保留完整的细节和结构信息。为了优化Dg,最小化目标函数LDg,具体为

2.4 行人特征提取器

行人重识别根据图像特征判断是否来自于同一个行人。其中Probe 集合是待检索的图像集,而Gallery 集合是用于匹配的图像集。当要对Probe 集合的某个行人图像进行检索,首先需要特征提取器提取待检索行人图像特征,然后再提取Gallery 集合中的所有行人图像特征并计算与待检索行人图像特征的距离,并将特征距离按照升序排序,最后特征距离最小的图像即为匹配成功的图像。本文采用在ImageNet 数据集上预训练的残差网络ResNet50(residual network 50)(He 等,2016)作为行人特征提取器。

许多行人重识别模型利用交叉熵损失函数训练行人特征提取器,目标函数为

式中,y是输入图像的身份标签,py是在y类上的预测概率。

为了更好地匹配同身份行人,本文引入了三元组损失函数最小化类间距离,目标函数为

式中,dp和dn分别表示正样本和负样本的特征距离,α是一个大于0 的常数。本文根据经验知识将α的值设置为0.3。该行人特征提取器的优化目标为

2.5 行人特征判别器

在图像空间上,利用梯度和图像判别器改善生成的超分图像质量并没有显著地提升行人识别的性能。为此,本文引入了行人特征判别器Df在特征空间上区分超分图像特征和高分辨率图像特征,使这两个特征的分布相似。相对而言,在特征空间上超分相似约束能极大改善行人匹配的性能。研究表明,如果使用二分类损失函数优化行人特征判别器Df和特征生成器(由生成器G和特征提取器F组成),那么由于特征生成器网络过深可能会造成训练不稳定,因此本文行人特征判别器的最后一层移除了sigmoid,采用基于Wasserstein GAN(Arjovsky 等,2017)的判别器损失函数,具体为

式中,fHR和fSR分别表示高分辨率和超分行人图像的特征。

2.6 网络训练

在模型训练过程中,LG损失项和Lid损失项可以直接嵌入到GAN 的优化中,并且整个模型都保持端到端的可训练。具体步骤如下:

输入:具有身份标签的训练集D={xLR,xHR}。

输出:网络G,F,Ds,Dg,Df。

1)从训练集D中随机选取一批数据输入到生成器G和行人特征提取器F,最后得到输出xSR、fSR和fHR,并利用LG+Lid更新网络G和F的参数;

2)行人特征判别器Df鉴别fSR和fHR特征的真假,利用LDf更新网络Df的参数;

3)图像判别器鉴别xSR和xHR的真假,利用LDs更新网络Ds的参数;

4)梯度判别器鉴别xSR和xHR的梯度图的真假,利用LDg更新网络Dg的参数;

5)重复步骤 1)—4),直至网络收敛。

3 实 验

3.1 实验设置及评价指标

3.1.1 实验设置

本文的所有实验都基于深度学习框架Pytorch,在显卡为GeForce RTX 2080 的Linux 操作系统的单机电脑上进行训练。本文在构建的行人重识别数据集上的实验设置是将数据集按照7∶3 的比例划分为训练集和测试集。图像判别器和梯度判别器采用VGG-16 网络结构,特征判别器由4 层线性变换层和3 层非线性激活层组成,除了最后一层线性变换层,其他线性变换层后面都有非线性激活层。特征判别器采用基于Wasserstein GAN(Arjovsky 等,2017)的损失函数更新网络参数,因此参照Arjovsky 等人(2017)的设计,在每次更新特征判别器的参数之前,将参数绝对值限定到[-0.01,0.01]范围。网络训练的总轮次达到200 时,网络基本达到收敛且性能不再上升。采用RMSProp优化器更新生成器和特征提取器网络参数,根据行人重识别训练的经验,本文设置初始化学习率为0.000 35,权重衰减参数为0.000 5。考虑到显存原因,batch size 设置为8。所有判别器网络采用初始化学习率为0.000 1的Adam优化器更新网络参数,β1= 0.9,β2= 0.999。根据超分辨率图像训练的经验,在本文实验中设置式(1)中的权重系数,λ=λ= 0.01,λ= 1。

3.1.2 评价指标

实验使用累积匹配特征(cumulative matching characteristic,CMC)和平均精度均值(mAP)作为行人重识别的性能评估指标。CMC 曲线表示被查询的行人出现在不同尺寸行人的候选名单中的概率,用来量化性能,CMC@K表示排名在前K位正确匹配的百分比,即本文实验中的Rank-K。

3.2 实验结果与分析

3.2.1 对比实验

为了验证本文提出的基准模型的性能,与采用不同训练的3 种方法进行对比,并分别进行定性和定量实验分析,结果如图5 和表2 所示。图5 展示了在基于枪球摄像机的低分辨率行人数据集上进行图像超分的不同结果。由图5 可知,采用了超分模块的方法能够有效地提高图像的分辨率。同时也容易观察到,结合了行人重识别模块的联合模型在超分的同时保留了更多的细节信息,因而更加适合行人重识别任务。

图5 枪球行人数据集的超分图像实例Fig 5 Examples of super-resolved person images from the gun-ball person dataset

对比实验中所采用的超分模型为SwinIR(Liang等,2021b),行人重识别模型为AGW(Ye 等,2022)。第1 种方法是行人重识别模型直接训练基于枪球摄像机的低分辨率行人数据集,然后在低分辨率行人数据集上进行测试。从实验结果可以看出,低分辨率的行人识别性能差。第2 种方法采用联合训练的方式同时优化级联的超分模型和行人重识别模型。第3 种方法是单独训练超分模型和行人重识别模型。首先使用数据集中的高分辨率图像和低分辨率图像训练超分模型,然后低分辨率图像输入到训练好的超分模型中得到超分图像,最后行人重识别模型对超分图像进行训练和测试。本文提出的基准模型是在级联的超分模型和行人重识别模型中又嵌入了特征判别器模块,使得高分辨率行人特征和超分辨率行人特征空间分布更相似。为了验证所提出的基准模型包含的3 个网络模块的有效性,以SwinIR作为超分模型改善低分辨率图像的分辨率,同时以AGW 为行人重识别模型识别行人特征,设计了3 种模型Sole ID、SR+ID 和Sole SR 与基准模型进行对比。其中,Sole ID 直接采用低分辨率图像训练AGW模型;SR+ID 使用高低分辨图像对联合训练SwinIR和AGW模型;Sole SR使用高低分辨图像对单独训练SwinIR 模型,然后低分辨率图像输入到训练好的SwinIR模型中得到超分图像,最后AGW 模型对超分图像进行训练和测试。消融实验结果如表2所示。可以看出,本文模型显著优于Sole ID、SR + ID和Sole SR这3种模型的识别精度。表2 的实验结果表明,当同时优化超分模型和行人重识别模型,性能有所提升。但将超分模型和行人重识别模型分开训练,识别精度反而下降。这是因为超分模型的生成器并没有学习到有益于行人识别的细节特征。联合优化的训练方式虽然提高了识别性能,但是仍然显著低于本文方法的识别精度。

表2 在枪球行人数据集的低分辨率行人上的性能对比Table 2 Performance comparison on low-resolution pedestrians on the gun-ball person dataset/%

实验将所提模型与4 种代表性行人重识别方法进行比较,包括BagTricks(Luo 等,2019)、CDNet(combined depth network)(Li 等,2021b)、ABD-Net(attentive but diverse network)(Chen 等,2019a)和NFormer(neighbor transformer network)(Wang 等,2022)。公平起见,所有方法都在本文构建数据集中的低分辨率图像上进行训练,所有图像输入尺寸为64 × 32像素。表3给出了对比结果。与主流的行人重识别方法相比,在mAP 和Rank-1 评价指标上,本文模型超过现有主流方法的性能,证明了所提模型能有效解决真实场景中低分辨率下的行人匹配。与BagTricks、CDNet、ABD-Net和NFormer等4种方法相比,本文所提出的基准模型包含了图像超分模块,因此能够将低分辨率行人图像恢复为高分辨率图像,并通过级联超分和行人重识别模型进行多任务联合学习,从而有效提升了低分辨率行人匹配的性能。

表3 不同方法在枪球行人数据集上的对比结果Table 3 Comparison results of different methods on the gun-ball pedestrian dataset/%

3.2.2 消融实验

为了验证真实场景的低分辨率图像无法通过下采样模拟获取,设计了5 组实验来对比真实场景中低分辨图像与下采样获得的低分辨率图像之间的差异。5 组实验采用相同的训练模型和方法,但是低分辨率训练数据集的获取来自不同方式。第1 组实验通过双线性插值的方式下采样高分辨率图像获取低分辨率图像;第2 组实验采用双三次插值算法下采样高分辨率图像获得低分辨率图像;第3 组实验采用最近邻插值算法下采样高分辨率图像获得低分辨率图像;第4 组实验采用区域插值算法下采样高分辨率图像获得低分辨率图像;第5 组实验从真实场景中收集低分辨率图像。实验结果都是在真实场景上的低分辨率行人图像上进行测试得到,如图6所示。

图6 低分辨率图像获取方式不同的消融研究Fig.6 Ablation of low-resolution images in different ways

从实验结果可以看出,通过下采样方式获取的低分辨率数据集训练的模型不能很好地处理真实场景中的低分辨率行人匹配。所以,现有的许多解决低分辨率行人匹配的算法可能无法有效地解决真实场景中的低分辨率行人识别问题。这同时也说明采用简单的下采样方法很难模拟真实场景中的非线性变换。

此外,通过选定超分模型各模块和行人特征判别器,探究本文提出的基准模型的训练方法在其他行人特征提取器上的有效性。包括:1)在ImageNet数据集上预训练的残差网络结构ResNet50;2)Szegedy 等人(2016)通过修改Inception 模块得到的InceptionV4 网络结构;3)Zhou 等人(2019)设计的一种实现全尺度特征学习的深度行人重识别的全尺度网络OSNet(omni-scale network);4)在InceptionV3网络结构基础上采用深度可分离卷积替换Inception模块的标准卷积并引入残差结构的Xception(Chollet,2017)。实验结果如表4所示。公平起见,表4中所有采用Joint 方式的网络保持相同的训练数据、学习率和优化器。同理,所有采用Raw 方式(Raw 方式直接在本文提出的低分辨率行人数据集上进行训练和测试)的网络也一样。从实验结果可以看出,本文设计的基准模型网络对于不同的行人特征提取器都是适用的,进一步验证了这个基准模型不仅在残差网络上有效,在其他网络上识别性能也同样得到了极大提升。

表4 不同行人特征提取器的实验结果对比Table 4 Comparison of different pedestrian feature extractors/%

目前,超分模型的生成器都是基于CNN 网络或者Transformer网络。因此本文探究了这两种网络类型的生成器模块对识别性能的影响,并在基于枪球摄像机的行人重识别数据集上进行了实验对比,结果如表5 所示。可以看出,不论生成器基于何种类型的网络,识别性能都有所提升。但是基于Transformer的生成器模型,性能提升的幅度更大。

表5 不同生成器类型的实验结果对比Table 5 Comparison of experimental results of different generator types/%

4 结 论

针对实际场景中的低分辨率行人重识别问题,本文构建了一个基于枪球摄像机的行人重识别数据集,共包含200 个有身份标签的行人(同一行人在不同位置被拍摄和识别)和320 个无身份标签的行人(只在某个摄像头下拍摄的行人),其中每个行人都包含高分辨率和低分辨率图像。同时,为低分辨率下的行人匹配设计了一个基准行人重识别模型,由生成器、图像判别器、梯度判别器、行人特征提取器和行人特征判别器构成。该基准模型可以同时优化行人图像的分辨率和行人判别特征,从而解决实际场景中的低分辨行人识别问题。实验结果表明,本文提出的基准模型对比于经典的行人重识别模型,在mAP和Rank-1指标上分别提高了3.1%和6.1%。因此,相对其他方法,本文方法能更好地解决实际场景中的低分辨率行人识别问题,并在一定程度上解决了由于像素误对齐导致生成的超分图像质量不高的问题。本文所提出的数据集和基准模型不仅可以应用于行人重识别领域,还可以应用于图像超分领域。

目前,本文实验的行人重识别训练部分都是针对所构建数据集中的有身份标签的行人。后续会考虑在识别部分加入无身份标签的行人,从而利用半监督算法解决低分辨率行人匹配的问题。因此,未来拟研究弱监督场景下的行人重识别算法。

猜你喜欢
低分辨率高分辨率摄像机
红外热成像中低分辨率行人小目标检测方法
基于偏移学习的低分辨率人体姿态估计
高分辨率合成孔径雷达图像解译系统
树木的低分辨率三维模型资源创建实践
摄像机低照成像的前世今生
新安讯士Q6155-E PTZ摄像机
高分辨率对地观测系统
如何消除和缓解“摄像机恐惧症”
基于Curvelet-Wavelet变换高分辨率遥感图像降噪
高分辨率遥感相机CCD器件精密热控制