基于双重模态距离约束的红外⁃可见光行人重识别

2022-07-26 07:05:48朱松豪吕址涵

南京邮电大学学报(自然科学版) 2022年3期

朱松豪，吕址涵

(南京邮电大学自动化学院、人工智能学院，江苏南京 210023)

随着人工智能技术和深度神经网络的发展，视频监控技术已经成为交通监控、火灾报警、犯罪检测等社会保障系统的基本工具［1－3］。行人重识别是视频监控中的一项具有挑战性的任务，其目的是通过多个不重叠的监控摄像头检索目标行人［4－5］。由于其在智能视频监控中的广泛应用，该任务近年来受到越来越多的关注［6］。由于光照、拍摄角度、行人姿态、图像分辨率和遮挡等复杂变化使得其在实际场景中的应用困难重重［7－8］。现有的行人重识别方法主要针对RGB 摄相机拍摄的行人图像，这些方法依赖于行人的外观和色彩信息进行跨摄像头匹配［9－11］。然而，在某些情况下，过度依赖光照条件会降低精度。例如，在夜间或光照不足的情况下，大多数RGB 摄像头无法获取清晰的图像，这种情况下传统的可见光⁃可见光行人重识别效果未能达到预期效果。因此，红外⁃可见光行人重识别研究日益获得更多关注［12］。

红外⁃可见光行人重识别用以匹配不同光谱相机拍摄的同一行人。与传统的仅包含类内差异的可见光⁃可见光行人重识别相比，红外⁃可见光行人重识别还包含不同光谱相机所导致的模态差异。 RGB图像包含3 个通道信息，而红外图像只包含一个通道信息，因此红外图像也可以认为是异质图像。由图1 所示的跨模态行人重识别的示例图片可知，RGB 图像具有丰富的颜色信息，而红外图像缺乏关键的颜色信息，对行人匹配造成了极大的阻碍；同时，RGB 图像中的行人姿态、衣着等易于识别，而红外图像只有模糊的行人轮廓，且衣着等信息大量流失；此外，红外⁃可见光行人重识别也会出现传统行人重识别中存在的光照、姿态和遮挡等问题［13－14］。

图1 来自两个红外⁃可见光行人重识别数据集（SYSU⁃MM01 和RegDB）的示例图像（其中每一列中的图像来自同一个行人，第一排图像为RGB 相机拍摄到的行人图像，第二排图像为红外相机拍摄到的行人图像）

近年来，有研究人员提出了许多方法用以解决跨模态间的差异［15－16］。文献［9］提出用于跨模态行人重识别的SYSU⁃MM01 数据集；同时还提出了深度补零的网络训练方法，提高了行人重识别效果。文献［10］提出在RGB 和红外两条路径中引入自监督学习的图像生成器，该图像生成器可引导跨模态信息的交流，提升行人重识别效果。文献［11］提出了用于减少态差异和外观差异的行人重识别方法：针对模态差异，该方法通过图像级子网络实现RGB和红外图像的模态转换；针对外观差异，该方法通过图像级子网络实现不同模态下行人特征的联合表示。文献［17］提出了基于对称网络的跨模态行人重识别算法，该算法通过对称网络产生模态不变特征，从而达到模态混淆的目的；同时使用不同隐藏层的卷积特征构造混合三元损失，提高网络的特征表征能力。

本文提出了一个混合交叉双路径特征学习网络，该网络利用提出的整体约束和部分三元组⁃中心损失函数减少模态差异。其中，混合交叉双路径特征学习网络用于平衡不同模态对特定共有特征的模态表征，从而有效提高网络模型的整体性能；整体约束和部分三元组⁃中心损失函数分别用于减少不同模态和同一模态的差异。具体而言，混合交叉双路径特征学习网络首先利用主干网络均为ResNet50［18］的RGB 分支和红外分支，分别提取不同模态下的行人信息，并利用平均池化层将提取到的特征从上到下均匀划分为p条水平部件；然后，将水平切割特征投影至公共空间，并输出模态特定特征和模态共有特征的联合表示；最后，利用模态特定身份损失、交叉熵损失以及提出的整体约束和部分三元组⁃中心损失对联合特征进行混合和交叉，通过模态距离约束获得最佳识别性能。提出的整体约束和部分三元组⁃中心损失旨在减少同一模态下的类间距离，扩大同一模态下的类内距离，并同步不同模态下的类间距离。该损失函数首先从整体上约束不同模态间的距离，从而减小RGB 和红外模态间的差异；其次，该损失函数通过结合三元组损失和中心损失，分别学习RGB 模态和红外模态的中心，以使同一类别样本更为接近类别中心，同时远离其他类别中心，从而改善模态类内差异。将这两类损失相结合可有效减小模态差异，获得满意的识别性能。本文方法的主要贡献如下：

（1）提出了一种新颖的混合交叉双路径特征学习网络（HCDFL）结构，它从两种不同的模态中深度提取局部行人特征。

（2）提出了一种新颖的整体约束和部分三元组⁃中心损失，该函数分别从不同模态和同一模态两方面改善了类间和类内差异，提高了整体识别性能。

（3）在两个公开的红外⁃可见光行人重识别数据集上进行了实验，得到了优良的性能。

1 相关工作

1.1 可见光⁃可见光行人重识别

可见光⁃可见光行人重识别主要解决不重叠视频监控摄像机间同一行人的检索问题［19－20］，该项任务的主要挑战来自于视角、背景和照明带来的类内变化［21－23］。特征表示学习、度量学习和深度学习是可见光－可见光行人重识别算法的主要方法［24－26］，其中特征表示学习方法将行人重识别任务作为一个分类问题，而非直接考虑图像间的相似性。文献［27］提出基于像素层次的特征描述子，该描述子可很好地表征像素特征的均值和协方差信息。与特征表示学习不同，度量学习的目的是直接通过网络学习两幅图像的相似度。文献［28］提出一种镜像表示模式，该模式为特定视图嵌入特征变换，并对同一行人的不同视图的特征分布进行对齐。深度学习是近年来研究的热点，文献［29］设计了一种新的三元组损失，同时对比分析了网络模型的预训练。为解决背景偏置问题，文献［30］提出了一种基于人体分析图的人⁃区域引导的池化深度神经网络，以学习更多的判别特征，并利用随机背景与人图像增强来训练数据。

1.2 红外⁃可见光行人重识别

红外⁃可见光行人重识别问题匹配不同光谱相机捕获的跨模态行人图像，是传统的行人重识别技术的扩展。由于夜间频发人口走失和其他犯罪事件，因此其在刑侦应用中非常重要。 Cai 等［5］提出了一种包含双模态硬挖掘三中心点损失的双路径网络框架，旨在优化类间距离，学习判别特征表示。Ye 等［12］提出了一种无参数动态双注意力聚集方法，该方法通过挖掘不同模态的类内差异和跨通道上下文线索，从而避免了噪声干扰导致模型性能不稳的问题。 Chen 等［31］研究了一种结合双层特征搜索和可微特征搜索的方法，该方法实现了特征选择过程的自动化，大大提高了匹配精度。陈琳等［32］提出了基于双重属性的跨模态行人重识别方法，该方法充分考虑了图像和文本属性，构建了基于文本属性和图像属性的双重属性空间，并通过构建基于隐空间和属性空间的跨模态行人重识别网络，提高了所提取图文属性的可区分性和语义表达性。

1.3 行人重识别中的损失函数

在以往的行人重识别研究中，损失函数一直扮演着非常重要的角色。许多研究对损失函数进行改进和创新，为解决行人重识别问题提供了极大的帮助。文献［33］将三元组损失应用于行人重识别任务，根据特征向量的欧氏距离确定相似度。除此之外，论文通过对网络的训练过程行分析，提出了一种计算效率更高的模型训练方法。文献［34］提出三元组⁃中心损失，选择离样本点最近的类内中心和类间中心与样本点形成一个三元组中心，提高了特征的区分度，使得网络性能更为有效。文献［22］采用全批量三元组损失和余弦softmax 损失三重损失统一度量，用以提高模型性能。文献［35］基于跨模态行人重识别中存在的模态间变化及模态内变化的问题，设计了模态间三元组损失、模态内三元组损失以及全局三元组损失，进一步提高了识别精度。文献［36］引入了改进的三元组损失并结合中心损失，该损失函数使得不同类之间可以保持一定的距离并提高特征的区分度并且增强了对噪声样本的鲁棒性。

2 本文方法

本节首先描述提出的总体框架，其次详细介绍提出的混合交叉双路径特征学习网络，最后介绍提出的整体约束和部分三元组⁃中心损失。

2.1 总体框架

本文提出了一种带有整体约束和部分三元组⁃中心损失的混合交叉双路径特征学习网络来解决红外⁃可见光行人重识别任务。该网络模型包含RGB分支和红外分支。从处理过程来看，该网络包含图像输入、主干网络和特征嵌入3 个部分。总体而言，该框架采用分区策略，有效提取图像局部特征，提高特征表达粒度。

受文献［37－38］的启发，本文选择水平分割策略实现特征提取。首先，每个分支以ResNet50 为主干，将得到的特征表示均匀地从上到下划分为p个水平部件，并对每个部件进行平均池化，得到局部特征表示；其次，通过全连接层和批标准化对每个局部特征进行降维处理，便于后续的特征识别，同时在两种模态间建立联系，两个模态下的全连接层共享参数；最后，在特征嵌入阶段，为每个模态添加特定的身份损失，以便更好区分不同模态下的行人特征，同时加入交叉熵损失函数进一步提高行人重识别精度。

此外，利用提出的整体约束和部分三元组⁃中心损失，结合不同模态下的特征。总损失函数公式如下

2.2 混合交叉双路径特征学习网络

对于红外行人图像而言，其特点为只包含一个不可见的电磁辐射通道，即仅包含语义结构和形状信息的单通道图像。相较于红外行人图像，RGB 行人图像为多通道图像，外观信息和颜色信息通常占据高级语义信息的主导地位。此外，由于RGB 相机和红外相机的光谱差异，以及光线、拍摄角度等因素，RGB 和红外图像间存在巨大的模态差异。因此，本文提出了混合交叉双路径特征学习网络来学习共同的特征表示空间，以缩小两种不同模态之间的差距。红外⁃可见光行人重识别数据集可以表示为D＝｛V，I｝，其中V表示RGB 图像，I表示红外图像。由于跨模态数据包含模态特定和模态共享的信息，所以红外⁃可见光行人重识别任务期望共享模态信息学习更多与身份识别相关的特征。如图2 所示，用于解决红外⁃可见光行人重识别问题的经典网络有两种，一种是单流结构，另一种是双流结构。图3 给出了包括骨干网络和特征嵌入的混合交叉双路径特征学习网络框架。

图2 两种典型的跨模态行人重识别网路

图3 本文方法的框架示意图

本文采用双流结构作为基本结构，主要原因是单流结构采用共同的特征提取网络，在此过程中无法准确提取RGB 和红外图像的特征；此外，由于单流结构共享全局参数，从而导致行人局部特征的严重忽略。在双流结构中，浅层网络参数是单独针对每个模态的，而深度网络参数是共享的，这样既考虑了局部特征，又考虑了全局特征，提高了识别性能。

因此，本文采用的双流结构包括两个分支：RGB分支和红外分支，分别提取不同模态图像特征。由于红外⁃可见光行人重识别任务的训练数据有限，因此采用在大规模ImageNet 上预训练方法对网络模型参数进行初始化。这里采用ResNet50 作为骨干网络，给定不同模态下的输入数据D＝｛V，I｝，经过骨干网络ResNet50 特征提取后分别得到其对应的行人特征，去除最后的平均池化层及其后续结构的网络，从而达到扩大接收域面积、丰富特征粒度的目的。特别是两个分支均使用相同的网络结构，这种设计会使得高层特征输出更能表达高层语义，使特征的身份判别能力更强。在特征嵌入阶段，首先将行人特征水平地划分为p个相同部件（本文p＝6），用以学习两种异构模态间的低维嵌入空间；然后，在每个部件上使用全局池化层，得到p个2 048 维特征。为了进一步降低特征维度，针对每个2 048 维的部件特征采用1×1 的卷积层进行降维操作，最终得到256 维的特征表达；同时，为避免梯度消失和计算内部协变偏移，每个全连接层后面添加一个批标准化层；最后，共享层作为投影函数，将两种不同模态特征投影到共同嵌入空间，用以弥合两种模态间的差异。实验结果表明，这种共享结构在很大程度上提高了识别精度。

在训练阶段，结合模态特定身份损失、交叉熵损失以及提出的整体约束和部分三元组⁃中心损失对网络模型进行训练，以提高识别的准确性。利用混合交叉训练将RGB 分支和红外分支的联合表示特征分为3 组，分别为部分约束、整体约束和交叉熵损失，其中的部分约束和整体约束构成了提出的整体约束和部分三元组⁃中心损失函数。在测试阶段，分别提取探测图像和图库图像的特征，然后连接高维图像特征，形成最终的特征描述子。

传统的双路径特征学习网络通过骨干网络分别提取行人特征后，通过权值共享模块将特征融合起来直接输出。本文提出的网络将行人特征交叉组合，形成多个不同的batch 组合并联合多重损失函数共同协作。利用如式（1）所示的联合协作构建多损失函数，包括模态特定身份损失、交叉熵损失、整体约束损失和部分三元组⁃中心损失。这里的模态特定损失函数直接利用模态信息，保留最原始的行人特征；交叉熵损失用于识别行人身份，提取RGB和红外模态特征组合成一个batch；在同一batch 内，RGB 图像与红外图像的特征具有一致性，因此利用部分约束和整体约束分别构建成对的batch。

2.3 模态特定身份损失

由于RGB 图像和红外图像中的行人特征存在很大差异，因此使用不同网络获取不同模态下的特征表示。 Softmax 损失用于预测每个模态下的行人身份，其公式可表示为

2.4 交叉熵损失

为使不同模态下同一行人的特征表征具有相似性，引入如下所示的交叉熵损失函数

式中：yi表示第i个输入图像的真实标签，即每张输入图像的p个部件特征共用该图像的标签信息。

2.5 整体约束和部分三元组⁃中心损失

（1）三元组损失。三元组损失函数常应用于人脸识别、行人重识别等领域［39］。该损失函数不仅有缩短类内距离的特性，并且有增大类间距离的特性；而对于红外⁃可见光行人重识别任务，行人图像不仅存在同一模态中的类间距离，同时存在不同模态的类间距离。因此三元组损失更适合于红外⁃可见光行人重识别任务［37］。三元组损失函数公式如下

式中：xi为特征表示，yi为对应于xi的类别，cyi表示类别yi的中心，M表示最小批量，‖x‖22表示欧氏距离。中心损失和softmax 原理如图4（b）所示。整体约束损失学习模态间特征的关键是缩小跨模态差异。由于剧烈的视觉变化，跨模态差异可能是巨大的，这将极大降低行人重识别性能，因此需从整体上减少跨模态差异。

图4 特征分布图（其中的绿圆点表示第1 类样本，紫圆点表示第2 类样本，绿三角表示第1 类样本的中心，紫三角表示第2 类样本的中心，蓝色箭头表示“拉近”，红色箭头表示“推开”，橙色虚线表示类别边界）

图5 整体约束过程示意（①存在于不同子空间的形态特征；②③整体模态差异优化过程；④优化结果）

图6 以红外图像为锚点的类内部分三元组⁃中心损失的基本原理（其中的绿圆点表示第1 类RGB 样本，紫圆点表示第2 类RGB 样本，绿三角表示第1 类红外样本，紫三角表示第2 类红外样本，红圆点表示红外样本的中心，红三角表示RGB 样本的中心，蓝色箭头表示“拉近”，红色箭头表示“推开”，橙色虚线表示类别边界）

综上所述，整体约束和部分三元组⁃中心损失函数可表示为

3 实验

3.1 实验设置

（1）数据集

SYSU⁃MM01 数据集是Wu 等［9］提出的大规模红外⁃可见光行人重识别数据集，该数据集包括6 台摄像机拍摄的来自491 个行人的287 628 张RGB 图像和15 792 张红外图像。 6 个摄像机中，Cam1、2、4、5 是RGB 摄像机，Cam3、6 是红外摄像机。训练集包含来自395 个行人的22 258 张RGB 图像和11 909 张红外图像，测试集包含来自96 个行人的3 803 张红外图像以及随机抽取的301 张RGB 图像图像。此外，该数据集采用两种测试模式：全景搜索模式和室内搜索模式，其中全景搜索模式使用RGB图像作为图库集，而室内搜索模式使用室内的RGB图像作为图库集。

RegDB 数据集包含412 个行人的8 240 张图像，由一个RGB 摄像头和一个红外摄像头拍摄而成。该数据集为每个行人分别拍摄了10 张RGB 图像和10 张红外图像。根据文献［27，40］中的评价协议，该数据集分为两个部分：206 个行人的训练集和206 个行人的测试集。在默认情况下，将RGB 图像视为测试图像，用于检索图库中对应的红外图像。整个测试过程重复10 次，最后计算平均性能，以获得更稳定的结果。

（2）评估协议

本文遵循文献［12］中红外⁃可见光行人重识别的标准评价协议，即采用标准累积匹配特征曲线（CMC）和平均精度均值（mAP）衡量网络模型性能。此外，为获得稳定结果，采用文献［12］中的方法，使用随机抽样对图库集进行10 次试验。

（3）实现细节

实验在PyTorch 框架下实现，GPU 为NVIDIA 2070 Super。和文献［41］一样，使用ResNet50 作为骨干网络，并利用ImageNet 预训练网络参数。将训练集和测试集中的每幅图像设置为144×288×3。由于图像数据量有限，采用随机水平翻转和随机擦除增强数据。对于每个batch size，随机抽取4 个行人，并对每个所选行人随机抽取8 张RGB 图像和8张红外图像。利用SGD 优化器对网络进行优化，将动量参数设置为0.9。初始学习率在RegDB 数据集上设置为0.001，在SYSU⁃MM01 数据集上设置为0.01，在训练30 次后衰减至0.1，两个数据集的训练次数都设置为60。

3.2 与其他方法比较

本节将所提方法与其他方法比较，如传统的特征提取方法（HOG［44］和LOMO［45］），3 种基本方法（One⁃stream，Two⁃stream 和Zero⁃padding［8］），基于度量学习的方法（BDTR［40］， D⁃HSME［16］， IPVT ＋MSR［19］），基于生成对抗的方法（cmGAN［41］，D2RL［11］，Hi⁃CMD［46］， JSIA⁃ReID［47］，AlignGAN［15］，X Modality［10］），基于特征共享的方法（DDAG［12］，WIT［48］）等方法。由于之前在这两个数据集上做了大量研究，因此，本文直接使用已发表论文的原始实验结果。

（1）在SYSU⁃MM01 上的比较结果。由表1 可以看出，传统特征提取方法（HOG 和LOMO）是基于本地像素块进行特征直方图提取的一种算法，识别精度较低，在红外⁃可见光行人重识别任务中无论在全景搜索还是室内搜索模式下的效果都无法令人满意。对于One⁃stream、Two⁃stream 和Zero⁃padding 这3 种方法是首次提出的基于深度学习方法，其识别性能较传统特征识别方法提高了约10%。此外，包括BDTR、D⁃HSME 和IPVT＋MSR 在内的深度学习方法都从模态差异出发，使得模型性能有了较大提升，以及 cmGAN、 D2RL、 Hi⁃CMD、 JSIA⁃ReID、AlignGAN 和X Modality 在内的生成对抗方法使得同一身份下不同模态行人之间的相似性增加，而不同身份且不同模态的行人之间的相似性会减小，大大提高了红外⁃可见光行人重识别的性能，显著降低了模态差异，提高了识别精度。基于特征共享的DDAG、WIT 方法，其性能都优于深度学习方法和生成对抗方法。值得一提的是，在全景搜索的单次搜索这一最难的模式下，所提方法的rank⁃1（表中r1）和mAP 分别达到了58.91%和57.43%。因此，本文提出的方法在很大程度上优于其他方法。

表1 SYSU⁃MM01 数据集的实验对比

（2）在RegDB 上的比较结果。如表2 所示，所提方法在visible2infrared 和infrared2visible 搜索模式下的准确性显著提高。具体而言，在visible2infrared 搜索模式下的rank⁃1 和mAP 分别达到85.39%和73.6%，在infrared2visible 搜索模式下的rank⁃1 和mAP 分别达到80.78%和69.71%。与目前性能最好的NFS 方法相比，所提方法在visible2infrared 搜索模式下的rank⁃1 和mAP 分别提高了4.85%和1.5%。

表2 RegDB 数据集的实验对比

在两个公开数据集上的实验结果证明了本文最初的假设：（1）所提出的方法可以有效地表征局部和全局特征表示；（2）所提出的方法通过约束两种模式之间的距离来有效地最小化模态差距。

3.3 消融实验

（1）各部分对性能的影响：为评估HCDFL 和WCPTL 是否有益于整个网络，对两个数据集进行了消融实验。实验结果如表3 所示，其中“baseline”是指只存在交叉熵损失的网络最基本的两路IV⁃ReID网络训练。 HCDFL 是指所提出的p＝6 的双路径特征学习网络，即ResNet50 骨干网输出的特征图从上到下平均分成6 条水平条纹。同时，为了研究损失函数对网络的影响，将三元组损失、中心损失和WCPTL 分别整合到baseline 和HCDFL 中，形成不同的实验组合。这里将HCDFL 默认为包含softmax和交叉熵损失函数。

从表3 第1～4 行数据可以看出，三元组损失、中心损失和提出的WCPTL 对于baseline 是有效的。具体来说，在全搜索模式下，在SYSU⁃MM01 数据集上，所提出的WCPTL 将baseline 的rank⁃1 和mAP分别提高了5.84%和7.72%，这有力地证明了WCPTL 的有效性。

从表3 第1 ～ 5 行数据可以看出，在SYSU⁃MM01 数据集上，对比baseline，HCDFL 在全搜索模式下mAP 和rank⁃1 分别提高4.44%和10.40%，室内搜索模式下rank⁃1 和mAP 分别提高10.75%和9.92%。相应地，所提出的HCDFL 在RegDB 数据集上也对rank⁃1 和mAP 有较大的改善。

从表3 第5～8 行数据可以看出，在HCDFL 中分别加入三元组损失、中心损失和WCPTL 后，网络性能得到了进一步的提高。值得注意的是，所提出的WCPTL 使得网络性能达到最佳。

表3 不同模块在SYSU⁃MM01 和RegDB 数据集上的结果

（2）各损失函数对性能的影响：为验证各损失函数对网络性能改善的影响，我们进行了Softmax 损失、交叉熵损失、三元组损失、中兴损失和WCPTL 等不同损失函数的消融实验，表4展示了消融实验的结果。由表4 可以看出，与Softmax 损失和交叉熵损失相比，三元组损失和中兴损失可以获得较好的性能，这也说明这两种损失函数都有利于缩小模态之间的差异。利用WCPTL 损失函数进一步提高了网络性能，这也证明了所提出方法的优越性。

表4 不同损失函数性能评估

上述两种消融实验结果表明，所提出的HCDFL 和WCPTL 在一定程度上提高了整体识别性能。特别是，WCPTL 的使用减少了模态差距，提高了两个公共数据集的网络识别性能。同时，通过比较不同的损失函数也可以看出WCPTL 的优越性。

3.4 参数分析

本节讨论两个重要参数λ和p对整个网络性能的影响。其中λ为式（1）中整体约束和部分三元组⁃中心损失的系数，p为特征水平切割后的部件数。对于λ参数，这里选择以0.1 为间隔，从0.1 增加至最大值1。由图7 可以看出，对于SYSU⁃MM01 和RegDB数据集，rank⁃1 和mAP 随着λ的逐渐增大而增大；当λ等于0.5 时，rank⁃1 和mAP 是最优的；当λ继续增加时，rank⁃1 和mAP 开始振荡甚至减小。

图7 参数λ 对SYSU⁃MM01 和RegDB 的影响

在整个网络框架中，对特征映射的水平切割也是十分重要的步骤。p值决定网络模型的局部特征粒度，其在某种程度上极大影响网络性能。根据文献［33］中的结论，图像区域的分辨率越高，图像特征表示的能力就越强，从而有效地提高识别性能。实验结果如图8 所示结果在p值变化下。

图8 给出了p值变化对于网络性能影响的趋势，其中p从1 开始，依次增大至4、6、8，随着p的增大，网络的性能也发生了变化。从图示结果可以知道，当p值较小时，网络性能较低，这是由于局部特征粒度较大；当p增至6 时，分割使局部特征粒度变小，此时可获得更多细节，网络性能达到最佳；当p值增至8时，局部特征粒度过小，特征描述符的可识别性受到很大影响，网络性能开始下降。实验结果表明：①切片粒度可以有效地改善局部特征表示；②切片粒度过小，大大降低了特征描述符的判别性。

图8 参数p 对SYSU⁃MM01 和RegDB 的影响

3.5 可视化结果

（1）检索示例：图9 为SYSU⁃MM01 数据集中随机抽取的5 个查询示例的前10 个检索结果，其中图9（a）为红外图像对RGB 图像的检索结果，图9（b）为RGB 图像对红外图像的检索结果。可以看出，图9（a）的检索准确度明显低于图9（b），这是由于红外图像中缺少重要的颜色信息，且行人的姿态难以区分，导致准确率较低。相应地，RGB 图像具有丰富的色彩信息和易于识别的姿态信息，所以在RGB 图像对红外图像的检索模式下，精确度相对较高。因此，可以得出以下结论：由于RGB 图像与红外图像之间存在较大的模态差异，人们很难用肉眼分辨出查询示例中哪些匹配不正确，因此，红外⁃可见光行人重识别在夜视监控应用中发挥了重要作用。即使在图9 中，特别是图9（a）中出现了一些错误的检索结果，但匹配错误的图像仍然显示出与正确图像相似的行人轮廓或纹理结构。因此，可视化结果表明了本文所提方法的优越性。

图9 在SYSU⁃MM01 数据集上的前10 个检索结果示例（绿框表示正确的检索结果，红框表示错误的检索结果）

（2） t⁃SNE 分析：利用t⁃SNE 对SYSU⁃MM01 数据集上随机选取的10 个身份的内部特征进行可视化，图10 绘制了baseline 和本文所提方法的RGB 图像和红外图像的特征分布图。从图10（a）可以看出，来自同一模态的10 个行人的特征分布非常接近，很难区分。从图10（b）可以看出，对于同一身份，其RGB 特征能够匹配对应的红外特征，而对于不同身份，其特征分布距离较远。对比图10（a）和10（b），可以看到，本文提出的方法有助于将两个模式中每个行人的特征集中在学习的嵌入空间中，即不同模态的特征不相交聚类，同时保证不同模态的正向结果很好地聚集在一起。

图10 在SYSU⁃MM01 数据集上随机选取10 个行人身份t⁃SNE 可视化示意图（其中不同颜色代表不同身份的特征，圆形代表RGB 特征，十字符号代表红外特征）

3.6 时间复杂度测试

在SYSU⁃MM01 数据集上进行特征表示的测试时间实验，其中数据集提供包含3 803 个图像的查询集和包含301 个图像的图库集图像，测试时间仅包括特征提取后的检索时间。如表5 所示，可以看出，本文提出的对该数据集的网络测试相对较快，满足实际应用中相对快速测试的要求。它包括特征提取后的检索时间，以及所进行9 项实验并达到所有测试的平均值。

表5 SYSU⁃MM01 数据集上的测试时间结果 s

4 结束语

本文提出了一种混合交叉双路径特征学习网络，用于水平切割图像的局部特征和全局特征，提升行人特征表征能力。此外，提出了一种新颖的整体约束和部分三元组⁃中心损失函数，用于改善模态差异，使同类别样本更接近类别中心而远离其他类别中心。两个公共数据集上的实验结果表明本文所提方法能获得优良的识别性能。虽然网络性能得到了一定程度的提升，但在以下几个方面还可以进一步提升。将首先进一步改进基于双流结构的网络框架，以获得更好的性能。其次，通过研究新的损失函数，进一步提高网络性能。最后，将考虑在网络中加入行人检测和行人跟踪算法，以丰富所提方法的应用场景。