双粒度特征融合网络的跨模态行人再识别

2023-05-20 07:36马潇峰程文刚

中国图象图形学报 2023年5期

马潇峰，程文刚，2*

1.华北电力大学控制与计算机工程学院，北京 102206；2.复杂能源系统智能计算教育部工程研究中心，保定 071003

0 引言

跨模态行人再识别是指给定一种模态的行人图像作为查询，从另一种模态的候选集中检索具有相同身份图像的技术。本文针对可见光（RGB）模态和红外（infrared，IR）模态进行研究。跨模态行人再识别广泛应用于智能监控、安防和刑侦等领域，但由于存在较大的跨模态差异，准确匹配行人图像仍然很具有挑战性。因此，跨模态行人再识别受到了工业界和学术界的共同关注。

除了在单模态行人再识别中已经存在的模态内变化外，跨模态行人再识别的一个关键问题在于如何缩小相同身份的可见光图像和红外图像之间的模态差异。现有的工作主要采用模态共享特征学习或模态转换的方法。模态共享特征学习方法致力于将可见光和红外图像投影到特定的公共嵌入空间，以实现跨模态特征对齐，可细分为全局特征学习（Wu等，2017；Ye 等，2020）和局部特征学习（Hao 等，2019b；Zhu 等，2020）。全局特征学习用一个特征向量表示行人图像整体，而局部特征学习用基于部件或区域的特征向量集合表示该行人图像。双路卷积神经网络（two-stream convolutional neural network，two-stream CNN）结构常应用于这类方法，并配合损失函数（如身份损失、三元组损失等）进行约束（Ye等，2022）。然而，现有的模态共享特征学习方法通常致力于发掘全局或局部特征表示，很少结合两种特征的优势。基于模态转换的方法旨在生成行人图像对应的跨模态图像（Wang 等，2019a，b，2020）或中间模态图像（Li 等，2020；Zhang 等，2021），将异构模态图像转换到统一的模态中，从而减小模态间差异。这类方法通常采用生成对抗网络（generative adversarial network，GAN）和编码器—解码器（encoderdecoder）结构。然而，红外图像到可见光图像的转换是不适定的，还可能引入附加噪声，无法生成准确、真实的可见光图像，并且基于GAN 的模型存在难以收敛的问题。生成的中间模态试图在特征分布上拉近异构图像的距离，但两种模态仍存在着较大差异（Wei等，2021）。

不同的成像机制决定了可见光和红外两种图像本质上的差异。可见光图像由红、绿、蓝3 个颜色通道构成，而红外图像只包含反映物体热辐射的单通道，这导致颜色这一关键特征无法应用于跨模态匹配。而轮廓是一种相对可靠的识别线索，事实上，人类通过视觉检验红外监控进行判断时，主要依靠的就是轮廓信息。红外图像丢失了颜色和纹理等特征，但轮廓、形状等信息则仍然明确，如图1 伪彩色红外图像所示。由图1 可见，轮廓在可见光和红外图像间具有一定的跨模态不变性。

图1 伪彩色红外图像的示例Fig.1 An example of pseudo-color IR images

基于CNN 的方法在行人再识别问题中取得了巨大成功，这归因于其具有强大的深层判别特征表达能力。然而，由于每个卷积核都限制在局部区域（感受野）上，使其在特征学习过程中并没有充分利用全局上下文信息（Wu 等，2021）。因此，计算机视觉研究引入了Non-local（Wang 等，2018）机制以建模长距离关系，如各种视觉Transformer（Han 等，2022）通过自注意力机制捕捉全局信息。同时，Geirhos 等人（2022）的研究表明，CNN 更倾向于提取纹理信息而非形状信息。因此，轮廓这种图像级全局特征的引入亦有助于弥补现有CNN方法的上述缺陷。

基于以上考虑，本文提出将轮廓信息引入到跨模态行人再识别研究中。然而，轮廓也存在变形和遮挡等问题，如何恰当利用轮廓线索也非常具有挑战性的。为此，本文将轮廓作为一种辅助模态，希望借助深度网络强大的特征表达能力来缩小可见光和红外的模态间差异。轮廓是行人的一种整体性而非局部性的特征描述，因此对全局特征进行了轮廓增广。同时，受到局部特征具有良好判别能力的启发，期冀将轮廓与模态共享特征学习得到的局部特征进一步融合，增强特征表达能力。相应地，提出了一种轮廓引导下的双粒度特征融合网络，如图2 所示。该网络包括两种类型的融合，一种是图像到轮廓的融合，在图像级进行，称为全局粒度融合，输出轮廓增广特征；另一种是在轮廓增广特征和局部特征之间进行融合，由于涉及局部特征，称为局部粒度融合。

本文的主要贡献如下：1）将轮廓作为一种辅助模态引入到跨模态行人再识别模型中进行特征嵌入。这是在跨模态行人再识别问题中利用显式轮廓信息的首次尝试。2）提出了一种轮廓引导的双粒度特征融合网络，在统一的端到端网络中同时学习全局粒度和局部粒度特征。在两个公开数据集SYSUMM01（Sun Yat-sen University multiple modality 01）和RegDB（Dongguk body-based person recognition database）上的实验结果验证了模型的有效性。

1 相关工作

1.1 跨模态行人再识别

跨模态行人再识别不仅要面对遮挡、不同视角和行人姿势造成的模态内差异（史维东等，2020），还要解决由于异构图像而形成的跨模态差异。其中，减小跨模态差异至关重要，因为模态间差异也会加剧已经存在的模态内差异。现有方法主要可以分为模态共享特征学习和模态转换两类。

模态共享特征学习旨在从异构模态中学习具有判别力和鲁棒性的特征。Wu 等人（2017）设计了一种深度零填充（zero-padding）结构，使单路网络的节点自动提取两种模态的特征。Ye 等人（2018a）提出了一个结合特征学习和度量学习的两阶段框架，并通过后续工作逐步完善该框架，使双路卷积神经网络成为目前跨模态行人再识别领域一个常用的基线模型（Ye 等，2022），其通常包括特定于模态的浅层结构和模态共享的深层结构，最终将行人图像映射到共享特征空间进行相似度学习。双路网络主要采用身份损失（identity loss）和三元组损失（triplet loss）进行约束。一些工作从优化损失函数的角度出发增强其学习能力。Zhu 等人（2020）提出异质中心损失（hetero-center loss），以缩小不同模态下同一行人图像的中心距离。Liu 等人（2021）设计了异质中心三元组损失（hetero-center triplet loss），试图结合三元组损失和异质中心损失的优点。尽管基于CNN 的方法取得了巨大成功，但对长距离依赖关系建模能力有限，使网络偏向于识别纹理而非形状（Geirhos等，2022）。轮廓是一种图像级的特征，引入轮廓可以引导CNN 学习基于形状的行人判别特征，并弥补其在长距离关系建模上的不足。

模态转换通常采用基于GAN 的方法和编码器—解码器结构。Wang 等人（2020）提出的JSIAReID（joint set-level and instance-level alignment Re-ID）执行集合级和实例级的对齐，以生成跨模态成对图像。Li等人（2020）通过一个轻量级网络引入了辅助X 模态图像，并联合优化三种模态的特征。Zhang等人（2021）提出一种非线性中间模态生成器，采用编码器—解码器结构生成M 模态图像，使模态间特征分布尽可能接近。由于红外模态到可见光模态的转换是不适定的，生成的图像可能包含额外的噪声。而轮廓在红外和可见光图像中保持不变，是一种良好的模态共享特征。从这点上看，固有的轮廓比生成的图像更加可靠，然而现有的跨模态行人再识别方法没有关注到轮廓信息。Chen 等人（2019）在可见光单模态行人再识别中考虑了行人轮廓的影响，本文则深入探究轮廓在跨模态行人再识别的价值，并提出了一种双粒度特征融合策略以实现更有效的特征学习。

1.2 全局特征和局部特征

全局特征学习为每幅行人图像提取全局特征表示，跨模态行人再识别中的大多数方法都采用全局特征来描述行人。Ye 等人（2022）设计了一个简单但广泛使用的基线模型，使用双路网络提取全局特征，由身份损失和三元组损失联合优化整个网络。因其易于实现且泛化能力强，大部分特征学习相关方法（Wu 等，2017；Ye 等，2018b，2020；Dai 等，2018）和基于模态转换的方法（Wang 等，2019a，b，2020；Li等，2020）都倾向于使用全局特征。局部特征学习能够获得部件或区域的特征，对行人图像错位具有鲁棒性。一些方法（Zhu 等，2020；Hao 等，2019b）侧重于利用局部细粒度特征，将可见光和红外图像分成几个水平部件，每个部件独立预测行人身份。但目前的跨模态行人再识别模型通常只关注全局或局部特征学习方法，本文则在轮廓信息引导下，融合全局特征和局部特征，使其具有更强的判别能力。

2 轮廓引导的双粒度特征融合网络

2.1 网络架构

在双路网络基础上，本文设计了两个特定的分支用于学习可见光图像和红外图像所对应轮廓的特征，将轮廓图像作为辅助模态联合优化整个网络，从而缩小模态间差异。

提出的轮廓引导下的双粒度特征融合网络架构如图2 所示，由4 个分支组成，分别对应于可见光轮廓图像、可见光图像、红外图像和红外轮廓图像。为了便于叙述，从上到下将其依次命名为分支1、分支2、分支3 和分支4。选取ResNet50（50-layer residual network）作为每个分支的主干网络。各分支的第1 个卷积层使用独立的参数来捕获特定于模态的信息，而剩余的残差块则共享权重以学习模态不变特征，即分支2 和分支3，分支1 和分支4 共享各自残差块Stage1—Stage4 的参数。此外，将分支2 与分支3 中的最后一个全局平均池化（global average pooling，GAP）层替换为用于局部特征提取的结构。

网络的输入是一组可见光和红外图像，可见光图像送入分支2，红外图像送入分支3。根据给定的图像，轮廓检测器相应地生成其轮廓图像。然后，将可见光轮廓图像和红外轮廓图像（如图2 所示）这两种模态的轮廓图像分别送入分支1 和分支4。通过这种方式，轮廓图像作为辅助模态信息进入网络。

图2 轮廓引导的双粒度特征融合网络结构Fig.2 The structure of contour-guided dual-granularity feature fusion network

全局粒度融合是指行人图像到轮廓的融合，包括可见光—轮廓融合以及红外—轮廓融合。经过全局粒度融合后，由分支1和分支4的全局平均池化层分别生成可见光轮廓增广特征和红外轮廓增广特征。同时，分支2和分支3输出可见光局部特征和红外局部特征，局部特征是一组特征向量，具体数量由区域划分相关参数决定。局部粒度融合负责连接轮廓增广特征和相应的局部特征。例如，通过局部粒度融合将红外轮廓增广特征和红外局部特征拼接在一起，以获得红外图像的表示。

2.2 双粒度特征融合

2.2.1 全局粒度特征融合

全局粒度融合是指将行人图像特征融合到其对应的轮廓图像中，借助轮廓作为先验知识，增强轮廓的全局特征表达。以红外图像为例，其红外—轮廓融合过程如图3 所示。特征融合可以在不同的层次上分别开展，如图3 中的箭头所示，浅层网络融合低层细节相关特征，而深层网络则融合高层语义相关特征。实验检验了各个不同融合位置的作用。

采用RCF（richer convolutional features）（Liu 等，2017）作为轮廓检测器，其主干架构是一个经过预训练的VGG16（Visual Geometry Group 16-layer network）网络。轮廓特征提取的表达式为

式中，xk和表示原始图像和生成的轮廓图像，k∈{V，I}分别代表可见光模态或红外模态，φ(·)表示轮廓检测器。

此外，本文探讨了不同融合操作对实验的影响，包括按元素乘、按元素加和拼接。按元素乘旨在通过轮廓图像特征对行人图像特征进行筛选过滤，保留行人轮廓信息而忽略其他区域的信息；按元素加则着重为轮廓图像特征补充行人图像相关的语义信息；拼接是在特征维度上扩展，而不损失行人图像和轮廓图像各自的信息。本文模型在Conv1 后采用按元素加的方式对特征进行融合。全局粒度融合的表达式为

式中，σ(x，y)指特征融合操作，σ∈{⊙，⊕，ⓒ}分别代表按元素乘、按元素加和拼接；，，，F分别表示经过网络的第i个残差块后，可见光图像、红外图像、可见光轮廓和红外轮廓各自对应的特征图；ugVC和ugIC分别表示可见光轮廓增广特征图和红外轮廓增广特征图。

2.2.2 局部粒度特征细化与融合

局部粒度融合是指将轮廓增广特征与基于部件的局部特征进行融合，从而联合全局特征和局部特征，得到具备更强判别能力的图像表达。由于局部特征通常与特定的身体部位有关，在不同的模态之间相对稳定，从而有助于异构模态下的对齐。

现有工作在提取局部特征时通常采用均匀分割法，首先将经过主干网络的特征图平均划分为几个水平部件，每个部件的特征图经过全局平均池化层生成特征向量，随后送入各自的分类器独立地预测行人身份。为了提高识别准确率，进一步采用了软分割方法（Sun 等，2018）细化局部粒度特征。具体而言，首先由区域分类器对原始特征图的各个列向量进行m分类，并得到区域划分掩膜，每个区域划分掩膜表示列向量属于该部件区域的概率。区域分类器由全连接层和softmax 函数构成。最后，将m个区域划分掩膜分别与原始特征图相乘，通过平均池化操作得到m个特征向量。软分割法可以表达为

式中，ω(·)指区域分类器，g(·)指全局平均池化操作，softmax(·)指softmax 激活函数，Wj为全连接层的权重矩阵，Fk、u表示行人图像经过主干网络输出的特征图和其中的每个列向量；和分别表示图像第j个区域的划分掩膜和特征向量，其中j∈{1，…，m}。

获得局部特征后，将轮廓增广特征向量和局部特征向量拼接，完成局部粒度融合。以可见光图像为例，针对均匀分割和软分割这两种局部特征提取方法，局部特征融合过程如图4 所示，该图省略了全局特征融合的表示。局部粒度融合的表达为

图4 局部粒度融合的示意图Fig.4 Illustration of local-granularity fusion（（a）fusion process；（b）uniform partition method；（c）soft partition method）

式中，fAugVC和fAugIC分别表示经过全局平均池化层得到的可见光轮廓增广特征向量和红外轮廓增广特征向量，fV和fI分别表示可见光行人图像和红外行人图像最终的特征表示，Concat(·) 代表向量拼接操作。

2.3 损失函数

为了优化提出的模型，采用身份损失和三元组损失。身份损失将训练过程视为一个分类问题，使每幅行人图像尽可能分类到正确的身份类别中，从而学习具有判别性的特征。三元组损失将训练视为一个检索排序问题（赵才荣等，2021），在特征空间拉近相同行人身份的图像特征，推远不同行人身份的图像特征。身份损失一般由交叉熵损失函数实现，本文使用Liu 等人（2021）提出的异质中心三元组损失替代传统三元组损失。异质中心三元组损失结合了传统三元组损失和异质中心损失（Zhu 等，2020）的优点，同时考虑了类内的紧凑性和类间的可分离性。总体的损失函数为

式中，Lid和Lhc_tri分别表示全局特征向量对应的身份损失和异质中心三元组损失，和c_tri分别表示第j个局部特征向量对应的身份损失和异质中心三元组损失。本文实验将权衡参数λ的值设置为1.0，异质中心三元组损失的边距值设置为0.3。

3 实验

3.1 数据集和评估标准

在可见光—红外跨模态行人再识别的两个公开数据集SYSU-MM01（Wu 等，2017）和RegDB（Nguyen等，2017）上对提出的方法进行实验评估。通过与基线模型和一些近年来的SOTA（state-of-the-art）方法进行性能比较，验证模型的有效性。

SYSU-MM01 数据集由4 个可见光摄像头和2 个红外摄像头拍摄，包含491 个行人的287 628 幅可见光图像和15 792幅红外图像。其中，训练集有395个行人，测试集有96 个行人。数据集有室内搜索（indoor-search）和全搜索（all-search）两种评估模式，前者不包括室外摄像头拍摄的图像，后者使用全部摄像头拍摄的图像。本文采用最具挑战性的单次全搜索（single-shot all-search）模式评估提出的方法。

RegDB 数据集由可见光—红外双成像系统拍摄，包含412 个行人的8 240 幅图像，每个行人都有10 幅不同的可见光图像和10 幅不同的红外图像。其中，训练集和测试集各有206 个行人。沿用Ye 等人（2018a）提出的策略，本文通过10 次实验的结果评估模型，以获得稳定的结果。

实验参照现有的跨模态行人再识别中的评估标准，采用累积匹配特征（cumulative matching characteristics，CMC）和平均精度均值（mean average precision，mAP）两项指标来评估方法的性能。其中，CMC-k（rank-k匹配准确率）表示在排名前k的检索结果中出现正确匹配的概率，而mAP 则度量具有多个正确匹配时的平均检索性能。

3.2 实验设置

使用深度学习框架Pytorch 来实现本文方法，硬件配置如下：GPU 为NVIDIA RTX 3090 24 GB，CPU为Intel（R）Core（TM）i7-11700 @ 2.50 GHz，内存32 GB。

实验采用在ImageNet 上预先训练的ResNet50作为主干网络，且最后一个卷积层的stride 设置为1，以获得更大空间尺寸的特征图。参照Zhu 等人（2020）的实验设置，训练的batch size 设置为64，每个batch 随机选取4 个行人，每个行人包括8 幅可见光图像和8 幅红外图像。输入图像的大小统一调整为288 × 144 像素，并采用随机裁剪和随机水平翻转进行数据增强。局部特征的分割区域数量设置为6。

实验使用随机梯度下降（stochastic gradient descent，SGD）优化器，其中动量设置为0.9。初始学习率设置为0.01，并采用warm up 策略调整学习率。具体来说，在前10 个epoch，学习率可以通过0.01×（epoch+1）来计算；在第10～20 个epoch 之间时，学习率保持为0.01 不变；在第20 个epoch 和第50 个epoch 时，学习率分别衰减为0.001 和0.000 1。经过60 个epoch 后停止训练。此外，当采用软分割方法时，还需对模型进行另外20 个epoch 的微调。在这个过程中，首先固定其他组件，单独训练区域分类器，然后联合优化整个网络。

3.3 对比实验

为了验证方法的有效性，在SYSU-MM01 和RegDB 两个数据集上与经典和SOTA 方法进行对比实验。包括基于全局特征的方法Zero-Padding（Wu等，2017）、TONE（two-stream CNN network）+HCML（hierarchical cross-modality metric learning）（Ye 等，2018a）、HSME（hypersphere manifold embedding）（Hao 等，2019a）、cmGAN（cross-modality generative adversarial network）（Dai 等，2018）、BDTR （bidirectional dual-constrained top-ranking）（Ye 等，2018b）、AGW（attention generalized mean pooling with weighted triplet loss）（Ye 等，2022）、MACE （modalityaware collaborative ensemble）（Ye 等，2020）、Hi-CMD（hierarchical cross-modality disentanglement）（Choi等，2020）、NFS（neural feature search）（Chen 等，2021）、MSO（multi-feature space joint optimization）（Gao 等，2021）、基于局部特征的方法DFE （dualalignment feature embedding）（Hao 等，2019b）、TSLFN（two-stream local feature network）（Zhu 等，2020）、LBA（learning by aligning）（Park 等，2021），以及基于模态转换的方法D2RL （dual-level discrepancy reduction learning）（Wang 等，2019b）、JSIA-ReID （joint set-level and instance-level alignment Re-ID）（Wang等，2020）、AlignGAN（alignment generative adversarial network）（Wang 等，2019a）、X-Modality（Li 等，2020）。

在SYSU-MM01 数据集上的对比实验结果如表1 所示，轮廓引导的双粒度特征融合网络在最具挑战性的单次全搜索模式下的rank-1和mAP分别为62.42%和58.14%。结果表明，双粒度特征融合有利于模型学习判别性特征，局部特征和全局特征相结合比单独使用其中一种粒度的特征具有更好的性能。此外，本文方法的性能超过了基于GAN 的方法，模型更容易收敛并具有更快的训练速度，不会引入额外的噪声。在RegDB 数据集上的对比实验结果如表2 所示，本文方法的rank-1 和mAP 分别为84.42%和77.82%，相比于其他方法具有较高的识别准确率。在两个公开数据集SYSU-MM01 和RegDB上的对比实验结果证明了本方法的优越性。

表1 不同方法在SYSU-MM01数据集上的比较结果Table 1 Comparison results of different methods on SYSU-MM01 dataset/%

表2 不同方法在RegDB数据集上的比较结果Table 2 Comparison results of different methods on RegDB dataset/%

3.4 消融实验与分析

为了验证轮廓增广和模型各组成部分的有效性，并探究不同特征融合方法和权衡参数的影响，进行消融实验。相比于RegDB 数据集，SYSU-MM01数据集的图像数量更多，拍摄场景和相机视角也更加复杂多变。各种方法在SYSU-MM01 数据集上的性能远不如在RegDB 数据集上的性能，对其做更深入的探究是很有必要的。因此，消融实验在SYSU-MM01数据集上进行。

3.4.1 组成部分的有效性

为了评估各组成部分的有效性，实验在基线模型上添加不同的组件，并对性能指标进行定量分析。实验1 使用双路网络作为基线，原始可见光图像和红外图像作为输入。实验2 和实验3 分别表示仅使用全局粒度轮廓特征或局部粒度部件特征作为行人的特征表示。实验4 表示将实验3 的均匀分割方法替换为软分割方法。实验5 指融合两种粒度的特征，这里在Conv1 后使用按元素加的方式完成全局融合操作。实验6 表示将实验5 的均匀分割方法替换为软分割方法。

在SYSU-MM01 数据集上各组成部分的有效性如表3 所示。与实验1 相比，实验2 的rank-1 提升了7.76%，mAP 提升了6.60%；而实验3 对应的提升值分别为6.90%和4.81%。实验2 的提升效果更显著，表明了在本文提出的模型中，全局粒度轮廓特征比局部粒度部件特征更有效，同时也体现了轮廓是一种具有较强判别性的模态共享特征。与实验2 和实验3相比，实验5的结果证明了融合全局特征和局部特征的重要性。全局特征包含整体的语义信息，但可能会受到背景噪声的干扰；局部特征是细粒度的，通常与行人身体部位相关。因此，为了尽可能减少模态差异，有必要将两种粒度的特征结合起来。此外，与实验3和实验5相比，实验4和实验6表明，软分割方法可以进一步提高模型的识别准确率。然而，由于可见光模态和红外模态之间的巨大差异，其效果不如可见光单模态下的行人再识别（Sun等，2018）。

表3 各组成部分在SYSU-MM01数据集上的有效性Table 3 Effectiveness of each component on SYSU-MM01 dataset/%

3.4.2 融合方法的影响

为了研究全局粒度融合方法对性能的影响，实验尝试了在不同位置使用不同操作进行特征融合。在SYSU-MM01 数据集上的实验结果如表4 所示。结果表明，在较浅层融合的性能优于在较深层融合。因为CNN 的浅层更倾向于提取图像的形状、边缘和纹理特征，而深层则更偏向于学习抽象特征，且浅层生成的特征图具有更大的空间尺寸。融合操作可以在浅层结合原始图像和轮廓图像各自的细节信息，以便于后续的网络进行学习，从而取得比在深层融合更好的效果。在各种特征融合方式中，拼接操作的性能整体上优于其他方法，因为与按元素的乘或加相比，拼接不会损失信息。但由于拼接操作增加了特征图维度，对计算资源的消耗大于其他两种方法。综合以上考虑，本文实验在Conv1 后采用按元素加的方式对特征进行融合。

表4 不同融合方法在SYSU-MM01数据集上的性能Table 4 Performance of different fusion methods on SYSU-MM01 dataset/%

3.4.3 轮廓增广的有效性

为了验证轮廓增广的有效性，实验分别探究了在无轮廓增广、局部特征轮廓增广和全局特征轮廓增广下双粒度特征融合网络的性能，表5 给出了在SYSU-MM01 数据集上的实验结果。数据表明，对局部特征或全局特征进行轮廓增广的结果好于没有轮廓引导的结果，从而验证了轮廓增广的有效性。同时，可以发现采用全局特征轮廓增广带来的性能提升显著高于局部特征的增广。这是因为，轮廓是行人的一种整体性而非局部性的特征描述，对全局特征进行轮廓增广可以引导模型学习基于形状的行人判别特征，并弥补其在长距离关系建模上的不足。而在局部特征轮廓增广中，由于图像会被划分成不同的区域，整体性的轮廓将被分解为局部性的边缘，导致模型无法感知图像级的关联信息。因此，本文所提出的模型仅对全局特征进行了轮廓增广。

表5 轮廓增广在SYSU-MM01数据集上的有效性Table 5 Effectiveness of contour augmentation on SYSU-MM01 dataset/%

3.4.4 权衡参数的影响

为了探究全局特征损失和局部特征损失的比例系数对性能的影响，在SYSU-MM01数据集上采用不同的权衡参数λ进行实验，结果如表6 所示。结果表明，当权衡参数λ介于1.0～1.5 时，模型的性能较好。考虑到λ= 1.0 时，rank-1 和mAP 性能突出，且rank-10 和rank-20 的值亦接近最优，本文实验将权衡参数λ的值设置为1.0。

表6 不同权衡参数在SYSU-MM01数据集上的性能Table 6 Performance of different trade-off parameters on SYSU-MM01 dataset/%

4 结论

本文将显式轮廓信息引入红外—可见光跨模态行人再识别中，旨在减小模态间差异。为了充分利用轮廓特征，本文将轮廓作为辅助模态，提出了一种轮廓引导的双粒度特征融合网络，用于跨模态行人再识别。全局粒度融合增强了原始图像的轮廓特征表示，生成轮廓增广特征。局部粒度融合进一步融合基于行人部件的局部特征和轮廓增广特征，从而得到具备更强判别能力的图像表达。在两个公开数据集SYSUMM01和RegDB上的实验结果验证了模型的有效性。

本文模型验证了轮廓引导和双粒度特征融合的有效性，然而模型的性能仍有待提高。后续工作将探索如何更有效地利用轮廓线索增强特征的表达能力。例如，尝试其他的轮廓特征融合方法或设计相应的损失函数，进一步提高识别准确率。此外，将考虑采用随机擦除、噪声添加等数据扩张技术提升模型的泛化能力，以适应更加复杂多变的真实行人再识别场景。