基于门控特征融合与中心损失的目标识别

2023-10-24 10:08莫建文李晋蔡晓东陈锦威

浙江大学学报（工学版） 2023年10期

莫建文，李晋，蔡晓东，陈锦威

(桂林电子科技大学信息与通信学院，广西桂林 541004)

生物特征识别身份的系统非常有吸引力，它们易于使用且安全系数高，因此研究者们对这些人体固有的生理或行为特征的研究也日益增多.Wang 等[1]提出动态类池化方法来存储和更新身份特征，在不牺牲性能的情况下，节省时间和成本.Zhu 等[2]提出全局-局部交叉注意和成对交叉注意来实现各类图像间的信息交互，学习到细微特征可以提高行人识别准确率.Ye 等[3]提出一种基于二维卷积神经网络(two dimensional convolutional neural network, 2D-CNN)和门控循环单元(gated recurrent unit，GRU) 的深度神经网络 (deep neural network，DNN) 模型，实现说话人的身份识别等.当特征采集器获取特征出现误差时，由于现实场景的复杂性，仅仅采用单一生物特征很难维持身份识别的稳定性；当单一生物特征无法满足现实需求时，研究者们便尝试以多生物特征的丰富性来应对现实情况的复杂性.Ye 等[4]使用可见图像生成辅助灰度模态，挖掘可见图片特征与对应图片的红外特征之间的结构关系，解决白天和夜间因存在光线差异的目标身份识别问题.Qian 等[5]有效地结合人脸信息和语音信息，显著地提高个人身份验证系统的性能.Sarangi 等[6]提出一种基于耳朵和人脸轮廓的多模态生物识别系统，组合2 个有效的局部特征，产生高维特征向量.在频域和空间域中保留互补信息，弥补了耳朵特征进行身份识别时的缺点，也提高了整体的身份识别准确率.在社区安全问题中，指纹、语音、人脸、行人等则是需要特定的前端设备和安装角度的位置相互配合.现有的监控设备大都不具备这种配合条件，因此在这种场景下动态的目标识别就变得比较困难.目前尚未发现有研究通过人脸和行人特征的融合来解决类似的问题，如何组合人脸特征与行人特征并产生鲁棒性更强的目标身份特征是亟待解决的问题.

目前常用的多模态特征融合方法[7]有联合表示和协调表示等，联合表示常用的是Concat 方法直接拼接产生维数更高的特征或Add 方法将2 个特征向量组合成复合向量，而协调表示则是学习协调子空间中的每个模态的分离但约束表示.Concat 方法是简单拼接的方法，虽然丰富了目标身份特征信息，但是使得冗余信息增加，会对身份判决带来强干扰.受多生物特征融合[8]的启发，本研究设计出门控特征融合网络（gated feature fusion network，GFFN），考虑各部分特征的融合程度，在丰富特征信息的同时，也避免冗余信息带来的误判.针对本研究的目标多分类问题，交叉熵损失函数虽然能实现类间区分，但是类内的距离却没有进行约束.当不同人的穿着或相貌相似时，类间距离减少；当同一人受拍摄角度或者光线强度等影响时，类内距离增大，则会出现类间距离小于类内距离的情况.Dickson 等[9]发现将平方和误差损失函数与交叉熵损失函数混合使用可以提高网络性能，结合现实应用与Wen 等[10]的损失函数融合思想，通过加入中心损失对分类网络进行类内距离约束，使得提取的特征判别性更强.

1 GFFN 模型

由于摄像头角度、抓拍距离、目标活动及光线明暗程度等现实情况的影响，使得监控场景下人脸数据的有效性受限，从而导致人脸识别网络的准确率急剧下降.受多模态特征融合的启发，在实际应用中考虑到人脸与行人特征各自的价值以及在不同场景下所受到的技术约束，对两者各自的优势进行融合应用，采用的门控融合网络可以指导神经网络去综合考虑人脸和行人特征的贡献量，有效地缓解因单生物特征信息模糊而导致识别准确率低的现象.GFFN 模型的整体框架如图1 所示.

1.1 模型的输入模块

GFFN 模型的输入模块如图2 所示，Qf为人脸特征，Qp为行人特征.输入待识别的图片，使用Insightface 人脸识别模型[11]和PCB+RPP 行人识别模型[12]进行特征提取.

图2 GFFN 的输入模块Fig.2 Input module for GFFN

1.2 模型的特征融合模块

将得到的2 个特征送入特征融合模块进行融合，组合出更加丰富且有效的身份特征.

1.2.1 特征相加融合如图3(a)所示，相加融合是指特征值相加，通道数不变，将2 个特征向量组合成复合向量.

图3 多种特征融合方法图Fig.3 Map of multiple feature fusion methods

1.2.2 特征拼接融合如图3(b)所示，拼接融合是指将2 个特征进行首尾拼接.当通道数增加时,[·,·]为向量首尾拼接符.

1.2.3 软注意力融合如图3(c)所示，Shon 等[13]提出一种基于软注意力的融合方式，在两两输入特征之间进行互补平衡.通过注意力层fatt(·) 得到各生物特征的注意力得分：

式中：ez为加权融合特征，为Qx经过全连接（fully connected，FC）层后的生物特征，Q为最终的组合特征， αf为人脸的加权融合系数， αp为行人的加权融合系数.具体计算过程为

1.2.4 门控特征融合如图3(d)所示，门控机制是应用在GRU 或长短期记忆（long short term memory，LSTM）网络等循环网络中的流量控制部件，使用的门控特征融合结构[5].在结合特征融合优势的同时，重点在决策层面进行优化控制.GFFN 设计的目的是将不同的生物特征数据进行组合并找到最优表示.每个Qx对应于与每个生物特征相关联的特征向量，经过双曲正切函数的激活，该函数旨在对特定特征的内部进行映射编码.对于每个激活后的特征Qx，通过一个门控神经元(在图中由sigmoid 函数输出表示)控制输入.当新ID 数据被输入到网络时，门控神经元接收拼接后的特征向量作为输入，并使用它们来决定生物特征Qx对整体识别任务做出的贡献量，门控学习机制的数学原理为

式中： tanh 为双曲正切函数，Ws、Wi为网络学习到的权重参数，S为门控网络的权值分配系数， σ 为sigmoid 函数.

为了不同特征的组合找到最优的表示，模型以人脸512 维特征和行人3 072 维特征作为输入，都经过一个FC 层，该层还包括归一化层（batch normalization，BN）和Drop_out 层.BN 层的加入是为了加快网络的训练和收敛、控制梯度爆炸和防止梯度消失；Drop_out 层则可以防止训练过拟合，整体是为了得到更加紧凑和区分性更强的特征.人脸特征和行人特征的输出维度均为1 024，再用双曲正切函数进行激活.最初输入的人脸特征和行人特征进行首尾拼接后，以及经过相同的FC 层操作后，得到1 024 维融合特征，使用式（4）得到分配2 个特征的权值系数.最后用权值系数与人脸特征和行人特征分别进行对应元素相乘并相加，得到最终的特征表示，再通过损失层进行ID 预测分类.

1.3 模型的损失函数模块

在一般的识别任务中，训练集和测试集的所有类别都会有对应标签，如著名的Mnist 和ImageNet 数据集，里面包含的每个类别是确定的.大多网络最终采用Softmax 损失函数进行监督训练，得到的深度特征都具有良好的类间区分性.身份识别任务存在类间复杂及类内多样的问题，预先收集所有测试目标的信息是不切实际的，因此需要网络学习到的特征具有较强的判别性.

中心距离损失的设计主要是为了缓解类间距离小于类内距离导致识别有误的情况，通过寻找每一类特征的中心，以度量学习的形式惩罚所学特征与它类中心的距离即缩小同类样本之间的距离.Wen 等[10]通过以手写数字分类任务为例（Mnist数据集），展示网络最终的输出特征在二维空间的分布.类间距离虽然被区分，但是仍存在类内距离过大的情况，于是提出Center Loss 来约束类内距离.本研究借鉴减少类内距离的思想，将门控分类与中心损失结合产生新的损失函数为

式中：La为门控分类损失；Lb为中心距离损失；M和N分别为小批次中的图片数量和类别数；xi为属于类别yi的第i个特征，xi∈Rd；d为特征的维数；和为网络训练的权重参数；cy,i为特征的第yi个类中心，cy,i∈Rd； λ 为平衡2 种损失的权值超参数，经实验效果对比将其设置为0.2 最佳.门控分类损失与中心距离损失在深度神经网络中的融合结构如图4 所示.

图4 门控分类损失和中心距离损失的连接图Fig.4 Connection diagram of gated classification loss and center distance loss

2 实验处理与结果分析

2.1 实验数据集的制作

为了抓拍到丰富的行人姿态，在某高校人口流动稳定的路段安装了12 台监控抓拍设备.在若干天的固定时间段下，收集到约 4×106张行人流动图，利用已开源的行人检测和人脸检测技术，裁剪出单个目标行人的整体图片和对应的人脸图片，经过人工数据处理和筛选，最终得到ID 数为1 392 的行人和人脸数据集（G-campus1392），如图5 所示.

图5 G-campus1 392 数据集样例Fig.5 Dataset of sample G-campus1392

为了验证实验的有效性和稳定性，将数据集以随机抽取的方式分成3 组（Randomdata1、Randomdata2、Randomdata3），如表1 所示，其中Nu为图片数量.类比公开的行人数据集Market1501 中训练集和测试集的ID 数比例，随机抽取的各组数据集中训练集和测试集ID 数均为696 个，并且每个ID 都有5 组行人—人脸库图片用于测试环节的距离度量.由于人脸图片是从行人图片中裁剪得到，以表1 中的图片数量来表示行人或人脸图片数量.

表1 G-campus1392 数据集的图片数量Tab.1 Number of images in G-campus1392 dataset

2.2 实验训练与测试说明

本研究以表征学习的形式来训练识别模型，最后的全连接层维数等于类别数.在测试时，需要利用的是训练网络的特征提取能力，并且训练集和测试集的ID 不能共享，因此会丢弃最后的全连接层.为了保证实验的合理性，对单行人、单人脸、各种融合方法均采用ID 分类网络进行训练.将所有方法中网络的全连接层数和超参数进行统一，取全连接层之前的1 024 维特征作为输出特征，便于后续的距离度量.

实验的评价指标是重识别任务(re-identification, ReID)中常用的识别准确率（accuracy，ACC）和平均准确率（mean average precision，mAP）.为了真实刻画目标识别的合理性与真实性，计算库中每个ID 的5 张图片与待测试的图片之间的欧式距离，采用加和求平均数的方法得到平均距离.当平均距离最小的库ID 与待测试图片ID 相同时，则该测试图片识别正确，所有测试图片（总数记为 AllID）中识别正确的个数记为 T rueID，则ACC的计算为

ACC 指标则是统计识别正确个数占总ID 数的比重.为了能够更加全面的衡量ReID 算法的性能，采用mAP 指标来反映检索的人在数据库中所有正确图片排在序列表前面的程度，其计算式为

式中：E为总查询次数，m∈(1,E) ；i为查询中返回的图片数量；为第m次查询中，返回的前i张图片中识别成功的个数；j为第m次查询结束时，识别正确图片的总个数.

2.3 实验方法

为了验证所提方法的有效性，实验部分对比了图3 中的3 种特征融合方法，也将单一特征的分类识别结果与各融合方法进行对比.在现实监控场景下，人脸和行人的特征融合，能够弥补单一特征信息丢失的不足.

2.4 实验分析

在试验中，通过对比单一特征识别结果、多特征识别结果以及是否加入中心距离损失来验证所提方法的有效性.

2.4.1 各识别方法的实验结果分析在控制网络层和超参数的前提下，计算ACC 值和mAP 值，实验结果如表2 所示.从表2 可知，人脸识别的准确率最低.在现实情况及非配合情况下，人脸识别准确率确实会受到较大的影响.3 组数据的人脸和行人平均识别准确率分别为40.574%、54.818%，行人特征相比于人脸具有较高的鲁棒性.在多特征融合方法中，特征相加融合的平均准确率为59.16%，这种求和方式默认2 种特征的贡献量是相同的，所得平均值容易因质量差的特征产生偏差.首尾拼接融合的平均准确率为61%，该方法将2 个特征均放入网络中组合训练，缺点是整体的性能会因损坏的特征数据而下降.

表2 多种识别方法的结果对比Tab.2 Comparison of results of multiple identification methods

以上2 种融合方法都是静态的特征融合，而软注意力融合与本研究的门控特征融合都是动态的特征融合方式，两者的平均准确率分别为63.6%、73.0%.从实验结果看，多特征的动态组合不仅能弥补单一特征信息缺失的不足，也能缓解多特征融合存在冗余的问题.两者虽都为动态融合，但两者在动态程度上存在差别，软注意力机制会重点关注某一特征，并且会综合考虑所有特征，最终所得的权值系数很难取到极端值.在现实应用场景下，人脸往往模糊到无法获取有用的特征甚至是干扰的信息.本研究的门控方法采用sigmoid函数进行权值分配，由于该函数的平滑性和取值特征，考虑到的因素更多，更适合现实场景下的应用.不难发现，本研究的门控特征融合方法带来的提升效果是显著且稳定的.

2.4.2 中心距离损失效果分析对于多分类问题，不可避免的就是类内与类间距离的大小问题，所提的融合损失能够针对该问题进行优化.各分类方法在表2 的实验基础上，加上中心距离损失重新训练和测试.ACC 值和mAP 值如下表3、4 所示，其中L1 为分类任务中常用的交叉熵损失，L2 为所提的融合损失.

表4 分类网络增加中心距离损失后的mAP 值Tab.4 mAP value of classification network after increasing center distance loss%

通过观察表3、4 的实验结果可以发现，ACC 值和mAP 值在加入中心距离损失后均有提升，各方法的平均准确率分别提高3.0%、5.6%、7.2%、9.5%、8.1%、2.6%.各方法在加上中心距离损失训练后，随着类中心距离在训练过程中不断更新调整，有效缓解样本由于类间距离小于类内距离而导致判决错误的情况.6 类方法的平均准确率先上升后下降，当2 个特征进行融合后，融合特征的类内距离会随之增加.为了使得融合后的类内特征距离更加紧凑，加入中心距离损失，改善因类内距离过大而出现误判的情况，单特征改善情况则不会那么显著.本研究的门控方法加入损失后的提升效果虽不如其他方法明显，是因为特征的有效性已经接近上限，同时也反映出本研究特征融合方式是紧凑的.

2.4.3 错误样本分析以上述实验结果中的门控损失和距离loss 实验结果为例，整理出4 组错误的典型样本如图6 所示.每组左边为测试样本，右边为模型识别出的错误结果.从图6 来看，当人脸模糊或不配合、行人衣服颜色相似时，即使采用融合方式，模型在应对2 个特征信息不准的情况下，鲁棒性表现的都不够强，这表明不仅融合算法存在挑战，单行人或人脸识别模型的特征提取也有待改进.数据集的丰富性也会影响结果，当训练量足够多时，现实场景下的目标识别率也会进一步提升.

图6 所提方法的错误样本Fig.6 Error samples of proposed method

由于本研究数据集由项目合作方提供，暂时没有取得公开权限，读者可以搜集多个公开数据集如Market1501 等.在使用能够看到人脸和行人的数据时，可以与本研究相当的数据量进行重现测试，也可以根据介绍的数据集制作流程，重新制作数据集进行复现.

3 结语

本研究提出了一种基于门控多特征融合与中心损失的动态目标识别方法.以门控的方式将行人特征与人脸特征进行动态融合，产生更强的类间区分性特征，可以弥补单一特征在现实场景下由于信息丢失导致识别准确率下降的问题.将中心距离损失与门控分类损失结合，随着类中心距离的更新，类内距离不断缩小，使得特征更具判别能力.在自制数据集实验结果中，监控场景下的特征融合方法可以有效降低目标识别的误判概率.在实际场景下，会出现待识别目标被遮挡、更换衣服或监控环境光强变化等复杂情况，这样会导致特征融合产生不了更强的特征，反而会组合产生干扰特征，因此进一步的研究可从如何提取强鲁棒性的特征或训练出带有记忆的识别网络2 个方向来展开.