马吉忠 , 谢 一 , 马全海 , 武文魁 , 李文琪 , 李 玥
(甘肃农业大学信息科学技术学院,甘肃 兰州 730070)
随着大数据时代的到来,摄像机网络越来越多地部署在每个角落。人们通过智能视频应用实现目标跟踪、异常行为检测等需求变得日益强烈。而Re-ID应用和研究意义在社区中也变得越来越流行,但Re-ID仍然面临许多挑战,例如人物姿势,照明和背景杂乱的变化很大。而深度学习则不同,它与人工提取特征的方式不同,它的适应性很强,可以很好地挖掘数据的深层特征,建立深层网络之间的相互联系,从原始图像数据中学习更加高级的语义特征,使得特征更具辨识能力和鲁棒性。而此次研究中对于行人再识别技术,通过基于属性标签和ID标签的互补性,提出了一个基于属性的人识别(APR)网络。
Person Re-ID和属性识别都意味着在视频监控中有着关键的应用。在本文中,通过使用属性标签的补充提示来提高大规模Re-ID的性能。
其中属性标签的有效性有三方面:1)使用属性标签进行训练可以提高Re-ID模型的判别能力。通过相似性来区别这些人,这可以用相似的彼此靠近,不相似的彼此远离。2)详细的属性标签明确指导模型通过指定的人文特征学习人的表征。通过属性标签,该模型能够通过关注一些局部语义描述来学习并对行人分类,从而极大地简化了模型的训练。3)可以使用属性来加速Re-ID的检索过程,其主要思想是筛选出一些与查询属性不同的图像。
随着深度学习发展,基于CNN的方法正在主导Re-ID社区。学塔尔提出了PPA的建议,以从基础网络中提取身体部位的注意特征。然后,身体部位的特征被进一步重新加权,产生最终的特征向量[1]。有人转移生成对抗网络(PTGAN)被提议从一种数据集向另一种转移图像风格,同时保持身份信息以弥合领域差距[2]。这使用了一种字典学习方案通过对象识别和人检测(源域)学习的功能转移到人Re-ID(目标域)中。近来,已经提出了一些半监督方法和非监督方法来解决关于Re-ID的数据问题[3]。
Person Re-ID的属性。以前属性被用作辅助信息以改善低级功能。最近,朗哥(Franco)等人提出了一种由粗到细的学习框架,该框架由一组混合深度网络组成。该框架对网络训练的时候可能会忽略ID标签和属性标签的互补性[4]。为此,首先在具有属性标签的独立数据集上训练网络,然后使用带有三元组损失的唯一身份标签对网络目标数据集进行微调。最后,将目标数据集的预测属性标签与独立数据集相结合,以进行最终的微调。该属性也可用作无监督学习。而无监督的Re-ID方法通过从标记源数据中学习到的属性来共享源域知识,并通过跨域的联合属性标识学习将这样的知识转移到未标记的目标数据中。
令SI={(x1,y1),...,(xn,yn)}是行人身份标签数据集,其中xi和yi分别表示第i张图像及其身份标签。对于每个图像xi∈SI,具有属性注释其中aji是图像xi的第j个属性标签,m是属性类。令SA={(x1,a1),...,(xn,an)}为标记为集合的属性。请注意,集SI和SA共享公共行人图像{xi}。基于这两个SI和SA集,有以下两个基准:
1)区分嵌入(IDE)。采用IDE来训练Re-ID模型,该模型将Re-ID训练过程视为图像身份分类任务。仅在身份标签数据集SI上对其进行训练。为IDE提供以下目标函数:
其中ф是嵌入函数,由θI参数化,以从数据xi中提取特征。CNN模型通常使用嵌入函数ф。fI是通过wI进行参数化的身份分类器,用于将嵌入图像特征ф(θI; xi)分类为维度身份置信度估计,其中n是身份的数目。ℓ表示分类器预测与其基本事实标签之间的损失。
2)属性识别网络(ARN)。与用于身份预测的IDE基准相似,提出了用于属性预测的属性识别网络(ARN)。ARN仅在属性标签数据集SA上训练。为ARN定义以下目标函数:
其中fAj是由wAj参数化的第j个属性分类器,用于将嵌入的图像表示ф(θ; xi)分类为第j个属性预测。将输入图像xi上m个属性预测所有遭受损失的总和作为第i个样本的损失。
3.2.1 架构概述
APR网络包含两个预测部分,一个用于属性识别任务,另一个用于身份分类任务。给定输入的行人图像,APR网络首先通过CNN提取器、ф提取人的特征表示。随后,APR根据图像特征预测属性。在这里,通过属性预测和地面真相标签来计算属性损失。而本地属性有益于全局识别,将属性预测作为身份预测的其他线索。具体来说,为了更好地利用属性,给定输入图像,APR网络首先计算M个单独的属性损失。然后,将M个预测得分连接起来,并输入到属性重加权模块(ARM)中。然后将ARM的输出与全局映像功能连接起来,以进行ID损失计算。最终识别是建立在连接的局部全局特征基础上,如图1所示。
图1 APR网络概览
3.2.2 优化
为了利用属性数据SA作为Re-ID任务的辅助注释,提出了属性行人识别(APR)网络。在身份集SI和属性集SA的组合数据集S上训练APR网络,即S={(x1,y1,a1),...,(xn,yn,an)}。对于行人图像xi,首先通过嵌入函数ф(θ;xi)提取图像特征表示。根据图像表示ф(θ; xi),同时优化两个目标函数:
属性预测的目标函数,属性预测是输入图像特征上的一组属性分类器获得的,即{fAj(wAj;ф(θ; xi))}。然后,针对与等式相同的属性预测优化目标函数。
识别的目标函数,为了能够将属性引入身份预测,则通过收集属性预测的方法即{fAj(wAj;ф(θ; xi))},并将属性重加权模块对其进行加权。结合重新加权的属性预测ai和图像全局特征ф(θ;xi)来形成局部全局表示身份分类。因此,具有以下用于身份预测的目标函数:
总体目标函数,考虑到属性识别和身份预测,定义了所有对象。功能如下:
在实验中,分别采用ResNet-50 和CaffeNet作为CNN骨干。网络由ImageNet预先训练的模型初始化。以ResNet-50为例,在pool5层之后附加一个512维的全连接层,然后添加批处理归一化,这是一个具有0.5的跌落率和ReLU的退出层。512维的完全连接层与27维(对于Market-1501)属性预测核心串联。539维(512+27)功能用于身份分类。基于CaffeNet的实验也以类似方式进行。最后,使用具有k个类节点的分类层来预测身份。对于每个属性,在“pool5”层之后采用完全连接的层作为属性预测的分类器。当评估APR网络在此处的ID任务时,将嵌入特征的垂直连接和加权属性预测作为每个图像的最终特征表示。在Market1501的经验研究中,通过将阈值设置为0.7,检索过程加快了10倍以上,但准确率降低了2.92%。
在深度学习的基础下,通过讨论属性学习的集成来改进Re-ID。将属性标签和ID标签进行补充,提出了一个属性人识别(APR)网络,ARN网络学习Re-ID嵌入并在相同框架下预测行人属性。系统地研究了人员Re-ID和属性识别如何相互受益。还考虑到人的属性之间的依赖性和相关性,对属性预测重新加权。为了展示方法的有效性,在两个大型Re-ID基准测试中的实验结果表明,与最新技术相比,APR通过学习更具区分性的表示,可以实现具有竞争力的Re-ID性能。还使用APR加快了Re-ID的检索过程三倍以上。在后期可以研究行人属性的可传递性和可伸缩性。例如,可以将Market1501上学习的属性模型改编为其他行人数据集。其次,也可以研究属性检索相关行人图像的系统。