基于深度学习的行人重识别研究综述

2021-01-19 11:00庄珊娜王正友
计算机与数字工程 2020年12期
关键词:行人聚类标签

孙 鑫 庄珊娜 王正友

(1.石家庄铁道大学信息科学与技术学院 石家庄 050043)(2.河北省电磁环境效应与信息处理重点实验室 石家庄 050043)

1 引言

人工智能系统可感知环境并为执行特定任务而采取行动[1]。计算机视觉通过计算机获取有效视觉信息,是人工智能的核心元素之一,在工业、农业、交通、医疗等领域广泛应用,并不断推进产业智能化。行人重识别[2~5]技术是当前计算机视觉研究的热门方向,为图像检索问题,即根据行人的衣着、姿态、发型等信息从非重叠摄像机视角下的行人图像库中找到与某行人属于同一身份的图像。实际中,监控视频被采集于不同场景,由于光线、检测、跟踪的误差、遮挡和背景杂波等因素,图片中行人外观常存在严重变化。另一方面,受限于视频监控探头的安装高度及密度,实际拍到更多的是行人的头顶、背部或侧脸。此外,即使拍到行人正面,由于距离、行走速度等原因,也可能导致拍摄图像模糊不清。加之各种摄像机分辨率也不尽相同,给行人重识别带来了极大挑战。

针对行人重识别的研究起始于20世纪90年代中期。研究者们借鉴并引入了图像处理和模式识别领域的成熟方法,侧重研究行人的可用特征与简单分类算法。传统行人重识别方法采用多种手工标注的特征,如颜色[6]、纹理[7]和渐变[8]等,在小型数据集上取得了一定的成效。但由于手工标注数据耗费巨大,并不适用于大规模搜索。类似的限制也发生在通过优化特征距离函数的传统距离矩阵学习方法上[9]。因此,随着数据量的逐渐增大,传统方法的泛化能力局限性愈加突显。

随着深度学习的兴起[10~12],文献[13]和[14]首次引入卷积神经网络(Convolutional Neural Network,CNN)处理行人重识别问题,迅速成为行人重识别问题的主流研究方向。深度学习一方面可更有效地提取特征,且可根据目标变化自适应调整,另一方面具有丰富的架构和较强的学习能力,可通过线性或非线性映射进行目标识别。目前已有大量研究工作利用深度学习网络提高行人重识别准确率[15],本文着重围绕2018-2020年期间深度学习应用于行人重识别的研究成果进行梳理和介绍。

2 深度学习的常用方法

在深度学习应用到行人重识别初期,大多研究者使用有监督学习网络模型,即采用标记数据训练网络,以有效提升识别准确度。然而随着数据量的不断增大,数据标记工作耗费巨大,研究者们对无监督学习的研究逐步深入。无监督学习无需标记数据,为行人重识别提供了更好的可扩展性,有利于实际应用。本节将从有监督与无监督深度学习网络模型两方面对行人重识别研究状况展开论述。

2.1 有监督学习

在行人重识别问题中,特征相似度是判断不同图片中行人是否属于同一身份的依据,故特征提取尤为重要,有监督学习可利用标注信息有效提取判别力较强的特征。本节将分别从基于局部分块,基于细粒度信息,基于注意力机制以及基于对抗生成网络(Generative Adversarial Network,GAN)[16]四个方面来介绍有监督学习行人重识别网络模型。

2.1.1 基于局部分块的行人重识别

解决行人重识别问题普遍需要获取全局特征,但全局特征的局部信息表示能力有限,辅以局部特征可为判别提供更多依据,从而提高行人重识别准确率。一方面,获取身体对应的局部特征可以解决空间错位问题。文献[17]和[18]采用分析图像结构的方法来获取特征对应的部分,例如头部、胸部、大腿和小腿,并分别提取每个部分的颜色特征进行匹配,但位姿估计误差会对判别结果产生较大影响。文献[19]使用基于CNN的姿态估计器提出了动作框融合(PoseBox Fusion)网络,并引入置信度,减轻了错误姿态估计的影响,同时获取人体不同部位的信息,将之进行组合获取准确丰富的特征。但通常预训练数据集与目标数据集存在一定差异,这类使用标注数据集预训练网络的方法泛化能力不足。文献[20]提出了水平金字塔匹配(Horizontal Pyramid Matching,HPM)方法,将一张行人图片水平进行分割为1、2、4、8个子部分,分别利用各子部分训练网络提取子特征,最后将所有子特征融合进行身份分类,提高了局部特征的鲁棒性,且可嵌入其他网络框架以获取性能的进一步提升。

2.1.2 基于细粒度信息的行人重识别

如何区分外观相似的行人是行人重识别的挑战之一,解决此类问题的关键是提取细粒度信息,诸如姿态估计、人体解析等。文献[21]提出了语义紧密一致(Densely Semantically Aligned)网络模型,将人体特征映射到三维空间,人体表面被分成24个部分获取细粒度语义信息,但该方法往往需要同一人的正反面图片,有一定局限性。文献[22]提出了一种类激活映射方法,通过重叠激活惩罚(Overlapped Activation Penalty)损失函数来判断激活区域,不断扩展CNN的空间感知范围。文献[23]提出交互聚合模块(Interaction-and-Aggregation Block,IA-Block)可用于任意CNN层,不仅可获取像素级别的细粒度信息,还可引入通道信息,以此获得更全面的特征表示。与前文所述针对图片本身的方法不同,文献[24]提出对行人进行属性标注,如“粉色短裙”等,并推导了属性间的相关度信息,证明了属性标注信息可与身份标签互补,进一步提升行人重识别的准确率。文献[25]同样将属性融入特征,提出了基于属性驱动的特征分离和时间聚合行人重识别方法,该方法在空间上对属性进行分割,并从时间上对属性预测概率进行聚合。

2.1.3 基于注意力机制的行人重识别

若用热度图显示特征激活分布图,可发现一般基线网络[26]总会选取人体最具判别力的部分作为行人重识别的判断依据,但研究者们并不希望只关注部分区域,而是能够提取出较为完整的人体信息,即寻找更多值得注意的区域。文献[27]使用注意力图判断未被注意到的区域是否包含能够提供判断依据的特征,以获取完整人体特征。文献[28]学习了多个预定义的注意力模型,每个模型对应一个特定的身体部位,之后通过时间注意力模型将这些部位模型的输出聚合起来。

由于存在摄像机视角、背景、光线亮度的差异,同一行人的外观在不同相机下差异较大,而且行人常被部分遮挡,也可采用注意力机制引导网络专注于需要注意的位置。文献[29]提出了动作引导的特征对齐(Pose-Guided Feature Alignment,PGFA)方法,通过标记地标来获取连接人体部位所在区域特征,最终使用融合特征结合水平分块进行相似度计算,但该方法仅关注未遮挡部分且只比较部分共享区域。文献[30]针对行人下半身遮挡问题,提出了时空补全网络(Spatio-Temporal Completion network,STCnet),空间生成器生成需要补全的帧,之后使用时间注意生成器找到相邻关键帧进行补全操作。

2.1.4 基于GAN网络的行人重识别

GAN网络也是常被用于解决行人重识别问题的方法之一。首先,GAN网络可处理图像补全问题,早期针对图像缺失问题,大多方法通过匹配和复制背景补丁[31~32]到缺失的区域来获得完整图像,但对大型数据集,匹配所用图片是通过随机搜索获得,效率较低。文献[33]使用完全卷积神经网络,通过填充任何形状的缺失区域来完成任意分辨率的图像,保持图像在局部和全局一致,为解决部分遮挡行人重识别问题提供了一种图像补全方式。其次,GAN网络可辅助生成更多样本,文献[34]提取数据集中人体的姿态,利用GAN网络生成具有其他相机风格与不同姿态的逼真样本来丰富训练集,解决了因缺乏不同姿态的行人训练数据而导致难以匹配的问题。文献[35]提出统一网络中的判别式和生成式学习网络(Discriminative and Generative Learning in a Unified Network,DG-Net),分别提取行人的结构与外观特征,再进行交叉组合,一方面丰富了样本,另一方面可挖掘与服装无关的身份属性。

2.2 无监督学习

随着行人重识别模型对可扩展性要求的提高,有监督学习需要付出较大代价完成手工标注,不利于实际应用,为此研究者们提出了多种无监督学习算法,下文将分别从基于聚类、基于软标签和基于Tracklet的无监督行人重识别模型三个方面对无监督学习行人重识别网络模型研究现状展开介绍。

2.2.1 基于聚类的行人重识别

基于聚类的行人重识别方法通常会根据图像特征进行聚类操作,并基于聚类结果为图片标注伪标签,为特征提取提供一定判断依据。文献[36]提出了一种自下而上的聚类方法,首先将每张图片均视为一个单独个体,即属于不同身份(类),最大化类的多样性,之后通过聚类,逐渐将相似样本归为同一个身份,增加了每个身份内部的相似性。但该方法没有考虑跨相机的差异,无法准确匹配同一个人跨相机的身份标签。为获取更细致的特征,文献[37]提出了一种自相似分组(Self-similarity Grouping,SSG)方法,利用未标记样本的潜在相似性(从全局到局部),将图片分为整体、上、中和下四个区域自动构建多个集群。为了更加灵活地划分区域,文献[38]通过定位网络将人体进行分割,提出基于块的无监督学习(Patch-based unsupervised learning,PBUL)框架,不仅单独针对相应的分割部位进行聚类,同时也对整体进行聚类,最后将全局与局部结果相结合进行判别。

2.2.2 基于软标签的行人重识别

在缺乏标记数据且行人重识别应用场景各异的情况下,使用迭代聚类和标注软标签是目前较有效的两类方法,但迭代聚类的聚类数量通常难以确定,此外,聚类误差易导致错误的伪标签和训练损失。以相似度为依据计算目标图片中行人属于某身份的概率,并以此作为图片软标签,可避免错误伪标签带来的损失。文献[39]提出软多表示学习(Soft Multilabel Reference Learning)方法,首先将无标签的目标图片与辅助域中的数据进行比较,选择相似的图片作为已知参考人得出参考代理,然后根据图片与代理的相似度为每个无标签目标学习软多标记。文献[40]将提取的目标图片特征存储到特征空间,计算任意两特征之间的相似性,之后降序排列,选取前K张图片获取候选人列表,并标记为依赖集,视作同一身份并为其标注软标签作为后续特征提取的依据。

2.2.3 基于Tracklet的行人重识别

值得注意的是,当无监督行人重识别方法应用到视频数据集时,可提取行人所在的多个连续帧,记为一个Tracklet(关联轨迹),提取Tracklet的同时可获取相机标签信息(Tracklet来自同一视频),此时无监督行人重识别任务转换成无监督Tracklet识别问题。文献[41]提出了一种无监督Tracklet关联学习框架,通过学习相机内部以及跨相机Tracklet的关联性,为每个相机建立内部Tracklet标签空间,同时在全局寻找相似的Tracklet,即跨相机寻找属于同一身份的Tracklet。文献[42]提出了一种新颖的Tracklet自监督学习方法,利用大量未标记Tracklet数据,依次通过Tracklet帧一致,Tracklet邻域紧凑以及Tracklet聚类三种方法完成行人重识别任务。

3 常用数据集介绍及实验比较

3.1 常用数据集

根据采集形式不同可将行人重识别常用数据集分为两种,图片数据集有:CUHK03、Market-1501、DukeMTMC-reID、DukeMTMC-attribute和Market1501-attribute,视频数据集为:PRID2011、iLIDS-VID、MARS、和DukeMTMC-VideoReID。各个数据集包含至少两个摄像头以提供不同的视角,具有不同采样时间、地点、目标人群。

表1展示了近年来行人重识别领域常用数据集,包括五个图片数据集和四个视频数据集。表中分别展示了每个数据集的发布时间,身份数,图片数,相机数以及标注方式。其中DPM+GMMCP表示检测器自动切割[43]。

3.2 实验比较

常见的试验标准有Rank-n和mAP,其中Rank-n表示n张图片以内可找到正确图片的概率,mAP用来评估整个模型的平均性能。

表1 行人重识别常用数据集

表2给出了有监督学习在图片数据集上的实验表现,可以看出局部分块方法近几年进步最为显著,在Market1501数据集上Rank-1提升了15%左右。在Market1501数据集上,文献[21]取得了最好的效果,mAP达到了87.6%。在DukeMTMC-ReID数据集上,文献[44]取得了最好的效果,mAP达到了78.4%。

表2 有监督学习实验比较(图片数据集)

表3给出了无监督学习在图片数据集上的实验数据,可以看出无监督学习中Market1501数据集和DukeMTMC-ReID数据集使用较多。从2019年到2020年,在Market1501数据集上,mAP性能从38.3%提升到了68.3%,在DukeMTMC-ReID数据集上,mAP值提升了26.6%。其中使用聚类的无监督效果最好,提升最多。

表4比较了无监督学习在视频数据集使用三种方法的实验数据,可以看出现阶段针对视频行人重识别的无监督学习研究较少,大多使用MARS数据集。由于针对视频处理时,需从中提取关键帧,而提取过程未必完全准确,从而对模型的效果产生影响,故针对视频的行人重识别效果相比于针对图片行人重识别效果较差。另一方面,在使用视频数据集的行人重识别处理中,基于Tracklet关联是目前较常采用的方法,而其他方法则相对较少。

表3 无监督学习实验比较(图片数据集)

表4 无监督学习实验比较(视频数据集)

4 结语

深度学习在行人重识别问题上已取得较大进展,利用丰富的架构可提取更精确、更细致的特征,目前各数据集上的有监督行人重识别准确率均已较高,Rank-1可达95.7%。但仍存在一些方面有待进一步研究,如:

1)跨域识别。将训练好的行人重识别模型应用于另一场景时,场景之间的差异会导致网络性能大幅下降,研究如何增强行人重识别网络的可扩展性以及消除不同数据集差异的影响,可减轻在跨数据集时产生的识别性能下降问题,有待深入研究。

2)无监督学习。无监督学习无需数据标注且具有较高的可扩展性和可移植性,更适用于实际应用。但因缺少标记数据来引导网络训练,目前识别准确率较低,研究如何利用无监督网络提取高鉴别性的特征提高行人重识别准确率有利于增强深度学习网络的实际可用性,具有较高的研究价值。

3)网络复杂度。深度学习网络能够为行人重识别提供更具有鉴别力的特征,但实际情况中常存在诸如行人遮挡、分辨率低等问题,深度学习网络需要大量复杂的参数,其中不乏需要人工设定的参数。如何减轻网络复杂度,降低人工干预度,提高网络架构的自适应能力是一个值得进一步研究的方向。

本文主要围绕有监督学习与无监督学习梳理了2018-2020年行人重识别方面主要研究工作,列举常用数据集,介绍各类方法目前所能达到的识别效果,最后对行人重识别的未来研究方向做了简单分析和讨论。

猜你喜欢
行人聚类标签
一种傅里叶域海量数据高速谱聚类方法
一种改进K-means聚类的近邻传播最大最小距离算法
毒舌出没,行人避让
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
路不为寻找者而设
不害怕撕掉标签的人,都活出了真正的漂亮
我是行人
基于Spark平台的K-means聚类算法改进及并行化实现
让衣柜摆脱“杂乱无章”的标签
科学家的标签