人机协作的行人重识别

2022-03-21 03:49刘勇飞
关键词:集上行人卷积

杨 帆,刘勇飞

(1.青海师范大学 计算机学院, 青海 西宁 810016;2.青海建筑职业技术学院,青海 西宁 810012)

1 引言

行人重识别作为一个特定人检索问题,在跨非重叠摄像机网络中已经得到了广泛的研究.给定一个感兴趣的人或者嫌疑人的查询,重识别的目标是确定这个人是否在不同时间出现在另一个地方,而捕获到的影像来自不同的摄像头.由于公共安全的紧迫需求和日益增加的监控摄像头,行人重识别是智能监控系统的重要组成.近几年在视觉领域的研究比重不断提升,成为了一个研究热点.行人重识别对于嫌疑人定位、跨区域人员跟踪等应用都有重要意义,在智能监控、公共安全、刑事侦破等应用领域都有非常重要的价值.在深度学习技术出现之前,早期的行人重识别研究主要集中于如何手工设计更好的视觉特征和如何学习更好的相似度度量.

随着深度学习的蓬勃发展,行人重识别技术在一些广泛使用的数据集上[1-4]也有了很大幅度的识别性能提升.近几年,以卷积神经网络为代表的深度学习在计算机视觉领域取得了极大的成功,在多项任务上都击败传统的方法,甚至一定程度上超越了人类的水平[5-6].在行人重识别问题上,基于深度学习的方法可以自动学习出复杂的特征描述,并且用简单的欧氏距离进行相似度度量便可以取得很好的性能.换句话说,深度学习可以端对端地实现行人重识别任务,这使得任务变得更加简单.从客观角度看,行人重识别任务也是面临诸多挑战,不同视角的图像,变化的光照以及不同摄像机的分辨率差异,行人变化的外观和姿态,遮挡等等.早期的研究主要关注手工特征的提取或者距离度量学习.然而,在面向研究和实际应用之间仍然有相当大的差距[7].

当下,大多数学者研究的是封闭世界的行人重识别任务,对于数据集是否是异质数据、标注是否完备、是否含有噪声等几个方面[8],这些因素都和开放的接近真实世界的情况有很大的差异.目前大部分数据集直接将检测出来的行人图片作为训练集和测试集,并且剔除了一些遮挡较严重的低质量图片.行人重识别技术将行人检测结果作为先验知识,直接对行人图片进行跨摄像头检索.本文提出一种新颖的人机协作的行人重识别方法,在原始的图像或视频上,应用改进的目标检测算法YOLO V3[9]把视频帧中的行人都检测出来,然后对于特定行人进行查询.在检索行人的过程中,可以加入人的认知和判断,对于识别出的图库中的待查询目标给出匹配结果,操作专家可以通过交互界面对匹配的错误进行修正,进而提高识别精度.由于人类生活的高度不确定性以及人类所面临问题的开放性,人类在处理变化以及复杂问题等方面具有自然的优越性,无论深度学习算法多么成熟,还不能完全脱离或取代人类.本文提出了人机协作的行人重识别框架,融合人的认知智能和经验判断,为解决现实环境中的开放问题提供了新的模式.并对智能算法给出的相似度匹配结果,以一个专家小组进行少量反馈的形式给出决策,提高了行人重识别的精度.在两个公共数据集上,本文提出的人机协作的行人重识别方法和一些先进的方法做比对,有相当幅度的性能提升.

2 行人重识别

行人重识别任务由两个部分组成:行人检测部分和行人重识别部分.对于行人检测部分,基于部件的检测方法[10]、基于一阶信息聚合通道特征的检测[11]方法和Checkerboards[12]是行人检测部分使用的传统方法,这些方法使用手工设计做特征提取,通过线性分类器来实现行人的检测.基于部件的检测方法采用了方向梯度直方图特征,并且在基础上改进了方向梯度直方图特征,取消了Block并且将8×8的单元区域作为一个整体进行归一化,在每个单元使用支持向量机算法加权叠加单元的梯度方向,从而计算出行人可能存在的区域.ACF通过计算输入图像的三个通道的Block之和,获得单个像素在不同通道的累计搜索表作为行人的特征,然后使用决策树进行行人的分类与检测.Checkerboards方法是对于提取到的底层特征进行滤波,增加一个中间层从而提高行人检测率.近年来,深度学习飞速发展,卷积神经网络[13]的出现以及在图像特征提取上表现出的强大能力吸引了越来越多的研究者将其应用于行人检测中.Hosang等人[14]建立了基于CifarNet的CNN行人检测模型,模型的输入由传统的人工设计特征改变为RGB三通道的图像,这是一个极大的改进,意味着不再需要手工设计复杂的特征.并且,他对于各种因素,包括proposal提取策略、CNN模型结构、参数设置、数据处理和各种训练tricks进行了实验探究.Tian等人[15]利用场景属性提高行人检测精度,将行人以及场景属性标签输入卷积神经网络,多任务进行模型的训练.模型充分利用了行人属性以及场景属性的联系,将两种属性结合,利用语义信息的相关性,去除了行人周围含有的部分干扰信息.Cai等人[16]提出了一种感知增强算法,用于卷积神经网络级联检测器的训练,从而在精度和速度上实现最佳权衡.目前基于卷积神经网络的行人检测算法大致能够分为两类:二阶段基于候选区域的目标检测器和一阶段单次目标检测器.二阶段基于候选区域的目标检测器是比较早提出的,主要包括R-CNN以及基于R-CNN的各种改进的目标检测神经网络,通过不同的region proposal策略或者内部深层网络创建行人检测的感兴趣区域,使用ROI Pooling方法将特征图上的感兴趣区域转换为大小一致的特征图,并将特征图传递到后面的fc层进行行人分类和定位.一阶段单次目标检测器主要包括SSD、YOLO及YOLO升级版本,去掉了两阶段算法的候选区域部分,在一次步骤中实现对目标的分类和定位,由于去掉了区域提名部分,并且只使用全局特征,一阶段算法在定位精度上稍有下降,但是节省了大量的计算资源,并大大提高了行人检测的速度,促进了实时行人检测应用的落地.

对于行人重识别部分,传统的行人重新识别方法是手工的识别特征[17],多相机的特征提取变换[18]和距离度量学习[19].近年来,越来越多的学者使用深度学习的方法完成行人重识别的任务.Li等人[3]首次将深度学习应用于行人重识别问题中,提出了一种名为FPNN的神经网络,自动学习行人最佳特征以及光度和几何变换特征,超过了当时最先进的方法.Ahmed等人[20]为行人设计了一种特定的卷积神经网络模型,模型的输入是两张经过裁剪后的照片,将二进制验证作为损失函数,通过该损失函数完成参数的训练,最后输出两个行人的相似值,并且,网络加入计算交叉输入邻域差的层,捕捉输入图像的局部关系.Ding[21]和Cheng等人[22]使用三重态样本来训练卷积神经网络,做到了使同一个行人的样本图片的特征距离尽量的小,同时使不同行人的样本图片的特征距离尽量的大,能够更好地聚合样本空间的相同行人,分散样本空间的不同行人,从而提高行人重识别的精度.除了使用成对或三重损失函数外,Xiao等人[23]提出通过对身份进行分类来学习特征,将多个数据集组合在一起,并使用源域指导神经元随机丢弃策略优化模型的训练过程,从而提高网络模型的跨域能力.Zheng等人[24]为行人重识别提供了新的大型基准数据集,他们利用分数再加权的方式建立模型,分别完成了行人检测和重识别部分.2019年,Luo等人完成了一个精度更高的行人重识别baseline,仅仅使用一个全局特征,将50层的残差神经网络作为特征提取的骨干,并且在模型训练过程中,使用了一些基本不增加模型复杂度的Tricks,在目前使用最多的Market1501数据集上的Rank-1超过了百分之九十,平均检测精度达到了85.9%,超过2018年最好方法五个百分点.

行人检测与行人重识别技术作为子问题分别发展的同时,有不少研究者也提出了端到端的行人重识别方法.2016年Xiao[25]等人提出了一种端到端行人重识别模型并于2017年进行了改进,采用五十层的残差神经网络作为特征提取的基础,原始像素通过特殊的Stem CNN结构提取卷积特征图,之后经由行人候选框生成网络完成候选行人的边界框的产生,经过ROI池化操作将特征图固定到一致大小.随后使用L2正则化方法,将前面所有的候选行人边界框处理为256维的特征向量.在训练阶段,提出了一种在线实例匹配来训练模型,在一次前向传播过程中完成行人的检测与识别,极大地提高了行人搜索的精度与速度.2019年Han[26]等人提出了一种基于行人重识别的检测结果位置修正模型,通过ROI transform layer 对检测到的行人进行修正,针对拍摄到的倾斜的行人,学习其仿射变换规律并进行调整,在训练阶段放弃了经常使用的回归损失,而是提出了一种新的名为proxy triplet loss的损失函数,并结合softmax损失函数共同完成模型的训练,在CUHK-SYSU数据集上达到了94.2%的Rank-1精度和93.0%的平均检测精度,在PRW数据集上达到了70.2%的Rank-1精度和42.9%的平均检测精度.

3 人机协作行人重识别框架与实现

3.1 框架设计

本文提出的人机协作的行人重识别架构如图1所示,由行人检测和行人重识别两个模块组成.行人检测部分与传统行人重识别流程相似,即将视频切分成视频帧,然后使用目标检测算法检测出视频帧中所有行人.

图1 人机协作的行人重识别架构

与之不同的是,在行人检测模块检测行人时,模型会计算出每一帧检测出的所有行人的重叠程度,使用IOU指标作为衡量,IOU计算如式(1).

(1)

IOU是预测行人框的交并比,当IOU大于设置的阈值时,可以认为检测的行人发生了重叠,对于重叠的裁剪行人图片,模型交由人去处理,人可以选择自己进行判断,直接给出是同一个行人或者不是同一个行人的反馈结果,当行人图片由于分辨率过低等原因,人无法给出准确判断时,人可以选择将图片再次反馈给模型,进行模型的重识别.最后,模型会将人的判断结果以及机器的识别结果进行融合,给出最终的行人重识别结果.结果融合策略制定如下:

(1)若模型得到人的反馈是同一个行人,那么模型将此张行人照片的置信度标记为最高,并将这张图片排在rank list中的第一位.

(2)对于不同帧的行人,若模型得到多个反馈均为是,则将新判断的图片放置在rank list的第一位,rank list已存在的图片依次后退一个位置.

3.2 行人检测

我们使用改进的YOLO V3网络去检测视频帧中的行人,把每一个行人用一个边界框显示.

3.2.1 网络结构

我们的行人检测结构如图2所示,网络的输入是416×416尺寸的三通道图片,使用在ImageNet数据集上预训练的Darknet-53作为特征提取的骨干网络,经过一系列卷积操作和上采样合并之后,提取到13×13×18、26×26×18、52×52×18三种不同尺度的特征图,每个尺度的特征图设定3种大小的先验框,即一共生成9种不同的anchor box,然后使用多个独立的logistic分类器进行类概率的预测.

Conv是检测模块的基本组件,包括卷积层、归一化层和激活函数层,卷积层的卷积核有3×3和1×1两种尺寸.BN层是对特征进行归一化处理,将数据处理为平均值为零、方差为1的稳定的分布,能够加快网络的训练、防止过拟合以及梯度爆炸现象.

图2 行人检测模块网络结构

在行人检测模型中,首先输入416×416×3的图片,经过32个3×3×3的卷积核提取特征输出416×416×32的特征图,然后经过64个3×3×32的卷积核提取特征得到208×208×64的特征图,将208×208×64的特征图传递到Resdual block,经过两个卷积层得到同样大小为208×208×64的特征图,将新得到的特征图与原特征图进行ADD操作,即两个特征图融合,维度没有发生变化,仍然为208×208×64.此后特征图依次经过2个、8个、8个、4个Resdual block,在每部分Resdual block特征输出之后,进行下采样操作,分别是2倍下采样、4倍下采样、8倍下采样、16倍下采样、32倍下采样.

3.2.2 损失函数

行人检测模块总体损失函数如式(2)所示.

Loss=λcoord×LossXY+λcoord×LossWH-LossConf-LossClass

(2)

其中:LossXY表示预测框的中心坐标损失,LossWH表示预测框的宽高损失,LossConf表示预测框的IOU损失,也可以称之为置信度损失,LossClass表示预测框的类别损失,IOU损失和类别损失使用交叉熵损失.在实验中,考虑到预测框的位置信息比较重要,因此设置为5,为了增大预测框位置信息的贡献;考虑到在计算IOU损失时使用相同的权值会使不包含物体格子的置信度为零,从而增大了正样本的影响,为了避免负样本过多影响模型的效果,设置为0.5.

LossXY如式(3)所示:

(3)

LossWH如式(4)所示:

(4)

LossConf如式(5)所示:

(5)

LossClass如式(6)所示:

(6)

3.2.3 参数设置

在模型训练过程中,共进行了40000轮迭代,学习率使用学习率衰减策略,用于加快损失函数收敛,同时改善梯度下降无法收敛到最优点以及出现收敛到全局最优点时摆荡的问题.前10000轮迭代设置的学习率为0.001,后30000轮迭代学习率逐渐减小为0.0005.经过多次的实验,当batch size设置为32时,行人置信度阈值设置为0.1,NMS阈值设置为0.6,识别性能最优.

3.2.4 非极大抑制

非极大抑制是一种数据空间极大值寻找的算法,并且能够去除周围非极大值,被广泛应用于计算机视觉中目标识别、关键点检测、边缘检测等领域.在行人检测中,目标检测算法会在一张图片上输出很多行人检测的候选检测框,即每个候选检测框可能都包含了某个身份的行人,并且每个检测框都会得到一个置信度,然而这些候选检测框会出现重叠的情况,非极大抑制要做的就是通过算法删除那些多余的框.假设在行人检测算法后得到N个框,每个框被行人检测算法计算得到的置信度为Ci,i的范围在1到N之间.首先初始化两个集合S与T, 集合S用来存放所有的行人候选框,初始化为具有N个行人候选框的集合.集合T用来存放行人检测最优框,初始化为空集.将集合S中的所有行人候选框进行降序排序操作,得到降序排序首位置的行人候选框 s,则在集合S中删除该候选框,并且在集合T中添加该候选框.遍历集合S中的框,分别与框s计算交并比,如果高于一个提前设定好的值那么就会判断为与s发生了重合,在集合S中删掉该预测框.然后继续在集合S中选择降序排序首位置的行人候选框,不断进行该操作,到集合S中不再包含图片.

3.3 行人重识别

我们利用ResNet50网络架构进行行人重识别,当给定一个行人查询query后,在行人检测生成的gallery图库中进行相似度匹配计算.

3.3.1 ResNet50网络结构

ResNet50的网络结构图如图3所示,ResNet50的输入是224×224的三通道图片,第一个卷积层由64个卷积核组成.卷积核大小为7×7,输出的特征图大小为112×112×64,然后经过一个最大池化层,Stride为2,输出的特征图为56×56×64,此后依次经过3个、4个、6个、3个Building Block,输出的特征图大小分别为56×56×256、28×28×512、14×14×1024、7×7×2048,值得说明的是在第二个Building Block、第三个Building Block和第四个Building Block的第一个unit单元的Stride设置为2,特征图大小依次减小为四分之一、十六分之一和六十四分之一.在实验中,考虑到较高的空间分辨率始终会具有丰富要素的原因,所以将第四个Building Block的第一个unit单元的Stride设置为1,增大了输入到平均池化层的特征图的大小,该操作仅增加非常轻的计算成本,并且不涉及额外的训练参数.最终特征图经过平均池化与全连接层输出1×1×2048的特征.

图3 行人重识别模块网络结构

3.3.2 损失函数

行人重识别模块总体损失函数如式(7)所示.该损失函数由三部分组成,第一部分是LID行人类别损失,第二部分是LTriplet三元组损失,第三部分是LCenter中心损失.β是一个平衡比例系数,在实验中设置为0.0005.

Loss=LID+LTriplet+βLCenter

(7)

(8)

LTriplet表示三元组损失,如式(9)所示.其中dp和dn是正对样本和负对样本的特征距离.α是三重态损失的余量,[z]+等于求z和0的最大值.在实验中,α设置为0.3.但是,三重态损耗仅考虑dp和dn之间的差异,而忽略它们的绝对值.例如,当dp=0.2,dn=0.4时,三重态损耗为0.1.对于另一种情况,当dp=1.2,dn=1.4时,三重态损耗也为0.1.三元组损失由随机抽取的两个人ID决定.

LTriplet=[dp-dn+α]+.

(9)

其中的三元组可以用固定图片、正样本行人照片(同一行人)、负样本行人(不同行人)照片表示.目的是使固定图片和与固定图片同一身份的行人照片之间的距离最小,而和不同身份行人照片的距离最大.

使用LCenter弥补三元组损失的缺点,LCenter表示中心损失,如式(10)所示.

(10)

其中:cyj表示第yj个类别的特征中心,ftj表示使用ResNet50提取的特征,这个公式就是为了使一个Batch中的每个样本的feature距离feature的中心距离的平方和达到最小.

4 实验与评估

4.1 数据集

目前行人重识别的研究大部分是基于裁剪好的行人照片,不包含行人的背景,由于本课题的定位是在具有复杂背景的场景下进行行人的重识别,所以目前存在的大部分数据集都不可用.因此,实验选择PRW和CUHK-SYSU这两个大型的包含完整行人背景及标签的数据集.PRW是在清华大学学者在校园内拍摄收集的数据集,共有6个摄像头进行拍摄,有16个视频帧序列;CUHK-SYSU是香港中文大学学者制作的数据集,由校园内拍摄的12490帧视频和5694帧电影片段组成.这两个数据集的场景十分具有挑战性,包括视角的变化、比较低的像素以及严重的遮挡.

实验数据集如表1所示,实验的训练集和测试集如表2所示.

表1 PRW和CUHK-SYSU数据集

表2 PRW和CUHK-SYSU训练集/测试集

PRW数据集有11816帧视频,其中包括43100个行人框和932个不同身份行人,训练集包括5704帧视频,18048个行人框和482个不同身份行人,测试集包括6112帧视频,25062个行人框以及450个不同身份行人,测试集和训练集分别占了总数据集的一半.CUHK-SYSU数据集有18184帧视频,其中包括96143个行人框和8432个不同身份行人,训练集包括11206帧视频,55272个行人框和5532个不同身份行人,测试集包括6978帧视频,40871个行人框和2900个不同身份行人,训练集大约是测试集的两倍.值得说明的是,CUHK-SYSU数据集中的训练集和测试集每次查询的行人只有一张该行人的图片,而PRW数据集对于每个身份的行人平均有三到四张不同摄像机不同视角拍摄的照片,可见PRW数据集更适合做多视角行人特征的训练和测试.

4.2 实验评估指标

在本文的实验中,采用两个评估指标来评估模型的好坏,即累计匹配特性曲线(CMC)和平均检测精度(mAP).第一个被广泛用于行人重识别研究中.第二个是受对象检测任务启发的,根据精度召回曲线,为每个查询计算平均精度(AP),然后对所有查询的AP求平均值,以获得最终结果.累计匹配特性曲线一般由rank-k表示,一般有rank-1,rank-5,rank-10等指标,rank-1识别率表示在所有行人查询中,行人重识别结果rank list中排在置信度最高位置的行人是正确行人的数量占所有查询数量的比例.Rank-5表示对于一个身份的行人,查询五次,若五次中查询到的行人包含了该行人,则累计数量加一,累计数量除以不同身份数量得到Rank-5识别率.Rank-10表示对于一个身份的行人,查询十次,若十次中查询到的行人包含了该行人,则累计数量加一,累计数量除以不同身份数量得到Rank-10识别率.在本实验中使用rank-1作为模型评价的指标.AP的计算如式(11)所示.当rank list大小不同时,模型的准确率和召回率也会不同,准确率是指找到的所有行人照片中真正含有目标行人的比例,而召回率是指找到的含有目标行人的数量占所有需要找到的行人总数量的比例,一般这两个呈现负相关的关系.直观来讲,当rank list比较小时,模型的准确率会相对较高,召回率相对较低,随着rank list的增大,模型的准确率势必会下降,与之对应的,召回率会上升.所以通过改变rank list的大小,可以获得一系列准确率和与之对应的召回率,绘制曲线求其积分便得到了此次查询的AP,平均所有查询的AP得到最终的平均查询精度.

(11)

recall表示增大rank list之后,对于一个身份行人查询的召回率,precision表示增大rank list之后,对于一个身份行人查询的准确率,old_recall表示增大rank list之前对于一个身份行人查询的召回率,old_precision表示增大rank list之前对于一个身份行人查询的准确率,这里计算了四者围起来的面积,累加获得最终的检测精度.

4.3 实验结果

4.3.1 不同模型的对比

表3 不同模型在PRW数据集的测试结果

表4 不同模型在CUHK-SYSU数据集的测试结果

实验对比的几个基准模型(见表3和表4):(1)ACF-Alex+IDEdet+CWS是传统的方法,同时也是PRW数据集的作者使用的方法,在PRW测试集上只达到了45.2%的Rank-1和17.8%的平均检测精度,检测效果还是不太令人满意.(2)CLSA行人检测模块采用Faster R-CNN作为行人检测器,在行人重识别模块,提出一种端到端多尺度特征检测,建立特征金字塔,在PRW测试集上达到了65.0%的Rank-1和38.7%的平均检测精度,在CUHK-SYSU数据集上达到了88.5%的Rank-1和87.2%的平均检测精度,检测精度大大提高.(3)MGTS行人检索看成两个阶段,认为分离的检测器和re-ID特征提取能够产生更高的性能,行人检测模块采用Faster R-CNN作为行人检测器,行人重识别模块提出了一个基于Mask-guided的双路CNN模型,一个分支是通过输入原始图像,输出检测后的行人候选框,另一个分支是通过预训练实例分割模型,提取原始图片的行人二值化掩膜,在PRW测试集上达到了72.1%的Rank-1和32.6%的平均检测精度,在CUHK-SYSU数据集上达到了83.7%的Rank-1和83.0%的mAP,检测精度达到了较高程度.

从实验结果可以看出,人机协作行人重识别方法(Human-machine cooperative person re-identification,HMCP)在PRW数据集上达到了74.0%的Rank-1以及45.2%的mAP,在CUHK-SYSU数据集上达到了94.6%的Rank-1以及93.8%的mAP.由数据可知,人机协作的方式在PRW数据集上有更好的表现,这是因为PRW数据集相比CUHK-SYSU数据集,具有较多的拥挤的场景,传统的方法或深度学习的方法并不能很好的处理遮挡的情况,而人却可以很轻松地通过行人其他未被遮挡的特征来进行判断,所以人机协作方式在处理现实问题时会有更好的表现.

4.3.2 不同重叠阈值对行人重识别结果的影响

前面已经提到,人机协作的方式对于行人重识别问题是有效的,显而易见地,人对于重叠行人照片判断的数量越多,即人的工作量越大,模型的精度就会越高,那么,设置多大的阈值会最大程度地发挥人的作用呢?针对此问题,通过探究实验,设定不同的IOU阈值探究对工作量和精度的影响.图3显示了重叠行人框数量随不同IOU阈值的设置变化曲线,可以看出PRW数据集和CUHK-SYSU数据集重叠行人框数量变化趋势基本相似,都随着阈值的增大呈降低趋势,并且降低的速度先慢后快再变慢,IOU阈值在小于0.2时,重叠行人框数量在较高的水平,0.2到0.3重叠行人框数量急剧下降,到0.3之后重叠行人框数量变化趋于平缓,到0.6以上基本为0.由此可以得知,发生重叠的行人框的重叠IOU大部分在0.3以上.

在PRW数据集和CUHK-SYSU数据集上的平均检测精度随IOU阈值设置变化曲线如图4和图5所示,可以看出,随IOU阈值的增大,mAP呈下降趋势,并且下降的速度呈现先慢后快再慢的趋势.分析可知,当IOU阈值设置较小时,输出的发生重叠的行人裁剪照片较多,通过人的处理,可以使模型的mAP 最高达到48%,随着IOU阈值的增大,平均检测精度会有一定程度的减小,IOU阈值设置为0.2和0.3时,平均检测精度仍然在较高的水平,当IOU阈值设置超过0.4时,可以看到mAP有明显的大程度的降低,这是因为IOU阈值超过0.4时,输出的发生重叠的行人裁剪照片处在较低的数量,而当IOU阈值超过0.2时,其实行人裁剪照片已经存在大量的重叠遮挡了,大量的存在重叠的行人裁剪照片没有输出进行人为的判断,然而机器对于重叠部分稍大的行人裁剪照片识别效果又不佳,导致mAP在IOU阈值处有较大的下降(见图6).当IOU大于0.5时,因为输出的发生重叠的行人裁剪照片数量较低,所以人进行判断的数量也比较少,因此mAP逐渐接近在没有人为判断步骤的模型的mAP.

图4 重叠行人框数量随IOU阈值变化曲线 图5 PRW数据集上mAP随IOU阈值变化曲线 图6 CUHK-SYSU数据集上mAP随IOU阈值变化曲线

4.3.3 不同重叠图片输出分辨率对专家小组识别效果的影响

行人检测模块输出的重叠行人检测框具有不同的分辨率,过低分辨率的重叠行人检测框并不具有专家识别的价值,即专家小组也不能给出正确的判断,从而浪费大量人力资源,而重叠图片分辨率的输出阈值过高又会漏掉一些关键的行人,降低检测到的精度.因此,我们在PRW数据集上做了重叠行人照片输出最低分辨率与专家正确判断数量占重叠目标行人数量比例的探究实验.

根据实验结果可知,随重叠行人照片输出最低分辨率设置的增大,专家正确判断占比呈现先上升后下降的趋势,分析可知,当输出最低分辨率较小时,专家小组容易出现误检的情况,导致正确判断数量占比略低,而输出最低分辨率较高时,重叠行人库中漏掉了大量轻度重叠的目标行人,导致专家正确判断占比迅速降低.因此,选择3000作为重叠行人照片输出的最低分辨率,可以输出尽可能多的具有识别价值的重叠行人照片,减少误检漏检的情况,充分发挥专家小组的作用,有效的消除了无效处理数据,提高了检测的性能.

5 结束语

本文提出了一种人机协作的行人重识别方法,在改进的行人检测的基础上,当给定一个特定身份的行人,融入人的智能对生成的行人边界框进行识别.由于生成的行人边界框和视频中的行人重叠程度有密切关系,所以用IOU作为生成行人边界框的阈值.通过实验,IOU取值为0.3是一个合理的取值,可以生成较少的行人边界框,进而可以和查询的特定行人进行相似度匹配,通过和一些先进的方法进行对比,我们提出的人机协作行人重识别方法性能更好.同时,人机协作的机制为深度学习技术拓宽了解决复杂问题的探索,是一种新颖有效的方法.

猜你喜欢
集上行人卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
毒舌出没,行人避让
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
分形集上的Ostrowski型不等式和Ostrowski-Grüss型不等式
从滤波器理解卷积
路不为寻找者而设
基于傅里叶域卷积表示的目标跟踪算法
我是行人
曝光闯红灯行人值得借鉴