张 雪,孟令灿,聂秀山
(山东建筑大学计算机科学与技术学院,济南250000)
近年来,智慧城市和智慧交通发展迅速,由于车辆是智慧交通的重要组成部分,使得车辆重识别成为智慧交通的核心技术之一,吸引众多学者对其展开研究。以往的研究工作大多依赖于各种非视觉传感器方法,如:Tong等[1]结合传感器数据和车辆的通过时间解决车辆重识别问题;Kwong等[2]提出了一种用于实时估计行程时间的实用系统,该系统通过结合传感器数据与无线磁传感器来解决车辆重识别问题。近年来,由于监视系统的广泛应用,基于视觉的车辆重识别越来越被关注。基于视觉的方法可分为两类:基于人工设计特征的方法[3⁃6]和基于深度特征的方法[7⁃10]。
基于人工设计特征的方法利用了图像中固有的属性。Feris等[3]使用特征库学习了包含数万个特征描述符的特征池进行大规模车辆检测,还能够对多种车辆模型进行显示的建模。Zapbone等[4]采用颜色直方图和线性回归的定向梯度直方图解决车辆重识别问题。Ojala等[5]提出了一种基于局部二进制模式的多分辨率方法,对于灰度变化具有良好的鲁棒性。Zheng等[6]提出了一种基于特殊属性的多姿态匹配和重新排序的方法解决车辆重识别的问题。
与传统的机器学习方法不同,深度卷积网络通过引入隐藏层来学习高级特征,以此提高泛化能力。基于深度学习的方法比传统方法获得了更高的精度,不仅在目标再识别任务上取得良好的性能,还可以推广到其他计算机视觉任务上。因此,基于深度学习的车辆重识别方法成为近年来的研究热点。Zhou等[7]提出了一种注意力多视点模型,该模型能够选择不同视点的关键区域,通过对抗性训练架构实现有效的多视点特征推断。Wang等[8]提出了一种多区域模型提取特征,同时设计了一种基于上下文的排名方法,考虑上下文和内容生成重排序列表,进一步提高了重识别的性能。He等[9]提出了一种新的框架,结合局部和全局约束进行端到端训练,通过引入检测分支将部件约束和全局重识别模块集成在一起。Chen等[10]提出一种端到端可训练的两分支分割和聚合的网络。通过三维分割策略,能够从图像的每个维度提取更多的局部特征。Liu等[11]提出了一种基于深度神经网络的渐进车辆重识别框架,不仅在大规模视频监控中利用多模态数据,同时也考虑在2个渐进过程中重新识别车辆。Huang等[12]提出了一种基于多粒度深度特征融合的车辆重识别方法,通过将全局特征和局部特征融合来集成不同粒度的有鉴别性的信息。
虽然对车辆重识别已经探索了很多年,但是与人的重识别问题相比,车辆重识别可能更具有挑战性,主要体现在:(1)类内差异性大,同一ID的车辆由于背景、拍摄角度、光照的不同,表现出较大的类内差异,如图1(a)所示;(2)类间相似性大,不同ID的车辆之间表现出较大的类间相似性,如图1(b)所示,很多相同型号、不同ID的车辆具有相似的视觉外观。目前大多数方法都只关注全局特征,在区分视觉相似的车辆方面不是很有效;相反,局部特征会包含更多的鉴别信息,例如纸巾盒、装饰品等细粒度特征,所以在关注全局特征的同时也需要通过视觉特征捕获细微的特征差异,因此应该融合全局和局部特征来进行车辆重识别。为了能够捕捉细微的特征差异,文献[13]中提出了BatchDrop Block(BDB)策略来解决人的重识别问题。受文献[13]的启发,本文提出了一个基于双分支网络特征融合的车辆重识别方法(Feature fusion double⁃branch network,FDNet)来解决车辆重识别问题。
图1 车辆类内差异性与类间相似性示意图Fig.1 Schematic diagram of intra⁃class differences and inter⁃class similarity of vehicles
本文提出的FDNet方法的网络结构如图2所示。该网络输入为P×K张车辆图像,其中P为车辆图像类别的数量,K为每个类别中的车辆图像的数量。该网络采用RestNet⁃50作为其主干网络,其中去除了RestNet⁃50在第3、4阶段的下采样操作,并将其修改为2个分支网络,包括全局分支和局部分支,以学习到更多具有代表性的特征信息。
图2 FDNet网络结构Fig.2 FDNet network structure
在全局分支中,首先将全局平均池化(Global average pooling,GAP)应用于从ResNet⁃50第4阶段获得的特征图中,以获得2 048维特征向量。然后,使用由1×1卷积层、批归一化层[14]和ReLU激活函数组成的降维模块将该特征向量的维数降为512维。最后将此512维特征向量作为全局特征向量。
在局部分支中,首先将从ResNet⁃50第4阶段提取的特征图输入到ResNet⁃50的Bottleneck模块[15]中,应用BDB策略在批处理中随机擦除相同区域的特征图。该方法中的BDB策略是受文献[13]的启发,可以在批处理中为输出特征图随机擦除相同的区域,以迫使网络从其他区域学习细节特征。其中Mask是由0和1随机生成的与特征图大小相同的矩阵,并且利用该Mask能够擦除特征图的相应区域。而且局部分支中使用全局最大池化(Global maximum pooling,GMP),这是因为GMP鼓励在擦除最具有描述性的部分后能够识别相对较弱的显著特征。局部分支的目的不只是关注主要的鉴别区域,而是关注多个特征区域。
上述过程之后得到一个新的特征图,将GMP应用于新的特征图中,得到一个2 048维特征向量。在局部分支中也使用了和全局分支相同的降维模块以获得1 024维向量,并将其作为局部特征。最后将全局分支和局部分支的特征连接成为车辆图像的特征向量。
本文FDNet网络优化目标函数采用圆损失项,同时使用分类任务和度量学习任务来训练FDNet网络,获得了具有较好区分性的特征表示。
给定车辆图像样本的特征向量x,其中正例样本为xp,负例样本为xn,通过余弦相似度式(1)计算得出x与xp之间的相似性分数,记为sp;通过余弦相似度式(2)计算得出的x与xn之间的相似性分数,记为sn。
式中:Lg,Lp分别为全局分支和局部分支的总损失;Lall为FDNet方法中的总损失;Tg,Tp分别为全局分支和局部分支中的圆损失项;λ1,λ2分别为Tg,Tp的权重,取值均为1。本文通过最小化损失项,并使用反向传播算法来优化FDNet的网络参数。
本文使用VeRi⁃776[16]和VehicleID[17]两个公开的车辆重识别数据集进行实验,并将FDNet方法与几种现有方法进行比较。实验使用Pytorch[18]深度学习框架,在装有Intel Xeon E5⁃2520 V 4 CPU(2.10 GHz)和NVIDIA Titan XP GPU(12 GHz)的服务器上实施。
VeRi⁃776数据集是在真实世界无约束场景中捕获的图像,由776辆不同车辆的49 357张图像组成,这些车辆在不同的方向和照明条件下用20个不重叠的摄像机拍摄。其中,576辆车的37 778张图像用于训练,200辆车的11 579张图像用于测试。
VehicleID是另一个用于车辆检索任务的大型数据集。该数据集由26 328辆不同车辆的221 567张图像组成。每个图像都带有一个与现实身份相对应的ID标签,有10 319辆车(共90 196张图像)具有车辆型号信息。VehicleID提供了3个不同大小的测试子集。其中小型、中型和大型子集分别包括800辆、1 600辆和2 400辆车辆图像。
本文方法采用ResNet⁃50作为主干网络。具体来说,用在ImageNet[19]数据集上预先训练的权重初始化ResNet⁃50中的层,并且用Kaiming[20]初始化剩下的层。对于输入图像,本文将VeRi⁃776数据集中的图像调整为256像素×128像素,VehicleID数据集中的图像调整为256像素×256像素;然后在训练中应用随机水平翻转及随机擦除[21]等一系列数据增强方法。在VeRi⁃776数据集中将批处理的大小设置为128(P=8,K=16),在VehicleID数据集中设置为96(P=24,K=4)。将BDB的高度和权重的擦除比设置为0.5。使用Adam优化器[22]对网络进行160轮的训练,初始化学习率为0.001;在第40轮和第80轮之后降低到以前的十分之一。对于圆损失,其超参数是在几次实验之后确定的,比例因子γ为64,松弛因子m为0.35。
检索任务中,通常使用平均精度(mean Average precision,mAP)和累积匹配曲线(Cumulative matching characteristics curve,CMC)两个指标评价算法的优劣。所以本文也采用mAP和CMC对所提方法进行评价。本文中的mAP是所有查询图像平均精度(Average precision,AP)的平均值,定义为
式中:n为候选图像的数目;N为候选库中正确目标图像的数量;P(k)为检索结果前k个的准确率;t(k)为指标函数,当第k个图像匹配正确时,t(k)=1,否则t(k)=0,则mAP的定义为
式中Q为查询图像的总数量。
CMC曲线同样也用于评估方法的准确性,该曲线又称为rank曲线,rank⁃1即为第一次命中,rank⁃k即为第k次以内命中。CMC定义为
式中如果图像q的真值标签出现在rank⁃k之前,g(q,k)=1,否则g(q,k)=0。
2.3.1 VeRi⁃776实验结果分析
在VeRi⁃776数据集上比较了本文FDNet方法和8种现有方法的性能,包括基于视点感知的注意力多视点推断方法VAMI[7],渐进式车辆重识别方法PROVID[11],区域感知深度模型方法RAM[23],四重定向深度学习特征方法QD⁃DLF[24],双路径自适应注意力模型方法AAVER[25],视点感知网络方法VANET[26],批擦除网络方法BDBNet[13]和姿态感知多任务学习方法PAMTRI[27]。实验结果如表1所示,最佳结果用粗体显示。此外,由于本文FDNet方法是在该数据集上执行的检索任务,所以可以使用重新排序的RK策略[28]来提高mAP的性能。
由表1数据可以看出,本文FDNet方法的mAP和rank⁃1精度优于其他所有的方法,而rank⁃5精度仅比BDBNet低0.5%。在重新排序之后,mAP增加了2%,rank⁃1精度增加了2%,rank⁃5精度没有变化。
本文FDNet方法在VeRi⁃776数据集上的可视化结果如图3所示。图3显示了从14个查询图像中检索到的前5个图像,浅蓝色、橙色和红色分别表示查询车辆图像、与查询车辆图像具有相同ID的车辆图像和与查询车辆图像具有不同ID的车辆图像;前13列是成功案例,最后一列是失败案例。
2.3.2 VehicleID实验结果分析
在VehicleID数据集上比较了本文FDNet方法与7种现有方法的性能,包括:深度相对距离学习方法DRDL[29],VAMI方法[7],基于多粒度排序损失监督的两级注意力网络方法TAMR[30],AAVER方法[25],QD⁃DLF方法[24],RAM方法[23]和部分正则化重复方法PN[9]。对于VehicleID数据集,因为每个查询图像的图库中只有1个能够正确匹配,所以在VeRi⁃776数据集中应用的RK策略不适用于Vehi⁃cleID数据集。不同方法在VehicleID数据集上的实验结果如表2所示,最佳结果用粗体显示。可以看出,本文FDNet方法在VehicleID三个不同大小的测试集上的rank⁃1和rank⁃5精度均优于其他所有方法。
表1 不同方法在VeRi‑776数据集上的实验结果Table 1 Results on the VeRi‑776 dataset using different methods %
图3 FDNet在VeRi⁃776数据集上的可视化结果Fig.3 Visualization images of FDNet method on VeRi⁃776 dataset
表2 不同方法在VehicleID数据集的实验结果Table 2 Results on the VehicleID dataset using different methods %
2.3.3 圆损失项的性能分析
为了验证圆损失的作用,本文将圆损失项改为三元组损失项和交叉熵损失项作为对比试验。本文用FDNet⁃OR表示仅使用交叉熵损失项和三元组损失项的实验,结果如表3和表4所示,最佳结果以粗体显示。可以看出,本文FDNet方法优于FDNet⁃OR方法,表明了利用圆损失的优势。同时,图4给出了FDNet和FDNet⁃OR的CMC曲线,显示两种方法在VeRi⁃776和VehicleID数据集上从rank⁃1到rank⁃50的详细匹配结果。由图4可以看出,FDNet的性能优于FDNet⁃OR,进一步验证了圆损失项的优势。
表3 VeRi‑776数据集上圆损失项的性能对比结果Table 3 Results of circle loss term on the VeRi‑776 dataset %
表4 VehicleID数据集上圆损失项的性能对比结果Table 4 Results of circle loss term on the VehicleID dataset %
图4 两个数据集上的CMC曲线Fig.4 CMC curves on two datasets
为了解决车辆重识别中类内差异大和类间相似性大的问题,本文提出了一种基于双分支网络特征融合的车辆重识别方法。该方法同时学习全局特征和局部特征,将其融合获得更好的特征后捕获图像间的细微差异,以得到较优的检索精度。在VeRi⁃776和VehicleID数据集上的实验表明,本文方法与现有先进的车辆重识别方法相比有更优的性能。