基于多尺度和小波空间注意力的车辆重识别*

2021-03-04 08:27廖光锴牛一博宋治国
关键词:尺度注意力卷积

廖光锴,张 正,牛一博,宋治国

(1.吉首大学信息科学与工程学院,湖南 吉首 416000;2.吉首大学物理与机电工程学院,湖南 吉首416000)

车辆重识别(Vehicle Re-identification)也称为车辆再识别,是继行人重识别后的又一个研究热点,属于图像检索的子问题.车辆重识别是指在一个大型图库中检索特定车辆身份的所有图像,这些图像由不同方向、不同时间和不同地点拍摄的车辆图像组成,在智能交通、跨摄像头跟踪、城市监控等领域有着广泛的应用[1-4].但是由于外界环境的复杂性,摄像头拍摄的图片会出现低分辨率、任意视点、运用模糊、遮挡、光照条件差等问题,使得车辆重识别的准确率受到了限制[5-10].在实际应用中,车辆重识别存在2个主要问题:首先,由于拍摄环境不同,车辆在运动过程中拍摄车辆图片模糊,多视角等因素导致了同一车辆前后外观差异很大;其次,由于现在出现了很多的高仿车辆,还有一定的光照、遮挡等问题造成了不同车辆外观有较大的相似性.解决这2个问题的关键在于提取具有高度辨识力的特征.类比于行人重识别(Person Re-identification),但行人重识别的模型可以学习基于服饰和配饰的辨识性特征,还可以按照人的高度划分头部、躯干、腿部和脚,来实现检索行人图片[11-13].然而,车辆重识别是一个全新的检索任务,比行人重识别更具有挑战性.不同的车辆可能有相似的颜色和形状,尤其是来自同一个制造商的特定型号、装饰和年份的车辆[14-17].因此,如何有效地提取具有辨识力的局部细粒度特征成为能否正确识别特定车辆的关键.考虑到在车辆重识别中,大多数方法都侧重于在单一尺度下提取原始车辆图像特征,而忽略了不同尺度下各特征的互补性.大尺度下的特征一般包括车辆的颜色、车的外形,通过这些特征能有效地区分外观相似性不同的车辆;而小尺度下的特征则属于局部细粒度特征,可以用来区别外观相似的车辆.因此,在不同的尺度下提取车辆的特征,对于解决车辆外观相似性模糊问题具有重要意义.针对这个问题,笔者设计了一种基于多尺度的车辆重识别方法.该方法以ResNet-50网络为骨干网络,使用多尺度阶梯网络融合不同尺度的特征,在该网络中嵌入一种小波空间注意力机制模块,不仅能提取车辆图像的表面、纹理、垂直、水平和对角边缘特征,减少细粒度信息缺失,还能通过空间注意力加强任务相关特征表达能力,减弱背景和噪声影响.

1 基于多尺度和小波注意力机制的卷积网络结构

1.1 整体框架

多尺度小波注意力网络(Multiscale wavelet attention network,MWAN)由3个部分组成,即ResNet-50[8]骨干网络、小波空间注意力模块和多尺度阶梯融合网络,如图1所示.考虑到网络结构加深,依然能有好的特征表现能力,抑制梯度消失和梯度爆炸问题,MWAN选择了ResNet-50作为骨干网络.为了获得目标任务特征通道权重,降低无用特征通道权重,提出的网络模型在骨干网络中嵌入了通道注意力模块;多尺度阶梯网络融合用于提取多尺度图片特征,该网络通过嵌入小波注意力模块,使得网络能够获得同一尺度下的不同频率特征信息;最后再把全局特征F1和多尺度特征F2拼接起来,从而得到整体网络特征F.

图1 MWAN框架

1.2 骨干网络结构

本研究依赖于不同网络层所得到的多尺度特征图来提取车辆特征,多尺度的特征图包含了浅层属性和深层语义特征.通过浅层和深层特征的融合,可以使车辆的特征更具有辨识力.在浅层特征图中,网络所提取的使车辆的颜色、车窗、车顶等浅层属性.而在深层的特征图中,网络提取的是车辆特征图的抽象的语义特征.因此,只利用深层特征,会忽视车辆的外观属性特征,不利于不同车辆之间的区分,从而影响车辆重识别的性能.ResNet-50有4个残差块,在每一个残差块前面加入通道注意力模块,对每一个通道进行差异化处理,可以增大车辆具有辨识力的特征通道权重,降低无用特征的通道权重,最终生成4个尺度的特征图,即C1,C2,C3和C4.在骨干网络中,将第4个卷积块Conv_4步长设置为1,使C4图片尺度等于C3图片尺度,不减小C4尺度,是为了获得更多深层语义特征.

1.3 注意力模块

1.3.1 图像的小波变换 小波变换具有良好的时频局部化特性,它可对信号的频域和时域进行局部化分析,在处理信号时很少出现信息的丢失和冗余问题,具有较好的细节特征保持能力[18].基于小波函数的这些优点,本研究在注意力模型中采用Haar小波作为多尺度阶梯网络的下采样部分,MWAN包含4个固定的卷积滤波器,低通滤波器捕捉平滑的表面和纹理,而3个高通滤波器提取到垂直、水平和对角边缘类信息,即低通滤波器fLL和高通滤波器fLH,fHL,fHH,分别定义为

将图像I分解成低频子带、水平子带、垂直子带和对角子带,即ILL,ILH,IHL和IHH。

在DWT分解过程中,滤波器被视为4个2×2卷积核,其权值固定,步长为2。DWT分解定义为

ILL=(fLL⊗I)↓2,ILH=(fLH⊗I)↓2,

IHL=(fHL⊗I)↓2,IHH=(fHH⊗I)↓2,

其中⊗表示卷积算符,↓2表示因子为2的标准下采样算子。图2展示了一层分解后的各分量。

图2 小波二维分解滤波器

1.3.2 空间注意力机制模块 空间注意力机制是对每个通道特征进行平均的一个操作,使主网络学习到所有通道特征的整体分布。得到整体的平均权值之后,将该平均权值共享给特征权值较弱的区域,从而增强较弱区域特征的表示能力.空间注意力模块[19]通过最大池化(Maxpooling,MAX)和平均池化(Averagepooling,AVG)提取特征,再将2个特征图拼接在一起,通过卷积来融合特征,得到空间注意力权重.MWAN结构如图3所示.

图3 空间注意力机制

假定模型的输入是大小为H×W×C的特征F.首先,对特征F分别进行一个列通道维度的平均池化和最大池化,产生2个通道信息,得到2个H×W×1的权重,并将它们基于通道拼接;然后,对这个特征用一个7×7的卷积核进行卷积,得到一个新的特征;最后,对这个新的特征使用sigmoid函数激活,将空间注意力权重的范围映射到[0,1],得到最终的空间注意力权重M.空间注意力公式为

M(F)=σ(Conv([AvgPool(F),MaxPool(F)]))=σ(Conv([Favg;Fmax])).

1.3.3 小波空间注意力模块 受到小波变换具有较好的细节特征保持能力的启发,笔者结合小波变换和空间注意机制对卷积进行扩展,设计了小波空间注意模块(Spatial Attention Module,SAM),如图4所示.该模块不仅提取特征图的空间信息,还能将空间信息权重共享到经小波变换分解出的特征权重较弱的区域.它可以自适应地学习每个部分的重要性,从而将更多的注意力放在最具有辨识力的语义和位置信息,抑制信息含量较低的部分,可以有效地区分语义特征的表示.通过训练一个紧凑的注意力模块来预测目标权重,使卷积网络提取到更具有代表性的特征.

图4 小波空间注意力模块

将图像特征F∈RH×W×C作为网络的输入,其中H,W,C分别表示语义图的高度、宽度和通道的大小.在小波变换分支中,对语义特征F∈RH×W×C进行转换,得到小波特征图Y∈RH/2×W/2×4C.具体运算过程为,先利用小波变换将F分解为4个子带图像,DWT(F)=(FLL,FHL,FLH,FHH)∈RH/2×W/2×4C,再将它们拼接在一起,通过1×1卷积和ReLu函数从DWT(F)中提取到各种频率特征Y∈RH/2×W/2×4C.在空间注意力分支中,首先进行平均池化和最大池化操作,分别得到一个H×W×1的像素权重,并将它们基于通道拼接;然后通过7×7卷积进行特征提取;最后经过sigmoid函数,得到空间注意力图M∈R1×H/2×W/2.小波空间注意力机制公式如下:

Y=σ(Conv(DWT(F))),

M=σ(Conv([Favg;Fmax])),

P=B⊕σ(Y⊗M).

1.4 多尺度阶梯融合网络

为了扩展主网络的表现能力,笔者设计了一种新的特征融合网络——多尺度阶梯融合网络(图1).为了控制计算量和参数量,在不影响网络性能的情况下,引入了InceptionV2模块[20],对多尺度的细节特征进行提取,通过融合不同层的尺度信息达到对特征信息的整合,从而获得全局上下文特征信息.设计的多尺度阶梯融合网络有4层,每层都包含了2个InceptionV2模块.该网络有4条支路,采用从ResNet-50网络输出的4个尺度特征56×56,28×28,14×14,14×14分别作为其网络的每条支路输入.56×56尺度大小特征图先经过一个小波空间注意力模块,得到4个相同尺度不同频域信息的特征图,同时空间注意力将空间信息权重共享到DWT分解出特征权重较弱的区域,从而得到该尺度的增强特征信息,然后通过2个InceptionV2提取该尺度的特征信息.同理,在28×28尺度下,将上一尺度特征与该尺度特征进行融合,经上面同样步骤,得到该尺度特征信息.最后将2个14×14尺度与上一层特征融合,经过InceptionV2提取特征f1,f1∈R1×1×2 048.本研究中的多尺度阶梯融合结构,不仅可以增强相同尺度的特征信息,还将不同尺度的语义特征信息进行融合提取,从而学习到更多的上下文信息,获得更多具有辨识力的细粒度特征.InceptionV2网络结构如图5所示.

图5 InceptionV2的网络结构

2 实验部分

2.1 实验参数设置

本实验是在GeForce GTX1080Ti GPU,输入图片像素224×224,批大小为32,使用随机梯度下降法训练参数,学习率设置为0.001,进行110次训练.经实验验证,λc=λf=1,λ1=0.5.

2.2 实验结果与讨论

2.2.1 消融实验 MWAN在提取特征时融合了全局特征和多尺度特征,其中全局特征是在嵌入了通道注意力机制下进行特征提取,多尺度特征是在小波空间注意力模块下融合了表面和纹理、垂直、水平、对角边缘多个局部信息.在第一部分实验中,主要分析网络模型在不同模块的组合对车辆重识别精度的影响.只包含提取单一的全局特征模型记为Baseline,在MWAN模型的基础上嵌入通道注意力机制记为MWAN+CA,嵌入小波空间注意力机制记为MWAN+DS,MWAN记为MWAN+CA+DS.各模型的精度见表1.

表1 VeRi数据集上几种网络结构的消融实验比较

由表1可知:基准网络单独嵌入通道注意力模型和小波空间注意力模型时,相比基准模型,平均精度均值(mAP)分别提高了3.5%和3.4%,Rank-1分别提高了3%和2.8%;同时增加2个模块,mAP达到73.9%,Rank-1达到94.7%.

2.2.2 对比实验 为了验证MWAN的优越性,分别在VeRi和VehicleID[19]数据集上,将其与近年来的主流模型(LOMO[1],BOW-CN[2],FACT[9],PROVID[20],MLL+MLSR[21],AAVER[22],QD-DLF[23],MSA[24],DDFL[25],BS[26],SLSR[27])进行了比较,表2展示了在VeRi数据集上测试的评价指标对比结果.

表2 VeRi数据集上多尺度小波注意力网络与其他方法的比较结果

由表2可知,MWAN模型取得比其他大部分模型更高的mAP.其中,LOMO,BOW-CN,FACT,PROVID,MLL+MLSR和AAVER取得的mAP分别为9.64%,12.20%,18.49%,53.42%,57.03%和58.50%,远低于MWAN采用的ResNet-50骨干模型的准确率72.40%.其中,LOMO,BOW-CN和FACT采用的是手工特征方法,可以看出远没有深度学习方法准确率高.PROVID是一种渐进式车辆搜索框架,它融合了传统手工特征、车牌信息和时空线索,但是提升了基础网络的计算复杂度.AAVER是一种双路径自适应注意力模型,包含了全局特征和车辆零件的外观特征,但生成的关键点信息与真实的多角度下的关键信息还是存在一定差异,效果不是很明显.QD-DLF是一种将深度语义特征映射压缩为水平、垂直、对角线和反对角线方向的特征图,最后归一化得到多维的特征,但是他忽略了车辆的多属性特征.MSA是一个多尺度注意力网络,通过三路径残差网络来获得多尺度特征,虽然得到了多尺度特征,但是大大的提高了计算复杂度.BS用三元损失和交叉熵损失进行联合训练网络,比单个损失函数训练效果要好,但是整体效果不明显.

MWAN与LOMO[1],BOW-CN[2],FACT[9],ResNet[8],EALN[28],SLSR[28],AAVER[22],NuFACT[20],MLL+MLSR[21],QD-DLF[23]在VehicleID车辆数据集上测试的评价指标对比结果见表3.

表3 VehicleID数据集上多尺度小波注意力网络与其他方法的比较结果

从表3可知,MWAN与其他算法相比,在VehicleID数据集中取得了最好的效果.它与LOMO[1],BOW-CN[2],FACT[9]采用的是手工特征方法比较,不管是在小数据集或大数据集中都取得非常好的效果,由此可知深度学习算法更加适合车辆重识别.MWAN与其他深度学习算法的比较中也取得了不错的效果:与AAVER[22]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的准确度分别提高了1.11%,4.68%,6.76%;与多尺度算法SLSR[27]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的准确度分别提高了0.7%,1.5%,1.6%.

2.2.3可视化结果 如图6所示,在VeRi数据集下,随机选取5个不同车辆,其中错误的检索结果由方框标出.

图6 查询可视化结果

由图6不难发现,MWAN嵌入注意力机制模块增强了细粒度特征提取,进一步优化了检索排序结果,提高了识别准确性.

3 结语

为了获得不同尺度下的车辆图片特征,常采用双线插值的方法将车辆图片转换为不同尺度的大小,再经过一个特征提取网络来提取各尺度下的图片特征.但是,双线性插值法会使图像的细节特征退化,从而影响车辆特征的提取与分析,且多一个特征提取网络会增加整个网络的计算复杂度.针对此问题,笔者设计了一个多尺度阶梯融合网络,来提取不同尺度下的车辆图片特征,并在该网络中嵌入了小波空间注意力机制来平衡局部特征信息,防止细节特征的退化;为了更好地挖掘全局特征信息,在骨干网络嵌入了通道注意力机制;最后,将全局特征信息与多尺度特征信息进行结合,获得具有辨识力的特征.接下来,需要对车辆的小目标检测作进一步研究,小目标检测也是车辆重识别中的一大难点.

猜你喜欢
尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
宇宙的尺度
9