YOLOv5定位多特征融合的车标识别

2023-03-13 10:04董光辉陈星宇

计算机工程与应用 2023年5期

董光辉，陈星宇

东北林业大学信息与计算机工程学院，哈尔滨 150040

在当今交通领域高速发展的时代，对道路交通的实时性、安全性以及智能性等不断提出更高的要求。智能交通系统的出现受到了社会各界越来越多的关注，作为人工智能中具有蓬勃发展与广泛应用前景的产业领域，智能交通在带来更多具有创新性的解决方案的同时，也对道路监察管理、道路基础设施建设等部门与行业提出了更高的标准。智能交通系统需要对道路及车辆的各种相关信息进行检测、记录与分析，道路信息包括交通标志、交通信号灯、人行横道与停止线等，车辆信息包括车牌、车型、车标等。其中，车标是车辆类别的重要标识符，其特征鲜明且不易修改，目前车标图像识别是智能交通系统设计的重要分支和热门研究课题，车标识别对于交管部门监控行车信息、公安部门追踪车辆犯罪等实际场景具有重要意义。

车标识别主要包含车标定位与车标识别两部分。对于完整的车标定位与识别系统而言，车标定位与识别整体正确率是由定位正确率与识别正确率共同决定的，若由于定位失败或发生偏差而导致被定位到的车标图片错误或不完整，将会直接影响车标图像识别阶段的分类判别，因此快速并准确地完成车标定位是首要任务。

在车标定位方面，Liu等人[1]提出了一种车辆标志定位的方法。该方法首先通过车牌的位置获得车辆标志的近似区域，然后使用边缘检测与投影的方法判断车辆徽标背景的水平或垂直纹理，最后使用已知的纹理再通过形态滤波与投影信息正确定位车辆徽标的位置。Sun等人[2]首先使用Adaboost和局部二值模式（local binary pattern，LBP）特征检测车牌的位置，以便通过先验知识减少车标的搜索区域，然后使用改进的基于梯度的位置算法进一步定位车标。刘玉松等人[3]提出了一种基于边缘投影（projection of edge）的快速车标定位方法。张栋冰[4]结合视觉注意机制（visual attention theory，VAT）与支持向量机（support vector machine，SVM）提出了复杂环境下的车标区域定位算法。焦志全[5]针对复杂应用场景下的车标定位问题提出了基于非限制场景ALPR系统与迁移学习（transfer learning）的解决方案。上述方法在实现上需依赖于车牌定位，过程繁琐且定位速度较慢。

对于识别阶段而言，车标特征的选择和提取尤为重要。王枚等人[6]提出了基于主成分分析（principal components analysis，PCA）与边缘不变矩进行车标识别的新方法。为了解决识别精度问题，Dai等人[7]采用Tchebichef矩不变量与SVM来识别车辆标志，实验结果表明该系统在无噪声和有噪声环境中均可以达到较满意的车标识别正确率。Soon等人[8]采用矩不变量和最小平均距离（minimum mean distance，MMD）分类器识别六种不同类型的车标，利用Tchebichef和Legendre矩不变量识别从粗分割与细分割中获得的车标。Gu等人[9]提出了基于密集SIFT匹配能量和SIFT流一致性的车辆标志识别算法，验证了车标识别的准确性和多尺度车标图像在各种真实数据上的鲁棒性。李熙莹等人[10]基于Edge Boxes算法提出了大型车辆的车标检测与识别方案。李哲等人[11]提出了基于多种LBP集成学习的车标识别方案。曲爱妍等人[12]基于方向梯度直方图（histogram of oriented gradient，HOG）特征与LBP，结合SVM对车标图像进行识别。

在提取车标图片的特征之前，对车标进行边缘检测将有助于突出车标主体图像，但不同边缘检测算法的效果差异对最终提取出的车标特征存在不同的影响。目前对图像边缘检测与特征提取的研究广泛且应用领域众多。

在图像边缘检测方面，Punarselvam等人[13]提出了基于幅度与边缘长度的Canny边缘检测算法，用于CT扫描脊柱盘图像的边界检测的预处理。Roe等人[14]提出了一种基于颜色恒定性的局部图像均衡与扩展高斯差分边缘检测算子XDoG的二值化方法，用于退化历史文献的彩色图像。所提出的方法被证明取得了更令人满意的结果。刘丽霞等人[15]提出了基于改进Canny边缘检测的遥感影像分割算法。Du等人[16]为了提高轴端面的圆度检测效率和精度，提出了一种基于改进的Canny-Zernike亚像素图像边缘检测与改进的Hough变换的检测方法，克服了单Hough变换检测精度低的缺点。齐小祥等人[17]基于边缘检测提出了一种逆合成孔径雷达图像自适应区域分割方法。

在图像特征提取方面，Lv等人[18]提出了一种基于灰度共生矩阵（gray level co-occurrence matrix，GLCM）特征结合SVM在逆合成孔径雷达图像中提取水区的新方法。Mihreteab等人[19]通过结合HOG与中心对称局部二值模式作为特征集提出了一种鸟类检测器，该方法可以在各种光照条件下检测乌鸦。Feng等人[20]基于HOG特征能够保持良好的几何与光学不变性的特点，提出了提取手势的HOG特征，然后用SVM对特征向量进行训练的手势识别方案。Mirzapour等人[21]使用GLCM与Gabor滤波器提取纹理特征，以便对像素聚合网络PAN图像进行分类。实验结果表明所提出的快速GLCM与特征融合方法具有良好的性能。Verma等人[22]提出了结合Gabor滤波器与人工神经网络破译面部表情识别的方法。该方法使用Gabor滤波器提取面部表情，然后使用多层人工神经网络对面部表情进行分类。刘文培等人[23]提出了面向人脸识别的小波包分解-方向梯度直方图（wavelet packet decomposition-histograms of oriented gradients，WPD-HOG）金字塔特征提取方法。Chang等人[24]提出了一种基于Gabor特征与双参数恒定误报率检测技术对逆合成孔径雷达影像内船舶进行检测的方法。该方法能够达到较高的船舶识别精度。

针对上述车标定位中存在的问题，以及识别阶段选择车标边缘检测算法与车标特征提取手段的复杂情况，本文提出了一种YOLOv5网络车标定位多特征融合的车标图像识别方案。车标定位阶段选择YOLOv5s网络，车标识别阶段首先通过调整扩展高斯差分中的参数来得到具有不同图像细节、边缘粗细、明暗程度的车标边缘，然后设计一组二维Gabor滤波器对车标图像进行滤波处理，从各个滤波器的输出结果中提取出对应的车标图像特征向量，最后通过计算待测车标图像特征与自制车标特征向量标准比对库中特征向量的欧几里德距离，取距离最小者对应的标签索引作为分类识别结果。技术路线图如图1所示。为了提高车标图像特征向量的分类预测正确率，本文在从Gabor滤波器组中提取出车标图像特征向量的基础上，将欧氏距离判别替换成随机森林算法再次对车标特征向量分类预测进行实验并统计整体识别正确率。

图1 技术路线图Fig.1 Technology roadmap

本文的主要贡献包括如下四个方面：

（1）引入了YOLOv5s网络进行车标的一步定位，提高了定位速度与精度。

（2）采用参数可控的扩展高斯差分XDoG进行车标边缘检测，通过调参可生成具有不同图像细节、边缘粗细、明暗程度的边缘检测效果，可根据不同情况下所拍摄的车标图片质量进行调整以达到不同的要求。

（3）采用二维Gabor滤波器组提取图像特征，通过调整参数（尺度、方向）可以生成不同数量的滤波器组，满足不同情况下对图像特征的各种要求。

（4）本方案可对45类车标进行识别，采用随机森林算法替代欧氏距离判别，提高了识别分类的正确率。

1 基于YOLOv5s网络的车标定位

2020年，Jocher推出了基于YOLOv4版本进行改进的YOLOv5算法。该算法进行目标检测可分为三步[25]：首先统一对图像进行规格大小的改变并对其分割，然后通过卷积神经网络提取图像中目标的特征，最后通过非极大值抑制（non-maximum suppression，NMS）剔除冗余的候选框，输出高质量的检测结果。根据网络结构的深度与宽度将YOLOv5分为由小到大的四个不同版本[26]：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。由于本文要求的车标定位算法需要具有较高的定位检测速度与精度，并且有部署到嵌入式端或者移动端的需求，通过比较发现，在YOLOv5四个版本中最小的s版本的模型大小仅十几兆，并且还能保持目标检测的速度与精度，YOLOv5s网络定位车标比传统车标定位算法（例如基于车牌位置定位车标）的实现更加简单，故选用YOLOv5s模型进行车标定位。YOLOv5s网络主要包括Input、Backbone、Neck、Prediction等模块，而每个模块又是由CBL、CSP、Focus、SPP等小模块组成[27]。YOLOv5s网络模型结构如图2所示。

图2 YOLOv5s网络模型结构Fig.2 YOLOv5s network model structure

本文基于YOLOv5s建立的车标定位网络相比于传统的车标定位方案（例如基于车牌位置定位车标的方案）正确率更高。车标识别是在车标定位的基础上完成的，定位的正确率是车标定位阶段工作的首要指标，因为其会直接影响后续车标识别的过程，由此在车标定位阶段需选择检测定位精度高的算法。

基于YOLOv5s网络定位车标的步骤是：首先将车标数据集按适当比例划分为训练集（train set）、验证集（validation set）与测试集（test set），然后将训练集与验证集输入到YOLOv5s网络中进行训练，通过多轮训练即可得到训练完成的YOLOv5s车标定位网络；接着将测试集输入到已训练完成的YOLOv5s车标定位网络中，输出测试结果并统计车标定位的正确率；最后将输出测试结果中已定位到的、仅含有车标的区域提取出来，为后续的车标识别阶段做准备。结果如图3（a）所示。

为了更好地对比与证明本文所提出的智能交通系统车标图像识别方案的效果，增加了利用YOLOv5s网络一步到位直接完成车标识别的实验，以此分析两种方案各自识别车标的优劣，为后续进一步改进优化车标识别方案做准备。基于YOLOv5s网络一步到位识别车标的步骤是：仍然利用基于YOLOv5s网络定位车标的已划分好的数据集，然后将训练集与验证集输入到YOLOv5s网络中进行训练，通过多轮训练即可得到训练完成的YOLOv5s一步到位识别车标的网络；最后将测试集输入到已训练完成的YOLOv5s一步到位识别车标的网络中，输出测试结果并统计一步到位识别车标的正确率。结果如图3（b）所示。

图3 车标定位与一步识别的结果Fig.3 Results of vehicle logo positioning and one-step recognition

实验过程中利用同一训练与验证数据集（4 500张原始汽车图片，共45类车标，每类100张，训练集与验证集的比例为7∶3）在YOLOv5s网络中训练，然后对同一测试数据集（900张原始汽车图片，共45类车标，每类20张）进行测试，其中训练集与测试集的图片不存在交叠重合的部分，以此避免了同一张图片既用于训练也用于测试的情况，使最终的车标识别正确率更科学、精准。通过实验发现，仅利用YOLOv5s网络完成车标定位的正确率为99.33%，利用YOLOv5s网络直接一步到位识别车标的正确率为97.11%。导致利用同一个YOLOv5s网络进行一步到位识别车标的正确率比仅完成车标定位的正确率低的原因是：车标定位阶段的标签只有一种“Vehicle-logo”，而直接一步到位识别车标时标签则细化到了每种车标的名字，不再是单一的“Vehicle-logo”标签，45类车标的标签类别数明显远多于“Vehicle-logo”这一种，故对同一车标图片主体而言，在需要进行更具体的标签分类识别任务时，网络对目标的细节特征要求也更高，在数据集不发生改变的情况下，目标检测与识别的工作任务量加大且正确率也会降低。

2 基于多特征融合的车标识别

本章包含三个部分，首先采用扩展高斯差分XDoG对YOLOv5s网络定位的车标图像进行边缘检测；然后采用二维Gabor滤波器组提取车标特征并通过欧几里德距离进行分类判别；最后将欧氏距离判别替换为随机森林算法对车标特征进行分类。

2.1 基于扩展高斯差分的车标边缘检测

拉普拉斯算子（Laplacian）是通过检测二阶导数的零交叉点（zero-crossings）来对图像进行边缘检测的，其表达式为：

由于拉普拉斯算子对噪声高度敏感，故在对图像作拉普拉斯卷积之前需要对图像的噪点进行低通滤波处理。常用的低通滤波器为高斯低通滤波器，其表达式[28]为：

其中，Gσ(x,y)被称为高斯核，(x,y)表示图像中的二维坐标，σ表示空间域中高斯分布的标准差（与频域中低通滤波器的截止频率成反比）。

在高斯低通滤波去除图像噪声之后再作拉普拉斯卷积，该过程写成数学表达式为：

其中，LoG[⋅]表示进行高斯拉普拉斯操作，I(x,y)表示图像，“∗”表示一个卷积操作。

式（3）中的第二个等号表示高斯拉普拉斯操作可以等效为先求高斯核的拉普拉斯变换，然后再与图像作卷积运算。这样的好处是图像只在最后一步参与一次卷积运算，相比于先高斯滤波再拉普拉斯变换导致图像数据参与两次运算而言，降低了计算量，提高了效率。由此，得出高斯拉普拉斯LoG的表达式为：

由于高斯拉普拉斯LoG在计算时缺乏可分性而导致计算效率较低，故在LoG的基础上提出了高斯差分（difference of Gaussians，DoG）。对图像I(x,y)进行高斯差分操作的表达式为：

其中，DoG[⋅]表示进行高斯差分操作，k为一个大于零的常数，通常设为1.6。

对式（5）中两个高斯核的差分用极限表达式：

进行近似替换可得：

将式（7）带入式（5）中可得高斯差分的二阶微分表达形式为：

由此，得出高斯差分DoG的表达式：

对图像I(x,y)进行高斯差分操作后，再乘以阈值函数即可得到最终输出的高斯差分之后的图像，该过程可用数学表达式写为：

其中，Tε(∙)表示阈值函数，作用是对高斯差分操作之后的图像DoG[I(x,y)]进行阈值化处理，使得输出的图像强度差异更明显。阈值函数的表达式为：

其中，u是在高斯差分图像DoG[I(x,y)]中对应二维坐标下的值，ε是设置的阈值。

Winnemöller等人[29]于2012年提出了扩展高斯差分（extended difference of Gaussians，XDoG）。因其具有多个参数，可以通过调整参数的方式满足对图像细节、灰暗程度、边缘粗细的不同要求，故其在图像边缘检测方面有很好的效果。

扩展高斯差分XDoG首先是在高斯差分DoG的基础上引入参量γ，目的是调整扩展高斯差分滤波的截止效果的强度。引入参量γ后的表达式为：

其中，当γ=1时退化为普通的高斯差分。

其次，扩展高斯差分XDoG将高斯差分图像阈值化时所使用的简单二分阈值函数替换成了一个连续的斜坡函数，即：

最后，对图像I(x,y)进行扩展高斯差分XDoG操作的过程用数学表达式可写为：

扩展高斯差分XDoG可以通过调节如表1所示的参数来获得不同车标图片的图像细节、灰暗程度、边缘粗细。以奥迪车标为例，其车标图像随各参数变化的边缘检测效果如图4所示。

图4 奥迪车标图像随各参数变化的边缘检测效果Fig.4 Edge detection effect of Audi logo image varying with various parameters

表1 XDoG的参数解释Table 1 Parameter interpretation of XDoG

2.2 基于二维Gabor滤波的车标特征提取

在信号时频分析理论中，测不准原理指出无法在时域与频域上均获得任意的测量精度，时域与频域二者的精度互相制约，频率域分辨率的提高必然要以牺牲时域的分辨率为代价。

对于单位能量信号g(t)而言，其傅里叶变换记为g(ω)。设g(t)在时域与频域的中心分别为μt与μω，用数学表达式写为：

单位能量信号g(t)的主要能量集中范围可以用时域与频域的等效宽度进行定义，其数学表达式为：

则有：

1985年，Daugman[30]首次提出了二维Gabor滤波器（2D-GaborFilter）。2D-Gabor函数是唯一能够达到测不准原理下界的高性能函数[31]，即其可以同时在时域与频域获得较高的分辨率。二维Gabor滤波器在提取图像目标的局部空间域与频率域信息方面具有优良的特性，能够很好地近似哺乳类动物的视觉皮层简单细胞（visual cortex simple cell）二维感受野剖面。

二维Gabor函数是一个由高斯函数调制的复正弦函数，其数学表达式[32]为：

其中，f0是正弦平面波的中心频率值，即所生成的每个二维Gabor滤波器所对应的频率，θ是高斯波与正弦平面波沿逆时针方向旋转的角度值，α与β是椭圆高斯曲线长轴与短轴的锐度值。

归一化的二维Gabor滤波器响应的表达式为：

其中，I(x,y)表示图像，“∗”表示一个卷积操作。

将式（20）代入式（23）中可以得到：

定义沿长轴与短轴的高斯分布宽度分别为γ与η，这两个参数与正弦平面波的中心频率f0之间存在如下关系：

将式（25）与式（26）代入式（24）可得：

由于不同车标图像的纹理具有不同的中心频率值与频带宽度，以此可以设计一组二维Gabor滤波器对车标图像进行滤波处理，每个二维Gabor滤波器仅允许与其频率相对应的车标图像纹理通过，同时抑制其他车标图像纹理的能量，从各个滤波器的输出结果中所提取出来的车标图像纹理特征可以用于后续的车标分类识别。

第一步需要设计二维Gabor滤波器，确定二维Gabor滤波器的方向（orientation）、尺度（scale）、间隔（separation）。建立车标特征提取的二维Gabor滤波器时选择5个尺度与8个方向，这样就构成了由40个Gabor滤波器组成的Gabor滤波器组，如图5所示。二维Gabor滤波器在每个尺度处的频率不同，定义尺度维的最大频率为，尺度维频率间隔为2，则每个尺度处的频率值可以表示为：

图5 二维Gabor滤波器组Fig.5 Two dimensional Gabor filter bank

用式（28）中的fu替换式（27）中的f0，用式（29）中的θv替换式（21）与式（22）中的θ，可得到40个归一化的二维Gabor滤波器响应的函数表达式：

第二步是从二维Gabor滤波器的输出结果中提取车标特征。二维Gabor滤波器组与每张车标图像在空间域进行卷积，则对应到频率域变为40个Gabor滤波器的频率响应与每张车标图像的乘积。具体做法为：先将车标图像通过快速傅里叶变换得到图像的频率域处理结果，然后再将其与40个Gabor滤波器的频率响应相乘，最终每张车标图像可以得到对应的40个滤波器的频率域乘积输出结果。对该输出结果取绝对值可得到幅度值并将其归一化为标准正态分布，最终的结果是一个1×1 440维的行向量，以此作为车标图像的特征行向量。将每类车标中所有图片通过上述两个步骤所提取出来的特征行向量求均值，即可得到该类车标的特征行向量标准比对模板，所有45类车标的特征行向量标准比对模板组合起来形成一个45×1 440维的矩阵，该矩阵即为“45类车标特征行向量标准比对库”。通过计算待测车标图像通过二维Gabor滤波提取出来的特征与“45类车标特征行向量标准比对库”中特征的欧几里德距离，取距离最小者所对应的种类标签索引，即可判别出待测车标图像的所属类别。

2.3 基于随机森林的车标特征分类

对于已经提取到的二维Gabor特征而言，其维度为1 440维，通过计算特征之间的欧几里德距离并且取距离最小者所对应的种类标签索引作为最终特征分类结果可以达到较好的效果，但对于高维特征的输入样本而言，随机森林（random forest，RF）在当前所有算法中，其能够处理具有高维特征的输入样本且无需降维处理，准确率高且能够有效地运行在大数据集上。随机森林是通过集成学习（ensemble learning）的思想将多棵随机决策树（decision tree）集成的一种算法，即由多个弱分类器组合成一个强分类器。每棵决策树都是一个分类器，对于一个输入样本而言，N棵树会产生N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出结果。

3 实验结果与分析

3.1 车标数据集

本文选用的数据集是来自杨朔等人[33]于2021年发布的VLD-45车标数据集，其中包含45类车标，共计45 000张原始汽车图片（包含环境背景与汽车整体）以及与之对应的xml标签文件，车标数据集图片节选如图6所示。

图6 VLD-45车标数据集图片节选Fig.6 VLD-45 vehicle logo data set image excerpts

用于“基于YOLOv5s网络的车标定位”的数据集包含4 500张图片，总共45类车标，每类车标中含有100张图片，其中训练集与验证集的比例为7∶3。

用于“基于扩展高斯差分XDoG边缘检测与二维Gabor滤波提取特征的车标识别”的数据集包含5 400张图片，总共45类车标，每类车标中含有120张图片。对每类车标的120张图片而言，其中100张用于训练生成该类车标特征行向量标准比对模板，剩余20张图片作为待测车标图片用于检测车标识别正确率。

通过上述对VLD-45车标数据集的划分，保证了车标定位与车标识别阶段的图片不存在交叠重合的部分，以此避免了同一张图片既用于训练也用于测试的情况，使最终的车标识别正确率更科学、精准。

3.2 车标定位网络训练与车标区域提取

3.2.1 YOLOv5s车标定位网络训练

如图7（a）、（b）所示，分别为车标定位训练过程中预测框回归损失函数与目标检测损失函数随训练迭代次数的变化曲线，两种损失函数均随训练迭代次数的增加而快速下降，最后趋于收敛。如图8（a）、（b）所示为车标定位训练过程中精确率、召回率随训练迭代次数的变化曲线，二者随着迭代次数增加而快速上升然后趋于平稳。如图8（c）、（d）所示为交并比的阈值分别为0.5与0.5∶0.95（步长为0.05）时的平均精度均值（mean average precision，mAP）变化情况，二者的变化趋势均为逐渐提升后趋于平稳。如图9所示为车标定位类别混淆矩阵图，如图10（a）、（b）、（c）、（d）所示，分别为F1分数与置信度曲线图、精确度与置信度曲线图、召回率与置信度曲线图、交并比（IoU）为0.5时的精确度-召回率曲线图。F1分数(F1-Score)是综合考量精确度与召回率的调和值，其表达式为：

图7 两种损失函数随训练迭代次数的变化曲线Fig.7 Variation curves of two loss functions with number of training iterations

图8 精确率、召回率、mAP随训练迭代次数的变化曲线Fig.8 Variation curves of accuracy rate，recall rate and mAP with number of training iterations

图9 车标定位类别混淆矩阵图Fig.9 Confusion matrix of vehicle logo positioning category

图10 各指标间曲线图Fig.10 Curves between indicators

其中，Precision表示精确度，Recall表示召回率。

如图11所示为车标定位的实验结果，其展示了不同品牌的汽车基于YOLOv5s网络的车标定位结果，其中车标的标签为“Vehicle-logo”。

图11 不同品牌汽车的车标定位结果Fig.11 Vehicle logo positioning results of different brand cars

3.2.2 YOLOv5s车标定位结果分析

基于YOLOv5s网络定位车标的实验结果表明，900张测试图片中有6张原始汽车图片的车标未被检测定位出来，故基于YOLOv5s网络定位车标的正确率为99.33%，并在图12中展示了发生漏检情况的6张车标图片。图12中的子图（a）、（b）、（d）、（e）、（g）、（h）为漏检车标的原始图片，子图（c）、（f）、（i）为笔者人为框选出车标所在区域后再利用YOLOv5s网络检测定位车标的结果，目的是进一步分析漏检的可能原因。经过实验与分析，可以将漏检的6张图片分成3类，对应3种原因。

图12 车标定位漏检示例Fig.12 Vehicle logo positioning missed detection examples

子图（a）、（b）的漏检原因是相对于整张原始汽车图片而言，车标位置不突出或者车标相对于整张图片的大小比例过小。当人为框选出如子图（c）所示的车标区域后再利用YOLOv5s网络检测定位车标发现，吉普车标被成功检测定位，但吉姆西的车标仍为漏检的状态。

子图（d）、（e）的漏检原因是车标与其周围环境背景难以区分。子图（d）中本田车标刚好出现在道路旁的白色车道栅栏缝隙处，本田车标与汽车车身的颜色也均为白色，这就导致车标与其所处的环境难以区分。子图（e）中的沃尔沃车标位于轮胎装饰罩的中心，其与汽车轮胎螺栓的颜色及形状大小相似。此外，车轮轮辐的颜色也与车标颜色相近。当人为框选出如子图（f）所示的车标区域后再利用YOLOv5s网络检测定位车标发现，本田车标被成功检测定位，但沃尔沃车标图片中的汽车轮胎螺栓被误识别为车标，而本应被检测识别的沃尔沃车标仍被漏检。通过对比图像细节发现，汽车轮胎螺栓在阳光的照射下可于车胎螺栓表面映射出路面上的道路交线，通过金属反光曲面成像，笔直的道路交线在车胎螺栓表面形成长条带状的物影，这恰好与图中将“VOLVO”字样刻于金属横条之上的沃尔沃圆形车标主体高度相似，从而导致汽车轮胎螺栓的误识别与沃尔沃车标的漏检。

子图（g）、（h）的漏检原因是车标与车辆的前格栅融合在一起而难以区分车标与格栅背景。子图（g）中的吉利车标被安装在车辆的前格栅上，在定位识别时难以将其与格栅背景区分开。子图（h）的林肯车标直接与车辆的前格栅融为一体，其形状、边框粗细、颜色与格栅金属条框高度相似，极大地增加了识别难度。当人为框选出如子图（i）所示的车标区域后再利用YOLOv5s网络检测定位车标发现，吉利与林肯车标均未被正确识别，仍为漏检的状态。

3.2.3 车标区域提取

在利用YOLOv5s网络完成车标定位之后，将定位出的车标区域提取出来。图13（a）、（b）展示了在车标定位完成之后，将仅含有车标区域提取出来的结果。

图13 车标定位实验结果Fig.13 Experimental results of vehicle logo positioning

3.3 传统边缘检测算子处理车标实验结果

3.3.1 边缘检测算子的种类选取实验

以大众车标为例，观察Sobel算子、Roberts算子、Prewitt算子、LoG算子、Canny算子的边缘检测效果，结果如图14所示。每种边缘检测算子的检测阈值都设置为0.1，设置低阈值的目的是尽量将车标的更多特征提取出来，在边缘检测算子选择的初始阶段能更直观地反映边缘检测与提取效果。实验结果为Canny算子不容易受噪声干扰，能够检测到真正的车标图像弱边缘，其边缘检测效果明显优于其他四种算子。

图14 不同算子边缘检测结果Fig.14 Edge detection results of different operators

3.3.2 Canny算子检测阈值选取必要性证明实验

（1）不同Canny算子的检测阈值选取对同一车标边缘检测效果的影响对比实验

以大众车标为例，通过对比实验发现，Canny算子进行车标边缘检测的效果取决于Canny算子的检测阈值选择，如图15所示。若检测阈值设置过小，任何特征信息（包括无用的干扰与纹理）都被检测出来，容易造成误判，如图15（a）所示。若检测阈值设置过大，容易漏掉重要边缘信息而造成误判，如图15（c）所示。只有在选择合适的检测阈值时才能既保留重要的边缘信息，又能有效滤除干扰纹理，如图15（b）所示，这样才能有助于后续的提取特征识别车标，这也是本对比实验的目的所在。

图15 设置不同的检测阈值时边缘检测的效果差异Fig.15 Differences of edge detection effect when setting different detection thresholds

（2）不同Canny算子的检测阈值选取对多种车标边缘检测效果的影响对比实验

①Canny算子的检测阈值为0.3时，经过车标边缘检测后，利用HOG提取车标特征再进行欧几里德距离判别后，华晨汽车被误判为宝马，实验结果如图16所示。

图16 华晨汽车被误判为宝马的结果图Fig.16 Figure of result that BrillianceAuto was mistaken for BMW

②Canny算子的检测阈值为0.15时，经过车标边缘检测后，利用HOG提取车标特征再进行欧几里德距离判别后，华晨汽车被正确识别，实验结果如图17所示。

图17 华晨汽车正确识别的结果图Fig.17 Result chart of correct recognition for BrillianceAuto

③华晨汽车被误判为宝马的原因分析

之所以会出现误判的情况，通过对比宝马与华晨汽车两种车标经过Canny算子进行边缘检测后的结果可以发现，二者的边缘特征都是一个近似圆形的主要轮廓，且这个圆形轮廓均被近似均分为四个扇形，二者的边缘特征非常相近，只有降低检测阈值而保留更多的边缘信息之后才能更好地区分二者，如图18（b）、18（c）、19（b）、19（c）所示。但检测阈值不能无下限地降低，因为对边缘细节的过分追求反而会导致无用的干扰与纹理特征被保留，这又会增加其他车标的误判率。

图18 华晨车标边缘检测效果图Fig.18 Edge detection effect diagram of BrillianceAuto

图19 宝马车标边缘检测效果图Fig.19 Edge detection effect diagram of BMW

3.4 车标识别的实验结果

本节的车标识别实验分成两个部分。第一个实验是为了探究传统图像处理中典型的特征提取方法和边缘检测算法相结合与仅利用本文所重点研究的二维Gabor滤波进行特征提取识别车标在正确率指标上的优劣。第二个实验是在第一个实验的基础上，选择已经测试过的传统实验方案中的最优组合，与本文重点研究的基于扩展高斯差分XDoG边缘检测与二维Gabor滤波提取特征结合的车标识别方案进行对比，以证明本文提出的车标识别方案相较于传统的图像处理有更优的识别效果，其甚至可以与利用智能化算法YOLOv5s网络一步到位识别车标的正确率几乎接近。

3.4.1 基于传统图像处理的车标识别

本小节的实验是为了探究传统图像处理中典型的特征提取方法（例如方向梯度直方图HOG、灰度特征Gray、灰度共生矩阵GLCM等）与当前边缘检测标准算法Canny算子相结合时的车标识别效果。由于本小节的实验目的仅是为了预先性地探究不同传统方法结合时对车标识别正确率的影响，然后基于此预实验的结果选择传统实验方案中的最优组合作为传统算法的代表，进而与本文所提出的YOLOv5网络车标定位多特征融合方案的车标识别效果进行对比，故为了快速地找出传统的基本图像处理方法的最优组合，此时测试的数据集由900张（45类车标，每类20张）减少为315张（45类车标，每类7张），以便快速得到最优组合的参数。传统图像处理识别车标正确率如表2所示。

表2 基于传统图像处理的车标识别正确率统计表Table 2 Statistical table of vehicle logo recognition accuracy based on traditional image processing

基于传统图像处理的车标识别实验结果分析如下所示：

（1）单独利用HOG提取特征与采用“HOG+Gray+GLCM”三种特征融合的两种方法进行车标识别的正确率一致，均为93.65%。虽然特征种类由原来的一种增加到了三种，但是识别正确率并没有任何变化，导致这种情况的原因是HOG特征是1×108 900的行向量，Gray特征和GLCM特征加起来为1×85的行向量，在求解L2范数用以度量欧几里德距离时，Gray特征和GLCM特征起到的作用相比于HOG特征而言极小，作出的贡献可以忽略不计。

（2）利用Canny算子进行车标图像边缘检测后，识别正确率最高可达96.19%，相比于仅利用HOG提取特征而无边缘检测的效果有明显提升。说明经过Canny算子进行车标图像边缘检测后，再利用HOG提取特征可以提高车标识别正确率。

（3）通过“HOG+Canny”这一组对比实验可以看出，若Canny算子的检测阈值过小，则包含无用的干扰纹理在内的特征均被保留下来容易造成误判。若检测阈值过大，容易漏掉重要边缘特征而造成误判。只有在选择合适的检测阈值时才能既保留重要的边缘信息，又能有效滤除干扰纹理，实现对传统HOG方法识别车标正确率的提升。

（4）以检测GMC-吉姆西车标为例，虽然Canny算子结合传统HOG特征进行车标识别可以提高识别正确率，但通过待测车标与标准车标模板的欧几里德距离对比柱状图发现，目标车标与其他剩余44类车标的欧几里德距离差别不如二维Gabor滤波显著，如图20（a）、（b）所示，仍然存在误判的风险，为了稳定起见，实验结果建议使用二维Gabor滤波作为车标特征提取方法。

图20 欧几里德距离对比柱状图Fig.20 Comparison histogram of Euclidean distance

3.4.2 基于XDoG与二维Gabor滤波的车标识别

如表3所示为基于扩展高斯差分边缘检测与二维Gabor滤波提取特征的车标识别正确率统计表。通过分析表中的各行数据，可以得出如下结果：

表3 本文识别方案的车标识别正确率统计表Table 3 Statistical table of vehicle logo recognition accuracy based on recognition scheme of this paper

（1）对比统计表的第1、2、3行可知，未使用任何边缘检测手段的二维Gabor滤波提取特征的识别正确率，优于使用Canny算子、XDoG分别进行边缘检测后利用HOG提取特征的识别正确率。由此证明了二维Gabor滤波具有很好的特征提取效果。

（2）由统计表的第1行与第2行、第3行与第4行分别做对比，由这两组对比可知，与不进行车标图像边缘检测相比，通过边缘检测后再提取特征的车标识别正确率更高。由此证明了边缘检测的必要性。

（3）对比统计表的第2、4两行，可证明扩展高斯差分XDoG比Canny算子进行车标图像边缘检测的效果更好。

（4）对比统计表的第3行至第7行可知，使用扩展高斯差分XDoG且合理调整参数后得到的最佳识别正确率，相较于未使用XDoG进行车标图像边缘检测而言，车标错误识别张数减少为原来的一半，调参之后的最佳识别正确率可达97.56%。由此证明扩展高斯差分XDoG与二维Gabor滤波的结合提升了车标识别正确率。

3.5 车标定位与识别整体实验结果与分析

3.5.1 基于传统图像处理的车标识别

由于车标图像识别是建立在车标定位的基础之上进行的，所以车标识别全过程的整体正确率应该为基于YOLOv5s网络进行车标定位的正确率与基于扩展高斯差分XDoG检测边缘与二维Gabor滤波提取特征进行车标识别的正确率的乘积，整体实验正确率如表4所示。为了更好地证明所提出的“YOLOv5s网络定位车标+扩展高斯差分XDoG检测边缘+二维Gabor滤波提取特征”的YOLOv5网络车标定位多特征融合识别方案的性能，本文还利用YOLOv5s网络一步到位直接完成车标定位与识别与之对比。为了保证实验数据的有效性和可对比性，在利用YOLOv5s网络一步到位识别车标时，仍然采用在扩展高斯差分XDoG检测边缘与二维Gabor滤波提取特征识别车标实验中的900张测试图片集。但与XDoG边缘检测、二维Gabor滤波实验中的900张测试数据集不同的是，用于YOLOv5s网络一步到位识别车标的数据集是前者在单独提取车标区域前的原始汽车图片。

表4 本文定位与识别方案的整体正确率统计表Table 4 Overall accuracy statistical table of positioning and recognition scheme of this paper

实验结果表明，本文所提出的车标图像识别方案在调参之后能达到的最佳车标定位与识别整体正确率为96.91%，与利用YOLOv5s网络直接一步到位完成车标定位与识别的整体正确率97.11%非常接近，且相较于传统图像处理识别车标的正确率有明显提升。

3.5.2 YOLOv5s一步识别与本文方案的结果对比

与利用YOLOv5s网络直接一步到位完成车标定位与识别的方案（记为方案I）相比，本文所提出的车标图像识别方案（记为方案II）在整体识别正确率上与之非常接近，为了更全面精准地分析两种方案的效果差异，本小节专门对两种方案中未被正确识别的车标单独进行了对比研究。图21至图23展示了两种方案各自存在的错误发生情况。通过对比实验结果发现，在方案II车标定位阶段均成功的情况下，同一车标图片用两种方案进行识别的结果不同：有的车标图片通过方案I可以正确识别但是在方案II中识别错误（图21），有的车标图片通过方案II可以正确识别但是在方案I中识别错误（图22），还有一种情况是两种方案在识别同一车标图片时均产生错误（图23）。两种方案在车标整体识别正确率上相差不大，但二者发生错误的原因却不完全相同且值得深入分析。通过本小节对两种方案的错误对比，可以发现两种方案各有所长。在后续的相关研究中可以融合两种方案的优点，利用本文提出方案的技术要点改进YOLOv5s网络以提升车标识别正确率，或者利用YOLOv5s网络的构建思想对传统图像处理以及本文提出的方案进行优化，同时分析两种方案各自的缺点来规避技术缺陷，以便在两种方案的基础上提出更优的车标图像识别方案。

图21 车标定位成功（方案Ⅰ识别正确，方案Ⅱ识别错误）Fig.21 Vehicle logo located correctly（scheme I recognition is correct，and scheme II recognition is wrong）

图22 车标定位成功（方案Ⅰ识别错误，方案Ⅱ识别成功）Fig.22 Vehicle logo located correctly（scheme I recognition is wrong，and scheme II recognition is correct）

图23 车标定位成功（方案Ⅰ与方案Ⅱ均识别错误）Fig.23 Vehicle logo located correctly（scheme I and scheme II recognition are both wrong）

3.6 基于随机森林的车标特征分类结果

将通过二维Gabor滤波得到的车标特征通过随机森林算法进行分类预测，2D-Gabor特征数据集来源于“基于扩展高斯差分XDoG边缘检测与二维Gabor滤波提取特征的车标识别”的数据集（包含5 400张车标图片，45类车标，每类车标120张）经过二维Gabor滤波处理之后形成的5 400个1×1 440维的行向量。

如图24所示为车标数据集-训练集的预测结果，即包含45类车标，每类车标100张图片，经过二维Gabor滤波处理后得到4 500个1×1 440维的行向量。训练集的车标特征分类正确率为100%。为了更加清晰地展示实际车标训练集分类与预测车标训练集分类的结果，图25将训练及预测结果进行了局部放大以展示图像细节。结果图表明，预测车标训练集分类与实际车标训练集分类数据点重合，结果完全一致。如图26所示为训练集混淆矩阵，展示了随机森林模型在45类车标上的预测分类的准确性。

图24 训练集预测结果Fig.24 Training set prediction results

图25 训练集预测结果（放大图）Fig.25 Training set prediction results（enlarged）

图26 训练集混淆矩阵Fig.26 Training set confusion matrix

如图27所示为车标数据集-测试集的预测结果，即包含45类车标，每类车标20张图片，经过二维Gabor滤波处理后得到900个1×1 440维的行向量。图28将测试及预测结果进行了局部放大以展示图像细节。结果图表明，预测车标测试集分类与实际车标测试集分类数据点重合，结果完全一致。如图29所示为测试集混淆矩阵，展示了随机森林模型在45类车标上的预测分类的准确性。测试集的车标特征分类正确率为100%，即车标识别阶段的最终正确率为100%，由于利用YOLOv5s网络进行车标定位的正确率为99.33%，最终通过计算可得车标定位与识别整体正确率为99.33%，相较于进行欧氏距离判别并取其最小者所对应的种类标签索引的方法正确率更高，以此体现了随机森林算法对于高维特征的输入样本在无需降维处理的情况下可达到高准确率的优势。车标识别正确率如表5所示。

图27 测试集预测结果Fig.27 Testing set prediction results

图28 测试集预测结果（放大图）Fig.28 Testing set prediction results（enlarged）

图29 测试集混淆矩阵Fig.29 Testing set confusion matrix

表5 识别正确率对比统计表Table 5 Comparison statistics of recognition accuracy单位：%

4 结束语

本文针对智能交通系统中车标图像识别的重要研究课题，建立了YOLOv5s车标定位网络，分析了图像边缘检测标准算法Canny与扩展高斯差分XDoG进行车标图像边缘检测的差异，设计了用于提取车标图像特征的二维Gabor滤波器，提出了一种YOLOv5网络车标定位多特征融合的车标图像识别方案，实现了对45类常见车标图像的准确识别，最佳识别正确率可达99.33%。本文所提出的车标图像识别方案，在合理调整实验参数之后能达到的最佳车标定位与识别整体正确率超过了利用YOLOv5s网络直接一步到位完成车标定位与识别的方案，且相较于传统图像处理识别车标的正确率有明显提升。本文仍有许多问题需要进一步研究与完善：

（1）需要进一步通过更多的图像处理手段与计算机视觉技术对车标误识别情况进行更加全面的分析。本文仅对实验结果进行了对比展示与分析，后续需增加进一步的实验深入探究导致车标误识别的具体原因，以此来反馈调整已有设计方案中的实验方案、实验步骤及相关参数设置等。

（2）需要在后续的相关研究中融合“YOLOv5s网络直接一步到位完成车标定位与识别”与本文方案二者之所长，可以利用本文所提出方案的技术要点改进YOLOv5s网络以提升车标识别正确率，或者利用YOLOv5s网络的构建思想对传统图像处理以及本文提出的方案进行优化，同时分析两种方案各自的缺点来规避技术缺陷，以便在两种方案的基础上综合性地提出更优的智能交通系统车标图像识别方案。