杨创富,张昕,海燕,周飞,陈荣演,邱天
(1.五邑大学智能制造学部,广东江门 529020;2.江门市消防局江门市消防救援支队,广东江门 529020)
由于在复杂环境下,传统的图像处理方法容易受强光、雨水、雾霾天气等环境因素的影响,车牌识别准确率如何提升一直是研究的重点。文献[1]提出基于Gabor 滤波多特征融合车牌定位算法,但该方法耗时严重。文献[2]提出了一种基于支持向量机(SVM)的车牌识别方法,该算法有较好的效果,但仍有进一步提升空间。文献[3]提出了一种采用HSV颜色空间与边缘信息结合的方式,但精度仍可提高。为了获得更高的准确率,该文在分析现有算法的条件下,考虑到深度学习分割算法可自动提取图像的有效特征[4-5],有效应对不同环境下的识别问题,故选其作为研究对象。
近年来,在人工智能领域飞速发展的深度学习算法在分割研究应用层面备受青睐。如FCN[6]分割网络是深度学习分割网络最基础的结构,其提出的上采样反卷积网络搭建,卷积网络采样跳跃连接,累加融合特征图像素值等方法,是UNet 网络的借鉴部分。UNet[7]承继前者网络的优点,同时也增加了编码器(enconde)和解码器(decode),通过在通道上进行拼接,在一定程度上加深卷积层数,实现对特征层的信息有效提取。
通过对前人在分割领域使用的深度学习算法进行研究[8],考虑到注意力机制有利于重点信息的提取,并可抑制非重要信息的获取。为了更准确地实现车牌区域分割的目标,将cSE 注意力机制[9]模块融入到UNet 网络,构建cSE-UNet 网络模型,在自建车牌数据集进行对比实验。
UNet 整体为Encoder-Decoder 的结构,主干特征提取网络分五次卷积池化来提取特征信息。提取到最后的特征层再进行五轮上采样,同时每一轮上采样都要和之前同层下采样网络进行堆叠,以达到增强网络特征信息提炼的能力,有效实现边缘特征值的传递。最终获得的特征图经过一个1×1 的卷积层压缩为一层,通过Sigmoid 激活函数运算生成概率,可对输入进来的图片每一个像素点进行判断,最终预测结果呈二值图像显示。UNet网络结构如图1 所示。
图1 UNet网络结构
压缩和激励网络模块(cSE-Net) 是源自于SENet[10]的改进,不同之处在于全连接层的升降维度值降为1/2,经大量数据的对比实验,效果会更好。cSE 模块主要分为挤压操作(Squeeze)和激发操作(Excitation)。特征图通过全局平均池化,从[B,C,H,W]变为[B,C,1,1],通道数保持不变,但空间大小变为1×1,其中,H和W分别为特征图的高和宽,B是批次数,C为特征图的通道数,U为输入特征图。池化后的特征图先进行1×1 卷积,把输入的通道数变为1/2,这部分和原来SENet 的1/16 不同;再进行1×1 卷积,把输入通道恢复到原来的状态;最后获得的特征图通过Sigmoid 激活函数调整权重值为[0,1]之间,再和原来的feature map 相乘,这是整个注意力机制cSE的原理流程,在这过程中特征图被赋予不同的权重值,实现对特征信息有效重构。其设计方案如图2所示。
图2 cSE模块设计方案
鉴于UNet 采用encoder-decoder 形式,先进行下采样,然后进行上采样,得到与原图一样大小的方法[11]。实验主要对编码部分的下采样层每个池化部分前面均添加cSE 模块进行改进,其中每个下采样层由三个模块(2 个3×3 卷积层+1 个cSE 模块+1 个2×2 最大池化层)实现。这种增加cSE 模块改进方式有助于对feature map 信息的提炼[12],重构特征信息,抑制非重要信息的利用,增强训练网络的能力。该文设计的cSE-UNet 网络模型,其整体结构如图3所示。
整体算法流程是先对图片进行编码,进行2 个3×3 卷积特征提取,融合1 个cSE 注意力层,再进行一个2×2 池化下采样,这样的模块组合重复四次。输入的图片大小开始为512×512,经过编码会变为256×256、128×128、64×64、32×32 四种不同尺寸。获得下采样最小尺寸32×32 特征图后进行反卷积,尺寸变为64×64 大小,同时把上采样获得的特征图再和之前同层的下采样相同维度大小的特征图进行通道拼接(skip connection),这样的上采样模块重复四次,即可把图片解码成与输入大小相同的分割特征图,最后一层经过1×1 卷积核进行分类,使用Sigmoid激活函数,对feature map 进行概率预测,划分出背景和车牌区域信息,实现对车牌的分割。
该文以1 800 张汽车车牌照片为对象,其中一部分来自网络收集,一部分来自于现场拍摄。图片拍摄环境包括雨天、雪天、雾天、晚上、倾斜角度等复杂状态下进行。车牌图片集如图4 所示。
图4 汽车车牌数据
根据UNet 网络训练所需的图片大小,通过程序统一把图片大小裁剪为512×512像素。再用LableMe软件对车牌图片进行人工标注,运行相关程序把图片划分为原图片和掩码标签两部分,再把掩码标签部分图像二值化,二值化图像有助提升训练的稳定性。最后由两部分图片文件随机生成200 张验证数据集和1 600 张训练数据集。标注效果如图5所示。
图5 标注数据集处理
预测结果指标类型如表1 所示,TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。
表1 预测结果指标类型
由于Miou 在所有分割度量之中代表性强,易于理解,选择其作为测试度量的标准之一。Miou 定义是计算真实值和预测值的交值与其两并集之比,其计算方法如下:
其次也辅助,采用Dice 相似系数加以衡量,其原理是计算预测结果和真实分割标签进行对比,得出重叠度。Dice 相关系数越大,表示的车牌分割效果越好,其公式如下:
召回率(Recall)用于表示对待分割目标的分割覆盖率,即表示所有正例中被正确分割出来的比例,召回率越高,代表分割的准确目标越多。
该文选用BCE 损失函数来优化网络参数,其中BinaryCrossEntropyLoss 即为BCELoss 函数,该损失函数主要用于二值分类问题,通过评估分割预测值和标签值的差异程度,使得网络训练对反馈信息进行及时调整。损失函数值越低越稳定,说明训练的结果越趋于准确。BCELoss 公式如式(4):
其中,N为迭代的次数,yi为0 或者1,p(yi)是输出属于yi标签的概率。二元交叉熵是评估训练和测试结果的好坏程度,概率p(yi)值越接近1,损失函数Loss 的值越接近0。
实验条件如表2 所示。
表2 实验运行环境配置
训练采用Admin 优化器,学习率为0.001,损失函数采用二分类交叉熵损失(BCELoss),训练的batchsize 为4,经过100 轮训练后,根据损失函数和评价指标,训练的Loss 值不断下降最后趋于一个稳定值,损失值为0.1,如图6 所示。其他指标如Dice 系数稳定在95%,Miou 达到89%,训练整体收敛,达到较理想的状态,保存最好模型。cSE-UNet 网络训练的Dice 和Miou 值变化如图7 所示。
图6 损失函数Loss值变化图
图7 Dice和Miou值变化图
为验证该文算法的准确性,分别和当前在车牌分割领域有较高准确率的主流分割网络(FCN[6]、CeNet、ResNet[13]、UNet、Attention-UNet[14]、GAU-UNet[14]、CBAM-UNet[15]等)在该文数据集上进行测试对比,实验结果如表3 和4 所示。
表3 主流分割网络实验对比
表4 增加注意力模块实验对比
从表3 和4 可以看出,在平均Dice 系数和平均交并比值(Miou)上,该文方法都明显超越以往的主流深度学习分割网络,FCN 网络在各指标上表现较差。原始UNet 在整体分割中的召回率为84%,Dice 系数为71%,平均交并比Miou 为65%,从数据来看,对于UNet 网络增加Resnet 模块或注意力模块(CBAM[16]、GAU、cSE)都会在一定的程度上提高分割的准确性,训练结果都比原始的UNet 有提高。而表现最好的是该文的cSE-UNet分割网络,其中,召回率(Recall)、Dice 系数值和Miou 明显分别比原始UNet 提高了10%、16%、15%,整体也比其他主流分割网络有较大的提升。CBAM-UNet 整体略低于cSE-UNet,也说明在某些方面CBAM 模块和cSE 模块有相通之处,但cSE-UNet 适应性更好。
如图8 所示,UNet 网络对车牌分割结果有些地方分割不全,一些部位被忽略,整体分割较为粗糙。而对UNet 网络增加注意力机制cSE 模块能有效提升训练的准确性,整体效果更好。其中,CBAM 和cSE模块效果较为相似,从数据上看,cSE 模块的准确率只比CBAM 模块高几个点,但从分割效果来看,CBAM 分割出的位置太多了,有些不是车牌部分也分割出来,而cSE 网络模块分割效果恰到好处,故添加cSE 注意力机制更有效,提升的准确率更大,分割出来的边界更加平滑。综合以上的评估结果,cSEUNet整体效果优于其他分割算法。
图8 UNet各改进系列分割结果对比
为提升在复杂环境下车牌分割的精度,该文提出一种基于注意力机制的改进UNet 网络算法。首先,筛选注意力模块,其次,对UNet 增加cSE 模块,最后,对比其他改进算法实验,相较原创UNet 网络有大幅提升,Dice 系数值从71%提升至87%,Miou 从65%提升至80%,比其他主流(FCN、Res-UNet、CBAM-UNet)分割方法也有明显的提升,证明cSE 模块方法在车牌分割领域是有效的。未来为进一步提升在复杂环境下网络分割的准确性和稳健性,将会加大数据集的训练,以及引进多种优化函数,增强网络各方面的性能。