铁路货车号码图像精准识别方法研究

2023-12-05 07:46吴志伟刘慧贤张佳欢
铁道货运 2023年11期
关键词:车号号码货车

吴志伟,高 达,刘慧贤,张佳欢

(1. 中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081; 2. 中国铁道科学研究院集团有限公司 国家铁路智能运输系统工程技术研究中心,北京 100081)

近年来,我国铁路货物运输持续保持高位运行,对货运列车进行编组及号码核对是提升货运效率的一项有效措施。铁路货车车号是指铁路运输中用于标识货车的编号,通常由字母和数字组成,可以用来标识货车的所有者、类型、用途等信息,在铁路运输系统中具有重要意义,可用于跟踪货物在铁路运输过程中的位置和状态[1],并为物流管理提供重要信息[2-3]。目前,大多数铁路系统使用射频识别(RFID)技术来实现车号的自动识别[4],这种方法能够快速精确识别车号,但需在货车上安装额外的硬件,增加成本。随着人工智能技术的发展,基于计算机视觉的号码识别方法因其高准确率、低硬件成本的特点,受到了越来越多的关注[5-6]。相比RFID,视觉识别方法实现简单,通常不需要额外的硬件设备,维护也可以通过软件更新的方式,节约了成本和预算[7-8]。

目前,基于计算机视觉技术的号码识别方法在铁路运输的应用场景下取得了一定进展,包括通过使用聚类算法改进设计、改进边缘检测,结合先验知识,采用神经网络实现车号单字识别,利用二值图像对号码识别优化等[9-10]。在此基础上,结合铁路货运站场作业的现实情况,基于深度学习算法,设计实现铁路货车的多类别号码识别方法,以更好实现对多类别号码识别功能。

1 铁路货车号码识别流程设计

在铁路货运站场中,货车的号码识别中面临许多挑战。由于长时间工作暴露在户外复杂环境,货车车号容易脏污和损坏,可能导致一些字符难以识别;受自然条件影响,现场拍摄的图像可能存在对比度低、模糊和过度曝光等现象[11];喷涂号码的载体多样,存在不同箱型或采用不同喷涂方式。

针对以上问题,提出一种基于深度学习的铁路货车多类别号码识别方法,铁路货车车号识别流程如图1 所示。该方法通过摄像机等设备采集车辆图片或视频,然后使用计算机视觉技术进行号码识别,方法流程包括图像预处理,使用改进的Faster R-CNN 网络进行车号检测,并利用卷积循环神经网络(Convolution Recurrent Neural Network,CRNN)进行车号识别。

图1 铁路货车车号识别流程Fig.1 Number recognition process of railway freight cars

(1)在图像预处理阶段,采用基于颜色特征的图像预处理方法,强化号码区域的对比度,减弱号牌磨损对识别效果的影响。

(2)在车号检测阶段,主要利用Faster R-CNN为基本框架,Faster R-CNN 是一种常用的目标检测算法,它通过使用卷积神经网络(Convolutional Neural Networks,CNN)对图像进行特征提取,然后使用区域建议网络(Region Proposal Network,RPN)生成候选区域,最后使用这些候选区域来预测目标的位置和类别。车号检测中以Faster R-CNN 为基本框架,通过减少网络参数量,强化目标车号区域特征,多尺度训练策略,以及空间姿态纠正网络,提升网络的训练效率和检测准确率。

(3)在车号识别阶段,将检测出的号码图像输入到CRNN 网络中进行车号的精准识别,其中CRNN网络是一种序列识别模型,可以用于识别图像中的文本。

2 基于颜色特征的图像预处理

铁路货车运行条件复杂,恶劣的运行环境及货物的装卸对于车厢的磨损往往会造成车号字符颜色淡化,会对目标区域的检测造成不利影响。图像预处理是指对图像进行处理以便更好地进行图像识别的一系列操作。在货车车号识别中,基于颜色特征的图像预处理可以用来降低背景干扰,并突出车号区域的对比度,从而提高后续车号检测和识别的准确性。输入图像通常是彩色的,即使用RGB 三通道表示的图像。预处理流程如图2所示。

图2 预处理流程Fig.2 Pretreatment process

(1)图像灰度化处理。将采集到的RGB 彩色图像转换为灰度图像,灰度图中每个像素的值表示该像素在灰度级别上的亮度,降低图像复杂度,突出图像亮度特征。灰度化可以通过平均法、加权平均法等方法实现。

(2)滤波降噪。实际采集的图像会受到大量噪声的影响,为了使图像平滑可以采用滤波的方法来对图像进行增强。因此,在二值化后采用滤波降噪,常用的滤波降噪方法包括均值滤波、中值滤波和高斯滤波等。

(3)图像二值化处理。将灰度图像转换为二值图像。二值化的目的是将图像中的复杂细节信息转换为简单的黑白像素信息,增强图像对比度,将前景与背景分离,使得形态学操作更加高效和准确。二值化可以使用全局二值化、局部二值化等方法实现。

(4)形态学降噪与增强。由于二值化处理会使得图像中出现一些孤立的噪点或细小的区域,因此需要先进行形态学降噪处理,再进行后续的字符定位。在铁路货车车号识别中,采用开运算和闭运算,可以有效地去除车号周围的杂乱噪声和保留车号区域的整体形状。

图像预处理具体流程内各阶段的方法对比如表1所示。根据表1 分析,设计图像预处理具体方法步骤如图3所示。

表1 图像预处理具体流程内各阶段的方法对比Table 1 Comparison of methods used in different stages of the specific process for image preprocessing

图3 预处理具体方法步骤Fig.3 Preprocessing specific methods and steps

3 Faster R-CNN框架下的字符检测

3.1 字符检测整体框架

Faster R-CNN 是一种高效地用于目标检测的深度学习网络,由Ren 等人于2015 年提出,并在随后的工作中不断改进。Faster R-CNN 网络由2 个主要部分组成:RPN 网络、分类和位置回归子网络。RPN 网络通过CNN 网络提取图像的特征,然后通过全卷积层产生大量的候选区域,每个候选区域都是由1 个矩形框来表示。分类和位置回归子网络,则使用这些候选区域,通过CNN 网络预测每个候选区域的类别和位置。最终,Faster R-CNN 网络会输出每个候选区域的类别和位置信息。

Faster R-CNN在通用目标检测领域取得了优异的表现,但是在应用于铁路货车车号区域检测时,该模型并不能直接达到理想的效果,存在以下问题:①Faster R-CNN网络的参数过多,导致实时性不足,检测识别速度较慢;②铁路货车图像数据量小,缺乏充足的样本进行模型训练和测试;③对铁路货车号码在不同姿态下的变形情况不敏感,漏识别和误识别率较高。因此,为了提高Faster R-CNN网络检测的速度和准确率,设计字符检测整体网络架构如图4所示,对Faster R-CNN网络做出深度可分离卷积、前景特征强化及多尺度训练策略、空间姿态纠正网络等方面改进。

图4 字符检测整体网络架构Fig.4 Overall network architecture of character detection

3.2 深度可分离卷积

为了同时满足铁路货车车号识别的实时性和精度要求,在VGG-16 特征提取网络的基础上引入了深度可分离卷积的思想[13],构建轻量级的特征提取网络。这样可以减少网络的运算参数,从而提高识别的效率。深度可分离卷积框架如图5 所示,对于标准卷积层来说,每个输入通道都使用一个特定的卷积核进行卷积运算,并将所有通道的卷积结果求和得到最终输出,而深度可分离卷积与标准卷积层不同,它核心思想是将一个标准的卷积核分解为多个小卷积核,每个小卷积核负责处理输入图像的一个特定的通道,在并行计算中更快地提取图像的特征,从而加速深度神经网络的训练和推理过程。

图5 深度可分离卷积框架Fig.5 Deep separable convolution framework

3.3 前景特征强化及多尺度训练策略

前景特征强化如图6 所示,在模型训练时,对图像预处理后,为了减少标注框内背景区域对目标特征提取的影响,采取保留车号字符及其周围若干像素区域的像素不变,而将标注框内的背景区域像素置零,这样就可以更加专注于对目标特征的学习。

图6 前景特征强化Fig.6 Enhanced foreground features

多尺度训练策略是一种训练机器学习模型的策略,为了提高改进的Faster R-CNN 网络模型的泛化能力,通过训练模型来识别不同尺度的数据,让模型在处理各种尺度的输入时都能表现出良好的性能。具体而言,给定图像的短边尺度分别是480 px,600 px,750 px,800 px,850 px,920 px,锁定图像宽高比对数据集进行尺寸调整。在每批次训练迭代开始前,重新随机更换上述尺度集中的一个尺度,然后将该尺度作为输入给网络进行训练。这种策略可以帮助模型更好地应对多尺度的输入,从而更高效地处理不同输入的铁路货车车号目标定位。

3.4 空间姿态纠正网络

为了应对铁路货车号码在不同姿态下的变形情况,设计并引入了一个空间姿态纠正网络。空间姿态纠正网络如图7 所示,该网络主要由3 部分组成:定位网络、格点生成器、采样器。定位网络根据输入特征图生成空间纠正参数θ,格点生成器根据纠正参数θ得到纠正后像素点与原始像素点的对应关系,采样器则生成纠正后的特征图。通过采用这种方法,可以更好地处理不同姿态下铁路货车号码的变形问题。

图7 空间姿态纠正网络Fig.7 Space attitude correction network

3.5 基于CRNN网络的字符识别

CRNN 网络是一种神经网络架构,它结合了CNN 和循环神经网络(Recurrent Neural Network,RNN)的优势,通常用于手写文本识别、机打文本识别和自然图像的光学字符识别(Optical Character Recognition,OCR)等任务。

卷积字符识别整体网络架构如图8所示。CRNN的核心思想是认为字符识别本质上是对序列的预测方法,CRNN的体系结构通常包括3个模块:卷积层、循环层和输出层。卷积层主要是CNN特征提取器,从输入图像中提取视觉特征信息;循环层的RNN序列模型选用BLSTM,将CNN提取的特征作为输入,并产生一系列隐藏状态,以捕获特征之间的时间依赖性;输出层通常由一个具有SoftMax激活函数的全连接层组成,用于预测可能的输出字符或单词的概率分布。

图8 卷积字符识别整体网络架构Fig.8 The overall architecture of the Convolutional Character Recognition Network

4 实验与结果分析

4.1 实验数据集

对于铁路货车车号识别模型的训练,使用预训练的模型来节省训练时间,并获得较好的初始性能,使模型具有较好的泛化能力。在通用车牌数据集CCPD 上预训练Faster R-CNN+CRNN 模型,以获得较好的泛化能力,然后在自构建的铁路货车数据集上进行微调使其能够更好地适应铁路货车车号识别任务。

(1)CCPD数据集。CCPD数据集是一个用于车牌识别研究的数据集[14],该数据集是采集人员在合肥停车场采集、手工标注得来,采集时间在7:30—22:00 之间。且拍摄车牌照片的环境复杂多变,包括雨天、雪天、倾斜、模糊等。CCPD数据集包含将近30万张图片、图片尺寸为720×1 160×3 channels,共包含8 种类型图片。

(2)铁路货车车号数据集。构建铁路货车车号识别任务数据集,对采集的铁路货车图像经过了多种处理,包括颜色变换、添加噪声、旋转、缩放等,对数据进行扩充[15]。数据集中的图像已经进行了人工标注,即在图像中标出了车号的位置和字符信息,铁路货车车号数据集中不同车型图片数量情况如表2 所示,共有2 300 张包括平车、棚车、罐车在内的货车车号图像,其中1 900 张图片用于号码识别方法训练,380张图片用于号码识别方法测试。

表2 铁路货车车号数据集中不同车型图片数量情况 张Tab.2 Number of pictures of different vehicle models of railway freight car number dataset

4.2 实验结果与分析

(1)评价指标。评价指标是衡量模型性能和效果的重要标准。选用的评价指标包括召回率、精确率、F1 分数等。其中召回率和精确率是二分类问题中常用的评价指标,用于衡量分类器的性能和准确性;F1 分数是综合考虑召回率和精确率的评价指标,可以更全面地评估分类器的性能。

召回率(Recall)表示模型正确预测的正例数量占所有正例的数量的比例,召回率越高,说明模型在识别正例方面的表现越好,其计算公式为

式中:Recall表示召回率。

精确率(Precision)表示模型预测的正例数量占模型所有预测的类别数量的比例,精确率越高,说明模型在识别正例方面的表现越好,其计算公式为

式中:Precision表示精确率。

F1 分数(F1 Score)是精确率和召回率的调和平均值,可以用来衡量模型的总体性能。F1 Score 计算公式为

式中:F1Score表示F1分数。

准确率(ACC)是模型预测正确的类别数量占模型总预测数量的比例,准确率越高,说明模型在识别类别方面的表现越好,其计算公式为

式中:ACC表示准确率。

损失值(Loss)表示预测与实际数据的差距程度,Loss 越小,模型就越准确。采用负对数似然损失函数,计算公式为

式中:Loss表示损失值;X表示输入样本;Y表示X的标签;D表示数据集。

(2)车号检测结果分析。车号检测模型对比如表3 所示,对比2 种车号检测模型在测试过程中的召回率、精确率、F1分数和处理时间,可以看出,研究选用的Faster R-CNN+CRNN 模型检测方法具有较高的召回率和准确率,并且在F1分数上和处理时间上优于Faster R-CNN。这表明,该车号检测网络具有较高的检测准确率和较快的检测速度。

表3 车号检测模型对比Tab.3 Comparision of train No. test models

(3)号码识别结果分析。号码识别测试损失值和准确率如图9 所示,可以看出,在大约50 轮迭代后,模型的准确率达到了0.954 0,平均损失降至了0.027。此外,模型的平均识别速度为20.24 张/s。这表明,该号码识别网络在训练过程中已经达到了收敛,并且具有较高的识别准确率和较快的识别速度。号码识别效果如图10所示。

图9 号码识别测试损失值和准确率Fig.9 Loss and ACC of number recognition model

图10 号码识别效果Fig.10 Number recognition effect

5 结束语

提出一种基于深度学习的铁路货车号码识别方法,旨在解决铁路货运站场中的多类别号牌精准识别问题,该方法运用图像预处理、使用改进的Faster R-CNN 网络进行车号检测、使用CRNN 网络进行车号识别。实验选取公开数据集CCPD 对深度学习模型进行预训练,再通过目标铁路货车数据集对模型进行精准微调,实验结果表明,提出的方法对多种类别号牌有较高的识别准确率,在喷涂磨损、光照不足等多种不良条件下均能保持良好的性能。经过进一步训练和验证,本研究方法也可用于集装箱箱号、汽车车牌号的识别,未来可在识别方法应用广度上进行进一步探索研究。

猜你喜欢
车号号码货车
货车
基于最近邻值和枚举法的车号字符分割及拼接方法*
铁路车号识别设备太阳能供电技术的探讨
说号码 知颜色
基于数学形态学与投影法的高速列车车号定位研究
一个号码,一个故事
猜出新号码
动车组车号识别与定位仿真子系统的研究
货车也便捷之ETC新时代!——看高速公路货车ETC如何实现
推货车里的爱