蔡梦倩,张蕾,王炎,莫娟
(四川大学计算机学院,成都 610065)
如今,数字仪表在各行各业都有着广泛的应用,由于历史遗留原因、成本控制考虑、设计需要等因素,仍有相当一部分的仪表不提供与计算机进行数据通信的接口,需要人工录入仪表读数。人工录入仪表读数需要消耗大量的人力和时间,且结果易受认为因素的干扰。相比之下,根据实时监控捕获仪表图像,再利用字符识别方法识别仪表图像中的读数就显得更加便捷。
数字仪表中的读数通常包含多个字符,传统方法[1-2]首先通过定位确定字符串的位置,再将字符串分割为单个字符后进行识别。整个过程比较繁杂,且识别结果容易受预处理过程中定位和分割效果的影响。如果我们对数字仪表图像实现像素级的预测,预测结果同时包含位置信息和类别信息,我们就可以综合二者直接得到字符串的结果。
本文提出一种基于全卷积网络的数字仪表字符串识别方法。该方法通过全卷积网络实现了图到图的像素级预测,同时实现了字符的定位、分割与识别。并且,通过加权混合特征学习融合了全卷积网络中多尺度多层级的特征,使预测结果很好地综合了位置信息和分类信息,从而得到准确的字符串识别结果。我们采用了包含有多类数字仪表的数据集来展示基于加权混合特征学习的卷积神经网络方法在数字仪表字符串识别上的出色表现。实验结果表明,该方法能够在省略复杂的预处理过程的前提下,由数字仪表图像直接得到仪表中字符串的识别结果。
本文的主要贡献如下:
(1)我们提出了一种基于加权混合特征学习的全卷积网络H-Meter,利用像素级的预测解决了数字仪表字符串的识别问题;
(2)通过加权融合全卷积网络中多尺度多层级特征的方式,优化网络结构,使像素级预测结果在位置信息和识别信息上都有很好的表现,提高字符串的识别的准确率;
(3)应用相关数据集的实验结果表明基于加权混合特征的全卷积网络能够直接、准确的识别字符串。
一直以来,对于数字仪表字符识别的研究工作都十分丰富.这些工作所提出的方法基本都包含三个阶段:字符区域定位、字符分割和字符识别。
字符的定位和分割通常通过一定的阈值对图像做二值化处理,对二值化后的图像进行行扫描和列扫描,利用行扫描和列扫描的结果确定字符串的边界以及字符串中每个字符的分界点[14-17]。这种预处理方法容易受到噪声的影响,从而无法获得正确的字符分割结果。
在字符识别阶段,通常采用两种方法:模板匹配方法[14-15,17]和神经网络方法[3,18]。模板匹配通过人工的字符模板进行字符识别,神经网络方法通过训练进行特征提取实现字符识别。相比之下,模板匹配方法的抗噪能力较弱,例如,不均匀光照、角度倾斜等因素可能会导致字符形变或缺损,在这些情况下,模板匹配方法的识别率就会受到严重的影响。在实际应用的过程中,这些干扰因素是难免的,这就使得神经网络方法更具优越性。但是,无论是模板匹配方法,还是神经网络方法都会受到预处理结果的影响。
本文提出的基于全卷积网络的数字仪表字符串识别方法,通过图到图的预测,不依赖于预处理方法,直接实现字符的定位、分割与识别。并结合加权混合特征学习,使了全卷积网络在数字仪表图像上具有更好的预测效果和更强的鲁棒性。
在本节中,主要介绍一种基加权混合特征学习的全卷积网络,并将其应用于数字仪表字符串识别中。
总结传统方法解决数字仪表字符串识别的思路:首先,需要确定每个字符的位置;然后,再对每个字符进行逐一识别。如果我们能够用一个方法同时解决这两个问题,将极大简化数字仪表字符串识别的解决过程。
2015年,J.Long等人利用卷积层替代传统卷积神经网络中的全连接层以得到图到图的预测的方法[7],很好地解决语义分割问题。如果利用全卷积网络对原始数字仪表图像实现像素级的预测,使得预测结果与原始图像中的元素一一对应;那么,我们就可以根据预测结果的分布情况确定背景区域和各个字符区域,并根据每个字符区域内的预测结果确定该字符的分类。由此,设计了用于解决数字仪表字符串识别的全卷积网络。
该网络通过卷积层和池化层进行特征提取[5]。由于图像有其固有特性,图像一部分的统计特性也可作用于其他部分上,这意味着对于图像上所有的区域,我们都能使用同样的学习特征[8]。通过借鉴视觉神经系统中感受野的概念,利用卷积核大小为3×3的卷积层不断地学习图像不同尺度的特征,卷积层的权值共享和局部连接的特性,大大减少了网络的计算量。再通过池化层对数据进行降维操作,该网络采用最大池化方法,也就是计算邻域内特征点的最大值,来得到输入的概要统计,这些概要统计不仅相比输入具有低得多的维度,而且保持了输入的特征不变性,进一步减少了网络的计算量。卷积层和池化层的相关参数信息如表1所示。
表1 网络的层级信息
为了能产生图到图的像素级预测,需要保证网络的预测结果要与原输入图像元素对应,即预测结果为与输入图像尺寸一致的预测图。在每一层卷积之前都对输入进行padding操作,保证卷积层的输入输出图像尺寸一致;利用卷积核大小为1×1的卷积层替代全连接层得到图像级预测结果,即网络结构中不包含全连接层;在最后一层卷积层后添加反卷积层实现上采样操作将由于池化层下采样操作逐层变小的特征图恢复到原图尺寸,这一过程看作是一个“反向卷积”的过程,其反卷积核的参数也是可学习的。最后,通过Softmax层对每一个像素实现分类。
综上所述,我们就实现了可以得到数字仪表图像的像素级预测的全卷积网络F-Meter,可以用于直接提取数字仪表中字符串的识别结果。
当我们直接使用F-Meter进行数字仪表字符串的识别时,我们会发现预测结果在位置信息上的表现并不理想。这是因为直接将特征图放大到原输入图像的尺寸,会导致其变得非常模糊。为了解决这个问题,我们将网络较低层级的输出特征也直接作为预测结果的参考。虽然,网络较低层级还不能够很好地提取识别信息,但是,其输出特征对于局部信息有很好地保留,有助于提升预测结果在位置上的表现。
我们连接了Conv1_2、Conv2_2、Conv3_3和Conv4_3到融合层,实现网络对多尺度多层级混合特征的学习,再利用融合层输出的融合特征进行预测。在融合方式上,我们选用加权融合(weighted-fusion)的方式,以防止过多的参考低层特征反而影响预测结果在识别信息上的表现。首先,我们会对Conv1_2、Conv2_2、Conv3_3和Conv4_3输出特征分别进行加权融合,融合后的特征作为各个层的层级特征(Level Feature)。然后,对层级特征进行上采样操作,保证所有的层级特征的尺寸都与原输入图像的尺寸一致。最后,将尺寸一致的层级特征进行加权融合得到融合特征,并通过Softmax分类层得到分类结果。图1展示了加权混合特征学习的过程。
在本节中,我们使用本文所提出基于混合特征学习的全卷积网络H-Meter识别数字仪表中的字符串,并在包含有多类数字仪表的数据集[12]上测试了我们的方法。
本文所提出方法的性能通过字符的精度P(Precision)和召回率R(Recall)来度量。将字符根据真实类别与预测类别字符的组合划分为四类:真正例、假正例、真反例、假反例。精度,亦称查准率,在字符识别问题中代表被正确预测地某类字符的数目占被预测为该类字符的数目的比例。召回率,亦称查全率,代表被正确预测地某类字符的数目占该类字符真实数目的比例。精度和召回率的公式定义如下:
精度和召回率是一对矛盾的度量.一般来说,精度高时,召回率往往偏低;而召回率高时,精度往往偏低。为了能够综合考虑精度和召回率,我们还通过精度与召回率的调和平均F1度量来进行模型间的评估,F1的公式定义如下:
由于本文所提出的方法直接实现字符串端到端的预测,所以我们也通过字符串的准确率A(Accuracy)来反映其性能。字符串的准确度代表被正确预测的字符串的数目占字符串总数目的比例,其公式定义如下:
其中,TrueStr代表被正确预测的字符串,FalseStr代表被错误预测的字符串。
图1 加权混合特征学习过程
我们将在包含有多类数字仪表的数据集上测试我们的方法。该数据集[12]由赵凯等人收集整理,共计11385个样本,其中包含5类数字仪表样本,不同类别的仪表样本包含的字符串长度和字体都有所不同,这些样本是灰度化的3通道图片,图片的尺寸50×160,图3展示了数据集的部分样本。
我们将在包含有多类数字仪表的数据集上测试我们的方法。该数据集[12]由赵凯等人收集整理,共计11385个样本,其中包含5类数字仪表样本,不同类别的仪表样本包含的字符串长度和字体都有所不同,这些样本是灰度化的3通道图片,图片的尺寸50×160,图3展示了数据集的部分样本。
图2 数据集中的部分样本示例
由示例样本可以看出数字仪表数据集中大量存在光照差异、字符串倾斜、字符扭曲等现象,增加了数字仪表的字符识别的难度。但是,经过实验表明,本文所提出模型依旧能够准确、高效地识别数字仪表识别中的字符串。
由于H-Meter实现图到图的预测,其预测结果为11×50×160的矩阵,对应11个分类(10个数字类和1个背景类),为了从矩阵中字符串结果作为最终输出,我们需要利用算法1进行字符串提取。
算法1预测矩阵字符串提取算法
输入:预测矩阵Matrix,阈值t;
输出:数字字符串结果Str.
将Matrix小于t的元素置0;
for 10个数字i
subMatrix=Matrix(i,50,160);/* 提取 Matrix中数字 i对应的部分*/
查找subMatrix中的连通区域作为字符团,舍弃掉过小的团;
for subMatrix中团的个数K
Str←i;/*将第k个字符团的值加入到字符串中*/
end for
end for
对Loc中的坐标进行排序;
根据Loc中坐标的排序,获得顺序正确的字符串Str。
本小节利用两组实验来验证我们提出的方法的可行性和准确性该数据集并没有划分训练集和测试集,所以我们按照1:9的比例将数据集随机的划分为测试集和验证集。其中,测试集包含1139张数字仪表图片,训练集包含10246张数字仪表图片。
实验1验证层级特征融合的必要性。在这个实验中,我们比较了2.1中所提到的不包含层级特征融合的全卷积网络F-Meter和基于加权混合特征融合的全卷积网络H-Meter,并在表2中列出了二者在测试集上的字符精度、召回率、F1度量和字符串准确率。精度、召回率和F1度量取各个字符类的均值。
表2
实验结果表明,H-Meter在字符精度、召回率、F1度量和字符串准确率上都要远高于F-Meter,证明网络较低层级虽然还不能够很好地提取抽象特征,但是其对于局部信息有很好地保留,合理地融合较低层级的特征输出对于最终结果的提升有很大帮助。
实验2验证加权混合特征学习的有效性。我们对比了基于平均混合特征学习的全卷积网络和基于加权混合特征学习的全卷积网络在预测结果上的表现,并结合精度、召回率等性能度量进行比较比较。基于平均混合特征学习的全卷积网络,通过对池化层的特征输出进行不断地上采样操作并累加的方式实现。
表3
实验结果表明,虽然同样融合了较低层级的特征,但是,平均混合特征学习在测试集上的表现远不如加权混合特征学习在测试集上的表现,甚至过度的依赖低层特征影响了识别结果。所以,对于较低层级的特征也要有学习的进行融合。
本文提出了一种基于全卷积网络的数字仪表字符识别方法.通过图像端到端像素级的预测,能够省去繁琐的字符识别预处理过程,直接得到字符串的识别结果。实验结果表明,本文提出的数字仪表字符方法能够准确、高效地识别自然场景下仪表中的字符串。
参考文献:
[1]T.E.de Campos,B.R.Babu,M.Varma.Character Recognition in Natural Images[J].In Proceedings of the International Conference on Computer Vision Theory and Applications,Lisbon,Portugal,February 2009
[2]T.Yamaguchi,Y.Nakano,M.Maruyama,H.Miyao,T.Hananoi.Digit Classification on Signboards for Telephone Number Recognition[J].In ICDAR,pages 359-363,2003.
[3]Yujie Liu,He Huang,Jinde,Cao,Tingwen Huang.Convolutional Neural Networks-Based Intelligent Recognition of Chinese License Plates.[J]Soft Computing,2017,2(2):1-17.
[4]P.Dollar,C.L.Zitnick.Fast Edge Detection Using Structured Forests.PAMI,2015
[5]K.Simonyan,A.Zisserman.Very Deep Convolutional Networksfor Large-Scale Image Recognition[J].In ICLR,2015.
[6]G.Bertasius,J.Shi,L.Torresani.Deepedge:A Multiscale Bifurcated Deep Network for Top-Down Contour Detection[J].In CVPR,2015.
[7]J.Long,E.Shelhamer,T.Darrell.Fully Convolutional Networks for Semantic Segmentation[J].In CVPR,2015.
[8]http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial l
[9]S.Xie,Z.Tu.Holistically-Nested Edge Detection.In Proc[J].ICCV,pages 1395-1403,2015.
[10]P Sermanet,S Chintala,Y LeCun.Convolutiona l Neural Networks Applied to House Numbers Digit Classification[J].Pattern Recognition.In ICPR.
[11]Lecun,Y.;Bottou,L.;Bengio,Y.;Haffner,P.Gradient-Based Learning Applied to Document Recognition[J].In Proceedings of the IEEE.pages.2278-2324,1998.
[12]http://o7zt4a6os.bkt.clouddn.com/digit_data.zip
[13]https://github.com/SHUCV/digit
[14]G Qingyu,G Yongfeng.Digital Meter Identify Based on Local Orientation[J].In International Conference on Intelligent Computation Technology and Automation,pages 110-113,2010.
[15]Wei,Bi Gui;Chang,Qing;Yan,Cai Yun;Zhang,Guo Zhen.Recognition System for Digital Meter Dynamic Display from Video Based on MATLAB[J].In Advanced Materials Research.pages 2183-2186.
[16]Tu,Zhen Yuan;Ning,Fang Hua;Yu,Wu Jia.Study about Recognition of Digital Meter Dial Reading Based on SVM[J].In Applied Mechanics and Materials.pages 194-197.
[17]Bin,Ma;Xiangbin,Meng;Xiaofu,Ma;Wufeng,Li;Linchong,Hao;Dean,Jiang.Digital Recognition Based on Image Device Meters.[J].In Second WRI Global Congress on Intelligent Systems.pages 326-330.2010.
[18]Zhao,Li-meng,Zhang,Yun-zhou,Bai,Qiu-shi,Qi,Zi-xin,Zhang,Xin-tong.Research of Digital Meter Identifier Based on DSP and Neural Network[J].In IEEE International Workshop on Imaging Systems and Techniques.pages 402-406.2009.