朱 彬,薛路强,谭守标
(1.国网安庆供电公司 安全监察质量部,安徽 安庆 246000;2.安徽大学 计算智能与信号处理教育部重点实验室,安徽 合肥 230039)
一种改进的数字图像定位识别方法研究
朱 彬1,薛路强2,谭守标2
(1.国网安庆供电公司 安全监察质量部,安徽 安庆 246000;2.安徽大学 计算智能与信号处理教育部重点实验室,安徽 合肥 230039)
针对图像视频中数字自动识别处理的需求,提出了一种改进的数字区域定位及读数识别方法。该方法使用自适应阈值进行图像整体二值化,然后设计改进的笔画宽度变化算法(SWT)来确定仪表数字显示的大体位置,再根据数字的颜色、宽高比以及空间排列等特征来过滤得到准确位置,并使用多层次扩展合并处理方法去除遮挡粘连影响,实现读数区域的精确定位,效果理想。最后对数字区域提取多种高区分度特征,通过训练好的多分类模型即可准确识别得到对应数字值,实现图像视频中读数的自动识别。实验结果表明,该方法具有很高的准确度及较强的鲁棒性,能避免光照、倾斜、部分遮挡的影响,准确找到读数区域,并据此识别出其中的数字,适用于自动巡检、远程抄表等多种应用。
笔画宽度变换算法;读数精确定位;多层次扩展合并;读数识别
图像视频自动分析处理技术逐步成熟,将对各行各业的自动化生产起到巨大作用。在针对图像视频的分析处理中,有大量的数字识别处理任务,如各种数字式仪表的读数识别处理[1]、指针式仪表中刻度数据的识别处理[2]、车牌号码识别处理[3]等等[4-6]。特别是有些设备工作环境恶劣,或仪表没有提供数据通信的接口,采用人工抄表的方式效率低下,而要实现自动监测,利用计算机视觉来自动识别仪表读数[7-8]是一种可行方式。由于视频受到角度、光照、遮挡等各方面因素的影响,现有大部分算法的实用性仍需进一步提高。
目前已经存在一些基于机器视觉的仪表数字自动识别系统,在数字示值区域定位上也有很多学者做出了努力。唐轶峻等[1]提出运用区域生长算法定位仪表图像中的数字显示区域,并取得了较好效果。苑玮琦等[9]利用改进曲率空间角点检测液晶边框顶点的方法定位示值区域。实际上仪器仪表上的显示数字一般为八段数码管或LCD屏,数字规整,笔画宽度均匀,理想情况下,笔画宽度变换算法(Stroke Width Transform,SWT)[10-11]可以取得不错的效果。
文中采用改进的SWT算法,辅助于形状、颜色、空间排列等特征进行区域过滤,去除光照、遮挡等的影响,使找到的区域更加准确。经过倾斜校正后提取多种高区分度特征,通过训练好的多分类模型即可准确识别得到结果。总体流程如图1所示。
图1 系统流程
笔画宽度变换是以边缘图像为基础的,生成的边缘图像的质量直接决定了后续笔画宽度变换的效果。所以图像预处理的目标是使生成的边缘图像尽可能只包括数字的边缘,并且边缘闭合,其步骤主要包括平滑滤波和Canny[12]边缘检测。平滑滤波的主要作用就是平滑掉小的噪声,避免在边缘检测时生成过多边缘。
文中使用高斯滤波,对比滤波前后经过边缘检测后的图片可见,许多小的噪声被过滤掉了,为后续处理打好了基础。
笔画宽度变换是由Boris Epshtein等[10]提出用于检测与定位自然场景下的字符[13-14]的一种有效算法。其主要根据字符的笔画宽度大体一致,因此通过像素的笔画宽度信息就能定位图像中可能的字符区域。
根据数显式仪表数字特点,改进计算过程主要分三步:
(1)边缘点对查找:在对原图做边缘检测得到边缘图像之后,结合原二值图像中的区域连通特点,向笔画内部计算每个像素点的梯度,并沿梯度及相近方向寻找对边的边缘像素,以找到的最近的边缘像素与原像素点构成一对有效的点对,如图2所示的p和q。一方面,由此计算笔画宽度更为准确,另一方面,能解决在笔画转折点处无法获取正确笔画宽度的问题。
(2)笔划宽度赋值:遍历在有效的点对之间线段上的所有像素,若该像素没有被赋予过笔画宽度值,则赋予笔画宽度值w,若已赋予过宽度值,则与当前值比较,取较小的作为笔画宽度值,即坐标(x,y)处的像素值s(x,y)的计算方法如下:
图2 改进的SWT原理示意
(1)
(3)笔画区域过滤:计算每个连通区域面积及其内所有像素点记录的笔画宽度的平均值,计算笔画长度,滤除超长区域。对余下区域进行笔画宽度限峰滤波,计算笔画宽度均方差,设定阈值可滤除大部分非笔画区域。
改进SWT的处理结果如图3所示。
图3 改进SWT的处理结果
经过笔画宽度检测后,背景大部分被滤掉,数字区域得到保留,还需要根据数字的外形,以及颜色特点制定一些规则初步过滤不是数字字符的元素。该方法主要规则如下:
(1)最重要的一条就是数字字符内部的笔划粗细均匀,方差较小,计算元素内部所有像素的方差,过滤掉方差太大的元素。
(2)一般数字的外接矩形不会重叠,更不会相互包含,内部包含其他元素的一般为显示屏边框。所以过滤掉外接矩形内有其他外接矩形的元素。
(3)数字外接矩形的高宽比例一般不会超过1∶5。
(4)太大或太小的元素会被当作噪声过滤掉。
图4 数字区域精确定位
经过单个字符元素规则过滤后,根据字符之间的关系进行更加精确的定位。
(1)仪表上的显示数字一个重要的特征就是它们横向成行排列。
(2)它们有相近的笔画宽度,这里一行内的字符宽度之比必须小于2。
(3)计算每个字符的颜色均值,同一行内的数字颜色应该是相同的。
(4)空间上,两个字符也应该邻近,这里将邻近定义为:
(2)
其中,centera.x为centera.y分别为字符a的外接矩形中心的坐标x,y;widtha和heighta分别为字符a外接矩形的宽和高。
在没有遮挡的情况下使用上述定位规则效果良好。但从图4(a)可见,由于数码管左下角标签的遮挡,使得标签边缘与数码管形成了连通域,导致左侧数字在合并字符串时会被过滤掉,因此在处理的时候,会在成串之后多层次地向数字排列的左方和右方检测是否需要合并,及是否有漏掉的字符存在。若存在,会向左或右延伸一个字符的长度,最终得到的结果如图4(b)所示。
多层次扩展合并算法流程如图5所示。
图5 遮挡粘连多层次扩展合并处理算法流程
从实验结果可见,即使背景复杂,所有的数字区域均能被正确定位,表明了算法的有效性。
部分图像由于拍摄角度的原因,数显区域是倾斜的,由于获得的区域为文字的最小包围矩形,因此可以根据最小包围矩形的倾斜角度对显示数字进行校正,校正后笔画基本上横平竖直。
由于不同图像中数字显示形式、大小、方向、光照等都不一样,为稳定地识别这些数字,先提取高区分度特征,再使用机器学习的方法进行模型训练和识别。
(1)提取特征。
笔画投影特征:统计每个字符横向和纵向投影上的笔画像素值并进行归一化处理,得到笔画投影特征。
分块统计特征:将每个字符按一定横纵向重叠度分割成多块,统计每块内的笔画像素值并进行归一化处理,得到分块统计特征。
连通区域数量特征:统计每个字符的连通区域,左右两半、上下两半的连通区域的数量。统计时将区域适当扩充,使得连通区域数量特征更加稳定。
DenseSIFT特征:将每个字符按一定横纵向重叠度分割成多块,对每一块提取SIFT特征[15],归一化后得到DenseSIFT特征。
(2)训练:采集大量不同视角、不同光照条件、不同远近拍摄的样本图片,提取上述特征,拉直为一维向量,使用径向基核SVM[5,16]训练多类模型。0~9每个数字是一类,其他文件为一类。
(3)识别:对测试图片用同样的方法提取特征后组合成一维向量,使用分类模型进行分类,识别出具体数字。
识别结果如图6所示。
图6 识别结果
由于图像视频中数字种类繁多,显示字体及颜色多变,实际工作环境光照条件也各有不同,改进SWT算法应用到数显仪表识别中,由于其主要根据数字的笔划宽度信息定位数字,并根据数显区域多种特征规则过滤得到显示区域,因此可以有效克服上述问题。采用多层次方法进行数字区域扩展能去除遮挡粘连影响。实验结果表明,该方法在处理多种数显仪表上具有很高的适应性,能准确找出数字区域。随后提取多种高区分度特征,通过训练好的多分类模型即可准确识别得到最终数字值,实现图像视频中读数的自动识别。
[1] 唐轶峻,申小阳,朱雯兰,等.基于BP神经网络的数显仪表动态字符识别系统[J].光学仪器,2005,27(6):62-66.
[2] 宋 伟,张文杰,张家齐,等.基于指针区域特征的仪表读数识别算法[J].仪器仪表学报,2014,35:50-58.
[3] 张国敏,殷建平,祝 恩.一种基于区域熵值的车牌定位方法[J].计算机工程与科学,2004,26(5):31-33.
[4] 董亚南,高晓智.基于CS的Hopfield神经网络数字识别应用[J].计算机系统应用,2015,24(7):132-136.
[5] 李 琼,陈 利,王维虎.基于SVM的手写体数字快速识别方法研究[J].计算机技术与发展,2014,24(2):205-208.
[6] 李 开,陈礼安,曹计昌.基于灰度多值化的身份证号码识别[J].计算机工程与应用,2015,51(13):191-196.
[7] Andria G,Cavone G,Fabbiano L,et al.Automatic calibration system for digital instruments without built-in communication interface[C]//19th IMEKO world congress.[s.l.]:[s.n.],2009:857-860.
[8] Alegria F C,Serra A C.Computer vision applied to the automatic calibration of measuring instruments[J].Measurement,2000,28(3):185-195.
[9] 苑玮琦,江海燕.基于ACSS角点定位的液晶显示仪表示值识别算法[J].计算机系统应用,2015,24(7):111-116.
[10] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Proceedings of 2010 IEEE conference on the computer vision and pattern recognition.[s.l.]:IEEE,2010:2963-2970.
[11] 袁俊淼.基于几何约束的笔划宽度变换(SWT)算法及其字幕文本定位应用[D].成都:电子科技大学,2015.
[12] Canny J. A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[13] Chen X,Yuille A L.Detecting and reading text in natural scenes[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2004:366-373.
[14] Zhang H G,Zhao K,Song Y Z,et al.Text extraction from natural scene image:a survey[J].Neurocomputing,2013,122:310-323.
[15] 谢博鋆,朱 杰,于 剑.基于Pivots选择的有效图像块描述子[J].软件学报,2015,26(11):2930-2938.
[16] 方 向,陈思佳,贾 颖.基于概率测度支持向量机的静态手写数字识别方法[J].微电子学与计算机,2015(4):107-110.
ResearchonanImprovedAuto-locatingandRecognitionMethodforDigitalImages
ZHU Bin1,XUE Lu-qiang2,TAN Shou-biao2
(1.Department of Safety Supervision Quality,State Grid Anqing Electric Power Supply Co.,Anqing 246000,China;2.Key Lab of Intelligent Computing & Signal Processing of Ministry of Education,Anhui University,Hefei 230039,China)
According to the requirement of the automatic recognition for digital video,an improved digits auto-locating and recognition method is presented.It adopts self-adaptive threshold for binarization of image and then an improved algorithm of Stroke Width Transform (SWT) is designed to make a coarse locating of the digits’ regions.After that,the precise positions of the digits are determined by filtering them with some useful features,such as its height-width-ratio,color and spatial arrangement,and the multi-level extension and merging is applied to eliminate the influence on shield and adhesion for the exact locating of digits region with perfection.At last,after extraction of the high discriminative features in digital regions,the digits can be accurately recognized and achieved by trained multi-classified models,which can implement the automatic recognition of digits in videos.The experimental results show that the proposed method owns high accuracy and strong robustness,without impact on light,titlt and partial shield,and locate the correct digits regions for recognition of digits.It is suitable for automatic inspection,remote meter reading and so on.
stroke width transform;digits auto-locating;multi-level extension and merging;reading recognition
TP391.41
A
1673-629X(2017)12-0067-04
10.3969/j.issn.1673-629X.2017.12.015
2017-04-09
2017-07-20 < class="emphasis_bold">网络出版时间
时间:2017-08-01
国家自然科学基金资助项目(61201396);国家电网公司科技项目(5212D01502DB)
朱 彬(1968-),男,高工,硕士,研究方向为电力安全监察技术。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1559.080.html