基于尺度特征的手机拍摄打印数字序列分割

2016-01-11 02:40苑俊英,郭中华,曹惠茹

基于尺度特征的手机拍摄打印数字序列分割

苑俊英,郭中华,曹惠茹

(中山大学南方学院 电子通信与软件工程系,广东 广州510970)

摘要:针对手机拍摄图像中普遍存在几何失真、光照不均和噪声等现象,提出了一种基于数字尺度特征的数字序列分割算法NSFS.该方法首先对数字序列图像进行预处理,消除噪声和残留表格线;然后,提取包含数字序列的最小矩形,利用数字尺度特征,对包含数字序列最小矩形的每个连通分量进行数字分割.此算法实现简单,适用于不同数据表格、不同字体和格式的数字序列.目前业界仍没有合适的图像库,为验证算法的性能,搭建了一个基于不同品牌手机拍摄的不同表格的图像库.基于此数据库的实验表明,基于数字尺度特征的数字序列分割算法达到了96%以上的正确分割率.

关键词:数字分割;特征尺度提取;数字识别;手机拍摄图像

DOI:10.3969/j.issn.1000-1565.2015.05.015

中图分类号:TP391文献标志码: A

收稿日期:2015-03-10

基金项目:广东高校优秀青年创新人才培养计划项目(2013LYM0123);广东省科技计划项目(2013B090500067)

A novel scale feature based machine printed numeric

sequence segmentation algorithm for mobile captured images

YUAN Junying, GUO Zhonghua, CAO Huiru

(Department of Electronic Communication and Software Engineering,

Nanfang College of SUN YAT-SEN University, Guangzhou 510970, China)

Abstract:The problem of numeric string segmentation in mobile captured images is greatly impacted by image geometrical distortion, non-uniform lighting and noise. A novel numeric scale feature based segmentation (NSFS) algorithm for machine printed numeric strings is proposed to deal with these challenges. First, the numeric string image is pre-processed to remove noise and possible ruling-line segments. Then the bounding box of the numeric string is extracted, and each of the contained connected components is segmented utilizing numeric scale features. The algorithm is simple but applies to various data forms and numeric strings with diverse fonts and formats. As this work is a pioneer research in mobile captured images, we build a fresh new numeric string image set captured from data forms with different brands of mobiles. Experiments show that the proposed algorithm achieves a segmentation rate of 96% plus, which proves the effectiveness of the proposed work.

Key words: digit segmentation; feature extraction; digit recognition; mobile captured image

第一作者:苑俊英(1980-),女,河北保定人,中山大学南方学院讲师,主要从事大数据与云计算、图像处理、模式识别等方面的研究.E-mail:cihisa@126.com

利用计算机识别技术对数据表格进行识别、数据获取和后期处理是工作自动化、提高工作效率的有效途径[1-2].现有的表格处理系统都专用于处理1种或几种固定格式的表格,不适用于格式多变的通用数据表格[3].数字序列分割作为文字识别的重要步骤,其分割的准确程度直接决定了表格识别的性能[4].由于序列分割在现有的方法中并没有得到重视[5],所以限制了表格识别性能的提高.目前,存在2种序列分割方法:一是单独的数字字符分割方法[6-7],利用数字序列本身的特征,在分割过程中不考虑分割正确性,这种方法效率较高,但准确率偏低;另一种采用分割与识别交互进行、相互辅助的方法[8],在数字分割过程中进行数字识别,这种方法提高了准确性,但降低了分割效率.

在数据表格识别应用中,不同表格往往使用不同字体格式,如正常字体、花体、黑体、斜体等,甚至部分数字之间存在连接现象.除此以外,手机拍摄的表格图像往往质量较低,存在几何失真、光照不均、噪声和图像细节模糊等问题,导致二值化后的数字序列出现模糊、前后交叠等问题[4,8-9].本文以手机拍摄的数据表格识别系统为研究背景,重点探索表格中打印数字序列分割问题,在充分挖掘数字序列图像特征[10]的基础上,提出了一种基于数字尺度特征的数字序列分割方法(numeric scale feature based segmentation,NSFS).NSFS首先对单元格内容进行预处理,提取包含数字序列的最小矩形,然后提取连通分量,根据数字高宽比等尺度统计特征对每个连通分量进行数字分割.最后,本文搭建了手机拍摄的数字序列图像库,使用NSFS实现了数字序列分割,并分析了误分割现象、原因及改进方向.与Rodríguez等[11]提出的表格数字分割算法相比,本文的算法具有数字分割精度高、运算速度快、以及能够适应不同数字格式等优点.

1数字序列图像预处理

在数字表格图像中,当成功定位单元格后,即可提取单元格中的数字序列,此时提取的数字序列为原始彩色图像,用Irgb来表示.Irgb中主要包含数字序列,此外,还可能包含背景、噪声和由于光照不均匀引起的阴影,后者对数字序列的处理产生了干扰,有必要在数字序列分割前去除干扰.可以采用高斯低通滤波去除其中的噪声,采用二值化去除大部分背景影响,根据数字高度和宽度等尺度特征去除残余表格线.

1.1 二值化

与背景图像相比,图像Irgb中数字序列的亮度具有显著差距,据此特点,采用全局阈值对Irgb的亮度分量

(1)

进行二值化,二值化阈值为

T(x,y)=k*mean(BL(x,y)),

(2)

其中,k为常数,在本文中设为0.98,BL(x, y)是边长为L的像素Ilum(x,y)的邻域.根据阈值T,可以计算并获得二值化图像

(3)

采用上述全局阈值二值化方法,充分利用数字序列图像背景简单、前景和背景区分度较大的特点,具有计算速度快、二值化效果好的优点.

由于亮度图像Ilum中的数字序列可能亮度偏高也可能偏低,所以需要对Ibw进一步处理,使数字序列部分变为白色,背景图像变为黑色,以方便后续图像处理.根据图像Ibw中数字序列所占像素个数小于Ibw中像素总数一半的特点,采用公式

(4)

(其中M和N分别是二值图像Ibw的行数和列数)即可确保Ibw中的数字所占像素值为1,至此,实现了数字序列彩色图像Irgb到二值图像Ibw的变换.

1.2 数字序列最小矩形提取

在二值化后的数字序列图像Ibw中,仍可能存在噪声和残留表格线,如图1所示.与数字序列相比,噪声的形状并不规则,其高度和宽度也要小得多,在提取连通分量后,可以采用去除高度显著小于平均值的连通分量的方法进行去噪.去噪过程中,首先去除Ibw中像素数很小的连通区域(connected components, CC),然后计算剩余连通分量的平均高度

(5)

其中,Ncc是二值图像Ibw中去除噪声后连通分量的个数.如果第i个连通分量的高度Hi< 0.25Havg,那么它就是噪声或表格线,则从Ibw中去除该连通分量.

去除噪声后的二值图像Ibw中,仍可能含有部分残留的垂直方向的表格线.为了准确定位包含数字序列的最小矩形(boundingbox),需要进一步去除这些表格线.由于表格线与数字序列之间存在明显空隙,宽度远小于连通分量平均宽度的连通分量即为残留的表格线(其中NCC是滤除噪声后连通分量的个数).在本文中,如果第j个连通分量的宽度Wi<0.25Wavg,第j个连通分量则被认为是残余的表格线,需要从Ibw予以删除.至此,在已去除噪声和残余表格线的二值图像Ibw中只存在数字部分的连通分量,如图1所示,可以通过在水平方向和垂直方向投影的方法,找到准确定位包含数字序列的最小矩形,用Icc表示最小矩形及其内部的二值图像.

(6)

ab

a. 含噪声的Ibw及其预处理结果;b. 含表格线残留的Ibw及其预处理结果.

图1预处理前后的二值图像

Fig.1Binary image before and after pre-processing

2数字序列图像分割算法NSFS

二值图像Icc中包含1个或多个连通区域,每个连通区域可能由1个或多个数字组成,如图1中的二值图像由多个连通区域组成,每个连通区域对应1个数字或多个连接在一起的数字.为了能够识别每个数字,必须进行数字分割提取每一个数字图像.在数字分割过程中,必须能够处理数字序列中存在的斜体和连体等问题.本文在经过图像预处理获得包含数字序列的最小矩形Icc的基础上,提出了一种基于连通分量和打印数字尺度特征进行数字序列分割的算法:首先,把Icc按比例缩放到指定高度H=50,减少二值图像高度的影响;然后,提取Icc中所有的连通分量,针对每个连通分量Icc(k)进行数字序列分割,算法具体步骤为

1)根据数字尺度特征,设置数字最小宽度Wmin= 0.4H,最大宽度Wmax= 0.9H;

2)查找连通分量Icc(k)的上边界和下边界,并计算数字图像的上下边界距离h,h是数字外围轮廓高度的一个一维向量;

在上述算法中,第1)步的数字最小宽度Wmin和最大宽度Wmax是根据数字高宽比的历史尺度特征设置的;第2)步通过寻找数字所在区域的上下边界,确定数字的外围轮廓,与连通分量相比,该轮廓更能代表图像中数字的位置,如图2a和图2b所示;第3)步计算数字轮廓的高度的平方,以更能突出数字之间的边界,使数字之间的分隔更明显,如图2c所示;算法第4)步根据数字的高宽比尺度特征,通过寻找区域最小值的方法,确定相连数字之间的边界.

abc

a.数字序列连通分量Icc(k);b.数字区域的上下边界;

图2数字序列连通分量分割过程

Fig.2Segmentationprocessforconnectedcomponentofanumericstring

3实验和分析

由于目前并没有手机拍摄的数字序列图像库,所以,本文采用3部不同品牌手机拍摄20张表格,共获得了60张表格图像,搭建了专用图像库.从拍摄图像的表格中,截取了1 746张数字序列图像,作为本文实验的实验数据.经观察,这些手机拍摄的数字序列图像中普通存在不同程度的几何失真、光照不均和噪声,而且部分图像中的数字序列与背景之间的颜色差别不大,对数字序列分割提出了不小的挑战.

为衡量数字序列分割算法性能,本文选择Rodríguez等[9]提出的表格数字序列分割算法进行了同样的实验,并将实验结果进行了对比,该算法利用数字序列垂直方向的4种投影特征,针对等间距的含噪数字序列,实现了近似最优的分割性能.为简便起见,本文采用RODSEG代表Rodríguez等提出表格数字序列分割算法.

本文采用数字分割的精确率P(Precision)、查全率R(Recall),P和R的调和平均F,以及数字序列图像正确分割率做为数字分割性能的4个衡量指标,其定义分别为

(7)

其中,tp,ND和NR分别为分割后正确分割的数字个数、实际的数字总数和分割所得的数字总数,其中NCS是正确分割的数字序列个数,NS= 1 746,是图像库中数字序列图像的总数,PS定义了正确分割的数字序列图像个数和数字序列图像总数之比.

表1 数字序列分割算法性能指标

表1给出了采用NSFS算法的实验结果,由表1可以看出,NSFS算法的数字分割正确率P为95.34%,调和平均F为96.04%,数字序列正确分割率PS为93.13%,普遍高于RODSEG算法.经过对比不难发现,Rodríguez等人的算法针对数字间距相等、数字格式一致、无倾斜以及无重叠的数字序列可以实现近似完全正确的分割,所以其算法的适应能力较弱.而本文提出的NSFS算法,能够比较理想地解决上述问题,在应用中的适应能力更强.并且,与RODSEG相比,NSFS算法复杂度更低,运行速度仅为前者的75%,所以更加实用.

通过检查NSFS算法误分割的数字序列,总结出如下4种情况:1)预处理后的二值图像清晰,数字边界未被噪声严重干扰,如图3所示,此种图像的数字分割的正确率为100%;2)预处理后的二值图像中的数字边界存在严重噪声干扰,如图4所示,此类图像共有96张,其中约1/3的数字存在误分割现象,并且,误分割一般发生在2个数字的边界,但每个数字的主体仍能正确分割;3)预处理后的二值图像中仍存在残留的表格线,如图5所示,此类图像共有14张,残留的表格线被误分割为数字,但数字能够被正确分割;4)预处理后的二值图像大部分为噪声,已经不能分辨其中的数字,如图6所示,此类图像共有10张,在此类图像中不能正确分割数字.

针对上述的数字边界被噪声严重干扰的第2类和第4类图像,可以采用更先进的滤波算法和二值化算法,降低噪声对边界的干扰,从而实现正确分割;针对第3类图像,需要提高数字序列图像在提取过程中的准确性,可根据其高度特点,通过预处理方式清除表格线.

图3 噪声干扰较小的二值图像

图4 数字边界被噪声严重干扰的亮度图(上)及其二值图像(下)

图5 存在表格线残留的二值图像

图6 噪声严重的亮度图(上)及其二值图像(下)

4总结

针对手机拍摄的打印数字序列中存在的几何失真、光照不均和噪声等问题,以及不同数字序列具有不同字体和不同格式的难题,提出了一种基于数字尺度特征的手机拍摄的数字序列分割方法.首先对单元格内容进行预处理,提取包含数字序列最小矩形,然后提取其中的连通分量,针对每个连通分量利用数字尺度特征进行数字分割,在搭建的图像库中实现了96%以上的正确分割率.由于在图像预处理过程中,仅采用了简单的高斯低通滤波进行图像去噪,以及全局二值化方法,导致二值化图像质量不高,在数字序列分割过程中出现误分割,这些问题可以通过采用更先进的滤波和二值化算法予以解决.

参考文献:

[1]RIBASFC,OLIVEIRALS,BRITTOAS,etal.Handwrittendigitsegmentation:acomparativestudy[J].InternationalJournalonDocumentAnalysisandRecognition, 2013,16(2): 127-137.

[2]MRIDULA,SINGHBM.Efficientbinarizationtechniqueforseverelydegradeddocumentimages[J].CSITransactionsonICT, 2014, 2(3):153-161.

[3]邵中. 基于图像处理的自动统计方法研究与软件设计[D]. 沈阳:沈阳工业大学,2011.

SHAOZhong.Researchandsoftwaredesignofautomaticstatisticmethodbasedonimageprocessing[D].Shenyang:ShenyangUniversityofTechnology, 2011.

[4]LUYi.Machineprintedcharactersegmentation-Anoverview[J].PatternRecognition, 1995, 28(1): 67-80.

[5]CASEYRG,NAGYG.Recursivesegmentationandclassificationofcompositecharacterpatterns[Z].SixthInternationalConferenceonPatternRecognition,Munich,Germany, 1982.

[6]RODRIGUEZC,MUGUERZAJ,NAVANOM,etal.Segmentationoflow-qualitytypewrittenDigits[Z].IEEEFourteenthInternationalConferenceonPatternRecognition,Brisbane,Queensland,Australia, 1998.

[7]ELNAGARA,ALHAJJR.Segmentationofconnectedhandwrittennumeralstrings[J].PatternRecognition, 2003, 36(3):625-634.

[8]LEESW,LEEDJ,PARKHS.Anewmethodologyforgray-scalecharactersegmentationandrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1996, 18(12): 1045-1050.

[9]JINDALMK,SHARMARK,LEHALGS.Astudyofdifferentkindsofdegradationinprintedgurmukhiscript[Z].IEEEProceedingsoftheInternationalConferenceonComputing:TheoryandApplications,Kolkata, 2007.

[10]翟俊海,赵文秀,王熙照. 图像特征提取研究[J]. 河北大学学报: 自然科学版,2009, 29(1): 106-112.

ZHAIJunhai,ZHAOWenxiu,WANGXizhao.Researchontheimagefeatureextraction[J].JournalofHebeiUniversity:NaturalScienceEdition, 2009, 29(1): 106-112.

[11]RODRíGUEZC,MUGUERZAJ,NAVARROM,etal.Anewcostfunctionfortypewrittendigitssegmentation[J].AdvancesinPatternRecognition, 1998, 1451: 975-980.

(责任编辑:孟素兰)