曹玉东,汪金涛,杜 刚
(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)
本刊核心层次论文
银行票据图像中的文本区域定位算法
曹玉东,汪金涛,杜 刚
(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)
针对银行票据在打印过程中产生的整体错位,提出移动基准点定位算法,能有效地解决票据信息套打时产生的文本识别区域整体偏移问题。该算法在框线基准点定位算法的基础上,确立搜索区域,在搜索区域内基于投影法找到真实的待识别文本区域,进而确定正确的基准点。实验结果表明,移动基准点定位算法的定位准确率远远好于框线基准点定位算法。
银行票据;文本区域定位;基准点
尽管银行的电子票据已经推行很长时间,但其无法完全满足市场成员在现有市场和监管背景下的业务需要,所以纸质票据的存在具有极大必要性。随着社会的快速发展,银行每天都会产生大量票据,若依靠人工完成票据的分类、输入和核对,不仅会浪费大量的人力物力,而且容易出错。银行的票据种类繁多,有托收凭证、取款凭条、业务凭证和存款凭条等。可以基于图像处理和识别的方法实现银行票据的自动识别,替代银行工作人员的核对工作。文本区域定位是指在票据图像中准确找到待文本区域的位置,将其从图像中分离出来,获得待识别的图像区域,缩小处理范围,从而增加识别的准确性。
由图像版面特征可知,每张票据按照功能单元,可以分为固定区域与变化区域[1]。固定区域为票据在使用前就已经印刷好的区域,如票据的标题部分、框线部分等。变化区域为银行现场打印和填写的信息区域,例如填写金额、交易码的区域等。最终需要识别的文本内容位于变化区域。
当前,对银行票据文本区域的定位,常采用基准点定位的方法,即确定票据中的某一点为基准点,并以这个点为坐标原点,通过测量与这点之间的像素距离来确定文本识别区域位置。常用的基准点有框线基准点、文本区域基准点等,这些基准点的定位一般都是通过固定区域来确定。但很多票据内容都是套打的,即将票据所有变化域的信息整体打印,常会造成文本区域出现整体偏移的现象。若采用通常的基准点定位方法,不能对识别单元进行准确定位。
图1为票据识别流程图,首先进行票据图像预处理,票据预处理包括二值化、倾斜校正和去噪等操作。根据图像大小、版面特征、框线位置、表头和文本区域等5种特征实现票据的分类,部分票据样式如图2所示。票据正确分类后,可以根据该类票据的已知格式,检测文本区域的位置,再做字符的分割和识别。所以,文本区域的定位是文本内容识别的前提,如果定位不准确,会导致识别错误。本文重点讨论文本区域定位算法,而框线基准点定位算法是常用的文本区域定位算法。
图1 票据识别框架图
图2 银行票据的示意图
通过hough变换,找到框线,进而找到框线基准点,根据各类票据的先验知识,可以由框线的基准点来定位文本区域。即利用固定区域中框线的横线、竖线和4个顶点来实现初定位。若选用4个顶点中的某一点作为基准点来实现定位,即为常用的框线基准点定位算法。例如选择位于框线4个交点中的左上角顶点作为图像的基准点,基于Hough变换,通过直线检测来确定基准点。先对图像进行二值化处理,然后对图像进行腐蚀、膨胀,最后用Hough变换来检测票据的框线,进而确定基准点。
腐蚀与膨胀是灰度图像的初等形态学运算。腐蚀或者膨胀操作就是将图像(或图像的一部分,称之为A)与结构元素(称之为B)作卷积。膨胀是求局部最大值的操作,即计算结构元素B覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素。腐蚀是膨胀的对偶运算,所以腐蚀就是求局部最小值的操作[2-3]。用B(x)代表结构元素,E被定义为图像空间,B为具有原点的结构元素,腐蚀的定义为:
用B腐蚀E就是B完全包含在E中时,B的原点位置的集合。膨胀的定义为:
式中:∧表示对原点的映射,B(y)表示B平移y,用B膨胀E就是ˆB的位移与E至少有一个非零元素相交时,B的原点位置的集合。
腐蚀的作用是清除目标区域内的部分边界点,使目标缩小,通常可以消除小于结构元素B的噪声点;膨胀的作用是将与目标接触的背景点合并到目标,使目标增大,膨胀操作可以添补目标中的空洞。
开运算是先腐蚀后膨胀的过程,可以消除图像上细小的噪声,并平滑物体边界;闭运算是先膨胀后腐蚀的过程,可以填充物体内的小空洞,并平滑物体边界。对图像做开运算,可以消除框线周围的噪声干扰,提高了 Hough直线检测的准确率。
Hough变换将笛卡儿坐标空间中的线变换为极坐标空间中的点。基本原理如下[4-5]:
在直角坐标系中,一条直线可以表示为:
式中:k和b是待定参数,分别是斜率和截距。如果ρ为原点到直线上某点的距离,与x轴的正向夹角为θ,且。直线可表示为:
利用直角坐标系与极坐标系间的点线对偶关系来实现直线的检测。如图3所示,可以看到,利用 Hough变换检测到的框线和基准点。矩形左上顶点位置作为票据图像的原点,即为,后续处理以此为参照。对于一个长宽固定的矩形,若一个顶点的位置确定后,意味整个矩形的位置确定。
图3 采用Hough方法直线检测结果
在制作每类票据的模板时,可以对文本区域提前框定,假设框定矩形区域为 400像素宽度、150像素高度,通过统计特征可以确定矩形识别区的左上角顶点与票据原点之间的距离,即可以确定识别区左上角的坐标N0(x,y),相应的其他3个点的坐标分别为。所以,整个矩形识别区的位置随之确定。
很多票据内容都是套打的,即将票据所有变化域的信息整体打印,偶尔会出现文本区域整体偏移的现象。若利用通常的基准点定位方法,不能对识别单元进行准确定位。本文在框线基准点定位方法的基础上,改进基准点定位方法,可以有效解决票据套打产生文本区域的整体偏移现象。但是对套打产生文本区域整体偏移的票据,此方法会出现定位不准确的问题,如图4所示。
图4 常规框线基准点定位算法
如果套打信息有整体偏移,则基准点的位置也会相应偏移,随之所有的识别框位置发生相同的偏移,识别框就不能准确定位在文本区域。由图4可知,框线基准点定位方法无法对因套打产生偏移的票据准确定位,需要改进。因此,本文提出移动基准点定位算法。
移动基准点算法需要在框线基准点算法的基础上,确定一个与票据的具体类型有关搜索区域。搜索区域指在文本区域附近确定的包含识别区的矩形框。搜索区域本身并不能确定基准点,在搜索区域内找出文本区域的具体位置,并确定文本区域的右上角为基准点,每类票据有固定的格式,最后可由这个基准点来确定其他文本区域的具体位置。
在搜索区域内,采用水平与垂直投影的方法。图5为在搜索区域内经过二值化和降噪处理后,做水平和竖直投影的曲线图。
图5 搜索区域内的垂直和水平投影曲线
投影[6-7]是将二维图像的灰度值叠加到水平或竖直方向的一维数轴上,图像的水平方向和竖直方向的投影曲线反映了其在对应方向上的灰度分布情况。水平投影为沿着垂直y轴方向求图像在各个位置的灰度值之和;垂直投影为沿着水平的x轴方向求图像在各个位置的灰度值之和。在图像f中,水平投影和垂直投影的定义为:
式中:f(x,y)为图像在(x,y)处的灰度值,m和n分别为图像的行数和列数。垂直投影图中的灰度值起始和终点位置对应着文本区域的左边界和右边界,水平投影图中灰度值的起始和终点位置对应着文本区域的上边界和下边界。由此可以确定文本区域的左上角顶点的位置。基准点位置确定后,则其他识区域的位置随之可以确定。由图6可以看出识别框能准确定位到偏移的待识别信息区域。
图6 移动基准点定位效果图
收集银行最常用的5种票据图像,每类100幅,共计500幅。其中每类有50张票据的套打信息有不同程度的偏移。用定位准确率(location accuracy rate)作测度评价方法,计算公式为:
表1给出了5种票据的文本区域定位准确率。5种票据的平均定位准确率为91%,满足银行的需求。
表1 不同类型票据的定位准确率
选取100幅票据用于测试框线基准点算法和本文提出的算法,其中有 50张票据的套打信息有不同程度的偏移。表2比较了2种方法的定位结果。
表2 2种方法的定位结果比较
由表2可以看出,本文提出的移动基准点定位算法的准确率远大于框线基准点方法。而且2种方法的耗时基本相同。移动基准点算法明显提高了文本区域的定位精度,有效解决了票据套打产生的文本区域偏移的问题。
针对票据套打偏移导致的文本区域定位不准的问题,提出移动基准点定位算法,同框线基准点定位算法相比,在未增加时间消耗的基础上,有效地提高了识别单元定位的准确率。
[1]迟国炜.商业发票手写体数字识别系统的设计与实现[D].沈阳: 沈阳工业大学,2006.
[2]冈萨雷斯.数字图像处理学[M].北京: 电子工业出版社,2013: 365-386.
[3]龚炜,石青云,程民德.数字空间中的数学形态学理论及应用[M].北京: 科学出版社,1997.
[4]Duda R O,art P E.Use of the Hough transform to detect lines and curves in pictures[J].Communication of the ACM,1972(15): 11-15.
[5]Duan Rujiao,Zhao Wei,Huang Songling,et al.Fast line detection algorithm based on improved Hough transformation[J].Chinese Journal of Scientific Instrument,2010,31(12): 2774-2780.
[6]刘明军,谢宏霖,孙雪松,等.车牌字符识别算法的比较研究[J].济南大学学报: 自然科学版,2006,20(3):245-248.
[7]虞飞,皮佑国.通用机打商业发票识别系统研究与实现[J].信息技术,2013(6): 37-38.
Location Algorithm on Bank Bill Image
CAO Yu-dong,WANG Jin-tao,DU Gang
(School of Electronics & Information Engineering,Liaoning University of Technology,Jinzhou 121001,China)
In view of whole offset in printed bills,Moving benchmark point algorithm is proposed based on border benchmark point that can effectively solve the whole migration problem of bill printing.Moving benchmark point algorithm puts benchmark point with the projection method in a preset searching region based on border line and benchmark point algorithm.Experimental results show that recognized area can located accurately by the presented method whose performance is better than border benchmark algorithm.
bank bill; identification region location; benchmark point
TP391
A
1674-3261(2017)05-0281-03
10.15916/j.issn1674-3261.2017.05.001
2016-05-26
国家自然科学基金项目(61502216)
曹玉东(1971-),男,辽宁昌图人,副教授,博士。
http://kns.cnki.net/kcms/detail/21.1314.T.20170711.0857.002.html
责任编校:孙 林