数字字符切分中小数点处理

2015-06-29 06:24谢兰军刘健
科技资讯 2015年14期
关键词:小数点

谢兰军 刘健

摘 要:字符切分的任务是把整个字符串图像中的每个字符切割出来,使其成为单个数字的图像。字符切分是数字字符识别中的关键步骤之一。在图像预处理后,由于小数点粘连造成字符粘连,无法正确切分字符。针对小数点造成的粘连情况,考虑小面积剔除法将小数点去除,保证字符切分正常。小面积剔除法首先将图像中各个部分加以统计得到其面积,然后根据面积的不同确定阈值将小数点与数字字符区分开来,剔除小数点。经过处理之后的图像再进行预处理,使用直线投影切分法将字符切分提取出来。实验表明该方法效果良好。

关键词:字符切分 图像预处理 小数点 小面积剔除

中图分类号:G64 文献标识码:A 文章编号:1672-3791(2015)05(b)-0222-02

Abstract:The purpose of character segmentation is to cut out entire character string and turn it into a single digital image.Character segmentation is one of the key steps in the digital character recognition.After preprocessing,due to adhesions caused by a decimal point, character segmentation cannot be done correctly.In order to solve the problem of adhesions by decimal, proposing a method by excluding small areas to remove the decimal point.First,we get the statistical area of the various parts of the image,and then determine the threshold to distinguish the decimal from numeric characters,finally exclude the decimal point.After that,we preprocess the image,use linear projection segmentation to pick out the character.The experiment indiclrte that the method works well.

Keywords:Character segmentation;Preprocess;Decimal;Exclude small areas

字符切分主要是指把整個待识别字符串图像中的单个字符都切割提取出来,让它成为单个数字图像以便识别。字符切分准确与否,直接影响着提取到正确的数字特征的成功率,而且识别的正确性也就大大降低了。在字符切分的过程中存在着很多不同的因素,影响着字符的切分,如数字字符大小的不同、数字字符字体的多样性、数字字符的倾斜以及图像预处理结果的清晰程度,都影响着数字字符的切分。

根据黑点数统计进行投影的直线切分方法是一种比较直观和简单的方法,其基本思路为:先对图像进行垂直投影,然后再根据其对应的投影曲线,选取曲线中大波谷作为切分区域。在一般情况下,字符串中的字符间隙都是没有笔画部分,经过垂直投影后在间隙处出现大波谷的部分,根据大波谷来判断进行切分是可以正确切分这些没有粘连和重叠区域的数字串,对于有粘连和重叠区域的数字字符串就无法正确切分了。所以对于印刷体的数字串或者字符间距较大的数字串、书写工整的数字串的切分这种切分,方法都适用。

该文主要研究小数点造成数字字符粘连情况下的直线切分法实现字符切分,采用小面积剔除方法将小数点剔除来解决小数点造成的字符粘连问题,保证字符能顺利切分。

1 直线切分方法

该文使用直线切分方法对数字字符进行切分。直线切分方法是一种相对比较传统的数字字符切分方法,它对简单的二维目标切分非常有效。切分过程中的主要难点在于判断是否有数字字符粘连或者断裂,以及粘连,断裂的数字的处理。

统计图像在水平和竖直方向上的投影,是很常用的一种简单实用方法。它的基本思想是统计出图像在水平投影和竖直投影,然后再分析投影统计值的变化,来具体分析出含有七段式数字显示仪表中的数字字符的位置。这种方法处理的图像主要是二值图像。将经过灰度处理、二值化、膨胀、腐蚀和平滑后的图像用来切分,经过这些预处理后的图像如图1。

由式(1)和式(2)可以得出,水平方向上的投影是图像A列数的一个函数。其中第行对应的投影值,是这一行中黑色像素点的个数。竖直方向上的投影,是图像A行数的一个函数。其中第j列对应的投影值,是这一列中黑色像素点的个数。

使用公式(1)和(2)对待切分数字字符图像进行投影统计,得到图像的水平和竖直投影如图2和3。

由图像的竖直投影可知数字与数字之间存在空白,那么沿着这些空白将数字字符切分,同时依据水平方向投影截去图像上下的空白,得到数字字符切分结果如图4。

2 粘连字符切分

但是,预处理后的图像在使用投影法切分字符的时候,发现会出现字符粘连的在一起。在图像膨胀处理的时候,为了消除七段码之间的间隙、孔洞,但同时将小数点也采取了膨胀处理,导致小数点与前后两个数字字符粘连在一起,如图5。这样的字符粘连在一起使得字符切分的时候前面两个字符没有切分开来,如图6,这样就会造成字符无法识别。

字符切分直接影响字符识别的正确率,如图6这种类型情况就必须将小数点影响解决才能正确切分字符。那么就得在预处理中图像膨胀前将小数点去掉。

此时考虑单个字符与小数点的区别,发现小数点所占面积远小于字符所占面积,如图7。

由图7可以看出,小数点的面积在七段码数字中面积最小,采取剔除小面积区域方法将小数点删除,解决字符粘连的问题,再进行膨胀就不会出现字符粘连情况。字符切分情况如图8。

3 结语

结合直线切分方法,利用水平投影与竖直投影,解决了包含小数点时造成字符粘连的问题,将数字字符从图像中提取出来,为后续作字符识别提供保障。小面积剔除法去除小数点,解决粘连问题效果良好。

参考文献

[1] 张春伶.图像分割算法综述与探索[J].科技创新与应用,2012(10):55-56.

[2] 丁可.数字图像处理技术研究与发展方向[J].经济研究导刊,2013(18):246-247.

[3] 张淑娟.基于边缘检测的图像处理软件的开发及优化[J].电子测试,2013(24):3-4.

[4] 郭亮勇,王国海.联机手写字符识别技术研究与实现[J].软件导刊,2013(5):145-146.

猜你喜欢
小数点
小数点添在哪儿
不要漏掉小数点
调皮的小数点
小数与小数点
小数与小数点
“小数点”军师巡检记
小数点复仇记
小数点移到哪去了
超级小数点
小数点流行病