一种改进的文本图像二值化方法

2014-07-03 05:06卜飞宇
电脑知识与技术 2014年12期

卜飞宇

摘要:针对常用的局部阈值方法-Niblack算法中存在的问题,提出了一种改进的文本图像二值化算法。改进后的Niblack算法对背景灰度不均匀的图像具有良好的适应性, 抗噪声能力强,保持笔画连通性好, 更适合于文本图像的二值化。实验证明了该算法的有效性。

关键词:文本图像;二值化;局部阈值;全局阈值;Niblack算法

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)12-2822-03

An Improved Binarization Method for Document Image

BU Fei-yu

(Institute of Information Science and Engineering, Hunan City University,YiYang 413000, China)

Abstract: After analyzing the shortcomings of Niblack algorithm, which is one of the commonly used algorithms based on local threshold, this paper proposes an improved binarization algorithm for document image. The improved approach is robust to noise and makes connectivity of stroke better. The experiment results have proved the advantages of the proposed algorithm.

Key words: document image; binarization; local threshold; global threshold; niblack algorithm

文本图像的二值化效果是影响OCR(光学字符识别)系统性能的主要因素,研究人员为此作了大量工作。二值化方法可分为全局阈值法和局部阈值法。全局阈值法根据文本图像的直方图或灰度空间分布确定一个阈值,算法较简单,对于目标和背景明显分离、直方图分布呈双峰的图像效果良好,但对光照不均匀、噪声干扰较大的图像,二值化效果明显变差。局部阈值法通过定义考察点的邻域,并由邻域计算模板实现考察点灰度与邻域点的比较,根据区域灰度分布特性,自适应调节阈值。典型的局部阈值法有均值分割法、Kamel-Zhao算法[1]、Bernsen算法[2] 、Niblack算法[3]等。局部阈值法较全局阈值法有更广泛的应用,但缺点也较明显,如速度慢、容易出现伪影现象和笔画断裂现象。

近年来,对文本图像二值化的研究仍在继续。如Gatos提出了针对退化文本图像的二值化方法[4];Bolan Su则提出将多种文本图像二值化方法结合使用[5]。文献[6]针对Bernsen算法提出了一种改进算法,通过引入一个简单的整体阈值进行辅助判断,对算法得到的阈值曲面进行光滑处理并对局部窗口的极大、极小值进行考察,从而较好地避免了伪影及笔画断裂。文献[7]和[8]分别将谱聚类和图谱理论应用于文本图像二值化算法中。文献[9]对一种基于局部阈值分割的LLT算法给出了改进方法。文献[10]则在Niblack方法的基础上提出了一种改进的针对退化文本图像的二值化方法,该方法仅在文本区域周围较小范围内进行局部阈值计算,减少了运算量,克服了Niblack方法容易产生大量背景噪声的缺点,对于低对比度的文本图像有更好的适应性。

到目前为止,还没有一种通用的文本图像二值化方法[11]。寻找更好的文本图像二值化方法,仍然是图像处理研究领域的目标之一。该文以Niblack算法为基础,针对Niblack算法所存在的问题,综合一些已有算法的优点,提出了一种改进的二值化方法。改进后的Niblack算法抗噪能力强,较好地避免了伪影,并且能最大限度地保持笔画像素。

1 Niblack算法概述

在以下的讨论中,不妨设笔画占据灰度文本图像低灰度级部分,背景占据高灰度级部分。这与一般扫描的文本图像是相符的。

记f(x,y)为图像在考察点(x,y)坐标的灰度,W为估计最大笔画宽度,一般取W=7。考察以(x,y)点为中心的(2W+1)×(2W+1)窗口,则NiBlack算法计算点(x,y)处阈值的公式为:

T(x,y) = m(x,y)-k×V(x,y) (1)

其中m(x,y)和V(x,y)分别是窗口内(2W+1)×(2W+1)个像素点的平均灰度值和均方差,k是根据经验预定的某阈值,一般取k = 0.1~0.5。Niblack算法的阈值由考察点邻域的灰度确定,强调二值化阈值随区域变化而动态调整,对容易受光源影响的图像和字符灰度变化较大的图像,有比较好的适应性,但容易出现笔画断裂及伪影现象。这是因为Niblack算法以公式(1)计算考察点的阈值,当考察窗内像素绝大部分为目标(或背景)点,而目标(或背景)灰度又不均匀时,会使得宏观上本应同类的部分像素:目标(或背景)被强行二值化为背景(或目标),从而产生笔画断裂及伪影。另外,由于对图像中每个像素点(x,y),均需取一个以(x,y)点为中心的(2W+1)×(2W+1)窗口计算平均灰度值和均方差,运算量较大。

为减少运算量和伪影,在Niblack算法中,一般先用全局阈值方法估计一个粗阈值T。计算方法如下:对整个图像计算平均灰度值m和均方差V,通过公式T = m-k×V计算得到粗阈值。得到粗阈值T后,把图像中灰度值大于T的像素强行判定为背景像素点,不再参与计算。因为文本图像背景像素点至少占到50%以上,而且往往达75%以上,所以运算量减少了很多。但仍然存在如下问题:(1)背景灰度不均匀的区域,伪影仍然较多(图1);(2)可能导致较淡的字符笔画的丢失;(3)笔画断裂现象依旧没有得到改善。endprint

为了尽量保全较淡的字符笔画、避免字符断裂和有效地减少伪影,下面对Niblack算法进行一些改进。

2 改进的Niblack算法

本文对Niblack算法的改进主要有以下几个方面:1)为克服图像获取的光照条件未知等缺点,先对文本灰度图像进行灰度拉伸。2)给出了一种新的估算粗阈值T的方法。3)为避免字符笔画断裂,对考察点阈值的计算公式进行了改进。4)为了消除伪影,对邻域灰度均值较大的考察点的阈值作了进一步的调整。下面给出具体的实现步骤。

2.1 对图像进行灰度拉伸

设原始灰度图像f(x,y)的最大灰度值为MaxGray,最小灰度值为MinGray,灰度拉伸后的图像为g(x,y),则g(x,y) = 255×( f(x,y)-MinGray)/(MaxGray-MinGray)。经过灰度拉伸后,图像灰度将分布在0~255之间,避免了获取图像时环境光线强弱变化的影响。以下针对拉伸后的图像g(x,y)进行讨论。

2.2 选取粗阈值

粗阈值选取除了上述通过整个图像的平均灰度值m和均方差V来估算外,也可以利用已有的一些方法确定全局阈值,如Otsu法,Li和Lee的最小交叉熵方法,Huang和Wang的基于最小模糊度的方法等。为了尽量保全较淡的字符笔画,该文提出一种类似比赛评分的机制,通过估算出的字符平均灰度和背景平均灰度来计算粗阈值的方法。

根据对文本图像的大量统计,发现笔画像素至少占据图像像素的2%以上,但不会超过50%,从而可以根据灰度直方图估算出字符平均灰度和背景平均灰度。先去掉灰度值最小的1%的像素点,再去掉20%的灰度值最大的像素点,对图像上剩下的像素点,取1%灰度值最小的像素点的灰度平均值作为字符平均灰度CharAver,再取20%灰度值最大的像素点的灰度平均值作为背景平均灰度BackAver,最后通过下面的公式计算出粗阈值T。

T = (CharAver + 4×BackAver)/5 (2)

由于统计出的背景平均灰度BackAver一般很准确,而计算出的T值小于且接近背景平均灰度,所以,通过粗阈值T既可以滤除大部分背景,又能完整的保留较淡的字符笔画。对灰度拉伸后的图像g(x,y),当g(x,y)>T时,直接将考察点(x,y)判为背景像素点。

2.3 阈值计算公式的改进

通过对Niblack算法二值化后的文本图像的分析,发现笔画断裂现象主要出现在多笔画字符的中心。因为当待考察像素点(x,y)位于多笔画字符的中心时,考察点(x,y)邻域的平均灰度值m(x,y)较小,而均方差V(x,y)较大。此时,通过原Niblack算法阈值计算公式(1)计算出的考察点阈值T(x,y)会偏小, 从而在二值化时会把部分笔画点错误的归入背景点,造成笔画断裂。为了克服上述偏差,我们将原阈值计算公式(1) 改进如下:

T(x,y) = m(x,y)-k×V(x,y)×(1-V(x,y)/m(x,y)) (3)

改进后的公式,相当于对公式(1)中的系数k根据考察点的邻域性质进行了动态调整。当考察点位于多笔画字符的中心时,m(x,y)较小,而V(x,y)较大,此时k×(1-V(x,y)/m(x,y))比k要小很多,甚至为负值,从而T(x,y)的值得到了有效的提升。这样,就能较好的避免把部分笔画像素点错误的归入背景点。

2.4 消除伪影

经过上述三个步骤的改进后,字符的完整性得到了较好的保证,但在背景灰度不均匀的区域,伪影仍然较多。这是因为,当待考察的像素点(x,y)位于背景区域时,考察点邻域的平均灰度值m(x,y)很大,而均方差V(x,y)较小,另外,在公式(3)中,系数k=0.1~0.5,因此T(x,y)≈m(x,y),即T(x,y)与考察点邻域的平均灰度值m(x,y)很接近,所以始终会把一部分背景点错误的归为笔画点,形成伪笔画。为了消除伪影,需要对由公式(3)计算出的阈值作进一步调整。

对待考察的像素点(x,y)和它的8邻域有下面的平滑性假设:笔画点的邻域点很可能是笔画点,而背景点的邻域点很可能是背景点。从而可以认为:考察点(x,y)的8邻域的平均灰度值越大,则该点是背景点的可能性越大。根据上述假设,若考察点(x,y)的8邻域平均灰度值m8(x,y)较大,可适当降低由公式(3)计算出的阈值T(x,y)。当m8(x,y) > 4×T/5时(T为由公式(2)计算出的粗阈值),将阈值计算公式(3)最终调整为如下形式:

T(x,y) = m(x,y)-k×V(x,y)×(1-V(x,y)/m(x,y))-(m8(x,y)-V(x,y))/10 (4)

经过上述几个步骤改进后的Niblack算法,能较有效的消除伪影,较完整的保留淡的字符笔画,并克服多笔画字符的笔画断裂现象。改进后的Niblack算法的二值化效果(图2)与原始的Niblack算法的二值化效果(图1)相比,伪影明显少了很多。

3 实验结果分析

下面是分别用Niblack算法与本文改进后的Niblack算法对几幅具代表性的文本图像进行二值化的效果(图3(a)—(d))。实验中取W=7,k = 0.2,算法用VC++6.0编程实现。

从实验结果来看,文本图像采用原始的Niblack算法二值化后有较明显的伪影,非常不利于字符的识别,而采取本文的改进措施后,伪影现象基本消除,字符断裂情况也减少。但对有纹理背景的图像,仍会有少量伪影现象存在(图3(c))。

4 结束语

Niblack算法是常用的文本图像局部二值化方法,但存在着易出现伪影及字符笔画断裂等缺陷,给字符的识别带来不便。该文分析了Niblack算法存在的问题,对其提出了几项改进措施,其中给出了一种新的估算粗阈值T的方法,并对考察点阈值的计算公式进行了改进。改进后的Niblack算法能较好的消除伪影及笔画断裂现象,能适应各种不同对比度和复杂背景的文本图像二值化。实验结果证明了改进后算法的有效性。endprint

参考文献:

[1] Kamel M, Zhao A. Extraction of Binary Character/Graphics Images from Grayscale Document Images[J]. Graphical Models and Image Processing. 1993,55(3):203-217.

[2] Bernsen J. Dynamic Thresholding of Gray-level Images[C]. Proceedings of 8th International Conference on Pattern Recognition. Paris, France: IEEE Computer Society Press, 1986:1251-1255.

[3] Niblack W. An Introduction to Image Processing[M]. Prentice-Hall, Inc, 1986:115-116.

[4] Gatos B, Pratikakis I, Perantonis S J. Adaptive Degraded Document Image Binarization[J]. Pattern recognition, 2006, 39(3): 317-327.

[5] SU Bo-lan, LU Shi-jian, Tan C L. Combination of Document Image Binarization Techniques[C]. Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011:22-26

[6] 陈丹,张峰,贺贵明. 一种改进的文本图像二值化算法[J]. 计算机工程,2003, Vol.29 No.13: 85-86.

[7] 吴锐,黄剑华,唐降龙. 基于灰度直方图和谱聚类的文本图像二值化方法[J]. 电子与信息学报, 2009(10): 2460-2464.

[8] 常丹华,苗丹,何耘娴. 图谱理论在文本图像二值化算法中的应用[J]. 计算机应用, 2010(10):2802-2804.

[9] 孙阳光. 一种改进的字符图像分割方法[J]. 电脑知识与技术, 2013(4):844-845.

[10] 樊汝策,王庆,翟正军,等. 一种改进的针对退化文本图像的二值化方法[J].测控技术,2013(5):29-32.

[11] 童立靖,张艳,舒巍. 几种文本图像二值化方法的对比分析[J]. 北方工业大学学报, 2011(1):25-33.endprint

参考文献:

[1] Kamel M, Zhao A. Extraction of Binary Character/Graphics Images from Grayscale Document Images[J]. Graphical Models and Image Processing. 1993,55(3):203-217.

[2] Bernsen J. Dynamic Thresholding of Gray-level Images[C]. Proceedings of 8th International Conference on Pattern Recognition. Paris, France: IEEE Computer Society Press, 1986:1251-1255.

[3] Niblack W. An Introduction to Image Processing[M]. Prentice-Hall, Inc, 1986:115-116.

[4] Gatos B, Pratikakis I, Perantonis S J. Adaptive Degraded Document Image Binarization[J]. Pattern recognition, 2006, 39(3): 317-327.

[5] SU Bo-lan, LU Shi-jian, Tan C L. Combination of Document Image Binarization Techniques[C]. Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011:22-26

[6] 陈丹,张峰,贺贵明. 一种改进的文本图像二值化算法[J]. 计算机工程,2003, Vol.29 No.13: 85-86.

[7] 吴锐,黄剑华,唐降龙. 基于灰度直方图和谱聚类的文本图像二值化方法[J]. 电子与信息学报, 2009(10): 2460-2464.

[8] 常丹华,苗丹,何耘娴. 图谱理论在文本图像二值化算法中的应用[J]. 计算机应用, 2010(10):2802-2804.

[9] 孙阳光. 一种改进的字符图像分割方法[J]. 电脑知识与技术, 2013(4):844-845.

[10] 樊汝策,王庆,翟正军,等. 一种改进的针对退化文本图像的二值化方法[J].测控技术,2013(5):29-32.

[11] 童立靖,张艳,舒巍. 几种文本图像二值化方法的对比分析[J]. 北方工业大学学报, 2011(1):25-33.endprint

参考文献:

[1] Kamel M, Zhao A. Extraction of Binary Character/Graphics Images from Grayscale Document Images[J]. Graphical Models and Image Processing. 1993,55(3):203-217.

[2] Bernsen J. Dynamic Thresholding of Gray-level Images[C]. Proceedings of 8th International Conference on Pattern Recognition. Paris, France: IEEE Computer Society Press, 1986:1251-1255.

[3] Niblack W. An Introduction to Image Processing[M]. Prentice-Hall, Inc, 1986:115-116.

[4] Gatos B, Pratikakis I, Perantonis S J. Adaptive Degraded Document Image Binarization[J]. Pattern recognition, 2006, 39(3): 317-327.

[5] SU Bo-lan, LU Shi-jian, Tan C L. Combination of Document Image Binarization Techniques[C]. Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011:22-26

[6] 陈丹,张峰,贺贵明. 一种改进的文本图像二值化算法[J]. 计算机工程,2003, Vol.29 No.13: 85-86.

[7] 吴锐,黄剑华,唐降龙. 基于灰度直方图和谱聚类的文本图像二值化方法[J]. 电子与信息学报, 2009(10): 2460-2464.

[8] 常丹华,苗丹,何耘娴. 图谱理论在文本图像二值化算法中的应用[J]. 计算机应用, 2010(10):2802-2804.

[9] 孙阳光. 一种改进的字符图像分割方法[J]. 电脑知识与技术, 2013(4):844-845.

[10] 樊汝策,王庆,翟正军,等. 一种改进的针对退化文本图像的二值化方法[J].测控技术,2013(5):29-32.

[11] 童立靖,张艳,舒巍. 几种文本图像二值化方法的对比分析[J]. 北方工业大学学报, 2011(1):25-33.endprint