改进的EM算法在分块灰度图像二值化中的应用

2011-08-17 09:37王红霞程艳芬
关键词:手写体分块像素点

王红霞 程艳芬

(武汉理工大学计算机学院 武汉 430063)

0 引 言

文本图像的识别是模式识别领域的一个重要应用分支,而在整个OCR(optical character recognition)领域中,最为困难的就是脱机自由手写字符的识别.

一幅通过扫描得到的手写体文本图像,无论是彩色图像还是灰度图像,各像素因为颜色深浅不一,于是在取值范围内会取不同的值.例如一个彩色图像中某个像素(R,G,B),其R,G,B 的取值范围均在(0,255)之间,这种情况给文本图像的处理带来了很大的困难.因为文本图像的处理只需要知道哪是文字,哪是背景,以及文字是什么,不需要知道它们对应像素点颜色上的差异.只有通过对这种文本图像实施二值化后,系统根据像素的灰度值相应地处理成黑、白两种颜色,图像中各像素点的值由0~255灰度值转化为0,1两个值中的一个,图像信息于是由灰度转化为黑白,其信息量大大减少,从而使得文本的特征更集中,便于图像处理[1].本文以脱机手写体阿拉伯字符的识别研究为背景,将改进后的EM算法应用在分块的脱机阿拉伯手写体文本图像识别的预处理过程中,实验结果表明效果良好.

1 手写体文本图像的二值化

预处理是文字识别的第一步,在实际识别系统中是一个很重要的阶段,该阶段与特征抽取阶段也是紧密相连的.良好的预处理可以有效地保持图像信息,二值化后的文本图像内仅含黑、白二色的信息,在它们之间不存在其他的灰度变化,从而更清楚地反映文本图像中字符的本质特征,使得后续阶段提取的特征能够更好的代表要识别的模式[2].

由于脱机手写体文本图像的识别只需要处理图像中的字型信息,对颜色等信息不作处理,所以对扫描得到的文本图像要进行二值化(Binarization)处理,以去掉冗余的信息.和灰度化相似,图像的二值化也有很多成熟的技术,但却没有一种方法能对任何目标对象都普遍适用,必须根据具体的处理对象而定.

二值化的方法根据其运算的范围不同,可分为全局阈值法和局部比较法.全局阈值法根据文本图像的直方图或灰度的空间分布确定一阈值,并根据此阈值实现灰度文本图像到二值化文本图像的转化.全局的阈值选取是根据整幅图像确定一个阈值,对输入图像的量化噪声或不均匀光照等情况抵抗能力差,应用受到极大的限制.局部阈值选取方法是将图像划分为若干子图像,根据每个子图像确定相应的阈值,这种方法通过定义考察点的邻域,并由邻域计算模板来实现考察点灰度与邻域的比较,较全局方法有更广泛的应用.其中比较典型的方法有Kamel-Zhao算法和Ber nsen算法.但局部比较法也存在缺点和问题,如实现伪影(ghost)等现象(即在背景区域受噪声干扰得到笔划结果).全局阈值选取方法对噪音比较敏感,因此应用中一般采用局部阈值选取方法.但是这二者并无本质的不同[3].

设文本图像中像素点(x,y)的灰度值为f (x,y),f(x,y)的取值范围是0~255,阈值采用下式确定λ=(f(x,y)max+f(x,y)min)/3,且使

其中为表达方便,255的值一般用“1”值表示[4].

从式(1)可以看出,上述确定阈值方法一个明显的弊端是,单纯地以2个点的灰度值:f (x,y)max,f (x,y)min作为代表来求整个图像的阈值过于片面,于是提出将期望值最大法(expectation-maxi mization,EM)算法[5-6]的思想用在灰度图像的二值化中,可以有效地避免这种以偏概全导致的误差.

2 用改进的EM算法实现分块灰度图像的二值化

文本图像二值化的关键是要找到合适的阈值T来区分目标和背景.阈值判定法利用了图像中所要提取的目标物(即前景)与其背景在灰度特性上的差异,把图像视为具有不同灰度级的两个区域的组合,通过选取阈值,将目标区域从背景中分离出来.所以阈值T的选择是关键,选得好,可以很好地将图像中的文字和背景分离开;选的不好,可能会造成待识别文字信息的丢失,导致误识率增高.

如图1所示,其中图a)显示的是一幅待识别的阿拉伯手写体文本图像,图b)是图像中一个块的直方图,从直方图可以看出,图像的前景(即文本)和背景的像素点形成了2个类,Background Peak和Text Peak分别是背景和目标的"峰",t h是这2个类的“谷”.由此,灰度图像二值化对EM算法来说就是一种比较特殊的情形,那就是类的数目2是已知的:代表背景的类(用0表示)和代表目标的类(用1表示).

图1 文本图像二值化

其具体算法如下.

1)数据准备 对于一个宽为W,高为H的文本图像I(x,y),0<x<W,0<y<H,用一维数组D[W×H]来表示,并且0≤D[i]<255,0<i<W×H.

2)初始化 给两个类的期望赋初值为E[1],E[2].可以随机赋值,但是初值的好坏对收不收敛以及收敛的速度都有很大的影响.初始值的选取也会影响算法的稳定性,如果初始值选取的比较好,算法相对稳定.于是设Dmin,Dmax和Dave分别是数组D的最小值、最大值和平均值,并且取

3)对数组D 中的每个元素D[i]计算和E[1],E[2]的距离为

其中:k=1,2;和E[1],E[2]哪个值近就归为哪一类,由此得到两个一维数组D1,D2,同时统计出D1,D22数组的大小L1,L2.

4)ε=|Error[1]-Error[0]|,若ε符合精度要求,转第6步,否则Error[0]=Err or[1].

5)重新计算类0和类1的期望E[1],E[2]:

释放数组D1,D2,转第三步(俗称重新洗牌).

6)如此图像中的所有像素点分到D1,D2两类中,然后将D1中像素点的灰度值全都置为0,D2中像素点的灰度值全都置为1.这样就实现了图像的二值化.

3 实验结果

图2为文本灰度图像,图3是其直方图,可以看出直方图处于整个灰度值的低端范围,这说明图像整体偏暗.先用文中式(1)所描述的方法,得到阈值th=(0+122)/3≈40.7,二值化的结果如图4所示,可以看出效果不是很好,图像周围应是白色的地方被二值化到黑色.以图2中圈出来的像素点(591,36)为例,从图中看出该点应归为“背景”类,也就是白色,现在已知它的灰度值28,按照上面计算出来的阈值40.7来划分,该点的灰度值小于40.7,被划分到“目标”类中,于是变成了黑色.这是因为整个图像光线不均匀,导致中间偏亮,四周偏暗,由此可以得出,一个全局的固定阈值不适用于二值化类似图2这样的整张图像.

图2 一幅待识别的灰度图像

图3 直方图

如果使用上面阐述的分块EM算法,对图像每块中的阈值动态聚类,就能有效地解决这个问题.

还是针对图2中的文本灰度图像,对输入的该图像I,先分块,在每块上使用改进后的EM算法,经过几次循环,反复修正E[1],E[2],将图像I中所有像素正确聚类到黑、白二个类,二值化结果如图5所示,这个结果显然好得多.

图4 采用式1确定阈值二值化的结果

图5 EM算法二值化的结果

4 结束语

手写体的文本识别一直是一个非常活跃的研究领域文中采用改进的EM算法对分块的阿拉伯手写体文本图像进行了二值化处理,实验效果良好,但是在实际应用中,对文本图像分块上不能一概而论.例如,若扫描过程中由于光线分布不均得特别厉害,则分块数势必要增加才能很好地将背景和文本分离,但是增加图像分块的同时也加大了计算量,降低了识别系统的效率,这二者之间的平衡还需要通过实验来获得一个较佳的终值.

[1]章毓晋.图像处理和分析[M].北京:清华大学出版社,2001.

[2]Lorigo L M,Govindaraju V.Offline arabic hand writing recognition:a survey,pattern analysis and machine intelligence[J].IEEE Transactions,2006,28(5):712-724.

[3]庄 军,李弼程,陈 刚.一种有效的文本图像二值化方法[J].微计算机信息,2005,21(8):56-57.

[4]杨 玲.脱机手写体汉字识别研究[D].成都:西华大学数学与计算机学院,2008.

[5]Al-Shaher A A,Hancock E R.Learning mixtures of point distribution models with the EM algorith m.pattern recognition[J].Pattern Recognition,2003,(36):2805-2818.

[6]Xu L,Jordan M I.On conver gence properties of the em algorithm for Gaussian mixtures.Neural Computation[J].Neural Co mputation,1996(8):129-151.

猜你喜欢
手写体分块像素点
钢结构工程分块滑移安装施工方法探讨
基于局部相似性的特征匹配筛选算法
分块矩阵在线性代数中的应用
基于大数据下的手写体识别的设计与研发
披着书法外衣的手写体
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
对维吾尔语手写体在线计算机识别技术的几点探讨
反三角分块矩阵Drazin逆新的表示