改进的EM算法在分块灰度图像二值化中的应用

2011-08-17 09:37王红霞程艳芬

武汉理工大学学报（交通科学与工程版） 2011年4期

王红霞程艳芬

（武汉理工大学计算机学院武汉 430063）

0 引言

文本图像的识别是模式识别领域的一个重要应用分支，而在整个OCR（optical character recognition）领域中，最为困难的就是脱机自由手写字符的识别.

一幅通过扫描得到的手写体文本图像，无论是彩色图像还是灰度图像，各像素因为颜色深浅不一，于是在取值范围内会取不同的值.例如一个彩色图像中某个像素（R，G，B），其R，G，B 的取值范围均在（0，255）之间，这种情况给文本图像的处理带来了很大的困难.因为文本图像的处理只需要知道哪是文字，哪是背景，以及文字是什么，不需要知道它们对应像素点颜色上的差异.只有通过对这种文本图像实施二值化后，系统根据像素的灰度值相应地处理成黑、白两种颜色，图像中各像素点的值由0～255灰度值转化为0，1两个值中的一个，图像信息于是由灰度转化为黑白，其信息量大大减少，从而使得文本的特征更集中，便于图像处理［1］.本文以脱机手写体阿拉伯字符的识别研究为背景，将改进后的EM算法应用在分块的脱机阿拉伯手写体文本图像识别的预处理过程中，实验结果表明效果良好.

1 手写体文本图像的二值化

预处理是文字识别的第一步，在实际识别系统中是一个很重要的阶段，该阶段与特征抽取阶段也是紧密相连的.良好的预处理可以有效地保持图像信息，二值化后的文本图像内仅含黑、白二色的信息，在它们之间不存在其他的灰度变化，从而更清楚地反映文本图像中字符的本质特征，使得后续阶段提取的特征能够更好的代表要识别的模式［2］.

由于脱机手写体文本图像的识别只需要处理图像中的字型信息，对颜色等信息不作处理，所以对扫描得到的文本图像要进行二值化（Binarization）处理，以去掉冗余的信息.和灰度化相似，图像的二值化也有很多成熟的技术，但却没有一种方法能对任何目标对象都普遍适用，必须根据具体的处理对象而定.

二值化的方法根据其运算的范围不同，可分为全局阈值法和局部比较法.全局阈值法根据文本图像的直方图或灰度的空间分布确定一阈值，并根据此阈值实现灰度文本图像到二值化文本图像的转化.全局的阈值选取是根据整幅图像确定一个阈值，对输入图像的量化噪声或不均匀光照等情况抵抗能力差，应用受到极大的限制.局部阈值选取方法是将图像划分为若干子图像，根据每个子图像确定相应的阈值，这种方法通过定义考察点的邻域，并由邻域计算模板来实现考察点灰度与邻域的比较，较全局方法有更广泛的应用.其中比较典型的方法有Kamel－Zhao算法和Ber nsen算法.但局部比较法也存在缺点和问题，如实现伪影（ghost）等现象（即在背景区域受噪声干扰得到笔划结果）.全局阈值选取方法对噪音比较敏感，因此应用中一般采用局部阈值选取方法.但是这二者并无本质的不同［3］.

设文本图像中像素点（x，y）的灰度值为f （x，y），f（x，y）的取值范围是0～255，阈值采用下式确定λ＝（f（x，y）max＋f（x，y）min）／3，且使

其中为表达方便，255的值一般用“1”值表示［4］.

从式（1）可以看出，上述确定阈值方法一个明显的弊端是，单纯地以2个点的灰度值：f （x，y）max，f （x，y）min作为代表来求整个图像的阈值过于片面，于是提出将期望值最大法（expectation－maxi mization，EM）算法［5－6］的思想用在灰度图像的二值化中，可以有效地避免这种以偏概全导致的误差.

2 用改进的EM算法实现分块灰度图像的二值化

文本图像二值化的关键是要找到合适的阈值T来区分目标和背景.阈值判定法利用了图像中所要提取的目标物（即前景）与其背景在灰度特性上的差异，把图像视为具有不同灰度级的两个区域的组合，通过选取阈值，将目标区域从背景中分离出来.所以阈值T的选择是关键，选得好，可以很好地将图像中的文字和背景分离开；选的不好，可能会造成待识别文字信息的丢失，导致误识率增高.

如图1所示，其中图a）显示的是一幅待识别的阿拉伯手写体文本图像，图b）是图像中一个块的直方图，从直方图可以看出，图像的前景（即文本）和背景的像素点形成了2个类，Background Peak和Text Peak分别是背景和目标的"峰"，t h是这2个类的“谷”.由此，灰度图像二值化对EM算法来说就是一种比较特殊的情形，那就是类的数目2是已知的：代表背景的类（用0表示）和代表目标的类（用1表示）.

图1 文本图像二值化

其具体算法如下.

1）数据准备对于一个宽为W，高为H的文本图像I（x，y），0＜x＜W，0＜y＜H，用一维数组D［W×H］来表示，并且0≤D［i］＜255，0＜i＜W×H.

2）初始化给两个类的期望赋初值为E［1］，E［2］.可以随机赋值，但是初值的好坏对收不收敛以及收敛的速度都有很大的影响.初始值的选取也会影响算法的稳定性，如果初始值选取的比较好，算法相对稳定.于是设Dmin，Dmax和Dave分别是数组D的最小值、最大值和平均值，并且取

3）对数组D 中的每个元素D［i］计算和E［1］，E［2］的距离为

其中：k＝1，2；和E［1］，E［2］哪个值近就归为哪一类，由此得到两个一维数组D1，D2，同时统计出D1，D22数组的大小L1，L2.

4）ε＝｜Error［1］－Error［0］｜，若ε符合精度要求，转第6步，否则Error［0］＝Err or［1］.

5）重新计算类0和类1的期望E［1］，E［2］：

释放数组D1，D2，转第三步（俗称重新洗牌）.

6）如此图像中的所有像素点分到D1，D2两类中，然后将D1中像素点的灰度值全都置为0，D2中像素点的灰度值全都置为1.这样就实现了图像的二值化.

3 实验结果

图2为文本灰度图像，图3是其直方图，可以看出直方图处于整个灰度值的低端范围，这说明图像整体偏暗.先用文中式（1）所描述的方法，得到阈值th＝（0＋122）／3≈40.7，二值化的结果如图4所示，可以看出效果不是很好，图像周围应是白色的地方被二值化到黑色.以图2中圈出来的像素点（591，36）为例，从图中看出该点应归为“背景”类，也就是白色，现在已知它的灰度值28，按照上面计算出来的阈值40.7来划分，该点的灰度值小于40.7，被划分到“目标”类中，于是变成了黑色.这是因为整个图像光线不均匀，导致中间偏亮，四周偏暗，由此可以得出，一个全局的固定阈值不适用于二值化类似图2这样的整张图像.

图2 一幅待识别的灰度图像

图3 直方图

如果使用上面阐述的分块EM算法，对图像每块中的阈值动态聚类，就能有效地解决这个问题.

还是针对图2中的文本灰度图像，对输入的该图像I，先分块，在每块上使用改进后的EM算法，经过几次循环，反复修正E［1］，E［2］，将图像I中所有像素正确聚类到黑、白二个类，二值化结果如图5所示，这个结果显然好得多.

图4 采用式1确定阈值二值化的结果

图5 EM算法二值化的结果

4 结束语

手写体的文本识别一直是一个非常活跃的研究领域文中采用改进的EM算法对分块的阿拉伯手写体文本图像进行了二值化处理，实验效果良好，但是在实际应用中，对文本图像分块上不能一概而论.例如，若扫描过程中由于光线分布不均得特别厉害，则分块数势必要增加才能很好地将背景和文本分离，但是增加图像分块的同时也加大了计算量，降低了识别系统的效率，这二者之间的平衡还需要通过实验来获得一个较佳的终值.

［1］章毓晋.图像处理和分析［M］.北京：清华大学出版社，2001.

［2］Lorigo L M，Govindaraju V.Offline arabic hand writing recognition：a survey，pattern analysis and machine intelligence［J］.IEEE Transactions，2006，28（5）：712－724.

［3］庄军，李弼程，陈刚.一种有效的文本图像二值化方法［J］.微计算机信息，2005，21（8）：56－57.

［4］杨玲.脱机手写体汉字识别研究［D］.成都：西华大学数学与计算机学院，2008.

［5］Al－Shaher A A，Hancock E R.Learning mixtures of point distribution models with the EM algorith m.pattern recognition［J］.Pattern Recognition，2003，（36）：2805－2818.