面向OSD选单文字分割算法的研究

2016-11-01 08:51陈伯豪林志贤姚剑敏郭太良

电视技术 2016年10期

关键词：二分法投影光照

陈伯豪，林志贤，姚剑敏，郭太良

(福州大学物理与信息工程学院，福建福州 350001)

面向OSD选单文字分割算法的研究

陈伯豪，林志贤，姚剑敏，郭太良

(福州大学物理与信息工程学院，福建福州 350001)

针对现有的自动化OSD选单图像文字分割存在亮度不均匀、图形噪声等问题，提出了一种面向OSD选单的文字分割算法，首先结合顶帽变换和改进的双阈值Otsu法对图像进行光照校正和图像二值化；通过垂直投影分析和Canny算子边缘检测法去除图形噪声，结合二分法和投影法解决文字黏合问题，最终达到OSD选单文字分割的目的。实验结果表明，提出的算法能够解决OSD选单亮度不均匀和图形噪声的问题，文字分割正确率达到88%以上，比传统投影法的正确率提高了67%。

OSD选单；OTSU算法；投影法；文字分割

近年来，随着显示器成为人们获取信息的重要渠道，应用也越来越广泛。OSD选单(On-Screen Display)是用户对显示器进行设置以获得最优视觉享受的重要设置。在生产中为避免OSD选单出现文字错误，解决办法是人工根据厂家提供的标准说明书和出厂的显示器上的OSD选单的文字进行对比，以此得到出厂的显示器的OSD选单文字是否有误。人工检测的工作量大，容易造成视觉疲劳，从而导致误检率升高。针对人工检测出现的问题，福建捷联电子有限公司正在研究OSD选单文字识别的自动化技术，而文字分割是文字识别的关键步骤，文字分割的质量将会直接影响文字识别的准确性。

目前，文字分割[1-2]的算法主要有：1)投影法。李静[3]等采用水平投影确定字符所在行的区域后，利用垂直投影确定单个字符的位置，能有效分割出身份证的字符，该方法算法简单、易于实现，但对部分左右结构和上下结构的汉字无法有效地分割。2)聚类分析法。Jun[4]等提出了一种基于非线性聚类方法的手写字符分割方法，通过计算笔画比重，形成聚类标签，最终分割出文字，该方法不能有效分割粘贴的字符。3)连通域法。Lei[5]等提出了一种利用非递归标记算法得到二值图像连通域的方法，通过连通域合并算法分割字符，该方法计算量较大，且对图像噪声敏感。4)模板匹配法。PEI[6]等提出了一种基于多尺度模板匹配和基于零件模型的分割方法，通过两种方式提取字符，利用两者之间的几何约束得到字符的最终分割结果，该方法自适应能力较差。

分析发现，OSD选单的文字分割难点主要有：1)由于显示器自身亮度、对比度，周围光照不均匀等因素导致图像二值化过程中形成了不必要的噪声或出现断字、漏字现象；2)存在图形噪声，影响投影分割的正确率；3)存在文字黏合现象，导致文字分隔时出现误检。针对以上分析，本文提出了一种面向OSD选单的文字分割算法，该算法结合顶帽算法和改进的双阈值Otsu法对图像进行光照校正和图像二值化；再通过垂直投影分析和Canny算子边缘检测法去除图形噪声，同时采用二分法解决文字黏合问题，最终完成OSD选单文字分割。该算法能有效克服现有OSD选单文字分割的难点，大幅提升文字分割的正确率。

1　传统算法分析

1.1数学形态学理论

数学形态学理论[7]是由法国的赛拉和马瑟荣于1894年提出的，其基本思想是用具有一定形态的结构元素来处理图像。数学形态学理论是基于腐蚀和膨胀这两种基本运算。假设图像集合为F(x，y)，结构元素为B(u,v)，DF和DB分别是F和B的定义域。

膨胀的表达式

F⊕B=max{F(x+u,y+v)+B(u,v)|(x+u),

(y+v)∈DF,(u,v)∈DB}

(1)

腐蚀的表达式

F⊖B=min{F(x+u,y+v)+B(u,v)|(x+u),

(y+v)∈DF,(u,v)∈DB}

(2)

用同一个结构元素对输入图像进行先腐蚀后膨胀，称为开运算

F∘B=(FΘB)⊕B

(3)

用同一个结构元素对输入图像进行先膨胀后腐蚀，称为闭运算

F·B=(F⊕B)ΘB

(4)

顶帽变换是从原图中减去形态学开运算后所得的图像，表示为

G=F-(F∘B)

(5)

顶帽变换多被用于增强前景与背景的对比度，从较暗的背景中提取目标，但是结构元素的选择需要根据图像的具体情况而定，自适应能力差。

1.2Otsu法分析

图像二值化[8]是一种重要的图像分割方法。目前，传统图像二值化的方法主要有Otsu,Bernsen,Sauvola等算法。Otsu算法简单、处理速度快以及自适应能力强，可以将文字和背景很好的分离。传统的Otsu[9]是通过遍历法找到一个灰度值，使得图像的前景和背景两部分的类间方差最大，该灰度值即为二值化的最佳阈值。

假设图像的总像素数为N，灰度级分为H={0，1，…，L-1}，灰度为i的像素数为ni，则

(6)

Pi表示灰度为i的像素的概率，于是有

(7)

图像灰度总均值

(8)

设C0和C1分别为前景和背景的像素集合，则有

(9)

设μ0(k)和μ1(k)分别为C0和C1的均值，则有

(10)

其中

(11)

于是可得C0和C1的类间方差为

(12)

通过遍历法，获得最佳阈值k为

(13)

分析公式可知，传统Otsu法是基于图像的全局灰度值，对文字和背景的对比度要求比较高，当图像亮度不均匀、对比度不高或者文字部分光照不均匀时，二值化效果不佳。

1.2投影分割算法分析

投影法[10]是通过统计图像在某方向上的投影信息，根据投影特点进行文字分割。假设图像矩阵大小为M×N，其中M表示图像的高度，N表示图像的宽度。将图像f(x，y)分别做水平方向和垂直方向上的积分投影，得到两个方向上的投影向量fy(x)和fx(y)。

(14)

(15)

式中：式(14)表示水平方向上的投影，式(15)表示垂直方向上的投影。x和y的取值范围分别为x∈[1,N],y∈[1,M]。投影法主要有行分割和字符分割两个步骤。行分割是通过水平投影分析，利用行与行之间的空白间距将每行文字分离出来。字符分割是在行分割的基础上，通过垂直投影分析，利用相邻字符之间的间隙将汉字分割出来。

图1所示为文本图像行分割结果及其水平投影图。纯文本图像的文字行距较大，从其水平投影图可以看出，文字行之间的空白区域表现为明显的波谷，可以很好地完成行分割。但是，OSD选单图像中包含图形噪声，水平投影受到干扰。OSD选单图像及其水平投影图如图2所示。从水平投影图中可以看出，文字行之间不再呈现简单而有规律的波峰或波谷，因此传统的投影法无法简单地运用于OSD选单图像文字分割。

图1　文本图像行分割结果及其水平投影图

图2　OSD选单图像及其水平投影

2　本文算法

针对以上分析可知，由于OSD选单图像存在光照不均匀和图形噪声，采用传统投影法进行文字分割的效果不佳，正确率低。为此本文提出一种OSD选单的文字分割算法，先采用顶帽变换对采集的OSD选单图像进行光照校正后用改进的双阈值Otsu算法进行二值化，再结合Canny算子边缘检测法，去除剩余的图形噪声，最后结合二分法和投影法对文字进行分割。本文的算法流程如图3所示。

图3　本文算法流程图

2.1图像预处理

通过摄像头获取的OSD选单图像，存在光照不均匀现象，导致无法得到理想的二值化效果。因此，在文字分割前需要先对采集的OSD选单图像进行光照校正。经分析OSD选单文本图像，其存在背景亮度不均匀、文字区域亮度不均匀两大问题。本文先采用全局光照校正后再用局部光照对图片进行预处理，以减少背景亮度不均和文字区域亮度不均的问题。

2.1.1全局光照校正

本文尺寸为800×600的图片进行测试，针对背景亮度不均匀问题，经过多次实验，在全局光照校正中，选择半径为10的圆盘结构元素B1，如式(16)所示，对图像进行顶帽变换[11]。

(16)

“1”代表结构元素B的定义域DB的所在范围，“0”代表DB的范围之外。经实验测试发现，结构元素半径如果太大，会使文字区域的边缘粘合在一起，文字变得模糊；半径太小，则会去除文字边缘的部分像素，造成信息丢失。采集的选单图像经过顶帽变换后，消除了比结构元素尺寸小的明亮特征，剩下的背景图像较为均匀，同时也使文字在一定程度上得到了平滑。

2.1.2局部光照校正及二值化

经过顶帽变换后，图像整体亮度得到了校正。但是，文字区域的亮度不均匀现象仍未得到很好的改善。如果直接对图像二值化，所得到的文字笔画可能出现黏合现象。为此，还需对图像进行局部的光照校正。本文仍采用顶帽算法对其进行局部亮度校正。

采用半径为5的圆盘结构元素B2，对选单图像进行开运算，细化图像中的文字边缘，避免文字笔画黏合现象；再用结构元素B2进行闭运算，避免部分文字因为开运算造成笔画断开。

经过全局和局部光照校正后，得到亮度较为均匀的图像，开始对图像进行二值化，将文字信息从背景中分割出来。Otsu可以快速对图像进行二值化，选取合适的阈值至关重要。通过实验，比较传统Otsu、双阈值Otsu[12]、二维Otsu[13]的二值化效果，本文选择用改进的双阈值Otsu。传统Otsu法的类间方差公式如式(12)所示，拓展到双阈值时，过程如下

(17)

(18)

其中

(19)

改进后的双阈值公式如下

(20)

2.2改进的投影分割法

投影法是利用水平投影和垂直投影进行判断文字区域，常规的方法——先行分割后字符分割已经证明不适用于OSD选单。分析发现，二值化后的图像中存在大面积的图形噪声和光照噪声，投影分析后，如图2所示，这类噪声表现为一个波峰且峰值接近于最大值。因此，根据这个特征，本文对选单图像进行投影分析，将有此特征的区域判定为图形，并将其全部滤除。

去除大面积噪声后，进行行分割，发现仍存在一些图形噪声，这些图形的形状较为简单，表现为矩形、三角形等。本文采用Canny算子[14]进行边缘检测，选出这些图形并去除。Canny边缘检测法有较好的信噪比和检测精度，能迅速检测出所需要的图形。具体检测流程如图4所示。

图4Canny算子边缘检测流程图

为解决相邻文字间距小造成的难题，分析图像中文字的垂直投影，发现汉字的水平投影宽度占总投影的3.1%～4.2%之间，个别文字如“伽”投影达到5.1%，英文字母及数字“j”和“0”等会小于3.1%。如图5a所示，为去除噪声后的OSD选单图像，图5b分别针对第一行和第五行文字进行垂直投影分析，图中表明投影所代表的文字及其投影宽度所占总投影的比例。

图5　OSD选单

假设一个波的投影宽度为L，一行字的总投影宽度为W，设置如下规定：

1)L/W<3.1%时，通过模板匹配法，确定该区域文字是否为英文字母或者数字。若是，则单独分割出来，否则判定为汉字偏旁，与下一个相邻投影相结合为一个字。

2)3.1%

3)L/W>5.2%，该投影对应的区域出现了文字黏合现象。采用二分法思想进行判定。首先，先根据投影宽度判定黏合的字数，L/W∈(5.2%,10.2%)为双字黏合，L/W∈(10.2%,15.2%)为三字黏合，实验证明，在OSD选单图像中最多出现三个字的黏合情况。本文采用洗允廷[15]等提出的基于二分法的投影分割算法，假设出现黏合的区域图像为I，根据L/W所在的区间选择使用二分法的次数。双字黏合情况下，采用一次二分法，找到投影最小值作为分割点；三字黏合情况下，则使用两次二分法，得到两个投影I1和I2，选择两者中宽度较大的投影，再使用一次二分法，具体流程如图6所示，i为二分法的使用次数。

图6　二分法投影分割流程图

3　实验结果与分析

为了验证本文方法的效果，本文收集了300张光照不均匀的OSD选单图像，将其裁剪为800×600，建立了文本图像库进行实验。选单图像库包括冠捷旗下的ENVISION(易美逊)和AOC、饭山(Iiyama)、戴尔(Dell)等10种显示器OSD选单。在实验中，本文采用的硬件平台为CPU 2.2 GHz，内存为4 Gbyte，软件算法使用VC编写实现，操作系统为Window7。

3.1图像预处理结果分析

为了验证本文光照处理后二值化的效果，实验中分别对传统的Otsu、直方图均衡化以及本文的方法进行对比，如图7所示。对3种方法二值化后每张图的文字数进行统计，根据剩余可见且清晰的文字数占原图像总字数的比例按(0，60%]，(60%，70%]，(70%，80%]，(80%，90%]，(90%，100%)5个区间记录，结果如表1所示。

图7　传统二值化算法与本文方法效果图

区间传统Otsu法直方图均衡化本文方法(90%,100%)3822202(80%,90%]894032(70%,80%]768536(60%,70%]41782560%以下56755总计300300300

对比实验结果可以看出，图像经过光照处理后，削弱了光照不均对文字的影响，且采用本文的二值化方法可以去除大量的光照噪声，避免出现断字、缺字的情况，为投影法分割奠定了基础。

3.2OSD选单文字分割结果分析

图8显示了本文算法对OSD选单进行文字分割的过程，对比3种方法的分割结果可以看出，通过垂直投影分析和Canny算子边缘检测，可以去除图形噪声，解决了图形噪声给投影法带来的分割障碍；通过分析投影宽度，采用二分法可以较好地解决文字黏合问题。

图8　本文算法对OSD选单进行文字分割(截图)

将图7d别采用传统投影法、连通域法、模板匹配法以及本文方法进行文字分割，结果如图9所示。从图9可以看出，本文方法不仅能够解决各种噪声问题，而且可以解决文字黏合问题。

图9　文字分割结果图(截图)

表2所示为4种算法的文字识别率情况，表3所示为4种算法的误检情况(误检率在本文中表现为将图形误判为文字或文字分割不完整)。

表24种算法的文字识别率

文字识别率区间传统投影法/张连通域法/张模板匹配法/张本文方法/张(90%,100%)25181192(80%,90%]2123218(70%,80%]2616300(60%,70%]15206060%以下1323320总计100100100100

表34种算法的文字误检情况

误检个数区间传统投影法/张连通域法/张模板匹配法/张本文方法/张(0,5)22397(5,10]2233193(10,15]3212230(15,20]122520020以上3228350总计100100100100

从表2、表3可以看出，图形噪声严重干扰了文字分割的正确率，本文方法可以去除图形噪声，消除其带来的影响，不会将图形误判为文字，本文方法下的文字识别率明显高于其他3种算法，且误检率低。其中，本文方法的文字识别率至少达到88%，比传统方法最低识别率高出68%；识别率达到90%以上的图像有92张，比传统方法中识别率最高的聚类分析法多67张，多了3.68倍。由于本文方法包含了去除图形噪声过程，每张图的误检个数控制3个以内，比传统方法多94%。表3中本文方法出现有3张图出现5个以上误检，分别是由于图像倾斜角度太大、光照太强等原因，这种情况一般不会出现，因此可以忽略。

4　结语

本文提出了一种面向OSD选单的文字分割算法，结合顶帽算法和改进的双阈值Otsu法对图像进行光照校正和图像二值化；再用改进投影法通过垂直投影分析和Canny算子边缘检测法去除图形噪声，并通过二分法解决文字黏合问题，最终完成OSD选单文字分割。本文对100张OSD选单图像进行试验，本文算法下每张图像的文字识别率均高于88%，相比于传统算法的识别率提高了67%。实验结果表明，本文算法能够很好地解决由于光照和显示器本身硬件原因带来的图像亮度不均匀问题，能消除图形噪声带来的障碍，解决文字黏合问题。

[1]许璐，陈文艺，杨辉.基于网格图像自动检测的镜头畸变校正[J].电视技术，2015，39(17)：13-15.

[2]马文平，卿粼波，吴小强，等.基于HOG+SVM模型的场景文字二次检测算法[J].电视技术，2015，39(7)：118-121.

[3]李静，卢凯旋.二代身份证的自动分割方法研究[J].计算机工程与应用，2015，51(14)：165-169.

[4]TANAJ，LAIBJ-H，WANGBC-D，etal.Anewhandwrittencharactersegmentationmethodbasedonnonlinearclustering[J].Neurocomputing，2012，89(10)：213-219.

[5]ZHUL，YANGJ.AncientbooksChinesecharacterssegmentationbasedonconnecteddomainandchinesecharactersfeature[J].Advancedmaterialsresearch，2010，143(2)： 227-231.

[6]PEIMIT，WANGYJ，JIAYD，etal.Licenseplatecharactersegmentationbasedonmultiplescaletemplatesmatchingandpart-basedmodel[J].TransactionsofBeijinginstituteoftechnology，2014，34(9)：961-971.

[7]马永慧，薛丹丹. 基于数学形态学和投影法的车牌定位方法[J].电视技术，2013，37(7)：147-149.

[8]AHMADIE，AZIMIFARZ，SHAMSM，etal.Documentimagebinarizationusingadiscriminativestructuralclassifier[J].Patternrecognitionletters，2015，63：36-42.[9]BISWAS B，DEY K N，CHAKRABARTI A. Remote sensing image fusion using multithreshold Otsu method in shearlet domain[J].Procedia computer science，2015，57：554-562.

[10]李林，卢焕章，肖山竹，等.基于部分投影的粘连目标分割[J].电视技术，2013，37(11)：203-205.

[11]YANG X. Enhancement for road sign images and its performance evaluation[J]. Optik， 2015， 124(14)： 1957-1960.

[12]尹奎英，刘宏伟，金林.快速的Otsu双阈值SAR图像分割法[J]. 吉林大学学报(工学版)，2011，41(6)：1760-1765.

[13]张新明，孙印杰，郑延斌.二维直方图准分的Otsu图像割及其快速实现[J].电子学报，2011，39(8)：1778-1784.

[14]ZHU A，WANG G Y. A new detection operator for narrow band character extraction in low contrast scenes[J]. Canadian journal of electrical and computer engineering，2013，36(3)：117-121.

[15]冼允廷，路小波，施毅，等.基于投影二分法的车牌字符分割方法[J].交通与计算机，2007，25(5)：69-72.

陈伯豪(1990— )，硕士生，主研嵌入式系统、模式识别；

林志贤(1975— )，硕士生导师，教授，本文通信作者，主要研究方向为信息显示，平板显示器件驱动和图像处理技术；

姚剑敏(1978— )，硕士生导师，副研究员，主要研究方向为视频图像处理、模式识别；

郭太良(1963— )，博士生导师，研究员，主要研究方向为场致发射阴极材料及器件研究。

责任编辑：闫雯雯

Study of text segmentation algorithm for OSD menu

CHEN Bohao，LIN Zhixian，YAO Jianmin，GUO Tailiang

(CollegeofPhysicsandInformationEngineering，FuzhouUniversity，Fuzhou350001，China)

For automation OSD menu text image segmentation exiting uneven brightness， pattern noise and other issues， a text segmentation algorithm for the OSD menu is put forward， combined with Top-Hat algorithm and improved dual-threshold OTSU method for image illumination correction and image binarization； then uses the improved projection method to remove pattern noise， and uses dichotomy to solve the problem of text cohesion， and finally completes text segmentation. Experimental results show that this method can solve the problems of uneven brightness and pattern noise. The accuracy rate of text segmentation reaches over 88%， increasing by 67% compared with the traditional projection method.

OSD menu； OTSU； projection method； text segmentation

TN949.6

ADOI： 10.16280/j.videoe.2016.010.022

国家科技部“863”重大专项(2013AA030601)；福建省科技重大专项(2014HZ0003-1)；福建省资助省属高校专项课题(JK2014003)；福建省科技厅重点项目(2013H0033)

2015-12-02

文献引用格式：陈伯豪，林志贤，姚剑敏，等. 面向OSD选单文字分割算法的研究[J].电视技术，2016，40(10)：107-112.

CHEN B H，LIN Z X，YAO J M，et al. Study of text segmentation algorithm for OSD menu [J]. Video engineering，2016，40(10)：107-112.

面向OSD选单文字分割算法的研究

1 传统算法分析

2 本文算法

3 实验结果与分析

4 结语

1　传统算法分析

2　本文算法

3　实验结果与分析

4　结语