阿依萨代提·阿卜力孜,加合买提·司马义,卡米力·木依丁,艾斯卡尔·艾木都拉AYSADET·Abliz,HOJAHMAT·Ismayil,KAMIL·Muyidin,ASKAR·Hamdulla
新疆大学 信息科学与工程学院,乌鲁木齐 830046
Institute of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
文本行中的单词切分,是文本图像中比较重要的一步。它为后续的单词识别、字符切分和识别等技术奠定了基础。正确的切分才会有正确的识别,切分不当带来的识别错误是不容忽略的问题。文本行图像中单词的切分,在关键词搜索,单词为整体的文字识别等领域中占重要的地位。国内现在对印刷维吾尔文本图像中单词或连体段的研究比较多,相对脱机手写维吾尔文本图像的研究较少。对于印刷维吾尔文本图像中单词,连体段切分,靳简明[1]用连通体分析的方法,即文本行中的文字进行连通体标注,把其分三类,再用距离信息对主题部分和附加部分归并的方法切分出印刷体维吾尔文中的连体段;万金娥[2]印刷体维吾尔文文本行中的单词和连体段的切分阶段,利用印刷体维吾尔文中单词内空白间隙比单词间空白间隙小得多且有规律的特点,通过文本行垂直投影得到的结果确定阈值来把文本行中的单词和连体段都切分开;李亚男[3]用连通域搜索的方法来实现对印刷维吾尔文中连体段切分问题,该方法充分利用了字符的连通性,较好地解决了相邻连体段在水平方向覆盖的问题;朱兰[4]针对每一行内相邻的连体段之间存在重叠的现象提出了一种基于改进的滴水算法的切分方法。该方法首先判断两个连体段之间的关系,若存在空白间隙,则选择空白间隙的左右端作为切分点;若存在重叠现象,则选择基线空白间隙的中点作为切分点,然后根据滴落规则对两个连体段进行切分,得到了较好的切分结果;姑丽祖热[5]针对于印刷体维吾尔文中单词内的字符之间存在重叠而没有正确切分连体段的问题提出了基于跑长码的连通段标记法,该方法解决了垂直投影法中字符之间存在重叠而带来的切分错误情况。对于脱机手写维吾尔文本图像行切分易晓芳等[6-7]提出了基于连通域特征的维吾尔手写文本行分割和基于分段式前景涂抹和背景细化的文本行分割;艾斯卡尔·艾木都拉等[8]提出了基于着色处理的维吾尔文手写文本行分割。
脱机手写维吾尔文由于手写的随意性和文本图像中字符的唯一性,给单词切分带来了比较大的困难。根据维吾尔文的书写特征,在书写时单词和单词之间有一定的空白间距,一个单词内连体段之间也是有一定的空白间距,而且单词之间的距离比单词内的距离大。但是在手写中这种特征根据书写者的写作习惯,在不规律的发生变化。简单的投影,确定一个阈值进行单词切分,在脱机手写中不适用。针对这种问题,本文采用FCM融合K-means的聚类算法,结合后期合并等处理方法实现单词切分。
在切分的过程中,是以大篇幅的手写文本图像为研究对象,对文本图像整体处理。
单词切分指的是,文本行图像中把单词整体的切分出来[9]。对于本文,研究对象是大篇幅的脱机手写文本图像。对此,本文提出的算法流程图如图1所示,主要包含以下4个步骤:(1)对整片文本图像进行预处理和文本行的切分;(2)对每一行应用聚类算法;(3)对每一行中的文字区域进行合并,确定切分点;(4)对切分点内的文字区域连通域标注,着色处理。
本文采集了50个人的笔迹,将笔迹以300 dot/inch分辨率通过扫描仪,输入到计算机,二值化后以bmp格式存储到样本库里。
本文对脱机手写的文本图像的行切分阶段使用了文献[6]的自适应涂抹细化算法。比起传统的水平投影等行切分的算法,该算法能够根据文字的疏密程度,对文本行定位和切分。图2是使用该算法行切分结果。
图1 手写维吾尔文图像单词提取框架
图2 文本图像行切分
2.3.1 维吾尔文单词的书写特点
维吾尔文的有个书写特点是,在书写时单词和单词之间在水平方向有一定的距离。这个距离在印刷体上是有规律可寻的。但是在手写中,由于手写的随意性,这个距离根据书写者的书写特点在不断的变化。但是还要明确的一点是,单词之间的距离,比起单词内连体段之间的距离是明显大的。虽然手写维吾尔文很随意,但是每个书写者基本上都会遵守这种基本的书写规则。因此正是这种书写特点,把每个单词从文本行中切分出来的切入点。图3表示出了这个特点。
2.3.2 文本行的投影
观察脱机手写维吾尔文的特点可以发现,文本行单词之间存在重叠情况。垂直投影时,重叠的相邻两个单词之间没有空白间距,因此也不存在候选切分点。例如等字母出现的位置,由于书写时拉长下面部位,因此在文本行图像的下面出现重叠现象。选对于这个问题,采取了每个文本行图像,底部1/5的白像素部分置黑的方法。通过此方法,能够把拉长的文字区域部分变成背景区域,两个重叠单词之间出现空白间距,能够得到候选切分点。通过这一步得到的效果如图4所示。
图3 手写维吾尔文单词的书写特征
图4 解决重叠现象
对整个文本图像进行行切分的过程中,记录每个行的切分点,并按照此顺序,对初步处理后的每一文本行图像进行垂直投影。垂直投影的目的是找出每个文本行图像中文字区域之间的空白区域。通过垂直投影的结果,可以计算出每个文字区域和空白区域的长度和记录相应的切分点。记录的长度作为合并步骤的依据,而记录的切分点作为初始的切分点。图5为对文本行进行垂直投影的结果。
2.3.3 FCM融合K-means的聚类算法
垂直投影得到的空白间距,根据以上描述的维吾尔文单词的书写特点,可以聚类成单词间距离和单词内距离[10-11]。这个距离在印刷体中,可以通过确定一个阈值来分开。因为在印刷体维吾尔文中,单词内距离和单词间距离之间有规律可寻。而在脱机手写的文档图像中不可取的。因为输入的每一张文档图像都有自己的书写特点,显然这种单词之间的距离等特点也是根据书写者的不同而变化的。因此适合一张文档图像的阈值,遇到其他种书写风格的文档图像时,可能不适用或者需要人为地进行阈值的调整。因此为了解决这个问题,提出了对垂直投影得到的空白间距进行聚类算法。聚类算法是无监督的学习方法。每次输入不同的图片,根据每一行中单词间和单词内的距离的情况,对空白间距进行聚类,不需要人为地设定一个阈值。本文FCM融合K-means的聚类方法应用到单词切分中。FCM(模糊c均值聚类)和K-means(K均值聚类)都是基于划分的聚类算法,其中FCM是K-means算法的改进,是一种柔性的模糊划分,而K-means是硬性的聚类算法。它们基本的思想是被划分到同一簇对象之间的相似度大,不同簇之间的相似度小[12-13]。但是FCM算法仍然对聚类中心比较敏感,因此用文献[14]的方法,用K-means算法得到的聚类中心来初始化FCM的聚类中心。图6为对文本图像中的任一的文本行图像进行聚类之后的结果。
图5 文本行的垂直投影
实验过程中,用了两次聚类算法。分别对空白间距和文字区域进行聚类。对于文字区域聚类成三类,分别为单个字符、标点符号和一些散点作为第一类,连体段为第二类,单个的单词为第三类。当然通过这种分类得到的第三类不是都属于单个的单词。因为仅靠文字的长度得到的这种分类,只能说明对得到的文字区域需要进一步地合并,并不能说明得到的第三种分类都是单个单词。因为维吾尔文单词长度之间没有规律,有些单词很短,跟连体段的长度相当,而有些连体段也是比较长,错误地分类成单个的单词。因此在合并的过程中,再结合每个文字区域之间的空白间距来进行合并。文字区域之间的距离和每个文字区域长度,是根据书写者的写作习惯的不同而变化的,为了保证合并结果的正确性,有必要对每一行都进行一次聚类算法。图7是三个不同的书写者对同一行文字的笔迹,进行聚类后的对比图。
图6 聚类结果
图7 不同书写者书写特点之间的对比
从这对比图表中可以看出,初步确定切分点后,根据对空白间距的聚类得到的结果对文字单区域进行合并是很必要的。
2.3.4 文字区域之间的合并
每一行的空白间距分成单词内距离和单词间距离,把这一分类结果作为判断依据,对每一行的文字区域进行合并。
整个文本图像是从左到右扫描的,因此该文也是从左到右对文字区域间的空白间距进行判断。图8中的空白间距是通过垂直投影得到的距离。合并过程中,当第一个空白间距判断为单词内距离时,不记录切分点,继续判断第二个空白间距。若判断为单词间距离时,记录为切分点。通过这种循环的方法,对手写文本图像每一行中的空白间距进行判断,最后得到切分点。
图8 合并过程
2.3.5 对切分点的着色处理
本文通过对切分点内的文字给予不同的颜色,来表示单词已经被切分出的结果[15-16]。为了对文字区域着色,先对一行图像中每一切分点之间连通域标注,本文用的是八连通域的标注。着色过程,是对一个切分点之间标注好的连通域给予一样的颜色,相邻的两个切分点之间给予不同的颜色。这里为了更明显地看出切分效果,本文对相邻的切分点给予了蓝色和红色两种颜色交替着色,见图9。
图9 手写文本图像单词切分结果
通过实验发现,所提出的方法用在印刷体维吾尔文本图像时,得到了很高的切分率。对于印刷体维吾尔文本图像,对空白间距分类,用阈值的方法来解决。通过实验统计,在印刷体维吾尔文本图像中,空白间距小于5为单词内距离,空白间距大于5时为单词间距离来处理。合并,着色处理部分都用脱机手写维吾尔文本图像的处理方法来解决。根据实验结果可知,除了一些汉族人的姓和名切分开和一些特殊符号没被切分出来以外其他单词都可以完整地切分出来,图10为切分结果。
图10 印刷维吾尔文本图像单词提取结果
本文的实验平台为3.4 GHz,内存为8 GB,运行环境为MATLAB R2014b。实验对象为50幅不同的人书写的维吾尔脱机手写文本图像。其中50幅图像共有536行和4 002个单词。实验过程中所使用的公式如下:
其中Pi为每i幅图像中单词正确切分率,为全部图像的单词平均正确切分率。ni为第i幅图像中正确切分单词数量,Ni为第i幅图像中总单词数量的理论值,m为做实验的总的图像数量,本文中m=50。实验结果表1所示。
从表格中可以看出,单词平均正确切分率为80.68%。根据实验结果还能观察到,50幅图像中最大的正确单词切分率达到95.74%,而最小正确单词切分率只有51.28%。因此书写者的写作习惯,对单词切分正确率带来的影响较明显。
通过本文的方法,解决了一个单词切分成几个连体段的现象和部分的重叠现象。同时实现了大篇幅脱机手写文本图像的整体处理。
表1 聚类算法单词切分的结果
通过做对比实验还可以发现,分别用FCM聚类算法和FCM和K-means融合的聚类算法得到的聚类结果是一样。因为两个聚类算法中,任何一种聚类算法得到的两个聚类中心大小之间的差距比较大,因此对聚类结果的好坏不造成影响。但是FCM融合K-means的算法迭代次数明显少于FCM聚类算法,因此聚类所耗的时间也有所减少。图11所示,为使用两种算法得到的,每一幅图像平均迭代次数的对比图。
图11 两种算法平均迭代次数的对比
对脱机手写文本图像单词切分中出现的19.32%的平均错误率,主要是因为在书写时的不规范带来的。在整个算法的切分过程中,当遇到有些字符的下面部位水平方向拖尾带来的重叠、单词间距离较小被错误地分类成单词内距离等情况时,把两个单词合并成一个单词。有些单词内距离过大时,聚类过程中被误判为单词间距离,把一个单词切分成两个单词。这些错误切分的情况图12所示。
图12 错误切分分析
对于从大篇幅脱机手写维吾尔文本图像中单词切分的问题,提出了一种基于FCM融合K-means的算法。算法先对每一行进行垂直投影,把空白间距的位置确定为初始切分点。其次再对文本行图像中,文字区域之间的空白间距进行聚类,把距离分成单词内距离和单词间距离,再对单词内距离的位置,和其周围的文字区域进行合并,得到最后的切分点,再对每个切分点进行着色处理得到了最终的切分结果,得到了80.68%的平均切分正确率。在脱机手写维吾尔文本图像中,相邻单词之间出现的重叠情况和因个人书写习惯把相邻单词写太近的现象,导致切分错误。
参考文献:
[1]靳简明,丁晓青,彭良瑞,等.印刷维吾尔文本切割[J].中文信息学报,2005(5):76-83.
[2]万金娥,袁保社,李晓,等.一种改进的印刷体维吾尔文投影切分方法[J]计算机工程,2013(4):263-266.
[3]李亚男,陈兴文,张丹.印刷体维文切分算法的改进——基于像素积分投影法和连通域搜索法[J].大连民族学院学报,2014(3):315-318.
[4]朱兰,袁保社,余伟.基于滴水算法的印刷体维吾尔文切分方法[J].计算机技术与发展,2015(7):107-110.
[5]姑丽祖热·吐尔逊,尤努斯·艾沙,吐尔根·依布拉音,库尔班·吾布力.连通域结合重叠度的维吾尔文档图像文字切分[J].计算机工程与设计,2016(7):1892-1897.
[6]易晓芳,卡米力·木依丁,艾斯卡尔·艾木都拉.基于连通域特征的维吾尔手写文本行分割[J].计算机工程与应用,2014,50(18):142-146.
[7]易晓芳,卡米力·木依丁,艾斯卡尔·艾木都拉.基于分段式前景涂抹和背景细化的文本行分割[J].计算机工程,2013(5):204-208.
[8]艾斯卡尔·艾木都拉,易晓芳,卡米力·木依丁.基于着色处理的维吾尔文手写文本行分割[J].清华大学学报:自然科学版,2013(2):259-264.
[9]Al-Dmour A,Fraij F.Segmenting arabic handwritten documents into text lines and words[J].International Journal of Advancements in Computing Technology,2014,6(3):109-119.
[10]Louloudis G,Stamatopoulos N,Gatos B.A novel two stage evaluation methodology for word segmentation techniques[C]//10th International Conference on Document Analysis and Recognition,Barcelona,2009:686-690.
[11]Kim S H,Jeong S,Lee G S,et al.Word segmentation in handwritten Korean text lines based on gap clustering techniques[C]//Proceedings of Sixth International Conference on Document Analysis and Recognition,Seattle,WA,2001:189-193.
[12]戈国华,肖海波,张敏.基于FCM的数据聚类分析及Matlab实现[J].福建电脑,2007(4):89.
[13]王千,王成,冯振元,等.K-means聚类算法研究综述[J].电子设计工程,2012(7):21-24.
[14]王与,陈寿文.K-means融合FCM算法聚类研究[J].滁州学院学报,2014(5):51-54.
[15]Ryu J,Koo H I,Cho N I.Word segmentation method for handwritten documents based on structured learning[J].IEEE Signal Processing Letters,2015,22(8):1161-1165.
[16]Kavallieratou E.Word segmentation using Wigner-Ville distribution[C]//13th International Conference on Document Analysis and Recognition(ICDAR),Tunis,2015:701-705.