王秀友 任方针 刘华明 时如梦 王胜波
摘 要:古籍文档图像版面分割是古籍数字化流程中至关重要的一步,藏文古籍文档版面分割是后续藏文版面分析等工作的基础。针对藏文古籍文档版面分割问题,提出了基于分段投影法的藏文古籍文档图像版面分割方法,该方法采用分段投影法,利用古籍版面结构与各分段投影值之间的联系,通过两次分段多次投影得出古籍文档图像版面分割结果。实验结果表明,该方法取得了较好的古籍文档版面分割结果,为藏文古籍图像的版面分割提供了一种可以借鉴的思路。
关键词:版面分割;分段投影;藏文古籍;版面分析;投影法
中图分类号:TP391.4 文献标识码:A 文章编号:1673-260X(2021)08-0038-05
0 引言
藏族作为我国56个民族之一,其文化是我国文化的重要组成部分,而藏文古籍作为承载藏族文化的载体,对于藏族文化的传承至关重要,因此对藏文古籍保护的研究较有意义,当前古籍数字化保护已经成为了主要的古籍保护方式,古籍图像示例如图1所示。古籍数字化通常包括古籍拍照或扫描、古籍图像版面分割、古籍图像版面描述、古籍图像内容识别等步骤,古籍版面分割作为古籍数字化中的重要步骤,对古籍版面分割的研究是很有必要的。
版面分割是古籍数字化中关键的一步,是后续操作的基础,在版面分割方面也有不少研究。在过去的几十年中,国内外的研究者针对印刷或手写的古籍文献提出了许多不同的版面分析方法。张利[1]等利用游程平滑算法(RLSA)对英文文档进行版面分割,提出了基于游程平滑算法(RLSA)的方法对英文文档进行版面分割,该方法首先使用游程平滑算法将版面分成一些小区域,然后对这些区域进行连通元素分类与合并,最终达到版面分割的目标。于明[2]等改进了传统基于连通域的版面分析方法,对文本图像进行单个字体的区域扩充,使后续的连通间距统计更为准确和方便,再通过连通间距的统计对图像进行模糊整合,进行文本图像的连通区域分割,效果更好。Chen Kai等[3-5]于2014至2017年间分别提出了基于颜色和纹理特征的历史手写文档图像页面分割方法、基于卷积自编码的历史文档图像页面分割方法、基于无监督特征学习超像素分类的历史文档图像页面分割方法,在历史文档页面分割上取得了不错的效果,降低了复杂度且提升了分析效果。Strouthopoulos[6]提出了一种基于神经网络的文献图像文本区域识别与分析方法,该方法首先使用掩膜进行运算,提取各个区域的纹理信息,再使用神经网络结合这些降维后的特征对这些区域进行分类。魏传义[7]提出一种分列投影的版面分割算法。该方法继承了投影法本身计算速度快的特点,同时还可以避免图像弧度对版面分割的影响。
在藏文古籍版面分割方面的研究相对其他文档的少一些,Huaming Liu[8]等提出一种基于边界信息的藏文历史文献的版面分析方法,该方法在藏文古籍版面分析方面取得了较好的结果。张西群等[9,10]介绍了一种基于卷积降噪自编码器的藏文历史古籍版面分析方法。该方法能够对藏文历史文献的不同版面元素进行有效的分离,但其结果比较依赖聚类结果。
但当前的处理思路都较复杂,而投影法是一种较易实现且算法简单的方法,对于本文所研究的如图1所示的藏文古籍文档图像,古籍图像的投影值与版面结构之间的联系非常容易提取,由此本文提出了基于分段投影法的藏文古籍文档图像版面分割方法。
1 基于分段投影法的藏文古籍版面分割
本文采用分段投影的方式,利用各分段投影值与图像版面之间的联系达到图像版面分割的目标,本质上还是投影的方法,因此对投影法做一个基本的介绍。
1.1 投影法
投影法是根据图像在一些方向上的投影分布特征来进行检测,这种方法在本质上是一种统计方法,投影法的基本思想是对文本图像水平方向和垂直方向分别进行扫描,根据投影图的特征来找出所需信息。标准的投影法是从全局出发,将整个文本图像进行水平和竖直投影,通过投影轮廓图来划分区域,而本章经过对古籍图像及其二值化后的图像的分析,标准的投影法所得到的投影值与版面结构之间联系不易提取,若直接投影,无法根据投影图直接获取文本区坐标,而分段后其投影值与版面结构便容易对应起来,利用这个特点,本章提出了基于分段投影法的藏文古籍版面分割方法。
1.2 基于分段投影法的藏文古籍版面分割
基于分段投影法的版面分割方法步骤如下:将整张图像从垂直方向和水平方向进行分段,分段后根据文本区边框所在分段投影值结合图像先验知识来确定版面结构,基于分段投影法的版面分割流程图如图2所示。首先进行图像预处理,得到图像二值化图,然后进行垂直分段,根据垂直分段内与版面结构对应的投影值得到文本区及图像区左右坐标,再进行水平分段,根据水平投影值结合图像版面特点得到文本区及图像区下坐标,最后,根据图像区在对应分段内的投影值得到文本區上坐标,从而得到古籍图像版面分割结果。
1.2.1 图像预处理
由于本文是采用的是投影法,因此首先要对图像进行灰度化及二值化,我们知道图像是由很多个像素点组成的,而每个像素点的颜色都可以由RGB三个值来表达,图像的灰度化处理就是通过计算使R=G=B,经过灰度化处理后,图像的颜色信息就被消除了,本文采取公式1对图像进行灰度化,得到的灰度图如图3所示:
Gray=R0.3+G0.59+B0.11 (1)
得到灰度图后便可以进行二值化,二值化的过程为:设定一个二值化阈值,将大于该阈值的像素点置为白像素并将小于该阈值的像素点置为黑像素,进而得到只有黑和白两种颜色的二值化图像。本文选择
Niblack算法[11]对图像进行二值化,二值化图示例如图4所示:
1.2.2 图像垂直分段并投影
得到图像二值化图后,对图像二值化图及古籍版面结构进行分析,从如图4所示的二值化示例图中可以看出,在文本区及图像区都有较为明显的边框,而这些边框均为黑像素,基于这种情况,若首先将图像分段,再找出这些边框位置所在分段进行投影,投影值最大的位置即为这些区域边框位置,从而得到图像版面结构。
首先进行垂直分段并投影:通过对图像的分析,图像文本区垂直方向上有左右边框,通过对图像文本区边框位置的分析,将图像垂直方向平均分为5段,则文本区左右边框在第二段与第四段内,因此本文在垂直方向上将图像分为5段并分别进行垂直投影,以垂直分段第二段与第四段投影值最大的坐标作为左右坐标。
示例图像垂直投影如图5所示,可以看到几个明显的波峰,根据对古籍图像的分析,位于中间的两个波峰是文本区边框的位置,这两个波峰可以大致将图像的文本区左右范围表示出来。根据上面分析可知将图像垂直平均分为5段后文本区左边框将在第二段中,此时第二段垂直投影值最大的坐标便可以作为文本区左坐标,同样,文本区右边框将在第四段中,第四段投影值最大的坐标便可以作为文本区右坐标。
垂直投影获取文本区左右坐标步骤为:
(1)图像预处理;
(2)将图像从垂直方向平均分为5段,对每一段进行垂直投影;
(3)将垂直分段第二段投影值最大的坐标记录下来,将该坐标记为文本区左坐标;
(4)将垂直分段第四段投影值最大的坐标记录下来,将该坐标记为文本区右坐标。
1.2.3 图像水平分段并投影
水平投影获取文本区上下坐标的思路与垂直投影获取文本区左右坐标的思路类似,目标是找出文本区的上下坐标,将图像从水平方向平均分为3段,根据图像特点文本区上边框位于水平方向第1段,下边框位于水平方向第3段,示例图像水平投影如图6所示,将图像从水平方向分为3段后,文本区上坐标将位于第1段,文本区下坐标将位于第3段,而此时若延续分段内将投影值最大坐标作为文本区坐标的思路,得出的上边框坐标将会出现较多错误的情况,从而导致版面分割结果不准确,这是因为一部分图像的文本区上边框并不平整,因此在该分段内投影值最大的并不是文本区上边框位置,因此对于文本区上下坐标的获取需要转变方式。通过对图像特点的分析,在文本区上边框与文字之间有一段空隙,图像分段后,在水平第一段中,这个空隙的水平投影值通常是最小的,将该位置作为文本区上坐标,同理,将水平第三段投影值最小的位置作为文本区下坐标,因此将水平投影第一段最小值位置作为文本区上坐标,将水平投影第三段最小值位置作为下坐标,此时获取的文本区坐标通常与实际文本区相近。
水平分段投影获取文本区上下坐标步骤为:
(1)图像预处理;
(2)将图像从水平方向平均分为3段,对每一段进行水平投影;
(3)将水平分段第一段即图中上三分之一段中投影值最小的坐标记录下来,将该坐标记为文本区上坐标;
(4)将水平分段第三段即图中下三分之一段中投影值最小的坐标记录下来,将该坐标记为文本区下坐标。
经过上述两次分段多次投影根据投影值获得文本区坐标的操作后便可以得到古籍版面分割结果。分段投影法版面分割结果如图7所示:
2 改进的分段投影法
在使用上述分段投影法进行藏文古籍版面分割的过程中,发现文本区左右坐标的获取通常比较准确,而有一部分上下坐标不准确,针对这种情况,通过对错误案例的分析,对上文中的分段投影法进行了两次改进。
2.1 调整水平投影范围的分段投影法
在使用分段投影法进行版面分割的过程中,出现了如图8所示的错误案例,通过这种错误案例的二值化图的分析,本文认为是由于古籍图像区的投影值对最终的版面分割结果造成了影响,那么若将图像区在投影时排除在外,便可以避免这种情况,即不再受图像区投影值的影响。由此,本文提出了第一个改进措施——调整水平投影的范围。
改进的措施是针对1.3节中水平分段并投影步骤中的第3步和第4步,原本方案中是将图像水平分为3段后从左至右全部投影,因此图像区投影值会对最终版面分割结果造成影响。由于在1.2节中已经获取了文本区的左右坐标,因此,现在将水平投影第三段的左右投影范围调整为从文本区左坐标到文本区右坐标,这样便排除了图像区投影值对最终版面分割结果的影响。改变投影范围后的投影图如图9所示,经过第一次改进后如图8所示的错误示例版面分割结果图如图10所示。
2.2 图像区上坐标替代文本区上坐标的分段投影法
在第一次改进后仍有如图11所示版面分割错误的情况,发现错误都是由于上坐标不准确导致的,对图像二值化图及其投影图进行分析,发现出现这种情况的原因是本文获取文本区上坐标的方式是将水平分段第一段内的投影值最小的位置作为文本区上坐标,利用的是在文本区边框与藏文文字之间通常由间隙,但从图11中可以看出,由于藏文文字的特点,有一部分藏文文字兩部分是分离的,一个字的上下两部分之间有间隙,而恰好这部分文字又在第一段中,此时水平第一段内的投影值最小的位置便不是文本区上边框的位置,便会出现版面分割不准确的情况,如图11的上边框位置的藏文文字便是这种情况。如图11所示版面分割错误原因是藏文文字本身特点造成的,且通常只有上边框坐标不准确。针对这种情况,本章对分段投影法提出了第二次改进,既然是文字本身特点造成,图像区上坐标与文本区上坐标通常是一致的,并且图像区上坐标的获取更容易。因此本文针对分段投影法的第二次改进便是通过图像区上坐标来替代文本区上坐标。
两次调整后投影图如图12所示,两次改进具体步骤如下:
(1)在1.2.2节,已经进行了垂直投影,而图像区左坐标在垂直分段第一段内,将垂直分段第一段内投影值最大的坐标记录下来,作为图像区左坐标;
(2)将垂直分段第五段内投影值最大的坐标记录下来,作为图像区右坐标;
(3)将水平第一段投影范围调整为从图像区左坐标到文本区左坐标,将该投影范围内投影值最小的作为文本区上坐标,选择投影值最小的位置作为上坐标的原因是通过对二值化图像的分析,发现图像区边框位置通常会有一段空白区域;
(4)将水平第三段投影范围调整为文本区左坐标到文本区右坐标,将投影范围内投影值最小的作为文本区下坐标。
本章改进均是针对1.2.3节的第3和第4两个步骤所做的改进,其他的分割步骤不需做改动。
3 实验结果与分析
本文对34幅古籍藏文图片进行了测试,改进分段投影法后正确率结果如表1所示。
本文采用了分列投影法[12]进行版面分割的方式对同样的34幅做了测试,由于该方法提出是解决中文文档图像的版面分割问题,而中文文档与本文古籍图像特点不同,因此对其作了一些改动来使其更适用于本文藏文古籍图像的版面分割,使用该方法对同样的34幅图像进行版面分割,准确分割出文本区的共有26幅,因此分割准确率为78.82%,该方法对图像本身特点依赖较强,且阈值选取直接影响到整个分割结果,且不同的图像阈值也不同。两种方法分割率比较结果如表2所示,可以看出本文对该类别古籍版面分割效果比文献[12]有更高的分割正确率。
本文提出的分段投影法取得了较高的版面分割正确率,由于分段投影法是采用投影的方法,因此对二值化的结果比较依赖,二值化结果直接影响版面分割的结果,但仍具有算法简单等优点。除此之外,这种方法是利用图像本身的特点针对性的找出文本区坐标,极度依赖先验知识,存在局限性。应用场景较少,但该思路可以借鉴,可以根据不同图像本身的特征去设计分段及投影方式,且分段可以自己把控,可以不平均分段,将先验知识结合设计分段,最终达到获取所需信息的目标,利用投影值特点得到结果。且分段投影法可以与其他方法结合。
4 结束语
本文提出了一种基于分段投影法的藏文古籍版面分割方法,首先将图像分段,对每一个分段进行投影,根据投影值与古籍图像版面结构之间的联系来得出版面分割结果。该方法利用图像先验知识结合投影法得出古籍版面分割结果,对其他类型古籍文档的版面分割具有借鉴意义。实验结果表明该方法对该类别藏文古籍图像能够很好的分割藏文区域,但该方法极度依赖先验知识,通用性较弱,且对二值化结果比较依赖。
参考文献:
〔1〕张利,朱颖,吴国威.基于游程平滑算法的英文版面分割[J].电子学报,1999,11(07):3-5.
〔2〕于明,郭佥,王栋壮,于洋.改进的基于连通域的版面分割方法[J].计算机工程与应用,2013,49(17):195-198.
〔3〕Chen Kai, Wei Hao, Hennebert Jean, et al. Page Segmentation for Historical Handwritten Document Images Using Color and Texture Features[C]//14th International Conference on Frontiers in Handwriting Recognition, 2014.
〔4〕Chen Kai, Seuret Mathias, Liwicki Marcus. Page Segmentation of Historical Document Images with Convolutional Autoencoders[C]//13th IAPR International Conference on Document Analysis and Recognition, 2015.
〔5〕Chen Kai, Liu Chenglin, Seuret Mathias, et al. Page Segmentation for Historical D ocument Images Based on Superpixel Classification with Unsupervised Feature Learning[C]//12th IAPR International Workshop on Document Analysis Systems, 2016.
〔6〕Strouthopoulos C, Papamarkos N. Text identification for document image analysis using a neural network[J]. Image & Vision Computing, 1998, 16(12–13):879-896.
〔7〕魏傳义.文本图像版面分析关键技术研究[D].杭州电子科技大学,2016.
〔8〕Huaming Liu, Xuehui Bi, Weilan Wang. Layout Analysis of Historical Tibetan Documents[C]//2nd International Conference on Artificial Intelligence and Big Data, 2019.
〔9〕张西群,马龙龙,段立娟,刘泽宇,吴健.基于卷积降噪自编码器的藏文历史古籍版面分析方法[J].中文信息学报,2018,32(07):67-73+81.
〔10〕张西群.面向藏文历史古籍的版面分割方法研究[D].北京工业大学,2018.
〔11〕Sang Nong, Li Heng. Koneledge-based adaptive thresholding segmentation of digital subtraction angiography amages[J]. Image and Vision Computing, 2007, 25: 1263-1270.
〔12〕魏传义,陈勤,张旻.基于投影的文本图像版面分割算法研究[J].现代计算机(专业版),2016,51(10):33-38.