基于语义分割的藏文古籍文档文本区域检测

2022-06-14 09:49贡去卓么才让加三知加
计算机仿真 2022年5期
关键词:藏文古籍版面

贡去卓么,才让加,三知加

(1. 青海师范大学计算机学院,青海 西宁 810008;2. 青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008;3. 青海省藏文信息处理工程技术研究中心,青海 西宁 810008)

1 引言

古籍文档为解释人类的文化遗产提供了重要的历史证据。藏文古籍文档是中华民族宝贵的文化遗产,采用数字化处理技术对藏文古籍文档进行保护和传承具有重要的历史意义。

近年来,随着计算机存储技术的不断进步,人们为了防止古籍文档的物理副本受到损坏,许多文献档案机构都投入了大量的人力物力来实现可访问的古籍文档电子副本,早期古籍文档的电子化存储主要以扫描成像的形式保存于计算机等数字设备或存储器中,并且对大量古籍文档进行手动转录又是一项极其耗时且易出错的工作,同时,这种扫描成像和人工转录的保存形式制约了古籍文档的可编辑性、可检索性和可复用性,因此利用交互式工具对古籍文档进行编辑、检索和复用是目前急需解决的研究课题,国内外很多研究者们提出了各种文档版面分析的理论与方法[1-4],例如:国际模式识别协会(The International Association for Pattern Recognition,IAPR)从1991年开始,每两年会组织一次国际文档分析与识别会议(International Conference on Document Analysis and Recognition,ICDAR),也会组织以解决相关子问题为主的比赛项目,其已经成为评价和检验文档图像分析与识别领域最新技术研究进展的标准,同时也极大地推动了该领域的研究热潮。

Philips等人针对西方古籍文档,将过去二十年(1998-2018年)对古籍文档数字化处理领域中的技术、工具和发展趋势的演变进行了详细叙述[5],由此可知目前古籍文档图像分析工作主要集中在西方各类印刷文档和手写文档上,提出的方法大多数是基于给定语言的印刷文档或手写文档的版面布局特征,并不完全适用于藏文古籍文档的分析,尽管近几年研究人员开始针对藏文古籍文档数字化处理的相关任务进行了研究和探索[6-9],但这些研究仍处于初期阶段,很多问题亟待解决,同时也面临着许多挑战,如图1与图2所示,由于原始文档遭受老化和腐蚀等原因,藏文古籍文档扫描图像普遍存在文本模糊、渗墨、非文本区域模糊造成的版面布局复杂和无法检测文本区域等问题。综上所述,藏文古籍文档文本区域的检测是一个具有挑战性的任务,并且与后续的文本行提取、字符分割和字符识别等文本自动转录任务的处理效果直接相关。

图1 藏文现代印刷版古籍文档样图

图2 藏文木刻版古籍文档样图

针对藏文现代印刷版文档版面分析的研究较多,而对藏文古籍文档(木刻版)文档版面分析的研究较少。本文以拉萨版《甘珠尔》(藏文)存在的以下版面特征为例:

1)版面编排不规则,布局复杂;

2)由于木刻版藏文古籍文档版面具有外围双层边框及内部多区域多部分的边框(如图2、图3所示);

3)文本与非文本(即:插图、边框等)的粘连;

4)边框断裂。

受文献[10-11]的启发,利用判别式对抗网络(Discriminative Adversarial Networks,DAN)框架,提出以语义分割的像素分类实现藏文古籍文档的文本区域检测的方法。这种有监督的深度学习方法依赖于大规模标记训练数据,对于藏文来说,虽然有大量古籍文档的数字副本,但没有公开的大规模标注数据。为此,该方法在拉萨版《甘珠尔》(藏文)古籍文档扫描页面构建的自定义图像数据集上进行了训练与测试,并取得了较好的实验结果。

2 相关工作

文档版面分析(Document Layout Analysis,DLA)是文档理解系统的预处理步骤,其目标是将文档图像中需要研究的区域进行分割,然后对预定义的不同区域类型(如:正文、插图、注释和页码等)进行识别分类[12-13],通常将此检测后分类的过程分为几何分析和逻辑分析两个步骤,其方法一般可分为自顶向下、自底向上和混合法三类[14]。文档的版面特征和分析目标的变化产生了不同的DLA,这些阶段都有各自不同的算法,本文的版面分析目标为藏文古籍文档的文本区域检测。

目前,目标检测任务可分为分类、定位(或识别)、语义分割与实例分割四类[15]。其中语义分割是像素级别的分类,结合了图像分类、目标检测和图像分割任务,也就是说属于同一类的像素都要被归为一类,包括对整个输入图像的像素进行预测,然后对其具有一定语义的区域块进行定位或检测,不仅提供每个区域块的语义类别,还需提供确切的位置信息,最后得到一幅具有像素语义标注的分割图像。图像语义分割的方法主要包括基于传统的方法和基于深度学习的方法。

下面将从两个方面简单回顾用于文档图像版面分析的代表性方法。一是基于几何和统计的传统方法,主要有投影分析方法[16]、连通域分析方法[17]、领域分析的图文分割方法[18]和纹理分析方法[19]等文档图像的版面分割方法,但因藏文古籍文档的各种噪音,所以很难将上述方法直接应用于藏文古籍文档扫描页面的分析;二是目前主流的基于人工神经网络的深度学习方法,神经网络从古籍文档文扫描页面的文档图像数据集中自动学习文档版面的重要特征,如:基于卷积神经网(Convolutional Neural Networks,CNN)对历史文档图像进行页面分割的方法[20]、基于全卷积神经网络(Full Connected Network,FCN)进行古籍文档图像版面语义结构信息提取的方法[21]和基于预训练模型和微调的方法实现历史文档扫描页面的图像分析任务[22]等,但是这些方法主要是对某些主流语言(比如英语及其它拉丁文和中文)的古籍文档版面特征进行的相关研究,所以并不完全适用于藏文古籍文档的分析任务。

3 基于语义分割的藏文古籍文档文本区域检测方法

图3 藏文古籍文档扫描图像

拉萨版《甘珠尔》(藏文)页面类型可分为十一种不同版面结构(如图3所示),根据版面结构的区域元素不同,文本行的个数和字体大小也各不相同,为实现藏文古籍文档扫描页面的文本行提取、字符分割和字符识别,首先需要对藏文古籍文档版面的文本区域进行检测和分割,然后去除或分离藏文古籍文档的非文本区域,最后得到完整的文本区域。

本文在分析拉萨版《甘珠尔》(藏文)版面结构特征的基础上,提出了一种DAN网络框架下基于语义分割的文本区域检测方法,将文本区域检测问题转化为文献图像的语义分割问题,具体如图4所示。

图4 本文提出方法的概述

该方法主要分为三个步骤:

1)使用DAN(Discriminative Adversarial Networks)的语义分割网络对输入的整个藏文古籍文档的扫描页面图像进行像素分类;

2)使用轮廓提取算法对具有一定语义的区域块进行提取;

3)使用.XML文件格式对版面布局信息保存。

3.1 基于语义分割的藏文古籍文档文本区域检测

使用DAN网络框架下的语义分割网络,将输入藏文古籍文档的整个扫描图像的像素(h*w*c)划分为具有一定语义含义的文本区域块,从而得到的不同文本区域块的语义类别和位置信息。

DAN网络框架如图5所示,其中预测网络(P)接受藏文古籍文档扫面页面的文档图像为数据点x作为输入,并输出其整个古籍文档图像不同文本区域的语义分割预测P(x),该预测可以是文本区域类别标签上的简单概率分布,鉴别网络(J)接收藏文古籍文档扫描页面x和其文本区域的像素分类标签y作为输入,并产生单个标量J(x,y),它表示x,y来自真实标签训练数据而不是P预测的概率,其学习目标如下公式所示:

Ex~Pdata(x)[log(1-J(x,P(x)))]

图5 DAN框架

对于本文所使用的藏文古籍文档图像拉萨版《甘珠尔》(藏文)构建的数据集来说,按像素级别要分类的文本区域有主文本、竖排标题、插图标题和页码,将非文本区域都分割为背景一类,从而整个藏文古籍文档的区域检测数量为八个。

3.2 提取藏文古籍文档文本区域轮廓

根据上一步藏文古籍文档扫描图像的像素分类结果可得到的由不同文本区域块的语义类别和位置信息构成的语义分割图,如图6所示。

图6 藏文古籍文档语义分割结果

为了提取精确的藏文古籍文档扫描图像的各类文本区域,通过使用Suzuky等人提出的轮廓提取算法[23]确定其各类文本区域块语义分割轮廓的顶点,并将各个语义块的顶点合并成一组由闭合四边形分割的文本区域,其提取结果如图7所示:

图7 藏文古籍文档各类文本区域轮廓提取结果

3.3 藏文古籍文档版面布局信息保存

藏文古籍文档版面分析的目标是获取需要研究区域的确切位置信息和类别,为了后续的文本行提取和字符分割和识别需要保存藏文古籍文档扫描图像文本区域的布局信息。布局信息即是藏文古籍文档扫描图像文本区域语义块矩形的坐标点(x,y)。除藏文古籍文档扫描图像版面文本区域布局的位置信息和类别外,还需保存文件创建时间、创建者的信息、标注时间、页面名称、页面宽度和高度。

本文为了保存藏文古籍文档扫描图像各类文本区域的布局信息,采用XML格式文件来保存其布局结构信息。后续可以从此文件中,可以获得藏文古籍文档的每个文本区域,并在此基础下进行后续的文档图像分析与识别的处理任务,该藏文古籍文档版面布局信息保存文件的组织如下:

<?xml version=”1.0” encoding=”UTF-8”>

4 实验

4.1 数据集

本文以藏文古籍文档拉萨版《甘珠尔》(藏文)原始文献扫描图像构建的自定义数据集上进行了实验与测试。在本文实验中的数据集是由图3所示不同版面结构的5872张图片(分辨率为256*1024)组成,为手动标注的页面XML格式的真实标签。为了覆盖拉萨版《甘珠尔》(藏文)的所有版面特征,将文本区域类型由图8中所示的七个文本区域组成。表1总结了此数据集的分布特征。

图8 藏文古籍文档图像版面元素标注格式

表1 数据集的分布特征

4.2 评价措施

本实验采用深度学习之语义分割的评价度量标准[13]对每幅藏文古籍文档图像的文本区域检测结果进行评价,计算公式如下所示:

Pixel Accuracy (PA,像素精度)

(1)

Mean Pixel Accuracy (MPA,均像素精度)

(2)

Mean Intersection over Union(MIoU,均交并比)

(3)

Frequency Weighted Intersection over Union(FWIoU,频权交并比)

(4)

上式(1)(2)(3)(4)中,Pij表示应该属于藏文古籍文档文本区域的类别i但被预测为类别j的像素数量,Pii表示正确预测属于藏文古籍文档文本区域类别i的像素数量。

4.3 实验装置

本实验在遵循文献[11]约定的情况下,使用了Ubuntu19.10操作系统中24G的NVIDIA Quadro P6000独立显卡,深度学习框架PyTorch-gpu 1.5.0的系统配置下进行的实验。

4.4 实验结果与分析

此方法在拉萨版《甘珠尔》的藏文古籍文档扫描图像构建的自定义数据集上进行实验取得的不同类型文本区域检测的测试结果如表2和表3所示。

表2 文本区域提取的结果

表3 不同类型文本区域的像素分类结果

图9 测试数据文本区域检测结果

从表2中的可看出,使用计算机视觉的语义分割方法对藏文古籍文档的各类文本区域进行像素分类是可行的。

因本文在为进行数据增强的原始拉萨版《甘珠尔》(藏文)扫描页面的自定义图像数据集上进行测试,所以从表3显示的藏文古籍文档不同文本区域的像素分类结果可知,插图标题和竖排标题的文本区域检测结果不大理想,这部分主要原因是不同版面结构导致的各文本区域的数据分布不均衡。

图9为对藏文古籍文档扫描图像进行语义分割的各类文本区域的检测或提取结果图。不同类型的文本区域用不同颜色进行填充来区分。从上示图中可以看出藏文古籍文档各类文本区域都能得到其区域分类和位置标记的结果,但存在有部分插图标题和竖排标题的文本区域块被误分为多个区域块的情况。主要由:①文本区域块有渗墨的严重噪音;②竖排标题类文本区域普遍存在区域块内文字的空白间隙多长;③外围双边框与文本区域内文字粘连等原因所导致,为了获得更好的藏文古籍文档文本区域的检测结果,可以进一步处理这些问题以提高藏文古籍文档不同版面结构的像素分类准确性。

5 总结与展望

本文在判别式对抗网络框架下使用图像的像素级语义分割方法对拉萨版《甘珠尔》(藏文)的藏文古籍文档扫描图像构建的自定义数据集上进行了其不同版面结构的文本区域检测任务的训练和测试,得到PA=98.9%、MPA=95.3%、MIoU=90.2%和FWIoU=98.0%的结果。并在同文献的开放数据上进行了测试,得到了PA=63.2%的实验结果。经实验表明,使用该方法对藏文古籍文档扫描页面图像进行文本区域的检测和提取是可行并有效的。在该方法上进一步研究并实现不同文本区域的文本行检测任务,进而就可以实现藏文古籍文档的自动版面分析或扫描页面的自动标注。

后续将根据此方法提供的文本区域,对藏文古籍文档扫描页面进行边框去除处理和插图区域分离的操作,针对每个纯文本区域设计文本行提取算法,并将其送到光学字符识别(Optical Character Recognition,OCR)和手写文字识别系统进行识别,这就构成了一整套藏文古籍文档图像识别系统。

猜你喜欢
藏文古籍版面
拥有猫一样的眼睛
共处与辩诤:一部15世纪藏文传记所描述的佛教徒与非佛教徒“他者”的对话①
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
古籍修复师的巧手与匠心
中职学校藏文教学之我见
A Survey of Research on Fine—grained Sentiment Analysis in Chinese
版面撷英
求果
广西古籍保护中心积极推动古籍普查工作