基于深度学习的藏文现代印刷物版面检测技术研究

2021-03-31 03:48吴燕如管美静
关键词:藏文版面准确率

吴燕如,珠 杰,管美静

(1.西藏大学信息科学技术学院,西藏 拉萨 850000)(2.藏文信息技术国家地方联合中心,西藏 拉萨 850000)

近年来,国家高度重视藏文化资源的保护和珍藏[1]. 优秀的藏文化资源中藏文现代印刷物是重要的保存对象. 从藏文印刷物中检测版面信息对于藏文化实现数字化存储具有重要意义[2]. 目前藏文印刷物版面分辨率较低,版面中文本行也比较密集,增加了版面检测的难度.

当前国内外对中文和英文中文本区域检测已经有了一定的研究,Epshtein等[3]提出了笔画宽度变换的文本检测算法,Pan等[4]提出让MSER和卷积神经网络相结合的检测方法,但这些方法均不能有效解决文本分辨率较低的问题. Zhu等[5]提出了使用训练出的级联强分类器对图像中的滑动窗口进行分类,实现文本区域的检测,该方法虽然提高了检测精度,但增加了训练难度. 在现有的研究中,对藏文现代印刷物版面检测还相对较少,但对于中英文自然场景下的文本检测和物体检测的研究已经比较成熟,取得了不错的成效. 因此,本文利用Faster R-CNN检测算法研究藏文现代印刷物的版面检测问题.

深度学习方法本身具有较强的非线性拟合能力,在计算机视觉领域得到了广泛应用[6]. 基于深度学习的目标检测方法对网络结构不断改进,主要形成了R-CNN检测系列[7]和单阶段检测系列[8],前者主要是基于候选区域的方法,后者借鉴了回归的思想. 2013年,GIRSHICK等[9]提出R-CNN检测算法,实现了将神经网络的方法应用到目标检测上. 2015年,GIRSHICK[10]又提出了Fast R-CNN算法,主要是在 R-CNN 和SPP-Net检测算法的基础上加以改进. Faster R-CNN网络实现了用神经网络的方法提取建议区域[11],有效减少了需要计算的特征,加快了检测速度和精确度. 单阶段检测方法主要有YOLO[12]和SSD方法[13],直接通过特征图得到类别得分和位置.

实际应用中,R-CNN系列检测速度虽然没有单阶段方法快,但检测准确率较高[14]. 本文选取Faster R-CNN 模型[15]作为藏文现代印刷物中版面的定位方法,在手工整理的藏文现代图书版面数据集上划分训练集和测试集,通过增加候选框的数量,作为文本区域的定位方法.

1 藏文现代印刷物数据集的构建

本文选取一部分藏文现代图书做为原图像,样本具有文字区域多而其他类别区域相对较少的特点,只对现代图书版面中的文本行区域进行检测. 生成的样本库有1 320张图片,图片像素较低的为374*541,像素较高的为876*1 300,图片中包含的文本行个数在5-40之间. 具体藏文现代图书版面示例如图1所示.

图1 采集到的藏文现代图书示例Fig.1 Examples of collected Tibetan modern books

藏文图书版面搜集整理之后,通过人工对数据集进行标注. 使用labelImg数据标注工具,对整理的数据集完成标注,制作的数据集格式均为Pascal Voc格式. 标注出每一部分的文本行所在的最小外接矩形,并标注出类别标签,作为网络训练中评估的参考标准.

2 Faster R-CNN的藏文现代图书文本区域定位算法

Faster R-CNN检测方法在结构上主要由3个部分组成:特征提取、RPN网络、ROI Pooling. 具体流程如图2所示.

图2 Faster R-CNN检测流程图Fig.2 The detection flow Chart of Faster R-CNN

2.1 特征提取

在实现过程中采用经典的ResNet-50网络,通过5部分卷积操作、2次池化操作、3层全连接层,最后由softmax完成整个输出,得到整张图片的特征. 这样避免了特征的重复计算,加快了训练速度. 卷积层提取到的特征图用于后续网络的输入.

2.2 RPN网络

RPN网络和SelectSearch一样都是用来生成候选框,但传统方法生成的候选框数量较多,需要时间较长. RPN网络中只包含卷积层,该网络的位置在Conv5-3之后,用神经网络的方法大大提高了候选框的生成速度. 针对藏文现代图书的定位问题,在Conv5-3特征图上采用大小为3*3的filter,设置为步长1的滑动卷积,这样每个窗口就映射成一个256维的向量. 256维向量并行进入全连接层,分别对滑动窗口生成的建议区域进行分类和回归.

对卷积特征图上的每个像素点设置20种不同的候选窗口,根据藏文现代图书中文本行大小长短的不同,经改进使用64*64、128*128、256*256、512*512的窗口面积,每个面积下设置5种不同的缩放,比例分别为1∶2、1∶5、1∶1、2∶1、5∶1,这样就生成了20个尺度的候选框,这样分类层对于一个像素点生成的候选框可以生成40个得分,用来判断候选框包含目标或者不含有目标的概率. 回归层对于每个像素点生成的候选框共产生80个位置坐标,再用非极大值抑制的方式对生成候选框进行筛选,用回归方法对候选框位置进行调整,得到更精确的建议区域. RPN网络产生的损失如式(1)所示:

(1)

(2)

Lreg为回归部分的损失,具体定义如式(3)[16]所示:

(3)

2.3 ROI Pooling

RPN网络生成的候选区域对应映射在特征图上,形成的映射区域均被划分为7*7大小的子图,这样不同大小的建议区域被转化为相同大小的感兴趣池化图[17],并进入全连接层,用softmax对其类别进行预测,并对边框位置进行回归,获得更精确的边框位置. 该过程的损失仍是分类损失和回归损失,整体损失定义如式(4)[18]所示:

L(p,u,t,v)=Lcls(p,u)+λμLloc(t,v),

(4)

式中,u为感兴趣区域所属的类别;p为属于类别的概率值;t为建议框的位置坐标;v为对应的真实框的位置坐标.

3 实验结果与分析

3.1 实验环境及数据

本文实验硬件环境为intel i7处理器,运行内存32G,显卡为NVIDIA GeForce RTX2080,操作系统为Windows10平台,实验采用TensorFlow框架,Python语言,采用Labellmg软件对藏文现代图书进行手动标注. 实验采用了藏文图书1 200张作为训练集,120张作为测试集.

3.2 实验评估指标

本文采用准确率P(precision)、召回率R(recall)和F-值对实验结果进行评估[19]. 准确率是识别正确的框数量占所有识别到的框数量的比例,召回率是识别正确的框数量占所有真实框数量的比例,准确率P、召回率R、F-值的具体定义分别如下所示:

(5)

(6)

(7)

式中,TP为正确识别的框的个数;FP为检测错误的框的个数;FN为正样本漏检的个数.

3.3 改进的Faster R-CNN网络训练

改进的Faster R-CNN网络在训练过程中使用的初始化参数来自COCO数据集的预训练模型[20]. 训练中学习率初始化为0.001,衰减系数为0.94,动量值为0.89,总迭代次数为50 000. 在相同的实验条件下与SSD检测模型训练过程的损失进行对比,查看训练过程的日志文件可以看出实验过程中的损失变化,具体的损失曲线如图3所示.

由图3可知,随着训练次数的增加,网络训练的损失不断降低. 藏文现代图书版面在40 000次迭代后开始收敛;当完成50 000次迭代时,藏文现代图书的训练损失率降至最低值0.82,损失基本趋于稳定. 该数据集在SSD模型训练过程中损失不断降低,当迭代至30 000次时,SSD模型也处于收敛状态,此时训练损失为0.4. 可以看出,SSD模型训练的收敛速度比改进的Faster R-CNN快很多.

图3 损失曲线图Fig.3 Loss curve

3.4 藏文图书版面检测效果

采用改进后的Faster R-CNN对测试集进行测试,典型的藏文现代图书版面中文本行的检测效果如图4 所示.

图4 藏文现代图书版面检测效果示例Fig.4 Example of detection effect of modern Tibetant book layout

由图4可知,矩形框所在的位置为预测框,每个矩形框对应一个预测的准确度. 改进的Faster R-CNN不仅可有效检测出藏文现代图书中的文本行,还可检测出排版不同版面的文本行,检测效果并未受到文本行的长度、数量和整体文本行分布的影响. 在字体样式差异较大的情况下,改进的Faster R-CNN也能有效识别文本行.

在改进的Faster R-CNN和SSD实验基础上,本文进行了原始的Faster R-CNN实验. 3种检测模型在该数据集上的检测性能对比如表1所示.

表1 数据集在两种模型上的性能对比Table 1 Performance comparison of the data set on two models

由对比可知,SSD模型的准确率和召回率要比Faster R-CNN低很多,SSD对较长的文本行和字体样式差异较大的文本行召回效果较差;原始的Faster R-CNN模型的准确率和召回率都没有改进后的Faster R-CNN检测方法高. 改进后的Faster R-CNN模型在本文的数据集上具有一定的准确率和召回率性能优势,相比原始的Faster R-CNN、SSD模型具有良好的应用效果.

为了验证改进后的方法在藏文现代图书数据集上的有效性,本文对改进的Faster R-CNN与Faster R-CNN 模型应用在图像检测领域的性能进行了对比. 文献[19]中Faster R-CNN对精密零部件检测,该实验最终准确率为87.8%,召回率为80.3%;文献[21]中Faster R-CNN对目标人物出现的位置进行检测,该实验最终在基础网络为ResNet-101的训练中准确率达到94.2%,平均精度为66.8%;文献[22]在基础网络为ResNet-50的训练中对蓝莓成熟果检测的准确率为94%,而召回率只有77%. 由此可知,本文改进的Faster R-CNN模型在藏文现代图书数据集训练时的召回效果较好,整体性能较高.

4 结论

本文以藏文现代图书作为研究对象,建立了藏文现代图书标注的数据集,在深度学习的TensorFlow框架上训练Faster R-CNN检测网络,并用训练好的COCO数据集下的模型进行迁移学习. 为了解决藏文现代图书版面中文本行分布不均匀的问题,本文采用了多个版面差异较大的数据集进行训练,并改变了原始的Faster R-CNN中anchor的面积和长宽比例,有效解决了数据集中文本行分布不均匀的检测问题. 由实验结果可以看出:

(1)改进的Faster R-CNN在藏文现代图书版面的检测上,当图片中的文本行比较密集或文本行较为稀疏的情况下,相比SSD网络模型具有较好的检测效果;

(2)当版面中文本行信息较少的情况下,SSD对长文本行的检测出现错误,改进的Faster R-CNN检测方法仍具有良好的检测效果;

(3)在训练中迭代次数相同时,SSD模型的收敛速度远比改进的Faster R-CNN快,但检测准确率和召回率都没有改进的Faster R-CNN检测方法高. 由此可知,改进后的Faster R-CNN对该数据集具有良好的适应性.

本文在实验过程中,只采用了藏文现代图书建立数据集,由于藏文数据集现有资源收集难度较大,实验并没有与其他类型的藏文现代印刷物的版面进行对比,在整个藏文印刷物版面数据集上没有很好的通用性,这是今后在实验过程中仍需进一步探索的问题.

猜你喜欢
藏文版面准确率
拥有猫一样的眼睛
概率从何而来?
敦煌本藏文算书九九表再探
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
现代藏文音节结构分析研究