基于自适应特征融合的场景文本检测

2023-03-14 07:55马艺舒余艳梅陶青川
现代计算机 2023年1期
关键词:特征提取层级准确率

马艺舒,余艳梅,陶青川

(四川大学电子信息学院,成都 610065)

0 引言

由于文字可能携带着重要且精准的信息,因此从文本图像中自动识别出文字逐渐成为重要的研究领域,光学字符识别(OCR)技术正是研究这一问题的有效手段[1]。目前OCR任务大多分两个阶段完成:文本检测和文本识别,文本检测旨在定位出图像中文字区域的位置,文本识别则把检测到的文本区域里的文字识别出来。文本检测作为OCR任务的第一步,是识别任务的前提,检测效果将会直接影响文本识别的效果[2]。而自然场景中的文本具有多样性,其受光照、噪声、遮挡等影响从而背景十分复杂,这给文本检测带来了极大的困难。传统的场景文本检测算法主要依赖人工设计特征,然后再用机器学习的方法学习文本信息,这样的方法虽然取得一定的成效,但具有很大的弊端,因为它很大程度依赖人的先验知识[3]。

近年来随着深度学习的发展,场景文本检测发展迅速,目前基于深度学习的文本检测大致分为基于回归和基于分割的方法:基于回归的文本目标通常用具有一定旋转角度的四边形去表示,但通常不能处理具有任意方向且形状不规则的文本;而基于分割的方法其基本思路为通过分割网络结构进行像素级别的语义分割,再基于分割的结果构建文本边界框,该方法目前因其灵活性备受关注[4]。Dan等[5]提出基于分割的PixelLink,其将同一实例内的像素链接在一起分割出文本实例,然后直接从分割结果中提取文本边界框而不进行位置回归,但后处理复杂,且模型推理速度非常慢;Zhou等[6]提出端到端的文本检测算法EAST,其增加了方向信息,可以检测任意形状和方向上的文本,但由于感受野不够,对长文本的检测效果不好;Lyu等[7]提出一种结合目标检测和语义分割的文本检测算法Corner,其可以同时处理多方向文本和极端高宽比的文本,虽然速度上有所突破,但依然达不到理想效果;Liao等[8]提出可微分二值化网络DBnet,其将二值化操作插入到分割网络中进行联合优化,并且在训练时是完全可微的,该方法凭借高效的推理速度被广泛应用在各大头部互联网的OCR任务中,但是,由于其特征提取部分使用的FPN会导致不同特征尺度不一致问题,直接concat进行特征融合可能会导致后续检测结果不准确。为了进一步提升检测准确率,同时不显著降低速度,本文对DBnet[8]进行改进,将FPN输出的多层特征采用自适应特征融合的策略进行融合。

本文所做的工作如下:

(1)改进了DBnet[8]中的特征融合结构,将concat结构改为本文提出的自适应特征融合结构。

(2)通过消融实验评估了参与自适应特征融合层级的数量。

(3)通过实验证明了在常用公开数据集上均得到了很好的检测效果。

1 本文的方法

1.1 总体网络架构

DBnet网络结构主要分为三个部分:由Resnet+FPN组成的特征提取部分;特征融合concat以及可微分二值化模块,本文在其基础上进行改进。图1所示为本文的整体网络架构,分为特征提取、自适应特征融合、可微分二值化模块三部分,其中特征提取部分和可微分二值化模块与DBnet保持一致。由于FPN存在不同特征尺度不一致的问题,直接将FPN每一输出特征层进行concat的融合结果可能会产生冲突,导致后续无法区分文字和背景[9]。为了解决上述问题,受文献[10]的启发,将DBnet中的特征融合部分改为本文提出的自适应特征融合结构(如图1中间所示),该结构可以让网络在FPN不同输出层级上直接学习如何在其他层上对特征进行筛选,从而只保留有效信息进行自适应的融合,最终将各个层级融合后的结果再相加,有效解决了FPN导致的融合结果冲突问题。

图1 本文的整体网络架构

1.1.1 特征提取结构

本文的特征提取部分采用与DBnet一致的策略,即ResNet+FPN结构,FPN包括一个自下而上的路径,一个自上而下的路径和一个横向连接路径,为了平衡模型检测准确率和模型的推理时间,减少网络需要学习的参数量,降低模型的复杂度[10],其中FPN自下向上的部分,即特征提取主干本文选用ResNet-18进行构建。

1.1.2 自适应特征融合

由于FPN存在不同特征尺度不一致的问题,当图像同时含有大文本和小文本时,可能会导致后续融合结果发生冲突,无法将文本和背景区分开来。对此,本文改进了DBnet[8]中的特征融合部分,将其concat结构替换为本文提出的自适应特征融合结构。如图2所示,对于FPN自顶向下每一层级的输出特征图采用类似文献[11]中的策略,将其他层级特征图通过卷积和上/下采样操作调整通道数和尺寸,从而与该层级保持一致,然后进行自适应融合,具体公式为

其中:表示(i,j)处从层级n到层级l的特征向量;表示(i,j)位置融合后的结果;为(i,j)位置的空间权重,其满足该权重可在反向传播中自动生成,通过训练自适应找到最优融合。本文最终从五个层级进行自适应融合,分别对应图2中ASFF-1、ASFF-2、ASFF-3、ASFF-4和ASFF-5,并将每个层级融合后的 输 出y1、y2、y3、y4、y5分别 调整 至y5大 小然后进行逐像素相加,这样使得矛盾信息被过滤,进而后续检测结果更加准确。

图2 自适应特征融合

1.1.3 可微分二值化模块

由于传统的二值化方法不可微,不能在训练时进行学习,所以本文使用了DBnet[8]网络中提出的可微分二值化模块,其用近似阶跃函数来近似二值化过程,具体公式为

其中:B为最终得到的近似二值图;T为学习得到的自适应阈值图;k则根据经验设置为50。

标签的生成采用PSENet[12]中的方法,由原始多边形以及收缩和扩张多边形得到,其中原始多边形为

式中n代表文本框多边形的顶点个数,然后采用Vatti算法将G向内收缩为Gs,收缩的尺寸D为

其中:A和L为原始多边形的面积和周长;r为收缩率,r根据经验设置为0.4。再将G以D扩张得到Gd,Gs和Gd之间的部分则为文本区域的边界,最后阈值图也采用类似的标注方式,可通过计算到达G中最近段的距离来生成阈值图的标签。

1.2 损失函数

为了得到更加准确的二值图,从而将文字区域和背景部分区分开来,本文采用了文献[8]中的损失函数,整个损失函数分为三个部分,即概率图P的损失函数Ls、二值图的损失函数Lb和自适应阈值图的损失函数Lt:

其中:α和β分别设置为1.0和10,且Ls和Lb为二元交叉熵损失函数(BCE):

此外,本文使用hard negative mining的策略来解决文本分类中正负样本不均衡问题,其中Sl是正负比为1∶3的采样集。Lt为生成的扩张多边形Gd里的预测结果和实际标签之间的L1距离之和:

其中:Rd是扩张多边形Gd内像素的索引;y*是自适应阈值图的真实标签。

2 实验及结果分析

2.1 实验设计

由于真实场景文本数据集的数量有限,为了达到更好的检测效果,本文首先对所有的模型使用合成数据集SynthText进行预训练,然后再分别在公开数据集Icdar2015和Icdar2017-MLT上进行1000次的微调,训练的批样本量设置为8,学习率设置采用Poly策略。

2.2 评价指标

本文使用与DBnet[8]一致的评价指标来评估改进后模型的文本检测效果,即准确率、召回率和F分数。

准确率计算公式为

其中:TP代表实际为正例,预测也为正例的样本;FP代表实际为负例但预测为正例的样本,此数值越大越好。

召回率计算公式为

其中:TP代表实际为正例,预测也为正例的样本;FN代表实际为正例但预测为负例的样本,此数值越大越好。

F分数是召回率和准确率的加权调和平均,计算公式为

其中:P和R分别表示精准率、召回率,此数值越大越好。

2.3 实验环境

本文所有的实验均在Ubuntu16.04操作系统上进行,以Pytorch1.4.0作为深度学习框架,CUDA版本为10.1,实验所用编程语言均为Python3.6,CPU为Intel(R)Xeon(R)Platinum 8255C,GPU为NVIDIA RTX 2080 Ti。

2.4 实验结果与分析

在Icdar2015上的消融实验结果如表1所示。

表1 Icdar2015消融实验对比结果

设未改进前的FPN+DB为方法0;在一个层级上进行自适应特征融合,即FPN+ASFF1+DB为方法1;在两个层级上进行自适应特征融合,即FPN+ASFF2+DB为方法2;在三个层级上进行自适应特征融合,即FPN+ASFF3+DB为方法3;在四个层级上进行自适应特征融合,即FPN+ASFF4+DB为方法4;在五个层级上进行自适应特征融合,即FPN+ASFF5+DB为方法5;在六个层级上(加上原图一起)进行自适应特征融合,即FPN+ASFF6+DB为方法6,可见方法5准确率、召回率和F分数均为最高。

在ICDAR 2017-MLT上的消融实验结果如表2所示,可见方法5在该数据集上虽然准确率比方法6略有降低(0.03个百分点),但方法6的FPS下降程度偏高,为了在准确率和速度两个方面进行权衡,最终本文选择在五个层级上进行特征融合。

表2 ICDAR 2017-MLT消融实验对比结果

为了突出本文优势,我们还与其他方法进行了对比,表3展示了在Icdar2015数据集上进行对比实验的结果,实验结果直观地显示了本文方法具有不错的表现(准确率、召回率、F分数均为最高,速度比最快的DBnet略有降低)。

表3 在Icdar2015上的对比结果

3 结语

为改善自然场景文本检测的效果,本文提出了一种基于DBnet改进的自适应特征融合的文本检测方法,该方法可以克服FPN不同特征尺度不一致性引起的特征融合干扰,在公开数据集Icdar2015和ICDAR 2017-MLT上进行的对比实验表明:相比较于其他方法,本文的方法在场景文本检测任务上有更好的表现,提升文本检测准确率的同时检测速度仅有略微下降。且根据消融实验结果,五个层级同时参与融合时效果最佳,基于此结果,本文最终选择将五个层级的自适应特征融合输出结果进行最终的融合。在未来的研究中,考虑加入其他预处理手段,使模型在速度不显著下降的前提下进一步提升准确率。

猜你喜欢
特征提取层级准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
基于Daubechies(dbN)的飞行器音频特征提取
高速公路车牌识别标识站准确率验证法
Bagging RCSP脑电特征提取算法
任务期内多层级不完全修复件的可用度评估