摘 要:为了解决文档图像质量评价网络对图像特征提取不充分、评价指标不恰当等问题,提出了一种基于Transformer的双流文档图像质量评价算法。首先,利用Transformer提取图像特征,计算特征通道间注意力;其次,使用权重模块预测文档图像OCR(光学字符识别)准确率作为文档图像质量得分,使用CNN(卷积神经网络)提取文档全局特征,全连接后预测图像的自然图像得分;最后,将两者得分结合作为预测图像的质量得分。实验结果表明,基于Transformer的双流文档图像质量评价算法在数据集上的皮尔逊线性相关系数(PLCC)达到0.9045,史比尔曼等级相关系数(SROCC)达到0.8775,证明该算法可以预测出更符合人类视觉标准的文档图像质量分数。
关键词:图像质量评价;文档图像;Transformer;神经网络
中图分类号:TP391 文献标志码:A
0 引言(Introduction)
图像质量评价是图像处理的基础,准确评估图像质量能够为其他图像处理算法的优化与调整提供清晰的目标和指引。文档图像质量评价是图像质量评价的一个重要分支,具有其独特性。与自然图像相比,文档图像包含大量的文字、图标等纹理信息,并且具有实际意义。因此,对文档图像进行质量评价时,研究人员需要遵循特定的评价标准。传统方法通过定义对文档图像质量有影响的因素作为评价指标,对图像的畸变、清晰度进行评价得到文档图像质量分数[1]。由于大量电子文档图像的主要用途是供人阅读或依赖OCR程序的输入,因此机器学习方法大多使用CNN进行特征提取,并尝试将这些映射到OCR准确率上,以此作为文档图像的质量分数[2-5]。传统方法使用的指标更加符合人类视觉标准,但给出的得分包含较多主观因素。现存机器学习方法使用OCR识别率作为指标,但存在两方面不足:一是使用CNN提取图像特征可能不够充分;二是OCR准确率客观反映了计算机阅读文档图像的图像质量,而单独使用OCR作为文档图像质量评价指标并不能完全反映人对文档图像质量的评价得分。因此,本文提出了一种基于Transformer的双流文档图像质量评价算法,该算法融合了文档流和自然图像流。其中,文档流使用Transformer充分提取文档图像的文字特征,并预测OCR准确率,给出文档图像作为文档的图像质量评价得分;自然图像流使用卷积神经网络给出的文档图像作为自然图像的得分。将两者结合,可以得到更符合人类视觉感官的文档图像质量评价得分。
1 算法原理(Algorithmprinciple)
1.1 VisionTransformer
VisionTransformer(ViT)[6]是一种基于Transformer架构的图像处理模型,其核心思想是将图像视为一种特殊类型的序列数据,然后利用自注意力机制捕捉全局信息。ViT主要由图像块嵌入(PatchEmbeddings)、Transformer编码器(TransformerEncoder)和分类头(ClassificationHead)等部分组成。
1.2 残差网络
卷积神经网络由一系列的卷积层、池化层和全连接层组成。在CNN 中,输入数据首先通过多层卷积操作逐渐提取高级特征,其次通过池化层降低特征图的空间维度,最后经过全连接层进行分类或回归。残差网络(ResNet)[7]由残差块(ResidualBlock)组成,每个残差块均包含跳跃连接(SkipConnection),允许信息绕过一个或多个层直接传递到后续层。ResNet的核心思想是使用残差块解决深度神经网络训练中的梯度消失和梯度爆炸问题,使得训练更加稳定。
2 网络结构(Networkstructure)
2.1 整体算法
本文提出了一种基于Transformer的双流文档图像质量评价网络(DualStreamImageQualityAssessmentnetwork,DSIQA-NET)。该网络由文档流与自然图像流组成,将原始文档图像随机裁剪为224×224的图像块,分别输入双流网络进行预测,得到基于OCR准确率的文档图像得分和基于自然图像质量评价得分的自然图像得分。将这两个分数按一定的权重进行融合后得到最终的分数,以实现更加符合人类视觉感官的文档图像质量分数预测。基于Transformer的双流图像质量评价网络结构图如图1所示。
2.2 文档流质量评价网络
2.2.1 特征提取模块
在使用ViT对图像进行特征提取的过程中,首先将图像拆分成一组大小相等的图像块,每个图像块均被视为序列中的一个元素。其次将这些图像块转换成低维的向量表示后,作为ViT模型的输入。通过多头注意力机制,ViT能够同时考虑图像中不同位置之间的关联性,以及不同图像块之间的相关性,从而捕获到全局信息。这使得模型能够更全面地理解图像,并提取出更具代表性的特征。使用ViT对图像进行特征提取,如图2所示。
2.2.2 转置注意力模块
ViT通过注意力机制对图像进行特征提取,这一过程主要是通过多头注意力机制计算图像不同位置之间的相关性,进而实现对全局信息的捕获。然而,传统的注意力机制可能会忽略输入不同通道之间的信息,从而导致特征提取的不充分。为了解决这一问题,本文引入了转置注意力模块(图3)。该模块的核心作用在于通过计算不同通道之间的注意力来获得包含通道间信息的特征矩阵。具体实现时,首先对大小为H ×W ×C的特征矩阵进行Reshape操作,并使用全连接层映射新的Q、K、V 矩阵,将K 转置后与Q 相乘,得到大小为C×C 的转置注意力矩阵,该矩阵与V 相乘后的结果与原始输入相加,得到输出^F,该过程的定义如公式(1)和公式(2)所示:
F=WpAtten(Q,K,V)+~F (1)
Atten(Q,K,V)=V·Softmax(K·Q/α) (2)
其中:α 表示Q、K、V 矩阵的维度,Wp 表示映射矩阵。
2.2.3 分数加权模块
本文针对文档图像中背景信息和文字信息对图像质量的不同影响,提出了一种分数加权模块,旨在更准确地评估图像质量。分数加权模块的设计如图4所示。在该模块中,图像被分为背景信息和文字信息两个部分,而这两个部分对图像质量的影响是不同的。因此,需要一种机制动态地调整不同区域对图像质量评估的权重。
最终分数的计算如公式(3)所示,其过程可以总结为将每个patch的权重和与其对应的质量得分相乘,并将所有patch的得分相加。采用这种设计方式的模块能够更好地反映文档图像中不同区域对整体图像质量的贡献,使图像质量评估算法更精细和准确。
其中,N 为将一张图片分成patch的数量。
2.3 自然图像流图像质量评价网络
为防止文档流图像质量评价网络过拟合,同时也为了增强算法的泛用性,自然图像流质量评价网络(图5)采用CNN作为骨干网络提取图像特征。为解决CNN从局部特征提取逐步扩展到全局特征而损失的特征信息,该网络将局部特征和深层特征相结合,以此为基础来预测图像的整体质量分数。
2.4 双流网络融合
在网络的训练过程中,输入的文档图像分别经过文档流和自然图像流两个分支,每个分支都会输出一个对应的质量分数。随后,将这两个分数进行加权融合,得到本文算法预测的更符合人类视觉感官的文档图像质量分数;其具体计算过程如下:
S1=Fϕ(I) (4)
S2=Fϕ(I) (5)
S=αS1+βS2 (6)
其中:α 和β 分别是文档图像流和自然图像流权重,两者相加等于1,本算法中的α =0.8,β =0.2。
3 实验及结果分析(Experimentandresultanalysis)
3.1 数据集构建
为了弥补中文文档图像质量评价数据集的缺失,本研究充分考虑实际文档图像可能遭受的攻击,对原始图像进行噪声攻击后加入数据集,以提升网络的泛化能力。同时,为了满足不同的算法需求,对数据集进行标注,包括OCR精度、攻击类型和综合评分。首先,确定了攻击类型,通过模拟光照变化和纸质差异,调整图像的亮度和对比度,以再现拍摄纸质图片时可能出现的过亮、过暗以及纸质文档变旧等情况。其次,对图像增加不同的噪声以模仿不同条件造成的模糊效果。最后,使用不同评价标准对图像进行标注。中文文档数据集构建流程如图6所示。
本研究使用数据集的基准图像和基准文本结果均清晰可靠。为确保识别结果准确且可靠,使用PaddleOCR对基准数据集进行文字识别,将识别后的文本与基准文本进行比较以获取OCR精确度分数,每张图片的识别与比较工作均进行了3次。该自建文档图像数据集共有13936张图片,其中2054张被划分为测试集,剩余的11882张被划分为训练集。
本网络训练还使用了数据集SmartDoc-QA[8]。实验基于Pytorch框架,使用Linux操作系统,显卡为GeForceRTX3090Ti。
3.2 消融实验
本文所提算法引入了加权模块及转置注意力模块,其中转置注意力模块可以提取到更加充分的图像通道之间的信息,加权模块可以根据图像特征的重要性预测图像质量。为了评估这些模块对图像质量评价的影响,本文使用自建文档图像数据集进行了实验。具体步骤如下:一是使用ViT提取图像特征及质量分数预测QV ;二是使用ViT提取图像特征及权重分数预测QW ;三是使用ViT和转置注意力模块提取图像特征及质量分数预测QT ;四是使用ViT和转置注意力模块提取图像特征及权重分数预测Q。ViT提取特征后不同网络预测准确率如表1所示。
由表1中的数据可知,使用ViT进行特征提取和预测取得了一定的效果,转置注意力模块和权重分数预测模块引入对预测准确率的提升起到了积极的作用,说明本文提出的两种改进模块在使用ViT提取特征并预测OCR准确率方面均发挥了重要作用。
3.3 SmartDoc-QA数据集
在SmartDoc-QA数据集上,使用文档流算法进行文档图像质量评价,并将其与其他文档图像质量评价网络进行了比较。文档流算法与其他算法在SmartDoc-QA数据集的对比实验结果见表2。
根据在SmartDoc-QA数据集上的实验结果,本文提出的文档流算法在PLCC评估指标上获得了0.977,SROCC达到了0.892,相较于其他文档图像质量评价算法,表现出一定的优越性。尽管本文提出的算法在PLCC指标上取得了较高的成绩,但是在SROCC指标上的提升幅度相对有限。经过对数据集的深入分析发现,该数据集包含的2160张图片中,有大约40%的图片的OCR准确率为0,这大大增加了文档图像质量评价在SROCC指标上的难度,从而导致该指标相对较低。
3.4 自建中文文档数据集
在中文文档数据集上,使用文档流算法进行文档图像质量评价,并与其他文档图像质量评价网络进行比较。文档流算法与其他算法在中文文档数据集的对比实验结果见表3。
使用相同的训练参数在中文文档图像质量评价数据集上进行训练,结果表明算法在中文文档数据集上具有优越性。该数据集图片数量较多、攻击类型更加丰富、图像特征不容易提取,因此相较于SmartDoc-QA数据集,PLCC和SROCC指标均有所下降,但PLCC和SROCC之间的差值缩小,表明本文提出的算法在应对复杂数据集时依然有效,并且数据集的分布也相对较为合理。
3.5 双流文档图像质量评价网络性能及结果展示
本文提出的基于双流文档图像质量评价网络,综合考虑文档图像作为文档属性和图像属性,得出更符合人类视觉感官的文档图像质量评价分数。双流文档图像质量评价性能见表4。
在自建中文数据集上,本文提出的基于Transformer的双流文档图像质量评价算法的PLCC为0.9045,SROCC为0.8775,表现出对文档图像质量评价的有效性。图7为一张原始文档图片及5张受到不同攻击的图片,对这些图片使用训练结果最优的网络权重对文档图像进行质量评价。评价结果显示,基于Transformer的双流文档图像质量评价算法的有效性较高。
原始图像为图7(1),其与图7(2)的OCR 准确率都为0.9090,但图7(1)使用基于Transformer的双流文档图像质量评价网络预测得到的文档图像质量得分为0.8996,图7(2)的文档图像质量得分为0.7361。这一差异主要归因于图7(2)的亮度过高,导致图像在视觉上显得过于明亮,从而影响了整体图像质量的评价,使得其得分较低。图7(3)和图7(4)由于受到模糊攻击,导致OCR准确率为0,两张图片的文档图像质量得分很低,仅为0.0229和0.1182;图7(5)和图7(6)分别遭受到变暗和饱和度攻击,但这两种攻击对OCR准确率没有太大的影响,获得的准确率分别为0.9141和0.8643,但文档识别率分别为0.6376和0.7424。实验结果表明,基于Transformer的双流文档图像质量评价网络可以对文档图像进行更符合人类视觉感官的评价。
4 结论(Conclusion)
针对文档图像质量评价特征提取不充分、仅考虑OCR识别率的问题,本文提出了一种基于Transformer双流文档图像质量评价算法。该算法将文档图像分别作为文档和自然图像进行处理。对于文档流,将OCR准确率作为图像质量评价指标,使用ViT进行文档图像文字特征提取,通过引入转置注意力模块有效地融合了通道之间的信息,进而通过加权预测得到文档流图像的质量得分,该得分更加凸显了文字部分对图像质量的贡献。对于自然图像流,利用CNN提取浅层特征,结合ResNet提取图像深层特征,并使用全连接层得出自然图像流得分。最终,将两者得分加权融合后作为文档图像质量评价的得分。实验结果表明,该算法可以预测得到更符合人类视觉感官的文档图像质量分数。
参考文献(References)
[1]李晓婵.文档图像质量评价方法的研究[D].成都:电子科技大学,2023.
[2]KANGL,YEP,LIY,etal.Adeeplearningapproachtodocumentimagequalityassessment[C]∥IEEE.ProceedingsoftheIEEE:2014IEEEInternationalConferenceonImageProcessing.IEEE,2014:2570-2574.
[3]LIHY,ZHUF,QIUJH.CG-DIQA:No-referencedocumentimagequalityassessmentbasedoncharactergradient[C]∥IEEE.ProceedingsoftheIEEE:201824thInternationalConferenceonPattern Recognition.Piscataway:IEEE,2018:3622-3626.
[4]LIPC,PENGLR,CAIJY,etal.AttentionbasedRNNmodelfordocumentimagequalityassessment[C]∥IEEE.ProceedingsoftheIEEE:201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition.Piscataway:IEEE,2017:819-825.
[5]WANGWS,YANZY,LINHL.Adocumentimagequalityassessmentmethodbasedonfeaturefusion[M]∥Theinternationalconferenceonimage,visionandintelligentsystems(ICIVIS2021).Singapore:SpringerNatureSingapore,2022:889-899.
[6]DOSOVITSKITYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16x16words:transformersforimagerecognitionatscale[J/OL].(2020-10-26)[2024-04-06].https:∥arxiv.org/abs/2010.11929.
[7]HEK M,ZHANGX Y,RENSQ,etal.Deepresiduallearningforimagerecognition[DB/OL].(2015-12-10)[2024-04-08].https:∥arxiv.org/abs/1512.03385v1.
[8]NAYEFN,LUQMANM M,PRUMS,etal.SmartDoc-QA:adatasetforqualityassessmentofsmartphonecaptureddocumentimages-singleand multipledistortions[C]∥IEEE.ProceedingsoftheIEEE:201513thInternationalConferenceonDocumentAnalysisandRecognition.Piscataway:IEEE,2015:1231-1235.
作者简介:
焦树恒(1998-),男(汉族),临沂,硕士生。研究领域:图像处
张善卿(1971-),男(汉族),杭州,副教授,博士。研究领域:图
基金项目:国家自然科学基金资助(62172132)