基于DeblurGAN的文本图像去模糊算法*

2022-03-28 11:19张鹏梁立
关键词:卷积文字文本

张鹏, 梁立

(云南师范大学 信息学院,云南 昆明 650500)

1 引 言

文本图像是包含文本内容的图片文件,在批量获取文本图像(如档案合同扫描图像)的过程中可能会受到各种干扰,对于本文图像来说最常见的干扰有相机抖动和运动偏移等运动类型的模糊.文本图像模糊不仅会使图像内容在视觉上难以辨认,也会导致图像文字检测与识别的效果不好,将模糊文本图像恢复为清晰图像的过程称为图像复原技术.

研究者们大多将去模糊算法的研究应用于街道、风景等场景图像中[1],而针对文本图像还没有较为理想的去模糊算法.使用领域内的几种常见算法对文本图像进行去模糊实验,结果表明生成对抗网络DeblurGAN[2]算法对文本图像去模糊处理速度和效果相对更好,因此使用DeblurGAN对文本图像去模糊是更好的选择.但是DeblurGAN算法对文本图像的去模糊效果还不是特别理想,于是对其进行了三处改进并对其训练,将改进后的DeblurGAN算法应用到文本图像去模糊中,算法对文本图像去模糊效果有明显提升.

2 几种去模糊算法比较

Whyte等人提出了一种抖动图像的非均匀去模糊的模型[3],他指出相机的转动比平移更容易造成图像的模糊,因此研究中主要考虑了相机转动的影响.作者提出了一种新型的模糊过程模型,将该模型应用于两种不同的去模糊算法,其中包括抖动和部分饱和图像的高效去模糊算法并显示出优异的处理不均匀模糊的能力.

Nah等人提出了一种用于动态场景去模糊的深度多尺度卷积神经网络[4].作者提出了多尺度学习CNN框架并提高了网络收敛速度,使用端到端的神经网络优化了模糊核的估计问题,解决了传统CNN无法解决复杂模糊核以及核评估过程容易受到噪声影响的问题.

Goodfellow率先提出生成对抗网络(GAN)[5]的想法,在图像生成、复原、超分辨率重建[6]等领域都得到了应用.DeblurGAN[2]是乌克兰学者Kupyn提出的一种基于GAN方法进行盲去运动模糊的方法,他受SRGAN与CGAN的启发,将图像去模糊看作一类特殊的image2image任务.DeblurGAN基于WGAN和内容损失对模型进行训练,在处理速度上和效果上均有不错的表现.DeblurGAN为全卷积模型,在图像Patch上进行训练,因此可以应用到任意大小的图像中,在DθD上执行了5次梯度下降,在GθG上执行了1次,将生成器和判别器的学习速率设置成10-4,经过150次迭代后将这个比率线性衰减,经历数天的计算,研究者成功完成DeblurGAN的训练.

几种去模糊算法在街道场景去模糊实验中都有较好表现,但是在文本图像去模糊实验中去模糊的效果差异较为明显,如图1.其中,DeblurGAN算法相比与其他算法不仅效果最好,而且处理更快.但是DeblurGAN去模糊效果还不够理想,需对其进行改进.

图1 几种算法的文本图像去模糊效果

3 改进DeblurGAN算法

图像在成像、传输和储存中会导致图像质量的下降,称为图像退化.成像阶段造成图像退化的情况大多是运动模糊、高斯模糊或散焦模糊等[7],其中运动模糊也是文本图像中最常见的退化类型之一.图像模糊的过程可用模型表示为

IB=IS*k(M) +N;

其中,IB代表模糊的图像,IS代表清晰的图像,k(M)代表运动情况M确定的模糊核类型,N代表图像的噪声.

经过众多研究者经历数年的研究,将去模糊的问题分为两大类:盲去模糊和非盲去模糊[8],非盲去模糊指模糊核已知,盲去模糊指的是模糊核与原图像都未知.

去模糊的目标是将未知模糊核的模糊图像IB恢复成清晰图像IS,DeblurGAN需要训练一个CNN GθG,还引入critic函数DθD,以对抗的方式训练两个网络.对DeblurGAN算法的生成网络进行三处改进以增加文本去模糊的适应性.

第一处改进:将自适应实例归一化(AdaIN)层[9]代替实例归一化层(Instance Norm).AdaIN输入为内容编码(content input,x)和风格编码(style input,y),对于每个通道,将x的通道级均值和标准差匹配到y的通道级均值和标准差上,即

AdaIN通过少量图像就可以计算得到风格迁移后的线性系数,使重建出来的图像更接近真实图像,且AdaIN是在特征图层面上通过改变特征的数据分布来实现风格迁移,计算开销相对较小,也更易于实现.

第二处改进:使用带泄露修正线性单元(Leaky ReLU)代替原激活函数线性整流函数(ReLU),Leaky ReLU对负值输入有非常小的坡度,能减少静默神经元的出现,支持基于梯度的学习,减轻了ReLU的稀疏性,缓解了ReLU导致神经元死亡的问题[10].而且Leaky ReLU适合生成类问题,ReLU适合二分类问题,因此在文本图像去模糊领域使用Leaky ReLU会更好.

第三处改进:将损失函数表达为对抗损失和内容损失两部分的组合后,通过实验筛选设置超参数λ为90在本研究中效果更好,其损失函数为

DeblurGAN生成网络架构与改进的DeblurGAN生成网络架构如图2;可以看出,改进后的DeblurGAN依然包含两个1/2间隔的卷积单元、9残差块和两个反卷积单元,但每个残差块由卷积层、自适应实例归一化层(AdaIN)和带泄露修正线性单元(Leaky ReLU)组成.

图2 DeblurGAN与改进DeblurGAN生成网络架构

4 实验及效果

由于缺乏模糊的文本图像数据集,根据孙[11]提出的方法,将清晰图像模拟符合其运动规律的运动情况从而估计出模糊核生成模糊图像.本文图像在扫描采集时环境较为稳定,采集的重复性操作大多属于常规性动作,因此根据图像采集操作的运动情况进行运动模糊核估计,制作了包含9 000多对模糊文本图像的数据集.

在DeblurGAN算法和改进的DeblurGAN算法上使用模糊文本图像数据集进行训练,数据集为生成的模糊文本图像数据集,训练环境为GeForce RTX 2080Ti GPU.选取少量测试数据对算法进行去模糊效果测试,实验表明改进后的DeblurGAN算法在文本图像去模糊中相较于DeblurGAN有明显的提升(如图3).

图3 改进前后的DeblurGAN去模糊效果对比

PSNR指的是峰值信噪比,图像的PSNR值越大说明图像的失真程度越小.文本图像细节较多,因此结合了图像中的文字检测算法对其去模糊效果进行评价,即图像中检测出文字的数量越多则去模糊效果越好.实验表明改进后算法在PSNR指标上有小幅提升(表1),图像中的文字检测数量增加(图4),图像去模糊效果有明显的提升,去模糊后的文本图像基本达到视觉辨认与文字识别的要求.

表1 DeblurGAN与改进后的DeblurGAN去模糊图像的PSNR指标

图4 DeblurGAN与改进后的DeblurGAN文字检测效果

5 结语

经过对比,使用了一种多分量损失函数优化的条件对抗网络DeblurGAN用作文本图像的去模糊研究.为增强模糊文本图像去模糊效果,将DeblurGAN进行了三处改进,根据现有方法模拟图像运动模糊核生成了模糊文本图像数据集.使用模糊文本数据集对改进的DeblurGAN进行训练.在实验中使用PSNR指标与文字检测效果结合的方式,综合评价算法对文本图像去模糊的效果.结果表明,改进的DeblurGAN算法对文本图像去模糊效果明显提升,图像中文字检测的效果更好,文本图像可用性明显提升.

猜你喜欢
卷积文字文本
基于3D-Winograd的快速卷积算法设计及FPGA实现
文字的前世今生
热爱与坚持
当我在文字中投宿
卷积神经网络的分析与设计
在808DA上文本显示的改善
从滤波器理解卷积
基于doc2vec和TF-IDF的相似文本识别
基于傅里叶域卷积表示的目标跟踪算法
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻