面向盲去模糊的选择性内核卷积混合连接编解码网络

2021-12-21 11:18李若森雒江涛许国良
关键词:编解码内核选择性

李若森,雒江涛,许国良

(1.重庆邮电大学 通信与信息工程学院,重庆 400065;2.重庆邮电大学 电子信息与网络工程研究院,重庆 400065)

0 引 言

图像模糊不仅会影响图像的视觉效果,还会使图像退化,导致一些细节信息,例如图像中的文字、人脸、字符等的丢失。因此,从模糊图像中恢复出清晰图像具有重要意义,可以广泛地应用在智能安防、交通安全、医学影像等领域。造成图像模糊的原因有失焦、噪声、物体运动等,其中,相机晃动或物体运动是最主要的因素。数学上,通常将图像模糊的过程建模为清晰图像与模糊核进行卷积再加上随机噪声。由于相机晃动和物体运动具有随机性,所以运动模糊的模糊核是未知的,在模糊核未知的条件下进行去模糊的过程称为盲去模糊。

盲去模糊是一个典型不适定(ill-posed)的逆问题[1]。针对这一问题,传统的模糊盲去除方法是增加合适的约束条件和先验知识进行求解,得到逼近该类问题最优的稳定单一解。典型的图像先验知识包括重尾梯度先验[2]、超稀疏先验[3]等。首先根据模糊图像及先验知识估计模糊核,再根据估计的模糊核进行反卷积,最终得到清晰图像。此类方法能够达到一定的去模糊效果,但应用范围均受到先验假设的限制,且模糊核估计的准确性难以得到保证。

近年来,研究者们将深度学习运用于盲去图像模糊任务中,采用端到端的方式直接得到清晰图像。将模糊核估计与反卷积统一为一个过程,避免了由先验假设不符合图像实际条件而导致模糊核估计不准确的问题。文献[4]使用深度卷积网络以端到端的方式去除运动模糊;文献[5]训练一种多尺度深度卷积网络,“由粗到细”地重建清晰图像,同时建立了一个大规模的GOPRO模糊图像数据集;文献[6]使用生成对抗网络去除运动产生的模糊并将去模糊后的图像用于目标检测任务;文献[7]提出一种空间变化的卷积神经网络,在减少计算开销的同时保持了比较优秀的去模糊性能;文献[8]在多尺度网络基础上给中间的隐藏层添加了长短时记忆模块来传递不同尺度间的信息,达到了更好的去模糊效果。然而,上述方法都采用单一尺寸的卷积核提取图像模糊特征,处理不同程度的运动模糊时可能会造成空间上的信息损失。

鉴于上述研究,本文进一步将选择性内核卷积[9]引入深度卷积网络,并采用混合连接[10]的方式,提出一种基于选择性内核卷积的混合连接编解码网络,端到端地消除运动模糊。本文的主要工作包括以下内容。

1)引入选择性内核卷积,在多个分支中使用不同尺寸的卷积核提取不同大小感受野(receptive fields,RF)下的特征图,并使用通道注意力机制(channel attention mechanism,CM)对特征图进行重新选择、校准,增强有用特征信息的传递并且抑制无用信息,能够提升网络对空间非均匀模糊图片的去模糊效果。

2)提出了选择性内核卷积混合连接块(selective-kernel convolution mixed link block,SKCMLB)代替目前大部分网络模型使用的残差块以及密集块。混合连接方式融合了残差与密集连接,能够增强网络的特征提取、转化能力,减少特征冗余,加速网络收敛。

3)使用包含均方误差和感知损失[11]的联合损失函数在GOPRO数据集对提出的网络进行训练,并在GOPRO数据集和Köhler数据集[12]上测试训练得到的网络模型。

1 去模糊方法

1.1 网络整体结构

本文提出的选择性内核卷积混合连接编解码网络结构如图1。网络整体为对称编解码式结构。编解码模块由多个选择性内核卷积混合连接模块、卷积层以及反卷积层堆叠而成,并在对应尺度的编解码模块之间添加跳跃连接。

1.2 编解码结构

编解码结构在超分辨率[13]等其他图像复原任务中的有效性已经得到大量证实。本文的编解码结构网络由多个选择核混合连接块以及卷积层和反卷积层组成,同时在对应的编解码块之间添加了跳跃连接。除首尾卷积层步长为1外,其余卷积层与反卷积层的步长都为2,前者将特征图的尺寸减半,同时通道数增加一倍,后者反之。以SKCMLB为主要组成部分的编解码模块相较其他卷积块具有更强的特征提取、转化能力,能够恢复出更多图片的细节信息,进一步提升了消除模糊的能力。

1.3 选择性内核卷积

去模糊任务需要足够大的感受野才能处理较为剧烈的物体运动或相机抖动引起的图像模糊,然而过大的感受野又会引起空间上细节信息的损失,导致图像去模糊质量的下降,而不同尺寸的卷积核可以提供大小不同的感受野进而提取多感受野下的特征图。

受此启发,本文以多分支卷积网络作为基础,融合通道注意力机制,实现了神经元感受野大小的自适应调节。理论上,选择性内核卷积的分支数可以任意选定,但是大尺寸卷积核与全连接层会成倍增加网络参数量,造成网络体积庞大、训练缓慢的问题。因此,本文采用双分支(卷积核尺寸分别为3×3,5×5)的形式验证选择性内核卷积结构的有效性,其示意图如图2。

图1 选择性内核卷积混合连接编解码网络结构Fig.1 Selective-kernel convolution mixed link encoder-decoder network structure

图2 选择性内核卷积Fig.2 Selective-kernel convolution

基于选择性内核的卷积操作由3个步骤组成:分裂、融合、选择。

1.3.1 分裂

1.3.2 融合

首先,通过逐元素相加的方式对来自多个分支的特征图进行融合得

(1)

接着,使用全局平均池化(global average pooling,GAP)在空间上压缩特征图,生成表征全局信息的通道统计数据S∈RC,用Sc代表S的第c个元素,计算公式为

(2)

然后,为了准确而高效地指引下一步的选择操作,使用一个全连接层创建压缩特征向量z得

z=Ffc(S)=φ(γ(WS))

(3)

(3)式中:φ表示ReLU激活函数;γ表示批归一化(batch normalization,BN)操作;W∈Rd×C表示全连接层矩阵;d表示压缩特征的维度,其值设置为通道数的一半。

1.3.3 选择

首先,通过对压缩特征向量z进行softmax运算,得到表征特征图选择权重的通道注意力向量(channel attention vector,CAV)为

(4)

(4)式中:A,B∈RC×d,表示全连接层矩阵;a,b∈RC×1表示通道注意力向量。

然后,使用注意力向量与对应分支的特征图进行逐元素相乘。

最后,将选择后的多分支特征图逐元素相加,上述过程可表述为

(5)

选择核卷积引入了通道注意力机制,对使用多种卷积核在不同感受野下提取到的多路特征图进行了重新选择、校准,增强有用特征信息的传递并且抑制无用信息,提高了网络对不同程度运动模糊的处理能力。

1.4 选择性内核卷积混合连接块

选择核混合连接块在选择性内核卷积的基础上引入了混合连接的方式,其结构如图3。图3中M操作符代表混合连接,其过程可表示为

Xout=C(Wsk(Xin)+Xin,Xin)

(6)

(6)式中:Wsk表示选择性内核卷积;C(·)表示聚合(Concatenation)操作;Xin,Xout表示混合连接操作的输入与输出。

图3 选择性内核卷积混合连接块Fig.3 Selective-kernel convolution mixed link block

混合连接融合了残差网络(ResNet)[14]和密集网络(DenseNet)[15],能够加速网络收敛,防止梯度弥散,加深网络深度的同时缓解了残差网络引起的信息流弱化和密集网络带来的特征冗余的问题,使网络能够更高效地提取、转化输入图像的特征信息。

1.5 联合损失函数

在图像转换任务中,通常采用均方误差作为网络训练的损失函数,表示为

Lmse=‖N(Iin)-Igt‖2

(7)

(7)式中:N(·)表示网络模型;Iin表示输入图像;Igt表示真实图像。

均方误差(mean-square error,MSE)是针对单像素点的误差,不能捕捉输出和标准图像的感知差别,恢复出的图像往往缺乏高频信息。针对此种缺陷,引入感知损失,它比较输出图片与标准图片经过预训练卷积神经网络提取出的特征图的差异,能够更好地还原出图像的边缘、颜色等细节信息,表示为

(8)

(8)式中:F(·)表示预训练的特征提取网络;Cj代表网络第j层输出特征图的通道数;Hj、Wj分别表示特征图的高和宽。

为在恢复图像低频信息的基础之上进一步恢复高频细节,本文采用均方差与感知损失的联合损失函数,并赋予感知损失n倍的权值引导网络的训练,公式如下

L=Lmse+nLper

(9)

以该损失函数组合作为网络的优化目标进行迭代训练得到的模型在恢复图像边缘、结构等细节信息上预期能够取得更好的去模糊效果。

2 实 验

2.1 数据集

GOPRO数据集总共包含3 214对模糊-清晰图像对,图像大小为720×1 280。其中,2 103对图像用来训练,其余1 111对图像用做测试。该数据集使用高速摄像机捕捉连续短曝光的清晰帧进行平均,模拟非均匀运动模糊帧,是一个进行去模糊网络训练的常用数据集。

Köhler数据集由4张图像组成,是一个评估和比较盲去模糊方法的常用数据集。该数据集使用12 种不同的模糊核对每张清晰图像进行卷积,形成 48张对应的模糊图像。

2.2 实验设备及参数设置

本文实验在CPU为Intel Xeon E5-2650,GPU为NVIDIA Tesla V100(显存32 GByte)的计算机上进行,并使用PyTorch完成网络设计及训练、测试工作。数据准备方面,将1 280×720的图像随机裁剪成256×256大小的图像块输入网络进行训练。因为网络是全卷积的结构,所以在测试时可以输入任意尺寸的图片。在网络训练方面,批数据量设置为2。为避免网络陷入局部最优,使用Adam优化器,初始学习率设置为1E-4,学习率随着学习周期的增长线性衰减到1E-8,经过2 000轮训练至收敛(联合损失函数中,n为1)。

2.3 结果与分析

本文采用图像质量评估中常用的峰值信噪比(peak signal to noise ratio,PSNR)、平均结构相似度(mean structural similarity index,MSSIM)作为去模糊网络性能的评价指标。

2.3.1 联合损失函数分析

针对联合损失函数的配置比例,本文做了4组对照实验,训练以及测试均在GOPRO数据集上完成,结果如表1。

表1 联合损失函数的配比测试结果

从表1可以看出,仅使用均方误差进行网络训练得到的指标最低。仅使用感知损失进行网络训练,较前者有了一定的提升。使用联合损失函数后,性能指标有了明显的提升,并且在1∶10的条件下达到了最优(下文表格中均采用n=10条件下的实验结果)。实验结果表明,使用均方误差与感知损失的联合损失函数对网络进行训练,能够有效提高网络模型的去模糊能力。

2.3.2 选择性内核卷积混合连接块分析

为测试选择性内核卷积混合连接块的有效性,在使用本文总体网络结构情况下,分别调用残差块(Res-block)、密集块(Dense-block)替换SKCMLB在GOPRO数据集上进行训练及测试,各卷积模块性能比较如表2。

表2 各卷积模块性能比较

根据表2的结果,本文方法取得了最高的PSNR和MSSIM值,并且比其他卷积模块具有较大的优势。

2.3.3 质量评估

在GOPRO数据集和Köhler数据集上,本文与其他文献方法的性能指标对比结果分别如表3、表4,在GOPRO数据集上的处理结果如图4、图5。

表3 GOPRO数据集质量评估结果

图4 GOPRO数据集上的结果(从左至右分别为:

表4 Köhler数据集质量评估结果

从表3看出,在GOPRO数据集上,文献[4]的方法效果较差,原因在于网络训练所采用的数据集由清晰图像与模糊核卷积而成,与真实场景的模糊图像相差较大。从文献[5]开始使用高速摄影机合成的模糊图像数据集对网络进行训练,网络模型的去模糊效果得到了大幅提升。在此基础之上,文献[6]将条件生成对抗网络引入去模糊领域,值得注意的是,该方法在PSNR指标上成绩一般,但是在MSSIM指标上取得了最好成绩,这可能与生成对抗网络能够生成高频细节但是不一定符合真实细节的问题有关。文献[8]使用的多尺度递归网络在PSNR值上取得了最好的成绩。本文方法在PSNR和MSSIM指标上均取得了第2名,具有较为优异的综合性能。从图5第1列、第3列可以看出,本文去模糊方法能够有效去除伪影,还原座椅、挂饰等物体以及图案的轮廓和边缘细节,能够有效复原文字、车牌等有价值信息,为文字检测、车牌识别等任务提供更高质量的输入数据。表4展示了各算法在Köhler数据集上的测试结果,本文方法在PSNR指标上比文献[8]的方法低0.06 dB,在MSSIM指标上高0.12%,两项指标相较于文献[5-6]的方法均有明显提升。从图4中钟表指针以及数字部分可以看出,对于由清晰图片与模糊核卷积而成的模糊图片,本方法也能起到去除伪影,还原细节纹理的作用。

3 结 论

针对运动模糊在空间上非均匀且模糊核未知的特点,本文提出了一种选择性内核卷积混合连接编解码网络,以端到端的方式实现图像的盲去模糊。实验结果表明,本文方法能够有效去除图像模糊,恢复出图像的边缘结构和纹理细节;提出的选择性内核卷积混合连接块能相较于其他卷积模块具有较大优势;将一定比例构成的均方误差与感知损失作为联合损失函数用于网络训练,能够提升模型的去模糊性能。目前,去模糊方法基本采用人工合成的模糊图像数据集进行训练,对于难以获取对应清晰图像的真实模糊数据集,如何进行训练并提高去模糊方法的泛化能力,这将是接下来研究的方向。

猜你喜欢
编解码内核选择性
多内核操作系统综述①
强化『高新』内核 打造农业『硅谷』
1553B总线控制器编解码设计
为多重编解码世界做好准备
选择性听力
大型民机试飞遥测视频编解码方法研究
基于嵌入式Linux内核的自恢复设计
Linux内核mmap保护机制研究
选择性应用固定物治疗浮膝损伤的疗效分析
选择性执法的成因及对策