基于多尺度生成对抗网络的大气湍流图像复原

2021-11-18 02:19杨永胜李元祥钟娟娟
计算机工程 2021年11期
关键词:图像复原复原湍流

甄 诚,杨永胜,李元祥,钟娟娟

(1.上海交通大学 航空航天学院,上海 200240;2.中国航空工业集团公司雷华电子技术研究所,江苏 无锡 214063)

0 概述

大气湍流是自然界中一种常见的空气无规则运动现象。在光波传输路径中,大气折射率受到大气湍流的影响而发生随机变化,导致光学成像系统所捕获的图像质量降低[1-2]。图像的视觉退化效果主要表现为几何形变与像素模糊,其将严重影响对目标图像进行特征识别与信息提取的后续操作[3]。因此,对湍流退化图像进行复原以改善图像质量,是一项具有重要实际意义的图像处理任务。

在基于数字图像处理的湍流退化图像复原方法中,同时移除大气湍流造成的形变与模糊难度较高。LI 等[4]将多通道图像反卷积作为主成分分析问题来解决,提出一种基于频谱的方法,但其并不能完全纠正形变。HIRSCH 等[5]提出一种EFF 方法,采用多帧盲反卷积算法来缓解湍流畸变问题,但由于局部点扩散函数估计不足导致伪影严重。幸运区方法[6-7]通过图像选择和融合技术复原高质量的潜在图像,该类方法利用锐度作为图像质量的度量指标,从短曝光的视频流中选择质量最好的帧,并将它们融合成一幅图像。ZHU 等[8]提出一种减少空间模糊和几何失真的方法,使用基于对称约束的B 样条非刚性配准算法来抑制几何形变。上述方法大多存在一些限制条件:经典的基于数字图像处理的湍流消除算法需要多帧静态退化图像来重建一幅高质量图像,这对采集设备和目标场景提出了较为严格的要求;复原方法采用迭代的计算方式,收敛性不稳定,难以满足实时处理的需求。

基于单幅图像的复原方法对图像捕获条件要求较低,处理速度较快,具有更加广泛的应用范围。单幅图像复原方法的目标是从观察到的单帧退化图像中获得高质量的清晰图像。在模糊先验未知的情况下,单幅图像复原是一个不适定问题。传统的非线性畸变图像校正方法需要建立畸变数学模型,算法复杂度高,且存在很大的数值计算误差。深度学习复原方法采用数据驱动的方式学习图像重建所需要的重要信息,不需要对退化因素进行大量限定,比依赖于退化假设模型的方法更适合解决单幅图像复原问题[9]。近年来,基于深度学习的图像复原算法广泛应用于超分辨重建、图像去噪和去模糊等计算机视觉任务中,并取得了较好的效果,尤其是生成对抗网络(Generative Adversarial Network,GAN)进一步促进了图像复原效果的提升。使用深度生成模型消除几何畸变并恢复高质量图像为解决湍流图像复原问题提供可能。LAU 等[10]提出一种生成式单帧复原算法,该算法将湍流引起的畸变分解为模糊和形变分量并分别利用去模糊生成器和变形矫正生成器进行复原,最后通过融合函数输出复原图像,但是该算法在模型训练过程中需要准备复杂的训练数据,在模糊分解与特征融合的过程中引入了额外损失。

本文提出一种基于多尺度GAN 的大气湍流退化图像复原方法。GAN 生成器在U-Net 网络结构中添加多尺度注意力特征提取单元和多层次特征动态融合单元。多尺度注意力特征提取单元嵌套在U-Net网络的全卷积部分,以对退化图像实现特征提取与编码,然后在上采样部分对特征图进行重建,并使用从粗到细的特征融合单元实现湍流退化图像复原。

1 基本原理

1.1 湍流退化模型

大气湍流退化效果主要包括湍流畸变算子和传感器光学模糊,描述湍流退化过程的数学模型为[11]:

其中:I(u)为需要复原的清晰图像;f(u)为成像设备获取的湍流退化图像;u=(x,y)T为图像中像素的空间位置;H为传感器光学模糊算子;Du为湍流畸变算子,其包含局部形变和空间模糊;Eu为加性噪声。由于湍流畸变算子同时包含模糊和形变2 种模糊核,因此使用卷积神经网络提取像素特征时需要设计足够大的感受野来覆盖像素区域,对提取到的特征进行动态权重调节有助于模型关注重要信息。

1.2 生成对抗网络

GAN[12]定义了 生成器G 和鉴别器D 这2 个竞争网络的博弈。生成器学习生成一幅和目标图像接近的样本,鉴别器负责区分真实图像和生成样本。生成器的目标是通过生成与真实样本无法区分的令人信服的样本来欺骗鉴别器。GAN 极大极小博弈的目标函数可描述为:

其中:Ex~pdata为输入清晰图像时的期望;x~pdata(x)为真实图像分布;Ez~p(z)为输入生成图像时的期望;z~p(z)为生成图像分布。在应用经典GAN 的方法[13]中,对抗损失采用Sigmoid 交叉熵损失函数,容易出现梯度归零的饱和状态,导致训练过程中出现模型坍塌、梯度消失、梯度爆炸等问题。最小二乘GAN(LSGAN)[14]的判别器使用L2 损失函数衡量输入x到决策边界的距离,提供了与该距离成比例的梯度,有助于进一步减小损失以生成更高质量的图像。同时,LSGAN 不容易达到饱和状态,具有更好的训练稳定性。

在训练过程中,将湍流退化图像作为生成器G的输入,并将生成图像与训练数据中的清晰图像共同作为判别器D 的输入。判别器与生成器采取单独交替训练的训练方式,通过误差回传更新网络参数,直至达到设定的迭代次数。

2 基于多尺度GAN 的湍流图像复原

2.1 多尺度GAN 网络结构

针对湍流图像复原任务需要同时去除几何畸变和模糊的问题,本文提出多尺度GAN 模型,其结构如图1 所示。生成器是一个对称的U-Net 网络结构[15],判别器采用PatchGAN 结构[16],由4 个卷积核尺寸为4×4 的卷积层构成。

图1 多尺度GAN 模型结构Fig.1 Multi-scale GAN model structure

多尺度网络模型表现为:1)在图像特征提取上,多尺度注意力特征提取单元使用不同尺寸的卷积核在更大的感受野范围内提取多尺度特征信息;2)在模型结构上,多层次特征融合单元对不同比例的特征图进行权重调节,以挖掘不同级别的语义信息。

生成器网络结构如图2 所示,U-Net 网络全卷积部分由预训练卷积模块和多尺度注意力特征提取单元组成,预训练卷积模块使用Inception-ResNet-v2骨干网络[17]中的卷积层与最大池化层,多尺度注意力特征提取单元提供多尺度特征信息并使用特征注意力来挖掘通道的相关性。上采样部分由卷积层与上采样层组成,插入多比例特征动态融合单元将不同比例的特征图上采样到相同的输入大小,并动态调节权重以连接成一个张量,加强不同尺度特征图的信息共享。输入图像经过全卷积层后转变为具有更小空间尺寸和更多压缩语义信息的特征图,获得的特征图在上采样部分经过融合映射,从语义丰富的特征层重构更高的空间分辨率,逐渐恢复到目标图像的尺寸。在U-Net 网络执行编码解码过程中会损失图像的细节特征,本文增加跳跃连接作为分层语义指导,将具有更多局部信息的浅层网络与对应的深层网络相结合,更加充分地利用高层特征的语义信息和底层特征的细粒度特征,从而提升重建图像的视觉细节特征。生成器引入一个直接从输入到输出的跳跃连接,以促使模型重点学习残差。

图2 多尺度GAN 的生成器网络结构Fig.2 Generator network structure of multi-scale GAN

2.2 多尺度注意力特征提取单元

在湍流图像复原算法中,几何畸变与模糊具有不同尺度的结构信息,使用常规卷积进行特征提取难以完全恢复图像,因此,本文提出多尺度注意力特征提取模块,其可以在不同尺度的感受野上处理特征信息,通过通道注意力机制关注通道特征间的关系,挖掘和学习图像的关键内容。如图3 所示,多尺度注意力特征提取单元由多分支卷积层和注意力层连接而成。多分支卷积层对应不同尺寸的感受野,能够提取到多种特征[18],注意力层[19]充分学习退化图像中的重要信息,以保证重建图像准确清晰。多分支卷积层由不同尺寸的空洞卷积并列组成,3 条支路的感受野分别为3×3、7×7、15×15,同时对输入特征图进行特征提取,在获得不同尺度的信息特征图后,通过卷积操作将级联的特征图重新调整为输入尺寸。

图3 多尺度注意力特征提取单元结构Fig.3 Multi-scale attention feature extraction unit structure

在特征提取过程中,为区别对待图像的低频部分(平滑或平坦的区域)和高频部分(如线、边、纹理),从而关注和学习图像的关键内容,本文引入注意力机制对每个通道特征产生不同的注意力。首先利用每个通道的全局上下文信息,采用全局平均池化来压缩每个通道的空间信息,表达式为:

其中:Xc表示聚合卷积特征图,其尺寸为H×W×C;zc表示压缩后的全局池化层,其尺寸减小为1×1×C。使用ReLU 和Sigmoid 激活函数实现门控原理来学习通道间的非线性协同效应和互斥关系,注意力机制可表示为:

其 中:δ和σ分别表示ReLU 和Sigmoid 激活函 数;rc为激励权重;Xc代表注意力机制调整后的特征图。全局池化层zc依次经过下采样卷积层和ReLU 激活函数,并通过上采样卷积层恢复通道数,最后由Sigmoid 函数激活,获得通道的激励权重rc。将聚合卷积层Xc通道的值乘上不同的权重,从而得到自适应调整通道注意力的输出Xc。

2.3 多层次特征动态融合单元

在生成器网络的上采样部分,不同层次的特征图蕴含着不同的实例信息[20]。为了加强不同层次特征图之间的信息传递,本文提出多层次特征融合单元。不同层次特征图对应区域的激活程度存在较大差异,在进行多层次特征图融合时,不同层次特征图之间的冲突会干扰信息传递,降低特征融合的有效性。针对该问题,本文设计动态融合的网络结构,其对特征图的空间位置分配不同权重,通过学习筛选有效特征和过滤矛盾信息,将不同尺度的特征图上采样调整到相同的尺寸,并在融合时对不同层次的特征图设置空间权重,寻找最优融合策略。上述过程具体可表示为:

其中:Fi↑代表第i个特征图经过上采样调整到统一尺寸后的标准特征图。所有层次的特征图经过自适应权重分配的动态融合后输出最后的特征图F*。

权重ωi的学习方式如图4 所示,标准特征图的空间信息经过下采样卷积层被压缩,将对应的4 个不同层次特征图的压缩卷积层相级联,使用1×1 的卷积映射同一位置的特征信息,最后通过Softmax 函数标准化网络参数以得到空间权重信息,如下:

图4 多层次特征动态融合单元结构Fig.4 Multi-level features dynamic fusion unit structure

经过学习得到的特征图自适应空间权重ωi∈[0,1]且其总和为1。

2.4 损失函数

在训练过程中,损失函数衡量生成图像与真实图像的差别,GAN 损失函数包括对抗损失与内容损失。其中,对抗损失采用LSGAN 中的对抗损失:

其中:Igt代表真实图像;Igen代表生成图像。在图像重建的内容损失上,选择生成图像和目标图像的均方差损失LMSE以获得较高的峰值信噪比,同时为了消除伪影,促进图像高频细节的恢复,使得重构图像具有较高的视觉逼真度,本文引入视觉损失Lperc。感官损失是通过预训练的VGG19 网络[21]而实现,将生成图像和目标图像分别输入到VGG 网络中,然后计算经过VGG 网络后对应特征图的欧氏距离。LMSE和Lperc的计算分别如下:

其中:ϕ代表预训练的VGG19 网络。因此,总的损失函数定义为:

2.5 多尺度GAN 大气湍流图像复原算法流程

基于多尺度GAN 的大气湍流图像复原算法的具体步骤如下:

输入合成湍流退化图像和标签数据集

输出训练后的生成器G

1)初始化网络模型参数。

2)反向传播训练模型参数。

3)训练后的生成器网络用于湍流图像复原。

网络模型的训练过程如下:

1)对每一批数据分别从合成图像和标签数据中进行采样。

2)根据对抗损失LGAN,采用Adam 优化判别器D和生成器G。

3)生成图像Igen,结合均方误差损失LMSE与视觉损失Lperc进一步优化生成器G。

重复上述训练过程,直至满足预先设定的迭代次数。

3 实验分析

3.1 实验设置

本文实验使用NVIDIA Tesla-V100 GPU 显卡、Linux 系统及Pytorch 深度学习框架,相关配置为CUDATookit10.0、Cudnn7.5。损失函数中的超参数设置为:α=0.5,β=0.01,γ=0.01。训练过 程采用Adam 进行参数优化,batch_size 设置为1。早期训练固定学习率为0.000 1,使用较大的步长保证网络在足够的搜索空间中寻优;后期训练中学习率线性衰减,减少训练中的振荡,从而保证网络的稳定性。

3.2 数据集预处理

本文使用湍流合成方法[22]扩充训练数据。合成湍流效应基于模糊算子和变形算子,可选择不同的参数来生成具有不同严重程度的湍流退化图像。模糊算子是高斯核滤波,对像素进行高斯平滑。对于图像上的每个像素点(x,y),变形算子生成一个随机运动向量场。以(x,y)为中心、尺寸为N×N的图像块,随机运动向量场在该图像块区域内定义为:

其中:Gσ是高斯核;标准差η是强度值;N1和N2从高斯分布中随机选取。湍流图像数据集收集了300 幅真实的户外建筑物场景图像,为扩充训练数据,对每个图像进行裁剪处理。使用Unity 软件平台实现上述像素扭曲操作,设置用于调节模糊算子和变形算子的参数,如强度、周期、退化核半径,对不同参数进行组合,模拟大气湍流对图像产生的复杂影响。使用上述湍流合成方法共生成1 200 幅训练图像,图像分辨率为600像素×320像素,随机选取其中1 000 幅作为训练集,200 幅作为测试集。

3.3 结果分析

训练结束后的生成器网络被用于湍流图像复原,本文选用标准GAN 模型和图像复原领域先进的SIU-Net[23]模型进行对比分析。在相同的实验环境下使用湍流退化数据集对标准GAN 和SIU-Net 模型进行训练与测试。

除了将传统模型与改进模型进行复原实验对比外,本文还设置一组消融实验:在U-Net 网络中仅添加多尺度注意力特征提取单元(GAN+提取单元);在U-Net 网络中仅添加多层次特征动态融合单元(GAN+融合单元);在U-Net 网络中同时添加2 种单元(多尺度GAN)。

为验证本文方法的有效性,采用峰值信噪比(PSNR)和结构相似性(SSIM)作为客观评价指标,以评估生成图像的质量。PSNR 反映2 幅图像对应像素点间的误差,PSNR 越大,表明重建图像失真越少,效果越好。SSIM 表示2 幅图像的相似度,其值越接近1,说明重建图像越接近原始图像。PSNR 计算公式如下:

其中:I为真实参考图像;Igen为生成的复原图像;μ为图像均值;δ为图像方差;δ为协方差。

采用上述指标对复原模型进行客观评价,实验中取PSNR 和SSIM 的平均值,结果如表1 所示。由表1 可以看出:使用标准GAN 进行图像复原能够改善图像质量,评价指标大幅提高;SIU-Net 利用精巧的多尺度迭代网络结构设计,在PSNR 评价指标上取得了和标准GAN 相近的结果,但SSIM 评价指标却表现一般,主要原因是SIU-Net 只使用了均方差损失,且没有针对复杂空间畸变进行网络结构设计;相比于标准GAN,本文多尺度GAN 的PSNR 平均提升约1.1 dB,SSIM 相对提高约2.6%,在PSNR 和SSIM评价指标上同样优于SIU-Net,这是因为多尺度注意力特征提取单元提供的多尺度感受野可以提取并整合不同尺寸的输入特征,多层次特征动态融合单元通过学习可以有效利用不同层次的特征语义信息,使多层次GAN 复原效果更好。如表2 所示,消融实验结果反映了各模块对湍流图像复原的提升效果。

表1 湍流图像复原中不同模型的PSNR 和SSIM 结果Table 1 PSNR and SSIM results of different models in turbulence image restoration

表2 消融实验中的PSNR 和SSIM 结果Table 2 PSNR and SSIM results in ablation experiment

采用不同模型生成复原图像以及消融实验的图像复原结果分别如图5、图6 所示。其中:图5(a)为湍流退化图像,其作为网络模型的输入;图5(b)是原始GAN 处理后的输出图像;图5(c)是SIU-Net 处理后的输出图像;图5(d)是本文多尺度GAN 处理后的输出图像;图5(e)是真实清晰图像。

从图5 可以看出,本文多尺度GAN 获得的复原图像形变情况明显改善,整体图像清晰,同时图像的边缘细节也有所提升,更接近参考的真实图像。图5、图6 的主观效果与表1、表2 中的客观评价结果基本一致。

图5 不同模型的复原实验结果对比Fig.5 Comparison of restoration experimental results of different models

图6 消融实验的复原结果对比Fig.6 Comparison of restoration results of ablation experiment

图7 所示为真实场景下湍流退化图像复原的实验结果,其中:图7(a)为相机捕获的湍流退化图像;图7(b)为经过多尺度GAN 处理后的图像。

图7 真实场景湍流图像复原结果Fig.7 Restoration results of real scene turbulence images

从图7 可以看出,湍流退化图像复原后在整体清晰度和局部结构细节2 个方面均有提升,实验结果进一步验证了本文模型的复原性能,即多尺度GAN 可有效移除湍流效应,提升图像质量。

4 结束语

针对单幅湍流退化图像,本文提出一种基于多尺度GAN 的图像复原方法,该方法根据数据驱动的方式,解决了传统复原方法依赖先验信息、复原效果差等问题。网络模型基于GAN,通过多尺度特征提取单元强化底层特征提取,并在上采样重建部分使用动态特征融合单元,利用多层次特征图进行特征融合。实验结果表明,该方法能够改善图像质量,解决图像中的物体形变问题,复原后的图像清晰度较高。下一步将设计轻量化模型并提高模型的鲁棒性,以扩大复原方法在实际场景中的应用范围。

猜你喜欢
图像复原复原湍流
温陈华:唐宋甲胄复原第一人
浅谈曜变建盏的复原工艺
“湍流结构研究”专栏简介
毓庆宫惇本殿明间原状陈列的复原
基于MTF的实践九号卫星图像复原方法研究
重气瞬时泄漏扩散的湍流模型验证
湍流十章
基于MTFC的遥感图像复原方法
模糊图像复原的高阶全变差正则化模型构建
弱分层湍流输运特性的统计分析