基于SRGAN网络的低分辨率图像重建方法

2022-07-08 07:20姚钰桐谭荃戈姬广凯

电子技术与软件工程 2022年2期

姚钰桐谭荃戈姬广凯

（中国人民公安大学信息网络安全学院北京市 100038）

1 引言

人脸信息因其具有唯一性、普遍性等特点，在视频侦查、行动路径追踪以及身份信息比对等方面对公安工作具有重要意义。在视侦和图侦过程中，由于采集数据的设备良莠不齐、被遮挡或天气、光照等因素降低图像质量，导致采集的人脸图像有时无法直接匹配到正确的身份信息，需增加图像增强处理环节。对于低分辨率的人脸图像，特征信息的缺失往往使得人脸比对失败，导致其不能及时应用于后续的视频侦查、追踪等工作中，非常耗费警务工作人员的时间与精力。

低分辨率图像重建方法在不断发展、更新，从以传统方法为主到以深度学习为主。传统方法可细分为以下三类：基于学习、基于重建和基于插值。基于学习的方法主要有马尔科夫网络应用和图像自相似性等，此类方法使用高低分辨率图像作为重建过程中可以被提取的先验知识，通过学习高清原图与低分辨率图间的映射关系，补充后者缺少的纹理信息特征，重建高清图像。基于重建的方法含括基于迭代反投影(IBP)的方法、最大后验概率(MAP)的方法、凸集投影(POCS)应用等，这类方法适用于受光影和时间因素影响较重的序列图像，常用于时间序列图像完成单张高清图像的重建任务。基于插值的方法包含双线性插值法（Bilinear Interpolation）、最近邻插值法（Nearest Neighbor Interpolation）以及双三次插值法（Bicubic Interpolation），此类方法通过训练低分辨率样本图片相对于输入的高清原图的拟合系数，实现图像重建。基于深度学习的方法以

SRCNN（Super-Resolution Convolutional Neural Network）开始，该方法充分利用神经网络的特性先进行特征提取，再经过非线性映射，最后再进行图像重建。文献又提出了SRCNN优化算法 FSRCNN，通过对输入低分辨率图像进行降维、非线性映射、扩维以及反卷积上采样实现更深的网络层数和更快的运算速度；基于深度学习的方法在发展的过程中遇到了神经网络加深带来的参数过大以及下降梯度不稳等问题，为了解决该问题，有学者提出了残差网络（Residual Network）这个概念，使得网络深度可以不断加深而计算复杂度远低于同样深度下的传统神经网络，其中EDSR（Enhanced Deep Residual Networks for Super-Resolution）增多重建图像的高频细节纹理并有效保存图像原本的对比度信息，在此基础上再简化网络结构、降低网络复杂度、训练速度，将卷积层的特征数量增加四倍，使得重建图像效果更好；生成对抗网络（Generative Adversarial Networks）在低分辨率图像重建方面的效果逐渐增强，有学者逐渐将生成对抗网络用于超分辨率图像重建（Super-Resolution）任务，得到分辨率更高、细节纹理更丰富的高清图像。

本文以超分辨率生成对抗网络（Super Resolution of Generative Adversarial Networks）为基础对生成器子网络中的残差层数与低分辨率图像重建效果之间的相关性进行研究。在DIV2K数据集上对不同残差层数的生成对抗网络进行训练、测试及测评的对比实验，并补充经典数据集Set5和Set14作为此次实验测试集，以结构相似性（Structural Similarity，SSIM）与峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）为评价指标，分析不同的残差网络层数对重建图像的清晰度和特征保留程度的影响。实验结果表明，结构相似性最高分别达到了0.6841/0.4969/0.7864/0.7325，残差网络层数为16层时，在每个测试集上的性能都达到最优。

2 基于GAN网络的低分辨率重建方法

2.1 GAN网络基本结构

SRGAN网络框架如图1所示，由生成器（Generator）子网络和鉴别器（Discriminator）子网络组成。如图2所示，生成器子网络通过卷积层、激活函数层与数层残差网络层进行特征映射实现图像重建。通过鉴别器子网络来鉴别生成器子网络生成的图像是否与原图（高清图）相似，当鉴别器子网络无法鉴别生成图像的真假时，整个网络即可适用于重建高清图。生成器子网络负责实现高清图像重建任务，鉴别器子网络负责将生成的高清图像与原高清图像进行对比、识别与判断，并将判断结果返回给生成器子网络，生成器子网络根据返回值优化网络权重。

图1：SRGAN网络框架

图2：生成器子网络的结构图

SRGAN的优点在于生成图像的纹理信息更贴近原图（高清图）；缺点在于残差层数较多且生成器子网络与鉴别器子网络并行训练导致总训练时间更长。该网络使用式（1）中表示的感知损失函数，感知损失由内容损失和对抗损失

两部分共同组成，其中，对抗损失关注纹理细节，能够使生成网络生成的超分辨率图像更接近自然高清图像。

2.2 残差网络模块

基于深度学习的算法会遇到神经网络的加深而带来的参数过大以及梯度下降不稳等问题，为了解决该问题，提出了残差网络这个概念。残差网络的深度可以不断加深而计算复杂度远低于同样深度下的传统神经网络。应用残差结构的网络，能够使用全局残差和局部残差进行递归循环调用，增强参数以及信息的使用效率，进一步提高梯度下降速度，实现更快的重建高清图像。

单层残差网络结构如图3所示，其中X为网络第l层的输出，通过第l+1层残差运算得到输出X。

图3：单层残差网络结构

计算如公式2表示，其中F(x)即残差映射，若网络训练效果已经到达最优，该层及之后的残差网络部分的F(x)都会向0趋近，同时该层及之后的残差网络层的输入与输出都趋近于X，网络就可以不断处于最优状态且网络参数量减少，相应的计算速度也得到提升。

3 实验与结果分析

3.1 数据集介绍

本文使用DIV2K（超分辨率重建任务公共数据集）进行训练及实验验证，同时为了增加实验结果的可信度，将Set5和Set14经典数据集扩充到本文测试集中，以及Flickr数据集中的1至100号图像。其中DIV2K数据集是900张2K分辨率的高清图像，DIV2K及Flickr数据集的图像均来源于网络征集，Set5、Set14数据集是法国贝尔实验室公开发布的。

3.2 环境配置与评价标准

本实验的操作系统是基于Linux的Ubuntu16.04-64，编程语言是Python语言、集成开发环境是PyCharm，深度学习框架是tensorflow。

本实验采用的评价指标是SSIM与PSNR。SSIM数值越趋近1，表明重建的高清输出图像的特征保留程度越好；PSNR数值越大，表明高清输出图像重建产生的噪声占比越少。

3.3 残差网络层数对比实验

本实验基于SRGAN网络进行研究与分析，如图4所示，更改生成器子网络中主干网络的残差层数，用相同的训练集DIV2K训练不同残差层数的生成对抗网络，训练后的生成对抗网络在相同的测试集上测试、重建低分辨率图像，再评估重建图像质量。为确保残差网络层数对整个训练过程的影响一致，当实验在训练生成器子网络部分时，残差层数与该组实验要求的残差层数一致，为减少其他因素的影响，本实验的其他参数在各组的参数设置上均保持一致。

图4：生成器子网络中的残差网络层数增减示意图

实验中各组在测试集中重建图像均有不同程度的细节增加，本文选取测试集中具有代表性的人脸图像和细节图进行横向对比，实验结果如图5所示，从清晰度上来说，残差层数越多，清晰度越高，从特征完整度上来说残差层数越少，特征越多。

图5：不同残差层数的重建图像与清晰原图细节对比

如图5所示，本文选取三组具有代表性的图像，分别是眼睛、服装上的字符和标识、侧脸，每组图像的低分辨率图都相同，没有进行放大缩小，在SRGAN的生成器子网络的残差网络层数分别为8、16、24、32时，进行图像重建，在不同残差网络层数的模型训练过程中，每组生成器子网络预训练和生成对抗总网络训练都设置相对应残差网络层数，其他参数各组均保持相同。从图中低分辨率图这一列的眼睛图像，横向对比重建后的图和清晰的原图，可以看到，低分辨率图像模糊到无法分辨出具体的眼部细节特征，重建后的图在不同残差层数上都能对应的增加像素使得眼部特征清晰可见，随着残差层数的增加，重建的图像更加稳定和清晰，但是例如睫毛、眼白部分的特征部分丢失，特征保留度不足。对图中服装字符标识图像组进行横向对比，可以看到，低分辨率图因其像素过少使得图中字符较难辨认，标识模糊，重建后的各组图都能较好的增加像素使得字符、标识清晰可见，容易分辨；残差网络8层时，对字符的重建不够稳定，出现字母与字母之间的像素毛刺与黏连，同样的情况在残差网络32层时也有出现，这是由于残差网络层数过多或多少都会导致网络训练过程中出现拟合程度不够的情况。侧脸图像组中，低分辨率图像中的眼睛、鼻子等重要特征部分虽模糊但能够辨认，经过重建后像素增加、细节更加清晰，该组图像在不同残差层数上的重建效果相近。

将重建图像与相对应的原图进行SSIM以及PSNR评估，如表1所示，整体上评分情况最好的是16层残差层数对应的网络。

如表1所示，本文选取了两个基准测试集和两个通用训练集中未参与训练的百张图像，在SRGAN的生成器子网络的残差网络层数分别为8、16、24、32时，进行图像重建并测评，对应的残差层数在训练和测试过程中保持一致，其他参数各组均保持相同。根据表中数据可以看到，当残差层数从8增加到32层时，测试集上的SSIM和PSNR先提升后下降，三个测试数据集的PSNR最优评价值是在残差网络16层时，全部测试数据集的SSIM最优评价值是在残差网络16层时，其中Set5数据集的PSNR的最优评价值是在残差网络32层时。这是由于残差网络层数越多，生成器子网络的特征学习率越高，重建图像的细节纹理越清晰，从表1中各行评价值均高于残差网络8层的评价值可以反映出SSIM和PSNR随着残差层数的增加会有一个小幅提升。注意到残差网络层数16层之后的组别的评价值均有下降，从图5细节对比图中也可以看出部分纹理趋于平滑而不明显，这也是残差网络深度加深对生成器子网络的特征学习率的抑制作用。通过实验最终得出，残差网络16层时细节纹理的清晰度和相对于清晰原图的特征保留程度达到最优。

表1：不同残差网络层级的测试数据集评价结果

4 结论

本文以SRGAN为基础对生成器子网络中的残差层数与低分辨率图像重建效果之间的相关性进行研究与分析。在DIV2K、Set5、Set14数据集上对不同残差层数的生成对抗网络进行训练、测试及测评的对比实验，以SSIM与PSNR为评价指标，分析不同的残差网络层数对重建图像的清晰度和特征保留程度的影响。实验结果表明，生成器子网络残差网络层数为16层时，在每个测试集上的性能都达到最优。基于SRGAN网络的低分辨率图像重建方法研究取得了较大进展，但在很多实际应用及实际操作过程中只有低分辨率图像，缺少对应的高清图作为训练样本，因此网络泛化能力、风格迁移可作为未来发展方向。