基于GAN 的井下图像超分辨率重构

2021-02-24 13:26王思懋陈昱吉

信息记录材料 2021年1期

王思懋，陈昱吉

（1 中国矿业大学( 北京) 机电与信息工程学院北京 100083）

（2 北京外国语大学国际关系学院北京 100089）

1 引言

煤矿资源是我国重要的基础能源，富煤、贫油、少气是我国能源资源的主要特点。尽管中国煤炭资源种类丰富，但优质焦煤较为稀缺，人均占有量低。矿井内地质环境复杂，开采条件恶劣，开采过程仍需人工干预，空气中大量粉尘不仅对人的身体健康产生严重危害，同时还会模糊操作人员的视野，存在安全隐患。利用井下视频监控，可以实时监测井下状况，解放人力。

井下工作面在综采和综掘过程产生大量粉尘，导致图像模糊不清，操作人员无法对细节部分进行准确判断，这不仅是矿井监控的难题，也是图像处理的困难。传统超分辨率重建技术是将图像进行线性插值或样条函数插值，只能简单缩放图像，未对细节部分做任何优化。由此衍生出长椭球波函数法、线性外推法、叠加正弦模板法等；到21 世纪，Yang 提出使用图形patch 的稀疏字典表示实现超分辨率。随着深度学习的发展，神经网络得到广泛运用，将采集到的低分辨率图像输入所设计的神经网络中便能生成高分辨率图像，不再需要人为收集先验知识或构造复杂的数学转换模型，只需利用训练好的网络模型，就能实现端到端的超分辨率重构[1]。

2014 年，受到神经网络的启发，香港中文大学Dong等首次将卷积神经网络应用于单张图像超分辨率重建上，发表SRCNN，开启超分辨率领域的新篇章。随后研究人员发现适当增加网络深度，进行多尺度特征融合能够得到更好的实验效果[2]。在上述框架下，基于生成对抗概念，衍生出新的网络结构—GAN，通过生成器和判别器相互博弈，达到平衡状态，生成的图像不但在客观参数指标上更优，而且更符合人眼视觉感受，处理速度也更快[3]。

2 GAN网络结构

GAN 网络由生成网络和判别网络两部分组成，生成网络将输入的低分辨率图像生成高分辨率图像，判别网络分辨高分辨率图像的真伪性，通过训练让整个网络处于平衡状态，使判别器无法判定图像是生成的还是真实的[4]。整个网络结构图见图1 所示。

图1 GAN 网络结构图

2.1 ResNet

随着网络层数的增加，训练效果也会相应提高，但深度到了一定程度，随之也会引入梯度消失或爆炸问题，为了解决这个难题，引入恒等映射，通过拟合残差，从而突出细微的变化[5]。残差网络结构图见图2 所示。

图2 ResNet 网络

2.2 Generator

生成器是将输入的低分辨率图像转换为高分辨率图像，本文设计的生成网络是以ResNet 为基础，选取大小为3*3 的卷积核，步长为1，经过20 个残差块提取特征信息后输入至UpSampling 层中，将图像放大至指定尺寸，生成网络结构见图3 所示。

图3 生成网络

2.3 Discriminator

判别器是将高分辨率图像经过网络模型提取特征信息，判断该幅图像是否真实，若为真，则输出“1”，否则输出“0”。本文设计的判别网络采用大小为4*4 的卷积核，步长为2，网络深度为10，再将提取到的高维特征信息输入至全连接层进行判别，输出一维标量，判别网络结构见图4 所示。

图4 判别网络

3 井下图像高分辨率重构

3.1 训练样本

本次实验使用的是DIV2K 数据集和对井下摄像机拍视频进行取帧得到的2000 张544*960 大小的样本图像，每张照片分为低分辨率图像和放大4 倍后的2K 高清图，其中2400张照片作为训练，300张作为验证，300张作为测试。

3.2 损失函数

使用的损失函数如下所示：

此损失函数包含两部分minG 和maxD，maxD 部分保持生成器G 不变，使判别器D 尽可能分辨出图像的真伪，其中x 是服从真实分布，而z 是服从随机分布；minG 部分保持判别器D 不变，使得生成的高分辨率图像被尽可能认为是真实的，最终生成器和判别器达到博弈平衡，判别器无法准确分辨出输入图像。

3.3 评价指标

采用峰值信噪比PSNR 作为客观评价标准，PSNR 公式如下所示[6]：

其中MSE 为原高清图像与生成高清图像之间的均方误差，公式如下：

3.4 井下图像超分辨率重构效果

将训练样本输入网络，损失函数计算预测值与真实值之间的误差，再通过随机梯度下降法（SGD）反向传播更新网络权重，直至误差趋于稳定趋势，最终效果图见下图5、图6 所示。

图5 矿下低分辨率实景

图6 生成高分辨率图像

清晰度细节对比：

图7 低分辨图像细节

图8 生成图像细节

图7 为低分辨图像的细节部分，图8 为生成高分辨率图像的细节部分。

4 结语

针对井下拍摄低分辨率图像缩放后细节模糊的问题，利用基于GAN 的超分辨率重建技术，在生成网络中引入残差块，加深网络层数，提取单帧图像细节，然后经过上采样层将图像进行放大；在判别网络中设计多层卷积神经网络层，提取图像特征信息，最后在全连接层输出对图像真伪的判断。利用训练完毕的模型，便能端到端将低分辨率图像生成高分辨率图像，利用此网络生成的高分辨率图像在细节部分更清晰，更符合人眼视觉感官，能减少因操作者判断失误而造成损失的风险。