基于增强网格网络的井下尘雾图像清晰化算法

2024-12-31 00:00:00谷亚楠李晴刘晨晨张富凯

工矿自动化 2024年10期

关键词：井下尘雾图像；图像清晰化；基于网格网络；深度学习；多尺度特征提取；Inception 架构；密集残差连接

中图分类号：TD67 文献标志码：A

0引言

随着井下矿山数字化转型和智能化变革的持续推进，智能视频监控系统在煤矿生产作业过程中起着越来越重要的作用[1]。但煤矿井下环境复杂，照明条件不足，空气中弥漫大量粉尘颗粒，常用的喷雾降尘方式会产生大量水雾。在粉尘、水雾和光线不足等环境因素影响下，视频监控系统获取到的图像存在照度低、细节纹理丢失等情况[2]，不利于煤矿井下可视化和智能分析，因此，研究井下图像清晰化技术具有一定现实意义。

目前图像清晰化算法主要分为3 类，即基于图像增强的清晰化算法、基于物理模型的清晰化算法和基于卷积神经网络（Convolutional Neural Networks，CNN）的清晰化算法[3]。① 基于图像增强的清晰化算法主要包括基于直方图分布的图像增强算法、小波变换法和基于Retinex 理论的图像增强算法[4-7]，这类算法往往不考虑图像质量受损因素，存在图像失真和细节损失现象。② 基于物理模型的清晰化算法通过分析尘雾图像形成的物理机理，结合图像退化的先验知识或假设来反推出无雾图像[8-11]。其中HeKaiming 等[12]提出的基于暗通道先验（Dark ChannelPriori，DCP）原理的清晰化算法最经典。但基于物理模型的图像清晰化算法在处理井下尘雾图像时普遍存在图像较暗、色彩不自然等问题。③ 基于CNN 的清晰化算法通过深度学习自动捕获尘雾图像与对应清晰图像之间的复杂映射关系，并利用获取到的知识实现端到端的图像复原[13-16]。这类算法的非物理模型依赖特性使得其在适应性、鲁棒性和图像生成质量上具有显著优势，但往往需要大量样本数据用于学习图像特征，而目前井下高质量图像获取难度较高。

煤矿井下环境复杂且数据集较少，现有尘雾图像清晰化算法在处理井下尘雾图像时大多存在细节丢失和过度增强等问题[17]。本文提出一种基于增强网格网络的井下尘雾图像清晰化算法。网格结构可以在节点之间建立多条路径，使得特征信息在网络中的传递更加高效，有利于尘雾图像处理中的细节及整体特征提取和整合。在网格网络的基础上，采用注意力机制和2 种特征提取模块进行增强，并对损失函数进行改进，提升了网络的精确性和图像整体视觉质量。

1算法原理

1.1增强网格网络总体结构

井下尘雾图像清晰化算法由图像前处理模块、主干模块和输出模块组成，如图1 所示。在用于语义分割的GridNet 网络[18]启发下，设计了多尺度增强网格网络，通过提取图像不同尺度下的特征并进行有效融合，实现网络对深层信息和浅层信息的兼顾。网格网络的整体架构呈现网格状交错布局，横向由若干个特征提取模块组成，纵向由下采样和上采样组成。

1）前处理模块由1 个3×3卷积层（Conv 3×3）和1个特征提取模块IRDB 组成，用于从原始尘雾图像中生成16 张特征图，作为主干网络的输入。IRDB由Inception 模块和密集残差连接模块（ResidualDense Block，RDB）组成。

2）主干模块为3 行6 列的网格网络，每行对应1 个不同的尺度，尺度间的变换通过上/下采样来实现。采用5 个IRDB 进行第1 个尺度的特征提取，为降低网络复杂度，第2、3 尺度均使用5 个RDB 进行特征提取，使网络可更高效地提取图像原始特征信息，也更关注细节特征信息。为更好地捕捉图像中的细节信息，在网格网络中引入通道注意力机制。

3）主干模块输出的清晰化图像易包含伪影，因此引入输出模块。输出模块与前处理模块的结构对称，包含卷积层和特征提取模块。

1.2通道注意力机制

在神经网络中，注意力机制是一种通过自主学习权重系数来强调重要区域的机制。对于输入是二维图像的神经网络来说，特征图不同通道对关键信息的贡献不同，因此对每个通道的信息赋予一个权重，权重越高，说明通道信息越重要。压缩和激励（Squeeze and Excitation，SE）模块[19]可在不改变输入特征图大小的情况下对输入特征图进行通道特征加强，因此本文在网格网络节点间加入SE 模块来加强通道特征。

1.3特征提取模块

RDB是深度学习中常用的模块，由密集连接层、局部特征融合策略和局部残差学习机制共同构建成一个连续存储体系，有效保留了局部特征。为在网络资源有限的情况下增加网络的深度和宽度，有效提取图像细节特征，本文提出了IRDB，其结构如图3所示。

将经Inception 模块卷积聚合的特征作为RDB的输入，再由RDB 对这些特征进行信息提取和传递。IRDB 将Inception 与RDB 的优势进行互补，可保持Inception 模块的多尺度特征提取能力，并在RDB 中使用提取的特征进一步学习残差信息和深层特征，以提供多尺度的特征表示，有助于恢复清晰的图像细节。通过这种结合，可增强网络的表征能力、泛化能力及其对不同尺度尘雾的处理能力。

Inception 架构可在资源有限的前提下增加网络的深度和宽度。Inception 模块由1×1，3×3，5×5 卷积层及1 个3×3 最大池化层构成，如图4 所示。使用1×1 卷积进行升降维，在相同尺寸的模块中叠加更多卷积，能提取更丰富的特征，同时大大减少参数量；在多个尺寸上同时进行卷积再聚合，能提取不同尺度的特征，且输出的特征非均匀分布，而是相关性强的特征聚集，不相关的非关键特征弱化，从而使输出的特征冗余信息较少，收敛速度更快。

1.4损失函数

采用平滑损失L₁和内容损失L₂的结合作为损失函数。平滑损失L₁是一种常用的损失函数，其提供了清晰化处理后图像和真实清晰图像之间差异的定量测量，相较于均方差损失函数，平滑损失对异常值不太敏感，从而可防止潜在的梯度爆炸，使网络模型更加健壮。内容损失函数的构建是基于经过预训练的VGG−19网络，该网络通过输入尘雾图像和清晰图像来衡量二者之间的内容损失，同时学习图像在内容和感知层面的相似性。

本文采用的损失函数为

L=L₁ + L₂（2）

式中为超参数，取0.04。

2实验分析

2.1数据集构建

基于深度学习的图像清晰化方法往往需要依赖合成的成对数据进行训练，而现阶段煤矿井下尘雾图像缺乏统一的标准化数据集，大多图像清晰化任务使用大型合成数据集RESIDE，该数据集中的合成图像虽然模糊程度不同，但大多较为均匀，而实际井下尘雾并不处于完全均匀分布状态。为弥补合成数据的不足，本文部分实验数据从多个矿井多个时间段的监控视频中截取。截取尘雾弥漫不同阶段的图像，将尘雾发生前的图像作为清晰图像，与尘雾图像构成训练数据对，近似获得自建井下图像成对数据集。自建数据集包含720 对训练图像及180 对验证和测试图像，共900对，图像分辨率为250×250。该数据集除含有不同浓度的尘雾图像外，还包含尘雾分布均匀程度不同的图像，以及有光源影响与无光源影响图像等多种井下复杂情况实拍图像，如图5所示。

实验采用分步训练方式，先使用合成数据集RESIDE 中的8 760 张图像对网络进行初步训练，使得网络模型能够学习到图像清晰化的一般性特征；再使用1 440 张井下图像对网络进行针对性训练，进一步细化网络模型的学习。验证集和测试集均由1 020 张RESIDE 中图像和180 张井下图像组成。

实验运行环境为Ubuntu20.04 系统，Intel Xeon（R）Silver 4214R CPU @ 2.40 GHz x48 处理器，显卡为NVIDIA Corporation TU102GL [Quadro RTX 8000]，内存为128 GiB， CUDA 版本为11.4.2， Pytorch1.9.0，Python3.8.1。网络模型训练采用Adam 优化算法，可根据损失函数动态调整每个参数梯度的一阶矩估计和二阶矩估计，实现参数更新。设置学习率α=0.001，每20 轮学习率降低一半，训练轮次为100，Batch size 为32。

2.2消融实验

在图像处理方面，自然图像质量评价指标（Naturalness Image Quality Evaluator，NIQE）、结构相似度指数（Structural Similarity Index，SSIM）和峰值信噪比（Peak Signal to Noise Ratio， PSNR）被广泛用于评价图像处理质量。NIQE 是一种无参考图像质量评价指标，旨在评估图像的自然度，其值越小，对应图像自然度越高。SSIM 是一种用于衡量图像质量的指标，其取值范围为−1～1，值越大表示图像质量越好。PSNR 是一种有参考的图像客观评价指标，通常其数值越高表示处理后的图像失真越小，图像质量越好。

为验证增强网格网络各模块的有效性，在井下测试数据集上进行消融实验，结果见表1，w/o 表示某个条件未被考虑，如w/o IRDB 表示未采用IRDB。由表1 可知，单独保留IRDB 或SE 模块，网络性能都有一定提升，同时保留IRDB和SE模块的情况下，网络性能得到进一步提升。完整网络在井下测试集上的PSNR、SSIM均高于其他网络模型， NIQE 最小，表明其清晰化效果最好。

为了分析IRDB 数量对图像清晰化质量的影响，改变网格网络模型的行数r 和列数c，使IRDB 数量发生相应变化。不同网络配置下的实验结果见表2。可看出在IRDB数量为5时，该模型的PSNR、SSIM 和NIQE指标最好，其清晰化图像细节信息更加丰富，效果也最好。

2.3图像清晰化效果验证

为评价基于增强网格网络的井下图像清晰化算法的有效性与适用性，选取井下巷道、采掘工作面等易出现尘雾的5 组场景的实拍图像进行实验。场景1，3，4，5均受到不同程度的非均匀尘雾影响，且亮度整体偏暗；场景2 中存在均匀尘雾，图像整体细节不清晰。使用6 种有代表性的图像清晰化算法与本文算法进行对比实验，包括DCP 算法[10]、一体化清晰化算法AOD−Net[20]、基于CNN的清晰化算法DehazeNet[21]、可训练CNN 清晰化算法GridDehaze Net[22]、由编码器和解码器组成的可训练神经网络算法GFN[23]、基于多尺度CNN 的清晰化算法MSCNN[24]。其中DCP是一种基于先验的算法，其他算法基于深度学习，均采用与本文相同的训练数据进行训练。

场景1 实验对比结果如图6所示。场景1图像经过本文算法、DCP算法和Dehaze Net 算法处理后，基本能够消除大面积尘雾的影响。经Dehaze Net算法处理后，图像整体亮度偏暗，墙壁等较暗区域细节丢失。与DCP算法相比，本文算法处理后图像有部分水雾残留，其他4 种算法清晰化效果不明显，AOD−Net 算法处理后水雾边缘颜色出现失真现象。

场景2 实验对比结果如图7所示。原始场景中图像尘雾分布均匀，经过本文算法、DCP 算法与GFN 算法处理后，清晰化效果都比较明显，但是DCP 算法在光源处出现颜色失真及整体颜色偏暗等问题。相较于GFN 算法，本文算法更好地保留了图像的细节信息，光源处颜色失真较少，整体更清晰、自然。其他4种算法仍存在模糊和颜色失真等问题，清晰化效果不理想。

场景3 实验对比结果如图8所示。在光照较暗的场景3 中，本文算法和DCP 算法能够较好地实现尘雾图像清晰化，细节信息更丰富，清晰化处理后图像在视觉上更加接近真实图像。Dehaze Net 算法能够去除较大面积尘雾，但存在细节丢失和图像较暗问题。其他4 种算法对较暗图像的处理效果较差，存在尘雾去除不彻底和大量细节丢失问题。

场景4 实验对比结果如图9所示。场景4图像经本文算法处理后墙壁细节得到更多保留，边缘对比更强烈，也更容易分辨，观感强于DCP算法。DCP算法易出现过度清晰化的现象，原因是井下获取的图像色彩和对比度相对较单一，并不满足DCP原理。Dehaze Net算法、GridDehaze Net 算法和GFN 算法去除了大部分水雾，但仍存在较暗区域细节丢失及颜色失真等问题。MSCNN算法对井下尘雾图像的清晰化效果不明显，只能去除少量水雾或尘雾。AOD−Net 算法未实现井下图像尘雾的有效去除，且图像整体颜色失真。

场景5 实验对比结果如图10 所示。本文算法和DCP 算法有效解决了图像的泛白问题，同时在一定程度上成功抑制了伪影和光晕，实现了图像清晰度和对比度的提升。本文算法色彩更加真实自然，在视觉上更接近于无雾图像。GFN 算法只能去除少量处于尘雾边缘的较薄尘雾，尘雾中心区域未能有效去除。Dehaze Net 和GridDehaze Net 算法的清晰化效果都比较明显，且图像整体对比度有所提高，图像细节得到保留。AOD−Net 算法和MSCNN 算法对该场景下尘雾图像的清晰化效果较差。

2.4客观指标评价结果

为客观评价尘雾图像清晰化效果，对相关图像清晰化算法进行PSNR、SSIM 和NIQE 的计算和比较。在合成数据集上的定量评价指标见表3。由表3可知，与其他算法相比，本文算法在PSNR 和SSIM指标上均有明显提升。PSNR 提升说明本文算法处理后的图像失真程度降低、细节信息更多，SSIM 提升说明了本文算法处理后的图像更加明亮、图像结构保持得更好。本文算法处理后图像的NIQE 最小，表明图像更加自然。

不同算法在井下数据集上的定量评价指标见表4。可看出本文算法处理后的图像在PSNR、SSIM 和NIQE 这3 个指标上都有一定改善。DCP 算法处理效果仅次于本文算法，能有效减少图像失真。GridDehazeNet、GFN 和AOD−Net 算法在尘雾图像清晰化方面有一定效果，DehazeNet 和MSCNN 算法对井下尘雾图像的清晰化效果不理想。

由表3和表4的数据指标可看出，本文算法对井下数据集的适应性更强，清晰化效果比在合成数据集上更好，验证了自建数据集的有效性。

在训练集和测试集下7 种清晰化算法对单幅图像的处理时间如图11所示。可看出本文算法在训练集和测试集上的图像处理速度处于中等水平，尽管单幅图像处理速度未能达到最快，但保持在合理范围内。

3结论

1）通过特征提取模块IRDB 提取输入图像不同尺度下的特征图，将其融合输入到网格网络中进行进一步特征提取与融合。IRDB 将经过Inception 模块卷积聚合的特征作为RDB的输入，再由RDB对这些特征进行信息提取和传递，增强了网络的表征能力、泛化能力及其对不同尺度尘雾的处理能力。

2）在网格网络设计中，通过上采样和下采样实现特征图不同尺度变换，并引入通道注意力机制，使用SE 模块对不同尺度下的不同通道动态调整特征权重，网络更加灵活，对井下数据集的适应性更强。

3）实验结果表明：IRDB 数量为5 时，网络模型的PSNR、SSIM和NIQE 指标最好；从视觉效果上看，用本文算法清晰化处理后的图像细节信息更加丰富，色彩更加自然，具有良好的清晰度和对比度；在井下数据集上用本文算法处理后的图像PSNR、SSIM 和NIQE 分别为23.69，0.8401，8.95，整体优于DCP，AOD−Net 等同类算法；本文算法在训练集和测试集上的图像处理速度处于中等水平，综合考虑，本文算法用于井下尘雾图像清晰化处理性能最优。