基于深度神经网络的煤矿井下低光照图像增强算法

2023-10-21 03:16王满利李佳悦张长森
煤炭科学技术 2023年9期
关键词:图像增强网络结构光照

王满利 ,张 航 ,李佳悦 ,张长森

(河南理工大学 物理与电子信息学院, 河南 焦作 454000)

0 引 言

随着煤炭科学开采理论的发展[1],智能化无人开采技术稳步推进,越来越多的数字图像、视频设备应用于矿井下,用来进行煤炭识别、危险行为识别和灾害警报等重要任务,但是由于这些设备需要依赖良好的正常光输入图像,而矿井下环境复杂,光照条件差,这些都可能会导致采集的图像对比度低、细节损失严重,严重影响了数字图像、视频设备的工作可靠性,为提高矿井下图像的质量,图像增强成为建设智慧矿山需要攻克的关键环节。目前低光照图像增强领域研究的热点主要包括基于模型的传统增强方法和基于深度机器学习的增强网络。

基于模型的方法主要集中在直方图均衡化和基于Retinex 理论的方法。直方图均衡化的方法容易引起图像过增强,影响图像的视觉质量,随着理论与技术的不断发展,研究热点逐渐转移至基于Retinex 理论的方法。Retinex 理论认为成像设备采集到的图像可分为光照分量和反射分量,反射分量由物体本身的反射性质决定的,实现图像增强就是通过去除图像的场景光照信息,消除光照分量的干扰,获取反射图像分量。GUO 等[2]基于Ritinex 理论提出LIME 算法,选取输入图像各像素通道中的最大值,对光照图初始化处理,再用结构化的先验知识对光照图进行处理,将反射图的输出作为增强结果,但容易出现过增强的现象。SHU 等[3]提出名为NPE 的算法,在增强图像对比度的同时保持了照明的自然度,但没有考虑不同场景中照明的关系。CHULWOO 等[4]提出一个用于低光照图像增强的多曝光融合框架,采用双曝光融合算法,来提供准确的对比度和照度增强,但增强结果亮度较低。LI 等[5]基于Retinex 理论,提出RRM 算法,它采用基于增广Lagrange 乘子的ADM 算法代替对数变换,考虑噪声的影响,提出Robust Retinex 模型,首次对噪声进行预测,同时估计反射图和分段平滑的照明图来进行图像增强,但增强结果不够清晰。基于去雾的算法[6]利用了光照不足的图像与有雾环境下图像之间的反向联系来达到低光照图像增强的效果。

虽然传统的增强算法在图像增强领域取得了良好的成效,但随着机器学习的快速发展,基于深度学习的网络在图像增强视觉任务中表现出更为优越的性能。其中,文献[7]在去噪自编码的基础上提出一种堆叠式去噪自编码来实现低光照图像增强和去噪功能,但只针对单通道灰度图。文献[8]提出的MBLLEN 网络,通过CNN 卷积层将图像丰富的特征提前到不同的层次,使用多个子网同时进行增强,最后将多分支输出的结果融合成最终的增强图像,但算法的运行时间过长。文献[9]提出的TBEFN 网络,估计了两个分支的一个传递函数,可以得到两个增强结果,然后采用一种简单的平均方法对两幅图像进行融合,并通过一个细化单元进一步细化结果,但网络的训练过程较为复杂。文献[10]提出的GLAD 网络,首先基于全局先验和原始输入图像,再采用卷积网络进行细节重建,得到增强结果,但增强结果的清晰度不够。Retinex-Net 网络[11]是基于Retinex 理论深度学习网络模型在低光照图像增强领域的首次尝试,通过一个分解网络将图像分解成光照图和反射图,然后对光照图单独进行增强,但增强结果容易出现颜色失真的现象。同样受Retinex 理论的启发,文献[12]提出了一种新颖的渐进式Retinex 网络框架,而后文献[13]又在此基础上对反射模块进行改进。文献[14]受到Retinex 模型和信息熵理论的启发,提出一个基于Retinex 的最大熵模型(DLN),来分解光照度和反射率,但增强后的图像容易出现细节损失。由于矿井下成像环境光照条件差,导致目前的多数增强网络不能在提升图像对比度的同时保持良好的纹理细节。

尽管有很多优越的低光照增强算法被提出,但由于矿井下环境的复杂性、图像的特殊性,以及缺少相应的数据集,未能出现一种效果显著的针对矿井下图像增强的模型。

鉴于以上分析,提出一种基于深度神经网络的矿井下低光照图像增强算法模型,该模型包含有3个子网络,分别为分解网络、光照调整网络和反射重构网络。分解网络将输入的煤矿井下图像分解为对应的光照图和反射图;光照调整网络结构利用深度可分离卷积有效减少了模型的参数,强化了网络的特征提取能力,从而对光照图进行更好的亮度调整;此外,引入MobileNet 网络结构,进一步使光照调整网络轻量化,并保持其特征提取精度,有效实现光照分量对比度调整;反射重构网络加入了残差网络结构,提升了网络特征学习性能与反射分量纹理细节恢复能力。最后,将处理过后的光照图和反射图基于Retinex 理论进行融合,来实现矿井下图像的对比度提高和细节的增强,克服了现有增强算法存在的增强图像细节丢失、边缘模糊、对比度和清晰度不足的问题,算法在提高增强图像的对比度情况下,充分保留增强图像的细节与边缘信息。

1 模型原理

1.1 总体网络结构

由于矿井下的复杂环境,导致矿井下图像容易出现光照不足的问题和退化现象,为了解决这些问题,构建出一种如图1 所示的基于深度神经网络的图像增强模型,该网络主要由2 个分支组成,分别是光照分量分支和反射分量分支,其中,光照分量分支由分解网络模块(Decomposition Module)、光照调整网络模块(Illumination Adjustment Module)构成,反射分量分支由分解网络模块和反射重构网路模块(Reflection Restoration Module)构成。输入的矿井下图像进入分解网络模块,分解为光照图和反射图,再分别通过光照调整网络模块和反射重构模块进行亮度调整和细节增强。该网络在光照调整网络模块中引入了深度可分离卷积,以便进行更好地提取特征;在反射重构网络模块使用了残差结构,更好地保存了原图的纹理细节。

图1 矿井下增强网络结构Fig.1 Underground mine enhancement network structure

Retinex 理论认为人们观测到的图像可以分解成光照分量和反射分量:

其中:S(x,y)为 原始图像;R(x,y)为反射分量,描述了观测图像的固有信息,可以被视为常量,与光照无关;L(x,y)为光照分量,描述了观测图像的不同光照程度。由于没有真实图像的光照信息和反射信息作为参考,这就导致了分解结果的不确定性,因此在分解网络模块中正确使用先验正则化因子是很重要的。假设图像没有退化现象,那么按照Retinex 理论,相同场景下所拍摄图像的反射图应相同,不同光照条件则导致了光照图有很大的差别,但它们的结构仍应具有一致性,且相对简单。所以,我们使用正常光照条件下图像作为网络中各个模块的学习对象,从成对的低光照和普通光照图像中自动学习参数。

1.2 分解模块

分解网络模块存在于2 个分支之中,用来提取光照图和提取反射图,其中用来提取反射图的结构是由经典的U-Net 结构[15]和一个1×1 的卷积层加Sigmoid 激活函数组成;用来提取光照图的结构是由一个Conv+ReLU 层[16]和一个Conv 层组成,最后加上一个Sigmoid 层[17],总体结构如图2 所示。由于使用了配对的低光照和正常光照的图像[Sl,Sh]做出参考,同一场景的不同光照图像的反射图[Rl,Rh]一致,而分解出来的[Ll,Lh]应该是分段平滑的。

此模块的损失函数设计为

其中,Sl和Sh分别为矿井下和正常光照条件下的图像;Rl、Rh、Ll和Lh分别为矿井下和正常光照下的图像分解出的反射分量和光照分量; //·//1为采取的是l1损失,重构误差函数约束了分解产生的反射分量和光照分量重构之后尽量和分解前保持一致。

分解网络训练时初始学习率大小设置为 10-6,训练轮数设置为100,批处理图像数量为48,训练时损失函数曲线如图3 所示。由图5 可知,网络训练至60 轮时,损失值趋于稳定,达到收敛状态。

图3 分解网络损失函数曲线Fig.3 Loss function graph of decomposition network

1.3 光照调整模块

光照调整网络模块网络结构采用了MobileNet 结构[18],它拥有更小的体积,更少的计算量,更高的精度,在轻量级神经网络中拥有极大的优势。其采用了深度可分离卷积(Depthwise separable convolution)[19]构成的卷积层作为特征提取网络结构,深度可分离卷积结构如图4 所示,它相较于普通卷积,大幅减少了模型的参数,并加深了特征提取网络的深度,整个MobileNet 模块结构如图5 所示,其中的depthwise conv block 就是分层卷积,之后会经过Batch normalization 层和ReLU 激活函数层,在之后添加一个1×1 的卷积进行通道处理。而光照调整模块采用MobileNet 网络进行5 个特征层的提取,然后再分别进行上采样和特征层的融合,最终通过Sigmoid 激活函数输出,总体结构如图6 所示。此模块的损失函数设计为

图4 深度可分离卷积块结构Fig.4 Deeply separable convolutional block structure

图5 MobileNet 模块结构Fig.5 MobileNet module structure

图6 光照调整模块网络结构Fig.6 Illumination adjustment module network structure

其中,Lk为Ll或Lh,Lˆ为 光照调整模块的输出,EMS为均方误差,它是预测值f(x) 与 目标值y之间差值平方和的均值,其计算公式为

1.4 反射重构模块

基于Retinex 理论,从数学的角度出发,退化的低光照图像可以表示为

反射重构网络模块利用更清晰的反射率作为混乱反射率的参考,类似于层分解子网中更深层次的反射分支。退化在反射上的分布复杂,且强烈依赖于照明分布,将光照信息和退化的反射一起引入到恢复网络中,可以解决颜色失真的问题,进而去除黑暗区域的退化,实现图像细节的重构。针对矿井下环境的特殊性,图像纹理信息较弱,容易出现对比度低、细节损失,边缘信息丢失等问题,并提升网络的特征表达能力,在网络结构中加入了残差层模块,具体结构如图7 所示,它使得网络层空置不会使得网络性能下降,然而实际上的输出特征存在一定的数值,使网络在除输出特征外还能学到新的特征,在图像重建的过程中利用底部细节,提升了对网络的细节处理能力。采用了LN(Layer Normalization)的归一化方法,使每一层的维度分布更稳定并起到了正则化的作用,使得模型不容易出现过拟合的现象。最后通过Swish 激活函数获得输出结果。反射重构网络总体结构如图8 所示。

图7 残差块结构Fig.7 Residual block structure

图8 反射重构网络结构Fig.8 Reflection reconfiguration network structure

激活函数的选取十分关键,因为它是深度学习的核心单元,即使激活函数只有少量的提升,但它也会因为大量的使用而获得极大的收益。现在深度神经网络中常用的激活函数为Sigmoid 激活函数,它可以把输入的连续实值变换为0~1 间的输出,具有单调连续的特点。但它存在一定的缺陷,在深度神经网络中梯度反向传导时,可能会出现梯度爆炸和梯度消失的现象,其中梯度爆炸发生的概率较小,而梯度消失发生的概率比较大。而且Sigmoid 函数不是关于原点中心对称的,这会导致后面一些网络层的输入也不是以0 为中心的,从而对梯度下降的运作产生影响。同时 Sigmoid 函数需要进行指数运算,计算耗时较长。考虑到上述原因,选取Swish 来取代Sigmoid 作为网络的激活函数。

Swish 激活函数为一种复合的激活函数,它的表达式为

其中, σ(x)为Sigmoid 激活函数,因为Sigmoid 函数的饱和性,会导致梯度消失的发生,当x非常大时,就有f(x)趋 近于x,但当x趋于- ∞ 时 ,则f(x)趋于0,从而解决了梯度消失的问题。同时,Swish函数的有助于防止慢速训练期间,梯度逐渐趋近于0导致饱和,它的优势在于无上界有下界、非单调且平滑的特性,在模型的优化和泛化中起到重要作用,并在深层模型上的效果表现较好。

此模块的损失函数设计为

其中,R︿为恢复后的重构图;SSIM[21]为低光照图像增强后与对应的正常光图像之间的SSIM 值。

2 数值试验

由于矿井下采集的低光照图像没有对应正常光照图像,无法直接获得低光照-正常光照成对数据集,经过大量试验发现,利用多种杰出的低光照图像增强算法增强矿井低光照图像,根据NIQE 评价指标,选取NIQE 指标最优图像与矿井原低光照图像构成训练数据集对,可近似获得矿井低光图像成对数据集(Mine-data),作为网络的训练集与验证集。试验中选用的杰出算法包括:LIME 、RRM、MBLLEN、Retinex-Net[11]、KinD[12]、DLN 与KIND_plus,经过测试,NIQE 指标最佳的图像主要分布于3 种算法,分别是KIND、DLN、KIND_plus,占比大致分别为23%、22%、11%。制作的Mine 数据集由大小为600×400 的近似正常光照图像和低光照图像对组成,数据集包含240 组图像对。

试验中网络的初始学习率设置为1 0-6,训练轮数设置为3 000,批量大小设置为16。试验采用Python编写算法代码,使用Adam 作为优化器,基于Tensorflow 框架实现,在NVIDIA GeForce RTX 3090 GPU下进行训练。

为了验证算法的有效性与实用性,进行了矿井下图像增强效果的对比;为了验证制作的煤矿井下图像数据集的有效性,分别进行了不同数据集测试图像的主观视觉效果对比与客观指标对比;为了验证算法的适应性与可行性,进行了各算法在不同数据集中增强图像的指标对比;为了验证每部分网络结构的必要性,进行了相关的消融试验;为了验证算法的实时性,进行了各算法耗时性的对比。

2.1 矿井下图像的增强效果对比

通过将此网络的增强结果和目前最先进的低光照增强算法进行比较来说明该网络的有效性和实用性,比较算法包括:BIMEF、GLAD、MBLLEN、RRM、DLN、 Retinex-Net、 LIME 和KinD。 采 用PSNR、SSIM、NIQE 和LOE 作为图像质量评价指标。其中峰值信噪比PSNR 和结构相似度SSIM 这两个指标,是广泛使用的2 种图像质量指标,都需要有对应的正常图像作为参考,值都是越大越好;自然图像质量评估器NIQE,用于评估真实图像恢复,不需要其他图像作为参考,值越小越好;亮度顺序误差LOE,表示增强后图像自然度的亮度顺序误差,LOE 值越小,说明该图像亮度顺序保持得越好,也就是说该图像的质量越高。

对矿井下低照度图像进行测试,在由矿井下低照度图像组成的MI 数据集中随机抽取T1、T2、T3图像增强效果如图9 所示。

图9 矿井下测试图像增强效果Fig.9 Image enhancement effect of underground test in mine

图9a、图9b、图9c 中的第1 行从左到右依次对应输入的矿井下低照度图像,BIMEF,GLAD,MBLLEN,RRM 增强图像;第2 行从左到右依次对应DLN、LIME、Retinex-Net、KinD 与本文算法对应的增强图像。

视觉分析图9a 可以看出,增强T1 时,传统的增强算法中,LIME 相较于BIMEF、RRM 视觉效果表现较好,但它增强过后灯光处的明亮区域被过度增强,BIMEF 增强后的图像的饱和度和对比度过强,导致图像整体偏暗,地板的黑暗处并没有得到很好的增强。RRM 对低光照图像的亮度改善有所欠缺,墙上部分细节模糊。而深度学习算法中,Retinex-Net增强后,整张图像出现了较为严重的颜色失真;GLAD 增强后的图像中地板和墙壁周围仍存在噪声,部分区域的颜色和边缘也出现了一定的失真现象;MBLLEN 增强过后的图像对比度过强,亮度增强的效果不明显,尤其是在图像中的角落等黑暗处;KinD的结果在边缘存在伪影,会影响了增强效果的视觉美感;DLN 对图像色调的恢复程度较高,但对图像色彩的恢复程度较低。算法增强后的图像较为清晰,并且增强图的整体色调和细节恢复程度较为理想。

视觉分析图9b 知,增强T2 时,LIME 算法在视觉上的增强效果仍然是最好的,但它增强过后的强光区域仍会出现过度增强的现象,而其他的传统算法BIMEF、RRM 增强后的图像效果相近,图像整体偏暗,增强效果不明显。而基于深度学习的Retinex-Net 网络对图像的色彩恢复程度明显比较弱,一定程度上引起了图像的颜色出现不均与失真;从图中放大区域看出,GLAD 增强后的图像仍存在噪声,对比度提升不明显;MBLLEN 增强过后的图像仍然出现了亮度增强的效果不明显的情况;由局部放大图可知,KinD 增强后结果在图9b 的通道右侧出现伪影,对视觉效果产生影响;DLN 增强后的图像存在色差,饱和度提升不明显。由图8b 的局部放大图可看出,本文算法增强后的图像纹理细节更加丰富,增强效果较为理想。

视觉分析图9c 可以看出,传统的增强算法中,LIME 在图9c 的明亮区域出现了明显的过增强现象,对视觉效果产生一定的影响,但增强效果比BIMEF与RRM 增强后的图像的效果好,BIMEF 和RRM 增强后的图像整体偏暗。在深度学习算法中,由图9c中局部放大图可知,Retinex-Net 对图像的色彩恢复能力较差,容易出现颜色失真的现象;GLAD 增强后的图像噪声含量大,在图像边缘细节处较为模糊;MBLLEN 增强过后的图像对比度过强,亮度增强的效果不明显;由图9c 中局部放大图可知,KinD 增强后的结果在地面上有仍会出现伪影,这同样对增强效果的视觉美感产生了影响;DLN 增强后的图像引起了较大的色差,在强光区域出现了过度增强的现象。算法增强后的图像对比度、清晰度与纹理细节相较KinD 都有不同程度的提高,整体增强效果较为理想。

考察煤矿井下图像[22]可以发现,图像的质量与NIQE 指标密切相关,NIQE 指标越低的图像质量越好,故这里从各算法的增强结果中选取NIQE 指标最佳的图像作为正常光参考图像,组成煤矿井下图像数据集,作为训练集与测试集。为验证其有效性,从该数据集中随机抽取了T4、T5 图像进行测试,并将它们与其他8 种算法的结果进行对比,具体效果如图10 所示。

从图10 可以看出各算法在矿井下测试图像增强中出现的问题,在煤矿数据集(Mine-data)中同样存在,由于Mine-data 选取了各增强算法中NIQE 指标最佳的图像,作为对应的正常光照下的图像进行参考,所以可以计算出它们的PSNR 和SSIM 值,从图11 能够直观地看出,提出的算法在PSNR 值的对比中列居首位,在SSIM 值的对比中列居第2,而排在前位的还有GLAD、KIND、DLN、MBLLEN,而相对来说结果不太理想的算法是BIMEF、RRM、LIME和Retinex-Net 算法。

图11 Mine 数据集测试图像增强结果的峰值信噪比和SSIM 值Fig.11 PSNR and SSIM values of the Mine-data test image enhancement results

为了防止抽取图像的随机性和偶然性,这里又将Mine-data 数据集中低照度图像作为测试图像,分别计算出它们的PSNR、SSIM 的值,并与其他8种算法做出比较,通过不同图像质量指标数据,来对这些算法的增强性能进行比较,具体数据如见表1。

表1 矿井下图像质量指标数据比较Table 1 Comparison of underground image quality index data

分析表1 中数据可知,提出的算法在PSNR 和NIQE 两个指标中均位于9 种算法的首位,KinD 算法均排行第2,而在SSIM 指标上仅以微弱的差距落后于KinD 算法,在LOE 指标上,仅低于MBLLEN算法,而优于KinD 算法。综合分析,提出的算法无论是从视觉效果上还是指标分析上都表现出很大的优势。

2.2 不同数据集图像增强对比

为验证算法的适应性与可行性,将LOL 数据集作为测试图像,分别计算出它们的PSNR、SSIM、NIQE 和LOE 的值,并与其他8 种算法做出比较,通过4 个图像质量指标数据分析这些算法的增强性能[23],具体数据见表2。

表2 LOL 数据集图像质量指标比较Table 2 Comparison of image quality indicators in LOL dataset

分析表2 中数据可知,提出的算法在SSIM 和NIQE 两个指标中均位于9 种算法的首位,KinD 算法均排行第2,而在PSNR 指标上仅以微弱的差距落后于KinD 算法,在LOE 指标上,仅低于MBLLEN算法,而远远超过KinD 算法。总体看来,算法在不同客观指标上的综合表现较好。

对于LIME、NPE 数据集和MI 数据集,由于没有可用的参考图像。因此,仅采用NIQE 来评估各个算法的之间的性能差异,试验结果见表3。

表3 各数据集图像质量指标数据比较Table 3 Comparison of image quality index data among different datasets

分析表3 数据可知,在NIQE 指标的对比中,本文所提出的算法位列首位,GLAD 算法排名第2,对于NPE 数据集,排名仅次于GLAD 算法,对于MI 数据集,排名第1 的是GLAD 算法,DLN 排名第2,本文提出的算法排名第3。

综上分析,提出的算法在不同数据集上表现良好,从而证实了此算法的适应性、可行性与优越性。

2.3 消融试验

文中的网络结构中加入了Mobile-Net 与残差块等结构,为体现每部分网络结构对最终生成增强图像的影响,进行了相关的消融试验,来验证每部分网络结构的必要性和有效性,所选测试质量指标的图片取自于矿井下低光照图像数据集(Mine-data)中的部分图像,消融试验每种情况下的数值质量指标对比结果见表4。

表4 消融试验指标对比Table 4 Comparison of alation experiments

从表4 中的数据可以直观看出,缺少网络的任一部分都会对最终增强图像的指标质量产生不同程度的影响,这也证明了每一部分网络结构的必要性和有效性。

2.4 算法耗时性分析

为比较9 种增强算法的平均耗时,分别使用9种算法增强50 幅600×400 的测试图像,统计其增强单幅图像的平均耗时,具体数据比较结果见表5。

表5 各算法耗时性比较Table 5 Time consuming comparison of all algorithms

由表5 数据可知,本文算法平均计算速度0.237 s,略低于DLN、Retinex-Net、GLAD,位居第四,算法运行速度较好。

3 结 论

1)该网络为双分支结构,分别与Retinex 理论的光照分量和反射分量相对应,在光照分量网络分支和反射分量网络分支分别实施光照分量调整和反射分量重构。

2)光照调整网络利用深度可分离卷积强化轮廓特征提取能力;反射重构网络利用残差网络结构强化纹理细节信息提取,提升重构反射分量纹理细节清晰度。

3)试验表明,文中针对矿井图像纹理细节弱特征,构建的深度神经网络模型,相比目前公认8 种图强增强方法,更加适合矿井下低光照图像的增强,本文模型增强图像在细节信息增强、对比度提高方面具有一定的优势。

猜你喜欢
图像增强网络结构光照
节能环保 光照万家(公益宣传)
图像增强技术在超跨声叶栅纹影试验中的应用
节能环保光照万家(公益宣传)
水下视觉SLAM图像增强研究
虚拟内窥镜图像增强膝关节镜手术导航系统
春光照瑶乡
基于图像增强的无人机侦察图像去雾方法
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析