基于残差神经网络的矿井图像重构方法

2019-12-16 12:42徐志超
煤炭学报 2019年11期
关键词:压缩比矿井重构

张 帆,徐志超

(1.中国矿业大学(北京)机电与信息工程学院,北京 100083; 2.中国矿业大学(北京)智慧矿山与机器人研究院,北京 100083)

实现井下工作面少人乃至无人作业是安全开采和智慧矿山建设最重要的目标之一,研究矿井智能视频监控系统优化方法及其关键技术,对促进矿井智能安全开采技术发展及智慧矿山建设具有十分重要的意义[1-3]。传统的视频监控系统中图像压缩方法采用经典的Nyquist采样定理来解决视频图像的信号采集、编码和解码问题。然而,矿井视频图像的数据量大,采用传统的压缩方法不仅浪费大量的采样资源,而且在井下通信环境带宽资源有限条件下使得系统开销较大。采用常规的图像编解码方法难以解决视频图像压缩处理时出现的图像模糊、视频传输延迟等问题,直接影响矿井视频图像的实时传输和智能监控性能[4]。

对上述问题,现有的解决方法或把矿井图像的重构看成凸优化问题,或通过稀疏逼近间接解决图像的重构问题,但上述方法均涉及重构问题的迭代求解,其重构算法的运算时间较长,依然给矿井视频监控系统应用带来实时性问题。

近年流行的基于数据驱动的深度学习方法,为解决图像压缩与重构的问题提供了新的技术思路。卷积神经网络在分类识别、目标检测和图像重构等应用研究中引起广泛关注[5-8]。在深度学习的框架中,编码器、解码器的参数均通过大量数据学习得出。其优势在于一旦模型训练完成,其重构用时短,且能得到优于传统压缩感知重构方法所获得的图像复原质量。MOUSAVI等提出的DeepInverse[5]尝试了使用三层卷积层代替传统的迭代方法重构图像,其重构时间可达到低于传统方法的百分之一的水平,在实时性方面表现出色。KULKARNI等提出的ReconNet[8]使用六层卷积层对图像进行分块压缩感知,图像的重构质量较DeepInverse有明显提升,表明适当提升网络层数对提升重构质量有帮助。但ReconNet的压缩感知分块处理意味着每个图像块的重构结果拼接后,分块之间会出现假轮廓,即使进一步进行去噪处理也不能完全消除假轮廓对图像质量的负面影响。虽然现有的深度学习方法极大地推进了图像压缩与重构的发展,但是通过现有方法得到的重构图像中,图像的保真度仍有欠缺,特别是物体与物体边界较为模糊。近年来流行的基于深度学习的图像超分辨率成像方法,给矿井图像的压缩与重构方法提供了理论借鉴。

笔者根据图像超分辨率成像方法,基于深度学习实现图像的压缩与重构,通过建立一种新的网络结构,据此对矿井原始图像进行采样;在此基础上提出采用离散小波结构相似度(Discrete Wavelet Similarity,DW-SSIM)计算损失函数的方法,通过将DW-SSIM损失与均方误差损失相融合,利用融合后的损失函数训练网络,从而改善重构信号的保真度、解决图像边缘模糊等问题。实验验证了本文方法的有效性。

1 相关理论及问题描述

1.1 压缩感知与信号重构

根据Donoho压缩感知理论[8],信号的采样模型可表示为

y=Φx

(1)

式中,x∈N为待压缩采样的原始稀疏信号;测量矩阵Φ∈M×N对信号进行降采样;y是经过压缩采样得到的信号。

当x可以被稀疏表示且Φ满足约束等距性质(RIP)时[9-12],信号x的重构可以看成是对信号稀疏逼近的凸优化问题:

(2)

式中,λ为拉格朗日乘子;Ψs=x,s为x在稀疏基Ψ的稀疏表示;当解得s=s*时,可以进一步使用Ψs=x求出对原始信号的恢复。由于对此问题的求解,无论是使用贪婪方法的匹配追踪[12-14]还是基于凸优化的基追踪[12-13,15],其重构过程都涉及多次迭代,因而图像重构耗时大大增加,无法应用于实时性要求高的场合。因此需要寻求一种能快速进行图像重构的方法。

1.2 图像重构与网络训练

如果把图像的重构看作回归问题,则可利用卷积神经网络来重构图像,即通过网络建立输入与输出之间的映射关系f,使得

(3)

(4)

式中,L为由损失函数计算所得的误差;w为网络中各个神经元的权重;t为当前的训练周期;α为学习率(0<α<1),是调节权重更新大小的常数。

2 基于卷积神经网络的重构算法

2.1 矿井图像重构模型

考虑到f1和f2的关联,可以将其置于同一个网络中,通过“端到端”的训练方式得到f1和f2,使得网络可以扩展成既能学习编码、也能够学习重构图像的形式:

(5)

受残差网络ResNet[18]和超分辨率图像成像方法[19]的启发,本文提出一种新的矿井图像重构模型,如图1所示。该模型由编码网络和重构网络两部分组成。

图1 矿井图像压缩重构模型

(1)压缩编码:压缩编码网络接受100像素×100像素的灰度图像作为输入,通过下采样矩阵与向量化了的输入图像进行矩阵乘法,获得对原始图像的编码,即

y=f1(x)=Ax+b

(6)

式中,A为下采样矩阵;b为偏置向量。本文使用全连接层实现映射f1,因此A和b都是待优化的网络参数,二者均在训练开始前用随机数初始化。

(2)图像重构:本文将图像重构看成是矿井图像特征提取的逆过程,而矿井图像特征提取网络通常包含多个下采样层,因此本文通过多次上采样,将特征图变换为与原始图像具有相同高和宽的特征图。图中所示3次上采样输出高×宽依次为50像素×50像素、75像素×75像素、100像素×100像素的特征图,采用最近邻插值法对上述特征图进行上采样操作。

进一步地,在多次上采样之间使用残差网络块对重构网络进行优化。本文使用的残差网络块重构网络如图1所示,残差网络块有结构1和结构2两种组成形式。两种结构的残差网络块,其卷积层、批标准化层[20]和LeakyReLU[21]非线性激活层分别用符号Conv,BN和LReLU表示。残差网络块中的卷积层的卷积核大小均为3×3。每层卷积层由96个卷积核组成。其中,结构1的组成更为复杂,能够更好地对两次上采样之间的特征图进行优化;而结构2采用直接跨越连接方式有利于梯度下降的快速传播,能加快重构网络的收敛。本文交替使用这两种残差网络块,以获得网络优化效果和网络训练收敛速度的平衡。

最后利用优化后的重构网络将特征图聚合成重构图像。

上述过程用公式表示为

(7)

式中,符号“*”为卷积;gi(i=1,2,…,n)为残差网络块处理输入的特征图并进行上采样;Wa为深度为1的卷积层,用于将特征图聚合为重构图像。

2.2 损失函数

2.2.1l2损失

损失函数是卷积神经网络训练的优化目标。最常用到的损失函数是l2损失,在文献中通常以峰值信噪比(PSNR)及均方误差(MSE)的形式出现[22]。

图像信号的PSNR定义为

(8)

(9)

式(9)中MSE一定程度上描述了两个信号之间的差异程度,但它并不能完全反映重构信号的保真度。这是因为用MSE描述图像信号之间的差异时,信号的保真度与信号中各成分的时空关系被忽视[22]。当误差信号的能量之和相同或相近时,将会出现看起来大不相同的两幅图像具有相同或相近的MSE情况。

2.2.2结构相似度

为了解决l2损失不能完全反映图像重构的保真度问题,学者们又提出了其他的图像质量评估方法,其中结构相似度指数(SSIM)[22-24]使用最为广泛。

假设x和y是两幅高和宽相同的图像,SSIM表征了两幅图像之间亮度l(x,y)、对比度c(x,y)和结构s(x,y)的相似性,则SSIM表示为

SSIM(x,y)=l(x,y)c(x,y)s(x,y)=

(10)

式中,μx和μy分别为x和y的均值;σx和σy分别为x和y的标准差;σxy为样本的互相关。Ci(i=1,2,3)为小的正常数,本文中SSIM计算取C1=C2=C3=0.01。

SSIM一定程度上弥补了l2损失的不足,然而图像的相对平移、轻微缩放、轻微旋转都会较大影响SSIM的数值。针对这些问题,SAMPAT M P等提出了复小波结构相似度(CW-SSIM)[25]。CW-SSIM虽然对微小的旋转、平移具有鲁棒性,但是其引入的复数运算在计算时开销较大,因此也不宜作为损失函数使用。

2.2.3离散小波结构相似度

本文提出一种基于离散小波变换的结构相似度计算方式,称为离散小波结构相似度(Discrete Wavelet Structural Similarity),简称DW-SSIM。

对于二维的矿井图像信号f(x,y)∈N×N,可用离散小波将其分解为

(11)

其中,j0=0;N为图像的边长;Wφ,Wψ为分解系数;φ(x,y)为haar尺度函数;ψ(x,y)为haar小波函数;H,V,D为不同函数名的标记。

(12)

i={H,V,D}

(13)

根据采用多分辨率分析的haar小波分解与重构所包含的高频信号和低频信号,则矿井图像的DW-SSIM表示为

(14)

(15)

(16)

式中,J为图像多分辨率分解的最大分解层级,本文取J=3;符号W(1),W(2)分别为原始图像和重构图像的小波变换系数;K为防止算术不稳定的正常数,本文取K=0.01。

2.2.4本文所采用的损失函数

鉴于l2损失和结构相似度在图像质量评估方面的优点,本文融合上述2种图像评估方法作为损失函数,融合后的损失函数表示为

(17)

式(17)中第一项为l2损失,

(18)

其中,LF为对均方误差函数的归一化,LF的值域是[0,1]。式(17)中第二项为结构相似度损失,

(19)

3 实验与分析

为了验证算法的有效性,本文进行了仿真实验。将本文方法与近年来较为知名的ReconNet[8],D-AMP[26]和TVAL3[27]算法进行了测试比较。这些算法的实现均根据作者提供的网站获取,并且保持了其设置的默认值。实验平台采用Nvidia Tesla K80,Intel(R)Xeon(R)CPU和12 GB内存的Ubuntu 18.04.2。使用的深度学习软件包是Pytorch 1.0.1。

我们采集了某矿井不同场景的监控视频,如图2所示,并抽取了视频序列中的关键帧得到47 493张彩色图像。首先对这些图像进行了灰度化,并进行了100像素×100像素的中心裁剪作为本文算法的训练数据集。通过水平翻转、垂直翻转来进行数据增补。在网络训练时,选取的批次大小为64。

在同样的实验条件下,本文考察了上述几种算法的矿井图像重构质量与重构时间。其中,重构质量通过PSNR和SSIM进行评估。重构时间复杂度则由各种重构算法的运算耗时来表征。在不同压缩比条件下,利用各种算法对测试图像进行重构,图像重构的PSNR和SSIM分别见表1,2,其中,r为压缩比。

图2 本文实验所选用的测试场景

表1 不同算法在测试图像重构的PSNR

表2 不同算法在测试图像重构的SSIM

Table 2 SSIM for different algorithms on the test images

场景算法r=0.25r=0.20r=0.15r=0.10r=0.04r=0.01D-AMP[25]0.68540.67930.63760.51480.17350.0363(a)ReconNet[5]0.54700.49470.43770.42670.33710.2431TVAL3[26]0.38300.31460.25740.18380.21100.1608本文方法0.73200.74760.70490.63030.49230.3498D-AMP0.95940.95210.91770.89340.14590.0544(b)ReconNet0.87370.83080.79130.76310.61670.4181TVAL30.76220.75400.72820.66820.52520.4313本文方法0.96950.96590.96570.95250.90240.6631D-AMP0.96680.95950.94420.89930.37860.0121(c)ReconNet0.92270.89760.86030.81620.62520.4091TVAL30.68720.67400.63210.57910.48480.2248本文方法0.97490.96820.97070.94710.87480.5321D-AMP0.92020.89380.87110.82630.17660.0581(d)ReconNet0.72360.67230.65680.63810.52390.3894TVAL30.77790.75590.67600.56260.42520.4100本文方法0.92030.91450.91580.87720.82910.6939D-AMP0.87110.67930.80270.71870.28290.0634(e)ReconNet0.77280.73190.67710.65220.54600.4318TVAL30.54450.48680.50690.41270.37940.3372本文方法0.87930.87640.86390.80580.69210.5359

从表1可以看出,当压缩比≥0.20时,在测试的多数矿井图像上D-AMP方法取得了最高的PSNR值,其次是本文方法,而ReconNet和TVAL3相对较差;而当压缩比在0.10~0.15时,本文方法在测试的多数矿井图像上取得最高PSNR值,其次才是DAMP,ReconNet和TVAL3依然相对较差;尤其是,当压缩比≤0.04时,本文方法在所有的测试图像上均取得最优的PSNR值,ReconNet次之,而D-AMP和TVAL3相对较差。由表1进一步分析可知,随着压缩比r的逐渐减小,上述重构方法的PSNR均呈现下降趋势,其中D-AMP方法和TVAL3方法下降较为显著,而本文方法下降较缓慢,这是因为当压缩比非常小时,本文算法在获得极其稀少的矿井原始图像信息情况下,能够通过深度学习的方法获取矿井图像的内在结构和特征,从而更好地重构矿井原始图像。

此外,由表2进一步分析可知,本文方法在不同压缩比条件下,在所有测试图像上均取得了最高SSIM,这是因为本文方法在训练网络时采用了离散小波结构相似度损失作为损失函数的一部分,从而使本文方法在保留重构图像的细节和结构特征方面较其他方法更有优势。

综合表1,2,说明本文方法具有良好的图像重构能力,尤其是在小压缩比情况下,本文方法在峰值信噪比和结构相似度方面明显优于其他算法。

图3展示了测试图像在压缩比r=0.04时利用不同算法的重构结果。其中绿色矩形框中的图像区域为红色矩形框中区域放大的结果。由图3可以看出,在r=0.04压缩比条件下,使用本文方法得到的重构图像,无论是PSNR还是SSIM都远高于其他方法。进一步仔细观察图2所示的重构结果,可以发现本文方法能更好保留了图像中的轮廓细节,特别是场景(b)中的矿灯和矿工服的反光条,以及场景(d)中的矿用传送带边缘较为清晰,而其他方法的重构结果则相对模糊。相较于本文方法,而从其他方法的重构图像中分辨出前景和背景则显得有些困难。因此,上述实验进一步说明,在小压缩比情况下,与其他方法相比,本文方法的图像重构清晰度更好。

图3 不同算法对场景(a),(b),(c),(d),(e)的重构图像,所有图像均以压缩比r=0.04的采样重构

图4给出了测试图像在压缩比r=0.10时的重构图像。在此压缩比条件下,尽管在场景(a)和场景(d)的图像重构中,本文方法得到的重构PSNR值比D-AMP低,但是观察红色矩形框标记的区域可以明显看出,本文方法的重构图像对图像边缘的保留更完好。而且,本文方法在这一压缩比下的重构SSIM仍高于其他方法。图4进一步表明,在较大压缩比情况下,本文方法仍然能取得较高的图像保真度,特别是能保持矿井图像物体边缘的清晰度,这对获取井下环境视频监控的低分辨率矿井图像的前景和背景至关重要。

图4 不同算法对场景(a),(b),(c),(d),(e)的重构图像,所有图像均以压缩比r=0.10的采样重构

表3给出了在不同压缩比条件下几种重构方法的平均运算耗时比较,但需要指出的是,D-AMP和TVAL3算法只能在CPU环境下运行,而ReconNet算法和本文方法可在GPU或CPU上运行。从表3可以看出,在CPU平台上,TVAL3重构算法运算耗时最短,ReconNet算法和本文方法次之,而采用D-AMP重构算法运算耗时最长,这是因为D-AMP在图像重构过程中涉及的迭代次数过多,因此运算耗时较长。TVAL3算法对迭代过程进行了优化,因而耗时短。ReconNet算法和本文方法虽然不涉及迭代计算,但是重构过程中需要进行大量的矩阵乘法和卷积运算,而目前CPU的架构决定了无法快速地进行矩阵乘法和卷积运算,因此在CPU环境下,本文方法和ReconNet算法运算耗时较长。但另一方面,本文方法和ReconNet算法在GPU平台上运行最快,运算耗时比TVAL3重构算法小了一个数量级。这是因为GPU能高速计算矩阵乘法和卷积,更适合基于深度学习的本文方法和ReconNet算法。进一步考察表3发现,本文方法在GPU实验环境下能够达到0.01 s/帧的处理速度,完全可以满足矿井图像数据的实时采集和处理需要,而且在同样测试环境下,本文方法至少比ReconNet算法快0.01 s,说明本文方法在图像重构方面具有更好的实时性。

表3 不同算法的图像重构平均用时

此外,为了进一步考察本文方法在井下环境的抗噪性能,对含噪图像进行了压缩重构的仿真实验。为了模拟井下雾尘环境噪声影响,本文对场景(a)分别加入均值为0,标准差分别为5,10,15,20,25和30的高斯噪声,并对加噪图像在压缩比为0.25与0.04的情况下进行压缩与重构,实验结果如图5所示。由图5可知,在噪声干扰的条件下,对于绝大多数情况,本文方法的重构质量优于其他方法,而且噪声标准差越大、压缩比r越小,本文方法的优势越明显。另外,本文方法的重构PSNR,SSIM随噪声变化的幅度较小,在压缩比r为0.04时,本文方法的PSNR波动小于0.5 dB,SSIM波动小于0.05,说明本文方法具有较强的噪声鲁棒性。

综合来看,与其他方法相比,本文方法在压缩比较小情况下能取得更好的重构效果,对噪声环境下的图像重构具有鲁棒性,且本文方法的重构时间很短。

图5 有噪声条件下不同算法对场景(a)在压缩比r为0.25,0.04的情况下的重构结果比较

4 结 论

(1)为解决矿井监控图像的压缩与重构问题,本文提出了一种基于残差网络的卷积神经网络结构,并提出基于DW-SSIM的损失函数与均方误差损失函数训练网络参数方法。

(2)实验表明,本文方法在压缩比较小时,PSNR和SSIM指标均优于其他的传统压缩感知方法,且本文方法的重构时间较短,能有效提高矿井监控图像的清晰度,有助于改善矿井监控系统的实时性能。

(3)在相同压缩比及噪声条件下,本文方法的重构PSNR和SSIM优于其他算法,且重构PSNR,SSIM随噪声变化的幅度较小,本文方法对矿井环境下的图像重构具有较强的抗噪性和鲁棒性。

猜你喜欢
压缩比矿井重构
“双减”能否重构教育生态?
矿井建设中的现场施工管理
长城叙事的重构
高温矿井制冷降温技术应用与分析
高盐肥胖心肌重构防治有新策略
质量比改变压缩比的辛烷值测定机
矿井通风系统安全性评价及其作用
北京的重构与再造
高瓦斯矿井防治瓦斯异常涌出措施的应用
低温废气再循环及低压缩比对降低欧6柴油机氮氧化物排放的影响