结合高低频分解和多尺度两级融合策略的单一深度图去噪方法

2022-02-03 10:33赵利军张晋京白慧慧

北京交通大学学报 2022年5期

赵利军，王可，张晋京，白慧慧，赵耀

(1.太原科技大学电子信息工程学院，太原 030024；2.中北大学大数据学院，太原 030051；3.北京交通大学计算机与信息技术学院，北京 100044)

近年来，在各种计算机视觉任务中场景的深度信息发挥着极其重要的作用.很多研究工作已经表明高质量的深度信息能够显著地提升各种任务的性能，如目标识别和检测［1］、自动驾驶［2］、自然场景的三维重建等.然而，消费级别的深度相机获得的深度图分辨率远远小于对应彩色图的分辨率，并且包含了很多的噪声像素点和无效的深度值，从而导致拍摄到的深度图质量不能满足实际应用需求.为了解决该问题，很多的学者致力于研究深度图增强去噪方法［3-7］.目前，图像的去噪方法大致可以分为两类：传统的图像去噪方法和基于深度学习的图像去噪方法.

由于早期的图像去噪方法往往只利用图像的局部空间相关性来实现图像的加权平均滤波，因此这些方法无法很好地恢复图像的细节信息.例如，叶建雄等［8］采用双边滤波的方法在一定程度上能够保留图像边缘信息同时滤掉低频分量的噪声，但是对于不同噪声的图像很难自适应地选择滤波窗口的大小以及权重参数.不同于滤波方法，基于变换域的去噪方法往往采用小波变换或稀疏表示等进行预处理，然后利用变换域的特性或表示的冗余性来做进一步处理.例如，Hu 等［9］提出了一种联合局部平滑性和非局部自相似性的图像去噪方法来恢复单一深度图.Elad 等［10］提出了一种基于字典学习的图像去噪方法，该方法使用过完备字典对原图和降质图进行稀疏表示来实现图像去噪.Ma 等［11］提出了基于小波变换的图像去噪方法，该方法将无偏风险估计和线性扩张阈值理论相结合来实现快速的图像去噪.不同于以上这些方法，向瑞等［12］将深度图和对应的彩色图的局部二值模式（Local Binary Patterns，LBP）算子作为一种去噪约束融入到去噪算法，用来保护深度图的边缘信息.虽然这些传统的图像去噪方法能够提高深度图的准确度，但它们往往很难通过图形处理器（Graphics Processing Unit，GPU）和张量处理单元（Tensor Processing Unit，TPU）等硬件进行加速处理，这极大地限制了它们在计算机视觉任务上的广泛应用.

相比于传统的图像去噪方法，基于深度学习的图像去噪方法取得了飞跃式的发展.它的优势在于该方法能够通过硬件进行加速处理，同时能更好地保留图像的细节纹理信息.例如，Jain 等［13］提出了一种适用于自然图像去噪的神经网络模型，该神经网络模型能够降低计算的复杂度.类似地，Yu 等［14］提出了一种能够处理各种压缩伪影卷积神经网络方法（Artifacts Reduction Convolutional Neural Network，ARCNN）.此外，还设计了一种快速压缩伪影去除卷积神经网络方法（Fast ARCNN）.与ARCNN 方法相比，Fast ARCNN 在保持良好的去噪性能的同时将速度提升7.5 倍.Zhang 等［15］采用残差学习和批归一化技术来加速神经网络的训练并提升去噪的性能，该方法适用于各种图像去噪任务.Sterzentsenko 等［16］提出了一种自监督的全卷积去噪自编码器方法，该方法解决了深度图训练数据不足的问题.Laina 等［17］提出了一种全卷积残差网络去噪方法，该方法充分利用彩色图像和深度图之间的模糊映射关系对图像去噪进行建模来提高图像的去噪性能.Li 等［18］将彩色图和深度图的一致性结构信息自适应地迁移到深度图，从而解决了图像联合滤波器的纹理拷贝现象.Zhang 等［19］提出了一种轻量化的卷积神经网络方法，该方法采用高维投影、缺失数据填补和图像重建技术来实现图像去噪.靳华中等［20］提出一种近似U型的网络方法，对不同感受野的图像信息进行叠加来尽可能地保留图像的原有信息，同时该方法引入反卷积网络层来实现图像恢复和进一步的噪声去除.

虽然这些深度学习图像去噪方法的性能远远超过传统的图像去噪方法，但是上述这些深度学习去噪方法的模型复杂度过高且参数量较多.为此，本文作者提出了一种结合图像高低频分解和多尺度两级融合的深度图去噪方法.

1 深度图去噪方法

从带噪的深度图分解而来的高频分量和低频分量含有不同程度的噪声干扰.如果仅在浅层网络进行高频分量和低频分量特征融合，势必导致噪声传播到深层的高频分量和低频分量特征中.受到U-Net 网络的启发［21］，本文提出了一种结合图像高低频分解和多尺度两级融合策略的深度图去噪方法.使用自编码器的两个编码网络分别增强带噪的高频分量和低频分量特征，再将增强后的高频分量和低频分量特征进行融合，使用融合特征增强自编码器的解码网络特征.

如图1 所示，所提方法的网络结构主要包括三个部分：基于高斯滤波的高低频分解模块、基于多尺度两级融合策略的特征提取模块和高低频合并重建模块.首先，所提的方法利用多尺度高斯滤波器将含噪声的深度图分解为低频分量和高频分量，高频分量重点突出深度图的细节信息，而低频分量则侧重于描述深度图的结构信息.很显然，这两者之间存在明显的差异.其次，将这两组分量分别输入到低频特征提取网络（Low-Frequency-UNet，LFUNet）和高频特征提取网络（High-Frequency-UNet，HF-UNet），这两个网络的作用是分别提取高频分量和低频分量的多尺度特征.为了充分地利用高频分量和低频分量的互补特性，提出了一种互补的特征加权融合机制，并且在该机制下构建了一种多尺度两级融合策略.最后，利用高频和低频增强特征进行残差预测，再将其与输入图相融合得到高质量的深度图.

图1 本文方法的网络结构示意图Fig.1 Diagram of the network structure of the proposed method

1.1 基于多尺度两级融合策略的特征提取模块

已知一幅含有噪声的深度图X，考虑到不同噪声的特性有所不同，引入多尺度高斯滤波器将其分解成两组图像.这里，使用不同大小的高斯核3*3、5*5 和7*7 进行高斯滤波得到一组低频分量分别是Xl-3、Xl-5和Xl-7，从而得到深度图的多尺度结构信息.通过将输入图和这些低频分量相减可以得到一组高频分量，即Xh-3=X-Xl-3、Xh-5=X-Xl-5和Xh-7=X-Xl-7，这些高频分量包含了带噪深度图的多尺度细节信息.然后，沿着通道维度将低频分量和高频分量依次合并在一起，得到多尺度低频分量和多尺度高频分量.接下来，使用LF-UNet 和HF-UNet 得到深度图低频和高频分量的多尺度特征.基于多尺度两级融合策略的特征提取模块大致可以分为两个支路（上采样支路和下采样支路）.当以残差卷积（Res-Conv）为界时，下采样支路分为四个阶段.当以一个序列化的CSC 模块（卷积层、Swish 激活函数和卷积层）为界时，上采样支路分为三个阶段.一共包含七个阶段（和，i=1～7）.将深度图的多尺度低频分量Xl输入到LF-UNet 中，同时将深度图的多尺度高频分量Xh输入到HFUNet 中.由此可见，虽然HF-UNet 和LF-UNet 的输入有所不同，但是它们的网络拓扑结构完全相同.

1.1.1 下采样支路

经过高斯滤波器分解后获得的高频分量和低频分量含有不同程度的噪声干扰.为了降低噪声，使用自编码器的两个编码网络分别对带噪的高频分量和低频分量特征进行初步增强.在LF-UNet 的下采样支路中，第一阶段使用一个序列化的CSC 操作（包括卷积层、Swish 激活函数和卷积层）有选择地提取深度图多尺度低频分量的特征.然后，利用残差卷积Res-Conv 进一步提取深度图低频分量的特征以获得.这里，残差卷积的跳跃连接有助于缓解因网络层数过多而导致的神经网络训练困难的问题.

相比之下，在第二阶段中，首先使用最大池化层（Maxpooling）对进行下采样来降低特征图的分辨率.其次，使用一个序列化的CSC 操作去提取深度图低频分量的低级特征.然后，利用一个残差卷积进一步提取深度图低频分量的特征以获得.以此类推，在下采样支路中，LF-UNet 的第三阶段和第四阶段的输出为和，将4 个阶段依次表示为

因为HF-UNet 和LF-UNet 具有完全相同的网络结构，所以HF-UNet 的下采样支路能够获得，将这四个阶段依次表示为

1.1.2 上采样支路

如果仅在编码网络对高频分量和低频分量特征进行初步增强，势必导致噪声传播到深层的高频分量和低频分量特征中.为此，使用编码网络的融合特征来增强自编码器的解码网络的特征.在LF-UNet 的上采样支路中，第一阶段首先使用一个序列化的TCS 操作（转置卷积层、卷积层和Swish激活函数）对进行上采样来提升特征图的分辨率.其次，通过跳跃连接将上采样之后的与下采样支路中第三阶段获得的合并，即将这些特征图沿着通道维度进行串联，该操作标记为Concat.之后，采用一个残差卷积Res-Conv 进一步提取特征.接下来，将残差卷积输出的特征输入到一个序列化的模块CSC，该模块包括两个卷积层和一个激活函数Swish，它的输出为.以此类推，在LF-UNet 的上采样支路中，第二阶段输入获得，第三阶段输入获得，将3 个阶段依次表示为

因为HF-UNet 和LF-UNet 采用完全相同的网络结构，所以在HF-UNet 的上采样支路中，第一阶段输入获得，第二阶段输入获得，第三阶段输入获得，将这三个阶段依次表示为

1.1.3 多尺度两级融合策略

在很多的深度卷积神经网络中，最常见的特征融合策略主要采用简单的矩阵逐元素相加策略或者沿通道维度的特征图堆叠策略.虽然这些策略能够在一定程度上将不同的特征进行合并，但是无法实现自适应的特征融合.考虑到噪声特征的空间敏感性和高低频分量特征的差异性，受图像融合理论的启发，本文提出一种多尺度两级融合策略，该策略主要采用互补的特征加权融合机制，来实现深度图高频和低频分量的互补融合，如图1 和图2 所示.在HF-UNet 和LF-UNet 的下采样支路中，第一级融合通过该机制将高频的不同尺度特征和低频的不同尺度特征进行聚合，得到浅层的高低频互补增强特征.在下采样支路第一阶段的尾端，将获得的和进行融合以获得融合特征图F1，具体公式如下

图2 互补的特征加权融合机制Fig.2 Complementary feature weighted fusion mechanism

式中：Avgpool(·)是全局平均池化操作，为了增加非线性表达能力，采用一个序列化的操作（卷积层、Swish 激活层、卷积层和Sigmoid 层），这里依次使用σ、δ和RF表示Sigmoid 函数、Swish 函数和加权融合过程.最后，沿着通道维度使用权重ω对输入和进行加权融合可获得F1.以此类推，在下采样支路第二阶段的尾端、第三阶段的尾端和第四阶段的尾端，将深度图高频分量特征和低频分量特征进行加权融合，以获得融合特征图F2、F3和F4.

第二级融合通过采用互补的特征加权融合机制将深层的高低频特征与高低频互补增强特征进行合并.在输入到上采样支路第一阶段之前，将和F4进行融合，以获得融合特征图.将和相加融合获得LF-UNet 上采样支路第一阶段的输入.以此类推，能够获得HF-UNet 上采样支路第一阶段的输入.具体公式如下

式中：F4表示第一级融合的第四阶段获得的特征图，具体过程参考式（17）～式（20）；RF表示加权融合过程，具体融合过程与第一级融合相同.在上采样支路中的第一阶段的尾端、第二阶段尾端和第三阶段尾端，将高低频互补增强特征与深层的高频特征进行聚合获得、和；将高低频互补增强特征与深层的低频特征聚合获得、和.其次，参考式（23）和式（24），在LF-UNet 的上采样支路中可以获得、和；在HF-UNet 的上采样支路中可以获得、和.最后，采用一个输出卷积层输出和，作为高低频合并重建模块的输入.

1.2 高低频合并重建模块

如图1 所示，在高低频合并重建模块中，首先将HF-UNet 和LF-UNet 输出的高低频增强特征相加融合；其次，采用一个残差卷积和一个输出卷积层重建残差图像.最后，将输入图与重建的残差图像相融合，可获得最终输出图Y.

1.3 损失函数

一般来说，图像去噪任务通常使用均方误差（Mean Square Error，MSE）损失函数对图像去噪网络的学习进行有效的监督.Lim［22］等指出在PSNR和SSIM 度量方面，用L1范数约束的损失函数训练的图像去噪网络比L2范数约束的损失函数获得更好的去噪性能.为此，本文提出的结合图像高低频分解和多尺度两级融合策略的深度图去噪方法的网络采用L1范数约束的损失函数，该函数可以表示为

式中：‖·‖1表示L1范数；Yi是所提方法的去噪图像的第i个像素的预测值；Xi是对应的真实值.

2 实验结果与分析

本节验证所提方法的有效性，将所提的一种结合图像高低频分解和多尺度两级融合策略的深度图去噪新方法与最新的几种图像去噪方法进行性能对比.这里主要采用图像质量的客观评价指标峰值信噪比（Peak Signal to Noise Ratio，PSNR）、均方根误差（Root Mean Square Error，RMSE）、结构相似性（Structural SIMilarity index，SSIM）、网络总参数量、每秒所执行的浮点运算次数（FLoating-point Operations Per second，FLOPs）和测试时间来评估这些方法的性能.

2.1 实现细节

本文选择3 个公开的深度图数据集构建训练数据：1）Middlebury 深度图数据集［23］（包含34 个单一深度图，其中包括2001 年数据集的6 张深度图和2006年的10张深度图，以及2014年的18 张深度图）；2）MPI Sintel 深度图数据集［24］（包括58 个单一深度图）；3）合成深度图数据集［25］.采用已经填补空洞的Middlebury 2005 和Middlebury 2003 数据集来评估不同深度图去噪方法的性能.将加性高斯白噪声（Additive White Gaussian Noise，AWGN）添加到原始的深度图中来得到降质的深度图，AWGN 噪声方差σ2的取值为10、15、20、25 和30.本文采用深度学习框架PyTorch 来实现所提的方法，选用Adam 优化器来训练所提出的网络模型，优化器的参数beta1 等于0.9，beta2 等于0.999，网络参数更新的学习率为2e-4.图像批大小为16，每张图像的大小为128*128.所有的模型都是通过使用NVIDIA RTX 2080ti GPU 进行训练和测试.

2.2 客观质量对比

将本文所提出的深度图去噪方法与DnCNN［15］、ARCNN［14］、Fast ARCNN［14］、ADNet［26］和FFDNet［27］方法进行性能比较.表1 和表2 分别给出了这些方法在Middlebury 2005 数据集和2003 数据集上的深度图去噪结果与未去噪深度图的客观质量对比.表3 提供了各种深度图去噪方法的综合性能对比.表3 中，括号里面的数字表示客观指标排名，B表示Middlebury 2005数据集，C表示Middlebury 2003 数据集.从表1～表3 可知，相较于其他5 种方法，ARCNN［14］方法的去噪性能并不好，这是因为ARCNN［14］仅考虑了压缩伪影问题，而没有充分地考虑到噪声本身的特性.值得注意是，Fast ARCNN［14］是对ARCNN［14］方法的改进版本，改进方法的去噪效果要好于ARCNN［14］.不同于这些浅层网络方法，DnCNN［15］去噪方法设计了一种带有批归一化的深层网络来实现图像增强.FFDNet［27］是DnCNN［15］的升级版，FFDNet 网络的噪声的适应能力和计算量均要优于DnCNN［15］.为了权衡图像去噪的性能和效率，ADNet［26］提出了一种注意力引导的降噪卷积神经网络.然而，这些方法的网络总参数量较大，使得神经网络的复杂度往往过高.相较于DnCNN［15］、ARCNN［14］、Fast ARCNN［14］、ADNet［26］和FFDNet［27］方法，经过本文方法去噪的图像的PSNR、SSIM 和RMSE 指标更高，同时所提方法能够大幅度地降低网络总参数量和复杂度.

表1 Middlebury 2005 数据集测试下不同噪声各种深度图去噪方法去噪前后的性能对比Tab.1 Performance comparisons of before and after denoising of various depth map denoising methods under noise with different variances tested on Middlebury 2005 dataset

表2 Middlebury 2003 数据下不同噪声各种深度图去噪方法去噪前后性能对比Tab.2 Performance comparisons of before and after denoising various depth map denoising methods under different noises tested on Middlebury 2003 dataset

表3 各种深度图去噪方法综合性能对比σ2=25Tab.3 The comprehensive performance comparisons of various depth map denoising methods is compared when σ2=25

具体而言，在Middlebury 2005 和2003 数据集上，相比于DnCNN［15］，所提方法的PSNR 最高增益分别为2.37 和1.28 dB.相比于ARCNN［14］，所提方法PSNR 的最高增益分别为2.87 和1.62 dB.与Fast ARCNN［14］相比，所提方法的PSNR 分别获得1.61和1.62dB的最高增益.相比于ADNet［26］，PSNR 分别获得3.69和3.46dB的最高增益.与FFDNet［27］相比，PSNR 分别获得1.85 和2.56 dB 的最高增益.与此同时，所提方法的RMSE 和SSIM 指标也都分别实现了不同幅度的降低和提升.随着噪声水平的提升，PSNR 和SSIM 的提升更显著，RMSE 也存在明显的降低.如表3 所示，当σ2=25 时，综合对比了多种客观评价指标，本文所提方法的综合性能明显优于另外五种方法.从以上分析可知，不同级别的噪声下本文所提出的去噪方法均取得更好的去噪性能.

2.3 视觉质量对比

为了验证本文方法的优越性，在Middlebury 2005 数据集上将所提出的深度图去噪方法与DnCNN［15］、ARCNN［14］、Fast ARCNN［14］、ADNet［26］和FFDNet［27］进行视觉质量比较.图3 和图4 分别展示了深度图Art 和Laundry 经过不同的深度图去噪方法处理后的可视化对比图.

图3 Middlebury 2005 数据集测试下不同去噪方法增强后的Art 深度图可视化对比(σ2=25)Fig.3 Visual comparison of Art depth map after enhancement by different denoising methods tested on Middlebury 2005 dataset(σ2=25)

图4 Middlebury 2005 数据集测试不同去噪方法增强后的Laundry 深度图可视化对比(σ2=25)Fig.4 Visual comparison of Laundry depth map after enhancement by different denoising methods tested on Middlebury 2005 dataset (σ2=25)

根据图3 红框区域的对比可知，ARCNN［14］和DnCNN［15］去噪深度图壶底处存在大面积模糊现象，这两个方法的去噪效果较差.这是因为ARCNN［14］采用简单的序列化卷积操作构建了一个浅层网络，这种表达能力弱的网络往往无法很好实现高效的图像去噪.ARCNN［14］方法去噪后的深度图像往往存在边缘模糊的现象，而DnCNN［15］只针特定环境下的降噪.Fast ARCNN［14］是改进ARCNN［14］的模型.该方法虽然能够获得较好的去噪效果，但是该方法无法较好地恢复图像的细节信息而且去噪后的深度图存在过度平滑的现象.将ADNet［26］、FFDNet［27］与前三种方法相比，它们的去噪效果相对较好，ADNet［26］和FFDNet［27］去噪方法能恢复出清晰的图像边界信息.然而，与本文方法所获得的去噪深度图相比，这些方法在红框背景处依然存在雾状伪影.根据图4 红框放大的窗格区域对比可知，ARCNN［14］、DnCNN［15］和Fast ARCNN［14］有很明显的模糊的现象，使得窗格不完整.虽然ADNet［26］和FFDNet［27］存在轻微模糊，但是这两个方法能够保留窗格的整体形状.相较之下，本文所提方法采用了高低频分解和多尺度两级融合策略，该策略能够克服上述缺点.如图3 所示，在红框的背景处，经过所提方法去噪后的深度图存在更少雾状伪影.如图4 所示，经过所提方法去噪后的深度图的窗格形状更加清晰完整.综上所述，所提方法的去噪效果远远超过了深度图去噪方法如ARCNN［14］、Fast ARCNN［14］、DnCNN［15］、ADNet［26］和FFDNet［27］.

为了进一步从视觉效果上验证本文方法的有效性，图5 和图6 分别展示了来自于Middlebury 2003测试数据集的深度图Cones 和Tsukuba 经过不同的深度图去噪方法处理后的可视化对比图.如图5 所示，从细节放大图中可以清晰看到ARCNN［14］、DnCNN［15］和Fast ARCNN［14］存在严重的细节缺失，例如圆锥整体结构缺失，只能看到极少的边界.相对于真实的深度图，ADNet［26］和FFDNet［27］存在结构变形，圆锥尖变钝变短.相较之下，所提方法获得的去噪深度图更为接近真实的深度图，虽然它的圆锥尖略微变形，但是整体形状最为接近真实的深度图.图6 展示了深度图Tsukuba 的局部细节放大图.相比于本文方法，经过ARCNN［14］、DnCNN［15］和Fast ARCNN［14］去噪的深度图显得尤为模糊.虽然经过ADNet［26］和FFDNet［27］方法去噪后的图像的整体结构接近本文方法，但在一些边界细节处还存在差异.这些视觉质量的对比进一步验证了本文方法的有效性.

图5 Middlebury 2003 数据集测试时不同去噪方法增强后的Cones 深度图视觉对比(σ2=25)Fig.5 Visual comparison of Cones depth map after enhancement by different denoising methods tested on Middlebury 2003 dataset (σ2=25)

图6 Middlebury 2003 数据集测试时不同去噪方法增强后的Tsukuba 深度图视觉对比(σ2=25)Fig.6 Visual comparison of Tsukuba depth map after enhancement by different denoising methods tested on Middlebury 2003 dataset (σ2=25)

3 消融实验

为了验证所提方法各个部分的重要性.如表4所示，本文提供了在Middlebury 2005 数据集上的消融实验.首先，为了验证多尺度高斯滤波器的有效性.在本文方法（a）中，采用单一高斯核的高斯滤波器取代多尺度高斯滤波器，其它关键模块保持不变.在本文方法（b）中，将高斯滤波器去除，其他关键模块保持不变.当采用单一高斯核的高斯滤波器时，客观评价指标PSNR 降低了0.34 dB，RMSE 的值增加了0.06，SSIM 降低了0.000 4.当去除高斯滤波器后，PSNR 和SSIM 分别降低了0.07 dB 和0.000 2，而RMSE 值增加了0.01.很显然，当多尺度高斯滤波器被取代或者去除高斯滤波器时，所提方法的整体性能显著降低.其次，为了验证双支路去噪网络的优越性，本文方法（c）将双支路U 型网络改为单支路U 型网络.从表4 可知，当采用单支路U 型网络时，所提方法的PSNR 降低了0.58 dB，而RMSE 的值增加了0.1.但是，本文方法（c）的SSIM 指标有所提升.总的来说，单支路网络的性能低于本文所采用的双支路网络.

表4 Middlebury 2005 数据集测试时本文所提方法的消融实验性能对比（σ2=25）Tab.4 Comparison of the experimental performance of the ablation method proposed tested on Middlebury 2005 dataset（σ2=25）

4 结论

1）提出一种结合图像高低频分解和多尺度两级融合策略的单一深度图去噪方法，该方法利用多尺度高斯滤波器将含噪声的深度图分解为一组低频结构分量和一组高频细节分量.为了实现深度图高频和低频分量的互补融合，设计了一个多尺度两级融合策略，该策略主要采用互补的特征加权融合机制.

2）在高低频合并重建模块中，将LF-UNet 和HF-UNet 输出的高低频增强特征相加融合之后，采用一个残差卷积和一个输出卷积层进行残差预测，再将其与输入图像相融合得到高质量的深度图.

3）实验结果表明，本文所提的方法比多个主流的深度图去噪方法如ARCNN、Fast ARCNN、DnCNN、ADNet 和FFDNet 的性能更好.

在未来的工作中，将本文所提出的方法扩展到联合深度图和彩色图的去噪和超分辨率任务中，同时将充分地利用彩色图和深度图的结构差异性和一致性来提升深度图的准确度.