基于通道注意力的多尺度全卷积压缩感知重构

2022-12-13 13:52刘玉红陈满银刘晓燕

计算机工程 2022年12期

刘玉红，陈满银，刘晓燕

（兰州交通大学电子与信息工程学院，兰州 730070）

0 概述

奈奎斯特采样定理要求采样频率必须达到信号带宽的2 倍以上才能从采样信号中恢复出原始信号。随着物联网和大数据时代的到来，从采样信号中恢复原始信号，需不断加快采样速率，这使得传统的奈奎斯特采样过程面临较大挑战。近年来，DONOHO等［1］提出压缩感知理论，利用随机测量矩阵Φ∈Rm×n对原始信号x∈Rn×1进行采样，即y=Φx(m≪n)，将x投影到m维的低维空间，并证明在随机投影的测量值y∈Rm×1中包含较多的原始信号，通过求解一个稀疏化问题，利用投影在低维空间的测量信号以恢复出原始信号。

在图像压缩感知问题中，测量值y的维度m远小于原始信号x的维度。压缩感知图像重构的本质是从一个具有多种不同解的方程中找出最优解。为了找出最优解，研究人员提出基于图像变换域的重构算法，该算法利用Lp-norm 范数衡量稀疏系数的稀疏性，使用正交匹配追踪（Orthogonal Matching Pursuit，OMP）、迭代硬阈值等算法求解对应的稀疏编码问题。研究人员提出将梯度稀疏性［2］、非局部稀疏性［3］和块稀疏［4］作为先验知识，对原始信号进行恢复。然而，这些算法都需要大量的迭代运算，重构时间较长，并且在低采样率下重构图像的质量较差。

由于深度学习能解决传统方法中计算量大的问题，因此研究人员提出基于深度学习的压缩感知重构方法。KULKARNI等［5］提出ReconNet，利用固定的随机高斯矩阵测量获取的图像采样数据，实现了非迭代压缩感知重构的目的。YAO 等将ReconNet［5］网络与残差网络［6］相结合提出DR2-Net［7］，可以更充分地捕获图像的细节信息。文献［8］提出一种深度神经网络CombNet，通过卷积核级联的方式加深网络的深度，提高重建图像的质量。文献［9］提出一种自适应测量的方法Adaptive-Net，该方法可以保留较多的图像信息。上述方法在低采样率下都存在严重的块效应，重构图像的视觉效果较模糊。

本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型。通过均值滤波消除图像中的噪声点，减少原始图像中的冗余信息，有利于采集更加有效的图像信息。通过对图像进行多尺度全卷积采样，在消除重建图像块效应的同时保留更多图像信息。在残差块中引入注意力机制，根据挖掘特征图通道之间的关联性，提取特征图中的关键信息用于恢复出高质量的重构图像。

1 相关工作

基于深度学习的图像重构方法在计算机视觉和图像处理领域受到了广泛的关注，如图像超分辨率重建［10］、图像语义分割［11］、图像去噪［12］等。一些基于深度学习的方法也相继被提出，并应用于压缩感知的重构图像上。例如，利用堆叠降噪自动编码［13］（Stacked Denoising Auto-encoder，SDA）模型和卷积神经网络［14］（Convolutional Neural Network，CNN）学习一个端到端的映射，直接将测量值输入到网络得到的重构图像。文献［13］利用SDA 训练得到测量值与重构图像之间的映射关系，通过测量值对该映射关系进行图像重构。KULKARNI等［5］提出的ReconNet 实现了非迭代压缩感知重构，但重构质量相对较差。研究人员提出的DR2-Net［7］网络由全连接层和四个残差块组成，可以更充分地捕获图像的细节信息。文献［15］提出多尺度残差网络MSRNet，引入多尺度扩张卷积层来提取图像中不同尺度的特征。ISTA-Net［16］网络结合基于优化和基于网络的压缩感知方法的优点，具有良好的可解释性。DPA-Net［17］通过将图像的纹理结构信息分开重建后再进行融合，以提升重构图像的质量，文献［15-16］所提方法通过对输入图像进行分块，利用高斯矩阵进行逐块测量，存在计算量大的问题。此外，基于块的图像压缩感知重构破坏了图像结构信息的完整性。在Pep-Net［18］、CSNET［19］、MSResICS［20］、FCMN［21］中用自适应测量代替随机高斯矩阵的分块测量方法，保留图像结构和边缘信息的完整性，然而在重构时只采用单一的残差网络，未充分提高重建图像的质量。当FDC-Net［22］网络重构时，利用卷积网络与密集网络组合成的双路径重构网络，在提高重构图像质量的同时缩短了重构时间。但在低采样率下重建图像的视觉效果仍不清晰。为提高低采样率下重建图像的质量，本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型MSANet。

2 MSANet 模型

本文设计的网络主要由测量和重构两部分组成。

2.1 均值滤波

均值滤波［23］是一种线性滤波器，用均值代替图像中的各个像素值，即对待处理的当前像素点f(x，y)选择一个模板。该模板由其近邻的若干像素组成，求解模板中所有像素的均值，再把均值赋予当前像素f(x，y)，并作为处理后图像在该点的灰度g(x，y)，即g(x，y)=∑f(x，y)/m，其中m为该模板中包含当前像素点在内的像素点总个数。

均值滤波的核函数h(x，y) 及其傅里叶变换F[h(x，y)]如式（1）和式（2）所示：

从式（2）可以看出，F[h(x，y)]在频域就是μ、ν两个方向的sinc 函数相乘。在空域方向的窗长越大，频域上从低频到高频的过渡就越陡。因此，均值滤波函数具有波动性，可以去除图像中的冗余信息，减少图像中的数据量，获取感兴趣区域的粗略描述。在压缩感知采样时获得更多有效信息，有利于提升重构图像的质量。同时，冗余信息的消除可以减少训练网络时的数据量，有利于缩短重构图像的时间。

2.2 多尺度全卷积测量

本文使用卷积层对图像进行采样，其过程如图1所示。通过M个大小为N1×N1（N1≪N）的卷积核对尺寸为N×N的输入图像块x进行扫描和卷积运算，得到长度为M的采样数据。将卷积核看作观测矩阵，卷积核在图片上滑动扫描的过程就是压缩感知采样的过程。

图1 卷积采样过程Fig.1 Process of convolution sampling

在传统网络中每一层使用一个尺寸的卷积核，而Google 和Inception 网络中每一层的特征图使用多个不同大小的卷积核，以获得不同尺度的特征图，再把这些特征相融合。Inception 网络结构如图2 所示。基于多尺度卷积的思想，本文采用多尺度全卷积对原始图像信号进行全图像测量，实现图像的多尺度全卷积采样。每一层卷积可以得到一个特征图，将多尺度卷积采样得到的多个特征图进行拼接融合，使得最终的特征图包含更多、更全面的信息。

图2 Inception 网络结构Fig.2 Structure of Inception network

2.3 残差注意力网络

注意力机制能够重点关注输入图像中的关键特征信息，分为硬注意力机制和软注意力机制。硬注意力机制是在所有特征信息中选择关键部分进行重点关注，其余特征则忽略不计。例如，文献［24］的数字识别任务中，在提取原始图像特征时，仅含有数字的像素点是有用的，因此，只需对含有数字的像素点进行重点关注。硬注意力机制能有效减少计算量，但丢弃了图像的部分信息，而在压缩感知重构任务中，图像的每一个像素点的信息都是有用的，显然，硬注意力机制不适用于压缩感知重构任务。随后，HU等［25］提出的SE 块在残差网络之后使用原始的channel-wise attention 来提高分类精度。软注意力机制对所有的特征设置一个权重，并对其进行特征加权，通过自适应调整凸显重要特征。图像经过每个卷积层都会产生多个不同的特征图，通道注意力机制［26］通过对每张特征图赋予不同的权重，使网络从特征的通道维度来提取重要的特征。

通道注意力模型结构如图3 所示，在卷积操作后分出一个旁路分支，首先进行Squeeze 操作（即图中的Fsq(·)），将空间维度进行特征压缩，将每个特征图变成一个实数，相当于具有全局感受野的池化操作。因此，利用分局平均池化将全局空间内的信息转化为通道描述符，然后进行Excitation 操作（即图中的Fex(·)），通过学习参数生成每个特征通道的权重。该权重值表示对应通道与关键信息的相关性，权重越大，则对应通道的信息越关键。

图3 通道注意力模型结构Fig.3 Structure of channel attention model

当卷积层对图像进行卷积运算时，只能提取感受野内的特征信息。并且单一卷积层的计算输出没有考虑各个通道的依懒性。因此，本文在重构网络中提出一种新的残差注意力模型，其结构如图4 所示。通过在中间层设置通道注意力模块，加强了不同层以及特征通道之间的长期依赖关系，使得重要的特征信息在传递过程中不易丢失，提升最终重建图像的质量。

图4 残差注意力模型结构Fig.4 Structure of residual attention model

残差块由三个不同卷积核大小的卷积层组成。第一层卷积使用11×11 的卷积核，得到感受野较大的特征信息；第二层卷积首先使用1×1 卷积核，降低第一层卷积计算的输出维度，然后将信息输入到注意力模块中，通过建模各个特征通道之间的重要程度，使网络有选择性地增强信息量大的特征，以充分利用这些特征信息，从而恢复出高质量的重构图像，并对无用特征进行抑制；第三层使用7×7 的卷积核，提取各个通道上信息量大的特征信息，输出一张大小为256×256 像素的灰度图像。

本文所提MSANet 网络模型结构如图5 所示。

图5 MSANet 网络模型结构Fig.5 Structure of MSANet network model

3 实验与结果分析

3.1 实验平台与训练数据

本文实验在PyTorch 深度学习框架上完成。计算机配备了主频率为2.8 GHz 的Intel Core i5-8400H CPU、1 个NVIDIA GeForce GTX 1080Ti GPU，网络框架在windows 10 操作系统上运行。

为确保实验的公平性，本文在不同的采样率分别为1%、4%、25%下训练网络，使用相同的训练集和测试集，选择DIV2K 作为模型的训练集数据，并在Set0、Set5、Set14 和BSD100 数据集上进行测试与对比实验。这些数据集包含大量来自各个领域的图像，能够对模型性能进行有效验证。

RGB 图像在输入到网络之前被转换为灰度图像，数据归一化到区间［-1，1］，使网络能更快、更好地收敛。当训练模型时，本文使用Adam 算法对模型参数进行优化，初始动量设置为0.9，每次迭代的批大小设置为8，学习率为0.001，激活函数采用PReLu。采用均方误差（Mean Square Error，MSE）作为损失函数，如式（3）所示：

其中：w为需要训练的网络参数；f(xi；w)为相对于图像xi的最终压缩感知重构。

3.2 评价指标

本文实验采用国际通用的图像重建评价指标：峰值信噪比（PSNR）、结构相似度（SSIM）。PSNR 数值越大，重构图像的失真越小，重构效果越好。PSNR 的计算如式（4）所示：

结构相似度从图像的亮度、结构和相似度三个方面进行评价。给定两张图片A 和B，其结构相似度计算如式（5）所示：

其中：μa为图片A 的平均值；μb为图片B 的平均值，表示图像的亮度和分别为图片A 和B 的方差，表示图像的对比度；σab为图片A 和B 的协方差，表示图像的结构；C1和C2为用于维持稳定的常数，C1=(k1×L)2，C2=(k2×L)2，通常取k1=0.01，k2=0.03；L为像素值的动态范围。结构相似度的取值范围在0 与1之间，结果越接近1，表示两幅图像越相似。

3.3 结果分析

本文模型与TVAL3［27］、SDA［13］、ReconNet［5］、DR2-Net［7］、CombNet［8］、ISTA-Net［16］和Pep-Net［18］进行PSNR 对比，对比结果如表1 所示。从表1 可以看出，当采样率为1%和4%时，本文所提模型的PSNR 值均优于对比模型，说明重构图像的失真小且质量较高。

表1 不同模型的峰值信噪比对比Table 1 Peak signal-to-noise ratio comparison among different models 单位：dB

为验证本文模型重建图像的视觉效果，在不同采样率下重建图像的视觉效果对比如图6 所示。

图6 在不同采样率下不同模型重建图像的视觉效果对比Fig.6 Visual effects of reconstructed images comparison among different models at different sampling rates

当采样率为1%时，ReconNet［5］和DR2-Net［7］重建图像产生了严重的块效应问题，视觉效果较差，而本文模型的重建效果比较清晰。当采样率为4%时，ReconNet［5］和DR2-Net［7］重建图像仍然存在块效应，本文模型具有较优的视觉效果。在不同采样率下本文模型的均方差损失对比如图7 所示。当采样率为25%时，本文模型测试图像均方差损失的平均值最小，相应PSNR 值的优势较明显，能有效消除块效应现象，具有较优的视觉效果。

图7 不同采样率下本文模型的均方差损失平均值Fig.7 The average of mean square error loss of the proposed model under different sampling rates

分析上述结果可以得到：当采样率（25%）较大时，由于模型的均方差损失较小，因此重建出的图像都表现出较好的视觉效果，但在低采样率为1%时，其他模型重建的图像存在严重的块效应。

为验证本文模型重构的图像在亮度、对比度和结构的优越性，当采样率为1%时，不同模型在重构图像与原始图像之间结构相似性（SSIM）的计算结果如表2 所示。从表2 可以看出，本文模型的SSIM性能有较明显的优势。相比其他模型，本文设计的多尺度全卷积的采样方式可以保存完整的图像结构纹理信息，使大量有用信息进入重构网络，减小了重构图像与原始图像的差异性。因此，本文模型具有较优的SSIM。

表2 当采样率为1%时不同模型的结构相似性对比Table 2 Structural similarity comparison among different models when the sampling rate is 1%

传统的基于迭代压缩感知模型存在迭代次数多、计算复杂度高、耗时长等问题。本文提出的基于深度学习的压缩感知重构模型，在采样阶段，通过对初始图像进行滤波处理，消除了图像中的噪声信息，减少了数据量并保留有用信息。在重构阶段，利用卷积神经网络局部连接、权值共享的特性有效降低了网络的复杂度，减少了训练参数量。通过上述两个阶段的处理，有效地缩短了重构图像所消耗的时间。不同模型重建单张256×256 像素图像花费的时间对比如表3 所示。

表3 不同模型重建图像花费的时间对比Table 3 Comparison of time spent on image reconstruction by different models 单位：s

从表3 可以看出，相比传统的迭代模型，本文模型能有效降低重构过程的时间复杂度，缩短重构时间，节约了计算成本。

4 结束语

本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型MSANet。在采样阶段，通过均值滤波消除图像中的噪声点，得到图像的低频信息。采用多尺度全卷积进行测量，消除重构图像的块效应且保留较多的原始图像信息。在重构阶段，在残差块中引入通道注意力机制挖掘特征图通道之间的关联性，增强了网络提取图像关键特征信息的能力，恢复出视觉效果更加清晰的重构图像。实验结果表明，相比传统的压缩感知模型，本文模型能有效缩短图像的重构时间，相较于基于深度学习的压缩感知重构模型ReconNet、DR2-Net 等，在低采样率下生成的图像更加逼真自然。下一步将在本文模型的基础上引入密集网络，减少网络训练参数，增强特征传播，以缩短重构图像花费的时间。