郭 聪,杨 敏
(南京邮电大学 自动化学院、人工智能学院,江苏 南京 210023)
随着相机以及手机的普及,图像成为人们获取信息的重要媒介,人们对图像质量的要求也越来越高。但图像在采集过程中,经常受到外界信号扰动等因素的干扰,导致图像出现噪点以及边缘模糊等问题。因此,图像去噪技术作为一种图像处理技术,在保持图像空间结构信息的前提下,将图像中的噪声移除,以此获得高质量的图像,为后续图像处理打下坚实基础。噪声主要可以分为高斯白噪声、椒盐噪声和真实噪声等。当前图像去噪算法可以分为两大类,分别是传统去噪算法和基于深度学习的去噪算法。
传统方法主要利用图像自身的结构特性进行去噪,如图像的稀疏性、低秩性等。使用滤波器如双边滤波[1],利用图像稀疏性如非局部集中稀疏表示法(NCSR)[2],基于块匹配和三维变换域滤波(BM3D)[3]等。但此类方法依赖于图像先验信息,需要人工调参,普适性不强。
基于深度学习的去噪算法,随着硬件发展,计算机算力得到解放。深度学习在计算机视觉领域得到了广泛的运用[4-12]。深度学习去噪算法,通过学习退化图像(噪声图像)与原始图像之间的隐含映射来实现去噪,具有优良的性能。Zhang等[13]使用卷积神经网络进行去噪,提出了DnCNN(denoising convolutional neural networks)。随后Zhang等[14]将神经网络提取的先验与去噪模型相结合,提出了IRCNN(CNN denoiser prior for image restoration)。Zhang等[15]将噪声等级图引入深度网络,提出一种可以处理多种噪声的单一网络FFDNet(fast and flexible denoising convolutional neural network)。为了进一步优化神经网络的去噪性能,Tian等[16]将空洞卷积与普通卷积相结合,提出了增强卷积网络ECNDNet(enhanced convolutional neural denoising network),进一步提高了网络的感受野。
虽然上述基于深度学习的去噪算法,已经取得良好的效果,但依旧存在问题,去噪网络会忽略图像边缘信息以及纹理特征。去噪网络没有关注到输入图像的边缘信息,所以在恢复图像的边缘会模糊,同时局部纹理被平滑,导致在边缘区域复原效果较差。因此,如何从有限的特征中提取图像的边缘以及纹理特征是后续去噪网络的难点。
针对上述问题,该文引入了注意力机制。因为注意力机制可以关注图像特征中感兴趣的区域,所以进行了大量研究。Hu等[17]提出的通道注意力模块(squeeze-and-excitation,SE)用来学习通道之间的相关性。Woo等[18]通过将空间注意力与通道注意力相结合,提出了CBAM(convolutional block attention module),更好地从通道和空间位置上学习特征图之间的相关性。这两种注意力机制通过池化操作和卷积来产生权重。而Yang[19]通过统计学规律提出SimAm(simple attention module),在无需参数的情况下学习特征图每个位置上通道以及空间上的相关性。
在此基础上,该文提出了一种基于无参注意力机制和特征融合的图像去噪深度网络(denoising network with nonparametric attention and feature fusion,NAFDNet)。主要工作如下:
(1)针对复原图像边缘信息模糊,图像纹理不清晰,以残差去噪网络为基础,提出一种基于无参注意力机制和特征融合的图像去噪深度网络(NAFDNet)。
(2)设计了一个注意力特征提取模块,该模块将普通卷积与空洞卷积相结合,加强了网络的特征提取能力,利用无参注意力机制SimAm,从空间和通道两个方面,关注特征图中重要通道中的关键区域,使网络可以恢复清晰的边缘以及纹理细节。
(3)设计一个特征融合增强模块,该模块利用两个1×1卷积自动学习全局特征图与局部特征图的权重,进而使网络关注重要特征图,能够有效地融合全局特征和局部特征,获得健壮的融合特征。
该文设计了一种基于无参注意力和特征融合的图像去噪网络(denoising network with nonparametric attention and feature fusion network,NAFDNet)。去噪网络结构如图1所示。
图1 NAFDNet网络框架
整个网络主要由注意力特征提取模块(attention feature extracted block,AFE)、特征融合增强模块(feature fusion enhanced block,FEB)和3×3普通卷积层组成。在特征提取部分主要由4个注意力特征提取模块来提取噪声图像的局部特征,内部引入SimAm无参注意力机制,从而使网络关注图像的高频细节;在特征融合增强模块,利用两个1×1卷积自动学习全局特征与局部特征的权重,权重与对应特征图相乘后相加,有效融合局部特征与全局特征。最后通过卷积层,预测图像噪声,利用残差结构,得到干净图像。
1.2.1 SimAm模块
SimAm根据人类视觉神经元同时注重空间注意力以及通道注意力提出了一种3d注意力模块。与现有的通道和空间注意模块相比,为特征层中的特征映射推断三维注意权值(即考虑空间和通道维度),而不在原始网络中添加参数。具体地说,基于一些神经科学理论优化一个能量函数,以找到每个神经元的重要性。通过设计在同一通道内目标神经元与其他神经元之间的线性可分性,来判断该神经元是否应该被关注。通过推导能量函数的封闭形式的解,得到神经元的最小能量为:
(1)
因为注意力是通过加权实现,SimAm的公式如式(2)所示,其中E包括通道上和空间上所有神经元的能量的张量。
(2)
具体实现:已知输入特征图,其中C、H、W代表特征图的通道数量、高度以及宽度。其中N代表H×W内像素数量减1。首先,沿着空间方向进行挤压,求得每个H×W上的均值x。其次,求得X上的每个位置对同通道内空间位置求均值误差的平方X'。再次求得每一个通道内X'/n的和t作为通道信息。最后,计算每个像素的能量大小。这种是利用统计学规律,计算自身能量,在不改变参数总量的情况下,从特征图的空间位置以及通道两个方面计算,可以自适应地调整特征图每个位置的权重,进而关注有效特征,抑制无效特征。
1.2.2 注意力特征提取模块架构
为了提取噪声图像的局部特征,该文堆叠了4个注意力特征提取模块(attention feature extracted block,AFE),每一个特征提取模块使用了残差结构。因为残差结构可以加快网络的收敛速度。特征提取模块将空洞卷积与普通卷积相结合来构建稀疏结构,不仅可以扩大网络的感受野,还能有效提高去噪网络的性能。它由5个卷积层组成,分别是2个普通卷积以及混合空洞卷积组。其中普通卷积是3×3卷积层,混合空洞卷积组是由3个扩张率分别为1、2、5的3×3卷积层构成,可以避免由单一扩张率带来的网格效应。
为了关注特征图的边缘以及细节信息,在混合卷积和普通卷积构成的提取块中,引入了无参注意力机制SimAm。注意力特征提取模块的架构如图2所示。
图2 AFE结构
为了更好地提取图像的细节信息,即图像的边缘以及纹理特征。在特征提取模块中嵌入无参注意力机制SimAm模块。对提取的特征从空间和通道位置上学习每个位置的相关性,进而自适应改变每个位置的权重,后与提取特征相乘,来关注重要特征,抑制无效特征。单个注意力特征提取块的表达式如下所示:
(3)
其中,Fin表示输入特征图,Fout表示输出特征图,F3表示卷积核大小为3的普通卷积,Fd表示卷积核为3的混合空洞卷积组空洞率分别为1、2、5,f1是通过所有卷积得到的特征,Fs表示该文所使用的SimAm注意力模块。
在设计的网络中,将4个AFE模块相连接,把上一个模块的输出作为下一个模块的输入,将得到的特征图向下一个模块传递。噪声图像往往具有一些复杂的纹理和边缘,该文设计的模块,可以使网络关注图像的纹理以及边缘,同时减少参数的引入,提高特征传播效率以及减少网络占用的资源。
特征融合增强模块(feature fusion enhanced block,FEB)主要由两部分组成,即残差模块(residual block,RB)和特征融合块(feature fusion block,FFB)。残差模块可以进一步提取局部特征。特征融合块采用两个1×1卷积学习特征图之间的权重,权重与对应特征图结合来关注重要特征图,有效地融合图像局部特征和全局特征,进而抑制噪声信息。
文献[20]采用简化残差模块来提取特征,没有使用批量归一化层,可以提高计算速度,减少显存。同时,批量归一化会导致有些特殊特征的过度平滑,使得模型性能大幅下降,所以将残差块中的批量归一化都移除。同时,为了获得较大的感受野,对残差块做了改进,加入了空洞卷积,这样可以更好地提取特征。此时残差块由3个卷积和2个ReLU函数组成,前2个卷积为普通卷积,而最后一个为扩张率为2的空洞卷积。改进残差块如图3实线方框所示。
FFB模块将第一层卷积层提取的特征图作为全局特征和残差模块得到的特征图作为局部特征进行特征融合:通过concat操作在通道上进行拼接,拼接后通道数为128,利用1×1卷积自动学习两个特征图的权重,得到两个64通道的权重图,分别对应于全局特征图和局部特征图,最后通过两个权重和特征图对应相乘后相加,得到融合的特征图。
整个特征融合增强模块的公式如下所示:
(4)
其中,Fd2代表卷积核为3、扩张率为2,Fd代表3×3卷积核,fglobal代表全局特征图,R代表ReLU函数。
FEB结构如图3所示。
图3 FEB结构
损失函数采用均方差函数对网络参数进行训练,其数学表达式为:
(5)
其中,θ是NAFDNet网络参数;R(yi;θ)是经过网络训练得到的残差图像(噪声图);yi是噪声图像,xi是干净图形,N为训练样本。
实验平台为Ubantu16.04系统,采用NVIDA GeForce 1080TI GPU进行模型的训练和测试,使用PyTorch平台搭建网络框架。从Waterloo exploration[21]中挑选500张图像和BSD400[22]的400张图像作为NAFDNet的训练数据集。训练过程中,通过对训练集图像随机旋转90°、180°、270°和水平翻转来获取更多的增强图像,裁剪为50×50的patch大小,增大训练样本数量,提升网络的鲁棒性。训练采用Adam优化器,初始学习率为1e-3,β1、β2分别为0.9和0.99。训练80个epoch,0~30的epoch的学习率为1e-3,31~60的epoch的学习率为1e-4,61~80的epoch学习率为1e-5。每次的batch size设置为16。灰度测试集采用Set12[23]。
实验采用峰值信噪比(PSNR)和结构相似性(SSIM)作为网络的去噪性能的客观评价指标。
2.2.1 峰值信噪比(PSNR)
PSNR的计算公式如下:
(6)
PSNR的单位为dB,PSNR越大,表明MSE越小,代表两个图像相似度越高。
2.2.2 结构相似度(SSIM)
SSIM也是表示图像x以及图像y的结构相似性,公式如下:
当x与x一样时,SSIM的值为1,所以SSIM的值越大,代表干净图像与去噪图像相似度越大。
为了验证网络中各个模块的有效性,设计了消融实验,测试集选用Set12:(1)以未加入SimAm注意力模块以及特征融合增强模块(FEB)的网络作为基线网络(baseline,BL);(2)对提取的特征加入SimAm模块,进一步关注图像的纹理细节(baseline with SimAm,BL+SimAm);(3)加入特征融合增强模块中的残差块,进一步提取局部特征(baseline with SimAm and residual block,BL+SimAm+RB);(4)特征融合增强模块中保持残差块不变,验证特征融合块的有效性:将第一层卷积层提取的特征作为全局特征与利用残差块提取的局部特征融合,融合方式如图4所示。
图4 特征融合方式
(1)直接将全局特征与局部相加(baseline with SimAm and direct feature fusion,BL+SimAm+direct),如图4中左侧所示。(2)该文所使用的特征融合模块,利用两个1×1卷积来自动学习全局特征和局部特征的权重,以关注重要特征图,进而有效融合全局特征和局部特征(baseline with SimAm and feature fusion enhanced block,BL+SimAm+FEB)。
由表1数据可知,在特征提取块中引入SimAm注意力机制,对基线网络的PSNR值上有0.05 dB的提升,说明SimAm机制可以有效提高网络的去噪性能。就全局特征与局部特征相融合,文中方法与直接将两者相加融合的方式的PSNR值高0.02 dB,同时具有更好的结构相似性,证实了提出的特征融合模块的优越性。由最后一列可见,该文提出的模型比基线网络的PSNR值上高出0.09 dB,同时具有较好的结构相似性,说明引入SimAm注意力机制,同时改进全局特征和局部特征的融合方式,可以改善去噪网络的性能。
表1 消融实验结果对比
在灰度图上,为了验证文中网络的去噪性能,与DnCNN[13]、IRCNN[14]、FFDNet[15]和ECNDNet[16]四种去噪神经网络进行实验对比。实验测试图像采用Set12数据集,测试了高斯噪声图像去噪。噪声图像由人工合成,原图作为干净图像用于性能对比。表中包括上述四种去噪网络和文中方法在不同的高斯噪声强度下的PSNR值及SSIM值。其中加粗的代表最好的结果,横线代表第二好的结果。
由表2以及表3可见,提出的NAFDNet在不同的高斯噪声强度下平均值都取得了最高的PSNR值以及SSIM值,证明NAFDNet具有较好的去噪性能。在表3中,NAFDNet在高斯噪声强度为15与25的情况下,大部分测试图的PSNR值均优于其他方法,少部分的测试图的结果与最好的结果相差在0.05 dB以内。表3中,NAFDNet在所有高斯强度下的SSIM值都位于第一,第二,说明经过NAFDNet更好地恢复了图像结构。综上所述,NAFDNet在这两项客观指标上取得了比较好的结果,说明网络具有较好的去噪性能。
表2 在Set12上不同方法去噪效果PSNR对比
除了PSNR和SSIM两项指标,该文选取“Lena”来对比主观视觉效果。“Lena”的去噪效果如图5所示。
“Lena”图像中,“Lena”的帽子含有大量的条纹,这些条纹数量较多,且分布密集,在去噪的过程中可能会被过度平滑。从图5的局部区域放大区域中,DnCNN算法的帽子上的细纹在去噪过程中,很多纹理被去噪网络平滑了,帽子上几乎没有细小条纹。FFDNet算法采用噪声水平图作为先验,可以很好地匹配噪声图像的噪声,恢复较好的噪声图像纹理细节,但仍然存在伪影。ECNDNet的恢复图像是因为使用单一扩张率的空洞卷积导致纹理小部分缺失。而NAFDNet算法结果图中的纹理效果相对更加完好,纹理细节更接近原图。综上所述,经过图5的主观视觉对比,进一步表明NAFDNet算法在保持图像的纹理和边缘结构上具有很大的优势。
表3 在Set12上不同方法去噪效果SSIM对比
图5 不同去噪算法对“Lena”的复原结果(σ=25)
随着计算机算力的提升,深度学习在计算机视觉领域取得了很多成果。针对之前基于深度学习的图像去噪算法存在的去噪图像边缘以及纹理不清晰等问题,提出一种基于无参注意力机制和特征融合的图像去噪网络。该方法将注意力机制引入特征提取模块,从空间和通道上关注重要特征,有效提取关键信息;同时提出一种新的特征融合方式,更好地融合局部特征与全局特征。实验结果表明,该去噪算法在灰度图以及彩色图上具有较好的客观指标;同时,在主观视觉效果上,去噪效果图具有更加清晰的边缘以及更丰富的纹理细节。未来将继续研究去噪网络在高光谱图像上应用,从而进一步优化网络结构。