申仕煜, 叶晓东, 王 昊, 陶诗飞
(南京理工大学电子工程与光电技术学院, 江苏 南京 210094)
合成孔径雷达(synthetic aperture radar,SAR)凭其固有的全天时、全天候特性被广泛应用于军事和民用领域。然而,SAR成像过程中经常受相干斑噪声影响[1],严重破坏了SAR图像质量。因此,相干斑噪声抑制成为后续SAR图像解译的一个不可或缺的预处理步骤。传统SAR图像相干斑抑制方法中最先发展起来的是基于空间域的滤波方法[2],但此类方法普遍存在边缘及细节信息过度平滑问题。基于小波变换的SAR图像抑斑方法[3-4]在相干斑抑制性能上优于空间域的滤波方法,但此类方法仍然无法有效保存图像的纹理细节。之后,基于非局部抑斑方法[5-7]应用于SAR图像抑斑任务。其基本思想是自然图像具有自相似性,并且在整个图像中存在大量的相似块。基于非局部抑斑方法较为经典的有PPB(probabilistic patch-based)方法[6]以及用于SAR图像去噪的3D块匹配滤波(block-matching and 3D filtering for SAR image despeckling,SAR-BM3D)方法[7],并且都取得不错的抑斑效果,但相似块的搜索使其计算量增加,提高了计算复杂度。
近年来,已有很多基于深度学习的去噪方法应用于SAR图像抑斑任务中。Chierchia等人[8]通过对数变换将乘性噪声转变为加性噪声并利用前馈去噪卷积神经网络(denoising convolutional neural networks, DnCNN)[9]的思想提出SAR-CNN方法,实现了SAR图像相干斑抑制。同年,Wang等人[10]针对乘性噪声提出了一种类似残差策略的ID-CNN (image despeckling CNN)方法,该方法利用噪声图像除以网络学习到的相干斑噪声分布得到抑制后的图像。期间,也出现了通过改进网络结构来提升性能的方法[11-13],如用于SAR图像去噪的深度残差网络(dilated residual network for SAR image despeckling, SAR-DRN)[12]、用于SAR图像去噪的深度双域卷积神经网络(dilated densely connected network for SAR image despeckling,SAR-DDCN)[13]等。除了单纯地改进网络结构外,也有将传统方法与神经网络相结合的算法,如非局部思想与神经网络结合[14],基于引导滤波的图像融合算法[15]与神经网络结合[16]等。尽管深度学习在SAR图像相干斑抑制领域取得了非常好的性能,但随着性能的提升,网络深度不断增加导致了计算资源的大量占用。此外,随着网络参数量的不断增加,很容易出现网络过拟合的现象。
受GoogLeNet[17]以及ResNeXt[18]启发,提出一种基于多尺度交互卷积神经网络的SAR图像相干斑抑制方法。该网络结构中采用了1×1卷积、密集连接[19]以及跳跃连接[20]等网络结构,使得网络在含相干斑噪声图像及对应的干净图像之间建立起非线性映射关系。实验结果表明,本文方法相比于ID-CNN方法不仅节省了计算资源,而且还取得了更好的抑斑性能。
与自然界中常见的加性高斯白噪声不同,SAR图像质量下降的主要原因是乘性的相干斑噪声。而相干斑噪声是由于SAR成像系统的特性造成的,SAR图像乘性噪声模型[21]可以描述为
Y=XF
(1)
式中:Y表示含有相干斑噪声的SAR图像;X表示对应的干净图像;F表示相干斑噪声且噪声的强度信号,其服从Gamma分布[21]
(2)
式中:L表示等效视数(equivalent number of looks, ENL);Γ(·)表示Gamma分布的函数。
本文设计的深度学习网络结构如图1所示。在该网络结构中,L1层包含卷积层和激活函数(Relu)层,L2~L6层均为图2所示的多尺度交互特征提取模块(multi-scale interactive feature extraction module, MIFEM)模块,L7层为一个卷积层。在L2~L6之间,使用简化的密集连接方式来搭建5个MIFEM模块,c表示通道拼接。该网络的所有卷积操作步长设为1。最后,将最初输入的SAR图像与该网络估计的相干斑噪声进行减法操作,得到相干斑抑制后的SAR图像。
图1 网络结构Fig.1 Network structure
如图2所示,MIFEM模块由两个1×1卷积层、两个5×5卷积层、两个3×3卷积层以及跳跃连接组成。其中,两个1×1卷积分别用于降维和升维。5×5卷积与3×3卷积构成一个多尺度卷积组,共搭建两个,主要用于获得不同感受野以提高网络的泛化性能。此外,在该模块中,添加跳跃连接操作[20]以防止出现梯度消失问题同时加快网络收敛速度。
如图3(a)所示,跳跃连接是将某一层的特征值直接传递至后面某一网络层进行加法操作,可由下式表示:
xi+1=F(x)+xi
(3)
式中:xi及xi+1分别表示跳跃连接结构的输入与输出;F(x)表示跳跃连接结构内进行的卷积操作及非线性变化。该模块所有卷积层都包含一个非线性激活函数层。除右侧1×1卷积核个数为64外,所有卷积核个数为16。卷积操作过程中步长设为1。
图2 多尺度交互特征提取模块Fig.2 Multi-scale interactive feature extraction module
图3 两种模块结构图Fig.3 Two module structure diagrams
密集连接是Huang等人[19]针对缓解反向传播过程中梯度消失问题首次被提出的方法,并且该方法在图像分类任务中也取得了优异的效果。然而,密集连接的每个层都会聚合前面所有层的特征致使运算效率低且存在特征冗余。
针对这一问题,本节利用文献[22]的思想来简化密集连接方式,其结构如图3(b)所示。将浅层特征进行一次性的聚合不仅提高了网络的运算效率,还因特征的重复利用减少了网络特征的冗余。以图3为例,简化密集连接块中的每层输入,可以表示为
(4)
式中:Hl(·)表示卷积及非线性变化的组合操作;xl表示第l层输入;[x0,x1,x2,x3]表示对前3层得到的特征图进行拼接。
简化密集连接块除最后一层的输入与密集连接块相同外,其前面的所有层都只将上一层的输出作为本层的输入,以此减少了大量参数。
本文实验使用NWPU-RESISC45数据集[23]来进行网络训练和测试。在该数据集中选择400张尺寸为256×256的图片作为训练集以及10张尺寸为256×256的图片用来测试,其测试图片如图4所示。
图4 10张测试图片Fig.4 10 images used for testing
为了提高网络的泛化能力,在训练前对训练集进行数据增强操作。该操作首先对选取的400张训练集分别按比例1,0.9,0.8,0.7进行缩放,图像块大小设为40×40并以步长为10来提取缩放图像的图像块。然后将获取的图像块进行翻转、90°旋转以及翻转并旋转操作,得到547 584个图像块。最后将这些图像块与相干斑噪声通过公式(1)合成得到合成SAR图像。
整个网络结构模型的参数设置如表1所示,其中MIFEM模块参数在第2.2节已有介绍。网络训练前,初始学习率设为0.001,而后每经过30轮次训练乘一个衰减系数0.1,共训练60轮次。网络的优化方式采用Adam[24]优化方法,损失函数采用欧式损失与总变差损失的组合,其公式定义如下:
(5)
(6)
表1 网络模型结构参数
此外,本文实验基于pytorch框架搭建而成,计算机系统为Win10 64位系统,使用的硬件设备配置为Intel Core CPU 3.7 GHz 以及NVIDIA RTX 2080 GPU。
为进一步分析本文方法在降低计算参数方面所带来的优势,与ID-CNN方法[10]中的网络参数设置进行比较。由表2可知,相比于ID-CNN方法,所提的方法在网络计算参数量上节省了约32.83%。
表2 网络参数量比较
为验证本文方法在减少参数量的同时保持性能不下降的有效性,本文采用PPB[6]、SAR-BM3D[7]以及ID-CNN[10]方法与本文方法比较。在进行仿真实验过程中分别设置了视数为1、2、4、10这4种不同强度噪声来进行比较。其中,在合成SAR图像实验下,由于存在无噪声样本图像,故采用图像质量评价指标峰值信噪比(peak signal to noise ratio,PSNR)及结构相似(structural similarity index,SSIM)来评估相干斑噪声抑制效果。在真实SAR图像实验对比中,不存在无噪声SAR图像样本,故采用ENL指标来评估抑斑性能。PSNR、SSIM及ENL分别如下所示:
(7)
(8)
(9)
将图4的测试图片与相干斑噪声根据式(1)进行合成得到合成SAR图像。如表3所示,相比于其他3种方法,本文方法测试得到的平均PSNR及平均SSIM值在4种不同强度噪声情况下都是最大的,而且随着噪声强度的增加,本文方法与其他3种方法的指标差值越来越大。同时可以看出,基于神经网络的方法在4种不同强度噪声下都比传统方法效果要好,ID-CNN与本文方法在训练过程中测试的平均指标结果如图5所示。
表3 各方法测试图像取得的平均PSNR与平均SSIM结果比较
图5 两种方法的测试结果对比(L=10)Fig.5 Comparison of test results for two methods (L=10)
图6展示了飞机场测试图像在噪声强度L=4的情况下各种方法测试结果对比,可以清楚看到PPB方法抑制后的图像变得过于平滑,而且在较细节较明显处出现纹理失真。使用SAR-BM3D方法得到的抑制图像在保留细节方面优于PPB方法,但纹理细节的保留仍不够理想。相比于PPB及SAR-BM3D,基于神经网络的去噪方法在视觉上都具有较好的效果。从图6右下角的放大图来看,相比于PPB与SAR-BM3D,ID-CNN及本文方法保留的白线细节较全。
图6 各种方法测试结果对比(L=4)Fig.6 Comparison of test results of various methods(L=4)
如图7所示,本文使用AIRSAR拍摄Flevoland地区、Deathvalley地区以及San Francisco地区的SAR图像来验证本文算法同时将这些图像大小裁剪为600×600。以图7为例,PPB方法的抑制图像虽然在相干斑抑制方面取得了不错的效果,但在特征较为明显的物体边缘产生了纹理失真而且明显存在过度平滑现象。SAR-BM3D方法虽然没有PPB抑制图像存在的问题,但仍包含大量的残余噪声从而导致相干斑的抑制效果并不理想。ID-CNN与本文方法在相干斑抑制及纹理细节保留方面都取得了较好的视觉效果。同样,图8和图9在主观视觉上都取得了较好的可视效果。除视觉上人为主观判断外,本节实验使用ENL指标来衡量本文方法在测试真实SAR图像上抑制的效果。如表4所示,本节实验在图7~图9的两个框内的同质区域测得的ENL值最大。综合来看,相比于其他3种方法,本文方法的抑斑能力最好。
图7 Flevoland地区的测试结果对比Fig.7 Comparison of test results of the Flevoland
图8 Deathvalley地区的测试结果对比Fig.8 Comparison of test results of the Deathvalley
图9 San Francisco地区的测试结果对比Fig.9 Comparison of test results of the San Francisco
表4 ENL指标结果比较
本文提出了一种基于多尺度交互结构卷积神经网络的SAR图像相干斑抑制方法。该方法通过1×1卷积的作用以及密集连接的简化结构来减少参数量,同时使用跳跃连接并引入残差学习策略以加快网络的收敛速度。在合成SAR图像以及真实SAR图像实验测试中,相比于其他3种方法,本文方法不仅在主观视觉上取得了更好的效果,而且还通过图像质量评价指标的定量分析得到最好的相干斑抑制性能。