基于生成对抗网络的SAR图像去噪

2022-06-16 00:31刘帅奇雷钰庞姣赵淑欢苏永钢孙晨阳
关键词:残差卷积噪声

刘帅奇,雷钰,庞姣,赵淑欢,苏永钢,孙晨阳

(河北大学 电子信息工程学院,河北省机器视觉技术创新中心,河北 保定 071002)

合成孔径雷达(synthetic aperture radar,SAR)图像在灾害监测、环境监测、海洋监测、资源勘查、农作物估产、测绘和军事等方面得到广泛应用,越来越受到世界各国的重视.相干斑噪声的存在往往使计算机视觉系统处理SAR图像变得困难[1].

在早期的SAR图像去噪算法中,大多采用多视处理技术.随着SAR图像应用的不断扩展,对空间分辨率的要求不断提高,多视处理技术已经不能满足高分辨率的要求.因此,进入20世纪80年代后,基于空域滤波的去噪算法得到了较大发展,并提出了许多经典滤波器,例如Lee滤波、Kuan滤波和Frost滤波[2]等.这些滤波器可以较好地抑制噪声,但这些滤波器易受滤波器窗口大小的影响并且很难平衡图像去噪和细节保留两者间关系,而非局部均值滤波去噪算法(non-local mean,NLM)[3]利用子块的相似性对噪声图像进行滤波,在低水平噪声下可以取得较好的去噪效果,然而高水平噪声去噪时性能衰退.因此学者们提出基于变换域的算法,并逐渐成为SAR图像去噪的主流算法.变换域去噪算法主要是基于小波变换或多尺度几何变换的去噪算法,例如小波域贝叶斯降噪、轮廓波域SAR图像降噪、Shearlet域SAR图像降噪[2]等,变换域算法可以有效地抑制斑点.但是,由于变换域的某些固有缺点,降噪算法会导致像素失真.近年来,随着机器学习的发展,深度学习被广泛应用到图像处理领域,并取得令人满意的效果.

深度学习是机器学习领域的一个研究方向,其概念来源于人工神经网络,所谓“深度”是含多隐层的感知器.深度学习可以将低层次特征有效组合起来,逐步进行学习与特征提取,形成能够表示属性类别的抽象高层次特征.深度学习模型有多种类型,如卷积神经网络(conventional neural network,CNN)、自动编码器、生成对抗网络(generative adversarial networks,GAN)[4]等,其各类算法模型有着各自的特点与优势,其中GAN是近年来复杂分布上无监督学习最具前景的方法之一.该网络通过框架中2个模块(生成模型(generative model,GM)和判别模型(discriminative model,DM)),GAN通过2个模块的互相博弈学习来产生理想的输出.2014年,Ian等[5]发表第1篇有关生成对抗网络的论文,提出了GAN的模型框架,讨论了非饱和损失函数.2015年,Alec等[6]提出了深度卷积对抗生成网络(deep convolutional generative adversarial networks,DCGAN)模型,采用了CNN结构来实现GAN模型,在生成器和判别器的特征提取层用卷积神经网络代替了原始GAN中的多层感知机.然而,GAN一直存在着训练不稳定、损失函数无法指示训练过程、模式崩坏(mode collapse,MC)和生成结果缺乏多样性等问题.为了解决传统GAN模型的局限性,Martin等[6]在2017年提出了WGAN(wasserstein generative adversarial networks),从原理上对GAN模型进行了论证与改进,取得了令人满意的图像处理效果.因此,本文将WGAN扩展到SAR图像去噪应用中,提出了一种基于生成对抗网络的SAR图像去噪算法.

1 相关研究

1.1 噪声模型

SAR图像是通过对雷达脉冲的回波信号进行相干处理而形成的.当电磁波照射到一个较为粗糙的表面或同时照射到了多个散射体时,由于雷达目标与雷达站之间具有相对运动,多个散射体与雷达之间具有不同的距离和相对速度,这就使得雷达接收机接收到的回波信号虽然在频率上仍然是相干的,而在相位上已经不再相干,其结果是导致相邻像素点的灰度值会由于相干性围绕某一均值随机地起伏变化,在图像上就产生了不可避免的相干斑噪声[1].Goodman[7]证明完全发育的相干斑噪声是一种乘性噪声,其模型为

I(x,y)=R(x,y)*N(x,y),

(1)

其中,(x,y)表示分辨单元中心像素方位向和距离向的坐标;I(x,y)表示实际观察到的图像强度(被相干斑噪声污染的图像强度);R(x,y)表示随机的地面目标的雷达回波,即应该观察到的未被相干斑噪声污染的真实图像;N(x,y)表示衰落过程引起的相干斑噪声.并且R(x,y)和N(x,y)相互独立.相干斑噪声服从广义的Gamma分布.

1.2 残差网络

随着卷积网络的不断发展,一般以增加卷积网络深度的方式来提高卷积网络的性能.然而,学者们发现随着层数的加深,很容易导致梯度消失.为此,He等[8]提出了残差网络(ResNet),如图1所示.

图1中网络参数的优化可以转为学习一个残差函数F(x)=h(x)-x.只要F(x)=0,就可以构成一个恒等映射h(x)=x,这样可以使网络更加容易拟合.因此使用具有跳跃连接的残差块,使得残差网络更容易优化,并且能够增加相当的深度来提高准确率,有效地缓解了梯度消失.

图1 残差网络Fig.1 Residual network

1.3 生成对抗网络

GAN中包含了2个模块,一个是生成模块,另一个是判别模块.以生成图片为例,生成器G的作用是不断学习训练集中真实图像的概率分布,将输入的随机噪声生成为可以以假乱真的图片(生成的图片与训练集中的图片相似度越高越好).而判别器D的作用则是判断一个图片是否是真实的图片,目标是希望能够将生成器G产生的“假”图片与训练集中的真实图片区别开.GAN的训练方法是让生成器G和判别器D进行博弈,通过互相竞争的方式让生成器与判别器同时得到提高.由于判别器D的存在,使得生成器G在没有大量先验知识及先验分布的情况下也可以很好地去学习并逼近真实的数据,最终让生成器生成的图片达到理想的效果(即判别器D无法区分生成器G生成的图片与真实图片).

为了学习生成器在数据集x上的分布pg,本文定义输入噪声变量pz(z)作为先验,然后将其到数据空间的映射表示为G(z;θg),其中G是由参数θg的多层感知器表示的可微函数.本文还定义了输出单个标量的多层感知器D(x;θd).本文训练判别器以最大化正确鉴别的概率,同时训练生成器以最小化对数log(1-D(G(z))),因此,优化的目标函数定义如下:

(2)

在实际学习过程中,对于一个具体的样本,判别器需要最小化损失函数,即式(3),以此来尽可能地把真实数据样本分为正例,将生成器生成的样本分为负例

La=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[log(1-D(x)].

(3)

原始GAN模型一直存在着梯度消失、训练不稳定、生成器和判别器的损失函数无法指示训练进程、模式崩溃、生成样本缺乏多样性等问题.WGAN彻底解决了GAN训练不稳定的问题,不再需要小心地平衡生成器和判别器的训练程度,并确保了生成样本的多样性[9].而且WGAN解决这些问题并不需要设计复杂的网络架构,甚至仅仅使用最简单的多层全连接网络就可以做到.本文在WGAN模型的基础上,提出了一个基于残差学习的DCNN结构的生成对抗网络框架用于SAR图像去噪.

2 所提去噪算法

2.1 网络结构

SAR图像去噪的目的是生成高质量的SAR图像.对于生成对抗网络来说,生成网络应能在不丢失原始图像细节信息的情况下,尽可能地去除噪声.因此,算法的关键在于设计一个良好的SAR去噪图像生成网络.在本算法中,生成网络采用了与DCNN框架相似的结构,输入模拟SAR图像和其对应的真实无噪图像,利用残差网络的机制,训练学习从模拟SAR图像到模拟SAR图像与其对应的干净图像的差值图像的映射,即残差图像.将输入的模拟SAR图像与从网络中得到的残差图像(图像中的噪声成分)作差,即可得到去噪后的图像.

本文所构造的生成网络结构由17个网络层构成.其中首层由1个卷积层和1个修正线性单元(rectified linear unit,ReLU)激励函数构成.中间15个网络层具有相同的结构,是引入残差机制的DCNN结构,其中每层包含2个卷积层,并通过Relu激励函数和批量归一化(batch normalization,BN)[10]来加快网络的训练.BN能够将卷积网络的张量进行类似标准化的操作,将其归一化到合适的范围,从而加快训练速度,而且可以使每一层尽量面对同一特征分布的特征值,减少了中间层数据分布变化带来的不确定性.残差结构中的跳跃连接将输入馈送到深层,以便每个残差块参照输入调整输出并保存更多的信息,提高了网络的训练效率和收敛性能.生成网络的最后一层是卷积层,输出经残差学习后的残差图像,即SAR图像中的噪声成分.将噪声图像与该残差图像作差,得到生成的去噪图像,图像输出大小为256×256.生成器的整体网络结构如图2所示:

图2 生成网络结构Fig.2 Structure diagram of the generate network

SAR图像去噪的目的不仅仅是使去噪后的图像更加清晰,还在于使去噪后的图像更加接近无噪声的真实图像.因此,本算法加入了一个判别网络来辨别每个输入的图像的真假(即辨别输入的图像为生成器生成的去噪图像还是真实的无噪声图像).判别网络的结构如图3所示:

图3 判别网络结构Fig.3 Structure diagram of the distinguish network

在本算法中,整个判别网络使用了6个具有渗漏型整流线性单元(leaky rectified linear unit,LReLU)激励函数的卷积层,在不进行批归一化处理的情况下,使用LRelu作为激励函数使网络可以很快收敛.输入图像后,本文从这些组Conv-LRelu中学习到图像的特征,最后叠加一个Sigmoid函数,将计算所得的输出映射到一个[0,1]的概率分数,根据分数判别输入的去噪图像与真实无噪声图像的相似程度,分数越高越接近真实的图像.

2.2 损失函数

为了保证生成网络产生的去噪图像具有良好的质量评价和视觉效果,并且能够更好地指导整个网络的训练,本文提出了一种新的损失函数,将峰值信噪比(PSNR)、结构相似性指数(SSIM)和对抗性损失按适当的权重结合起来,形成了新的损失函数.对抗性损失是为了使生成器产生更好的输出与判别器互相博弈.峰值信噪比与结构相似性指数是图像去噪常用的质量评价指标.新的损失函数不仅能够引导网络的训练方向,还兼顾了生成去噪图像的质量与视觉效果.新的损失函数定义如下:

L=λaLa+λpLp+λsLs,

(4)

其中,La表示对抗性损失(式3);Lp表示峰值信噪比;Ls表示结构相似性指数,即生成器生成的去噪图像和与其对应的真实无噪声图像之间的结构相似度.λa、λp和λs分别是对抗性损失、峰值信噪比和结构相似度的预定义权重.

3 实验结果与分析

3.1 实验设置

本文算法采用CPU版本的TensorFlow 1.2.1框架,使用Python 3.5.2作为编译器,在Intel酷睿i5 6200U处理器上进行训练,并利用Pycharm 2019.3.4作为集成开发环境.设备配置为64位Windows 10操作系统,内存4 GB.

采用在自然图像上添加模拟相干斑噪声的图像作为训练集.训练数据集采用200张512×256的对比图像,每张对比图像由2张256×256的模拟乘性噪声图像与其对应的真实无噪声图像水平拼接而成,目的是使生成网络学习去除乘性噪声,并给判别网络提供判别的标准.其中,真实无噪声图像选用了50张图像去噪领域中常用的干净的自然图像,将这些图像分别添加4个噪声水平(其中视数L=1,2,3,4)的乘性噪声后得到200张模拟乘性噪声图像.验证集则采用了2组图像,其中一组是不包括在训练数据集中的添加乘性噪声的自然图像.真实的SAR图像来自TerraSAR-X雷达卫星,由位于意大利那不勒斯的菲里德里克第二大学的官方网站提供[11],如图4所示:

a.Woods SAR图像;b.Fields SAR图像;c.Urban Areas SAR图像.图4 真实SAR图像Fig.4 Real SAR images

本文算法中训练数据集较小,但由于设备限制,CPU运行能力有限,所以设置batch_size大小为1.本文设置学习速率为0.000 2.在训练过程中,本文将损失函数中几个参数的权重分别设置为λa=-0.5,λp=-1.0和λs=-0.1,并使用RMSProp优化方法对网络进行优化.

3.2 实验分析

为了验证本算法在真实SAR噪声图像上的去噪效果,本文利用训练好的模型在真实SAR图像上进行去噪效果测试,并分别与Frost滤波[12]、基于稀疏表示的剪切波域贝叶斯去噪(BSSR)[13]、块匹配三维滤波(BM3D)[14]、基于CNN和向导滤波的SAR图像去噪(CNN)[15]、基于多尺度CNN的SAR图像去噪(MSCNN)[16]进行比较.去噪结果如图5~7所示,与其他算法相比,经过本算法处理后的去噪结果可以更有效地抑制噪声,并保留图像中大部分的细节信息,去噪后图像的整体视觉效果更好.

a.Frost去噪;b.BSSR去噪;c.BM3D去噪;d.CNN去噪;e.MSCNN去噪;f.GAN去噪.图5 对Woods图像去噪后的图像Fig.5 Denoising images for the Woods image

a.Frost去噪;b.BSSR去噪;c.;BM3D去噪;d.CNN去噪;e.MSCNN去噪;f.GAN去噪.图6 对Fields图像去噪后的图像Fig.6 Denoising images for the Fields image

a.Frost去噪;b.BSSR去噪;c.BM3D去噪;d.CNN去噪;e.MSCNN去噪;f.GAN去噪.图7 对Urban areas图像去噪后的图像Fig.7 Denoising images for the Urban areas image

为了定量分析去噪效果,更好地将本文算法与其他算法进行对比,本文利用等效视数(equivalent nnumbers of looks,ENL)[17]、边缘保持指数(edge preservation index,EPI)[17]和基于平均比的边缘保持度(edge preservation degree based on ratio of the average,EPD-ROA)[16]对各去噪算法进行量化评价.其中,ENL越大说明算法去噪后图像的视觉效果越好.EPI能反映算法的边缘保持能力,EPI越大去噪后图像保留的细节信息越多.EPD-ROA同样能反映算法的边缘保持性能,并且对乘性噪声模型度量边缘的保持程度具有更好的鲁棒性.表1给出了真实SAR图像去噪的实验结果.

表1 不同算法对真实SAR噪声图像去噪结果Tab.1 Denoising results of the real SAR noise images by different algorithms

从表1可以看出,与其他算法相比,本文提出的算法产生的去噪结果具有最高或次高的ENL值,并具有最高的EPI值和EPD-ROA值,这说明本文算法具有良好的去噪性能,同时还可以保留更多的细节信息.实验证明本算法在真实的SAR图像上,表现出了良好的去噪效果.

4 结论

本文提出了一种基于生成对抗网络的 SAR 图像去噪算法,其中,生成网络使用引入残差结构的DCNN模型,结合残差学习和深度卷积网络来完成SAR图像去噪.判别网络则使用了一个典型的卷积神经网络,用于分辨SAR去噪图像与真实无噪图像之间的差别,并将其反馈到网络中,引导生成器生成质量更高的去噪图像.同时,本文还定义了一个新的损失函数,损失函数利用生成对抗网络的对抗性损失以及峰值信噪比等图像去噪的质量评价指标指导生成器的训练,使其能够生成令人满意的SAR图像去噪结果.实验结果表明,本文算法能表现出较好的去噪效果.本文提出的算法虽然在SAR图像去噪的应用上取得一定的成果,但是算法训练耗时较长,如果能进一步优化对抗网络的结构(例如在保证去噪效果的情况下减少生成网络的层数),提升设备性能,就可以进一步提高训练的速度.

猜你喜欢
残差卷积噪声
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于残差-注意力和LSTM的心律失常心拍分类方法研究
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于声类比的仿生圆柱壳流噪声特性研究
汽车制造企业噪声综合治理实践