ANLResNet网络的前视声呐图像散斑去噪方法

2022-02-18 13:53徐泽楠赵冬冬郭新新

小型微型计算机系统 2022年2期

陈朋，徐泽楠，赵冬冬，郭新新

1(浙江工业大学计算机科学与技术学院，杭州 310023) 2(浙江工业大学信息工程学院，杭州 310023) 3(中国科学院深海科学与工程研究所，海南三亚 572000)

1 引言

前视声呐(Forward-Looking Sonar,FLS)在水下避障、航线规划、能源勘探、反鱼雷、海底电缆铺设与检修等诸多方面有着广泛的应用.前视声呐使用换能器基阵聚焦声波信号，形成所需扫描方向的波束.发出的声信号经水下传播，遇到障碍物反射产生回声信号.换能器基阵阵元将接收到的回波信号与周围噪声转变为电信号.然后前视声呐接收机通过正交解调，低通滤波以及波束形成生成声呐图像.该图像以极坐标的形式排列.将其转换到笛卡尔坐标中，即可生成前视声呐图像.这也是前视图像声呐的基本原理[1].

受限于海洋环境与声呐成像机制，声呐图像所受的噪声影响远比一般的光学图像严重.声呐图像噪声主要包括环境噪声、混响噪声与自噪声[2].环境噪声来源于海洋，主要为自然噪声.自噪声指设备运动产生的噪声，包括水动力噪声、机械噪声与螺旋桨噪声.混响噪声则是由水下介质的反射、散射与不均匀波动引起，在浅海环境尤为明显.混响噪声在声呐图像上表现为颗粒状的明暗相间的纹理，即散斑噪声.其幅度的概率密度函数服从瑞利分布[3].前视声呐图像去噪的目标在于去除散斑噪声的同时，尽可能的保留前视声呐图像的纹理，边缘等细节信息.

传统声呐图像降噪方法主要是通过调节滤波器窗口大小，使用滤波器来平滑图像实现降噪，常见的有Frost滤波器[4]，Lee滤波器[5]等.这种方式在均匀区域能取得较好的效果，但在对边缘的去噪过程中会丢失边缘信息.为保持降噪后图像边缘信息，非局部的思想被引入，Kumar等人[6]提出一种结合多曲率非局部均值(Non Local Means Denoising,NLM)滤波和Curvelet域硬阈值的图像去噪技术，能够在保留边缘信息的前提下获得较好的去噪效果.在声呐图像去噪上，范等人[7]通过将瑞利分布的散斑噪声转化为正态分布的高斯噪声再通过自适应BM3D处理，能够有效的去除声呐图像上的散斑噪声.Wang等人[8]提出了一种基于黄金比例的自适应非局部空间信息去噪方法，提高了水下声呐图像中非局部空间信息的去噪性能.陈等人[9]提出了一种基于自适应三维块匹配滤波的侧扫声呐图像散斑降噪方法.有效地降低侧扫声呐图像中的散斑噪声.在频域滤波上，毛等人[10]提出了一种基于小波预处理及自适应权函数的非局部均值滤波算法.在去噪效果上有明显提升，尤其适用于噪声强度较大的场景.赵等人[11]提出了一种基于改进支持向量机(SVM)分类和稀疏表示的图像混合去噪算法.在保存边缘和纹理方面效果较好，并具有较好的去噪性能和结构相似性.Wu等人[12]提出了一种基于稀疏表示的图像去噪方法.使用DCT对声呐图像进行分解然后再进行OMP重构，然后将对数变换应用于先前重建的图像，以使其适应于稀疏表示降噪模型，该方法可有效去除声呐图像中的加性和乘性噪声.

卷积神经网络的出现带动了计算机视觉领域的发展.在光学图像去噪任务中，卷积神经网络有着传统算法所无法具备的优势.Zhang等人[13]提出DnCNN网络模型并将其用于图像去噪，该方法使用卷积神经网络将噪声与原始图像分离，取得了显著优于其他方法的去噪结果.此后，在光学图像去噪领域，一系列基于网络结构的改进工作被相继提出.Tai等人[14]提出的MemNet(Memory Network)采用一种非常深的端到端持久性存储网络用于图像恢复.Liu等人[15]提出的MWCNN(Multi-level Wavelet CNN)使用了一种多级小波CNN框架，通过将离散小波变换与卷积网络结合，在接收场大小和计算效率之间进行很好的权衡，有利于恢复图像细节.Zhang等人[16]提出的FFDNet(Fast and Flexible Denoising Network)将噪声图作为网络输入，是一种快速、灵活的去噪模型，为实时图像去噪领域提供了一种实用的解决方案.Guo等人[17]提出的卷积盲去噪网络(CBDNet)结合噪声估计和非盲去噪模型.将合成噪声图像与真实噪声图像一起用于网络训练，能够在真实噪声图像上实现良好的去噪效果和泛化能力.

现有的模型大部分基于噪声-清晰图像对进行监督学习，但在声呐图像中，清晰图像匮乏并且获取困难.这对于卷积神经网络在声呐图像去噪上的应用带来了巨大的挑战.FieldII[18]是J.A.Jensen等人利用声学原理设计的一个超声系统.它能模拟超声传感器声场、仿真线性声学超声图像.FieldII使用Tupholme-Stepanishen方法计算脉冲超声声场.该程序能够配置不同类型的超声传感器，并计算他们的发射声场和脉冲回波声场，也可以模拟任何一种线性成像以及逼真的人体组织图像.在医疗图像处理上已被广泛使用.前视声呐同为声学设备，可以使用FieldII来模拟前视声呐图像.

目前针对声呐图像的卷积神经网络算法较少，Kim等人[19]利用基于卷积神经网络的自动编码器算法对声呐图像降噪处理.仅用单个连续图像就可以获得高质量的声呐图像.

本文提出了ANLResNet网络用于前视声呐图像去噪.该算法在统计前视声呐噪声图像全局信息的同时，使用残差块从输入的图像和它相应的真实图像中学习到一个端到端的映射.并针对前视声呐图像特性，使用FieldII构建模拟前视声呐图像数据集，对网络进行训练.

2 算法总体设计

残差网络在计算机视觉任务中表现出色.SRResNet[20]作为ResNet架构在图像超分辨率领域的成功应用，其结构中引入了多个残差块，每个残差块中包含两个卷积层，卷积层后采用批规范化层(batch normalization,BN)对数据进行归一化，PReLU作为激活函数紧跟于第一个卷积层后，两个亚像素卷积层(sub-pixel convolution layers)被用来增大特征尺寸.

本文在该算法的基础上，结合非对称金字塔非局部块(Asymmetric Pyramid Non-local Block,APNB)，提出了ANLResNet网络用于前视声呐图像去噪.APNB将输入噪声图像的信息与全局信息结合，将此作为残差块的输入.残差块的堆叠使网络能提取更多的特征.最终实现较好的前视声呐像去噪效果.

图1为本文所提出的网络结构图，该网络主要可分为4块.第1块为一个3×3的卷积层加上一个批规范化处理层.卷积层用来增大输入噪声图像特征尺寸，BN层来规范化输入，并提升声呐图像对比度；第2块为APNB用于统计全局信息，捕获前视声呐噪声图像上两个有一定距离的像素点间的联系，提升去噪网络的性能；第3块为残差块部分，共12个残差块，以堆叠残差块的形式提取更多的特征来提高去噪效果；第4块为3×3的卷积层加上一个批规范化处理层，并在此结果上添加APNB统计的全局信息，然后再通过子像素卷积层避免图像中的棋盘效应，将输出图像还原为原始输入图像的尺寸.

图1 ANLResNet网络结构Fig.1 Architecture of ANLResNet

2.1 神经网络中的非局部块

残差神经网络中的卷积操作都属于对局部区域进行操作，本文算法中将图像全局信息统计添加到网络结构中.使用非局部操作来捕获图像上两个不同像素点间的联系，将图像中每个像素点位置的响应计算为除该像素点外所有位置的特征的加权总和，并将该响应值传递给残差块来增强网络的去噪效果.

非局部均值在深度神经网络中的定义如式(1)所示：

(1)

其中I表示输入信号，O表示输出信号，I与O的维度相同，尺寸相同.用来计算位置x和所有可能关联的位置y之间的关系，f值越小，表示位置y对x影响越小.g(Iy)用于计算输入信号在y位置的特征值.C(I)是归一化参数.Ox即为在位置x的像素点与所有位置特征的加权总和.

令zx=WzOx+Ix，即可将式(1)中的非局部操作变形成一个非局部操作块(Non-local Block)，以便其可以被插入到已有的结构中.Non-local Block[21]的结构如图2(a)所示.I为输入的特征，首先经由3个1×1卷积将输入图像转化为3个特征矩阵，尺寸都为C×H×W，然后将这3个特征矩阵展开为C×N的特征，其中N=H×W.将特征矩阵φ和θ相乘，然后通过softmax函数进行归一化得到V.y=V×γT，对yi进行1×1的卷积，还原通道数C，并将该结果加上输入I，以此作为最终模块的输出结果Z.

Non-local Block能够有效地捕获了同一图像中不同像素点间的远程依赖关系.但Non-local操作相比于传统卷积核操作而言计算消耗过大，需要较大的显存开销.在实际部署过程中存在硬件限制.

Non-local Block的主要计算量在两个矩阵乘法，每个乘法的时间复杂度都为O(CN2)=O(CH2W2).若能取一个较小的S值，对θ和γ进行降采样，使得θ∈RC×S，γ∈RS×C.这样Non-local Block中矩阵乘法的时间复杂度变为O(CNS)=O(CHWS)，并且不会改变输出维度和大小.S的值越小计算的时间复杂度越小，然而Non-local Block的性能也会随之降低.在Non-local Block的实际部署中，一个合适的降采样方式至关重要.Zhu等人[22]提出Asymmetric Pyramid Non-local Block，在Non-local Block添加空间金字塔池化(Spatial Pyramid Pooling,SPP)，对θ和γ进行降采样，在取得较好的效果的同时降低了大量的计算成本.Asymmetric Pyramid Non-local Block的结构如图2(b)所示.本文网络将使用SPP对θ和γ进行降采样.

图2 非局部块结构Fig.2 Architecture of non-local block

2.2 神经网络中的残差块

本文算法中对残差块的结构进行调整，相比于SRResNet网络中的残差块结构，本文算法移除了残差结构中不必要的模块，优化了网络的结构，增加了网络的深度，提高声呐图像去噪性能.

批规范化处理层(batch normalization,BN)可以使深层网络的训练变的容易，加速网络训练结果收敛，并且通过正则化的方式，能够有效防止模型过拟合.前视声呐图像依靠回波成像，图像整体较暗，对比度相比于光学图像较低，使用BN层可以拉伸图像的对比度，凸显细节.然而批处理归一化层消耗的内存量会与其紧跟着的卷积层相同.SRResNet的每个残差块中都包含着两个BN层，随着残差块个数的叠加，在批处理归一化层上的内存消耗也会逐步增加.

本文算法中，将残差块中的批处理归一化层去除，减小单个残差块的资源消耗.并且在输入卷积层后添加批处理归一化层，拉伸图像的对比度，防止模型过拟合.这种方式保留批处理归一化层的功能，又降低了同等网络深度下的网络计算资源.本文算法相比于同等深度的原始SRResNet在训练期间能够节省大约50%的内存使用量.

3 实验结果与分析

本文使用FieldII构建模拟前视声呐图像数据集训练ANLResNet，通过对比SRResNet网络和本文算法在训练集与验证集loss和PSNR值的变化曲线，验证本文所提出的网络性能要优于SRResNet.为了验证本文提出算法在前视声呐图像上去噪效果的优越性，本文选取了部分去噪后的模拟前视声呐图像以及真实前视声呐图像进行主观和客观指标的评价.主观上，通过视觉检查一些可视特点，包括边缘保持能力、模糊程度、点目标保持以及客观上难以被察觉的细节来评价算法去噪性能；客观上，视觉评估可以通过公认的图像质量评价指标来评估算法去噪性能，包括全参考图像质量指标和无参考评价指标[23].

3.1 声呐图像数据集

3.1.1 模拟前视声呐图像数据集

本文使用FieldII来模拟前视声呐图像.在FieldII中设置半圆阵的发射阵，线阵接收.换能器阵元个数为129，中心频率为350kHz，采样频率为1.4MHz(4倍频).波束数设置为512.编写模型在前视声呐视场中添加随机位置的物体来模拟真实前视声呐图像，将模拟的模型数据导入，得到换能器接收电压值，对其进行DFT(替代了正交解调+低通滤波)，波束形成，得到声呐图像，然后再对图像进行坐标转换，将图像从极坐标系转化到笛卡尔坐标系，即可得到扇形的前视声呐接收图.本文共使用FieldII模拟了1000张声呐图像.本文使用的模拟声呐图像见图3(a)，对模拟声呐图像加入均值为0，标准差为0.3、0.5、0.7、0.9、1.1、1.3的散斑噪声，以此构建声呐图像噪声对.图3(b)为图3(a)添加均值为0，标准差为0.9的散斑噪声后的图像.然后再对每一张图像进行水平镜像来扩充数据集，减少过拟合.构建的声呐图像噪声对共有12000对.将其中10000对作为网络的训练集，取其中1000对作为测试集，并将剩下的1000对作为验证集.

图3 模拟前视声呐图像Fig.3 Simulation of forward looking sonar image

3.1.2 真实前视声呐图像数据集

本文选择的真实前视声呐图像来源于Sonar-to-Satellite Translation using Deep Learning论文中使用的数据集ARACATI 2017[24].

该数据集采集于30°01′30.1″S52°06′24.0″W，使用微型远程操作车辆(ROV)LBV300-5收集.该设备上配备了指南针，SOUTH S82T差分全球定位系统(DGPS)和Teledyne BlueView P900-130多光束前视声呐(MFLS).车辆以0.3米的恒定深度和大约3米的高度接近水面行驶.MFLS视场(FoV)覆盖130度，向前距离为50米.总共收集了2894幅声像.在声学图像中可以看到港口结构，例如杆、码头、船体和石头.

3.2 网络性能对比

本节对比SRResNet网络和本文算法训练集与验证集loss和PSNR的记录，验证本文所提出的网络性能要优于SRResNet.

网络训练环境为Telsa K80，batch_size设置为8.loss函数选用的MSE.受限于硬件资源，在已经添加APNB到网络的情况下，使用SRResNet的残差块结构，网络最多能加入6个残差块，ANLResNet网络最多能够使用12个残差块，因此本节实验中将SRResNet网络的残差块个数为7，本文算法残差块个数为12.图4即为SRResNet网络和本文算法在训练集与验证集loss和PSNR值的变化曲线.可以明显的看到训练过程中本文网络的loss值更低，训练集的PSNR更高.在epochs>8时，本文算法验证集loss值更低，验证集PSNR值更高.实验结果表明，本文所提出的网络去噪性能要优于原始SRResNet.

图4 网络训练过程对比Fig.4 Comparison of network training process

3.3 全参考图像质量评价指标

模拟前视声呐图像使用峰值信噪比(PSNR)来验证算法的优越性.

峰值信噪比(Peak Signal to Noise Ratio,PSNR)

(2)

(3)

其中I为干净的图像，K为去除噪声后的图像.PSNR作为最为普遍的评鉴图像质量的客观量测法，其计算方式如式(2)所示.其中MSE为原始图像与去噪后图像的均方误差.MSE越小代表两幅图像相差的越小.MSE越小，则PSNR越大.PSNR越大，代表着去噪后图像质量越好，也就意味着图像的去噪效果越好.

3.4 无参考图像质量评价指标

由于真实的前视声呐图像无法获取到参考图像，所以本文采用了两种无参考图像质量评价指标来验证本文算法，其中包括等效视数(ENL)、散斑抑制指数(SSI).

1)等效视数(Equivalent Number of Looks,ENL)

(4)

其中μ为去噪后图像的均值，σ为去噪后图像的标准差.ENL值越高，代表该算法对均匀区域的散斑噪声的平滑效率越高.

2)散斑抑制指数(Speckle Suppression Index,SSI)

(5)

其中If表示经过算法去噪后的图像，Io表示含噪声图像.μ和σ分别为对应图像的均值和标准差，如果滤波器性能可有效减少斑点噪声，则该指数往往<1.

3.5 模拟声呐图像去噪对比实验

本节分别使用传统算法NLM、Fan等人[7]的BM3D算法、Kim等人[19]的Autoencoder网络、SRResNet网络[20]和本文算法对模拟声呐图像进行去噪实验.

模拟前视声呐图像视场中添加了随机位置的实心圆形、空心圆形与实心矩形.然后对模拟声呐图像加入均值为0，标准差为0.3、0.5、0.7、0.9、1.1、1.3的散斑噪声.将不同程度的噪声图像输入到算法中，得到去噪后的图像与模拟前视声呐图像进行对比，并计算两者之间的PSNR值，通过比较全参考图像质量评价指标的方式，验证本文算法去噪效果的优越性.

模拟声呐图像最终去噪效果图如图5所示.主观感受上，NLM和Fan等人提出BM3D方法在去除标准差较低的散斑噪声上效果较好，但在处理标准差较大的噪声时，这两种方法的去噪效果并不理想.Kim等人的Autoencoder网络在去除不同强度的噪声时都能起到滤波效果，但去噪效果一般.SRResNet网络和本文算法在去除不同强度的散斑噪声上均能做到不错的效果

图5 模拟前视声呐图像算法处理效果图，1-6对应不同噪声等级.(a)NLM；(b)Fan等人[7]；(c)Kim等人[19];(d)SRResNet网络[20]；(e)本文算法Fig.5 Algorithmic processing result of the simulate forward looking sonar image,1-6 correspond to different noise levels..(a)NLM;(b)Fan et al[7];(c)Kim et al[19];(d)SRResNet[20];(e)Proposed Method

表1为NLM算法、Fan等人[7]BM3D、Kim等人[19]的Autoencoder网络、SRResNet网络[20]和本文算法处理噪声图像得到的图像的质量评价表.其中黑体的数值为最优值.峰值信噪比(PSNR)越大，代表图像的去噪效果越好.从指标上来看，NLM和Fan等人BM3D算法相比于神经网络算法PSNR都偏低.Kim等人的Autoencoder网络的PSNR介于Fan等人BM3D和SRResNet之间.本文算法相比于原始SRResNet，在不同噪声水平下去噪效果各有优劣，但平均PSNR本文算法效果更优.本文算法计算所得的平均PSNR相比于NLM提高了17.02%，相比于Fan等人BM3D方法提高了19.06%，相比于Kim等人的Autoencoder网络提高了8.12%，相比于SRResNet网络提高了0.28%.

表1 各算法全参考图像质量评价指标表Table 1 Table of full reference image quality assessments for every method

3.6 真实声呐图像去噪对比实验

本节分别使用传统算法NLM、Fan等人[7]BM3D、Kim等人[19]的Autoencoder网络、SRResNet网络[20]和本文算法对真实声呐图像进行去噪实验，比较无参考图像质量评价指标，验证本文算法去噪效果的优越性.

真实声呐图像最终去噪效果图如图6所示.主观感受上，NLM算法对前视声呐回波强度较弱区域进行了滤波，但在该区域仍能看到明暗的变化，去噪效果并不理想，并且在前视声呐回波强度较强区域的散斑噪声去除效果较差.相比于NLM，Kim等人的Autoencoder网络与Fan等人BM3D算法对图像整体散斑噪声的去除效果更佳，但在回波强度较弱区域明暗变化仍旧很大，去噪效果有待提升.SRResNet[20]与本文算法对前视声呐图像散斑噪声去噪效果较好.在视觉效果上也达到了抑制强回波区域的噪声，平滑弱回波区域的效果，较好地保护了边缘和细节.

图6 真实前视声呐图像算法处理效果图(a)真实前视声呐图像，(a1)为码头桥墩，(a2)为岸边图，(a3)为船舶停靠处桥墩；(b)NLM；(c)Fan等人[7]；(d)Kim等人[19]；(e)SRResNet网络[20]；(f)本文算法Fig.6 Algorithmic processing result of the real forward looking sonar image.(a)real forward looking sonar image,(a1) is the Pier bridge image,(a2)is the Bank image,(a3) is thePier of ship dock;(b)NLM;(c)Fan et al[7];(d)Kim et al[19];(e)SRResNet[20];(f)Proposed method

表2为NLM算法、Fan等人[7]BM3D、Kim等人[19]的Autoencoder、SRResNet网络[20]和本文算法处理噪声图像后得到的图像的无参考图像质量评价表.其中粗体的数值为最优值.等效视数(ENL)越大表示平滑效率越高，散斑抑制指数(SSI)越小，说明散斑滤波性能越好.从指标上来看，相比于NLM算法、Fan等人BM3D、SRResNet网络、Kim等人的Autoencoder网络本文算法的等效视数最高.在散斑抑制指数上，本文算法略逊于Kim等人的Autoencoder网络，但相比于NLM算法、Fan等人BM3D与SRResNet网络本文算法的散斑滤波性能更好.本文算法计算所得的ENL相比于NLM平均高出约37.10%，相比于Fan等人BM3D平均高出约26.23%，相比于Kim等人的Autoencoder平均高出约4.30%，相比于原始SRResNet平均高出约16.77%.本文算法计算所得的SSI相比于NLM平均降低约2.99%，相比于Fan等人BM3D平均降低约3.88%.相比于原始SRResNet平均降低约2.84%.

表2 各算法无参考图像质量评价指标表Table 2 Table of no reference image quality assessments for every method

4 结论

本文结合SRResNet与APNB，提出了ANLResNet网络用于前视声呐图像去噪，并针对前视声呐图像特性，使用FieldII构建模拟前视声呐图像数据集，对网络进行训练.训练结果采用模拟前视声呐图像与实际前视声呐图像进行评估.实验结果表明，本文算法在不同噪声等级的模拟前视声呐图像上表现较好，平均PSNR相比于NLM提高了17.02%，相比于Fan等人BM3D方法提高了19.06%，相比于Kim等人的Autoencoder网络提高了8.12%，相比于SRResNet网络提高了0.28%.在真实前视声呐图像上，本文算法相比于NLM，ENL平均高出约37.10%，SSI平均降低约2.99%.本文算法相比于Fan等人BM3D，ENL平均高出约26.23%，SSI平均降低约3.88%.本文算法相比于Kim等人的Autoencoder，ENL平均高出约4.30%.本文算法相比于原始SRResNet，ENL提高了16.77%，SSI平均降低约2.84%.虽然该方法主要用于前视声呐图像降噪，但对于其他声学图像的降噪，散斑噪声的抑制上也有一定的使用价值.