基于修正CycleGAN的声呐图像库构建方法研究

2022-01-21 15:20:34凡志邈夏伟杰
声学技术 2021年6期
关键词:饮料瓶声呐损失

凡志邈,夏伟杰,刘 雪

(南京航空航天大学电子信息工程学院,江苏南京 210016)

0 引 言

受水中介质复杂性的影响,电磁波易被吸收,导致在水中的传播距离很短,难以实现远距离探测任务,而声波在水中可传播数十千米,是一种较为理想的传播信号。低频段下,声波传播距离较远,可以直接利用信号的频谱等特征实现噪声识别工作(如舰船噪声);而高频阶段,在几百米范围内可以实现声呐目标的成像,目前成像声呐逐渐成为海洋水声探测行业的必需设备之一[1]。由于水下环境复杂,实际作业难度大,难以获取大量数据样本。然而目前许多水下工程研究都需要较大的数据样本,如利用深度学习实现水下目标分类与检测网络的训练需要大量的声呐图像,但现实中无法收集到大量的声呐图像。在现有文献中,并没有直接用于声呐图像生成的资料,大多数采用多波束技术生成声呐图像[2]。很多研究人员已经在合成孔径雷达(Synthetic Aperture Radar,SAR)和遥感光学图像之间的映射方面取得一定的进步。如Schmitt等[3]利用Pix2Pix成功实现了SAR图像到遥感光学图像之间的映射。由于声呐成像的原理与雷达成像有很多相似之处,声呐也因此扮演着水下雷达的角色。本文受到SAR图像与遥感光学图像之间图像迁移思想的启发,借助SAR图像与遥感光学图像的映射及图像风格迁移思想,提出基于CycleGAN模型利用光学图像合成声呐图像,实现声呐图像库的构建方法。

1 CycleGAN理论

1.1 CycleGAN网络

CycleGAN的总损失由对抗损失LGAN和循环一致性损失Lcyc两部分组成,可由式(1)表示[9]:

其中:λ是用来控制循环一致性损失在整体损失中的占比。

图1 CycleGAN模型框架Fig.1 The framework of CycleGAN model

对抗损失[9]:

式中:log主要用于求极值,其底为2、e、10均可。式(2)表示正向对抗损失,反向对抗损失与其类似,即对抗损失采用交叉熵损失函数。

循环一致性损失[9]:

式(3)中,fλ和bλ分别控制前向循环损失和后向循环损失的占比。

在训练时,生成器与鉴别器交替更新,直到判别器的损失接近0.5,即达到纳什平衡条件。循环一致性损失用来防止生成器G和F产生过拟合,避免所有的光学图像全部映射到声呐图像中的一张图像上。

1.2 CycleGAN网络改进

CycleGAN网络在实现图像风格迁移时不需要匹配的数据集,且在纹理和色彩转换方面有一定的优势[10],但是在训练过程中CycleGAN容易出现模型崩塌的现象,接下来从CycleGAN损失函数进行改进,以缓解该情况的发生,使最终合成的声呐图像有更好的效果。

(1)将原始的GAN损失公式中的对数似然损失用平方损失替换(如式(4)所示),可以增加网络训练的稳定性。

(2)增加一个恒等损失函数,该损失函数在CycleGAN的实际应用部分被提及[9],用来增强图像翻译色调的准确性。CycleGAN中的重构损失主要由两部分组成:GAN损失和循环一致损失,其中GAN损失实现类别迁移,而循环一致损失保证循环迁移。除此之外,在本文实验中加入一个恒等损失,用来防止循环迁移过多,其对应的表示形式为[9]

(3)为了加快网络的收敛速度,在判别器的损失函数中加入Wasserstein距离[6],其定义为

其中KL为KL(Kullback-Leibler)散度,表达式为[7]

而在此情况下,Wasserstein距离仍然可以体现两个分布的距离,因此本文利用Wasserstein距离作为正则项,指导CycleGAN模型的训练,有效缓解模式崩塌问题。对Wasserstein距离的实际求解需要满足利普希茨连续条件(Lipschitz)[11]:判别损失函数梯度不能超过常数K,如式(19)所示:

其中,Relu(⋅)为激活函数,p表示判别器梯度求范数,本文取值为2;K值取1即表示本文采用1-Lipschitz约束条件。

改进后,CycleGAN模型的判别器损失函数为

其中,λw为超参数;

CycleGAN模型改进前后,鉴别器的损失函数变化曲线如图2所示。从图2可见,采用Wassrestein距离修正后的鉴别器,损失函数有更好的收敛效果。

2 基于CycleGAN模型的声呐图像组成

2.1 实验数据获取

在本实验中,分别采集了不同目标的光学图像和声呐图像,并用它们来训练CycleGAN模型。本文对三种目标的声呐图像进行了合成实验,分别是三角形、饮料瓶以及轮胎。因此,需要采集相应的光学图像和声呐图像,并且每个实验都是独立进行的。对于光学图像,由于没有现成的数据集可供使用,我们通过网络爬取(如饮料瓶、轮胎)以及采用绘图软件手工绘制方式(如三角架)获得。本文采用了英国的Tritech公司生产的Gemini720前视二维成像声呐采集声呐图像,图像分辨率为 1024×768×3,但是由于图像中实际目标占比较小,因此根据目标大小按照特定比例进行裁剪,最终使所有图像的分辨率均为256×256×3。具体实验数据集组成如表1所示。

图2 改进前后CycleGAN模型鉴别损失函数对比Fig.2 Comparison of discriminator loss functions of CycleGAN before and after improvement

表1 CycleGAN模型实现光学到声呐图像迁移数据集构成Table 1 The datasets for training CycleGAN to transfer optical image to sonar image

2.2 实验结果与分析

每类目标的声呐图像合成实验分开训练,如图3所示为最终的合成效果,同时为了对比本文改进的CycleGAN网络实现的光学到声呐的图像风格转换效果,本文还训练了Pix2Pix、MUNIT[12]、DiscoGAN[13]。训练时的具体参数设置如表2所示。

表2 CycleGAN模型训练参数设置Table 2 Training parameter setting of CycleGAN

图3 基于CycleGAN实现光学到声呐图像的风格转换Fig.3 Style transfer from optical image to sonar image based on CycleGAN

从图3中的实验结果可以看出,训练的网络都能实现从光学到声呐图像的风格迁移,但是最终的效果却不同。Pix2Pix模型可以生成三角架和饮料瓶,但是轮胎的生成效果不好,此外当输入不同的测试图片时,合成的声呐图像总是相同。从图3中可以看出,MUNIT和DiscoGAN模型合成的声呐图像的分辨率很低;原CycleGAN模型合成的声呐图像出现像素点缺失现象,相较之下,经过修正的CycleGAN模型合成的声呐图像与真实的声呐图相较接近,并且对不同的输入也能合成不同的声呐图像,从而保证声呐图像的多样性,如图4所示。

3 基于Mask RCNN的合成声呐图像的目标检测实验

为了进一步验证生成的声呐图像的效果,本文还开展了目标检测实验。实验开展分成两步,先对生成的每一类目标进行了单目标检测,然后将生成的所有数据集混合,进行多目标检测。每一次实验数据集的组成如表3所示,其中训练集和验证集通过本文方法而生成,通过成像声呐获取测试集。

图4 合成声图像的多样性Fig.4 Diversity of synthetic sonar images

表3 目标检测数据集组成Table 3 Composition of object detection datasets

在目标检测实验中,采用的是 Mask RCNN[14]模型,它是在Faster RCNN[15]基础上的改进,增加了一个用于分割任务的分支。虽然在检测速度上较Faster RCNN慢,但是检测精度有很大的提升。目前,利用Mask RCNN可以实现目标的检测、识别、分割以及人体姿态估计等任务。本文中Mask RCNN的特征提取网络采用一个32层的卷积神经网络,为了解决模型的退化问题,在部分层中采用了残差模块[16]。

目标检测结果如图5所示,图5(a)~5(b)中左侧为输入,右侧为输出结果,右侧图形中的数据为置信度,即检测到目标落在规定的置信度区间的概率。(1)对于单目标的检测,图5(a)是三角架目标的检测结果。从图5(a)中可以看到,三角架目标被成功地检测出来,并且所有的三角架测试图片均被检测出来,检测率达到100%。图5(b)为饮料瓶的检测结果,饮料瓶也被成功检测到,所有的饮料瓶测试图片中8张图片未被成功检出,单目标饮料瓶的检测率约为96.2%。图5(c)为轮胎目标的检测结果,轮胎目标被检测出来,所有的轮胎测试图片中5张没有检测到任何目标,检测率约为97.6%;因此从单目标的检测结果来看,利用CycleGAN模型构建的声呐图像库可以用于目标检测网络的训练。(2)对于多目标的检测如图5(d)所示,左边为输入的多目标图像,图中的目标有三角架、饮料瓶、轮胎,右边为检测结果;从检测结果可以看出,多目标输入的情况下,对应的目标也成功被检测出来,进一步验证了CycleGAN模型生成的声呐图像的有效性。

图5 目标检测结果Fig.5 The results of object detection

4 结 论

本文提出了采用CycleGAN网络,利用光学到声呐图像风格迁移,实现声呐图像库的构建。通过对损失函数进行改进,加快网络的收敛速度,提高了CycleGAN网络的性能。通过与不同风格迁移网络进行比较,结果表明修正后的CycleGAN能生成更好的声呐图像。最后用合成的声呐图像训练Mask RCNN网络,并用真实的声呐图像进行测试,训练后的模型能够成功检测出目标,进一步验证了本文构建的声呐图像库的有效性。但是本文方法也有一定的局限性,并不是对输入的所有测试图片都能合成一个比较理想的声呐图像,因此在声呐图像库的构建过程中,需要用到大量的光学图像,从合成中的声呐图像中人为地选出合适的结果。

猜你喜欢
饮料瓶声呐损失
探索大洋的“千里眼”——声呐
少问一句,损失千金
胖胖损失了多少元
一种便携式侧扫声呐舷侧支架的设计及实现
声呐
饮料瓶与变形金刚
玉米抽穗前倒伏怎么办?怎么减少损失?
今日农业(2019年15期)2019-01-03 12:11:33
一般自由碰撞的最大动能损失
COTS技术在声呐装备中的应用
声学技术(2014年1期)2014-06-21 06:56:32
饮料瓶中的凤仙花
智慧与创想(2013年7期)2013-11-18 08:06:04