融合上下文和注意力的海洋涡旋小目标检测

2023-11-22 01:19杜艳玲吴天宇陈括陈刚宋巍
中国图象图形学报 2023年11期
关键词:涡旋卷积海洋

杜艳玲,吴天宇,陈括,陈刚,宋巍*

1.上海海洋大学信息学院,上海 200136;2.自然资源部东海信息中心,上海 200136;3.国家海洋信息中心,天津 300171

0 引言

海洋涡旋普遍存在于世界大洋和边缘海中,空间尺度通常为几公里到几百公里不等。根据海洋涡旋旋转方向可分为气旋涡和反气旋涡,将逆时针旋转(在北半球)归为气旋涡,反之为反气旋涡(Faghmous 等,2013)。海洋涡旋在海洋中动能、质量、热量和营养物质等的传输中起着重要作用,对海洋的循环和大规模水分布(Chen 等,2011;Faghmous 等,2012)影响显著,因此海洋涡旋的检测具有重要意义。

国内外学者已开展了丰富的海洋涡旋检测研究。传统的检测方法主要分为3 大类:1)基于物理参数的方法,包括Okubo-Keiss 参数法(Chelton 等,2007;Henson 和Thomas,2008)、卷绕角度法(Chaigneau 等,2008;Ali Sadarjoen 和Post,2000)和二维小波法(Doglioli 等,2007);2)基于流场几何特征的方法,其中有基于速度矢量几何的涡流检测算法(Nencioli 等,2010)和水平速度分量检测方法(Williams 等,2011);3)基于混合方法,其中有通过结合速度矢量几何以及物理参数法的非线性涡旋检测方法(Chelton 等,2011)以及McWilliam(1984)最早提出的一种基于相对涡旋同时考虑流场几何特征的涡旋检测方法。但是现有的海洋涡旋检测方法存在对参数设置敏感、涡核的初始值设置以及检测方法的泛化性差等问题。随着深度学习的不断发展,衍生出许多将深度学习应用到海洋涡旋检测的方法。Lguensat 等人(2018)在U-Net 网络的基础上降低了原有模型结构,同时根据先验知识改进了多分类的交叉熵损失函数来提高对涡旋的检测。Fan 等人(2020)认为中尺度涡旋检测与其他模态数据密切相关,因此提出一种使用多模态数据的涡旋检测网络(eddy detection network,EDNet),通过对涡旋的多模态数据进行融合来提高涡旋检测的精度。Xu 等人(2019)为了充分利用全局上下文信息来捕获更多的细节,使用金字塔场景解析网络(pyramid scene parsing network,PSPNet)(Zhao 等,2017)对涡旋进行检测,PSPNet 的金字塔模块通过不同尺度的池化模块来获取不同比例的子区域特征,进而提高对不同尺度涡旋的检测精度,同时对检测到的涡旋数量以及大小等进行统计与分析。沈飙等人(2020)使用Mask-RCNN(mask region-based convolutional neural network)(He 等,2017)网络来检测进行多模态数据融合的海洋涡旋。杜艳玲等人(2022)在RetinaNet(Lin 等,2017)基础上做出改进,提高多尺度海洋涡旋的检测精度。

如图1 所示,对大尺度空间区域进行涡旋检测时,由于遥感成像空间分辨率的原因,导致原本空间尺度较大的海洋涡旋在数据表示中呈现为较小的目标,尤其在海洋涡旋活跃海域小尺度目标、密集分布普遍存在,导致其检测精度低问题显著。基于U-Net网络(Ronneberger 等,2015)在小目标检测方面具有优势,本文采用其渐进式下采样和上采样的网络结构,同时融合上下文信息提取模块,通过获取更加丰富的目标轮廓和尺度特征信息提升不同极性海洋涡旋目标检测精度。此外,为了增强小目标关注度,加入注意力机制,在获取丰富的细粒度底层空间信息的同时减少采样过程中轮廓信息丢失,提升小目标检测精度。

图1 海洋涡旋数据集样例Fig.1 Sample of ocean eddy dataset((a)sea surface height map;(b)ocean eddy mask map)

1 相关工作

1.1 基于深度学习的语义分割

采用语义分割技术实现目标检测是计算机视觉领域的研究热点,深度学习极大地提高了语义分割的准确性。全卷积神经网络(fully convolutional network,FCN)(Long 等,2015)的提出,掀起了深度学习在语义分割领域应用的热潮。FCN结构将原有的全连接层进行替换,将输入图像尺寸的解码特征作为输出,减少了位置信息的丢失。但由于最后的全卷积层上采样率过高,会引起底层细节和轮廓信息丢失,尤其对小目标的检测效果不理想。Ronneberger等人(2015)提出U-Net 模型,以FCN 为基础,通过渐进式下采样和上采样减少特征的丢失进而增加小目标的检测性能,最早应用于医学图像分割。Chen 等人(2017)提出的用于图像分割的深度卷积网络DeepLabV3 以及Zhao 等人(2017)提出的PSPNet(pyramid scene parsing network)均通过上下文特征的提取提高模型检测的性能,前者使用不同空洞率的空洞卷积对同一特征图进行操作,一方面通过空洞卷积来增加感受野,提取不同尺度的信息,另一方面学习上下文信息来提高模型的性能。后者使用的金字塔池化模块通过不同采样率的池化模块来获取上下文信息进而提升模型对不同尺度目标的检测性能。DeepLabV3+网络(Chen 等,2018)在针对上下文特征提取改进的模型中最具代表性。虽然现有方法针对小目标检测提出了改进,但现阶段小目标精准检测仍是计算机视觉中面临的挑战。

1.2 小目标检测

由于遥感影像成像特点导致其小目标问题显著,现阶段已有不少学者提出小目标检测的一系列方法(Fu 等,2017;Jeong 等,2017;Lim 等,2021;Liu等,2021)。反卷积单步检测器(deconvolutional single shot detector,DSSD)(Fu 等,2017)对单步检测器(single shot multibox detector,SSD)中所有特征图使用反卷积进行上采样来获得放大的特征图,但是使用反卷积会增加模型的计算量,降低检测的速度。R-SSD(rainbow single shot multibox detector)(Jeong等,2017)融合通过池化和反卷积获得的不同尺度特征,与DSSD 相比获得了更高的精度和速度。Lim 等人(2021)通过在SSD 的基础上增加上下文与注意力机制的融合结构来提升对小目标的检测精度。贾可心等人(2022)在SSD 的基础上增加注意力机制,来提高对海面小目标的检测精度。用于小目标检测的高分辨率网络(high-resolution detection network,HRDNet)(Liu等,2021)使用浅网络来处理高分辨率图像,深网络处理低分辨率图像进而提升高分辨率图像的小目标检测精度。

1.3 视觉注意网络

注意力机制往往关注的是面向特定任务的局部特征而非全局特征,因此在提取显著特征方面具有优秀的表现。Wang 等人(2017)通过叠加残差注意力模块,提高了ImageNet 数据集的分类性能。Woo等人(2018)提出了卷积注意模块(convolutional block attention module,CBAM)。该模块由通道和空间注意力模块组成,轻量通用化使得该模块可以简单有效地集成到现有的模型中,在增加少量参数量以及运算成本的基础上提升模型的特征提取能力。为了降低注意力机制的计算成本,用于语义分割的期望最大化注意力网络(expectation-maximization attention network,EMANet)(Li 等,2019)被提出,同时EMANet 非局部网络的设计将自注意力机制应用到计算机视觉当中。全局上下文网络(global context network,GCNet)(Cao 等,2019)同时在注意力机制与全局上下文的使用中做出改进,使得模型可以更有效地对全局上下文建模。

2 方法

2.1 融合上下文特征和注意力机制的U-Net

在检测偏差容忍度较小的小尺度目标时,需要检测模型提取更加细粒度的空间信息实现小目标的精确定位。而现有深度学习方法由于高采样率导致目标底层空间信息与轮廓特征的丢失,引起小目标检测精度的降低。

基于遥感影像的海洋涡旋检测小目标问题是限制当前海洋涡旋检测精度的关键,获取丰富的细粒度底层空间信息、减少采样过程轮廓信息丢失是提升小目标检测精度的重要途经。U-Net 网络采用渐进式下采样和上采样方式进行特征提取,同时利用了多尺度特征,一方面可以减少高层语义特征的损失,另一方面可以充分提取和利用底层空间特征,在小目标检测方面具有一定的优势。因此本文在U-Net 的基础上改进以提升小目标的检测性能,首先增加上下文特征融合模块来增加对底层空间信息的利用。此外,在网络模型中增加残差注意力模块来提高对特征的提取能力,同时残差注意力模块中的残差结构可以防止网络产生梯度消失。

U-Net网络对上下文信息的利用较少,模型使用卷积神经网络的串行连接,其U 型结构主要提取多尺度信息。通常,获取上下文信息的模块会对同一特征进行不同尺度的池化处理(Zhao 等,2017;Chen等,2017),通过特征融合来获取上下文信息(Lim等,2021)。上下文信息有利于将不同目标更细致地区分,获得细化轮廓,同时使不同目标被区分得更加明确,降低不同目标重叠或相隔较近而导致检测效果不理想的问题。由于数据集中的海洋涡旋普遍以小目标的形式呈现,小目标检测问题一直都是深度学习任务中有待解决的问题,所以本文为了解决小目标海洋涡旋的检测问题,使用注意力机制与上下文特征融合模块,来达到提高小目标检测效果的目的。针对U-Net 网络对小目标检测精度不足,融合注意力机制,提升模型的特征获取和表达能力,进一步提高其对小目标的检测精度。Lguensat 等人(2018)表示,对于涡旋检测任务,现有的模型复杂而训练数据样本数量少导致模型存在过拟合,本文方法也存在同样的问题。为了处理过拟合现象,采用随机区域采样以及随机掩码处理的数据扩充方法,增加训练数据样本量,同时增加训练数据的多样性以降低过拟合。

本文基于U型的渐进式采样网络,改进的U-Net结构FA-U-Net(feature-attention-U-Net)如图2 所示。其中,左半部分为下采样的编码器结构,右半部分为上采样的解码器结构。编码器和解码器都由4 个相同的编解码块构成,编码器中的每个编码块由两组相同的卷积核为3 × 3 的卷积层、ReLU 激活函数构成,最后通过一个2 × 2步长的最大池化模块对得到的特征图进行下采样,下采样后获得一个大小为原特征图1∕2的特征图,同时增大模型的感受野。编码器用于提取输入图像的特征信息,最终4 个下采样层得到4 个不同尺度的特征图。解码器中的每个解码块首先对前一层输出的特征图使用步长为2 × 2的转置卷积进行上采样。与编码块不同的是,解码块的第1 组3 × 3 卷积核的卷积层和ReLU 激活函数是用来对上采样后的特征图与对称的编码结构输出的特征图进行特征融合,最后经过4 次上采样后获得与原图像尺寸相同的特征图(董子意 等,2022)。同时编码器所得到的前3 层特征图,以及第1—4 层特征图分别进行特征融合,以获取上下文特征。对输入到上下文特征融合模块的3 层特征中最底层的特征图(空间尺度最大的特征图)使用残差注意力模块,以增强对海洋涡旋轮廓信息以及高级语义特征的提取。最后使用SSD 的分层预测结构,分别对两个上下文特征融合模块以及解码器最后一层的特征进行预测。

2.2 上下文特征融合模块

上下文特征融合模块结构如图3 所示,该模块对编码器输出的不同层特征图进行上下文信息提取。加入特征融合模块进行分支预测一方面增加对底层特征的利用,有利于小目标检测。另一方面通过两个不同的特征融合模块可以提高模型对多尺度目标的检测能力。第1 个上下文特征融合模块将编码器前3 层的特征图作为输入,最底层的特征图作为目标特征,后两层特征图作为上下文特征,通过转置卷积使其具有与目标特征相同的空间尺度、通道数为目标特征一半的上下文特征。通过转置卷积获得的上下文特征通道数仅有目标特征一半,目的是使上下文信息量不会超过目标特征本身。最后将得到的上下文特征与目标特征堆叠进行单独预测。第2个上下文特征融合模块将编码器的第1—3层特征图作为输入,第1 层特征图作为目标特征。在预测时由于第1 层特征为原图像尺寸的1∕2,所以需要对堆叠后的特征使用转置卷积进行上采样后再进行预测,由于上下文特征融合模块的目标特征都为底层特征,所以提取了海洋涡旋更丰富的轮廓信息。

图3 上下文特征融合模块操作过程Fig.3 Contextual feature fusion module operation procedure

2.3 残差注意力模块

注意力机制可以帮助网络提取更多有用特征,本文在改进后的U-Net网络的上下文特征融合模块前加入残差注意力模块(Lim等,2021),该模块对输入到上下文特征融合模块的最底层特征进行操作,其结构如图4所示。其中,残差注意力模块结构如图4(a)所示,该模块由两个路径组成,其中一条路径由两个级联的残差模块组成(如图4(c)所示),残差模块由3组相同的批量正则层、ReLU激活函数以及卷积核为1 × 1的卷积层进行串联,用以保留底层海洋涡旋的轮廓特征。另一条路径通过下—上采样模块提取更多的语义信息,其后连接的sigmoid函数生成注意力图。下—上采样模块如图4(b)所示,通过级联残差模块以及两个2 × 2步长的最大池化和双线性插值的上采样模块组成。残差结构一定程度上保留了底层特征中海洋涡旋的轮廓信息,而下—上采样结构可以提取更多的高层语义信息,弥补底层特征缺乏高层语义信息的问题。为了降低模型的复杂度,防止训练数据较少带来的过拟合问题,使用更简单的残差注意力模块,将下—上采样模块统一为两次下采样和两次上采样。

图4 残差注意力模块各部分结构图Fig.4 Structural diagram of each part of the residual attention module((a)residual attention module;(b)down-up sample module;(c)residual module)

3 实验

3.1 实验数据

本文采用公开的海洋涡旋数据集EddyNet-Data(https:∕∕github.com∕redouanelg∕EddyNet∕tree∕master∕Data)(Lguensat 等,2018)。该数据集为南大西洋范围10°~58°N,0°~64°W的子区域。

EddyNet-Data 数据集采用经典的PET(py-eddytracker)方法(Mason 等,2014)生成了训练所需要的海洋涡旋标签数据。该数据集由2000 年1 月1 日至2011年12月31日共12年,以天为单位的4 383幅海表面高度图像组成,空间分辨率为0.25°。该数据集将前11 年的4 018 幅海表面高度图像作为训练集,将2011 年的365 幅海表面高度图像作为测试集(董子意 等,2022)。

3.2 实验设置

本文的海洋涡旋图像检测本质上是对图像像素点进行多分类任务,即判断图中像素点是气旋涡、反气旋涡或非涡旋(董子意 等,2022)。实验使用的ground-truth 数据为PET 方法生成的掩码标签,通过与掩码标签进行逐像素对比来计算模型性能指标。评价指标采用通用指标F1-Score、气旋涡与反气旋涡的平均精确度(average precision,AP)以及模型的受试者工作特征曲线(receiver operating characteristic,ROC)来对模型的涡旋检测性能进行评估。

在考虑到模型计算效率、设备硬件条件以及结果精度,采用交叉熵函数作为损失函数,Adam 优化器对损失函数进行优化,本文模型采用交叉熵函数作为损失函数,Adam 优化器对损失函数进行优化,初始学习率设置为0.001。模型训练时的批量大小设置为16,迭代次数为200。经过200 次迭代训练,网络最终收敛。

3.3 消融实验

为了测试各模块对海洋涡旋检测性能的影响,比较了单独加入上下文特征融合模块、残差注意力模块以及同时加入二者后的模型性能。最后加入数据扩充方法降低过拟合现象。由表1 可知,上下文特征融合模块和残差注意力模块的引入使得模型可以融合不同特征层海洋涡旋的上下文特征,同时使网络可以提取到更丰富的海洋涡旋的底层空间细节信息,各模块均提升了模型对海洋涡旋的检测性能,其中最优检测精度可达93.27%。

表1 模型消融实验结果Table 1 Ablation experiments verify the results

3.4 结果分析

采用EddyNet-Data 数据集,与FCN 方法、EddyNet方法、DeepLabV3+方法以及DANet(dual attention network)方法(Fu 等,2019)进行了实验分析,并通过F1-Score 评价指标以及气旋涡与反气旋涡的AP来对海洋涡旋检测的性能进行对比。从表2中可以看出,本文方法在F1-Score 上均比U-Net、EddyNet、FCN、DeepLabV3+方法取得了更好结果,在涡旋的检测精度上比DANet有着更好的性能。

表2 不同方法在EddyNet-Data数据集上的分割性能对比Table 2 Comparison of segmentation performance of different methods on EddyNet-Data datasets

本文方法的ROC 曲线如图5 所示,其中类别0为非涡旋的类别,类别1 为反气旋涡的类别,类别2为气旋涡的类别,通过ROC 曲线图可以看出,本文方法在检测反气旋涡的性能更好。

图5 本文方法的ROC曲线图Fig.5 ROC plot of the method in this document

不同方法在EddyNet-Data 数据集中的检测结果如图6 所示,由于海洋涡旋的小目标数量较多,FCN方法最后一层使用上采样层的上采样率较大,导致对小目标的预测结果较差。获取底层空间信息和轮廓信息是提升小目标检测精度的关键,但FCN 模型在频繁采样过程中会导致这些底层特征的丢失,所以对较小的海洋涡旋的检测效果不理想,并且检测到的海洋涡旋轮廓与PET 方法获取的真实数据差别较大。本文方法在利用多尺度特征的同时进一步融合上下文特征,预测较小尺度海洋涡旋的效果更好。同时上下文特征融合模块也增加了对底层特征的利用,即提取了更多的轮廓信息,如图6 所示,本文方法预测的目标轮廓与真实目标轮廓更加接近。

图6 不同方法在EddyNet-Data数据集中的检测结果Fig.6 The results of different methods in the EddyNet-data dataset((a)sea surface height map;(b)PET;(c)FCN;(d)EddyNet;(e)DeeplabV3+;(f)DANet;(g)ours;(h)local map of sea level height;(i)local map of PET;(j)local map of FCN;(k)local map of EddyNet;(l)local map of DeeplabV3+;(m)local map of DANet;(n)local map of ours)

不同方法检测的海洋涡旋数量如图7 所示,对如图6 所示的第1 个区域海洋涡旋检测结果进行统计发现,本文方法与PET方法检测到的数量接近,由于EddyNet 的误检率高,所检测到的海洋涡旋数量远超过PET 方法。由于FCN 方法检测小目标的效果不理想,所以检测到的数量要比真实数量少很多,同时较小尺度的海洋涡旋检测到的数量更少,较大尺度海洋涡旋的轮廓也与PET方法相差很大。由此可见,本文方法对于小目标的海洋涡旋检测具有较好的检测效果,同时海洋涡旋检测数量更接近PET方法,误检率更低。

图7 不同方法检测的海洋涡旋数量Fig.7 The number of ocean vortexes detected by different methods

4 结论

本文提出了一种基于U-Net 网络改进的海洋涡旋小目标检测模型,该模型引入上下文融合模块对编码器输出的特征进行融合提取更多海洋涡旋的上下文信息,在利用底层特征的同时融入上下文信息进一步提高海洋涡旋的检测精度。同时,在上下文特征融合模块前加入残差注意力模块,增强底层特征中海洋涡旋的轮廓以及高层语义特征。此外,在模型训练时对训练样本集采用数据扩充,一定程度上缓解了模型过拟合的问题。实验结果表明,本文模型与对比方法相比,对小尺度海洋涡旋目标检测效果更优,同时在轮廓以及数量上都与PET 方法更加接近,因此在海洋涡旋的检测中具有更高的精确性以及合理性。与FCN 方法相比,本文方法对海洋涡旋检测的轮廓和数量更接近PET方法,比EddyNet方法和DeeplabV3+方法的F1-Score 更高,本文方法在海洋涡旋检测的AP 比DANet 方法更高。与EddyNet 方法相比,在检测海洋涡旋中存在不足,产生这种问题的主要原因是由于比EddyNet 进行更多的下采样,导致小目标的特征丢失,进而导致对海洋涡旋检测效果不理想。在未来工作中,为了更加明确不同海洋涡旋类别和目标,将对海洋涡旋同时进行目标检测与实例分割任务,使检测出的海洋涡旋不同的类别和目标更加明确。

猜你喜欢
涡旋卷积海洋
基于PM算法的涡旋电磁波引信超分辨测向方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
光涡旋方程解的存在性研究
基于傅里叶域卷积表示的目标跟踪算法
爱的海洋
第一章 向海洋出发
变截面复杂涡旋型线的加工几何与力学仿真
一种基于卷积神经网络的性别识别方法
应该重视感生(涡旋)电场的方向性教学