利用柔性注意力分割模型的X频段航海雷达图像海面溢油检测*

2022-12-30 06:21严凤龙陈明华刘振宇

电讯技术 2022年12期

周慧,严凤龙,褚娜,陈明华,刘振宇

(大连东软信息学院 a.软件学院;b.计算机学院,辽宁大连 116023)

0 引言

目前全球海运业的快速发展,因碰撞导致的溢油事故频发,非法排污、管道破裂频发也增加了海上交通环境中石油泄漏的风险[1]。海上漏油呈现一种全球现象,无论是在开阔水域还是近海,都是重大环境污染问题[2]。海面溢油快速有效检测对海上交通安全、搜救、应急响应、修复海洋环境等具有重要意义。

传统的海面溢油监测方式为航拍或者实地调查,但是这种方法需要投入大量的人力物力。在过去几十年,卫星遥感、雷达等技术手段常用于检测和鉴定溢油事故或海上溢油污染。目前合成孔径雷达(Synthetic Aperture Radar,SAR)是常见的有效监视溢油的卫星遥感工具,采用模式识别技术、模糊逻辑法或是神经网络识别技术识别暗区是否为油膜[3],但需要事先知道溢油地点,有一定的局限性,且使用成本较高。

海洋雷达由于其高时空分辨率逐渐发展为海洋遥感传感器[4]。与激光荧光、光学传感器和合成孔径雷达等需要专用设备或昂贵的卫星图像的溢油检测方法相比,船用雷达广泛安装在船舶上,可以在较低成本下获得遥感数据且方便快捷。在海洋雷达图像中,溢油区域的后向散射信号强度比邻近水域弱,这种现象可用于检测溢油[5]。目前的航海雷达溢油识别方法包括专家解译、C-V 水平集方法、阈值法等。其中,专家解译[6]是采用人工标绘的方法,选出油膜信息,其手段效率较低,且结果具有主观性;C-V水平集方法[7]可以利用人工初始窗口的模板,自动检测油膜的边缘,提高了油膜识别的效率,但是在图像噪声处理不佳或者海浪回波信号不稳定时,经常会错误地识别油膜区域;阈值法[8]对灰度图像进行处理,利用阈值进行一次或多次的图像二值化来判定油膜位置,但是阈值需要人为预先设定。

为了实现自动化溢油检测并提高检测准确率,图像分割方法开始用于多源遥感图像海面溢油检测,如基于阈值分割的方法、分水岭算法、基于边缘信息的检测方法等[9]。虽然这些方法都在克服溢油区域难以区分的问题,但是其分类识别效果依然较差。

近年来,深度学习已经广泛应用于计算机视觉领域[10],尤其在图像分类方面获得了突破性的成功。在溢油图像检测领域,Chen等人[11]采用DeepLab V3分割模型监控海面溢油区域。大部分研究主要是采用深度学习的分类模型判断是否溢油,而无法准确估算溢油区域。

为了提高溢油区域边界分割的精确度,本文以X频段航海雷达为研究对象,提出了一种基于柔性注意力机制的分割模型用于溢油图像分割。该模型基于特征金字塔的分割模型,引入通道域的柔性注意力,给每个通道上都增加一个权重,用于表示该通道与油膜暗区信息的相关度;同时采用像素级别的分割打分函数作为评价分割区域质量的指标,有利于精确分割海面溢油区域。

1 基于柔性注意力机制的图像分割模型

1.1 基于FPN目标检测的分割模型

遥感图像的海面溢油区域普遍存在斑噪声和强度不均的现象。X频段海洋雷达图像中许多暗区会被分类成溢油区域,因此溢油区域的识别有较大难度。溢油分割模型为了取得较好的效果,将分割分为两步,即检测和分割,先确定溢油区域(Region of Interest,ROI),再进行小区域的分割。本文以特征金字塔模型(Feature Pyramid Network,FPN)为主干网络,输入的图像经过特征金字塔模型,产生不同层次的特征并聚合,实现多尺度特征融合[12],如图1所示。其中,高层次的特征包括较多的语义信息,低层次对应位置信息,然后对不同特征层进行上采样操作,并对上采样结果进行叠加,实现溢油图像分割。

图1 多尺度特征融合

在生成的特征图上通过滑动窗口操作找到感兴趣区域。首先在{P1,P2,P3,P4}特征映射层上以每个像素点为中心,分别分配不同像素面积和不同长宽比的锚点框,即为生成的大量候选框;然后计算候选框与目标真实框的交并比(Intersection over Union,IoU),保留IoU大于阈值的候选框或者IoU最大值作为ROI。通过减少ROI与目标真实框的误差,实现定位与分类。

目标检测模型在进行定位和分类识别时,每一个卷积层都包含了卷积和池化处理,即“下采样”,图像的像素信息变小,特征得以提取,有利于实现目标识别;但是像素信息变小,也会导致在部分情况下如存在噪声、其他暗区等,目标对象检测框定位不准确。目标分割是将完成了识别和定位功能的下采样图像扩充至原来的大小,输出的结果图像与原始图像大小一致,并且包括信息标注,指明了每一个像素可能的分类。相对于目标检测,补充的分割模型可以精确地分割油膜边缘,如图2所示。

图2 基于FPN目标检测的分割模型

计算ROI对应的特征映射层iconv(m,n);通过转置卷积进行上采样,得到输出矩阵deconv(m＇,n＇);从iconv(m,n)到deconv(m＇,n＇)上采样2s倍,s为ROI映射的特征层数,则

式中:kernelsize为卷积核大小;零填充参数padding设为1;步长参数stride=2s。不同特征层通过转置卷积上采样得到的deconv(m＇,n＇)与原图像大小一致,对不同层的上采样图像进行叠加操作即得到分割结果图像。

1.2 引入柔性注意力机制

为了提升特征对图像的表达能力,在目标检测模型FPN中针对不同尺度的特征映射层,采用柔性注意力机制来捕获不同通道图之间的特征依赖关系,计算所有通道图的加权值。特征权重向量w通过学习用来显式地建模特征通道间的相关性。

首先输入任意一个H×W×C的特征层F,然后分别进行空间的全局平均池化AvgPool和最大池化MaxPool,池化大小为H×W,得到两个1×1×C的通道描述行向量Favg和Fmax。共享两个全连接层(Total Fully Connected,TFC),采用Relu激活函数,拟合通道之间的复杂相关性。再将得到的两个通道描述行向量相加,经过Sigmoid 激活函数得到1×1×C的特征权重向量w,将原始的特征层(H×W×C)和特征权重向量w进行全乘操作,得到不同通道重要性不一样的特征层,如图3和图4所示。在重新生成的特征图上通过滑动窗口操作找到感兴趣区域,并完成图像分割。

图3 柔性注意力机制

图4 在FPN中引入柔性注意力机制

2 语义分割评价指标

在图像分割任务中,大多数实例分割框架都采用实例分类的置信度作为分割质量分数。但是用于评价分割实例与真实框之间的交并比IoU[13],通常与分类分数相关性不强。在溢油检测的研究中,不但关心油膜检测,还关心溢油的区域,因此分割结果的质量至关重要。在评价语义分割模型时,分割结果的质量也是最重要的。

目前大多数实例分割打分函数,如Mask RCNN[14],实例分割结果的分数与候选框分类置信度共享。候选框分类置信度只用于区分候选框的语义类别,而不知道实例分割结果的实际质量和完整性,因此并不能很好地度量分割结果质量。

本文定义Smask作为分割任务的评价指标。Smask可以从像素级别来评价语义分割结果与真实框的 Mask IoU。溢油检测任务中,Smask主要评价识别为油膜的区域其语义分割的质量。

Smask为像素级别的语义分割任务分数,针对语义分割结果的预测值与真实值交并比:

式中:Nii表示油膜被预测为油膜的像素数量,Nij表示油膜被预测为非油膜的像素数量,Nji表示非油膜被预测为油膜的像素数量。

3 实验分析

3.1 数据集

2010年7月16日大连发生溢油事故,大量原油泄漏。大连海事大学“育鲲轮” 于7月21日在海面进行溢油采样,航线如图5所示。安装在“育鲲轮”上的X频段海洋雷达来自 Sperry Marine(英国伦敦总部),天线为波导隙缝天线,距离分辨率为3.75 m,方位分辨率为0.1°,溢油雷达图像扫描半径探测距离设置为1.389 km,其他主要参数如表 1 所示。

图5 溢油采样航线

表1 X频段航海雷达主要参数

图6显示了2010年7月21日23∶19扫描半径为0.75 nmile的雷达图像示例,图7是转换后的X频段航海雷达图像。同时实验进行了数据增强,包括平移、翻转、旋转等。图像数据划分为背景和溢油区域。

图6 原始X频段航海雷达图像

图7 转换后的X频段航海雷达图像

3.2 实验过程

实验平台为Ubuntu16.0,GPU为NVIDIA Tesla V100,开发平台为Paddle X。语义模型在实验过程中,经验学习率均为0.000 01,batch_size均为24,每次迭代随机排列数据集。在图像分割任务中,利用交叉熵损失函数。分类损失函数Lcls(pi,ui)=-lnpiui,pi为每个预测目标的概率分布,且如果计算候选框为正标签,则ui=1;如果为负标签,则ui=0;语义分割损失函数也是基于像素点计算的二进制交叉熵分类损失函数,即判断像素为前景或背景。每个分割结果包含Npixel个像素点,故Lmask是针对某个选中ROI,其分割结果的所有像素点的二进制交叉熵损失均值,即

式中:yj为前景或背景,pj为对应的概率。损失函数收敛如图8所示。

图8 损失函数收敛

使用VGG19、ResNet50和FPN分别作为主干网络,FCN为检测器,对海面溢油进行分割检测,并采用Smask作为评价指标。如表2所示,引入柔性注意机制计算通道加权,在不同的主干网络下,检测器平均性能提升6.54%。

表2 海面溢油检测模型Smask对比

由表2检测模型分割评价指标的对比结果可以看出,VGG作为主干网络的FCN分割模型,溢油检测准确率为60.12%,引入柔性注意力机制后,溢油检测准确率提升了7.95%。在引入柔性注意力机制的同时,将FCN分割模型的主干网络换为FPN,检测效果进一步提升,溢油检测准确率达到85.77%,说明在FPN主干模型融合多尺度语义特征的基础上,利用柔性注意力机制计算每个特征通道的权重,建立特征通道间的相关性,能有效地改进语义分割模型,提升溢油检测准确率。

图9为海面溢油分割结果,可见本文所提出的方法由于引入了柔性注意力机制,计算暗区与通道信息的关联度,因此分割效果较好。

图9 海面溢油分割结果

3.3 与其他模型对比

将本文模型在所建立的数据集上与其他图像分割模型进行对比,Smask作为评价指标,对比结果如表3所示。PSPNet模型的Smask值为77.06%,该模型也采用了金字塔池化模块聚合不同区域的上下文信息,结合了多尺度特性提升了图像分割性能。DeepLab V3+分割模型的Smask值为78.18%,主要是通过引入条件随机场提升边缘划分的准确率,进而提升检测准确率。Attention U-net语义分割模型的Smask值为83.78%,该模型同样引入了注意力机制,是一种基于注意力的门控结构,故提升了分割准确率。本文提出的用于溢油检测语义分割模型与其他较新的分割模型相比,性能有了一定的提升,Smask值达到85.77%。

表3 不同分割模型Smask对比

图10为航海雷达图像的海面溢油检测结果对比图。航海雷达溢油工控机接收到海浪回波信号后,形成海杂波信息的原始信号图像数据,而航海雷达原始数据中常含有同频干扰,导致分类难度增加。由图10可见,PSPNet模型基本正确检验,但是有部分较少的区域未被检测出来;DeepLab V3+模型和Attention U-net捕获了边界的细节,但是检测较为分散;本文模型采用的主干网络为目标检测网络,先对每个溢油区域进行检测,然后在检测出来的区域中再进行语义分割,即按照实例进行语义分割,分割准确率有明显提升,同时在生成卷积特征图时引入柔性注意力机制,计算各通道的权重值,对目标精细分割较强,进一步提升了检测准确率。

图10 雷达图像溢油分割结果

4 结束语

本文提出了一种基于柔性注意力机制的分割模型,以基于特征金字塔的目标检测模型为主干网络与语义分割模型相结合,引入通道域的柔性注意力,给每个通道上都增加一个权重,用于表示该通道与油膜暗区信息的相关度,克服了卫星图像对海面溢油监测的分类较差的问题,提升了捕获目标精细细节的能力。通过X频段航海雷达图像对海面溢油区域进行监测,在本文所建立的数据集上分割指标值达到了85.77%,对于遥感图像的溢油分类效果均较好,改进的模型对海洋环境修复及查看海面污染程度具有重要的意义。但是本文搭建的网络模型,训练过程依赖大量的标记图像,这就需要大量的有相关经验的人力且会受到人为主观因素的影响。因此,下一步将重点研究基于弱监督学习的分割模型,以提高算法的可行性。