RTDNet:面向高分辨率卫星影像的赤潮探测网络

2023-12-23 10:14崔宾阁方喜路燕黄玲刘荣杰
中国图象图形学报 2023年12期
关键词:赤潮残差注意力

崔宾阁,方喜,路燕,黄玲,刘荣杰

1.山东科技大学计算机科学与工程学院,青岛 266590;2.自然资源部第一海洋研究所,青岛 266061

0 引言

赤潮是在特定环境条件下,海水中某些浮游植物、原生动物或细菌爆发性增殖或高度聚集的一种生态异常现象(卓鑫,2018)。近年来,我国沿海赤潮灾害的发生呈现出次数增加、规模扩大以及有毒赤潮种类比例上升等趋势(翟伟康 等,2016)。赤潮的频繁发生使局部海域失去自净能力,严重影响了海洋生态环境,对沿海捕捞业、水产养殖业和旅游业构成了严重威胁(毛显谋和黄韦艮,2003)。赤潮发生一般分为4 个阶段:起始阶段、发展阶段、维持阶段和消亡阶段。在赤潮消亡阶段,营养物质耗尽,赤潮将会逐渐或突然消失,在此阶段对于渔业的危害往往最大。及时、准确地探测赤潮的发生和分布面积,能够为相关部门发布预警和做好防范措施提供重要的基础数据。

赤潮发生具有持续时间短和变化速度快的特点,现场观测很难满足赤潮业务化监测的要求。而遥感具有大面积和连续观测的优势,已成为赤潮监测的重要手段(宋彦 等,2021)。一直以来,水色卫星在赤潮监测中发挥了巨大作用,研究人员面向水色卫星发展了系列赤潮探测方法。毛显谋和黄韦艮(2003)分析了SeaWiFS(sea-viewing wide field sensor)与FY-1(Fengyun-1)卫星各波段赤潮与海水的反射率,提出了多波段差值比值法,该方法还能够有效排除海水中悬浮泥沙对赤潮提取的干扰。Ahn 和Shanmugam(2006)提出了基于SeaWiFS 第2 波 段(443 nm)、第4波段(510 nm)和第5波段(555 nm)的赤潮指数法,其能够在成分复杂的水体中识别出赤潮发生区域。Siswanto 等人(2013)利用MODIS(moderate-resolution imaging spectroradiomete)传感器的归一化离水辐射率(normalized water leaving radiance,nLw)在光学性质复杂的混合水域内对赤潮水体进行了分类,通过判定nLw的峰值是否在547 nm来区分赤潮与非赤潮水体。Lou 和Hu(2014)利用GOCI(geostationary ocean color imager)卫星第2 波段(443 nm)、第3波段(490 nm)和第4波段(555 nm)提出了改进的赤潮指数法,其能够在近岸浑浊水体区有效探测赤潮。然而,由于空间分辨率低(>500 m)的海洋水色卫星往往难以捕捉到赤潮的发生,并且由于混合像元问题,检测结果可能被显著高估(Liu等,2019)。因此,中高分辨率的遥感卫星是近岸赤潮探测的首选。Rahman 和Aslan(2016)利用Landsat-8 的两个蓝光波段和一个绿光波段进行赤潮探测,两个蓝光波段的加入有利于排除其他非赤潮藻类的影响。Liu 等人(2019)分析了GF1-WFV(Gaofen1 wide field of view)数据中的赤潮光谱响应特征,利用绿光、红光、近红外三个波段构建了GF-1 WFV 赤潮指数(Gaofen1 red tide index,GF1_RI)。之后,Liu等人(2022)提出了一种基于伪色度角的中高分辨率遥感影像的赤潮探测方法。上述赤潮探测方法受阈值影响大,赤潮探测易受水体环境要素干扰。

近年来,深度卷积神经网络在遥感影像目标检测(李红艳 等,2019)、语义分割(徐知宇 等,2021;董荣胜 等,2022)等领域展现了显著的性能。深度卷积神经网络能通过大量有监督训练获得更具表征能力的特征,目前已经应用于赤潮探测中。Kim 等人(2019)利用U-Net 结合GOCI 数据开展了韩国海域赤潮提取工作,其能够有效地检测赤潮发生情况。Shin 等人(2021)利用U-Net 结合PlanetScope 卫星影像开展了韩国南部海域的赤潮提取工作,其能够检测到间距小的水产养殖网箱间的赤潮。李敬虎等人(2022)提出了一种基于U-Net++和无人机影像的赤潮提取方法,可在复杂水体环境下有效提取赤潮。Zhao 等人(2022)基于U-Net 网络模型,提出了面向HY-1D CZI(Haiyang-1D coastal zone imager)卫星数据的赤潮检测模型RDU-Net。上述基于U-Net 的赤潮提取网络模型需要对输入图像进行下采样,这将不可避免地丢失赤潮边缘与位置信息,导致边缘平滑以及漏提取现象(Pan等,2020)。

网络深度已被证明对许多视觉识别任务至关重要(Zhang 等,2018)。为了缓解深层网络中梯度消失的问题,He 等人(2016)提出了残差网络ResNet(residual network),通过跳跃连接构造深层次的网络,实现信息的跨层流动且不会因为多次叠加非线性变换而衰减。然而,通过简单堆叠残差块的方式构建更深的网络很难获得更好的性能(Zhang 等,2018)。Zhang 等人(2018)在ResNet 的基础上提出了基于RIR(residual-in-residual)结构的RCAN(residual channel attention network)超分辨率网络,在其特征提取部分,RIR 允许丰富的低频信息通过多个跳跃连接被绕过,使主网络专注于学习高频信息。低频信息包含图像的主要特征,例如图像的基础结构;高频信息则包含图像的细节特征,例如图像中物体的边缘轮廓和方向纹理(孙洁琪 等,2022)。RIR 结构对高频信息的有效学习有利于图像重建几何和细节特征,在图像超分辨率、目标识别等应用中能够取得更好的效果。

赤潮的颜色受赤潮生物种类和数量影响较大。图1 为广东省阳江市海陵岛东北部海域在2014 年11 月22 日发生的赤潮,赤潮生物种类为夜光藻,赤潮水体呈条带状或不规则形状分布在海面上,其中心区域赤潮生物数量多,呈现亮红色,水色异常明显;边缘区域赤潮生物数量相对较少且受到海洋噪声影响,呈现淡红色,水色异常不明显。边缘区域识别对于准确估计赤潮水体的面积非常重要,而深度学习强大的特征表达能力为边缘区域赤潮水体深层特征学习提供了可能。RIR 结构中的长跳和短跳连接使网络能够绕过中心区域赤潮的丰富低频信息,从而专注于学习边缘区域赤潮的高频信息。本文基于RIR结构提出了一种适用于高分辨率遥感影像的赤潮遥感探测网络(red tide detection network,RTDNet)。该网络考虑了赤潮中心区域与边缘区域之间的位置语义关系,在RIR 结构的每个残差组(residual group,RG)内引入了坐标注意力机制,并结合动态权重机制设计了一种双分支残差注意力模块(dual-branch residual attention module,DRA)。赤潮水体的形态和尺度差异较大,为了准确提取不同形态和尺度的赤潮信息,RTDNet在每个残差组之后引入了具有多种视野的感受野块(receptive field block,RFB),以提取和融合赤潮多尺度特征。在赤潮数据集上开展的实验表明,RTDNet能够有效地提升赤潮水体边缘区域的探测精度。

1 研究区域与数据准备

1.1 研究区域

本文研究区域位于广东省阳江市海陵岛风景区的东北部海域(112°5′—112°30′E,21°35′—21°50′N)(如图2(a))以及位于珠江口西侧的广东省江门市下川岛南部海域(112°30′—112°55′E,21°25′—21°50′N)(如图2(b))。该区域临近珠江口,沿岸人口密集、经济发达,人类活动对近岸水体影响大,是赤潮频繁发生的区域。研究区域1 的影像获取时间为2014 年11 月22 日11 时,传感器为WFV3,轨道号为8491。研究区域2的影像获取时间为2020年4 月28 日11 时,传感器为WFV2,轨道号 为37767。从图中可以看到,赤潮形状呈不规则条带状分布。

1.2 数据源

高分一号卫星于2013年12月正式投入使用,该卫星配置了2 台分辨率为2 m 全色以及8 m 多光谱的高分辨率相机和4 台分辨率为16 m 的多光谱中分辨率宽幅相机,设置了蓝、绿、红、近红外4 个波段。

1.3 样本制作

5 位具有丰富图像处理经验的专业人士受邀进行了赤潮水体的标注,并由专家提供统一的赤潮水体解译标志和解译技巧。赤潮像元标记为1,非赤潮像元标记为0。将5 幅候选赤潮真值图进行逐像素求和,得到每个像元被认定为赤潮水体的票数。最后,采用多数投票法获得较为可靠的赤潮真值图。图3 为赤潮图像及真值图,其中黑色部分为非赤潮区域,白色部分为赤潮区域。为防止网络模型过拟合,需对数据进行增强。图像经过镜面翻转、旋转(90°、180°、270°)操作,共获得64 × 64 像素大小的1 050个样本,其中660个样本包含赤潮信息。

图3 赤潮图像及真值图Fig.3 Red tide image and ground truth((a)image;(b)ground truth)

图4 RTDNet 总体架构Fig.4 Overall architecture of RTDNet

2 方 法

2.1 赤潮探测网络

本文提出了一种适用于高分辨率遥感影像的赤潮遥感探测网络RTDNet(red tide detection network),其总体架构如图 4 所示。RTDNet 主体部分采用了残差网络结构,其中残差分支是由多个残差组(RG)和多个感受野块(RFB)交替构成。每个残差组内部包含4 个双分支残差注意力模块(dualbranch residual attention module,DRA)、1 × 1 卷积和长跳跃连接,用于提取赤潮的高频特征。感受野块(Liu 等,2018)是一种比空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)(Chen 等,2017)更优的多尺度特征融合结构,采用不同核大小(1,3,5)的卷积和不同膨胀率(1,3,5)的空洞卷积来扩大网络的感受野。RFB 通过模拟人类视觉的感受野,增强了网络的特征提取能力,使网络在更大的区域和上下文中捕获多尺度信息(Liu等,2018)。

2.2 双分支残差注意力模块

考虑到赤潮边缘水体水色异常不明显,在RCAN 网络的残差通道注意力块的基础上引入了坐标注意力机制,用于捕获赤潮中心区域与边缘区域像素之间的位置语义关系。DRA 模块的结构如图5所示。

图5 双分支残差注意力模块Fig.5 Dual-branch residual attention module

DRA 模块采用残差网络结构,其残差分支首先使用两个堆叠的卷积层来提取赤潮特征,然后引入了注意力机制来强化赤潮探测的有用特征。其中,坐标注意力分支用精确的位置信息捕获了长期依赖关系(Hou 等,2021),这使得模型能够描述赤潮边缘水体与中心水体之间的位置语义关系;通道注意力分支显式地建模特征通道之间的相互依赖关系,自适应地强化赤潮特征图的重要通道。最后,两个注意力分支的输出通过一个动态权重模块进行加权融合。上述过程可以表示为

式中,xn与xn+1分别表示第n个DRA模块的输入和输出特征图,Fn表示从xn中提取的特征图,f3×3表示3 × 3 卷积,δ表示ReLU(rectified linear unit)激活函数,HCoA表示坐标注意力模块,HCA表示通道注意力模块,λCoA与λCA表示动态权重模块生成的两个权重值。为了充分利用两个注意力分支中的重要特征信息,设计了动态权重模块来调整两个分支的贡献。

动态权重模块首先通过全局平均池化和全局最大池化操作从整个图像中捕获全局特征,之后由1 × 1 卷积得到包含两个分量的特征向量,最后将两个特征向量相加,并经过softmax 操作得到包含两个注意力分支权重的概率向量。上述过程可以表示为

式中,Fa表示经过全局平均池化以及卷积之后得到的特征向量,Fm表示经过全局最大池化以及卷积之后得到的特征向量,f1×1表示1×1卷积,GAP(global average pooling)与GMP(global max pooling)分别表示全局平均池化和全局最大池化操作,σ为softmax激活函数。

3 结果与分析

3.1 实验环境与参数设置

在本文中,提出的RTDNet 在以TensorFlow 为后端的Keras 2.4.0 深度学习框架下构建,并采用Adam 优化器进行模型优化。所有的实验都在Ubuntu 18.04 操作系统上进行,使用一个NVIDIA GeForce RTX 2080Ti 显卡进行网络训练。初始化学习率(learning rate)设置为10-4,批处理大小(batch size)设置为2,迭代次数(epochs)设置为100。使用二元交叉熵(binary cross-entropy)作为网络损失函数。

3.2 评价指标

本文基于混淆矩阵定量评估赤潮提取结果的精度。赤潮探测混淆矩阵如表1所示。

表1 赤潮探测混淆矩阵Table 1 Confusion matrix for red tide detection

基于混淆矩阵可以计算出精确率(precision,P)、召回率(recall,R)、F1 分数(F1-score,F1)以及交并比(intersection over union,IoU)四个评价指标。各指标取值范围为[0,1]。对应计算为

式中,TP(true positive)表示赤潮像元被模型预测为赤潮水体的数量,FP(false positive)表示海水像元被模型预测为赤潮水体的数量,FN(false negative)表示赤潮像元被模型预测为海水的数量。

3.3 不同方法赤潮探测结果对比

本文选取了2014 年11 月22 日广东省阳江市海陵岛风景区东北部海域的赤潮GF-1 WFV 遥感影像进行实验,实验测试图像及其真值图如图6 所示。第1 幅图像中的赤潮水体特征较为明显,背景噪声水平较低,其地理位置如图 2(a)绿色框所示;第2幅图像存在较多背景噪声,其地理位置如图 2(a)蓝色框所示。真值图是由多位专家分别通过目视解译进行独立标注得到,并采用投票方式确定最终的结果。

图6 赤潮遥感影像(GF1-WF)及真值图Fig.6 Remote sensing image of red tide(GF1-WF)and ground truth((a)test image;(b)ground truth)

本文将RTDNet 与基于光谱特征的GF-1 WFV赤潮探测方法GF1_RI(Liu 等,2019)、支持向量机(support vector machine,SVM)(Cortes 和Vapnik,1995)以及深度学习模型U-Net(Ronneberger 等,2015)、DeepLabv3+、(Chen 等,2018)、HRNet(high resolution network)(Sun 等,2019)、RDU-Ne(tred tide detection U-Net)(Zhao 等,2022)进行了对比,不同方法赤潮提取的结果如图7所示。

图7 赤潮提取定性结果Fig.7 Qualitative results of red tide extraction((a)GF1_RI;(b)SVM;(c)U-Net;(d)RDU-Net;(e)HRNet;(f)DeepLabv3+;(g)RTDNet)

在图7 中,白色与黑色为模型正确提取的赤潮与海水像素,红色为模型漏提的赤潮像素,绿色为模型误提的赤潮像素。从赤潮提取结果上看,基于波段比值法的GF1_RI 与传统的机器学习模型SVM 能够提取出赤潮的大致分布区域,但它们只考虑赤潮水体的光谱信息而忽略了其纹理、边缘等空间信息,导致模型在赤潮水体边缘区域出现较多的误提与漏提现象,如图7(a)(b)上下图中蓝框区域所示。U-Net与HRNet正确提取出了大部分赤潮像素,但其在条带状的赤潮区域存在较多的误提与漏提现象,如图7(c)(e)上下图中蓝框区域所示。RDU-Net 与DeepLabv3+的提取结果较为接近,DeepLabv3+在赤潮水体分叉区域提取结果更加准确,如图7(d)(f)上图中右下角蓝框区域所示,但在分散的小尺度赤潮区域存在漏提现象,如图7(d)(f)上图中左上角蓝框区域所示。RTDNet 在细小的条带状赤潮区域也存在漏提取现象,如图7(g)下图中右上角蓝框所示,但总体上误提与漏提现象都比较少,模型预测结果更接近真值图。

本文对不同赤潮提取模型的精度进行了定量评估,结果如表2所示。从表2中可以看出,GF1_RI在两幅图像上的精确率和召回率都较低,SVM 的召回率较高但精确率较低,这两种方法只考虑了光谱信息,其F1分数与交并比均较低。基于深度学习的赤潮提取方法相较于传统方法精度提高明显,F1 分数与IoU 在测试图像上分别高于0.8 和0.7。与U-Net相比,RDU-Net引入了通道注意力机制,在两幅图像上召回率提升明显。DeepLabv3+通过引入ASPP 模块来扩大感受野,提高了模型的召回率,在第2 幅图像上其F1 分数与IoU 有明显优势。RTDNet 引入了坐标注意力模块以及感受野块,在两幅测试图像上的召回率、F1 分数和IoU 都达到了最高。此外,RTDNet 模型的参数量为2.65 MB,远小于U-Net、RDU-Net 和DeepLabv3+,相较于HRNet 也有3 倍多的差距。

表2 不同赤潮提取模型的定量结果Table 2 Quantitative results of different red tide extraction models

3.4 消融实验

为了验证双分支残差注意力模块(DRA)与感受野块(RFB)的有效性,本文对两个模块进行了消融实验。基线网络采用超分辨率网络模型RCAN(residual channel attention network)(Zhang 等,2018),并去除最后的上采样和重建模块。消融实验结果如表3所示,表3中的数据结果为所有测试图像的总体精度评估结果。

表3 消融实验结果Table 3 Ablation experimental results

从表3 中可以看出,加入DRA 模块后网络模型的精确率和召回率分别提升了1.6%和1.1%,加入RFB模块后网络模型的精确率和召回率分别提升了2.7%和0.6%。结合了DRA 模块与RFB 模块的网络模型,精确率、召回率、F1 分数和IoU 都达到了最高,相比于基线模型分别提高了4.2%、1.4%、0.029和0.046。消融实验结果验证了DRA模块和RFB模块在赤潮提取任务中的有效性和互补性。

3.5 网络模型有效性分析

为了展现网络逐步精细化提取赤潮的过程,对RTDNet在不同阶段的部分特征图进行了可视化,结果如图8所示。

图8 不同层次特征图可视化Fig.8 Visualization of feature maps at different levels((a)input image;(b)shallow feature;(c)intermediate feature;(d)deep feature)

图8(a)为网络输入的GF1-WFV 遥感影像,图8(b)中的浅层特征来自于网络的第1 个卷积层,图8(c)中的中间层特征来自于网络前两组RG块和RFB块之后,图8(d)中的深层特征来自于网络的最后一个RFB 块之后。可以看出,输入图像在经过第1 个卷积层后只提取出了赤潮的主干和特征明显的区域。经过网络前两组RG 块和RFB 块之后,网络识别的区域从赤潮主干向外延伸,赤潮中心以及边缘区域信息逐渐增强,一些小尺度的赤潮也被识别出来,如图8(c)红框所示,同时海水区域变得更蓝,说明海水信息被有效抑制。在深层特征图中,赤潮主干、边缘和细节信息基本被确定。深层特征通常包含更抽象的信息,但也会带来一些伪信息,如图8(d)中红框所示。因此,将浅层特征与深层特征融合,能够减弱海浪等海洋背景噪声对赤潮分布探测的影响。

4 结论

本文提出了一种用于高分辨率卫星影像赤潮探测的遥感网络模型RTDNet,该模型联合使用了residual-in-residual 结构、坐标注意力和通道注意力机制来捕捉赤潮边缘像素及其对赤潮中心像素的依赖。此外,该模型引入了RFB 模块来扩大网络模型的感受野,从而可以捕获不同尺度的赤潮信息。在背景噪声水平较低的赤潮影像中,RTDNet模型的精确率和召回率均超过了90%;在包含较多背景噪声的赤潮影像中,RTDNet 模型的精确率超过了87%,召回率超过了92%。与其他深度学习方法和专门的赤潮检测方法相比,RTDNet能够捕捉到更多的赤潮边缘信息,在定性和定量探测结果上都优于其他方法,赤潮漏提取和误提取的情况较少。同时,RTDNet模型的参数数量远小于其他比较方法。然而,本文的方法也有不足之处。RTDNet 仍然不能完全准确提取赤潮边缘水体的一些细小分支,可能是因为这些细小分支离赤潮水体中心过远、赤潮细节信息太少等。

在接下来的工作中,一方面,考虑使用超分辨率技术来增强赤潮水体的细节信息,提高模型对条带状赤潮细小分支的探测能力;另一方面,考虑引入自监督学习和对比学习技术,减少赤潮探测模型对大量标注样本的需求,同时提高网络模型的泛化能力。

猜你喜欢
赤潮残差注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图
揭秘韩国流
征子与引征
揭秘韩国流