基于改进U-Net的珊瑚礁底栖物质信息提取方法

2023-12-16 10:30:08傅杨淦朱岚巍吴虹蓉
计算机工程 2023年12期
关键词:珊瑚礁注意力卷积

傅杨淦,朱岚巍,3,4,吴虹蓉,陈 方,3,4

(1.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541000;2.海南空天信息研究院 海南省地球观测重点实验室,海南 三亚 572000;3.可持续发展大数据国际研究中心,北京 100094;4.中国科学院空天信息创新研究院 数字地球重点实验室,北京 100094;5.长江大学 地球科学学院,武汉 430000)

0 概述

珊瑚礁是世界上最多样化的生态系统之一,具有丰富的物种[1]。珊瑚礁不仅能创造许多经济价值和社会效益,还能减弱海浪能量,保护海岸带[2]。然而,珊瑚礁系统较为脆弱,易受气候变化[3]、石油泄漏[4]、对食草鱼的过度捕捞、对海胆的过度放牧[5]等自然和人类活动的干扰,进而导致珊瑚礁白化,当白化时间持续过长就会导致礁珊瑚死亡[6]。因此,需要对珊瑚礁进行监测和保护,而对珊瑚礁底栖物质分布进行制图尤为重要。

目前,比较常见的珊瑚礁底栖物质分布制图方法主要有野外调查方法[7]和基于遥感图像的方法,比较常用的基于遥感图像的方法为阈值分类方法[8]、监督分类方法[9-11]和面向对象的方法[12]。野外调查方法[7]通过野外实地勘测进行珊瑚礁底栖物质分布制图,该方法需要耗费大量人力物力,且研究范围有限。基于遥感图像的方法是利用一定算法针对遥感影像进行信息提取,这类方法克服了野外调查法需要耗费大量人力物力以及研究范围有限的缺点。在基于遥感图像的方法中:阈值分类方法[8]通过建立不同的阈值来区分不同的珊瑚礁底栖物质,然而对于不同的地区和底质需要设定不同的阈值,使得方法不够自动化;监督分类方法通常使用支持向量机(Support Vector Machine,SVM)[9]、随机森林[10]、最大似然分类法[11]等进行珊瑚礁底栖物质信息提取,该类方法相对于阈值分类方法而言只需要较少的人为干预,但是对于一些较复杂的近岸浅海环境而言,该类方法的分类精度普遍不高;面向对象的方法[12]在进行珊瑚礁底栖物质信息提取时,在精度上相比阈值分类方法和监督分类方法有一定优势,但是对于不同的影像需要设定不同的分割尺度,同时针对不同的影像,在每次多尺度分割后也需要手动选取不同的样本来对分割后的影像进行分类,该类方法属于一种半自动化方法,时间成本较高。

近年来,利用深度学习进行图像分割已经取得了一定成果。文献[13]提出全卷积网络(Fully Convolutional Network,FCN)用于图像分割,FCN 采用任意大小的图像作为输入,可生成与原图像相同大小的分割图像。文献[14]对FCN 进行改进,提出U-Net 网络,在医学图像分割上取得了较好的效果。在对U-Net 进行改进后,一些研究人员提出了不同的网络,如V-Net[15]、UNet++[16]、Deeplab v3+[17]等。目前,也有较多学者将深度学习方法应用于遥感影像分割任务。文献[18]提出一种多尺度的U-Net 网络模型,对多源遥感影像进行海洋遥感信息提取,以U-Net 网络模型为基本架构进行改进,基于多源遥感数据分别对海洋内波、海岸带洪水、海洋涡流、海洋漏油事件、海冰、绿藻和海洋船舶进行信息提取,其精度相较于传统方法有所提升。文献[19]以U-Net为基线网络,提出一种基于注意力的多损失神经网络,以进行建筑物信息提取,相对于基线网络,其性能有所提高。文献[20]提出多尺度多任务深度学习框架自动道路提取模型MSMT-RE,用于实现高分辨率遥感图像中的道路检测和中心线提取。文献[21]提出一种深度学习网络Atrous Shuffle-UNet,该网络以U-Net 为基线网络,以改进ShuffleNet 单元作为网络信息提取单元,实现了土地利用信息提取。文献[22]利用VGG-16 对U-Net 网络进行改进,实现了水体信息提取,并在提取后处理中引入条件随机场对提取结果进行精细化处理,其结果优于SegNet和U-Net 网络。文献[23]针对遥感影像道路信息提取任务进行研究,使用ResUNet 作为基线网络,设计一种混合空洞卷积来改进空洞空间金字塔池化模块,从而增大网络感受野,相对于一些常用方法,该网络提取的道路结果完整性和连续性更佳。文献[24]基于编码器解码器结构,提出一种多尺度语义分割网络MSSNet,用于地物信息提取,该网络结构设计结合了ResNet101、残差块和空洞空间金字塔池化模块,并在输出层合并多个解码器的输出,实现了对相似地物和精细地物的精确提取。文献[25]使用ResNet101 和U-Net 作为骨干网络,将通道注意力模块和空间注意力模块级联后用于整个网络的解码部分,实现了对水体信息的高精度和高效提取。

为了充分利用深度学习的优势以解决珊瑚礁底栖物质信息提取中监督分类方法精度不高、面向对象方法不够自动化等问题,本文提出一种改进的U-Net 网络,对GF-2 的多光谱数据进行预处理后以面向对象多尺度分割的方法建立珊瑚礁底栖物质影像分割数据集。对U-Net 网络的改进具体包括:设计一种多输入(Multiple-input)结构以增加编码器的细节信息,进而提高网络分割精度;在编码器部分使用ResNet34 的结构来加深网络深度,进而提取更丰富的特征;提出一种特征提取块,即分解卷积注意力通道混洗块(Factorized-convolution Attention Shuffle Block,FAS Block),将其替代原网络中的普通卷积层,以增强特征表达能力,利用分解卷积来降低网络计算量,采用注意力机制进一步增强提取有效特征的能力,同时通过通道混洗操作来加强特征间的联系,以达到提高网络分割精度的目的;在远跳连接中添加一条包含注意力模块的短路径,以抑制无关特征,提高解码器恢复图像细节的能力。

1 研究区域与数据

1.1 研究区域

海南省三亚市是中国拥有珊瑚礁最丰富的地区之一。1990 年9 月,经国务院批准建立了三亚珊瑚礁国家级自然保护区,其位于海南省三亚市南部近岸及海岛四周海域,地理位置为东经109°20′50″~109°40′30″、北 纬18°10′30″~18°15′30″范围内。三亚珊瑚礁自然保护区属于三亚市沿海区,以鹿回头、大东海海域为主,包括亚龙湾以及三亚湾东西玳瑁岛海域,总面积为40 平方公里,保护对象为珊瑚礁及其生态系统。

本文以三亚市的西玳瑁岛、东玳瑁岛、鹿回头以及小东海的近岸海域为研究区域,地物类别主要分为健康珊瑚礁、白化珊瑚礁、藻类混合物、沙、近岸浪花、深海区和陆地,各类地物的遥感解译特征如表1所示(彩色效果见《计算机工程》官网HTML 版,下同)。

表1 各类地物的遥感解译特征Table 1 Remote sensing interpretation characteristics of various ground objects

1.2 数据源与标签制作

本文以GF-2 多光谱影像为主要研究数据,所用数据为两幅2019 年的GF-2 多光谱影像。GF-2 多光谱影像具有3.2 m 的空间分辨率,包括R、G、B、NIR等4 个波段。由于NIR 波段处于水体强烈吸收区,水体轮廓清晰,能用于绘制水体边界,具有较好的岛屿边界分辨能力,为了更好地区分水体和陆地,本文采用由NIR、G、B 等3 个波段合成的假彩影像。由于获取到的影像已经进行了大气校正和辐射定标的处理,因此直接使用获取到的影像进行实验。

对于卷积神经网络而言,一般需要带标签的数据进行训练。纯人工的标签制作方式是利用labelme 等工具来完成,该方法需要大量时间,且对于复杂的环境而言不够精细;利用传统的监督学习方法进行标签制作是基于像素点来分类影像,这容易产生混合像元问题,即“椒盐”现象;利用面向对象方法进行标签制作是基于对象来分类影像,将影像分割为不同对象,此时对影像分类不再是基于像素点而是基于对象,这可以在一定程度上消除“椒盐”现象的影响。由于健康珊瑚礁等底栖物质形状和大小不规则,环境较复杂,需要精细化处理,因此本文使用面向对象方法进行标签制作。

本文利用eCognition 软件所集成的面向对象方法进行训练标签制作,并结合Google Earth 影像对标签进行人工修正。面向对象方法的核心是进行多尺度分割,将影像分为不同的对象,需要选择合适的分割尺度,若分割尺度过大,将导致欠分割,即一个对象内包含多个地物;若分割尺度过小,会导致过分割,即将地物分割得过于破碎,破坏了地物的完整性。由于健康珊瑚礁等地物在影像上面积较小,因此对于近岸海域需要较小的分割尺度来将各底栖物质分割为不同的对象,而对于陆地和深海区域则不需要过于精细的分割,因此,设置3 种不同尺度来针对不同地物进行分割。图1 所示为对鹿回头GF-2 影像进行一级分割和三级分割的对比结果。从图1(a)可以看到,直接对影像进行尺度为10 的分割会将整幅影像分割得过于破碎,这破坏了近岸海域的完整性,不利于将近岸海域与深海区分开。从图1(b)可以看到,虽然最后一级分割尺度也为10,但是仅对近岸海域进行了细分割,这有利于区分深海区和近岸海域。

图1 一级分割与三级分割对比结果Fig.1 Comparison results of primary segmentation and tertiary segmentation

在三级分割的过程中,各级分割尺度的选择通过人工试验对比得到,每级分割之后通过不同的特征或方法提取相应的地物。以2019 年鹿回头GF-2影像为例,第一级分割对整幅影像进行粗分割来区分陆地和海洋,分割尺度设置为100,分割之后通过NDWI 指数进行水陆分离;第二级分割对海水区域进行细分割,以区分深海区和浅海区,分割尺度设置为50,分割之后通过HIS 指数和可见光波段对深水区和浅海区进行分离;第三级分割对浅海区域进行更精细的分割,以区分近海的各种底栖物质,分割尺度设置为10,分割之后通过最邻近算法对该浅海区域的各种底栖物质进行分类。各级分割结果如图2 所示。

图2 2019 年GF-2 多光谱影像的三级分割结果Fig.2 Tertiary segmentation results of GF-2 multispectral images in 2019

为了让标签更精确,本文对面向对象方法得到的结果图,结合更高分辨率的影像Google Earth,通过目视解译的方式进行一定的人工微调,以得到最终的标签图。为了消除年份带来的影响,使得结果更准确,本文在进行目视解译时所用的Google Earth均为2019 年的影像。

由于遥感影像尺寸普遍较大,无法直接输入网络中进行训练,因此需要进行裁剪。本文将影像和标签同时裁剪为128×128 大小的图像,为了扩充数据集以防止过拟合,使用随机裁剪的方式。由于主要研究区域为近海区域,在影像上占比较小,为防止类别过度不平衡,将裁剪后的数据集中只包含陆地和深海区2 个类别的图像删去,另外还对裁剪后的数据集进行翻转、旋转、添加模糊、改变色彩亮度和添加白噪声等操作来进一步扩充数据集,得到含有10 048 张128×128 尺寸图像的数据集。最后,将扩充后的数据集按照7∶3 的比例划分为训练集和验证集。部分数据和标签如图3 所示。

图3 数据集及对应的标签Fig.3 Datasets and corresponding labels

2 改进U-Net 的珊瑚礁底栖物质自动提取

2.1 网络整体结构

U-Net[14]是建立在FCN[13]上的经典语义分割网络。U-Net 模型最大的2 个特点是U 型结构和远跳连接(Skip Connection),网络的左侧(即编码器部分)是由卷积层和最大池化层(Max Pooling)构成的一系列降采样操作,每次降采样后Feature Map 的个数乘以2,网络的右侧(即解码器部分)为卷积层和上采样操作组成,将Feature Map 恢复到与输入相同的尺寸。在相同维度的编码器和解码器之间使用远跳连接来增强低级特征和高级特征之间的联系,最后通过一层全连接层进行输出。U-Net 网络在一些遥感影像信息提取任务中取得了较好的效果,但是U-Net网络较为简单,其提取特征的过程只是简单的卷积和下采样,对于一些环境较为复杂的信息提取任务,数据具有较为丰富的细节信息,使用简单的U-Net网络并不能取得很好的提取效果。本文的研究环境比较复杂,有多个目标类别,且各类别具有无规则形状,另外,健康珊瑚礁、白化珊瑚礁、藻类混合物、沙、浪花等5 个类别在影像上位于面积占比较小的近岸海域内,相对于较大面积的陆地和深海区而言存在类别不平衡问题。因此,本文对U-Net 网络进行改进,以得到更好的信息提取结果。

本文在U-Net 网络的基础上进行改进,提出一种珊瑚礁底栖物质自动分类提取方法,其整体网络结构如图4 所示,其中,×2、×3、×4 和×6 分别代表该层级有2、3、4 和6 个相同的FAS 块相连接。为了减少因下采样操作导致的细节信息丢失对网络分割精度带来的不利影响,对网络中每个层级的编码器使用一种多输入的方式;为了增强特征表达能力,结合分解卷积[26]、CBAM 块[27]和通道混洗操作[28]设计一种特征提取结构FAS 块;为了抑制无关特征,提高解码器恢复细节的能力,在原U-Net 网络的远跳连接上添加一条有CBAM 模块的短路径,将原远跳连接所传的特征与经过CBAM 模块后的特征进行级联,再传入解码器中;为了加深网络以提取更丰富的特征,在编码器部分使用ResNet34[29]残差部分的结构,并将ResNet34 中的普通残差块改为FAS 块;为了提高解码器的解码能力,将原解码器部分的普通卷积以FAS 块代替;底部的特征映射部分使用2 个FAS块相连。另外,为了优化训练,本文在底层特征映射部分的2 个FAS 块之后都添加一层Dropout 层[30],在FAS 块中每层卷积之后添加一层BN 层[31]。Dropout层是在深度学习训练过程中对神经网络训练单元按照一定的概率将其从网络中移除,是一种正则化方法,可以在一定程度上防止过拟合,本文将丢弃神经元的概率设置为0.5。BN 层是对网络进行归一化处理,让深度神经网络训练过程中每一层神经网络的输入保持相同分布,添加BN 层可以在一定程度上加快网络的训练和收敛速度,还能缓解梯度爆炸和梯度消失问题。

图4 改进的U-Net 网络模型Fig.4 Improved U-Net network model

2.2 Multiple-input 结构

在特征提取过程中,随着网络层数的加深,在每一次下采样的过程中会丢失一部分细节信息,从第1 个层级到第4 个层级会经历4 次下采样,当输入的特征到达第4 层级时已经丢失较多信息,这不利于提高网络分割精度。为此,设计一种Multiple-input结构,如图5 所示,直接对输入的特征进行×2、×4 和×8的下采样,并与对应层级下采样后的特征进行级联,然后经过一层1×1 的卷积进行降维处理以加快训练速度,最终得到该层级的输入特征。

图5 Multiple-input 结构Fig.5 Multiple-input structure

2.3 注意力机制

注意力机制是在神经网络中通过一系列的注意力权重分配系数将具体特征更加精确地提取出来,可以有效抑制无关特征。CBAM[22]是一个轻量级的注意力机制模块,既包含通道注意力模块又包含空间注意力模块,同时在通道和空间维度上进行注意力增强,将得到的通道注意力向量和空间注意力特征图分别与输入特征图进行乘法和点乘操作以得到输出。CBAM 结构如图6 所示。

图6 CBAM 结构Fig.6 CBAM structure

对于输入CBAM 模块的特征图F,在进行通道注意力模块后,首先利用全局最大池化和全局平均池化得到2 个压缩的特征,然后将压缩后的特征输入多层感知器(MLP)中,多层感知器由2 层全连接层组成,第1 层神经元个数为C/r(r为减少率),激活函数为ReLU,第2 层神经元个数为C,这个2 层的神经网络是共享的。最后,将MLP 输出的2 个一维向量进行求和运算并通过Sigmoid 函数得到通道注意力系数Mc。Mc计算公式如下:

其中:c表示输入特征的通道数;W0和W1为MLP 的2 层权重;Sigmoid为激活函数;AvgPool 为均值池化;MaxPool 为最大池化。

将通道注意力系数Mc与输入的特征图F相乘得到F',将其作为空间注意力模块的输入,F'计算公式如下:

其中:⊗为element-wise 乘法操作。

F'在进入空间注意力模块后,首先利用均值池化和最大池化得到2 个不同的二维向量,然后将2 个特征进行合并,并使用卷积操作生成空间注意力系数Ms。Ms计算公式如下:

其中:f7×7为卷积核大小为7×7 的卷积层。

将空间注意力系数Ms与输入空间注意力模块的特征图F'相乘得到最终输出F",F"计算公式如下:

2.4 FAS 块

FAS 块包含了分解卷积[21]、CBAM 注意力机制和通道混洗(Channel Shuffle)操作[23],FAS 块的结构如图7 所示。分解卷积是在Inception 模块中提出的,其将一次3×3 的普通卷积分解为一次3×1 的卷积和一次1×3 的卷积,由于使用了ResNet34 的结构,网络较深,通过这样的操作可以在一定程度上减少网路计算量。图8 所示为普通卷积和分解卷积的对比过 程,对 于N×N的特征 图,经 过3×3 的卷积会有9(N-2)2次计算,而经过一组分解卷积的计算量为6(N-1)(N-2),经过一组分解卷积和经过一次普通卷积的计算量之比为,可以得到当N>4 时分解卷积的计算量小于普通卷积,而本文每个层级特征图的大小依次为128、64、32、16 和8,因此,通过分解卷积的操作能够减少计算量。

图7 FAS 块结构Fig.7 FAS block structure

图8 普通卷积和分解卷积Fig.8 Ordinary convolution and decomposed convolution

在FAS 块中设置了2 组并行的分解卷积,以在减少计算量的同时提升特征提取能力。对2 组分解卷积输出的特征进行级联,一方面由于设置的2 组分解卷积是并列进行的,2 组分解卷积之间缺乏一定的关联性,另一方面分解卷积虽然降低了参数量,但是却在一定程度上破坏了特征间的关联性,因此,在2 组分解卷积级联之后设置一层3×3 卷积来加强特征间的关联性和表达能力。另外,设置一条短路径,对输入特征进行一次CBAM 注意力机制的操作来增强有效特征同时抑制无效特征。最后,设置一次通道混洗操作,通过该操作打乱原特征图的通道顺序,进而加强信息间的互通。

2.5 skip-attention 结构

在本文网络中设置一种skip-attention 结构,即在原U-Net 网络的远跳连接上添加一条短路径,并在该短路径上设置一个CBAM 块,通过CBAM 块对特征权重进行调整,加强有效特征同时抑制无效特征,以提高解码器对图像的恢复能力。skip-attention结构如图9 所示。

图9 skip-attention 结构Fig.9 skip-attention structure

2.6 损失函数

在本文研究中,获取到的遥感影像上非主要研究区域(即陆地和深海区)占了大多数面积,而对于一些主要研究目标类别(如藻类混合物等)所占比例较小,属于小目标,存在样本不均衡问题。Dice Loss是为了解决语义分割中样本不均衡问题而提出的损失函数,因此,本文拟通过Dice Loss 来缓解样本不均衡问题。然而,仅使用Dice Loss 时,若正样本为小目标,则训练过程可能会产生严重的震荡,导致训练不稳定,因此,考虑加入其他较稳定的损失函数与Dice Loss 进行组合以构成一个新的损失函数。交叉熵(Cross-Entropy,CE)是语义分割中一个常用的损失函数,其相对于Dice Loss 训练更稳定,可以缓解Dice Loss 训练时可能导致的震荡问题,因此,本文使用Dice Loss 和交叉熵的组合作为网络的损失函数,具体定义如下:

其中:|x|和|y|分别表示x和y中的元素个数;|x∩y|是x和y公共部分的元素个数;N表示图像中像素点数量;M表示类别数量;yic为符号函数,如果样本i的真实类别为c则取1,否则取0;pic表示观测样本i属于类别c的预测概率。

3 实验与结果分析

3.1 网络训练

3.1.1 实验环境和参数设置

本文所提算法在Ubuntu 18.04 环境下开发,编程语言为Python 3.5,深度学习框架为TensorFlow-GPU 1.13.1 和Keras-GPU 2.2.4,使用一 块NVIDIA GeForce RTX 2080 Ti 11 GB 显卡进行训练,批尺寸大小设置为2,初始学习率设置为0.000 1,当3 个epoch 完成而验证损失不下降时学习率减半,使用Adam 优化器来更新网络训练权重,设置最大训练轮次为40。

3.1.2 训练结果

图10 所示为本文网络模型训练过程中的精度值和损失值变化曲线。通过图10(a)可以看出,本文模型训练集和验证集的精度在前15 轮的迭代过程中快速上升,在之后一直迭代至40 轮的过程中逐渐趋于平稳。通过图10(b)可以看出,模型训练集和验证集的损失值随迭代次数的增加先快速下降,在迭代40 次后逐渐降低并趋近于0。本文模型经过40 次迭代准确率已经达到较高水平,曲线相对平滑,波动性较小,说明本文的学习率设置较为合理,损失函数实现了快速收敛,这也说明网络对数据集进行了有效学习。

图10 网络训练过程中的指标变化曲线Fig.10 Index change curves during network training process

3.2 评价指标

为定量评估模型性能,本文采用平均交并比(mean Intersection over Union,mIoU)和平均F1 值(计算中用F1,m表示)作为评价指标。IoU 是预测结果和标签中都标记为某一类的像素数与在预测或标签中被标记为该类像素数的比值;F1 值(计算中用F1表示)是用来衡量分类模型精确率的一个评价指标,其同时兼顾了精确率和召回率,对两者进行了加权平均,反映了模型对正负样本的识别和区分能力。mIoU、F1 值和平均F1 值的计算公式分别如下:

其中:N表示类别数量;Ti表示第i类的像素总数;Xii表示实际类型和预测类型都为i的像素总数;Xji表示实际类型为i、预测类型为j的像素总数;pi表示类别i的精确率;ri表示类别i的召回率。

3.3 消融实验结果

为了证明模块的有效性,在U-Net 模型上添加不同模块进行实验,定义如下:A 表示在U-Net 网络的基础 上添加skip-attention 结 构;B 表示在U-Net 网络的基础上添加Multiple-input 结构;C 表示在U-Net网络的基础上将编码器改为ResNet34 的结构;D 表示在U-Net 网络的基础上添加FAS 块。表2 所示为对比实验在测试数据集上的mIoU 和平均F1 值,表3所示为对比实验在各类别上的F1 值,最优结果加粗标注。图11 所示为对比实验的输出结果。

图11 添加不同模块后的分割结果Fig.11 Segmentation results after adding different modules

表2 添加不同模块后的对比结果Table 2 Comparison results after adding different modules %

表3 添加不同模块后各类别的F1 值对比结果Table 3 Comparison results of F1 score for each category after adding different modules %

从对比结果可以看出,在U-Net 模型上添加各模块后性能均有所提升。从图11 可以看出,在U-Net 模型的结果中出现了将部分健康珊瑚礁分为海水、将部分海水分为健康珊瑚礁的明显错误,而添加各模块后这种现象均有所改善。在U-Net 模型上添加各模块后mIoU 值和平均F1 值均有所提升,尤其是添加了ResNet34 和FAS 结构后提升效果最为明显。另外从表3 也可以看到,深海区和陆地的F1 值均较高,这是因为深海区和陆地比较容易区分,且样本较多,而白化珊瑚礁和藻类混合物的F1 值普遍较低,这是因为受影像分辨率的限制,白化珊瑚礁以及藻类混合物难以被精确识别出,而在添加本文模块后,将U-Net 结果中白化珊瑚礁的F1值从50.96%提升到了64.44%,藻类混合物的F1 值从58.50%提升到了67.93%,说明了本文各模块具有有效性。

为了验证损失函数在本文模型中的有效性,在本文模型的基础上分别使用交叉熵损失、Dice Loss、交叉熵与Dice Loss 相结合的损失以进行对比实验,结果如表4 和图12 所示。

图12 使用不同损失函数的分割结果Fig.12 Segmentation results using different loss functions

表4 使用不同损失函数的对比结果Table 4 Comparison results using different loss functions %

从对比结果可以看出,单独使用交叉熵或Dice Loss 时有部分海域被分为健康珊瑚礁,且mIoU 值和平均F1 值均不如两者相加作为损失函数的结果值。因此,使用交叉熵和Dice Loss 相加作为损失函数时本文模型性能更好。

3.4 不同模型对比结果

为了进一步验证本文模型的有效性,将其与一些常用分割模型进行对比,结果如图13 和表5 所示。

图13 不同模型的分割结果对比Fig.13 Comparison of segmentation results between different models

表5 不同模型在测试集上的对比结果Table 5 Comparison results of different models on the test set %

从 表5 可以看 出,SegNet 的mIoU 和平均F1 值 最低,这表明SegNet 的输出结果在本次对比中较差,从图13 也可以看出,SegNet 的结果中有较多沙被分为陆地,还有部分健康珊瑚礁被分为海水。SVM 的mIoU 和平均F1 值 比SegNet 高,说 明SVM 的整体 效果比SegNet 更好,但从图13 可以看出,SVM 有较多小目标未被正确分割,说明SVM 面对这种复杂的场景时有一定局限性。U-Net 相较于SegNet 和SVM表现更好,这说明本文模型的基线网络是有效的,但其对藻类混合物的分割仍出现较多的错误,表明U-Net 网络的提取仍然不够准确。从表5 可以看到,UNet++相对于U-Net 网络在mIoU 和平均F1 值上均有4%左右的提升,而本文模型相对于U-Net 网络均有6% 左右的提升,说明本文模型的分割效果比UNet++更好,且从图13 可以看出,相对于UNet++,本文模型的结果中有更多小目标被正确分割出来。

4 结束语

针对传统算法进行珊瑚礁底栖物质信息提取时存在的精度不高、不够自动化等问题,本文提出一种基于改进U-Net 的网络模型,以对珊瑚礁底栖物质信息进行提取。在保留U-Net 网络U 型结构的基础上设计一种多输入的结构,让编码器能获取更多的细节信息,同时对多输入信息使用1×1 的卷积来降维以加快网络训练速度,使用ResNet34 的结构来改进编码器,加深网络深度。提出一种FAS 块来代替网络中的普通卷积,提高网络的分割精度,利用注意力机制加强远跳连接中有效特征的权重,以提高解码器恢复图像细节的能力。实验结果表明,在进行珊瑚礁底栖物质信息提取时,相对于支持向量机和一些常用的深度学习分割模型,本文模型整体效果更佳。另外,相对于传统的半自动化提取方法,本文模型所用的深度学习方法更加自动化。虽然本文使用了分解卷积来控制参数量,但是模型的参数量仍较大,因此,下一步将向轻量化网络的方向进行优化,在保证模型整体性能的前提下提高网络分割效率。

猜你喜欢
珊瑚礁注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
终于等到你!ATOLL(珊瑚礁)ST200流媒体播放机、SDA200流媒体播放/功放一体机
珊瑚礁世界的鱼儿
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
跟踪导练(三)3
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
砗磲采挖对珊瑚礁生态系统的破坏——以西沙北礁为例