基于神经网络的遥感图像海陆语义分割方法

2020-08-03 10:06吕亚飞裴家正

计算机工程与应用 2020年15期

熊伟，蔡咪，吕亚飞，裴家正

海军航空大学信息融合研究所，山东烟台 264001

1 引言

遥感图像海陆分割通过将码头图像中海洋区域和陆地区域区分开来，有助于实现舰船目标的快速检测和分类，在海上安全、海上交通监视、船舶救援、渔业管理和海上态势感知（MSA）等方面具有重要的意义。遥感图像为俯视图，图像中海上信息较少，舰船目标特征相似，特征区分性不强，同时港口陆地的空间位置及表面特征复杂，都将不利于对舰船目标的快速检测与识别。对海陆区域进行分割，可以预先排除陆地对舰船检测与识别的负面影响，帮助实现舰船目标更加快速且精确的检测与识别。

传统的分割方法[1]大部分是利用图像像素的形状、纹理和颜色等低级语义信息进行分割，但对于低级语义信息较少的遥感图像来说效果不甚理想。随着深度学习[2]在计算机视觉中的快速发展，深度卷积神经网络（Deep Convolution Neural Network，DCNN）[3]已经成为自然图像检测[4]与语义分割[5]的主要建模工具。为了能够得到更加精确的遥感图像海陆分割，本文利用深度卷积神经网络对海陆区域进行逐像素的分类，实现更加精确的海陆语义分割效果。

现有基于深度学习的语义分割方法大多数是面向自然场景图像，2014年Long等人首次提出利用全卷积网络代替全连接层，设计了一个可以实现端对端语义分割的全卷积网络（Full Convolution Neural Network，FCNN）。文献[6]利用空洞卷积设计了一个新的卷积网络模型，实现了更加精确的预测结果。文献[7]提出了一个全局卷积网络，提高分割精确度。为了解决多尺度目标问题，文献[8]提出了一个空洞卷积池化金字塔用以提取更多的多尺度信息。文献[9]提出网络结构DeepLabv3+，能够更加精细地恢复目标的位置信息，尤其是目标的边界信息。文献[10]针对图像语义较为简单，结构较为固定且样本少的医疗影像进行分割。此外，由于目前的神经网络等方法不具备尺度不变性的特征，利用多尺度图像信息进行训练能有效提升目标的检测和分割效果，例如：SIFT、HOG等经典算法[11-12]利用输入图像的多尺度以获得更多不同尺度的特征信息。Lin等人[13]提出了一个特征金字塔模型，用于提取多尺度目标信息提高目标检测精度。Liu等人[14]提出了一个SSD网络结构，相比于其他方法以特征提取网络的最后一个特征图作为检测网络的输入，SDD综合利用了不同尺度、分辨率的特征图，有效提升了对小目标的检测精度。熊志勇等[15]提出将三种不同尺度的图像分别作为全卷积网络的输入得到三个不同尺度分割结果，最后将三种尺度的分割图进行融合以提升分割精度。

有少数部分的语义分割方法针对于遥感图像中建筑、陆地、河流、森林等地物目标进行分割，文献[16]针对高分辨率遥感地物目标信息，对U-Net算法进行改进。文献[17]针对城市区域小目标遥感图像设计了一个深度卷积神经网络，实现了端对端的图像像素级分割。文献[18]提出了一个针对高分辨率遥感图像的多路径细化网络。文献[19]针对遥感图像中目标小而密集产生语义分割问题设计了一个新的网络结构，提高小目标的分割精度。

但是，与自然场景图像以及遥感图像城市目标不同，遥感图像中陆地形状多样，码头细长，靠码头的舰船目标容易分割成码头，出现像素级分类不准确的现象。同时部分码头与舰船边界不清，导致码头边界分割不明确，出现边界模糊定位的现象。为了解决以上出现的像素分类和定位的问题，本文基于U-Net[10]网络进行改进，设计了以不同尺度的图像作为输入的多个编码结构并行的网络架构，在多个编码结构的不同层之间将多个特征图进行融合，得到更加丰富的特征算子。同时，设计了一个编码结构，融合编码部分不同层次的特征图对提取的丰富特征进行像素恢复，得到更加密集的像素位置信息。

基于现有的海陆语义分割方法的不足之处，本文提出了一个新的基于深度卷积神经网络的海陆分割网络，本文的主要创新点如下：

（1）设计了一个新的编码模型，该模型以三个不同尺度的图像作为输入，三个并行的编码结构分别对输入图像进行不同尺度的特征提取并在编码部分将多尺度的特征图进行融合来帮助提高像素级分类效果。

（2）设计了一个解码模块，通过将编码模块中已经融合的不同层的多尺度特征图与解码模块中的特征进行再次融合来恢复更加密集的像素位置信息。

2 网络结构

2.1 多编码器特征融合网络（MEFF-Net）

对于大多数基于卷积神经网络的目标检测或分类的算法，在特征提取部分增加特征提取的网络深度可以获得更多的语义信息，提高分类准确度，也可以利用空间金子塔模型，通过融合多个不同尺度的特征图得到更加丰富的特征算子以提高分类准确度。而与目标检测或分类算法不同的是，图像语义分割算法不仅需要获取目标的特征信息，还需对图像进行原尺寸的恢复，图像像素位置信息恢复得更加准确，分割结果更好。在提高目标位置信息方面，相比于标准卷积，空洞卷积在扩大感受野的同时可以减少图像分辨率的损失，从而能够恢复更加密集的目标位置信息。对恢复像素位置信息的编码模块进行改进，如U-Net，通过非线性插值法进行上采样，利用跳跃连接，将编码部分具有精细位置信息的不同尺度特征图与解码部分的上采样恢复图片进行融合，可以得到更加精细的像素位置信息。如SegNet[20]通过对池化标记进行非池化上采样的同时，利用跳跃连接帮助恢复像素更加精确的位置信息。

图1 网络整体框架图

本文基于U-Net进行改进，针对遥感图像海陆分割特点及问题，设计了一个新的网络结构MEFF-Net，如图1。该网络结构是一个端到端的全卷积神经网络，由编码和解码两部分组成，其输入图片为三个不同尺度的高分辨率遥感图像，大小分别为256×256、512×512以及1 024×1 024，图片在进入网络时会首先进入编码部分，得到特征图。该网络的编码部分由三个并行的编码结构组成，在编码结构的末端进行特征融合，融合后的特征图作为解码部分的特征输入。随后由解码结构对特征图进行目标位置的恢复，最终得到预测分割结果图。

与U-Net网络结构相似，MEFF-Net网络也是一个以编码-解码为框架的网路结构。编码结构目的是提取目标特征得到目标的深层的语义信息，有助于实现对目标进行逐像素的精确识别，识别越准确分割性能更好；解码结构目的是对编码结构的特征图进行逐像素的位置恢复，恢复至与原图像相同尺度大小，像素位置恢复越准确，分割精度越高。本文设计的解码结构为含有4个串联解码模块加一个softmax分类层的解码器，每一个解码模块的输出均为下一个解码模块的输入，每个解码模块的组成部分相同，均含有一个上采样层对特征图进行上采样，恢复图像尺度，最后经过softmax层对像素进行分类并得到与输入图像相同尺度的分割结果图。

不同之处在于编码器部分，主要设计了3个不同的并行编码结构分别对不同尺度的图像进行特征提取，在输入为256×256尺度的图像编码结构中，使用了4个编码模块得到4种不同尺度的特征图，其中第一层输出为包含64张128×128尺寸的特征图，第二层输出为包含128张64×64尺寸的特征图，第三层输出为包含256张32×32尺寸的特征图，最后一层输出为包含512张尺寸为16×16的特征图。在输入为512×512尺度的图像编码结构中，使用了5个编码模块，得到5种不同尺度的特征图，其中，第一层输出为包含32张256×256尺寸的特征图，第二层输出为包含64张128×128尺寸的特征图，第三层输出为包含128张64×64尺寸的特征图，第四层输出为包含256张32×32尺寸的特征图，最后一层输出为包含512张尺寸为16×16的特征图。在输入1 024×1 024尺度的图像编码结构中，使用了6个编码模块，得到6种不同尺度的特征图，其中第一层输出为包含16张512×512尺寸的特征图，第二层输出为包含32张256×256尺寸的特征图，第三层输出为包含64张128×128尺寸的特征图，第四层输出为包含128张64×64尺寸的特征图，第五层输出为包含256张32×32尺寸的特征图，最后一层输出同样为包含512尺寸为16×16的特征图。可以发现每一个编码结构随着网络深度的增加逐步扩大特征图厚度以获得更多的图像特征信息，同时随着网络的加深，图像分辨率不断减小，有利于减少冗余信息的同时扩大感受野使网络得到更多的上下文语义信息。与此同时，编码部分中的融合过程均作用于3个编码结构中具有相同特征图尺寸和厚度的编码层。其融合方法如图2所示。在编码部分的3个编码结构中，每一个编码模块的结构均相同，均含有一个池化层，用于降低图像尺寸。每个编码模块的的输出作为下一个编码模块的输入。将3个并行编码结构输出同为16×16的特征图进行特征相加融合，作为解码结构第一个解码模块的输入，同时，也将3个并行编码结构编码过程中生成的具有相同尺寸的特征图进行相加融合，如第一个结构的第一层输出特征图与第二个结构的第二层输出特征图以及第三个结构的第三层输出特征图进行相加融合，作为解码结构中第四个解码模块的第二个输入。意味着低层中含有丰富位置信息的特征图将有助于更加精细的像素位置恢复。

图2 网络编码结构中特征的相加融合方式

2.2 编码模块和解码模块

本文所提网络结构中的编码模块（Encoder Block）是一种卷积神经网络的特征提取模块，其中包含了互相交叠的两个卷积层两个激活层以及一个池化层。

如图3所示为第一个编码结构的第一个编码模块（Encoder Block1_1）示意图，conv1_1_1是卷积核大小为3×3的标准卷积，步长为1，卷积核数量是32个，卷积后图片尺寸不变。conv1_1_1后面接的relu激活层进行特征激活。conv1_1_2同样是卷积核大小为3×3的标准卷积，步长为1，卷积核数量与模块中第一层卷积核数量相同，卷积后图片尺寸不变，同样后面接一个relu激活层对特征进行激活。编码模块最后一层为2×2的最大池化层，对特征图进行尺寸缩小，同时提高图像特征的平移不变性。

图3 Encoder Block1_1示意图

解码模块（Decoder Block）的结构与编码模块（Encoder Block）有相似之处，除了第一个解码模块为编码器输出特征图这一个输入，其余三个模块均为两个输入Input1和Input2。以解码结构中第二个解码模块（Decoder Block_2）为例，如图4所示，解码模块第一层是一个串联层，将两个输入进行串联融合作为第二层上采样的输入。Input1为前一个解码模块的输出，这与U-Net算法中解码模块相似；不同之处为MEFF-Net算法解码模块中Input2为编码部分融合了3个编码结构中不同解码模块的多尺度特征图，该特征图包含了目标多个不同尺度的上下文信息同时含有详细的位置信息，有助于解码部分实现图像密集恢复。第三层和第四层为与编码模块中卷积与激活层相同。上采样层为非线性插值上采样。串联融合方式如图5所示。

图4 Decoder Block_2示意图

图5 网络编码结构中特征的串联融合方式

3 数据集介绍与评价指标

本文基于数据集HRSC-2016[21]，构建了用于检验海陆分割算法的新的数据集HRSC2016-SL。该数据集含有1 000张海陆分割标记的高分辨率遥感图像，并利用LabelMe[22]标注工具对原图中海陆区域进行分割标记。图像分辨率范围为2 m至0.4 m，图像尺寸范围为300×300至1 500×900。本文将HRSC2016-SL数据集分为7∶3的训练集和测试集。该数据集中部分样本数据如图6所示。

当只有少数训练样本可用时，数据增强[23]对于训练网络所需的不变性和鲁棒性属性至关重要。本文应用旋转、随机裁剪、随机比例、移位等图像增强方法来处理训练集中的图像和标签，然后获得17 000张图片的训练集。所有实验都使用带有Tensorflow后端的Keras框架进行编程。

图6 遥感图像海陆分割数据集HRSC2016-SL训练样本

为了做出有效的评估，本文使用了类别并比（IOU）的平均值（mIoU）作为评估指标。类别交并比IOU为目标实际位置与预测位置的交集与并集的比值。而平均类别交并比mIoU为各个类别交并比的平均值。

4 实验结果与分析

为了更好地评估本文算法中编码器的性能，本文在HRSC2016-SL测试集进行测试，首先对MEFF-Net算法与U-Net算法进行实验对比，实验结果如表1所示。从表中可以看出，本文基于U-Net设计的新的网络结构MEFF-Net在平均IOU上提升了1.31%的性能。在具有相同编码器-解码器算法结构的情况下，实验证明本文改进后的多尺度输入并行编码器有助于编码器提取更多具有不同尺度上下文信息的丰富特征算子，有助于提升舰船目标识别精确度，帮助语义分割网络实现更加精确的目标分割。

表1 MEFF-Net算法与U-Net对比结果 %

在实验参数设置相同的情况下，将本文算法与现有的SegNet、FCN算法及文献[15]所提算法进行对比。实验结果如表2所示。从表中可以看出，MEFF-Net算法获得了最好的分割结果，与SegNet算法相比，平均IOU上升了8.74%的分割精确度；与文献[15]所提算法相比，平均IOU上升了3.34%；与FCN算法相比，平均IOU上升了2.02%的分割精确度。

表2 MEFF-Net算法与其他语义分割算法对比结果 %

从实验结果中可以看出，本文所提MEFF-Net算法的性能优于SegNet，文献[15]所提算法以及FCN算法。其主要原因在于SegNet算法虽然同为编码-解码结构，但其仅仅只利用了一种尺度的输入图像，同时编码结构中没有对不同尺度的特征图进行融合。文献[15]将三个不同尺度的图像作为全卷积网络的输入得到三个不同尺度的分割图，最后将其融合取平均来提升分割性能。而FCN算法中的特征提取部分不仅没有融合多尺度特征图，其像素恢复部分也较为粗糙，不如解码器的恢复更加细致。而本文所提MEFF-Net算法不仅利用了多个不同尺度的输入图片作为三个并行编码结构的输入，而且在编码器对其进行不同尺度的特征提取过程中，对不同编码结构中的不同编码模块进行特征融合，丰富了编码器所提取的特征算子的上下文语义信息，提升了目标识别精度。同时，将低层编码器中具有精密位置信息和多尺度上下文信息的特征图与解码模块相融合，利用解码器对目标位置进行像素级恢复，提高了对图像细节的分析能力以及像素位置信息的密集恢复能力，得到了遥感图像舰船目标最优语义分割结果。

为了测试本文算法中网络深度对海陆分割的影响，在原网络的基础上，增加网络的深度，在每个编码模块中均分别添加一个卷积层和一个relu激活层，构成MEFF-Net（2）网络。在每个编码模块中均分别添加两个卷积层和两个激活层，构成MEFF-Net（3）网络。将具有不同深度的MEFF-Net算法进行对比，实验结果如表3所示，实验结果证明，随着网络深度的增加，海陆分割效果变得更好。原因在于，随着网络深度的增加，有效感受野不断增加，具有复杂特征信息的陆地获得了更丰富的上下文语义信息，有效地提升了陆地的分割精度。

表3 MEFF-Net算法网络深度对分割效果的影响%

表4 卷积核大小对分割效果的影响%

与此同时，本文验证了卷积核大小对海陆分割效果的影响，实验结果如表4。实验表明，随着卷积核的增大，感受野增大，有效感受野也随之增大，对于大面积的陆地分割而言，有利于获得更多的上下文信息而实现更加精确语义分割。如图7所示为本文改进算法与其他算法的分割预测结果图。相比于现有的其他算法，MEFF-Net算法有效地改善了像素分类以及边界分割模糊问题，分割预测结果更加准确。

图7 算法结果对比图

5 结论

本文根据遥感图像海陆分割特点，在经典的U-Net网络基础上进行算法改进，提出了一个新的编码-解码网络结构MEFF-Net。该网络结构中的编码部分包含3个并行的编码结构，分别以分辨率为256×256、512×512以及1 024×1 024的图像作为输入，则这三个并行的编码结构分别可以获得不同尺度的特征图，通过对多尺度特征图进行融合，有助于特征网络提取更加丰富的语义信息。网络中的解码部分利用跳跃结构融合了编码结构中丰富的位置信息，提高了图像位置信息的恢复精度。除此以外，本文构建了一个新的海陆语义分割数据集HRSC2016-SL，在该数据集上，改进后的MEFF-Net算法精确度具有明显提升，有效地改善了像素分类以及边界分割模糊问题。