基于深度神经网络的遥感图像实例分割

2022-07-25 09:42张晋阳

现代计算机 2022年9期

张晋阳

（四川大学计算机学院，成都 610065）

0 引言

遥感图像视野广阔、内容丰富、信息量大，具有很大的利用价值，但图像捕获过程中容易受到光照、云层、空气质量等不可控因素影响，造成目标区域阴影、遮挡等问题，传统条件下遥感图像的精确解译需要人工进行目视判读。航空航天技术的发展使得机载以及星载遥感影像的获取变得更加容易，各国飞行器及卫星活动产生了海量遥感数据。然而高清遥感图像数据尺寸大、目标众多，依靠人工判读主观性大、工作效率低，因此遥感图像的智能化自动解译亟待研究。人类自发明影像记录技术以来，就不断有人尝试将其用于远距离观测记录。1858年法国人Tournachon 用气球拍摄了巴黎的鸟瞰相片，是最早的空中摄影记录。两次世界大战中，航空摄影成为军事侦察的重要手段，各国也意识到了空中侦察和航空摄影的重要军事价值，第二次世界大战后期，各类电磁频谱遥感记录技术得到发展，美国通过遥感影像的解译标绘军事目标地图，成为其太平洋战争中重要的情报来源，其后，随着卫星航空遥感的出现，遥感的重要价值使得其逐渐发展成为一门独立学科。遥感图像的解译是通过对遥感图像所提供的多种特征信息进行分析、推理和判断，最终从遥感图像中识别出感兴趣目标并确定形状、尺度、地理位置，利用计算机将遥感图像中的目标精细化分割和识别，是遥感图像应用于军事侦察、资源监测等领域的重要步骤。

1 相关工作

基于深度学习神经网络的方法在图像处理各个经典问题中产生了相当优秀的结果。自AlexNet在图像分类问题上表现出优异性能，人们意识到了基于学习的方法的巨大价值，神经网络被用于解决各个领域的经典问题，如目标检测、语音识别、文本分类等。神经网络本身也是一项研究课题，如何通过调整网络架构模型、损失函数、训练策略，引导得到更高效、性能更优异的结果也非常值得研究。遥感图像解译中对于目标的提取就是一个实例分割问题，在深度学习方法出现以前，人们通过无监督的K-means、ISODATA（Interactive Selforganization）等方法进行聚类分割，或者通过最大似然、最小距离以及支持向量机等方法进行遥感图像的分割，但这些方法大多泛化性能较差或者需要人工设置许多参数，难以进行大规模数据的精准解译。实例分割问题是目标检测和语义分割二者的结合，因为实例分割不仅需要将目标从图像中检测出来，并且需要对每个像素进行分类。与语义分割相比，实例分割发问题更加困难，提出和发展较晚，现有实例分割算法主要基于深度学习技术，如SDS（Simultaneous detection and segmentation）、 Deep-Mask、MultiPathNet等，随着数据驱动学习方法的发展，分割结果的精度和效率也在不断提高。在遥感图像中，实例分割存在的问题和难点有：①与常见的普通实例分割图片数据集相比，高分辨遥感图像尺寸大，难以直接输入网络进行预测；②小目标分割问题，神经网络越深，其末端感受野越大，鲁棒性越强，但分辨率的降低会导致遥感图像中一些尺度较小的目标在下采样过程中特征丢失，小目标的检测和分割精度下降。

早期的实例分割方法中，常利用底层图像处理算法进行候选区域生成，得到图像中可能存在实例的区域，然后再进行判断和分割。如在SDS 中，使用MCG算法进行候选区域生成，再使用CNN 分别对包围框内的图像和前景信息进行卷积特征提取，最后对提取到的卷积特征采用SVM 进行分类，对每个候选区域属于某个类别的可能性进行打分。一些方法采用密集滑动窗口的方式进行图像中物体的分割，如Deep-Mask，在整张图中采用不同尺度的密集滑动窗口获取图片的patch，然后提取该patch的卷积特征并输出patch 的mask 以及该patch 是否存在目标的分数，但DeepMask 最终通过全连接方式得到输出向量后重组成图像的方式使得mask 与特征的联系丢失，而且滑动窗口的方式存在大量冗余的特征提取步骤。为了解决滑动窗口过于冗余以及先检测后分割影响性能的问题，Wang等人提出了SOLO算法，利用网格划分进行实例定位以及分割预测。

2 研究方法

2.1 遥感图像数据集

本文选取iSAID数据集进行实验，iSAID数据集是2019 年CVPR Workshop 提出的一个用于航拍图像实例分割的数据集，其原始图像来源于DOTA航拍数据集。iSAID 包含2806 张高分辨率的图像，有汽车、运动场、飞机、直升机、桥梁、船只等15 类目标655451 个实例，每个类别都有大量标记实例图像，增强了网络对于实例及相关背景的学习能力。在iSAID数据集中，类间尺度变化较大，在同一图像中可能出现大、中、小等多种类型的类别实例，同时图像内各个对象数据的分布不均匀，不平衡，很好地展现了真实航拍环境下的数据分布状态。iSAID 原始航拍遥感图像数据较大，尺寸过大的图像消耗内存以及GPU 现存过大，无法进行训练，因此按照常用的处理方法，将其分割成较小的图像块以方便进行训练和测试，本文使用数据集提供脚本将数据分割成600×600 大小进行训练和测试。图1 所示为iSAID 数据集的一部分类别内容。

从图1可以看出，遥感图像实例分割问题中不同类别尺度变化较大，如Small_Vehicle 和plane 两类物体经常同时出现但所占像素面积相差数倍；部分物体密集度高，如图1（b）中Small_Vehicle 的分布十分密集，全部检出难度大，影响检出召回率；部分类别类间差异大，如Harbor 的形状以及长度在不同的图像中相差较大，学习难度较高。遥感数据的实例分割解译是一个具有挑战性的问题。

图1 iSAID数据集实例分割示例样本

2.2 注意力机制

当前的视觉任务中，大多采用神经网络方法学习图像数据中的特征，神经网络是一种通过计算机模拟生物神经元刺激与响应机制进行学习的方法，其强大的能力使得人们在一些经典视觉任务如目标检测、语义分割等方面取得了巨大的进步。研究者们对于人脑的认知机制的认识仍然不够透彻，但已经发现的一些人脑对于信号的处理机制对于计算机算法的设计仍有相当的启发，注意力机制就是其中一种。注意力机制是人脑的一种有意识的聚焦，人类的视觉系统可以以一种十分快速的方式找到并聚焦场景中的重要区域。受该现象的启发，计算机视觉中设计的注意力机制在图像识别、目标检测、语义分割等问题中取得了很大成功，对于视觉系统中的注意力机制，文献［10］将其抽象为下面的式子：

其中，()代表产生注意力，即关于重点区域进行处理的过程。(( ),)表示生成的注意力()对进行处理的过程。

现有视觉任务中的注意力机制有通道注意力机制，如SENet、空间注意力机制，如DANet，以及将二者结合形成的CBAM。本文将在SOLO 网络中嵌入CBAM 空间注意力模块，以提升网络性能。CBAM 的结构如图2所示。

图2 CBAM注意力模块

通道注意力主要通过学习的方式引导网络将注意力聚焦在特征的某个或某些通道上，而空间注意力机制则是引导网络将注意力聚焦在特征图的某个重点区域，聚焦注意力在卷积神经网络中具体为分配更大的权重。

图3 通道注意力与空间注意力模块

2.3 网络整体框架

本文基于SOLO 网络架构进行，SOLO 采用类别预测和实例分割分别进行的思路，进入SOLO 模型的图像首先通过ResNet 进行特征提取，经过ResNet 特征提取的特征图，分别进入类别预测和掩码预测分支，进入类别预测的分支通过多层卷积输出××大小的预测结果，其中是超参数，是预先设置的将图像划分网格的数量，是训练集中的类别数量。掩码预测分支用于预测类别预测结果中每个网格中包含实例的掩码，因此其输出是××2，即如果某个实例的中心坐落于某个网格中，该网格就负责预测该实例的掩码，由于添加了CoordConv，输出结果的每个通道都隐式含有对应的网格坐标位置信息，因此每个通道对于每个网格的关注度不一样。将掩码和网格类别预测结果再采用NMS 的方式进行处理即得到最终的输出。SOLO 是一个无需铆选框的实例分割网络，且可以进行端到端的单步训练，无需其他后处理手段。我们在原始SOLO 网络的基础上，选取ResNet50作为特征提取网络，由于在不同的分支网络中的任务不同，不适合直接使用CBAM，比如类别预测中，各特征通道之间需要进行权重分配，而各个位置独立负责每个各自的类别预测，因此不需要空间注意力，而掩码预测分支中，由于添加了CoordConv，使用通道注意力会引起图像信息与空间信息的混淆，因此添加空间注意力机制而不使用通道注意力机制，最终形成网络结构如图4所示。

图4 整体网络架构

3 实验

本文采用切分之后的iSAID 数据集进行实验，输入图像尺寸为600×600 的彩色RGB 图像，其中训练集共48313 张，验证数据集共16489张。本文实验软件环境为Ubuntu20.04、基于Pytorch 开发的开源检测工具箱mmdetection。实验硬件平台配置为GPU1080Ti、32 G 运行内存。

实验数据共分为15 类，分别是ship、storage_ tank、baseball_diamond、tennis_court、basketball_court、Ground_Track_Field、Bridge、Large_Vehicle、Small_Vehicle、Helicopter、Swimming_pool、Roundabout、Soccer_ball_field、plane、Harbor。实验中损失函数采用SOLO 中的损失函数构造，即将分类预测分支和掩码预测分支的损失相加，如式（2）所示。

其中，采用FocalLoss:

表示分类预测分支中，每个网格输出的概率，=1 则表示该网格中存在该类别的实例中心，是用于调节的超参数。和是两个损失的权重分配，对于掩码的预测，采用DICE Loss:

其中，是某个像素位置预测的概率值，是该像素是否是实例的真值。实验设置超参数== 1，= 0.25，= 2。设置实验训练epoch 为12，batch_size 大小为4，训练学习率采用线性增长，中期固定为0.001，阶梯衰减的策略，实验的学习率和训练过程的loss损失变化如图5所示。

图5 学习率及损失变化

最终得到的测试结果如表1所示。

表1 AP及AR测试结果

可以看出，注意力机制提升了SOLO 在遥感图像数据上的平均精度，检出结果的一些对比图像如图6所示。

图6 实例分割结果对比

在添加通道及空间注意力之后，网络更好地分割了物体边缘，并且成功分类了SOLO 网络在密集物体区域为检测到的部分，使得分割结果有所提升。

4 结语

本文基于单步实例分割框架SOLO 进行了改进，结合通道注意力机制与空间注意力机制，形成了一个神经网络模型，在iSAID遥感图像实例分割数据集上进行了实验。实验结果显示，本文算法能够有效地提取遥感图像中的感兴趣目标。但本文的方法中对于不同目标分割性能差异较大的问题还有待提高。本文采取的增加注意力机制是一个行之有效的方法，但性能还有很大提升空间，遥感图像的智能化解译还可以通过对不同尺度实例的分层金字塔分别进行学习。