杨 飞
(中国人民解放军91001 部队,北京 100841)
过去的30 年中,计算机视觉中最困难的问题之一就是图像分割。 图像分割不同于图像分类和目标检测。 图像分类任务是预测图像中出现物体的类别,属于图像级别的预测任务。 而语义分割也是一个像素级的预测任务[1],语义分割对图片中的每一个像素进行标记,并用不同的颜色来标记不同对象的类别,而传统的图像分割算法多是利用数字图像处理、数学等方法,根据图像的颜色、空间纹理、几何等特征,将图像划分为若不相交的区域,根据不同区域表现出来的特征差异,从而将目标与背景分开。 随着深度学习的发展,卷积神经网络的方法打破了传统图像分割需要手动寻找图像特征的缺陷,卷积神经网络[2]通过前向传播和误差反向传播的方法对自身建模来自动寻找图片的特征。
随着卫星传感器的发展,所得到的遥感图片的分辨率不断提高[3],遥感卫星能够完成各种观测任务,在城乡规划、道路识别以及地理信息[4]等方面均有应用。语义分割是完成这些任务的关键,由于遥感图像的地物尺度变化大、背景复杂和边界复杂等特点,传统的基于数学和数字图像处理的图像分割方法并不能有效地处理遥感图像[1]。 截至目前,对于语义分割,许多研究多是采用卷积神经网络(Convolutional Neural Networks,CNN)的方法进行语义分割,并且取得了巨大的成功。语义分割首次在CNN 上的尝试是FCN[5],通常的CNN网络是将卷积层产生的特征图映射为一个固定长度的特征向量,用于图像级别的分类和回归任务,而FCN 与上述方法不同,FCN 将卷积图进行上采样,将其恢复到与输入图片相同的尺寸,从而实现对每个像素的预测,实现了端到端的分割。 在FCN 之后,基于编码-解码器结构的U-Net 网络被提出。 U-Net 结构是对称的,通过长连接将特征拼接到一起,形成了U 形结构,该结构在医学影像分割上取得了很好的成绩。
尽管基于卷积神经网络的语义分割算法取得了良好的效果,但是遥感图像的背景复杂、边界复杂、目标小以及类别存在分割精度不高、分割效果不好的问题,本文通过对U-Net 进行优化,加入SE 通道注意力模块,以提升网络的分割效果。
2015 年,Ronneberger[6]提出U-Net 网络结构,利用U-Net[7]网络对FCN 网络结构进行修改和扩展。 UNet 的核心思想是使用对称的编码器-解码器结构,并通过长连接来连接同一级别的特征编码器,用于提取特征并生成不同级别的特征。 基于解码器进行图片恢复和拼接对应层的特点,长连接使网络通过Connection能够在每个级别的上采样过程中融合编码器在通道上的对应位置,形成特征图。 通过低层特征和高层特征的融合[8],网络可以保留更多包含在高层特征图中的高分辨率细节信息,从而提高图像的分割精度。
U- Net 是在FCN 的基础上进行改进的(见图1)。与FCN 相比,U-Net 具有以下特征:
图1 U-Net
(1)U-Net 的上采样部分具有大量特征通道,可以将语义信息传播到高分辨率层。
(2)使用了skip-connection,这种长连接可以融合更多的高频信息。
(3)结构简单,有很大的改进空间。
Squeeze-and-Excitation Network(SENet)[9]在2017年拿到了ImageNet2017 分类比赛的冠军,SENet 从特征通道入手,显式的建模特征通道之间相互依赖的关系,即通过自监督的方式自动获取每个特征通道的重要程度,然后,据此增加某一个通道的信息,并抑制当前用不到的特征通道,让网络利用全局信息有选择地增强有益的特征通道,抑制无用特征通道,从而实现特征通道的自监督。 SE 模块增加了极少的计算量,但是效果很好。 SE 模块结构如图2 所示,W,H分别表示特征图宽,高。C表示通道数,输入特征图大小为W×H×C。
图2 SE 模块示意
SE 模块分为压缩(Squeeze)和激励(Excitation)。压缩操作就是将输入的特征图进行全局平均池化,经过Fsq将特征图压缩为1×1×C的向量。 激励操作通过两个全连接层,得出每个特征通道的通道权重。 最后对scale 操作,利用求得的通道权重与开始输入的特征图进行二维矩阵相乘,得出输出结果,如图3 所示。
图3 SE 模块
在语义分割领域,增加卷积核的感受野是非常重要的,增大感受野[10]有利于捕获更大区域的特征信息和更详细的信息,这与遥感图像的目的不谋而合。 在传统的神经网络中,通常是通过池化操作来减少图像尺寸,以增加感受野并减少计算参数的数量。 这种方法虽然使卷积神经网络获得了旋转不变性,但是这样的合并会随着图像尺寸的减少,丢失的信息将会增多,对于小目标,合并操作后容易造成识别不连续,降低分割精度,甚至无法重建目标。 在网络中使用Dilated Convolution 可以获得更大的感受野,也可以用来替代池化操作,从而在不减少接收场合参数的情况下减少空间特征的损失,扩大感受野。
图4 卷积操作和空洞卷积
本文提出的SEU-Net 以U-Net 为骨架,利用UNet 的跳跃连接将同级别的特征进行融合,为了提高U-Net 的分割精度,在长连接过程中使用SE 模块,利用其自注意力机制,来最大化每一个通道的权重,提高空间像素的相关性,提高网络的分割效果。 并在网络的编码阶段采用空洞卷积来扩大感受野,帮助编码器找到更多的细节信息,以提高小目标的分割精度。
本实验采用的数据集是DeepGlobe 卫星道路数据集[11],由尺寸为1 024×1 024,地面分辨率0.5 m/像素的图像构成,每张图像包含三通道信息(RGB)。 数据集有6 226 张训练样本和标签,本文中采用5 500 张作为训练集,726 张作为测试集。 部分遥感道路图像如图5 所示。
图5 SEU-Net
图6 数据集的部分原图和标签
由于GPU 的限制,对每个小尺寸图片进行缩小成512×512 输入SEU-Net 进行分割,此外为了防止出现过拟合现象,对数据集进行数据增强。
图像的语义分割实际就是将输入图像中的每一个像素分配一个类别,得到像素化的分类,预测的结果有4 种TP,TN,FP和FN。P(精确率)为预测正确的正例数占预测的正例总量的比率。R(召回率)为预测正例占正例总量的比例。
本文采用F1-score(F1)、平均交并比(mIoU)作为评级指标,定义分别为:
F1 分数同时兼顾了模型的准确率和召回率,是模型准确率和召回率的加权平均。
mIoU 是计算真实值与预测值这两个集合的交集与并集之比,并在每个类别计算IoU之后取平均值。
在对数据集进行训练时,本文采用pytorch 框架,优化时使用Adam 优化器,损失函数采用交叉熵损失函数。 参数设置:Ir=0.001,batch_size=16。
在相同的实验条件下采用U-Net,FCN 和本文提出的SEU-Net 进行对比试验。
表1 对比试验
图7 原图,标签,U-Net,SEU-Net 分割图
遥感图像的语义分割是图像分割领域[12]的一个重大分支,对于指导城乡规划、城市化建设具有重要意义。 本文针对传统的遥感图像语义分割的自动化程度低、遥感图像分割精度低等问题,结合卷积神经网络、注意力机制和U-Net[13]网络模型等方法,提出了SEUnet,本文SE-Unet 的下采样模块使用了空洞卷积替代了部分卷积操作,使用SE 模块采用自监督的方法,根据各通道的重要性来对通道进行加权,提升了计算量精度,比只采用U-Net 的方法提高了分割精度,通过U-Net 的长连接和SE 模块有效地保留了低层次的细节信息。 通过对比实验证明,本网络在DeepGlobe 卫星道路数据上有很好的分割精度,在分割mIoU,F1,PA等指标上有不同程度的提高,证明了SE-Unet 方法的有效性。 下一步将围绕模型的优化算法,对网络的分割性能进行优化,尝试当前流行的Transformer 架构,提升网络的运算效率。 另外,模型的轻量化也是今后的研究方向。