廖婧琳,何 青
(长沙理工大学电气与信息工程学院,长沙 410114)
随着科技发展,目前可获取到大量的高分辨率卫星地图,为遥感图像下的道路提取提供了重要的数据源。与低分辨率的卫星地图相比,高分辨率的卫星地图具有更好的光谱和纹理特征,使得提取更精确的道路成为可能[1]。在现代社会中,道路作为国家基础地理信息的一部分具有关键性作用。道路提取是车辆导航、自动驾驶[2]、城市规划[3]、灾难救援[4]、智慧城市建设和地理信息系统更新[5]等应用的必要前提。道路提取方法可分为基于像素、面向对象和深度学习的方法。基于像素的方法主要利用不同的波段特征,可以提取具有简单背景的卫星图像中的道路[6]。基于对象的方法将道路对象作为一个整体来识别,具有良好的抗噪声性和适用性[7]。然而,由于高分辨率卫星地图具有较丰富的光谱特征和比例更大的几何特征,传统的道路提取方法缺乏对复杂道路多样性特征的考虑,难以提取完整、连续的道路。
近年来,深度学习的发展极大地推动了道路提取的进展[8]。完全卷积神经网络FCN[9]叠加多个卷积层和汇集层以逐渐扩大网络的接收域,这更有利于道路信息的提取[10]。U-Net[11]已被用于有效提取道路信息,将不同级别的特征地图连接起来[12]。使用编码器-解码器架[13]构通过高级特征获得道路提取的粗定位,并通过包含空间结构细节的低级特征细化边界[14]。
但以往的道路提取工作存在以下问题:由于建筑物和树木的阴影、不同的成像条件以及道路光谱与其他特征的相似性,提取的道路网络往往产生支离破碎的路段。在以往的研究中,大多忽略了整个输入图像的道路结构特性,对于较为复杂、多道路区域的情况,难以产生完整的道路结果。
综上可得,必须要结合道路目标的结构特性来改进模型,道路提取任务需要捕获多尺度上下文,捕获长期依赖关系的方法包括:扩张卷积,旨在扩大CNN 的接受域,而不引入额外的参数;金字塔池化,总结图像的全局线索。然而,这些方法存在共同的限制:都使用了普通的N×N卷积核对狭长道路特征进行建模,这使得在提取道路的过程中,由于道路目标呈细长、带状结构,从而使用传统的大正方形池窗口来进行池化操作不可避免地引入很多不相关的上下文。
本研究引入了条纹池化模块(strip pooling module,SPM)来改善道路提取中的不连续性问题,同时利用遥感影像数据特征,提出了一种新的融合方法,和一个级联的多尺度注意增强模块(cascade multi-scale attention enhancement,CMSAE)的SPM-Unet网络。
本文提出的SPM-Unet 是基于U-Net 网络结构改进的,网络主要由编码器、解码器组成,是个高度对称的网络,网络结构如图1所示。
图1 SPM-Unet结构
SPM-Unet 编码器采用VGG16 进行特征提取,针对道路狭长窄小的结构特点,本文提出使用条纹池化模块SPM 代替普通的下采样以提取到更多有用的道路细节信息。该模块能精确缩小池化区域,在捕获远距离道路区域信息的同时又关注道路局部细节信息。U-Net 网络通过级联不同层次的特征图,重新利用低层次的语义信息。尽管U-Net在下采样时增加了感受野范围,但也存在损失一些细小道路目标信息的问题。因此,在使用U-Net进行道路提取时存在局限性。为了聚合连续道路的空间细节和语义信息,本文提出一个多尺度注意增强模块,将其置于编码-解码中间。
首先,平均池化操作如下:设x∈RH×W为二维输入张量,其中H和W分别为空间高度和空间宽度。形式上,平均池操作可以写为
其中平均池化操作在0 ≤i0<H0和0 ≤j0<W0的范围内,y的每个空间位置对应一个大小为H×W的池窗口。然而,在处理不规则形状的对象时,采用平均池化操作可能会引入许多与目标无关的区域,如图2所示。
图2 平均池化和带状池化
为了缓解平均池化操作不可避免地包含许多不相关的区域的问题,本文提出了“条形池化”,主要是使用一个条形池化窗口沿着水平或垂直维度执行池化操作,如图2第一行所示。在数学上,给定二维张量x∈RH×W,在条形池中,需要一个空间范围(H,1)或(1,W)。与二维平均池不同,提出的条形池平均了一行或一列中的所有特征值。因此,水平条形池后的输出yh∈RH可写为
同理,垂直条形池后的输出yv∈RW可写为
给定水平和垂直条形池层,由于长而窄的形状,很容易在离散分布的区域之间建立长距离依赖关系,并用带状形状编码区域。同时,除了在其他维度上侧重于捕获局部细节外,这些特性还使得我们提出的条形池不同于依赖于方形核的传统空间池。
在本小节中,介绍了如何通过条形池化操作来帮助骨干网捕获长期上下文。本文提出了一种新的条带池模块(SPM),利用水平和垂直条带池操作收集来自不同空间维度的长距离上下文。图3 展示了本文提出的SPM。设x∈RC×H×W是一个输入张量,其中C表示通道数。首先,我们将输入数据分成两个平行的路径,每个路径包含一个条形池层,其中有水平和垂直方向。
图3 条形池化模块SPM示意图
一个内核尺寸为3 的一维卷积层,用于调节当前位置及其邻近特征。给出了yh∈RC×H,yv∈RC×W,为了得到一个包含更多有用的全局先验的输出z∈RC×H×W,我们首先将yh和yw组合成如下形式,得到y∈RC×H×W:
然后,将输出z计算为
其中:Scale(·,·)指的是元素的相乘,σ是S形函数,f是1 × 1 的卷积。公式(4)和(5)中,允许输出张量中的每个位置与输入张量中的各个位置建立关系。例如,在图3 中,输出张量中以黑色格子为界的正方形连接到所有具有与其相同的水平或垂直坐标的位置。因此,通过多次重复聚合过程,就能在整个上下文中构建远程依赖关系。受益于元素乘法操作,本文提出的SPM 也可以被视为一种注意机制,可以直接应用于任何预先训练的骨干网络,而无需从头开始训练它们。与全局平均池相比,条形池化关注的是较长但较窄的局部范围,而不是整个特征映射,从而避免了建立大多数不必要的连接,这与基于注意力机制的模块[15]不同,后者需要大量计算来建立每对位置之间的关系。本文提出的SPM 是轻量级的,可以很容易地嵌入到任何构建块中,以提高捕获长距离空间依赖性和利用通道间依赖性的能力。
首先,针对固定长度编码矢量产生的瓶颈问题提出了注意机制[16],其中解码器对输入提供的信息受到局限。级联多尺度注意增强模块利用编码器隐状态的加权和,灵活地将解码器的注意力集中在输入序列的最相关部分,极大地提高了序列模型的性能。近年来,级联多注意增强模块已成功地应用于图像处理,特别是语义分割领域,显著提高了遥感图像处理的性能。在图像处理应用中,注意机制主要分为空间注意和通道注意。空间注意的目的是通过空间像素逐像素的相似性计算来获取长距离相关性,而通道注意主要是通过计算信道级别的相关性来为每个特征信道赋权。
如图1 所示,有五个尺度的特征提取的VGG16 预训练骨干。从浅层提取的高分辨率特征保持了大量的空间细节,从深层卷积层提取的低分辨率特征含有丰富的语义特征,但空间信息丢失。在遥感影像中,道路通常表现为狭长的线性结构,由于道路宽度的限制,道路横断面上的像素很少。因此我们只利用三个尺度的高分辨率特征,更好地保存了必要的道路空间信息,如图4 所示。为了扩大接收域,提取更广泛的连续路径,引入了ASPP 模块,以获得更多的全局特征。同时引入空间注意(SA)层来捕捉道路的长距离相似性,提高道路特征的一致性,特别是对于狭窄的道路。在解码阶段,通过跳跃连接对增强后的多尺度特征进行融合,同时利用信道注意(CA)层对上采样阶段的多尺度特征进行信道级滤波,获得语义丰富、空间细节准确的聚合特征。
图4 级联多尺度注意增强模块示意图
在遥感图像中,由于道路狭窄且连续,微小的道路易受到邻近背景像素的干扰,导致提取出不连续的道路信息。通过引入空间注意机制来捕捉道路的长距离相关性,增强了道路区域的语义特征,显著提高了狭窄道路的连续性。此外,语义分割网络的解码器通过空间加法或通道级联的跳跃连接对特征进行融合,增强语义特征的能力。在此基础上引入通道注意机制,实现了不同尺度特征的自适应融合,优化了特征的空间细节和语义信息,从而增强了道路表示的特征。
为验证本文所提出的SPM-Unet 模型的有效性,本文基于马萨诸塞州道路数据集(massachusetts roads)[8]进行实验。实验基于PyTorch 框架设计,在ubuntu22.04系统进行实验,硬件设施主要包括Intel(R)xeon(R)w-2150B CPU@3.00 GHz,内存为32 GB,使用一块显存为24 的NVIDIA GeForce Rtx 3090 GPU进行加速。
采用Massachusetts Roads 作为训练数据。标签图为二值图,道路像素值为1,非道路像素值为0。考虑到Massachusetts Roads 存在部分缺失、不完整的问题,手工筛选出853 张图片。为了有效增加训练样本数据,我们采取了以下步骤:首先,对原始遥感影像和相应的标签进行了90°的旋转,然后进行了随机的水平和垂直平移操作。这样,获得了4110 张大小为1500×1500 像素的样本子影像。接下来,将这些样本以9∶1 的比例分成3699 张用于训练和411 张用于验证。这些图像被输入到提出的网络中进行训练。在模型训练过程中,采用了Adam 优化器,学习率设置为0.00001,训练集和验证集的批处理样本大小均设置为4,并且总共进行了50 轮迭代。在每一轮训练结束后,我们都在验证集上计算一次损失。
为评定模型提取结果的好坏,引入了召回率(Recall)、精度(Precision)、交并比(IoU)、准确度(ACC)[17-18]四个指标对提取后的道路数据进行评定。其中精度(Precision)表示模型能够正确预测的道路与真实道路的像素之比;召回率(Recall)代表真实道路中预测正确的百分比;交并比(IoU)用来度量图像的预测结果与真实标签的重叠程度;准确度(ACC)是所有预测中预测正确的比例。如式(6)~(9)所示。
式中:TP表示将道路像素预测为真的数量,TN表示将非道路像素预测为假的数量,FP表示将非道路像素预测为道路像素的数量,FN表示将道路像素预测为非道路像素的数量。
本文在Massachusetts Roads 上进行了分析,使用了SPM-Unet 网络以及进行了消融实验得到的网络模型。实验中采用了相同的环境和参数设置,确保了公平比较。对于在Massachusetts Roads 上训练完成的模型,在测试集上进行了预测,输入图像的尺寸与训练集图像保持一致,都是1500×1500像素大小。预测结果如图5所示。
表1 各算法评价指标对比(%)
图5 各类算法道路提取结果对比
本文的研究是基于Massachusetts Roads 数据局提取道路信息,考虑道路目标的结构特点,为了提高分割精度并获得连续道路信息,基于U-Net 网络设计了一种高度对称的解码-编码器网络,命名为SPM-Unet。本文的研究结论如下:
(1)通过引入条纹池化模块,可以限制池化操作的范围,从而有效地捕获长距离的依赖关系,并专注于局部细节信息。
(2)考虑道路尺度信息的多样化,加入了级联的多尺度注意增强模块,在一定程度上解决了现有方法中不连续道路提取和锯齿状边界识别的问题,并且聚合连续道路的空间细节和语义信息。
(3)与原始U-Net 网络相比,本文网络在道路提取方面表现出明显的改善,避免了明显的漏分和断裂现象,能够生成输出影像中的多尺度道路目标,使其显得更加完整和连续。与其他现有的语义分割模型相比,本文提出的模型在精确率、召回率、平均交并比和准确度这四个评价指标上表现出色。这表明本文方法适用于处理地物背景复杂的遥感影像中的道路提取任务。