融合空洞空间金字塔池化和注意力的轻量化遥感影像道路提取

2024-03-24 09:20刘志恒岳子腾周绥平江澄节永师陈雪梅

航天返回与遥感 2024年1期

关键词：池化卷积道路

刘志恒岳子腾周绥平江澄节永师陈雪梅

（1 西安电子科技大学空间科学与技术学院，西安 710126）

（2 北京航空航天大学电子信息工程学院，北京 100191）

（3 北京空间机电研究所先进光学遥感技术北京市重点实验室，北京 100094）

（4 西安航天天绘数据技术有限公司，西安 710100）

0 引言

在城市发展和规划过程中，道路是不可或缺的元素之一。道路信息是城市地理信息系统研究与分析的重要组成部分，在车辆导航、智能交通、地图绘制、城市规划等应用领域发挥着广泛的作用[1-3]。随着遥感技术的快速发展，遥感图像的空间分辨率在逐步提高，目前已经达到分米级别，且呈上升发展趋势。从遥感图像中提取道路信息是城市规划与社会发展等领域的一个热点问题。

目前，大多数道路提取研究仍采用传统的半自动化方式[4]。此类道路提取方法大致可划分为三类：模板匹配法、知识驱动法、面向对象法[5]。这种传统提取方法需要人工参与标定，按照特定的规则和逻辑提取道路信息和非道路信息，且依赖于研究人员经验，存在算法迁移能力不足、分割精度受限、流程繁琐耗时长等问题，不适用于大量数据的处理，给道路提取带来诸多困难。

以卷积神经网络(Convolution Neural Networks，CNNs)[6]为代表的深度学习图像处理理论与技术近年来发展迅速。基于CNNs 的图像分析方法，在各种计算机视觉任务中取得了良好的性能，如目标检测、语义分割和时间序列预测等。相较于传统方法，基于深度学习的方法在遥感影像目标识别与图像语义分割等方面具有显著优势，利用此类方法解决遥感影像数据中道路信息提取问题，已成为当前研究的主要趋势。该类算法利用深度学习的强大的学习能力、更高效的计算能力和更精准的特征表达能力，准确地区分道路和背景信息。Minh 等[7]将深度学习方法应用于遥感图像道路提取任务中，证明了利用深度学习方法提取遥感影像上的道路信息是可靠的。刘笑等[8]利用全卷积神经网络和迁移学习方法，细化抽离模型的中间层信息，实现道路信息的快速提取。该算法提取的道路中心线位置较为准确，但道路细节处理不佳(如密集建筑区的细小道路)，或与其忽略纹理特征有关。贺浩等[9]通过改进二分类交叉熵损失函数解决了正负样本不平衡的问题，提出的编码-解码结构道路提取网络，有效突出了模型对道路信息的细节表达能力。王卓[10]利用VGG16 改进Unet 网络[11]的编码结构，提取道路特征语义信息，并使用指数激活函数(Exponential Linear Units，ELU)[12]，提升了网络训练速度，但在阴影和树木等遮挡的道路区域，提取效果欠佳，需进一步改进。李朝奎等[13]基于全卷积网络的特点，利用Deeplabv1 网络[14]中的空洞卷积来突出道路的多尺度特征信息，在不牺牲特征空间分辨率的同时扩大了特征感受野(Field-of-View, FOV)，实验结果表明该算法对细窄道路提取有明显帮助。此外，韩玲等[15]以Deeplabv3 网络[16]为主干框架，利用空洞空间金字塔池化(ASPP)突出了高分辨率遥感影像中的道路边缘特征，实验表明空间金字塔池化可有效提取遥感影像上道路的多尺度特征，更有利于细小道路的准确提取。王勇和曾祥强[17]以Unet 网络为基础，引入残差模块(Residual Learning Unit，RLU)降低训练复杂度，并使用混合损失函数(Binary cross entropy 和Dice)解决类不平衡问题，有效提取了被阴影等遮挡的道路范围。张亚宁等[18]以Unet 网络为主干框架，提出了一种结合改进的残差模块和卷积注意力机制(Convolutional Block Attention Module，CBAM)[19]的道路提取网络，相较原始的Unet 网络，所提算法有效提高了网络对道路特征的表达能力，抑制了“同谱异物”的非道路背景信息。以上研究表明：随着遥感技术的进步与革新，遥感影像的空间、光谱、时间等分辨率不断提高；高分辨率遥感图像中的地物背景等细节信息更加丰富，非道路信息如植被阴影、车辆流动、高楼建筑遮挡、人流流动等作为干扰信息十分繁杂，一方面周围环境可能与道路十分相似，如城市中楼宇的纹理、狭长的河道、沙漠中由风吹形成的痕迹等，另一方面，遥感图像中的道路成分可能被周围障碍物遮挡，如形成视觉遮挡或阴影遮挡等，这些问题给道路信息的提取造成了困难，已有道路分割模型在高分辨率遥感影像道路提取任务中仍存在模型适应性不足、模型分割精度欠佳等问题。

本文针对高分辨率遥感影像中道路形状结构错综复杂，出现窄小型道路提取错误或漏分的问题，提出了一种基于空洞空间金字塔池化和注意力机制的轻量化遥感影像道路提取方法。该方法以原始HRNet网络为主干框架，以公开的CHN6-CUG 道路遥感影像数据集为基础数据源（https://grzy.cug.edu.cn/zhuqiqi/zh_CN/yjgk/32368/list/index.htm）[20]，结合空洞空间金字塔池化结构扩大道路提取模型感受野，优化模型提取多尺度道路特征信息能力；引入通道注意力机制构建特征图不同通道间的依赖关系，强化特征图中道路特征信息表征，从而提高遥感影像道路提取精度；利用深度可分离卷积方法改进残差模块，减少模型参数量，有效降低模型计算复杂度。

1 网络结构

1.1 HRNet 网络结构

原始的HRNet 是2019 年由微软亚洲研究院[21]提出的神经网络结构，被广泛应用于图像语义分割、姿态估计和目标检测等任务中。原始HRNet 网络结构的特征是能够在保持数据图像高分辨率的同时，完成特征提取，其融合结构如图1 所示。在同一个Stage 中，前一层的特征图，分别通过图1 中所示3 种不同的特征融合方式，得到后一层的特征图。3 种方式融合前的输入，由上而下分别为低级、中级、高级特征图分辨率大小的前一层特征图，融合后的输出分别为低级、中级、高级特征图分辨率大小的后一层特征图。图1 中方式（1）表示将中级和高级特征图分辨率大小的前一层特征图，通过上采样，并与低级特征图进行特征融合，恢复成前一层低级特征图分辨率大小的后一层特征图；方式（2）表示将前一层低级特征图经过卷积得到的特征图和高级特征图经过上采样得到的特征图，并与前一层中级特征图进行特征融合，恢复成前一层中级特征图分辨率大小的后一层特征图；方式（3）表示将前一层低级特征图和中级特征图经过卷积得到的特征图，与前一层高级特征图进行特征融合，恢复成前一层高级特征图分辨率大小的后一层特征图。原始的HRNet 网络通过逐步添加、互联并行的低分辨率子网络，不断对并行的图像特征信息进行多尺度融合，使模型预测获得较好的准确性。

图1 原始的HRNet 多尺度特征融合结构示意Fig.1 Original HRNet multiscale feature fusion structure map

现有基于原始HRNet 的语义分割模型，仍存在一定的缺陷与不足，主要包括：1）在道路密集的城市中，道路结构错综复杂，已有模型在分割多样的道路结构时存在适应性不足的问题，对多尺度道路目标分割效果不佳；2）在高分辨率遥感图像中，一方面道路周围环境可能与道路十分相似，另一方面图像中的道路成分可能被周围障碍物遮挡，这些问题导致深度学习模型难以准确提取出图像中的道路信息，使模型提取精度受限；3）原始HRNet 对并行的子网络进行不断地信息交换与特征融合，此过程存在许多重复计算，导致模型训练产生大量参数，增大了模型计算复杂度。

为解决上述问题，本文以原始HRNet 网络为主干框架，提出一种融合空洞空间金字塔池化和注意力机制的轻量化遥感图像道路提取方法。该方法利用空洞空间金字塔池化模块，提取遥感数据中的多尺度道路特征信息，提高原始HRNet 网络提取多尺度道路目标的能力；引入SE 通道注意力机制，构建特征图通道间的相互依赖关系，加强特征图中重要特征表征，改善原始HRNet 网络的特征提取质量；利用深度可分离卷积方法改进网络残差模块，减少原始HRNet 网络模型训练过程中产生的参数量，降低模型计算复杂度。本文提出的改进后的HRNet 网络模型结构见图2。

图2 网络结构示意Fig.2 Schematic diagram of the network structure

1.2 空洞空间金字塔池化模块

高分辨率遥感影像中的道路形状结构错综复杂、变化多样，道路的上下文信息复杂。仅使用简单的池化方式处理卷积后的特征图，降低特征图的维度，可能造成细小狭窄道路或者多路并行的宽阔道路的部分区域被误判为背景成分。提取道路的多尺度特征，有助于减少空间信息损失。结合道路区域的上下文信息，学习不同尺度道路的融合特征，能够提升对多尺度道路目标的分割效果。

本文提出的空洞空间金字塔池化模块共包括6个分支，其结构如图3 所示。其中第一层为原特征图像，用于补充特征图中的空间信息；最后一层是平均池化层，作用是获得图像级别的全局特征；第二层至第五层为采用不同膨胀率的空洞卷积层，用于扩大特征图感受野，综合提取多尺度道路特征信息。根据HDC 准则[22]对4 个分支的膨胀率ri（ri为第i个膨胀卷积分支的膨胀率，i∈{1,2,3,4}）进行选择，设置的膨胀率分别为2、3、7、13。这组膨胀率间不存在大于1 的公约数，且：

图3 空洞空间金字塔池化模块Fig.3 Atrous spatial pyramid pooling module

式中C为卷积核大小；M2、M3为定义的第2、3 层膨胀卷积中两个非零点间的最大距离。该组膨胀率满足HDC 准则，证明4 个膨胀率组成的空洞卷积金字塔其感受野可以覆盖底层特征图的整个区域。这一方法可有效改善网络问题，增强原始HRNet 网络提取多尺度道路信息的能力。

1.3 挤压激励通道注意力机制

针对高分辨率遥感图像中地物及背景信息丰富、非道路干扰信息繁杂、道路特征不突出等问题，本文引入挤压激励通道注意力机制(Squeeze and Excitation Networks，SE)改进原始的HRNet 网络，该机制的结构如图4 所示。采用SE 通道注意力机制，构建特征图中不同通道间的相互依赖关系，改善道路提取模型中细小道路特征不突出问题，增强原始HRNet 网络的特征表征质量。

图4 通道注意力机制结构Fig.4 Squeeze and Excitation Networks structure

1.4 模型轻量化

由于原始HRNet 网络使用并行结构对子网络不断地进行信息交换与特征融合，在网络计算过程中不可避免地会产生许多重复计算，占用大量内存且导致过拟合。本文采用深度可分离卷积方法改进原始HRNet 中的残差模块，实现模型轻量化。改进后的残差模块如图5 所示，将原始HRNet 残差结构中的一层3 × 3 普通卷积替换为3 × 3 深度可分离卷积，保留一层3 × 3 普通卷积。模型轻量化能够有效减少神经网络计算过程中产生的参数量，降低计算复杂度，同时对模型分割精度不产生显著影响。

图5 深度可分离方法改进结构Fig.5 Depthwise convolution methods for improved structure

2 实验与评价指标

2.1 数据集简介

随着高分辨率遥感技术的迅速发展，传感器空间分辨率得到显著提升，人们获得了越来越多的高质量遥感影像，出现了大量高分辨率遥感影像数据集，为开展遥感影像道路提取研究提供了丰富的数据来源。在深度学习模型的训练实验中，数据集的大小、数量及质量的高低，最终都会影响实验的准确度和召回率等结果。本文采用公开的中国区域道路数据集（CHN6-CUG 道路数据集，该数据集由中国地质大学（武汉）高性能空间智能计算实验室（HPSCIL）团队制作），选取北京市朝阳区、上海市杨浦区、武汉市中心、深圳南山区、香港沙田、澳门等6 个地区作为实验区。CHN6-CUG 道路数据集的影像来自谷歌地球，共包含3 681 组标记图像，图像大小为512 像元× 512 像元，图像分辨率为0.5 m。CHN6-CUG 数据集中样本及其标签图像如图6 所示，其中第一行为原始遥感图像，第二行为对应的道路标签图像。

图6 CHN6-CUG 数据集标注图像样本示意Fig.6 Schematic diagram of annotated image samples of CHN6-CUG dataset

2.2 数据集预处理

由于单张样本图像所包含的特征信息有限，因此需使用大量样本对深度学习模型进行训练，才能使模型学习到更多更深层次的特征，从而实现精细化的语义分割，提升模型的泛化能力。深度学习算法的实现依靠大量数据样本的迭代计算，实际实验中会存在样本数量不足的情况，因此需要采取一定方法对已有数据进行扩增[23]。研究表明，在已确定的数据集上进行合适的数据样本扩增，能很好地提高数据样本复杂度，改善训练所得模型性能。本文采用的遥感影像数据集中图像是正射投影后的高分辨率遥感影像，图像的角度特征变化不明显，可以通过旋转及镜像等操作增加样本数据的复杂性，本文分别采用旋转90°、180°、270°及水平镜像操作对数据集进行扩充，扩充后的样本示例如图7 所示。

图7 经扩充操作后的样本数据实例Fig.7 Example of sample data after expansion operation

对数据集的预处理包括数据归一化与图像标准化。数据归一化处理将输入数据的特征值大小调整至相近范围，避免得到的梯度值过大或过小，使模型训练能够收敛平稳。图像标准化处理可以实现数据去均值中心化。数据中心化使输入数据符合分布规律，更易于取得训练后的泛化效果，加速训练和拟合过程。

归一化计算和标准化计算分别如下：

式中Ioutput、Iinput分别为输出像素值与输入像素值；std、mean、max 和min 分别为标准差、平均值、最大值和最小值。样本经归一化、标准化处理后所得结果如图8 所示。

图8 CHN6-CUG 数据集标准化、归一化处理图像Fig.8 CHN6-CUG dataset standardized, normalized processing images

将经过预处理后的遥感影像数据集按照6∶2∶2 的比例划分为训练集、验证集、测试集，将训练集与验证集作为模型训练输入，取DiceLoss 函数与CrossEntropyLoss 函数的均值作为模型损失函数，用来解决类不平衡的问题，即不同类别的训练样例数目差别很大的情况，特别是当正例个数远小于反例个数，则训练出的模型难以检测正例。

实验平台采用Intel(R) Xeon(R) Platinum 8358P，GPU 选取使用GeForce RTX 3090 24 G 显存容量，能够保证网络的训练运行。

2.3 评价指标

为检测模型道路提取结果的精度，本文采用语义分割领域常用的评价指标——精确率（Precision）、准确率（Accuracy）、召回率（Recall）、F1 分数和均交并比（MIoU），来定量评估模型性能以及标签图像与提取结果间具体差异，上述指标的具体计算公式为：

式中 TP 代表真阳性，表示实际道路像素被预测为道路像素；FP 代表假阳性，表示非道路像素被预测为道路像素；FN 代表假阴性，表示道路信息被预测成非道路信息；TN 代表真阴性，表示非道路信息被预测为非道路信息；k表示目标类总数，式（9）中k+1 表示类别数目（k个目标类和1 个背景类）；pij表示将实际类别为第i类预测为第j类的像素数目；pji表示将实际类别为第j类预测为第i类的像素数目；pii表示将实际类别为第i类预测为第i类的像素数目。

3 实验结果对比与分析

为验证本文所提出的改进后的HRNet 各模块后的有效性，在相同实验条件下，比较了原始HRNet、原始HRNet+ASPP 模块、原始HRNet+SE-Block 模块及本文方法的性能。如表1 所示，加入SE-Block 的HRNet 其Accuracy、Precision、Recall 及F-Score 等指标结果，相较原始HRNet 分别提高了4.85%、1.8%、3.85%和2.85%，表明在原始HRNet 结构上增加通道注意力机制，提高了网络特征提取质量。加入ASPP 模块的HRNet 相较原始HRNet，上述各指标分别提高了4.96%、1.34%、4.41%和2.90%，表明空洞空间金字塔池化模块有效扩大了网络感受野范围，增强了模型提取全局特征的能力。

表1 消融实验的评价指标对比Tab.1 Comparison of evaluation metrics for ablation experiment %

为验证本文所提算法在高分辨率遥感影像道路提取任务中的性能，使用不同的深度学习网络（UNet、FCN、PSPNet[24]、DeepLabV3+[25]、D-LinkNet、原始HRNet 及本文算法），在相同条件下对选取的CHN6-CUG 数据集图像进行预测和验证。利用准确率、召回率等参数对验证集进行评估对比，场景主要覆盖了城市中多种复杂路网。训练得出的具体模型评估结果如表2 所示。

表2 不同模型的评估结果Tab.2 Assessment results from different models %

不同模型各评估指标对比如图9 所示，可以看出，原始HRNet 网络的总体性能优于UNet、FCN、PSPNet、D-LinkNet，在准确率、召回率、F1 分数、MIoU 等方面也不同程度的优于UNet、FCN、PSPNet 和D-LinkNet，证明了利用原始HRNet 提取高分辨率遥感图像中道路信息的可行性。但原始HRNet 相较其他网络精确率较低，说明原始HRNet易将背景成分误判为道路信息。DeepLabV3+网络评估数据相较原始HRNet、UNet、FCN、PSPNet、DLinkNet 网络有明显提升，其中召回率达到93.11%，MIoU 指数达到72.46%。由于DeepLabV3+网络使用了空洞空间金字塔池化结构，有效扩大了网络感受野范围，增强了网络提取全局道路特征信息的能力，表明在图像语义分割网络中引入空洞空间金字塔池化结构，可以有效提高模型对道路全局特征信息提取的能力。因此，在DeepLabV3+网络启发下，本文在原始HRNet 网络特征融合结构之后添加ASPP 模块，以扩大原始HRNet 网络的感受野范围。同时，在ASPP 模块后添加SE 通道注意力机制，优化原始HRNet 网络的特征提取质量。通过引入ASPP 模块和SE 通道注意力机制，共同改进原始的HRNet 网络结构，构成本文所提出的改进后的HRNet 网络。根据表2 数据分析，本文所提算法在准确率、精确率、召回率、F1 分数、MIoU 指数方面的评估结果相较原始HRNet 分别提高了5.35%、2.15%、4.1%、3.15%和14.34%，性能提升明显。

图9 不同指标评估模型性能Fig.9 Model performance evaluation with different

进一步分析各模型预测图像与标签图的差异，结果如图10 所示。图10 所选示例图像包括城市密集道路网络、有阴影遮挡的道路、有植被覆盖的道路、密集高楼间的道路、河道旁道路、不规则曲线道路等多种道路情况。UNet、FCN、PSPNet、D-LinkiNet 预测结果与标签图相比，出现漏检情况较多，主要表现为预测结果中道路不连续；原始HRNet 网络预测结果中出现较多漏检情况，无法完整预测遥感图像中的道路信息，但细节信息相较其他网络更丰富；DeepLabV3+网络预测结果较为准确，能较为全面的预测出遥感图像中的道路信息，但在道路细节处，预测结果较为模糊，道路边界不明晰；本文所提算法继承了原始HRNet 高分辨率与分割细节优良的特点，利用ASPP 模块提高模型综合多尺度语义信息能力，同时增加SE 通道注意力机制，网络预测结果与标签图像重合程度高，预测结果中道路细节丰富清晰，道路完整性、连续性好，能有效地从遥感图像中提取完整的道路信息。

为实现轻量化部署，本文所提算法中引入了深度可分离卷积方法，引入前后算法的网络参数量结果如表2 所示。本文方法剔除深度可分离卷积模块后网络参数量约为9.71 ×106个，引入深度可分离卷积的本文算法网络参数量约为6.21 ×106个，网络参数量减少了约36.1%，有效减少了网络参数量，降低了模型训练的计算复杂度与运算成本。

4 结束语

针对高分辨率遥感影像中道路形状结构错综复杂，出现窄小型道路提取错误或漏分的问题，本文以原始HRNet 网络为主干框架，引入空洞空间金字塔池化模块，有效扩大了网络感受野，提高了网络提取多尺度道路信息的能力；引入挤压激励通道注意力机制，改善网络特征提取质量，突出了模型中细小道路特征；使用深度可分离卷积方法，改进网络的残差模块，在不损失模型精确度条件下，有效减少了网络参数量，提高了网络训练速度。在CHN6-CUG 道路数据集上，通过不同区域的提取结果，本文所提算法对细窄道路的提取效果更明显，同时道路预测结果连续性、完整性良好。后续改进的重点是在已有模型的基础上，设计实现针对线性地物复杂、噪声明显的遥感影像道路提取算法。