多尺度特征融合深度学习建筑物的提取方法

2022-03-11 06:43刘恒恒张春森葛英伟

地理空间信息 2022年2期

关键词：空洞尺度建筑物

刘恒恒，张春森，葛英伟，史书

（1.西安科技大学测绘科学与技术学院，陕西西安 710054）

基于深度学习不仅能实现建筑物的精提取，而且通过卷积神经网络提取影像特征避免了人为手动设计特征的繁琐，极大的节省了人力，并且相对于人工提取效率有着极大的提升[1]。

本文以UNet模型为基础，融入密集空洞空间金字塔池化层获取影像多尺度特征，并使用1×1卷积降低特征图的维度，提出一种新的网络DenseASPP-Unet，在更大的范围内获取了影像更多的尺度特征，提升了建筑物的提取精度[2-7]。

1 本文网络及算法概述

1.1 UNet神经网络

UNet是继承FCN编码-解码等优点，在FCN基础上进行改进的网络，最早应用于医学领域。UNet网络能够在很少训练集的情形下产生精确的影像分割，跳跃连接结构将编码阶段的高分辨率特征与上采样融合，输出生成更精确的结果。其网络编码-解码结构对称，编码阶段提取影像特征，解码阶段恢复影像尺寸和位置信息，跳跃连接通过特征通道融合可以获取多尺度特征。图1为U-Net网络结构。

图1 U-Net网络结构

1.2 密集空洞空间金字塔池化（DenseASPP）

空洞卷积可以在不影响特征空间分辨率的情况下扩大特征感受野，空洞空间金字塔池化（ASPP）将不同扩张率的空洞卷积组合在一起，获取多尺度的特征。DenseASPP相比ASPP具有更密集的并行和级联空洞卷积，能在更大的范围内获取影像更多的尺度特征。通过一系列的空洞卷积组合，越靠后的神经元获取越大的感受野，并且不会发生ASPP的核退化问题。图2所示为DenseASPP结构。

图2 DenseASPP结构

DenseASPP为6个层级并联，第一层级直接将特征图传到输出位置；第二层级经过扩张率为3的3×3空洞卷积传到输出；第三层级将特征图与第二层级的输出融合，然后经过扩张率为6的3×3空洞卷积传到输出；第四层级将特征图与第二、三层级的输出融合经过扩张率为12的3×3空洞卷积传到输出；第五层级将特征图与第二、三、四层级的输出融合经过扩张率为18的3×3空洞卷积传到输出；第六层级将特征图与第二、三、四、五层级的输出融合经过扩张率为24的3×3空洞卷积传到输出；最终将所有层级输出融合实现多尺度特征融合。

1.3 DenseASPP-Unet网络结构

DenseASPP-Unet网络结构如图3所示，在UNet的基础上，每个卷积层后接BN层[8]及RELU激活函数，在第4次下采样后添加dropout正则化[9]防止过拟合。跳层并联密集空洞空间金字塔池化层，并将密集空洞空间金字塔池化层后的输出特征图通过1×1卷积降维至与输入特征图相同。将通过跳跃连接的卷积获取的特征图，下采样后上采样获取的特征图以及密集金字塔池化获取的特征图在解码阶段进行融合，获取图像多尺度特征。

图3 DenseASPP-Unet

2 实验与分析

2.1 数据集及预处理

本文利用Inria开源建筑物航空影像数据集，其覆盖不同的城市住宅区810 km2，空间分辨率为0.3 m[10]，影像如图4所示。

图4 inria建筑物数据集

数据的预处理包括裁剪、训练集和测试集的划分、数据增强。裁剪是将影像裁剪成适合卷积神经网络输入512×512大小的子图，然后将裁剪的子图以5:2:2划分为训练集、验证集和测试集，最后对训练集进行数据增强。

2.2 模型训练与精度评价指标

本文深度学习实验均基于tensorflow深度学习框架，python编程语言实现，采用Adam优化器，实验初始学习率为10-4，最低学习率不低于10-5，超参数为β1=0.9，β2=0.999，δ=10-8。

本文选取常用的4个评价指标（交并比IoU、准确率Precision、召回率Recall、F1分数）来评价精度，计算公式如式（1）～（4）所示。

式中，TP为真值是正，模型判定为正；TN为真值是负，模型判定为负；FP为真值是负，模型判定为正；FN为真值是正，模型判定为负。

2.3 实验结果与分析

为了验证DenseASPP-UNet网络的性能，将DenseASPP-UNet网络与FCN-8s，SegNet、UNet网络做对比。从图5可以看出，FCN-8s算法提取的建筑物结果很粗糙；SegNet算法提取的建筑物边界不清晰；U-Net算法提取建筑物边界相对SegNet清晰，但依然不够平滑、完整，且存在很多噪音；DenseASPP-UNet相比其他深度学习算法提取建筑物的边界更加清晰、平滑、完整。

图5 DenseASPP-Unet与其他深度学习方法提取建筑物结果对比

为定量评价DenseASPP-UNet的有效性，统计各方法的准确率（Precision）、召回率（Recall）、F1分数和交并比（IoU），其精度对比如表1所示。

表1 DenseASPP-Unet与其他深度学习算法精度评定对比

从表1可以看出，DenseASPP-UNet在准确率、召回率、F1分数、交并比与其他深度学习方法相比，DenseASPP-UNet是最优的，相比于UNet，DenseASPP-UNet在准确率、召回率、F1分数和交并比分别提升了5.296%、1.085%、3.03%、5.019%；相比于SegNet，DenseASPP-UNet在准确率、召回率、F1分数和交并比分别提升了4.233%、9.369%、7.687%、12.234%；相比于FCN-8s，DenseASPP-UNet在准确率、召回率、F1分数和交并比分别提升了17.316%、1.193%、10.454%、15.193%；相比于FCN-8s、Seg-Net、UNet，DenseASPP-UNet在准确率、召回率、F1分数及交并比都有很大的提升，证明了DenseASPP-UNet的有效性。

3 结论

本文提出一种新的网络DenseASPP-Unet，以UNet模型为基础，跳层并联密集空洞空间金字塔池化层，并行和级联空洞卷积，在更大的范围内获取了影像更多的尺度特征，实现了影像多尺度特征的融合，并通过1×1卷积降低特征图的维度，减少了模型的参数量。通过Inria开源建筑物航空影像数据集验证并使用深度学习常用精度评价指标准确率、召回率、F1分数及交并比对DenseASPP-Unet及其他深度学习方法进行精度评定，实验表明DenseASPP-Unet相比其他深度学习方法建筑物提取精度有很大的提升。