吴锋振,杨德宏,李俊,何万才,2,3,邓云龙
(1.昆明理工大学 国土资源工程学院,云南 昆明 650093; 2.智慧矿山地理空间信息集成创新重点实验室,云南 昆明 650093;3.云南省高校自然资源空间信息集成与应用科技创新团队,云南 昆明 650211)
随着遥感技术的蓬勃发展,高分辨率遥感影像提供了丰富的纹理和细节信息,从高分辨率遥感影像中高效准确提取特定目标地物成为研究热点。其中,高分辨率遥感影像建筑物的自动检测和提取对于人口密度估计、违规监测、城市规划以及地形图的制作和更新具有非常重要的意义。
传统建筑物提取方法包括基于特征、面向对象和结合辅助信息三种。基于特征提取方法借助建筑物先验知识(形状、屋顶颜色和成像条件等)进行建筑物识别,方法主要包括模板匹配算法[1]、形态学算法[2]、图论[3]、随机森林[4]、决策树[5]和支持向量机[6]。虽然上述基于先验知识特征提取方法取得一定成果,但手动定义特征的方法普遍存在提取精度低、特征利用不足等缺点,此外,所提取建筑物局限于特定形状区域,方法泛化能力差。面向对象分类方法是目前高分辨率遥感影像建筑物提取的重要方法[7],其步骤为影像分割与影像分类。贺晓璐等[8]提出一种基于引入红色边缘波段规则与基于样本的面向对象分类相结合方法用于城市建筑物提取,与其他机器学习算法相比,识别结果有一定优势;韩东成等[9]采用基于规则的面向对象方法实现建筑物单体信息精提取;杨杰等[10]提出一种半自动信息提取构建分类规则方法用于高精建筑物识别,所提取建筑物错分漏分现象得到缓解。面向对象方法充分应用高分影像的丰富细节与纹理信息,但在确定分割尺度参数时需反复调试,且难以满足复杂场景(建筑物光谱与邻近地物光谱相似)建筑物提取需求。结合辅助信息方法主要包括结合DSM数据[11]和LiDAR数据[12],本质是增加高度信息提升建筑物分割精度。基于结合辅助信息方法虽能提高建筑物分割精度,但数据获取成本高,存在其自身局限性。总体而言,传统方法均或多或少存在缺陷,因此急需更高效、自动化的建筑物提取技术。
近年来,基于计算机视觉的深度学习方法成为高分影像建筑物提取的主流。深度学习卷积神经网络(Convolutional Neural Network,CNN)广泛应用于文字识别、目标检测和图像分类领域。与传统建筑物提取方法比较,卷积神经网络因其强大特征表示能力而受诸多学者青睐。目前,经典卷积神经网络模型有AlexNet[13]、GoogleNet[14]、ResNet[15]。然而,这些CNN模型不能精确提取建筑物轮廓。反之,Long等[16]将CNN末端全连接层改为卷积层,提出FCN模型,首次实现端到端训练的图像语义分割,提高模型训练和预测性能;Badrinarayanan等[17]提出的SegNet模型使用编解码结构提取特征,反池化还原特征图尺寸,保证目标特征完整;Ronneberger等[18]提出的UNet模型采用编码器-解码器结构提取全局与局部特征,通过跳跃连接进行特征融合,实现兼顾细节与边缘信息的目的。鉴于此,编码器-解码器结构因其优越的性能而被广泛应用。Yu等[19]提出一种新的注意力模块-AG,并将其嵌入UNet,实现高效的建筑物轮廓提取;Wang等[20]结合UNet、残差模块和空洞空间金字塔模块,提出RU-Net,所提取建筑物边界平滑;Guo等[21]提出一种基于注意力的多损失神经网络,缓解过分割现象;Deng等[22]提出基于注意力机制的编码器-解码器网络用于建筑物自动提取,提升网络对与建筑物具有相似光谱特征的背景地物的分割性能;秦梦宇等[23]在UNet网络编码器末端嵌入双重注意力机制对其进行改进,使模型鲁棒性进一步提高;何直蒙等[24]提出E-UNet,优化建筑物提取中边缘模糊、细节丢失等问题;张玉鑫等[25]提出MARSU-Net网络,改善建筑物内部空洞现象;张春森等[26]提出多尺度空洞卷积金字塔网络用于建筑物提取,该网络面对不同尺度建筑物时有较强适应能力;王雪等[27]提出膨胀卷积与金字塔表达的神经网络模型用于农村建筑物提取,提取边界完整;卢麟等[7]使用密集连接机制及空洞空间金字塔池化模块构建多层次感知网络,性能优于传统方法。上述网络虽在建筑物提取方面取得较好的效果,但存在一定问题,即在编码器-解码器的特征提取过程中,所提取特征含有无效特征,最终导致预测结果出现建筑物边缘模糊及内部空洞等问题。
综上所述,本文以UNet为基础网络框架,提出一种似空间注意力模块,并将其嵌入UNet编码阶段,达到增强编解码结构所提取的有效特征的目的,提升网络特征提取准确性。在WHU和AIRS数据集上的提取结果表明,本文方法提取建筑物精度高,边界准确,空洞少,有较强泛化能力。
UNet网络因其出色的语义分割能力而备受青睐。它是一种典型的编码器-解码器结构,在其结构中,通过跳跃连接将底层语义信息与高层语义信息进行融合,极大提高网络分割性能。然而,UNet网络在编码阶段通过简单堆叠卷积和池化层,所提取特征存在一定弊端:存在大量无效特征。针对UNet网络在编码阶段特征提取不准确而导致建筑物分割精度低的现象,本文在每个编码块的第一个卷积层之后均嵌入一个似空间注意力模块与第二个卷积层并联,通过将经过似空间注意力得到的特征权重矩阵与第二次卷积得到的特征矩阵相乘的方式实现对编码阶段所提取特征的重标定,达到增强有效特征、抑制无效特征的目的。结合似空间注意力模块的UNet网络架构如图1所示。
图1 结合似空间注意力模块UNet网络
似空间注意力模块是对空间注意力模块的改进。似空间注意力模块将原空间注意力模块中7×7卷积替换为两个3×3卷积的串联,感受野虽有所减小,但参数量相对较少,特征提取更精细,对小型建筑物提取更有益(较大卷积核容易忽略微小物体)。具体而言,似空间注意力模块对输入特征分别进行平均池化和最大池化操作,然后使用两个3×3卷积进行特征精细提取,最后将得到的特征图融合并使用sigmoid函数激活,生成最终的注意力图Ms(F)。似空间注意力模块如图2所示。
图2 似空间注意力模块
其中,sigmoid函数的功能是将特征矩阵转化为相应特征权重矩阵,数学表达式为:
(1)
注意力图的计算公式如下:
(2)
编码器结构包括如图3所示的四个编码块结构,其作用是使用权重映射方法,抑制无效特征,增强目标特征,对下采样前的特征进行校正,从而使解码阶段得到的特征更精准。校正后的特征表达式为:
图3 编码块结构
F=Ms(F)×F2
(3)
式中,Ms(F)表示经似空间注意力模块得到的注意力图,F2表示编码块中经第二次卷积后得到的特征图,F表示校正后特征图。
解码阶段由四个解码块结构组成,如图4所示。每个解码块结构包括两个3×3大小的卷积层,与UNet的解码阶段完全相同。
图4 解码块结构
实验使用WHU数据集[28]和AIRS数据集[29]验证本文方法的有效性。两个数据集的介绍如下:
(1)WHU建筑物数据集由武汉大学季顺平教授及其团队于2019年创建并实现开源,该数据集包括一个航空建筑物数据集和一个卫星建筑物数据集。航空建筑物数据集中包含大型、小型建筑物,建筑物风格迥异,种类繁多,故本文选择航空数据集进行实验,并将其裁剪为512×512像素大小的影像,随机选取 8 188张影像作为整个数据集,其中训练集、验证集、测试集各4 736、1 036、2 416张,数据集样例如图5所示。
图5 WHU数据集样例
(2)AIRS数据集是用于建筑物检测的高分辨率公开数据。该数据集包含新西兰南部克赖斯特彻奇整个城市的正射影像,覆盖面积达 457 km2,包括 220 000栋建筑物,空间分辨率为 0.075 m。该数据集裁剪大小与WHU建筑物裁剪大小相同,数据集划分方式也一致,训练集、验证集、测试集仍为 4 736、1 036、2 416张,数据集样例如图6所示。
图6 AIRS数据集样例
本文实验的硬件环境为Intel(R) Xeon(R) Platinum 80255C CPU,39G RAM,GeForce RTX 2080TiGPU,内存 11 G,操作系统为Windows 10,所使用的深度学习框架为TesorFlow,版本为1.15.0,编程语言为Python,版本为3.6。在训练过程中,网络参数设置为:批处理大小为2,迭代轮次为80,初始化学习率为0.001,损失函数为交叉熵,使用Adam算法进行优化。
交叉熵损失函数表达式如下:
式中,y∈{0,1,表示地面真实标签,建筑物用1表示,背景用0表示;p∈[0,1],表示模型预测的正类的概率值。
为定量评价网络分割性能,选择交并比(IoU)、精确率(Precision)、召回率(Recall)和F1分数(F1)4个指标评价分类结果。交并比是指预测值与真实值两个集合的交集和并集之比。精确率是指正确预测为建筑物的像元数占总预测为建筑物的像元数比例。召回率是指正确预测为建筑物的像元数占真实建筑物像元数比例。F1分数综合考量精确率与召回率,能够衡量模型分割性能。4种评价指标计算公式如下:
式中,TP表示正确分类的建筑物像素数量,FP表示背景误分为建筑物像素数量,TN表示正确分类的背景像素数量,FN表示建筑物误分为背景像素数量。
为验证本文方法的有效性,在WHU数据集上与FCN-8S[16]、SegNet[17]和UNet[18]等经典建筑物提取网络做对比实验(除可视化实验与精度对比实验外,还有模型参数量与每轮次运行时间对比);另一方面,为验证结合似空间注意力模块UNet网络的适用性,在 0.075 m的建筑物数据集-AIRS上做可视化与精度对比实验,并分析各网络在两个数据集上的分割性能。(在两个数据集上,每种模型的训练策略与参数设置均相同。)
(1)WHU数据集实验结果分析
在WHU建筑物数据集上,本文方法与其他网络的建筑物提取结果如图7所示。
图7 不同网络在WHU建筑物数据集上的提取结果(红框部分表示本文方法的改进之处)
模型分割结果定性分析:第一个场景用于测试网络对中小型建筑物的提取能力。由目视结果可知,FCN-8S、SegNet与UNet均能检测到中小型建筑物,然而这三种网络提取的建筑物边界不准确,小型建筑物存在漏提现象,本文方法提取的中小型建筑物边界平滑、完整,因为本文方法中包含似空间注意力模块,提取的浅层特征更准确,与深层特征融合后,得到的特征也更准确,提取结果更好;第二个场景用于检验靠近但不粘连建筑物的提取性能。UNet提取的建筑物相互粘连,FCN-8S、SegNet虽能大致识别建筑物轮廓,但与本文方法相比,提取边界模糊,原因仍是本文结合似空间注意力模块,有效排除非建筑物特征干扰,故建筑物缝隙形成的阴影也能很好的去除,使提取建筑物不粘连。第三、四个场景是不同网络大型建筑物提取结果。与本文方法相比,FCN-8S、SegNet与UNet存在漏提现象,提取的建筑物存在空洞,本文方法识别的大型建筑物边界相对完整。这是由于似空间注意力模块的特征校正作用使特征提取更精准。第五个场景用于验证具有与建筑物类似光谱特征的背景对象的分割性能。与其他三种网络相比,本文方法能更好去除背景信息,保留目标信息,其根本原因是似空间注意力模块通过对特征赋予权重的方式使特征差异更明显,从而降低误分割率。
WHU数据集的建筑物提取结果进行定量评价如表1所示。由表1可知,通过嵌入似通道注意力模块对UNet模型进行改进,与典型建筑物提取模型FCN-8S、SegNet和UNet相比,本文模型4个评价指标均为最优,交并比为91.74%,精确率为94.12%,召回率为94.21%,F1分数为94.17%。相对于FCN-8S、SegNet与UNet模型,结合似通道注意力模块UNet模型交并比分别高出4.90%、5.08%和0.47%;精确率分别增加1.85%、1.24%和3.50%;召回率分别提升3.50%、1.38%和0.47%;F1分数分别提高2.69%、1.31%和2.02%。
表1 不同模型在WHU数据集上的分割精度对比
为进一步验证本文模型的优越性,本文还对模型参数量与训练每轮次运行时间进行对比,实验结果如表2所示。从表2可以看出,本文方法在参数量和每轮次运行时间的对比上均处于第二名,且与第一名UNet相差不大,在二者增加的可接受范围内实现4个评价指标的提升。
表2 不同模型参数量及运行时间对比
WHU建筑物数据集上的实验结果无论从定性、定量分析,还是模型参数量和每轮次运行时间对比均验证本文方法的有效性。这也验证将似空间注意力模块嵌入UNet模型,能过滤冗余特征,聚焦目标特征,极大优化网络分割性能。
(2)AIRS数据集实验结果分析
为充分验证结合似空间注意力模块UNet网络的泛化能力,将该网络与对比网络在空间分辨率为 0.075 m的屋顶分割航空影像数据集-AIRS上进行实验,以便该网络能应用到无人机影像分类任务中。对比实验可视化结果如图8所示。
图8 不同网络在AIRS数据集上的提取结果(红框部分表示本文方法的改进之处)
模型分割结果定性分析:由图8可以看出,在选取的第一个具有代表性的场景中,由于中间建筑物与周边道路颜色接近,FCN-8S、UNet未能对其进行识别,SegNet识别出的建筑物存在空洞,然而本文方法能完整提取此种场景下的建筑物;在第二个场景中,三种对比网络在提取小型建筑物时,FCN-8S产生误检现象,SegNet、UNet出现漏检现象,本文方法能正确检测小型建筑物轮廓;在第三个场景中,由于屋顶光谱特征与周围树木、车辆光谱特征相近,FCN-8S产生过分割现象,SegNet、UNet出现欠分割现象,本文方法提取的建筑物边界平滑、准确;在最后一个场景中,在面对内部存在背景的复杂建筑物,FCN-8S、SegNet和UNet均表现较大不适应性,但本文方法却能完整识别出来。总之,产生这样分割差异的根本原因是将似空间注意力模块嵌入UNet网络后,提取的全局与局部上下文特征均得到校正,故结合似空间注意力模块UNet网络在面对各种复杂场景时仍表现出很好的鲁棒性。
对AIRS数据集的建筑物提取结果进行定量评价如表3所示。由表3可知,在AIRS数据集上,本文方法的各项评价指标几乎为最优值。与FCN-8S、SegNet和UNet相比,本文方法的并比分别提高0.47%、6.13%、6.57%;精确率分别增加1.05%、1.60%、0.55%;召回率高出0.06%、15.53%、28.35%;F1分数在对比模型中排名第二,除比FCN-8S略低外,相比SegNet和UNet,有一定程度提升,从定量分析的结果验证本文方法的适用性和稳定性。
表3 不同模型在AIRS数据集上的分割精度对比
从AIRS数据集的定性和定量评价可知,将似空间注意力模块嵌入UNet网络,有助于增强有效信息,缓解过分割,从而提高模型预测能力,证实本文方法具有较强泛化能力,拥有一定实际应用潜力。
卷积神经网络在建筑物语义分割方面拥有巨大潜力。本文提出结合似空间注意力模块UNet网络,用于改善建筑物提取中存在的边缘模糊及内部空洞等问题。笔者提出的似空间注意力模块,用于对UNet编码阶段提取特征进行校正,抑制无效特征,增强有效特征。
实验表明,在WHU建筑物数据集上预测结果表现良好,所提取大、小型建筑物边界准确、平滑,面对与建筑物拥有相似光谱特征背景对象的提取时,误分割、欠分割现象得到缓解。其次,通过对比实验可知,本文方法的模型参数量与每轮次运行时间与UNet相差不大,相比其他对比网络而言却较小,各项评价指标也较优,从模型性能和效率方面验证本文方法的有效性。将本文模型应用到AIRS数据集的高分辨率建筑物提取中,面对各种复杂场景效果提取效果理想,各项指标相比对比网络也几乎有所提升,证明本文方法的适用性,具有良好的应用前景。后续计划将基于本文方法进一步提取建筑物矢量边界,以提供结构化的单个建筑物多边形,供实际应用。