考虑局部归一化高度的双分支语义分割网络

2022-06-09 13:55
关键词:光谱语义精度

江 滔

(中铁第四勘察设计院集团有限公司, 武汉 430063)

随着传感器技术的发展,遥感影像分辨率逐渐提升,基于高分辨率影像的地物分类也成为了遥感领域的重要研究方向之一.高分辨率遥感影像蕴含了地表更加丰富的细节信息,但是同时会导致地物光谱与纹理特征类内方差变大,类间方差变小,对地物的识别能力降低[1].

许多的研究者通过使用几何特征[2]来提高地物识别的精度,随着空中三角测量、多视几何、密集匹配、SLAM等相关技术的成熟,越来越多的研究者通过密集匹配算法恢复地表三维信息以生成数字表面模型(digital surface model, DSM)来辅助进行遥感影像分类[3-4].

由于受到地形的影响,DSM的像素值不能直接代表地物高度.因此归一化 DSM 特征(normalized DSM,nDSM)[5]被提出并用作表征地物高度的分类特征.nDSM的获取需要首先利用地面滤波算法将 DSM 分为地面像素和非地面像素[6],然后对于所有的非地面像素,假设离它最近的地面像素为相关的地面点,最后通过将离地点的高度减少指定的地面点的高度以计算出该点的归一化高度.

随着深度学习、高性能计算的普及,越来越多的研究者通过深度卷积神经网络对遥感影像进行语义分割以实现地物识别[7-9].通常神经网络输入可见光影像,并通过将预测的语义分割结果与真实结果对比计算损失函数,结合反向传播算法[10]更新网络参数,得到最终分类模型.但是仅仅使用光谱信息制约了分类精度的提升,因此许多研究者将提出基于RGBD影像的深度神经网络以融合光谱特征和距离(深度)特征[11-12],其中最直接的方法就是将常用的三波段输入网络模型的输入层进行扩展以输入四波段或者更多的波段.在遥感领域,许多研究者使用RGBD网络处理nDSM特征,将网络输入的深度影像换成nDSM影像,从而对网络进行训练以增强影像语义分割的效果.

基于nDSM的卷积神经网络语义分割精度与nDSM特征精度有关,而nDSM的精度依赖于地面滤波算法[6].目前尚未有一种成熟的滤波算法可以在大场景范围内自动提取高精度的地面点,通常需要人工对算法进行调参,针对不同场景进行设计,或者对滤波结果进行人工的修饰,因此降低了影像分类的效率和自动化程度;此外nDSM特征通常是片状的,也影响了基于nDSM的地物识别精度.

本文提出一种考虑局部归一化高度的双分支语义分割网络,避免了通过提取nDSM来表征地物高度.该方法假设在输入卷积神经网络的局部区域内存在地面点,且该点的DSM值在区域内最小,通过将该区域内所有点的DSM值减去最低点的DSM值可以计算切片区域内所有地物点高度.最后通过提出的双分支深度神经网络对光谱影像和高度特征进行联合训练以充分学习地物多模态信息.

1语义分割网络概述

基于深度学习的遥感影像语义分割方法通常基于全卷积神经网络,如图1是遥感影像语义分割的全卷积网络框架.全卷积网络[13]由用于下采样的编码器和用于上采样的解码器两个部分组成,编码器提取不同尺度的影像特征,通常是将VGG[14]、GoogLeNet[15]、ResNet[16-18]等经典网络框架的全连接层舍去,直接保留最后一个卷积层的特征图作为解码器的输入.解码器将特征影像通过反卷积等方法逐步上采样以构建原始分辨率的语义分割结果[19].图1中编码器可以换成任意一种经典网络架构,不同网络框架具有不同的深度和卷积技巧,图1中卷积模块可以是普通卷积、空洞卷积[20]或者残差模块[18]等.

语义分割网络中通常使用跳跃连接来融合编码器不同尺度的特征,编码器浅层的网络层具有丰富的细节信息,但是语义信息较差,而深层的网络层具有丰富的语义信息,但是细节较差,因此通过跳跃连接融合不同层的特征可以更好的建模多尺度的影像特征,得到更高精度的语义分割结果.

图1 语义分割网络框架Fig.1 Semantic segmentation network framework

经典的语义分割网络通常处理三波段输入的可见光影像,而几何信息的缺乏限制了语义分割精度进一步的提升.光谱图像和深度图像所表现的识别能力不同,比如无明显结构表征的区域主要依靠光谱进行识别,而对于纹理不明显的区域需要依靠几何特征进行区分.许多研究者将三波段输入网络模型的输入层进行扩展以输入四波段或者更多的波段,并将nDSM作为一个波段与光谱影像一起输入到网络中,这种方法没有考虑光谱信息和几何信息的差异,提升了神经网络训练的难度,同时nDSM的片状、精度不稳定的特点也制约了分类精度的提升.

2研究方法和过程

本文提出一种考虑局部归一化高度的遥感影像语义分割网络,首先设计了一种双分支输入结构,在两个分支分别提取光谱特征和几何特征,并通过跳跃连接进行融合,以更加充分的学习地物多模态信息;之后提出了基于局部归一化的高度特征代替nDSM来表征地物高度,以实现高效、高精度、高自动化程度的遥感影像语义分割.

2.1双分支语义分割网络

基于RGBD的语义分割网络主要思想是利用距离影像对光谱图进行语义上的信息补充,通过多层卷积提取影像光谱和几何信息的复合深度特征以表征地物类型.可见光影像描述地物的光谱特征,可以有效识别无明显结构表征的区域,而高度特征影像描述地物的几何特征,可以有效识别纹理不明显的区域.如何在神经网络中有效的利用高度特征影像来为光谱特征影像进行语义补充以提高语义分割精度是网络框架设计的目标.

部分研究将基于可见光影像的语义分割网络输入层进行扩充,直接将高度特征影像作为额外的波段与可见光影像一起输入到神经网络中.这种方法没有考虑几何特征与光谱特征的差异,不能充分学习多模态信息.针对这个问题,本问题设计了一种双分支输入网络结构,如图2显示本文使用的RGBD网络框架,网络分为编码器和解码器,其中编码器有两个网络分支,每个分支具有相同的网络结构,不同的是一个分支输入三波段的光谱影像,令一个分支输入单波段的高度影像.为了充分挖掘地物多模态信息,将高度特征影像分支的卷积结果跳跃连接到可见光分支,以融合光谱与几何特征.之后解码器通过卷积和上采样层逐步提高特征图分辨率,同时通过跳跃连接将编码器与解码器对应分辨率的特征影像直接连接,以提高最终影像细节部分的分类效果.

图2 RGBD网络结构框架Fig.2 RGBD network framework

2.2基于局部归一化的高度特征

遥感影像分类使用的高度特征通常是nDSM.首先通过地面滤波算法[6]获取DSM上地面点的像素,令地面点高度值记为0,之后计算非地面点的高度值,即该点DSM值与其最近地面点的DSM值之差.令DSM上像素i的值记为hi,最邻近地面点的像素的 DSM值记为hi_nearest,那么该点的归一化高度为:

hi_norm=hi-hi_nearest.

(1)

通过这种方法计算得到的高度特征称为归一化高度特征.这种方法有三个缺点,首先地面点提取的精度依赖于地面滤波算法,而目前尚未有一个通用性强且精度高的地面滤波算法能适用各种场景和数据源;其次,虽然在nDSM中消除了起伏的地形对地物高度表示的影响,但是这种方法未考虑局部约束(例如水平脊线),因此该方法无法计算准确的高度,例如当一栋建筑物周围的地面高度变化时,这些高度是不准确的;最后,当某区域距离地面较远时,归一化高度特征无法消除该区域地形起伏的影响.

针对这些问题,本文提出了一种基于局部归一化的高度特征(local normalized DSM, lnDSM).图3显示了lnDSM的示意图,该特征不使用地面滤波算法来提取地面点,而是假设在一定大小的局部区域内,一定存在地面点,且该点的DSM值在区域内最小.由于受到GPU的限制,深度神经网络的训练首先需要对遥感影像进行切片,如图3中DSM在输入神经网络前会被切片,对于每一个切片区域,假设该区域内存在地面点,且地面点为该区域内DSM值最小的点,令DSM切片内最低像素值记为hmin,那么切片内像素对于地面点的高度值为:

图3 局部归一化高度特征示意图Fig.3 Schematic diagram of local normalized height feature

hi_localnorm=hi-hi_min.

(2)

将InDSM输入到本文网络的高度特征分支,与光谱影像一起训练,得到预测结果后结合真实结果计算Focal Loss损失函数[21],并用以更新网络参数.

(3)

精确率(pre)是指分类正确的正样本占预测为正的样本个数的比例;召回率(rec)指分类正确的正样本占真正的正样本个数的比例,那么F1-score的值(F1)的计算公式为:

(4)

3实验结果与讨论分析

本文实验使用的硬件平台中 CPU型号 为 Intel(R) Xeon(R) Gold 6140 CPU 2.30 GHz 2.29 GHz,内存128 GB;GPU 为 两块 NVIDIA GeForce RTX 2080 Ti,其中每块GPU的专用内存为 11 GB,共22 GB.本文实验使用的操作系统是Windows 10,深度学习框架是tensorflow 2.6.

3.1实验数据

本文使用的实验数据是ISPRS Vaihingen 数据集提供的德国韦兴根市某区域的航空摄影影像,利用Trimble INPHO 和OrthoVista软件生成DSM 和TDOM,采样分辨率都是9 cm,其中TDOM有近红外、红和蓝(IR-R-G)三个波段.将DSM 和TDOM分成33个区域,每个区域提供了对应类别标注.该城市区域存在较为明显的地形起伏,适合用于测试提取的高对语义分割精度的提升作用.

图4显示了本文实验的数据集中区域2的示例数据.图4(b)显示了DSM影像,可以看出图下部区域地面高度明显高于上部区域的地面,由于地形起伏的影响,地势低区域的房屋高程值可能低于地势高处的地面,因此DSM的数值不能直接用于地物识别.图4(c)显示了nDSM影像,nDSM消除了地形起伏的影响,更加准确的表征了地物高度.图4(e)和4(f)分别显示了局部放大的DSM和nDSM影像,nDSM影像上地物具有明显的片状特性,这是由于nDSM影像像素值计算该像素的DSM值减去离该像素最近的地面点的DSM值,而地物不同位置的最近地面点可能不同,当由地形差距导致地物附近地面高程不同时,地物的nDSM会呈现明显的片状特性.

图4 Vaihingen数据集区域2影像Fig.4 Area-2 image of Vaihingen dataset

图4(f)的左侧中间的房屋,屋顶上下两边的nDSM值存在明显差异,中间有一条明显的高度差异线,这是由于房屋上下两侧像素最邻近的地面点的DSM值存在较大差异,从图(e)可以看出,该房屋下边地面的DSM值高于房屋上边的地面.

图4(d)是人工标注的分类结果影像,共有六个类别,分别是树(绿色)、建筑(蓝色)、矮植被(青色)、不透水层(白色)、汽车(黄色)、背景(红色).

3.2网络训练

将33块区域的影像分为训练集和测试集,其中训练集包含16幅切片影像,测试集包含17幅切片影像.在训练阶段,首先对训练数据进行切片,切片影像大小为256×256.实验使用三种特征,一个是三波段的IR-R-G的光谱特征,一个是nDSM特征,一个是本文提出的lnDSM特征,共组成三种特征组合用于神经网络的训练,分别是:1)光谱影像;2)光谱影像+nDSM;3)光谱影像+lnDSM.

为了充分验证本文提出特征的有效性,在编码器中使用VGG-19[14],GoogLeNet-V3[15],Resnet-101[16]三种不同的网络框架进行对比实验.

3.3实验结果

表1显示了单独使用光谱影像,以及分别结合nDSM与lnDSM的分类精度评价.首先对比不同网络框架的分类精度,对于三种特征组合,Resnet的总体精度都是最高的,说明残差网路可以更有效地提取深度特征,提高对地物的识别能力.

从表中可以发现,相比于仅使用光谱特征,三种框架的神经网络在使用lnDSM特征后分类的总体精度提高了4.5%至4.7%,并且各类地物的F1-score都有明显提升,说明本文设计的网络可以很好提取多模态特征,提高地物识别精度.

相较于使用nDSM特征,三种框架的神经网络在使用lnDSM特征后分类的总体精度提高了0.7%至0.8%,其中树、建筑和不透水层的F1-score都得到提高,说明相较于使用nDSM,本文提出的InDSM可以更好地表征地物的高度特征.

如图5显示了区域2通过Resnet分类nDSM和InDSM的结果图.相较于图5(b),图5(a)中虚线圆色区域内房屋不完整,实线矩形区域内小房屋被漏提,实线椭圆区域内房屋边界不平滑,存在一些突起区域,错误的将树识别为房屋.基于InDSM特征识别的地物更加完整,边界更加平滑,对地物表征能力优于nDSM.此外,nDSM计算过程需要进行地面滤波,对于滤波算法错误的区域需要人工进行交互和修改,而InDSM计算过程简单、高效、自动,具有更好的实用性.

表1 不同高度特征的语义分割算法精度评价Tab.1 Accuracy assessment of semantic segmentation of different height features

图5 区域2不同特征组合的分类结果Fig.5 Classification result of different feature combinations of area-2

4结论

高分辨率遥感影像蕴含了地表更加丰富的细节信息,但是同时会导致地物光谱与纹理差特征类内方差变大,类间方差变小,对地物的识别能力降低.光谱影像描述地物的光谱特征,可以有效识别无明显结构表征的区域,而高度特征影像描述地物的几何特征,可以有效识别纹理不明显的区域,融合两种特征可以有效提升地物识别精度.归一化数字表面模型是表征地物高度的重要特征,但是其片状、精度不稳定的特性制约了分类精度的提升.

本文提出了一种考虑局部归一化高度的双分支输入语义分割网络,一方面设计了一种双分支输入结构以高效地提取和融合地物光谱和几何特征,充分学习地物多模态信息;另一方面提出了局部归一化高度模型来代替nDSM,以提升高度特征的精度和提取效率.

通过在ISPRS Vaihingen 数据集提供的德国韦兴根市某区域的遥感影像上进行对比试验,证明了相较于仅使用光谱影像,本文方法总体精度提升了4.5%~4.7%,比使用nDSM具有更高的分类精度、计算效率和自动化程度.

猜你喜欢
光谱语义精度
基于不同快速星历的GAMIT解算精度分析
数字化无模铸造五轴精密成形机精度检验项目分析与研究
真实场景水下语义分割方法及数据集
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
基于3D-CNN的高光谱遥感图像分类算法
近似边界精度信息熵的属性约简
汉语依凭介词的语义范畴
浅谈ProENGINEER精度设置及应用