庞博,黄祚继,吴艳兰,3,陆雨婷
(1.安徽大学 资源与环境工程学院,合肥 230601;2.安徽省(水利部淮河水利委员会)水利科学研究院,合肥 230088;3.安徽省地理信息智能技术工程研究中心,合肥 230000)
不透水面是一种地表水不能透过渗透到土壤中的人工地貌特征,在城市中的不透水面主要由建筑物、道路、停车场等人工构筑面组成[1]。它不仅代表着城镇化的程度,而且对区域水循环、地表覆盖、局部气候和城市热岛等都有着重要的影响,在城市化的研究中起着重要的作用[2]。近年来,城市化的快速发展使得不透水面持续扩张,因而精准、高效地提取不透水面可以为城市土地的合理利用与发展规划提供一定的理论依据与数据支持[3]。
针对遥感影像不透水面的提取,目前主要分为2类:人工方法提取和基于分类规则提取[4]。人工方法主要采用遥感目视解译的方法对不透水面进行信息提取和监测[5-6]。通过对不透水面的纹理、位置、图形、阴影等特征信息进行提取,从而获取所需要的信息,具有易于理解、可操作性强、精确的特点[7],但目视解译方法需要解译人员具有一定的遥感判读经验,主观性强、工作效率低[8]。传统遥感基于分类规则自动分类不透水面的提取方法主要分为支持向量机法[9]、决策树分类法[10]、指数模型法[11]和线性光谱混合模型法[12]等。这些方法主要利用遥感影像不同波段所携带的光谱信息,没有考虑对象的空间和纹理等信息[13],无法从整体上解译出影像的特征,导致提取效果并不理想,会产生信息冗余和大量的“椒盐”现象[14-15]。针对这些问题,许多研究者提出了运用面向对象的分类方法对不透水面进行提取,该方法综合利用遥感影像的光谱和形状特征,可以避免基于像元分类方法导致的“椒盐”现象,从而具有更高的提取精度[16-17]。但面向对象方法需要人为确定分类规则,对于边界模糊情况复杂的不透水面,提取结果很大程度上取决于分类规则的准确性,受人主观因素影响较大[18]。
将人工智能深度学习应用于遥感图像信息提取逐渐成为一种技术趋势[19-21]。深度学习技术,作为一个新的框架,能够将不同层次的特征抽象化并进行更加有效的特征提取与拟合,故其在多波段遥感影像信息提取问题上具有较强的适用性[22]。近年来,国内外学者进行了相关研究,如Zhang等[23]利用ResNet构建神经网络,加入一种面向对象的导向滤波机制,实现了较好的遥感建筑物提取效果;Xu等[24]提出了一种遥感影像城市建筑物提取Res-U-Net网络模型,其在数据预处理阶段使用边缘增强,并引进导向滤波,优化了分类结果并去除了“椒盐”类噪声,获得较高的提取精度;Ronneberger等[25]运用全卷积神经网络,加入全局和局部注意力机制,解决了遥感图像道路提取中复杂道路结构和同谱异物的问题;Isikdogan 等[26]通过构建了全卷积神经网络并改良其跳跃层结构,实现了对遥感影像中陆地、水、冰雪、云、阴影的分类。
深度学习可从大量训练数据中自动学习特征,无须人工手动操作[27],在遥感数据的自动化应用中具有一定优势。然而利用一般的卷积神经网络会因无法兼顾图像浅层特征而难以提取到细节信息[28],但高分辨率遥感影像中存在许多细小的、不规则的不透水面。为了解决上述问题,增强对细小不透水面提取能力,同时防止特征冗余,本文提出基于局部注意力机制的密集连接全卷积神经网络模型,用以解决提取高分辨率遥感影像不透水面时遇到的难以提取细小特征、精度较差、泛化性差等问题。
文中所使用的深度学习语义分割模型整体架构如图1所示。该网络主要由编码-解码结构、局部注意力机制、密集连接全卷积神经网络构成。其中,编码-解码结构广泛应用于深度学习语义分割方面[29-33];编码网络主要应用于提取输入数据的多尺度特征;解码网络的目的是恢复特征图的空间分辨率并使用这些特征图提取目标对象[28]。添加局部注意力机制的深度学习模型可以在遥感影像中进行像素级的提取[34]。由于其结构的特殊性,使得金字塔池化层可以从不同比例的特征图中提取信息,这种设计方法有助于增加感受野[35-36]和模型特征表达[37],进而提高模型理解能力[38]。全卷积神经网络(fully convolutional neural network,FCN)是含有多个隐藏层的深度学习模型,是在感知器、反向传播(back propagation,BP)神经网络基础上发展起来的[39]。与传统的卷积神经网络相比,它用卷积层代替全连接层,首先通过反卷积对最后一个卷积层输出的特征图进行上采样,恢复到与原始影像相同的大小,然后对每个像素产生概率预测,在反卷积特征图上比较每个类别的概率,最后逐像素进行分类[40]。全卷积神经网络有效利用图像底层特征来加强深层特征提取,从而提高网络效率和识别精度[41]。基于全卷积神经网络的遥感图像信息提取模型已经成为当前遥感图像深度学习信息提取的主流方法[42-46]。
图1 局部注意力密集连接的全卷积神经网络
与常规的全卷积神经网络相比,密集连接全卷积神经网络结构主要是在全卷积神经网络中加入密集连接块(dense block)[47]。它通过密集连接的方式使每个前面层的自身特征叠加映射传递给所有后续层,获取组合特征。其表达如式(1)所示。
XL=Hl([X0,X1,…,XL-1])
(1)
式中:XL是L层的输出特征图;[X0,X1,…,XL-1]是L层所有前面层的特征映射的拼接。对于一个L层网络,密集连接块共有L(L+1)/2个连接,增强了层与层特征间的关联性。密集连接块与密集连接块之间加入转换层(transition layer)使模型更加紧凑,减少过渡层的特征图数量。密集连接全卷积神经网络缓解了梯度消失的问题,加强了特征传播、大大减少了参数的数量,具有强大的特征提取及复用能力[48]。
本文深度学习模型包括编码和解码器2部分结构,在编码和解码器中包括10个密集连接块和26个卷积层。其具体步骤如下。
1)256×256×4的影像在进入第一个密集连接块前,用一个步长为2,卷积核大小为7×7的卷积层来生成128×128×16的初始特征图。
2)初始特征图进入密集连接块1中,之后进入包含一个1×1的卷积层,1个防止过拟合的drop_out层和1个2×2的均值池化层的转换层。
3)在特征图连续进入5个密集连接块和4个转换层后,从密集连接块5中输出,使用3×3的反卷积层(transposed_convolutions)对输出的特征图进行上采样。
4)特征图在反卷积层上采样后,与密集连接块4加入局部注意力机制,连接输入密集连接块6中。
5)在特征图连续进入5个反卷积层和密集连接块后,利用softmax分类器的卷积层来输出最终预测,最终输出256×256×2的特征图。
国产高分二号卫星是我国自主研发的亚米级高分辨率遥感卫星,其全色影像分辨率达1 m,多光谱影像分辨率达4 m。首先对高分数据进行预处理,去除影像中的干扰信息;然后将多光谱影像与全色影像融合;最后再利用预处理后的高分数据进行不透水面提取。
本文模型样本数据为天津地区2019年4月15日高分二号遥感影像,其不透水面二值图像由目视解译获得并与原始影像位置严格配准。之后将原始影像与其对应的不透水面二值图像按照256×256的尺寸随机裁剪生成影像子图(子图间存在重叠区域)。生成子图共计15 000幅,其中将12 000幅影像子图作为训练集,3 000幅影像子图作为测试集。样本示例如图2所示。
图2 深度学习遥感影像不透水面样本示例
1)模型训练精度。训练精度反映了模型对训练样本的特征拟合程度和模型的泛化能力。本文采用的是softmax loss损失函数(损失主要评估模型的预测值与真实值的偏差程度,损失越小,表示模型的拟合效果越好)。其计算如式(2)所示。
(2)
式中:N为输出神经元个数;l对应的目标输出,即类别标签pi为第i个神经元经在softmax loss层后输出的概率。
2)提取精度。本文从像元精度(pixel accuracy,PA)、均交并比(mean intersection over union,MIoU)、综合评价指标F1和Kappa系数4个指标对提取的不透水面进行精度评价。
像元精度是一种计算预测值与真实值匹配像元占比的评价指标,其值表示预测正确的像元数量占总像元数的比例,值越大表示预测值与真实值的像元匹配程度越高,精度越高。其计算如式(3)所示。
(3)
式中:k每行每列的最大值;i、j为行、列号;Pii是正确提取的像元数量;Pij为错误提取的像元数量。
均交并比为语义分割的标准度量方法,其主要描述真实值与预测值之间的交集平均值。其计算如式(4)所示。
(4)
式中:K是提取类别数目;i、j为行、列号;pii代表匹配像素的数量;pij和pji表示错误划分的像元数量。
综合评价指标是衡量二分类模型精度的一种指标,它同时兼顾了分类模型的精确度和召回率。精确度(precision)指被检测出来的信息当中正确的或者相关的信息所占的比例;召回率(recall)指的是所有正确的信息或者相关的信息被检测出来的比例。其计算如式(5)至式(7)所示。
(5)
(6)
(7)
式中:tp表示正确提取的像元个数;fn表示漏提的像元个数;fp表示错误提取的像元个数。
Kappa系数表示提取结果和真实值之间的吻合程度,是检验二者之间一致性的客观评价标准。其计算如式(8)所示。
(8)
式中:p0和pe分别代表每一类正确和错误提取的样本数量之和除以总样本数量。
本研究分别利用本文方法、决策树分类法、支持向量机法和随机森林算法对测试影像进行不透水面的提取。
决策树分类法提取不透水面是根据影像中透水面与不透水面的光谱值特征差异,通过选取透水面和不透水面的感兴趣区域自动生成决策树规则,从而将分类规则逐级细分实现不透水面的提取。支持向量机法是一种建立在统计学习理论基础上的机器学习方法,在解决小样本、非线性和高维识别问题中具有独特的优势,且实现简单、运算效率高。随机森林算法是通过集成学习的思想将多棵树集成的一种算法,其输出类别是由个别决策树输出的类别的众树决定的。在应用方面,随机森林具有非常简单,易于实现,计算开销小,在分类与回归方面具有惊人的性能等优点。
本文方法与决策树、支持向量机和随机森林算法对高分辨率遥感影像不透水面的提取结果如图3、图4、图5所示。其中,图3为测试图像整体对比图,图4为图3中A区域的细节对比图,图5为图3中B区域细节对比图。
图3 测试数据中不同方法不透水面提取结果比较
图4 区域A不透水面提取结果对比图
图5 区域B不透水面提取结果对比图
如图3所示,从整体上分析,与其他3种方法相比较,本文方法识别效果更好。虽然其他3种算法也可将不透水面提取出来,但它们对细小不透水面产生较多的误分。从空间细节上分析,决策树分类算法与随机森林法提取体育场及其周边广场结果破碎化较为严重,噪点较多,支持向量机对于广场区域有明显的漏分(图4)。本文方法提取结果与地表真值符合程度更高。以高层建筑为例(图5),决策树分类算法与支持向量机法受到了高层建筑阴影的影响,提取结果有不同程度的漏分或误分,随机森林法尽管将高层建筑阴影区分了出来,但其受到高层建筑阴影边界影响,对边界产生了明显的误分。虽然本文方法也出现了漏分情况,但是掩膜图像识别结果完整性较高。总体而言,相比于传统方法,本文方法在不透水面提取结果上具有更好的表现性。
本文分别从像元精度PA、均交并比MIoU、综合评价指标F1和Kappa系数4个指标对4种方法的提取结果进行精度评价。从表1可知,与3种传统方法相比,本文方法精度最好,像元精度PA、均交并比MIoU、综合评价指标F1和Kappa系数分别为0.883 2、0.736 4、0.848 2和0.753 3。支持向量机的表现最差,像元精度PA、均交并比MIoU、综合评价指标F1和Kappa系数分别为0.763 4、0.552 1、0.711 4、0.511 6。综上所述,虽然4种方法均可提取出不透水面区域,但本文方法在像元精度、均交并比、综合评价指标和Kappa系数4种评价指标上精度较高,更加适用于不透水面的提取。
表1 4种方法不透水面提取结果精度表
为验证本文方法的泛化能力,选取了分辨率为2 m未参与训练的合肥地区GF-6影像数据进行泛化性验证,并将本文方法提取后生成的掩膜图与决策树分类法、支持向量机法、随机森林算法的提取结果进行比较(图6),并对提取结果进行精度评价(表2)。
由图6可以看出,虽然本文方法在GF-6影像上的不透水面提取存在漏分误分现象,但相比其他3种方法,本文方法对于掩膜图像识别结果完整性较高,具有更好的表现性。由表2可知,相比于其他3种方法,本文方法精度最好,其像元精度PA、均交并比MIoU、综合评价指标F1、Kappa系数分别为0.836 4、0.692 8、0.818 6、0.670 1,表明本文方法在GF-6影像上也具备较好的泛化性。
图6 GF-6影像不同方法不透水面提取结果
表2 GF-6不透水面提取结果精度表
针对传统方法对高分辨率遥感影像提取不透水面所固有的提取精度低、泛化性差等问题,本文提出了基于改进全卷积神经网络的高分辨率遥感影像不透水面提取方法,其主要工作如下。
1)在网络构建方面。提出基于局部注意力机制的密集连接全卷积神经网络模型;引入局部注意力机制及密集连接结构,加强了模型对细小不透水面的敏感程度。
2)在精度评价比较方面。本文方法的提取结果的像元精度(PA)、均交并比(MIoU)、综合评价指标F1和Kappa系数分别为0.883 2、0.736 4、0.848 2和0.753 3,优于其他3类方法,在不透水面提取上具有较高的精度。
3)在泛化性方面。本文方法相比其他3种方法对GF-6影像不透水面提取仍表现出较好的效果,具有较强的泛化能力。
4)本文方法易受高层建筑阴影、“同谱异质”工厂的影响而导致不透水面提取精度降低。在后续的研究中,将增加样本的数量与多样性,加大模型增量学习,以期进一步提高模型精度。