吴永俊 汪泓 杨晨
(1 黔西南州自然资源管理服务中心,兴义 562400)
(2 贵州大学矿业学院,贵阳 550025)
石漠化是我国西南地区最严重的生态环境问题之一,与沙漠化、水土流失并称为我国的三大生态灾害[1-2]。石漠化是指在喀斯特地区,不合理的人类活动,自然植被遭到破坏,造成土壤流失、基岩裸露等类似荒漠景观的土地退化过程。喀斯特石漠化严重的影响着区域生态环境,会导致水土流失、自然灾害频发、生物多样性下降等生态危害[3];其带来的危害已成为制约我国西南地区可持续发展的重要因素。因此,石漠化的治理对我国西南地区改善生态环境、保障经济社会可持续发展具有重要战略意义。而石漠化调查又是石漠化治理过程中必不可少的工作环节[4];在我国现行岩溶地区水土流失综合治理技术标准[5]中,将基岩裸露率作为石漠化等级划分的直接指标。因此,准确地提取喀斯特地区的岩石裸露信息对石漠化调查、治理工作具有重要意义。
传统的岩石裸露信息主要通过目测和人工机械布点来获取,对人力、物力造成了较大的损耗,且当区域地物细碎化程度较高时,测量误差较大[6]。随着遥感技术的发展,学者们通过遥感影像开展了诸多石漠化地区裸岩信息的提取工作。常用的方法有指数法、人机交互解译法、面向对象法等[7]。文献[8]分析Landsat8 裸岩和其他土地覆盖类型的光谱特征,通过蓝光、近红外波段差和比,构建归一化裸岩指数(Carbonate Rock Indice,CRI)对裸岩信息的提取,但遥感影像易受气候等因素的影响,且受影像空间分辨率的制约,提取精度往往较低;文献[9]通过人工勾绘获取无人机影像裸岩率,并用其矫正相同研究区Landsat8 影像,通过指数法获取的裸岩率,使Landsat8 影像提取裸岩的精度得到提高,但该方法工作量大,效率低;文献[10]基于无人机影像,通过面向对象的方法对裸岩信息进行提取,提取精度进一步提高,但喀斯特地区地表覆盖极其不规律,地物通常呈斑块状,破碎度较高,空间分布不均匀,岩石之间大小形状不尽相同,分割的尺度和参数较难确定,需要反复调整相关阈值参数,人为划定的主观性强。
近年来,深度学习在图像分割、目标检测等领域得到了广泛的应用。文献[11]基于“简译”软件与无人机影像实现全卷积神经网络对石漠化地区裸岩信息的提取,提取精度优于传统提取方法,但其方法封装于软件中,提取精度仍有提升空间;文献[12]将改进的残差块作为SegNet 网络[13]的编码器,解决了网络退化问题,并引入深度可分离卷积来减少网络参数量,用膨胀卷积来扩大感受野、提高网络特征提取能力,提高了水体提取精度;文献[14]在U-Net 网络[15]跳跃连接层中嵌入密集连接块和空间注意力,使得边界块引入底层空间信息,解决了提取建筑物模糊边界的问题;文献[16]将自导向注意整合到特征金字塔(Feature Pyramid Networks,FPN)[17]结构中,利用FPN 获取不同网络层的多尺度特征,并将其集成到DeepLabV3+[18]、U-Net、PANet[19]中来提取地表裂缝信息,结果表明该模块的引入增强了纹理的细节并抑制了噪声;文献[20]将垂直和空间注意力机制分别嵌入DeepLabV3+骨干特征提取网络和空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块[21]中,加强了网络获取上下文信息的能力,结果表明改进的DeepLabV3+算法有效细化了特征细节,分割效果得到提升。上述研究中,学者们针对不同提取任务,在不同模型的基础上进行改进,使得提取精度得以提高,但是针对喀斯特石漠化地区裸岩信息进行提取的研究,却鲜有报道。
目前,DeepLabV3+在语义分割领域得到越来越多的关注,并在多个公开数据集上取得较好的成绩,DeepLabV3+的ASPP 模块能获取更多的上下文信息和边缘信息;但其骨干网络结构复杂且参数量庞大,带来了庞大的计算量,甚至可能降低模型的泛化能力。针对该缺点,同时为进一步探索深度学习在石漠化方面的应用,突破传统方法在复杂地物条件下裸岩提取精度低的问题,本文构建了一种基于改进DeepLabV3+的裸岩信息提取方法。首先使用改进的轻量化网络替换DeepLabV3+特征提取网络;其次在特征提取网络中结合FPN、坐标注意力机制(Coordinate Attention,CA)模块[22]提高模型对裸岩特征上下文的联系能力,使模型更关注细碎裸岩区域并获取浅层网络中更多的细节信息;最后在ASPP 模块中添加异感受野特征融合特征层。
喀斯特地区地物破碎化严重,石漠化区域裸岩通常以斑块的形态分散在植被、裸土中,部分成片分布,因此其边界轮廓、形态大小极其不规律。为了尽可能地提取不同大小形态的裸岩目标,采用DeepLabV3+模型进行裸岩提取。DeepLabV3+引入了编码-解码结构,编码部分包括骨干网络深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)和ASPP 两个部分。其中骨干网络为Xception,ASPP 模块由1×1 卷积,空洞率为6、12、18 的空洞卷积以及全局平均池化并行而成,该结构在保证空间分辨率的情况下,扩大了网络的感受野,能获取不同尺度的石漠化裸岩特征信息,从而更好地对不同形态大小的裸岩目标进行特征提取。
输入的影像经骨干网络得到两个特征层,浅层特征直接传入解码器中,深层特征经ASPP 获取多尺度特征后进行堆叠,再经1×1 卷积调整通道数传入解码器中。解码器对传入的深层特征进行4 倍上采样,并对浅层特征进行1×1 卷积通道数调整,将调整后的两个特征堆叠,最后经3×3 卷积细化特征与4 倍上采样得到最终预测结果。整体网络结构如图1 所示。
图1 DeepLabV3+模型结构Fig.1 DeepLabV3+ model structure
注意力机制通过增强网络对目标特征的关注和忽略无关信息来改善网络性能,可以有效地提升网络特征提取的能力,被广泛应用于各种深度学习的任务中。将其引入本文的网络,使得模型提升对裸岩目标的关注度,忽略地物背景的干扰。CA 将位置信息嵌入通道注意力中,使网络获取更大区域的信息。坐标注意力机制的实现主要有两个步骤:坐标信息的嵌入和坐标注意力生成。其模块结构如图2 所示。
图2 坐标注意力机制Fig.2 Coordinate attention mechanism
首先是坐标信息的嵌入。全局池化通常用于通道注意力机制中对空间信息进行编码,但其将全局信息压缩至一个通道内进行描述,会使位置信息难以保留。因此,该部分将全局池化层分解成两个一维特征编码操作,对于输入的特征图X∈RC×H×W,C为特征图的通道数,H为特征图的高,W为特征图的宽,使用大小为 (H,1) 和 (1,W)的池化核沿水平方向和垂直方向坐标进行通道编码,使模块能获取长范围依赖的信息,其表达式如式(1)、(2)所示
式中c、h、w分别表示当前注意力模块所对应特征图的通道、高度和宽度;xc∈RH×W表示输入的特征;Zhc∈RH×1表示第c通道在高h处的输出;Zwc∈R1×W表示第c通道在宽度w处的输出。
其次是坐标注意力生成。该部分将具有编码信息的特征进行拼接,并使用卷积变换和非线性激活获得特征映射f,其表达式如(3)所示
式中 δ为非线性激活函数;F1×1为1×1 卷积。
在得到特征图f后沿空间方向将其分解为两个张量,并分别对两个张量进行卷积变换和Sigmoid 激活,将通道数调整至与输入特征一致,得到张量gh、gw。
式中Fh、Fw为1×1 卷积;fh、fw为f沿着空间维度分解的两个张量; σ为Sigmoid 激活函数。
最后对gh、gw进行拓展,作为注意力权重,最终得到坐标注意力机制输出yc(i,j),其表达式如式(6)
考虑到石漠化区域裸岩提取仅涉及裸岩和背景两个标签,语义信息相对简单,原始DeepLabV3+主干网络Xception 结构复杂且参数量大,对算力要求高,且当数据集的量级与参数量不匹配时,网络的泛化效果较差[23],因此选择轻量化网络MobileNetV3 作为骨干网络。MobileNetV3 于2019 年提出,其在MobileNetV2 的基础上在线性瓶颈的逆残差结构块(The Inverted Residual with Linear Bottleneck Block,Bneck)引入基于压缩奖惩(Squeeze and Excitation,SE)的轻量级注意力机制结构和Hard-Swish 激活函数。MobileNetV3 的基本单元Bneck 如图3 所示,输入特征经1×1 卷积进行通道数调整,再使用3×3 的深度可分离卷积进行特征提取,对提取的结果进行全局平均池化并施加SE 注意力机制,经Relu 激活函数和Hard-σ 激活函数加入非线性因素后与特征图相乘,最后经1×1 卷积进行通道数调整并与输入特征相加完成残差边模块[24]。
图3 MobileNetV3 基本单元Fig.3 MobileNetV3 block
其整体结构如表1 所示,表中3×5122表示输入特征为3 通道,大小为512 像素×512 像素;pool,7×7 表示池化及对应的池化核大小;Con2d,1×1, NBN 表示卷积操作、对应的卷积核大小、不使用批归一化层(Batch Normalization,BN)结构;YES 表示施加相应的注意力机制;HS、RE 分别表示使用的激活函数为Hard-Swish、Relu 激活函数;步距为1 表示卷积过程中的步长为1。原始MobileNetV3 共进行5 次下采样;为深层特征进入ASPP 时保留更多的像素点特征,本文对原始输入特征进行3 次下采样,选用MobileNetV3 的前7 层,同时将第4 层之后的卷积修改为空洞率为2 的深度可分离空洞卷积(Dilated Convolutions,DC),以扩大感受野;原始网络中的SE 注意力只考虑内部通道信息,忽略了位置信息的重要性,而视觉中目标的空间结构是很重要的,因此使用CA 代替。改进后的MobileNetV3 网络结构如表2 所示。
表1 MobileNetV3 网络结构Tab.1 MobileNetV3 network structure
表2 CA-DC-MobileNetV3 网络结构Tab.2 CA-DC-MobileNetV3 network structure
考虑到喀斯特地区地物分布较为细碎,石漠化区域裸岩目标尺度不尽相同,为进一步加强网络对不同尺度目标提取的能力,获取浅层特征所包含的局部精细特征,将FPN 引入本文网络。FPN 通过自深而浅、自浅而深、横向连接网络将深层高语义特征与浅层特征融合,以获取不同尺度语义信息,得到更丰富的空间细节,达到提高分割精度的目的。本文涉及FPN 结构如图4 所示,其中特征层3、特征层4、特征层5 分别为CA-DC-MobileNetV3 的特征层3、特征层4、特征层5 输出的结果。FPN 通过上采样及通道数调整将不同尺度特征进行融合,最后经3×3 卷积以消除上采样的混叠效应,作为浅层特征传入解码器中。
图4 特征金字塔Fig.4 Feature pyramid network structure
图5 为改进的DeepLabV3+模型,使用CA-DC-MobileNetV3 作为骨干网络,以减少模型参数;引入FPN 模块进行加强特征提取,将深层高语义特征与浅层特征融合,获取更多细节特征,并通过CA 对特征进行加强提取获取关键信息;为增加不同空洞卷积层之间的联系,提高信息利用率,在ASPP 结构的基础上,将空洞率为6、12、18 的空洞卷积层通过Add 操作进行异感受野特征融合,并作为新的特征层与其余特征进行堆叠。
图5 改进的DeepLabV3+模型Fig.5 Improved DeepLabV3+ model
实验数据来源于罗宾逊R44 直升机搭载的哈苏A6D-100C 航摄仪采集得到的影像,区域位于盘江流域,流域内岩溶发育广泛,水土流失严重,喀斯特集中分布。所获取影像有红、绿、蓝三个波段,空间分辨率为0.1 m。选取其中一景经预处理的影像,通过ArcGIS 进行人工标注制作标签。将制作好的标签与原始影像进行同步处理,通过滑动窗口裁剪为512 像素×512 像素的影像,使用水平翻转、旋转、镜像操作进行数据增广,最后得到2 000 张影像,按照9∶1 的比例随机划分训练集和验证集。
实验采用的操作系统为Ubuntu18.04,深度学习框架为PyTorch,使用的GPU 为NVIDIA RTX 2080 Ti。训练超参数设置如下:迭代轮次(Epoch)为80,批大小(Batch Size)为4,动量为0.9,使用Adam(Adaptive Moment Estimation)优化器,初始学习率为0.000 5,并通过余弦退火下降调整策略自适应调整学习率。
选择交并比IOU(Intersection Over Union)、F1分数(F1-Score)、模型参数量作为本文的评价指标。IOU 表示真实值和预测值两个集合交集和并集之比,表示预测结果与标签像素的交叠率,是衡量图像分割精度的重要指标,具体见公式(7)。F1是精确率P(Percision)和召回率R(Recall)的调和平均值,F1同时考虑了正类别和负类别的性能,避免了精确率和召回率可能出现牺牲其中一个而提升另一个的情况,F1综合考虑二者,达到平衡。具体见公式(8)~(10)
式中 TP 为被正确预测为裸岩的像素数; FP 为非裸岩被错误预测为裸岩的像素数; FN 为被错误预测为非裸岩的像素数。
模型参数量指模型中需要进行训练的可学习参数的数量。在不考虑偏置的情况下,对于输入特征图X∈RC×H×W;卷积核k×k×n,其中k为卷积核的高和宽,n为卷积核的个数。标准卷积层参数量为C×k×k×n;深度可分离卷积可分为深度卷积和逐点卷积,其参数量为这两个步骤中的参数数量之和,参数量为C×k×k+C×1×1×n;由此可知,深度可分离卷积与标准卷积的参数量之比为计算语义分割模型的参数量则是模型中的各个层的参数数量之和。
为验证CA-DC-MobileNetV3、FPN、CA、ASPP 模块异感受野特征融合方案的有效性,在相同数据集和实验环境上进行逐层的消融实验,以IOU、F1、模型参数量作为评价指标,实验结果如表3 所示,实验1~6 为调整性能指标的不同改进方案。为直观表达注意力机制作用效果,同时获取网络关注区域,使用Grad-CAM[25]对施加注意力机制作用效果进行可视化,如图6 所示。
图6 可视化的注意力图Fig.6 Visual attention maps
对比实验1、2 可知,改进的CA-DC-MobileNetV3 网络相较于原始MobileNetV3 网络IOU 提高了0.92 个百分点,F1提高了0.64 个百分点,同时参数量得到减少,该方法减少了下采样的次数,为传入解码器的特征保留并获取了更丰富的特征,并使用CA 使模型更准确地定位和识别感兴趣的对象,模型预测精度得到提高。对比实验2、3 可知,FPN 融合了深层与浅层特征,获取了更丰富的细节,提高了网络的预测精度,IOU 与F1分别提高了1.5、1.03 个百分点,与此同时也增加了参数量。对比实验3、4 可知,CA 与FPN 的搭配使用使得模型的预测精度进一步提高,IOU 与F1分别提高了0.36、0.35 个百分点,参数量保持平衡,再次证明注意力机制的引入对网络预测起到正向作用。根据图6 中高亮区域表示模型关注显著区域,注意力机制的引入使得模型对特征不明显目标对象和阴影处的目标给予了更多的关注。对比实验3、5 可知,异感受野特征融合通过提高信息的利用率,提升了模型的预测精度,IOU 与F1分别提高0.53、0.34 个百分点,但同时也增加了模型的参数量。综合表3,实验6 通过FPN、CA、Add 操作进行特征融合,相较于实验1 模型IOU、F1分别提高了3.39、2.32 个百分点,同时参数量减少了1.12×106,较好地平衡了参数量以及模型精度。
为验证本文提出模型的有效性,选择基于面向对象的方法、PSPNet[26]、SegNet、DeepLabV3+、SegFormer MiT-b0[27]语义分割模型与本文模型进行对比试验,结果如表4;几种提取方法在四种不同的场景下的提取结果如表5 所示。
表4 不同算法性能对比Tab.4 Performance comparison of different algorithms
表5 实验结果对比Tab.5 Comparison of experimental results
由表4 可知,本文提出的模型在裸岩信息提取任务中表现最佳,提取精度最高,IOU 与F1分别达到了72.46%、84.03%。比基于面向对象的方法、PSPNet、SegNet、DeepLabV3+、SegFormer MiT-b0 的IOU 分别提高了38.91、19.92、5.23、4.62 和4.01 个百分点,F1分别提高了33.78、15.15、3.63、3.19 和2.76 个百分点。从模型参数规模上来看,SegFormer MiT-b0、本文模型参数量远低于其余模型,其中本文改进模型参数量约为原始模型的1/13,略高于SegFormer MiT-b0,但在精度上得到了提升,综合来看,本文模型优于 SegFormer MiT-b0。
表5 更直观地展示了不同语义分割模型在不同场景的预测结果,表5 中红色线圈为部分漏提区域、黄色为部分误提区域。表5 中场景1 为无裸岩区域,其中基于面向对象的方法误提现象最为严重,颜色上与裸岩相近的瓦块屋顶建筑物被误提为裸岩;除本文提出模型外,其余模型均出现了不同程度误提现象,存在噪声,其中SegFormer MiT-b0 在场景1 误提现象最为轻微。场景2 中裸岩分布细碎,存在裸土背景及阴影区域,除本文模型外,其余模型均出现了较大区域的漏提现象,对于阴影目标敏感度较低,本文模型对细碎裸岩目标、阴影区域裸岩目标提取效果最佳,结果更为精确。场景3 中存在大量分布破碎目标,几种模型均出现了漏提的现象,其中本文模型提取轮廓边界更加清晰。场景4 中裸岩目标范围较大、边界轮廓清晰,除PSPNet 模型提取结果外,几种模型在该场景表现较好,但仍然存在部分细节信息提取错误的现象。
总体来看,基于面向对象的提取方法、PSPNet 在裸岩提取任务中表现较差,提取结果较为粗糙,误提、漏提、边界信息丢失现象严重;SegNet、DeepLabV3+、SegFormer MiT-b0 相较于面向对象法、PSPNet 提取效果有明显的提高,但仍存在大量误提、漏提现象;本文提出模型的泛化性、细节表现力相较于其他模型具有更好的表现。
本文构建了一种结合FPN、CA、添加异感受野特征融合改进的DeepLabV3+喀斯特地区裸岩信息提取模型。该模型首先将DeepLabV3+骨干提取网络替换为CA-DC-MobileNetV3,在很大程度上降低了模型的参数量,同时提升了特征提取效果。其次,引入FPN 模块获取影像更丰富的细节,并通过CA 模块强化特征,进一步加强特征提取能力。最后在ASPP 模块新增异感受野特征融合特征层,提高了特征信息的利用率。结果表明,改进的DeepLabV3+网络提升了模型预测精度,较好地改善了裸岩提取任务中误提、漏提的问题。在后续的工作中,将继续增加裸岩提取任务数据集,进一步提高模型的泛化能力;并继续优化模型的性能,提高模型在更复杂区域的提取精度,为石漠化调查工作提供更高效的方案。