孔祥稳,王常颖,张世超,李劲华,隋毅
(青岛大学 计算机科学技术学院,山东 青岛 266071)
高质量的道路信息提取在许多实际应用中起着重要作用[1]。传统的自动提取道路方法主要包括基于光谱特征的方法[2]、面向对象的方法[3]、浅层机器学习方法[4]等。然而随着遥感影像分辨率的提高,影像包含的地物细节更加丰富,以上方法提取道路的精度已经不能达到实际需求。
近几年,深度学习技术在计算机视觉领域得到了广泛的应用。如经典的卷积神经网络(convolutional neural network,CNN)[5]和全卷积神经网络(fully convolutional neural network,FCN)[6]以及包括U-Net、SegNet[7]和DeepLab[8]在内的编码-解码网络在语义分割应用中都展现了优异的性能。道路分割作为语义分割问题的一个子集,国内外学者对其做了大量的研究,得到了较大的发展。Wang等[9]利用滑动窗口方法预测道路样本,提出了一种提取道路网络的神经动态框架。Wei等[10]使用FCN架构提取道路得到了较好的结果,但该方法无法完全恢复输入图像的分辨率,在分割小细节方面表现不佳。王卓等[11]提出一种基于U-Net改进的深度神经网络,改善了道路提取精度。U-Net、SegNet、DeepLab等高性能的编码-解码网络模型使用一系列卷积和池化操作来提高道路提取效率,但由于没有考虑道路的结构特征,对于较为复杂的区域提取效果不佳。
综上可以看出,必须要结合道路目标的结构特性改进模型,才能更适合解决道路提取问题。考虑到道路目标呈现细长形状,而且宽度极其有限,不同的感受野大小设置在道路提取任务中至关重要。研究发现,空洞卷积在扩大感受野的同时不会引入额外的计算参数。此外,空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)也可以改善感受野的大小,马天浩等[12]将空洞空间金字塔池化引用到道路识别场景中,有效改善了局部道路提取完整性。分析原理可知,空洞空间金字塔池化只是将一个正方形窗口变成了多个尺寸的正方形窗口进行并行池化操作,仍然会不可避免地捕捉到不相关区域的干扰信息,最终限制捕捉长条状的道路区域,依然难以实现高精度的道路提取。
为解决上述问题,进一步提升道路提取的完整性,结合U-Net网络和遥感影像数据特征,本文提出了一种结合条纹池化模块(strip pooling module,SPM)和混合池化模块(mixed pooling module,MPM)[13]的SM-Unet网络,并以国产高分二号影像为数据源开展了基于SM-Unet的道路提取实验。
如图1所示,U-Net网络是一种高度对称的编码器-解码器网络。在编码器部分设置两个3×3大小的卷积层提取特征,然后使用2×2大小的最大池化模块对特征图进行下采样。解码器部分的每个模块都包含一个上采样操作,通过2×2大小的反卷积模块实现。并且该网络在同一层次使用了跳跃连接,这样能够保证恢复后的特征图可以融合更多低水平的特征,也可以使不同尺寸的特征得到融合。
在高分辨率遥感影像中道路多呈现狭窄的长条状,总体上呈网状分布。由于高分辨率遥感影像中道路目标特征复杂且背景地物多样,其细节信息非常丰富,这就对用语义分割模型提取语义信息提出了更高的要求。U-Net网络通过级联对应层次的特征图,复用低层次语义信息,然而U-Net网络进行下采样扩大感受野范围的同时,也会忽略部分细小道路目标信息,因此,使用U-Net网络在高分辨率遥感影像上进行道路提取存在局限性。
本文提出的SM-Unet网络是以U-Net网络结构为基础进行改进的,网络主要由编码器和解码器两部分组成,网络结构如图2所示。
图2 SM-Unet网络结构图
针对从高分辨率遥感影像中提取道路任务的特殊性,本文结合U-Net网络,设计了SM-Unet。U-Net网络编码器部分进行四次下采样来扩大感受野范围。然而下采样在扩大感受野的同时,可能会导致部分细小道路目标信息丢失甚至无法重建。为了提取到更多有效的细节信息,在下采样前加入条纹池化模块。该模块限制池化区域,能够结合道路的形状特征,既能捕获远距离孤立道路区域信息,同时又关注局部细节。因此,在编码器的最后一层卷积块加入混合池化模块,通过混合池化模块收集更多不同位置丰富的上下文信息。最后,将编码器产生的特征图馈送到解码器。
1)条纹池化模块。道路是呈现长条状分布的特殊网状结构,多条道路互相交错会形成道路网,且道路在影像中总体呈现连贯带状,很少出现断头路。如图3(a)所示,传统的空间池化仅使用固定大小的正方形窗口提取特征,考虑到道路结构的特殊性,使用传统的池化方法会限制提取道路场景中的各种上下文信息,同时也会不可避免地提取到不相干区域的干扰信息。SM-Unet网络使用条纹池化方法可以有效地扩大感受野范围并且收集上下文信息。如图3(b)所示,相比于传统池化,条纹池化主要有两个优点。第一,条纹池化方法沿着一个空间维度设计了N×1的长条状的池化核形状,该池化核形状可以很好应用到长条状的道路上,且在长条形窗口内更容易获取道路孤立区域的远距离关系。第二,它沿着另一个空间维度设计了1×N的狭窄核形状,这有助于捕获空间中的局部上下文信息,并且能有效防止不相关区域的无用信息干扰标签的预测。条纹池化与传统的仅从固定的正方形窗口收集上下文的空间池化有本质的不同。本文网络集成条纹池化模块,这种条纹池化考虑的是较长较窄的范围,而不是整个特征图,避免了在相距较远的位置之间建立不必要的连接,同时更能聚合全局和上下文信息。
图3 普通池化、条纹池化和对应标签图
传统池化将方形区域对应位置上特征图的像素值求平均,以该值作为池化输出值。池化的输出结果如式(1)所示。
(1)
式中:x∈R,为任意二维输入张量,R为实数集;H和W分别为池化核的高度和宽度;y的每个空间位置对应一个大小为H×W的池化窗口;i0和j0分别指当前池化区域相对于所有池化区域在高度方向和宽度方向的相对位置;i和j分别表示在池化区域中的高度和宽度坐标。由式(1)也可以看出,当该池化处理的对象为不规则形状时,会不可避免地包含许多不相关的信息。
本文引入的条纹池化模块由两条路径组成,如图4所示。这两条路径分别沿着垂直和水平两个空间维度执行池化,以有效扩大主干的感受野范围。对于收集到的遥感影像中的每个空间信息,对全局的水平和垂直信息进行编码,然后使用编码来平衡其自身的权重以进行特征细化。与传统池化不同,条纹池化先将输入的二维张量通过水平和垂直条纹池化后变为H×1和1×W,再对水平和垂直条形区域对应位置上特征图的像素分别求平均,以该值作为池化输出值。水平池化输出结果如式(2)所示,垂直池化输出结果如式(3)所示。
图4 条纹池化模块
(2)
(3)
式中:h、v分别代表条带合并方向,h为水平方向,v为垂直方向;y为池化输出,其每个空间位置对应一个大小为H×1和1×W的池化窗口;H和W分别为水平池化和垂直池化的长度,此处的i与j分别代表当前池化像素在整个池化区域x中的高度和宽度坐标。
水平和垂直池化输出结果经过卷积核大小为3的1D卷积沿着左右和上下方向进行扩容,扩容后得到两个尺寸相同的特征图,对扩容后的特征图对应相同位置求和得到与输入尺寸相同的大小为H×W的融合特征图。融合特征图结果如式(4)所示。
(4)
最后,融合特征图结果通过1×1卷积和sigmoid处理后,再与原输入图对应位置像素相乘得到条纹池化的最终输出结果。
在条纹池化过程中,输出特征图中的每个位置都和输入特征图中的水平和垂直位置建立了关系。在条纹池化过程中,重复聚合上述过程几次,能够实现在遥感影像中对所有的特征信息构建长距离依赖关系。
2)混合池化模块。金字塔池化模块(pyramid pooling module,PPM)[14]是增强语义分割网络的有效方法。不同的金字塔级别有不同的池内核,但在扩大主干网络感受野用金字塔池化时可能会包含对某一位置预测无用甚至误导的信息,所以有必要限制池化的区域。结合标准池化和条纹池化的优点,设计了混合池化模块。该模块结合不同尺寸和各种不同正方形内核形状、条形内核形状的池化操作,聚合高分辨率遥感影像中不同类型的上下文信息,从而使道路特征表示更有辨别力。
混合池化模块由条纹池化和金字塔池化共同组成,首先用1×1卷积层减少通道数量,然后将两个子模块的输出串联到一起,引入另一个1×1卷积层扩展通道数量。该模块进行池化操作时能获取各种不同位置之间的短距离和长距离相关关系。对于长距离依赖关系,使用水平和垂直条纹池化可以聚合此类信息。结合高分辨率遥感影像中道路的特点,条纹池化可以收集离散分布的道路区域的特征信息,对长条形道路区域进行编码。高分辨率遥感影像中道路区域也会存在分布紧密的情况,所以也需要采用金字塔池化模块,标准空间池化不仅能收集短距离信息,也能更好地获取道路区域的上下文信息。如图5所示,在编码-解码网络之间插入混合池化模块,编码器生成的特征图通过使用混合池化模块进行处理,最后结果被反馈到解码器。
图5 混合池化模块
为验证本文提出的SM-Unet模型在高分二号遥感影像上提取道路的有效性,利用制作的高分二号遥感影像数据集进行训练、验证、测试。实验基于Tensorflow+Keras深度学习框架设计。硬件设备为Intel(R)CPU E5-2690 V4 2.60 GHz,128 GB内存,同时使用一块Nvidia Tesla K80 GPU进行加速。
采用2019年6月中国天津地区的部分高分二号遥感影像作为训练数据。高分二号遥感影像由4 m分辨率的多光谱图像和1 m分辨率的全色图像融合而成,融合后的图像为tif格式的4通道影像,图像空间分辨率为1 m。使用ENVI用目视解译的方法对高分辨率遥感影像中的感兴趣道路区域进行勾画,得到对应的标签图像。标签图为二值图,道路像素值为1,非道路像素值为0。考虑到单幅遥感影像数据量较大且现有硬件设备GPU的内存有限,从该地区的遥感影像中分别截取14幅3 000像素×3 000像素大小的影像切片,其中10幅作为训练样本,4幅作为测试样本。
本文选择使用大小为256像素×256像素,且步长为120的滑动窗口在遥感影像与其对应的标签图上进行样本子图像截取。此外,为了有效扩增训练样本数据,对原始遥感影像和对应的标签旋转90°,并随机进行水平和垂直迁移,最终得到10 912张大小为256像素×256像素的样本子影像。将其以9∶1的比例分成9 820张训练集图片、1 092张验证集图片,输入到本文提出的SM-Unet网络中。在训练模型时采用Adam优化器,学习率设置为0.001,训练集和验证集的批处理样本大小均设置为4,迭代期(epoch)设置为30。在30轮迭代中,每结束一轮训练,都会在验证集上计算一次损失率和精度,最终选择使用在验证集上训练效果最好的模型。
从遥感影像中提取道路是从像素级别实现的语义分割二分类问题。道路像素为正,非道路像素为负,由此可知,预测结果可以分为四种:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。TP表示被正确分类的道路像素的数量;TN表示被正确分类的非道路像素数量;FP表示非道路被错分为道路像素的数量;FN表示道路被错分为非道路像素的数量。基于以上四种预测结果,本文从定量角度采用精确率(precision)、召回率(recall)、F1分值和平均交并比(IoU)作为评估指标,评价本文从遥感影像中提取道路方法的质量。
用SM-Unet网络和消融实验搭建的网络在高分二号遥感影像数据集上进行分析。实验中所用到的对比网络和本文的网络均为相同环境和相同参数设置。对高分二号遥感影像数据上训练完的模型,使用测试集进行预测时的输入图像与训练集图像大小一致,均为3 000像素×3 000像素。预测结果如图6~图9所示。
图6 研究区域1四种网络的提取结果对比
图6~图9展示了四张包含不同类型道路且地物背景复杂的遥感影像原输入图像、目视真值图,及U-Net、Unet-SPM、Unet-MPM、SM-Unet预测结果图。其中,Unet-SPM、Unet-MPM网络分别是在原U-Net网络上搭建的在编码器前四次下采样前加入条纹池化模块、编码器最后一层加入混合池化模块的网络。上述四景测试图具体表现为:城区主干道路与影像中其他地物对比鲜明,道路边缘相互平行且道路网状多为密集;居民住宅区域道路狭窄且多被建筑物阴影遮挡;道路区域大多不会孤立存在,主干道路会和其他支路相互交错形成网状结构。通过预测结果图可以看出,相比于其他三种网络,本文网络在增加了条纹池化模块和混合池化模块后,能更完整地提取狭窄细小的道路和远距离的长条形道路,达到较全面的提取效果。
图7 研究区域2四种网络的提取结果对比
图8 研究区域3四种网络的提取结果对比
图9 研究区域4四种网络的提取结果对比
本节使用上文提到的道路提取质量评价指标验证本文网络的有效性,在高分二号遥感影像数据集上进行测试,各项评价指标如表1所示。
表1 各模型在高分二号遥感影像测试集上结果对比
从评价指标可以看出,本文提出的SM-Unet网络的预测结果在各项指标上都明显优于原U-Net网络。U-Net网络采用编码器-解码器对称结构,将同一层次的特征图拼接在一起,形成更厚的特征,能够有效提升地物分割精度,但该网络主要用于处理医学影像,模型结构的设计并不完全适合提取高分辨率遥感影像中的道路。由对比结果可知,本文提出的网络在精确率、召回率、F1分值和平均交并比上分别提高了3.67%、6.12%、3.3%、4.22%。同时,对比表1中的Unet-SPM、Unet-MPM网络,本文网络的预测结果只有召回率比Unet-MPM略低0.42%,其他指标都明显优于对比网络。
下面讨论SM-Unet网络与现有的其他网络在高分二号遥感影像数据集上的分割结果对比。预测结果如图10~图13所示。
图10 研究区域1七种网络的提取结果对比
图11 研究区域2七种网络的提取结果对比
图12 研究区域3七种网络的提取结果对比
图13 研究区域4七种网络的提取结果对比
如图10~图13所示,相比于其他网络,本文网络在高分二号遥感影像测试集上分割道路时,能更加完整地提取到主干道路和支路,居民区域狭窄细小的道路也能较好地识别到,双向车道的边界信息提取也很清晰。FCN网络进行四次下采样,中间生成的最小特征图仅为输入图像的1/32,导致不能很好地识别道路的细小部分。DeepLabV3+应用了从编码器网络逐渐恢复分辨率的思想,恢复到输入图像分辨率的1/4,虽然加入了多尺度提取模块,但仍然不足以完成道路提取任务。ResNet101网络加入残差网络提高了神经网络的性能,但该网络在编码器部分进行四次下采样后直接在解码器部分进行四次上采样,缺少多尺度语义信息,不能很好地提升模型的分割精度。BiSeNet双边网络中的空间路径的卷积层数过多,导致空间信息损失,因而不能达到理想的道路提取效果。HRNet和DANet网络提取的道路区域均存在较明显的孔洞和断裂。高分辨率网络HRNet中四个从低到高分辨率的分支编码特征被连接在一起以生成特征,但上下文信息并没有得到充分利用,该网络也没有解码阶段,不能很好地恢复细节信息。DANet提出双重注意网络,以集成局部特征和全局依赖,与本文网络相比仍不可避免地会忽略细节信息,不能够很好地应用到提取道路任务上。
表2展示了本文网络和其他网络在高分二号遥感影像测试集上的平均精确率、平均召回率、平均F1分值和平均交并比。由表2可以得出,上述对比网络模型均未从特征筛选方面考虑,本文网络在各项评价指标上均优于其他模型。
表2 七种模型在高分二号遥感影像数据集上结果对比
本文对高分二号遥感影像中道路信息的提取进行研究,结合道路目标特点,为提高分割精确率,获得更好的道路提取质量,基于U-Net网络设计了简洁、高度对称的解码器-编码器网络SM-Unet,得到如下结论。
1)加入条纹池化模块,限制池化区域,能够有效获取长距离依赖关系并且关注局部细节信息。
2)考虑到道路尺度信息的多样性,加入混合池化模块,通过各种汇集操作获取不同类型的上下文信息,同时捕获不同位置之间的短距离和长距离相关性,能同时较好地提取到分布离散的长条形道路区域和狭窄区域,从而提升网络在复杂场景的遥感影像中提取道路信息的能力。
3)和原U-Net网络提取道路结果中出现明显的漏分、断裂现象相比,本文网络的提取结果能得到明显改善,输出影像中的多尺度道路目标相对完整连续。且与现有的其他语义分割模型相比,本文网络的提取结果在精确率、召回率、F1分值和平均交并比四项评价指标上表现优异,能够应用到地物背景复杂的遥感影像中的道路提取任务中。