苏杭 刘佳蕙
基金项目:江苏省研究生科研与实践创新计划项目;项目名称:基于深度学习的高分辨率遥感图像边缘提取研究;项目编号:2021XKT0095。江苏省研究生科研与实践创新计划项目;项目名称:电力设施环境AI遥感监测研究;项目编号:KYCX21_2627。
作者简介:苏杭(1998— ),女,河南洛阳人,硕士研究生;研究方向:深度学习,边缘检测,迁移学习。
摘要:建筑物边缘提取对智慧城市建设具有重要的研究意义,采用人工标注建筑物边缘的方法需要消耗大量的人力物力。目前,利用深度学习的方法已经能提取建筑物大致轮廓,但其需要大量的人工标注的精确样本进行训练。因此,文章构建了3个边缘检测数据集并复现了2个经典边缘检测网络RCF和BDCN进行交叉训练测试实验,评估边缘检测模型的可迁移性,为研究构建普适性更强的边缘检测网络提供思路。
关键词:深度学习;边缘检测;迁移学习
中图分类号:P237 文献标志码:A
0 引言
建筑物是城市化建设过程中更新最频繁的地物之一,因此及时更新建筑物变化信息对于城市的发展至关重要。近年来,越来越多的测绘学者倾向于从高分遥感影像上提取建筑物信息[1]。传统的边缘检测算法主要依靠局部像素的灰度剧烈变化判断边缘[2],然而在遥感图像中存在道路、汽车等非建筑物的边缘。因此,传统的边缘检测算子提取出的边缘并不纯粹。
随着计算机技术的发展,学者们将深度卷积神经网络运用到边缘检测中来,并提出了一系列基于深度学习的边缘检测方法。其中,比较经典的有:RCF充分考虑VGG16网络所有的卷积层,从而能够获得更丰富的特征信息,大幅提高边缘检测的性能。BDCN在网络模型中加入了尺度增强模块,使网络能够充分学习不同尺度的特征。近年来,不少学者将其应用于高分遥感影像的建筑物边缘检测并取得了较高的精度。
但深度学习模型的训练依赖于大量人工标注的精确样本,且不同地区不同分辨率的遥感图像存在差异,训练好的模型普适性较差,表现出强烈的样本依赖性。迁移学习指将一个区域学习到的知识运用到另一个区域中。其中,带有精确标签的区域称为源域,缺乏标签的区域称为目标域。迁移学习可以使网络在学习源域特征时兼顾学习目标域的特征,使深度学习模型能够更好地适用于目标域[3]。目前,边缘检测的迁移多为医学领域[4],医学影像相似度高,背景比较单一,迁移难度低。而遥感影像地物复杂,背景杂乱,不同地区各有特点,迁移难度大。因此,评估边缘检测网络的可迁移性,并分析影响迁移性的各种因素具有重要的研究价值。本文复现了常用的深度边缘检测网络RCF和BDCN并将其应用于高分遥感影像的建筑物边缘提取,构建三大高分遥感影像建筑物数据集,评估边缘檢测网络的可迁移性。
1 数据集
1.1 南京市江北新区无人机数据集
本文的实验区的无人机正射影像是通过无人机于2019年10月在中国江苏省南京市江北新区飞行航拍获得。该数据的空间分辨率为0.3m,波段为RGB,尺寸为27 337×21 816大小的栅格图像。整个数据集大约覆盖9 km2。由于计算机配置有限,将图片裁剪为256×256大小。通过数据标注、划分切片、筛去无建筑切片等步骤完成数据集制作。最终用于训练、测试的图块数目分别为8 000张、515张。
1.2 马萨诸塞州卫星遥感影像数据集
马萨诸塞州数据集为多伦多大学2013年标注的航空影像建筑数据集。该数据集空间分辨率为1m,波段为RGB,覆盖马萨诸塞州364.5 km2区域。该数据集每幅影像分辨率为1 500×1 500,共162张。该影像中建筑物个体分明,分布较为均匀,建筑物类型多样,其中以小型建筑物居多。本文主要研究边缘检测问题,因此将原数据集中的面标签统一矢量化为线标签。为更好地做模型评价,统一将影像裁剪为256×256大小,最终用于训练、验证测试的图块数目分别为10 600张、250张。
1.3 Inria航空影像数据集
Inria数据集包含覆盖面积810 km2的空间分辨率为0.3 m的航空正射彩色图像。这些影像覆盖了不同的城市聚落,数据量大,涵盖范围广,建筑物风格多样。本文与马萨诸塞州数据集处理方法相同,同样将面标签进行矢量化,将影像和标签统一裁剪为256×256大小。最终用于训练、验证测试的图块数目分别为55 955张、9 025张。
2 深度学习边缘检测网络
2.1 RCF网络
RCF以VGG16分类网络为基础框架,RCF在每一层主干部分的卷积都连接一个卷积核大小为1×1,通道深度为21的卷积层,对得到的每层特征进行上采样,计算交叉熵损失。最终使用1×1大小的卷积对5个侧边层进行特征融合,得到融合层的建筑物边缘提取结果。本文经过多次实验最终得出RCF网络训练3个数据集的最优参数如表1所示。
2.2 BDCN网络
BDCN同样以VGG16分类网络为基础框架,不同于RCF,BDCN采用了双向传播边缘特征图的方式,可以在浅层和深层之间双向传播。低层的网络可以注意到更多的边缘细节,但是同时会引入很多非建筑物边缘的噪声。高层网络提取的建筑物图像更加整洁,非边缘噪声减少,但边缘较粗,忽略了细节边缘。将10个特征层经过上采样后融合在一起可以使网络提取不同尺度的信息。表2描述了BDCN网络在3个建筑物边缘数据集最终优化的参数值。
2.3 训练结果
2.3.1 精度评价指标
通常对边缘检测网络提取结果的精度评价采用边缘提取的评价指标,本文采用6个常用的评价指标衡量边缘提取的准确性,分别是总体准确率(OA)、精确率(Precision)、召回率(Recall)、F1分数、IoU值和Kappa系数。
在边缘检测网络中,人眼难以精准勾绘有些真值标签数据集。本文按照松弛标准下的精确率和召回率作为该类情况的评价指标。松弛精确率定义为真实建筑边缘像元ρ个像元范围内的预测边缘像元的指标得分,而松弛召回率定义为预测建筑物边缘像元ρ个像元范围内的真实边缘像元的指标得分。本研究将ρ设置为3作为松弛方案的实验参数。
2.3.2 江北新区数据集训练结果
本文按照常用的边缘检测评价指标评估了2个边缘检测网络的RCF和BDCN对于江北新区数据集预测精度结果。如表3所示,2个网络的OA值得分均在94%以上。在召回率方面,2个网络相差不大。在准确率方面,BDCN明显优于RCF。
2.3.3 马萨诸塞州数据集训练结果
表4为RCF和BDCN两个边缘检测网络对于马萨诸塞州数据集的边缘概率图预测精度結果。在召回率方面,2个网络相差不大。在准确率方面,BDCN明显优于RCF。但不同的是,马萨诸塞州地物背景单一。由于分辨率较低,小型建筑物群建筑物类型区别不大,网络能够更快地完成收敛,总体预测精度较高。
2.3.4 Inria训练结果
表5为RCF和BDCN两个边缘检测网络对于Inria数据集的边缘概率图预测精度结果。BDCN在召回率方面比RCF高很多,在准确率方面有所下降,但最终F1评分都比较低。由于Inria数据集建筑物类型众多且复杂,部分地区树木对建筑物遮挡较多,且由于太阳角度,建筑物阴影边缘与真实建筑物边缘难以区分。网络参数有限,难以对每一类建筑物都做出较好的预测。因此,Inria训练难度最大,时间最长,训练结果精度较低。
3 交叉迁移结果评估
为了分析RCF、BDCN边缘检测网络对于不同数据集的可迁移性,本文进行了交叉数据集的评估实验。本文使用的两种边缘检测网络在3个数据集上进行跨数据集训练和测试,松弛的定量评估结果如表6—7所示。显然各数据集在其由自己区域的标签训练出来的网络取得的精度最高,采用其他数据集和标签训练的网络精度表现较差。
综合对比两表,从数据集方面看,以Inria数据集作为训练集迁移到其他测试集上取得的效果最好,尤其是在马萨诸塞州测试集上能够获得更好的表现。而以马萨诸塞州作为训练集训练出的模型迁移到其他数据集上取得的精度最差。由此分析,Inria数据集覆盖面积大,建筑物类型多,网络能够学习到更丰富的建筑物特征,采用此数据集作为训练集迁移效果会优于其他数据集。而马萨诸塞州数据集分辨率低,建筑物类型单一,将其作为训练集学习到的建筑物特征太少,迁移效果不够理想。因此,数据集的选择对于迁移学习具有一定的影响,但过度增加训练集数量,会增加网络训练时长,甚至会由于数据差异过大,网络参数有限,不能完成收敛。从边缘检测网络方面看,在训练集和测试集相同的情况下,相对来说BDCN的网络的迁移性优于RCF网络,因为BDCN网络包含尺度增强模块,且其独特的双向传播方法可以更好地保留建筑物不同尺度的特征。因此,可以参考BDCN网络的特性,重点关注如何提取不同尺度建筑物边缘的特征,使其能够适用于更多不同地区、不同风格的建筑物边缘提取。
4 结语
文章探讨了深度学习、边缘检测、迁移学习等相关理论,构建了江北新区、马萨诸塞州、Inria三大建筑物边缘数据集,同时复现两个经典的边缘检测网络RCF和BDCN并将其应用于建筑物边缘提取中。通过实验对比可知,以数据量大、建筑物类型丰富的数据集作为训练集,有助于网络学习更多的建筑物边缘特征,从而提升迁移效果。BDCN网络的迁移性优于RCF,但其效果仍具有很大的改进空间。未来通过改进边缘检测模型解决迁移问题具有很大的研究空间和研究价值。
参考文献
[1] YANG G, ZHANG Q, ZHANG G. EANet: Edge-aware network for the extraction of buildings from aerial images[J]. Remote Sensing, 2020(13): 2161.
[2]杜绪伟,陈东,马兆昆,等.基于Canny算子的改进图像边缘检测算法[J].计算机与数字工程,2022(2):410-413,457.
[3]司龙伟.基于迁移学习的高分遥感影像场景分类[J].江苏科技信息,2019(35):22-24.
[4]黎英,宋佩华.迁移学习在医学图像分类中的研究进展[J].中国图象图形学报,2022(3):672-686.
(编辑 王永超)
Abstract: The edge extraction of buildings has important research significance for the construction of smart cities. The method of artificially marked the edge of the building requires a lot of manpower and material resources. At present, the method of deep learning has been able to extract the rough outline of the building, but it requires a large number of precise samples of artificially labeled for training. Therefore, this article builds three edge detection data sets and reproduces two classic edge detection network RCF and BDCN for cross-training test experiments, to evaluate the migration of the edge detection model and build a more universal edge detection network for the study.
Key words: deep learning; edge detection; transfer learning