禹政阳 陈 军 江明桦 马世岩 秦 鑫
(1.成都信息工程大学资源与环境学院,四川 成都 610225;2.四川省水利科学研究院,四川 成都 610072)
从海量的、有噪声和模糊随机的遥感影像中提取出有用信息,一直是遥感信息提取和识别领域的研究难点与热点。随着人工智能技术,尤其是深度学习的突破,基于人工智能的遥感信息提取已成为重要的研究方向[1-2]。随着研究的深入,大量人工智能模型应用于图像处理领域,如 AlexNet[3],VGGNet[4],GoogleNet[5]、UNET[6]、Mask R-CNN[7]等。Mask RCNN模型属于一种实例分割的图像智能算法,不仅能准确识别出感兴趣目标在图像上的位置,而且还能以掩膜方式标记目标[8-15]。将其应用于遥感图像的目标提取,是地表机器智能感知的重要手段。
然而,遥感目标智能提取的研究目前主要集中于本地遥感影像[16-17]。作为一种宝贵的在线资源,在线遥感影像的空间目标智能提取具有重大的理论意义和实践价值,但该领域目前仍鲜有相关研究。受限于显卡的存储和计算能力限制,Mask R-CNN模型的输入图像大小受一定限制。区别于本地影像,在线遥感影像覆盖全球范围。如何从大量在线遥感瓦片中有效提取空间目标,是亟待解决的关键问题。
本文以18级在线遥感影像为数据源,开展了在线遥感影像的目标提取研究,提出了一种瓦片重叠法的在线高分遥感图像目标智能提取方法。该方法在保证目标提取效率的同时,提高了目标检测精度,为地表机器智能感知提供了新的途径。
在高分遥感影像上,人工构筑物一般具有相对的稳定形态特征和光谱特征,是Mask R-CNN模型容易提取的目标。图1展示了几种典型的空间目标(运动场、城市路口、跨河大桥)的形态特征和光谱特征。从形态特征上看,运动场主要由球场和周围的塑胶跑道构成,一般呈现为椭圆形或矩形;城市路口是城市道路交叉的地方,道路交叉是其典型的形态特征,具体分为十字型路口、三叉型路口等,城市路口往往可见人工绘制的斑马线;跨河大桥为跨越河流的道路部分,呈现为条形。从光谱特征上看,由人造草坪或者塑胶构成的球场区域在真彩色图像上呈现浅绿色,由塑胶构成的跑道一般呈现橙色;城市路口、跨河大桥光谱特征主要取决于铺面材料,水泥沙路反射率较高,在干爽状态下呈灰白色,沥青路反射率较低,呈暗色调。本文以运动场、城市路口、跨河大桥为例,探讨在线遥感影像的空间目标智能提取方法。
图1 典型样本的空间目标标记
运动场、城市路口、跨河大桥等属于微观地物。18级在线遥感影像的空间分辨率约为0.6 m,运动场、城市路口、跨河大桥清晰可见。因此,以在线遥感影像18级为数据源,尝试提取指定空间范围内的空间目标。
Mask R-CNN模型是经典的实例分割模型,从Faster R-CNN发展而来。Faster R-CNN将特征提取、区域建议、目标框定、目标分类整合到一个网络中,实现了图像中目标的识别及框定。由于Faster R-CNN仅能预测出目标在图像上的范围,He等[7]将Faster R-CNN中的RoI Pooling层替换成RoIAlign层,提升了目标框的预测精度。同时,在网络中添加了预测目标掩膜(Mask)分支,构建了Mask R-CNN模型。
Mask R-CNN模型所返回的目标数据有两部分,即目标的预测框和掩膜数据。预测框包含目标的分布范围、目标类别和概率。其中,分布范围由矩形的4个角点的图像坐标确定,即像素点在栅格图像上的序号;目标类别以编码方式表示,来源于训练时的目标类别编码;目标概率是指该目标框属于该目标类别的概率。掩膜数据为一个大小为28×28的二维数据,它将预测框划分为28行、28列具有相同大小的单元,每一个单元给出目标在该位置上存在的概率。通过设定掩膜的概率阈值,即可得到目标在预测框中的分布区域。
Mask R-CNN是一种监督学习型神经网络,需要准备训练数据集和测试数据集。训练数据集和测试数据集的每一张图片均为18级在线遥感影像的某一个局部区域,且需事先勾绘出其上的所有运动场、城市路口和跨河大桥。将球场的外边界封闭成的规则区域作为运动场的勾绘区域;将人行斑马线封闭形成区域作为城市路口的勾绘区域;跨河大桥则勾绘出横跨河流的桥梁部分,见图1,红色方框为目标标绘轮廓。
为提高模型的鲁棒性,采集不同光照条件、不同拍摄角度和不同区域的遥感影像作为训练样本。为提高模型训练精度,应正确标绘每一个样本包含的所有空间目标。以全国为范围,随机采集一定数量的样本,构建训练数据集和测试数据集。其中,训练数据集共1000个样本,包含1258个目标;测试数据集共200个样本,包含266个目标,见表1。
表1 样本数据集各目标数量及测试精度
将数据集代入模型中学习。采用随机梯度下降法(SGD)进行学习,学习率为0.001,权重衰减设置为0.0005;训练共计800轮,损失值达到最低并趋于稳定。训练完成后,利用测试数据集进行测试,并设定目标类别概率阈值和掩膜概率阈值提取图像上的空间目标及掩膜。实验发现,类别概率阈值越低,召回率越高,但精确率越低,这说明较低的类别概率阈值将导致在没有目标的区域预测出大量无效的目标。为降低模型的错误率,需要较高的类别概率阈值,但又会出现部分目标无法预测。通过反复实验,将运动场、城市路口和跨河大桥的类别概率阈值分别设为0.98、0.97和0.97,测试数据集总体召回率为84.5%,精确率为96.4%;当掩膜概率阈值设定为0.5时,预测的掩膜区域与目标分布区域拟合效果最佳,掩膜精度为83.5%(表1)。
以在线遥感影像为数据源提取空间目标,需要以瓦片为基本单元,利用前述模型进行目标检测与提取。基于瓦片重叠法的在线遥感影像空间目标提取方法,是将若干瓦片组合成一个检测单元,通过相互重叠的检测单元来实现在指定空间范围内的空间目标提取。
在线遥感影像以瓦片金字塔进行组织,将全球范围的遥感影像,按照固定的若干个比例尺(瓦片级别)和指定图片尺寸切成若干行及列的正方形图片,以指定的格式保存为图像文件,按一定的命名规则和组织方式存储到目录系统或数据库系统中,形成金字塔模型的静态地图缓存。以google和天地图在线遥感影像为例,它们以Web墨卡托投影组织影像金字塔数据。每一个瓦片的宽度和高度均为256个像素。
在在线遥感影像上提取空间目标,需要先指定提取的空间范围,依据空间范围获取瓦片序列。设地图上某一点的经纬度为(gx,gy),求取在层级为L时该点的像素坐标:
式中,Px、Py为该点在层级L上的像素坐标。其中:
根据像素坐标,求取该点所处的瓦片在给定层级L的瓦片行列位置:
式中,Tx、Ty为瓦片在层级L下的行列位置,int为取整函数。
设待提取空间目标的经纬度范围的左上角和右上角分别为(gx1,gy1)、(gx2,gy2),利用式(1)~(3)可求得待提取的瓦片序列:
式中,Ts为瓦片序列,txy为序列中的每一个瓦片,(Tx1,Ty1)、(Tx2,Ty2)分别表示待提取的空间范围左上角和右下角的瓦片行列位置。
3.2.1 检测单元的定义
在18级高分遥感影像上,瓦片的一个像元的分辨率约为0.6 m,单个瓦片在水平和垂直方向上代表实地距离约154 m。这种空间尺度,对于空间尺寸稍大的空间目标,一个瓦片难以完整地表示。本文以单个瓦片的宽度和高度的2倍作为一个检测单元,其宽度和高度均为512个像素。
3.2.2 检测单元上空间目标的矢量化与空间坐标的求取
首先,将检测单元的局部遥感影像代入前述模型,提取其空间目标预测框及掩膜;然后,利用空间目标的预测框,将空间目标的掩膜重采样至原图像分辨率,并以0.5为阈值,对空间目标掩膜逐像素处理。当掩膜值≥0.5赋值为1,否则赋值为0;在此基础上,将掩膜二值图值为1的像素块矢量化得到空间目标的外边界。
空间目标的掩膜按双线性插值方式进行重采样。设待插值位置坐标为(x,y),(x0,y0)、(x1,y0)、(x0,y1)、(x1,y1)分别为待插值位置左上、右上、左下和右下最邻近掩膜像元的坐标,其概率值分别为z00、z10、z01和z11。首先,在x方向进行内插,得到z0和z1:
然后,在y方向插值得到待插值位置的掩膜概率z:
设检测单元的左上角空间坐标为(L,T),空间分辨率为(Cx,Cy),将空间目标的矢量转换为空间坐标:
式中,(x,y)和(X,Y)为分别为空间目标的像素坐标和空间坐标。
3.3.1 无缝不重叠瓦片拼接法及其问题
无缝不重叠瓦片拼接法是在线遥感影像上提取空间目标的最简单直接的方式。从瓦片序列的左上角第一个瓦片开始,步长为2,按从左向右、从上到下的顺序依次遍历每一个瓦片,与右侧和下侧的3个相邻瓦片合并为一个检测单元,构成512×512的局部遥感影像,利用模型提取其上的空间目标。当所有检测单元的空间目标提取完成后,汇总得到最终的空间目标序列。
由于瓦片的划分是固定的和静态的,不可避免出现空间目标跨越瓦片的情况,如图2所示(图中绿线划分的每一个方形格网为一个检测单元)。这些跨域瓦片的空间目标,在局部遥感影像上表现为目标“碎片”。虽然在训练数据集中,添加了部分区域的目标碎片作为训练样本,使模型具有空间目标“碎片”的提取能力。但如果在局部遥感影像范围的“碎片”过小,超出了模型的识别能力,将导致目标提取不完整。如图2(a)所示,图中最大的运动场跨越了4个相邻瓦片,由于左侧的运动场“碎片”比重过小,导致模型无法识别,该运动场最终只提取到右侧的两个“碎片”。在运动场左侧的城市路口,被划分为上下2个“碎片”,这两个“碎片”均超出了模型的提取能力,导致该路口未被识别。
图2 无缝不重叠瓦片拼接法与瓦片重叠法的空间目标提取效果对比
3.3.2 瓦片重叠法的算法描述
瓦片重叠法的核心是瓦片重叠,即检测单元之间存在一定的重叠率。通过相互覆盖的瓦片以提高跨越瓦片的目标提取率和空间完整度。设瓦片重叠率为o,则目标检测单元的移动步长为
设待提取区域有m列、n行在线瓦片,则待提取空间目标的检测单元数N为
瓦片重叠法遍历瓦片序列的示意图如图3所示。
图3 瓦片重叠法示意
使用瓦片重叠法提取空间目标时,重叠区域的空间目标存在重复提取的情况。需要通过融合得到最终的空间目标集。首先,分别提取每一个检测单元的目标集;然后,对于所有检测单元的每一个目标,搜索与之空间相互重叠并且类别编码相同的所有目标,这些目标被认为是同一个空间目标在不同检测单元重复提取的目标。利用空间融合算法将它们融合为一个空间目标。
图2(b)为重叠率50%时空间目标的提取效果。对比图2(a)发现,瓦片重叠法在一定程度上解决了在线地图上无缝瓦片法的空间目标“碎片”难以提取的问题,提高了空间目标的提取率和空间完整度。
3.3.3 不同重叠率的空间目标提取性能评价
以成都市区部分范围(面积为33.4 km2)为实验区域,设定不同的重叠率进行空间目标提取,统计不同瓦片重叠率提取的性能和精度。实验计算机的CPU为Inter(R)Core(TM)i7-7700HQ,显卡为NVIDA Geforce GTX 1070。为降低网络传输不稳定对性能评价的影响,研究区域内的所有瓦片事先下载到本地。同时,通过目视判断方法统计各重叠率对应的空间目标提取数、漏提数和误提数,并计算提取精度:
式中,p表示提取精度,Nt表示总提取数,Ne表示误提数,Na表示漏提数。
见表2,当重叠率为0时,采用无缝不重叠瓦片拼接法提取空间目标,其提取精度仅为58.45%,因此需要利用瓦片重叠法提高提取精度。随着瓦片重叠率越高,漏提数不断减少,提取精度不断提高。当重叠率≥50%时,提取精度在80%以上。这说明,较高的重叠率,增加了相同位置从不同的“片段”反复识别目标的机会,从而减少了漏提率。但反复识别同一位置,也增加了错误识别的比率,即误提数也相应增加。若仅考虑提取精度,其重叠率在75%左右达到最佳。
表2 不同重叠率的空间目标提取性能对比
从性能上分析,忽略瓦片下载时间,单个检测单元目标提取平均耗时约为0.13 s,这意味着每秒可处理7个左右的检测单元。对于同一空间范围,瓦片重叠率越高,待提取空间目标的检测单元越多,总耗时也随之增加。总耗时包括检测单元数据准备时间、目标提取时间和空间目标融合时间。当重叠率为0和50%时,单个检测单元仅需拼接相邻4个瓦片;其余重叠率的单个检测单元则需拼接相邻9个瓦片。因此,无论是网络传输还是瓦片拼接,当重叠率为0和50%时,其性能为最佳;随着重叠率的增加,被检测出来的总目标数越大,其融合所需时间越多。综合以上分析,若仅考虑提取时间性能,其重叠率为0和50%时达到最佳。
若要求提取精度在80%左右,并要求时间性能最优,则重叠率50%为最优参数,其流程为,将步长设定为1个瓦片。对于瓦片序列的每一个瓦片,将其与右侧、下侧及右下侧的相邻瓦片组合成一个512×512大小的局部遥感影像,代入模型中进行空间目标的提取。
以中国部分城市为例,利用18级天地图影像按瓦片重叠率50%提取市域某范围内的运动场、城市路口、跨河大桥,共计提取5595个空间目标。通过目视判断方法获取各空间目标的漏提数和误提数,并采用式(9)计算提取精度,实验结果见表3。由表3可知,本文方法的目标提取率约为80%,为地表机器智能感知奠定了基础。
表3 中国部分城市在线遥感影像空间目标提取结果
图4为实验城市某局部范围对应的空间目标提取效果。由图4可见,虽然存在1处误提取(A)和2处漏提取(B),但绝大部分空间目标均被正确地提取出来。
图4 在线遥感影像空间目标提取效果
为提高机器智能感知地表的能力,以在线遥感影像为研究对象,提出了一种基于瓦片重叠法的在线遥感影像的空间目标智能提取方法。本文不仅验证了瓦片重叠法能提高目标提取精度,还通过不同的重叠率对空间目标提取精度和性能进行了分析,发现了重叠率为50%时,在线遥感影像的目标提取性能最优,且具有较高的提取精度。其研究成果对于在线遥感影像空间目标提取的深入研究具有一定的指导意义。
本文不足之处在于仅以三类空间目标为例,进行了高分遥感影像上空间目标提取的研究。若要进一步提高机器智能感知地表领域的能力,还需要增加空间目标的类别,并利用样本数据集训练模型。