潘 健,董 翔,杨玉永,娄世平,徐秀杰,王 宇
1(山东省地震局,济南 250014)
2(山东省国土测绘院,济南 250100)
近年来,我国“高分”系列和各类商用遥感卫星投入使用,无人机平台的快速普及,各类高分辨率航空航天遥感影像数据变得越来越容易获取.高分辨率航空图像为图像识别提供了足够的结构和纹理信息,同时也对现有的分割方法提出了新的挑战[1].近年来,深度学习、卷积神经网络技术作为机器学习的一个热门方向,被引入到遥感图像处理中,在遥感领域得到广泛关注.在高分辨率遥感图像分割研究中取得了显著效果[2,3],同时也在图像预处理、基于像素的分类、场景理解、目标检测4 个领域[4],推动了遥感技术应用方法的创新.
目标检测属于遥感图像处理的一个子类,但具有特殊的难点与技术复杂度,深度学习由于其特征提取潜力可以在遥感图像目标检测中发挥重要作用.遥感图像目标由于背景复杂度高、噪声大、干扰强等的原因,其目标检测难度,较客观物体、人体行为等自然图像更大.Chen 等[5]提出一种基于卷积神经网络的车辆检测算法,Zhang 等[6]、Tang 等[7]和YU 等[8]分别实现了基于CNN、RCNN、FCN、U-NET 等深度学习技术的油罐、舰船和飞机目标检测.
有学者Vakalopoulou 等[9–11]在深度学习识别建筑物轮廓信息领域开展应用研究,拓展了深度学习的应用领域,但以往研究往往局限于城市地区,数据源多选择正视高分辨遥感影像.黑盒深度学习和无人机倾斜摄影技术方兴未艾,两种技术的交叉应用尚处于起步探索阶段,本文以无人机倾斜摄影图像为数据源,深度学习技术为主要技术手段,对村镇砖(混)木房屋进行识别研究.
基于卷积神经网络CNN 技术的目标检测识别、图像分类,丰富了传统监督分类、非监督分类、面向对象等遥感图像的解译方法,提高了遥感图像后期分类处理准确率[12].Girshick 等于2014年提出了基于候选框的目标检测分割算法R-CNN[13],使用选择性搜索策略得到大量目标候选框,利用卷积网络获取所有区域特征,然后对所有区域逐一进行分类.这也造成了因候选区域重叠、冗余图像重复计算,而引发的算力浪费问题.He 等[14]将空间金字塔池化层引入R-CNN,从特征图中提取特征取代了从原图获取特征,解决了R-CNN 重复运算的缺点,提高了运算效率.Girshick 等人在此基础上提出了Fast R-CNN,每张图像提取特征图只通过一次运算,再一次提高了算法的效能.候选区域生成速度缓慢,依然是Fast R-CNN 算法的痛点.为解决此问题,Ren 等[15]又提出了Faster R-CNN,增加了区域建议网络,使得全局特征图中的目标可以在各个候选框共享,现了端到端的训练.在Faster R-CNN的基础上He 等[16]增加了一个进行语义分割的分支得到了Mask R-CNN,并且将原来的ROI Pooling 改为了ROI Align 策略,使得Mask R-CNN 可以保持Faster R-CNN快速的同时,可以完成包括目标分类、目标检测、语义分割、人体关键动作识别等多种任务,刷新了COCO数据集上的记录[16].
本文基于Faster R-CNN 模型,对村镇砖(混)木房屋进行识别提取的详细步骤如下:
(1)将砖(混)木房屋训练集图片,导入训练网络进行训练,利用特征提取网络提取砖(混)木房屋的特征图像,得到的特征图像由所有候选区域RPN[17]网络和Fast R-CNN 网络二者共享.较传统Fast R-CNN 中Selective Search[18]方法实现了候选框提取,提高了图像检测精度,减少了重复训练次数,节约了计算机硬件资源.
(2)候选区域RPN 网络中的Softmax 分类器,对特征图像进行二分类,确定所划分锚点(anchors)属于前景还是背景,同时利用锚点回归规则,得到候选框位置.
(3)Fast R-CNN 结合特征图和候选框信息,通过多重卷积层和池化层处理,对图像中候选区域所在部分进行特征提取和学习,识别前景所属类别,对候选区域进行识别,判断其是否为砖(混)木房屋目标,随即产出检测框所在精确位置.
Fast R-CNN 依据所制作图片集中训练图片的标注属性,类似机器学习中的训练样本的标签,经过迭代训练网络,网络中的参数趋近最优,增加目标识别精度.技术流程图,如图1所示.
因RPN 网络提取候选框的应用,使得Faster RCNN 克服了多任务模块串行模式,模型误差不断收敛,实现了从输入端到输出端的物体检测.在特征图传入全卷积网络RPN 后,使用3×3的滑窗生成一个n 维长度的特征向量,然后将此特征向量分别传入回归层与分类层.在分类层中,使用Softmax 分类器对anchors进行前景或背景的二分判断.在回归层中,通过调整锚点边框的中心坐标与长宽,拟合出候选框位置[19].另外,在训练过程中,RPN 网络需要使用损失函数分类层损失函数与回归层损失函数.
图1 Faster R-CNN 模型结构
RPN和Fast R-CNN 两个网络相互独立,单独网络进行训练很难得到最终的收敛结果,本文采用交替训练的思路对RPN和Fast R-CNN 两个网络进行训练.
首先采用ImageNet 提供的预训练模型对RPN 网络中的卷积层进行参数初始化,获得砖(混)木房屋图像通用特征,并生成候选区域框.其次,利用RPN 网络输出的特征候选框对Fast R-CNN 进行训练,得到卷积层实时参数,反作用于RPN 网络,RPN 训练结束后,仅更新RPN 中特有网络层参数.最后固定共享卷积层,并对Fast R-CNN的全连接层进行细微调整.通过以上操作,将RPN与Fast R-CNN 两个网络统一一致,相同的卷积层在两个网络中得到共享.
为保证样本集能充分涵盖不同建筑结构、建筑习俗的村镇房屋类型,最大限度增加深度学习模型泛化性,采用扩大研究区面积并随机选取的原则.沿山东境内郯庐断裂带两侧10~20 千米,划定54 行5×5 千米正方形样本格网,每行格网随机选取一个格网,并在其内部随机选取一个村镇.根据测区环境,使用飞马F200(原始影像分辨率5456×3632)或大疆精灵(原始影像分辨率5472×3648)无人机进行倾斜摄影航测.实际航测区域,如图2所示.
图2 倾斜摄影作业区
因航测现场存在平原、丘陵、山地多种地形,及无人机型号、电量等客观条件限制,原始航片地面采样间隔GSD 不一,但最大不超过3 cm.共获取54 个村镇驻地的航空遥感影像,原始影像集共计732 GB.
由于无人机倾斜摄影可以从目标正视、左视、后视、后视、俯视5 个方向进行拍摄,故从每个视角各随机选取1100 个样本,组成样本集,共计5500 个样本,如表1所示.
表1 样本数据集组成
本次实验使用的处理器CPU Intel i7-8700K,显卡GPU NVIDIA GTX1080Ti,固态硬盘512 GB,内存32 GB.在开源Caffe (Convolutional architecture for fast feature embedding)深度学习框架[20]上,采用Python 作为编程语言,实现本文砖(混)木房屋识别Faster RCNN 算法.
本文从多个视角对砖(混)木房屋目标进行检测,房屋训练集图片的大小统一为200×200,并且将检测出的房屋用红色框标出,为了验证该方法检测准确度,将检测框概率的阈值设置为0.81,同时避免部分和待检测目标关联度较小的区域参与计算,图像中低于0.81 阈值的目标不被框选.虽然RPN 网络筛选出的候选区域数量较少,但若全部候选区域都进行分类判定,容易引起过拟合现象.本实验中,检测框上部的蓝色区域即表示房屋的概率大小,被标注出的房屋目标概率总体高于0.88,如图3所示.
图3 砖(混)木房屋识别结果
通过实验结果可以看出,在拍摄不同角度、光照条件、复杂背景等条件下,绝大多数砖(混)木房屋已被标记识别,但存在少量的漏检、误标问题发生.小部分土木、石木结构房屋被标记,被树木、高大建筑遮挡的房屋不能得到很好的识别.
采用平均准确率Ap(Average precision)作为砖(混)木房屋检测的评价指标,相关计算公式如下:
其中,Pre—精确率,Rec—召回率,TP—被正确划分为正样本的数量,FP—被错误划分为正样本的数量,FN—被错误划分为负样本的数量.Ap平均精度,平均精度代表模型识别效果,其值越大效果越好,反之越差.
精确率-召回率曲线,平均精度是对精确率-召回率曲线进行积分,曲线的横轴召回率表示分类器对正样本的覆盖能力,纵轴精确率表示分类器预测正样本的精准度,结果如表2所示.
表2 精度评价结果
综上研究可知,本文采用的Faster R-CNN 在村镇砖石木房屋识别应用中取得了良好的效果,在复杂背景目标识别过程中体现了模型较强的鲁棒性.随着对测试集数据进行,人为降低目标大小、提高目标遮挡率等操作,模型识别精度随之降低,暴露了模型在弱小目标识别、强遮挡等方面的缺陷.同时,针对本文所用训练数据集、验证数据集采用Faste R-CNN 进行对比实验,提升了0.2%左右准确度.
本文虽取得了一定的研究成果,但在此研究方法的基础上,可进一步丰富训练样本、改进算法、优化模型参数.提高倾斜摄影图像建筑物目标分类能力,实现自动识别多类建筑结构,达到产出区域性地震灾害风险报告的中长期目标.
推动深度学习技术在地震行业应用,是提升防震减灾能力的有力抓手,更是新时代防震减灾工作的内在要求.震前和震后开展的各项现场工作,离不开房屋结构数据的支持,本研究可起到减少人力成本,提供精准辅助决策数据的关键作用.