石 颉,袁晨翔,丁 飞,孔维相
苏州科技大学 电子与信息工程学院,江苏 苏州 215009
合成孔径雷达(synthetic aperture radar,SAR)技术是常见的遥感技术之一,具有全天候、全天时探测以及相干成像等特点,SAR成像技术弥补了光学成像技术在夜间以及恶劣天气条件下无法对地表建筑进行测绘的缺陷。与光学图像相比,建筑物在SAR图像中具有高亮度、同背景易分离、呈现规律的几何形状等特点,如图1所示,这也是SAR图像信息提取的优势所在。利用SAR图像对地表建筑物进行检测能够为城市管理部门实时监测城市建筑变化,合理规划城市布局提供科学的依据[1]。此外,当发生自然灾害,城市建筑受到大面积毁坏时,依靠人工调查取证无法及时评估灾害程度,基于SAR图像的建筑物检测方法能够为灾情部门及时掌握城市建筑的毁坏程度提供技术支持。不仅如此,SAR图像建筑物检测方法在地表建筑识别、地理数据库建设以及军事侦察方面也存在着巨大的研究潜力[2]。
图1 SAR图像和光学影像建筑区域对比Fig.1 SAR image and optical image building area comparison
早期在SAR图像中进行检测时需要消除噪声对算法的影响,故形成了一类基于先验假设的建模方法[3]。随着雷达技术的不断发展,高分SAR图像中不仅存在着相干斑,而且表现出大量的纹理特征。研究者通过提取图像纹理特征分析,结合机器学习分类方法可以实现对SAR图像建筑物的检测,但这类方法过于依赖人工设计的特征提取,鲁棒性及泛化能力较差[4]。近几年,深度学习因其强大的特征学习能力,在计算机视觉领域得到广泛的应用[5]。基于深度学习的目标检测算法可以通过卷积层的相互结合[6],在背景模糊、地理环境复杂的条件下自动提取、学习SAR图像中的建筑物特征[7],适用于当前遥感图像复杂多变的场景,它克服了传统SAR图像建筑物检测算法中检测精度低、鲁棒性差、检测时间长等缺点,但对数据集的质量和数量要求较高[8]。
本文分别从传统方法和深度学习两大方面对SAR图像建筑物检测方法进行了梳理和总结,对现有方法的优点和不足进行了讨论,最后对该课题的研究趋势做出展望。
结合成像雷达的发展历程,基于传统方法的建筑物检测主要可以分为以下两类:一是建模方法,二是基于纹理特征和机器学习的方法。基于建模方法的建筑物检测主要是通过对SAR图像建立一定的统计模型,并结合相应的概率准则构建目标函数,对其优化得到建筑物检测结果,方法流程如图2(a)所示。基于纹理特征和机器学习的方法,首先提取SAR图像建筑物纹理特征,再用机器学习方法进行分类检测。基于纹理特征和机器学习的方法主要流程如图2(b)所示。
图2 传统方法流程图Fig.2 Traditional method flow chart
由于建筑目标与背景之间存在着灰度差异,有研究者提出采用阈值取优的方法对SAR图像进行处理。赵凌君[9]采用CFAR[10](constant false-alarm rate)检测和方向相关分析得到标记图像,再利用最小强制技术和标记图像修改原始图像的梯度图,将修改后的梯度图做分水岭变换得到建筑物目标的边界轮廓。苏娟等人[11]采用视觉注意模型对建筑ROI(region of interest)区域进行分割,然后提取ROI区域的高亮线条以及阴影区域,最后通过D-S证据理论注意焦点、高亮线条和阴影区域进行特征融合,实现建筑物目标的检测。这一方法充分利用了建筑物目标与背景存在较大差异的特点,提高了建筑物目标检测的精度,克服了特征提取不准确对检测结果的影响,在降低虚警率方面存在明显的优势。吕雁[12]将Fisher分布和Gamma分布相结合提出了一种SAR图像分割方法,这种方法利用Fisher分布对具有强散射点的目标建模,Gamma分布对背景目标建模,再结合水平集分割SAR图像,相较于其他方法更加适合具有强散射点的SAR图像。上述利用选取最优阈值的方法实现简单、计算快,但是在面对多阈值分割检测时,受相干斑噪声的影响较大[13]。
在探索如何解决SAR图像自带的相干斑噪声这一问题时,研究者们发现马尔科夫随机场(Markov random field,MRF)[14]模型可以利用局部相关性减小相干斑噪声带来的影响[15]。刘静等人[16]引入自适应权重系数改善邻域系统对先验能量的影响,利用Fisher分布对边缘分布进行观测,再根据MRF对图像进行分类,最后利用面向对象的方法提取建筑物。千倩等人[17]提出了一种基于相干系数-马尔科夫随机场的SAR建筑物分割算法,该方法将InSAR的相干系数引入到传统MRF模型中,根据Hammersley-Clifford[18]定理将图像分割的mAP问题转换为最小似然和邻域能量之和的问题,最后通过迭代条件模型得到最优解。
此外,研究者们发现建筑物的散射特征区域与建筑物的几何模型存在对应关系。进一步研究发现,通过几何模型方法进行检测也可以降低SAR图像噪声的影响。王国军等人[19]将建筑物在SAR图像上的散射特征与三维参数相对应,建立定量关系模型,再引入平行四边形几何模型作为约束条件,迭代找出最优平行四边形,最后完成建筑物图像的提取。徐旭等人[20]利用Gabor特征以及模糊C均值方法对SAR图像进行分割,再结合最小外接矩形提取、最小二乘法等技术提取SAR图像中建筑物的L型结构中心线,利用所得的中心线获取建筑图像的三维信息。
此外,研究者们发现主动轮廓模型在抑制SAR图像噪声方面也有不错的效果。主动轮廓模型在SAR图像建筑物检测中也是常用的几种模型之一。主动轮廓模型一般分为三类:边缘模型[21]、区域模型[22]、两者混合模型[23]。Chan等人[24]提出了无边缘主动轮廓模型[25],这一模型虽然提高了轮廓演化的鲁棒性,但是容易陷入局部最小值。贺志国等人[26]提出了基于变分法和偏微分方程的短程活动轮廓模型,该方法引入了ROEWA算子,并在新模型的能量泛函中加入了气球力项,使得模型具有较好的检测效果。
上述研究中,利用阈值分割的方法在高质量图像中能够取得较好的检测结果,但是在图像噪声较大时检测结果较差。基于MRF模型的检测方法多是通过引入邻域节点来提高MRF模型对复杂图像先验知识的描述能力,这在一定程度上降低了图像噪声的影响,但是并未考虑局部区域能量的最小化问题,导致图像分割结果常出现边缘模糊,检测结果也因此受到影响。而基于几何模型以及主动轮廓模型的方法虽然也能降低图像噪声,但是这种方法无法准确检测复杂背景下特征不明显的建筑,适用范围有限。虽然在一定程度上MRF模型、几何模型以及主动轮廓模型算法有效地抑制了相干斑噪声带来的影响,但是在背景复杂、建筑风格差异性大的情况下,存在检测速度慢、检测精度低的问题。
总的来说,研究者从建模这一方向对SAR图像建筑物检测领域进行研究,降低了相干斑噪声对图像处理的影响,但是在检测复杂背景下的密集建筑物时,检测效率大大降低。
纹理特征描述了SAR图像中建筑物的表面特性,利用灰度共生矩阵去进行纹理分析是最为经典的特征分析方法之一。韩晶等人[27]利用灰度共生矩阵提取SAR图像纹理特征,利用对数比值算子构造差异影响,再利用期望最大(EM)算法对高斯混合模型进行参数估计,最后利用贝叶斯最小错误率对变化信息进行提取。徐佳等人[28]提出了一种利用灰度和纹理特征的SAR图像建筑区提取方法,该方法通过灰度共生矩阵计算SAR图像纹理特征,根据巴氏距离进行特征选择,通过主成分分析去除纹理特征间的相关性,再利用K-means算法对图像进行分类,最后对分类后的图像提取建筑物。李婷等人[29]将半监督鉴别分析算法应用在SAR图像的建筑物检测中,该方法利用灰度共生矩阵计算SAR图像中的纹理特征,结合半监督鉴别分析算法进行特征提取,再将新特征作为大津法(Otsu)的输入提取建筑物,最后对分类结果进行处理。Li等人[30]提出了利用类别共生矩阵(LCM)提取图像特征的方法,并通过实验证明其有效性。李强等人[31]提出了一种基于纹理特征主成分变换的相关性变化检测方法,该方法首先提取图像的多个纹理特征参量,其次采用主成分变换获取多个纹理特征参量的第一主成分分量,然后计算第一主成分分量的相关性,最后根据实地调查样本统计分类阈值对图像中不同程度震害建筑物进行检测。
以上研究方法的侧重点多是对建筑的纹理特征提取方法进行优化,而对机器学习分类器的优化研究较少。吴天宝等人[32]利用SVM-SRC级联决策融合实现SAR图像的分类,该方法综合了SVM及SRC的优势,提高了检测性能。张肖敏等人[33]提出了基于改进PSO-SVM的SAR图像分类识别方法,该方法通过调节PSO的异步学习因子,加强粒子的学习能力,避免粒子陷入局部最优,最终提高SAR图像分类检测的准确率。田淞等人[34]提出了一种基于原始特征空间的KM-SVM SAR图像无监督变化检测。首先,在不需要任何先验信息的条件下,利用K-means聚类方法获取差异图像的分类阈值。其次,利用阈值引入偏移量自动选取伪训练集和无标签集,并用伪训练集定义SVM的初始决策超平面[35]。最后,用基于统计特征的半监督学习算法和支持向量机相结合对图像进行变化类与非变化类的分类。
基于纹理特征和机器学习的检测模型的优势在于利用了更多的图像信息,解决了建模方法在复杂背景下密集建筑物检测效率低的问题,能够保持较好的泛化性和鲁棒性。但是这类方法同样也存在一些问题,如特征提取步骤繁多、分类过程中容易丢失关键信息、缺乏实时性等。并且随着建筑物纹理特征的差异性越来越大,单种特征提取的方法所获取的纹理信息不够全面,无法解决复杂环境下的密集建筑物的检测问题。利用机器学习模型在一定程度上提高了建筑物检测的精度,但由于这些方法的特征提取大都与分类器的设计有关,这就使得模型在特征的提取上缺乏深度[36]。
深度学习是机器学习的进一步发展,因其强大的特征表达能力受到学者们的青睐。近年来,深度学习目标检测算法发展迅速,逐渐替代了SAR图像建筑物检测的传统方法,在SAR图像建筑物检测领域受到了越来越多的关注。依据检测阶段的不同,深度学习的目标检测算法可以分为两种,一种是基于候选区域的目标检测算法,另一种是基于回归的目标检测算法。基于深度学习的目标检测算法流程主要是利用神经网络对SAR图像中的建筑目标进行特征提取进行分类训练,得到检测模型,最后通过检测模型完成建筑目标的检测。
常见的基于候选区域的代表算法有SPP-Net、Mask RCNN、Fast RCNN、Faster RCNN等。基于候选区域的方法主要是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类[37]。
2.1.1RCNN系列算法介绍
2014年,Girshick等人[38]提出了RCNN算法,相较于传统的目标检测算法,RCNN取得了跨越性的进展,但是RCNN也存在模型训练繁琐,检测速度慢等一系列问题。2015年,Girshick[39]采纳SPP-Net[40]算法的思想改进了RCNN,提出了Fast R-CNN算法,这种算法将SPP-Net算法中的SPP层简化成ROI Pooling层,并且加入了多任务损失函数的思想。虽然Fast RCNN算法简化了训练过程,提高了检测速度,但是选择性搜索(selective search)算法在找出所有的候选框时十分耗时。因此,2015年,Girshick等人[41]又提出了Faster RCNN算法,这一算法在Fast RCNN的基础上加入了Region Proposal Network替代Selective Search,同时引入anchor box应对目标形状的变化,实现了真正意义上的端到端测试训练,提高了检测效率。
2.1.2基于RCNN系列算法的建筑检测
为了解决传统方法在复杂场景中检测效率低的问题,王利忠等人[42]提出了一种基于Faster RCNN的SAR建筑物检测方法,利用CNN提取特征,利用RPN网络提取可能的建筑物,最后通过检测网络对建筑物进行判别和分类。李东子等人[43]利用Faster RCNN模型设计了一种针对遥感影像的建筑物检测方法,首先通过共享卷积网络获取原始影像的深层特征图,再结合区域建议网络生成初步检测结果,最后根据Fast RCNN检测网络对结果进行进一步判定。
针对建筑物边缘的纹理信息在使用原始网络进行卷积的过程中存在丢失的问题,Bai等人[44]提出了一种基于改进的Faster RCNN遥感图像建筑物检测算法,该算法将DRNet和RoI Align结合,解决了区域不匹配的问题。左俊皓等人[45]提出将Faster R-CNN框架下的VGG16的模型与Level-Set算法相结合的方法,很好地解决了被遮挡建筑物难以检测的问题。邓瑞等人[46]利用改进后的Faster R-CNN作为训练模型对城市地标建筑物数据进行学习,在数据集充足的情况下可以取得较好的识别效果。冯杰婷等人[47]提出了一种基于Cascade RCNN(多阶段级联卷积神经网络)的建筑物检测方法,将经典的Faster RCNN训练结果作为基准实验数据,充分考虑检测中正负样本选取,使用不同交并比导致的分类器和回归器的表现效果不同,以整体提升遥感图像建筑物目标检测的召回率和精度。
随着RCNN系列算法的发展,有学者已经不满足于在Faster RCNN算法上做改进优化,而是将目光转向更高水平的Mask RCNN架构。相较于Faster RCNN,Mask RCNN引入了RoI Align代替Faster RCNN中的RoI Pooling,并且引入了语义分割分支,实现了Mask和Class关系的解耦。付发等人[48]将Mask RCNN应用到遥感图像的建筑物检测中,通过与KNN、SVM等建筑物提取方法进行对比可以看出,使用Mask RCNN[49]算法的建筑物检测的查全率以及查准率均高于这两种方法。虽然Mask RCNN算法非常灵活,可以完成目标检测、目标分类、语义分割等多个任务,但是无法获取同一目标多角度、多方向的纹理特征。针对这一问题,瑚敏君等人[50]通过对其特征提取及掩膜分支结构的改进降低了路径中因采样造成的混叠效应的影响,并提高了掩膜预测的精度。将改进后的网络结构在建筑物数据集上进行模型训练,并与Mask RCNN网络的预测结果进行对比分析,发现其mAP值有一定的提升。Zhang等人[51]提出将ResNet50网络作为预训练模型,采用交叉训练的方法训练模型,再利用训练好的模型进行建筑提取,最后通过对遥感图像的边缘特征进行分割,通过分割的结果对上一步的建筑提取结果进行优化,解决了深层卷积神经网络在语义分割中的边缘提取和对象的完整性问题。何代毅等人[52]在Mask RCNN网络的设计中添加了路径聚合网络和特征增强功能,通过监督和迁移学习的方式对Inria航空影像标签数据集进行多线程迭代训练与模型优化学习,实现了建筑物的自动精确分割和检测。相较于Faster RCNN算法,Mask RCNN不但可以获取检测建筑物目标的定位框,而且能够获取建筑物轮廓的二值Mask,为以后进一步获取建筑物的轮廓边缘提供了可能,但是当小型建筑物存在叠掩问题时,检测结果不佳,需要对算法进一步地优化。
针对上述问题,李大军等人[53]提出了增强训练样本,利用ResNet+FPN结构提取目标特征的方法,提升了建筑物密集层叠区域小型建筑物的检测精度。赵若辰等人[54]对Mask RCNN模型中的特征提取网络进行了改进,设计了一种带有注意力机制的多尺度组卷积神经网络,有效解决了小目标有用特征较少且易被背景特征和噪声干扰的问题。
以上研究主要是对基于候选区域算法的特征提取网络以及检测网络进行修改,解决了检测过程中的信息丢失、多角度特征难提取、小型建筑物难检测等问题。虽然改进后的算法检测精度较高,但是由于算法机制的原因,实时性差,在工程上应用较少。
基于回归的目标检测算法一般主要分为YOLO[55]系列算法和SSD[56]算法。
2.2.1YOLO算法介绍
2015年,YOLO算法的提出,使得输入图像只需要一次网络计算就可以得到检测目标的边界框和分类概率。2017年,YOLOv2[57]的提出解决了YOLO算法中召回率低以及定位精度差等一系列问题,它在YOLO算法的基础上移除了全连接层,利用卷积层来预测检测框的位置偏量和分类信息。2018年,Redmon等人[58]受到残差网络中跳跃连接的启发,提出了YOLOv3算法,它在YOLOv2的基础上搭建了DarNet-53网络结构,并采用3种不同尺度的特征图来进行目标检测,同时将YOLOv2中的softmax方法替换为logistic回归,这样使得在预测类别时,每个候选框都能预测多个类别。相较于YOLOv2,YOLOv3在目标检测任务中性能表现最为突出,因此也饱受研究者们的青睐,将其应用到SAR图像建筑物检测中。
2.2.2 YOLO及SSD算法应用
李响等人[36]针对SAR建筑物检测提出了S-YOLOv3算法,通过K-means算法对SBD数据进行重新聚类,如图3所示,得到适合SAR建筑物数据的预设锚点框,在原YOLOv3算法的DarNet-53网络基础上增加轮廓信息比重,改进残差网络的结构,提高了SAR图像建筑物检测识别的精度和召回率。针对回归算法检测速度快,但是精确度低的问题,成喆等人[59]将RPN网络与SSD算法结合,并加入特征金字塔结构,利用多个卷积层融合低层信息和高层信息,在保持速度的同时,提高了精确度。
图3 预设锚点框对建筑物目标的作用范围Fig.3 Scope of action of preset anchor box on building target
针对小型建筑检测难的问题,有学者也利用回归的算法进行了相应的研究。董彪等人[60]对YOLOv3进行了以下改进,首先修改了特征图分辨率,其次调整了数据集先验框维度,该方法加强了对小型建筑物的检测精度和速度。谢逸群等人[61]在YOLOv3框架的基础上提出了一种locally-constrained(LOCO)框架来检测小型建筑物,这种检测方法使用约束回归模型提高了建筑物检测的鲁棒性。张青华等人[62]采用SSD网络架构的特征提取网络层级,使用更多尺度的特征提取层进行检测,同时使用Adam优化算法进行训练,提高对遥感影像小目标的识别精度。蔡燕等人[63]以改进的DCL算法处理遥感影像,实现了区块划分,再对各区块的显著性区域进行提取。同时利用深度学习SSD网络,针对密集小目标,进行了目标数量及间距占比研究,并得出定量关系,提高了小目标检测的精度。以上方法解决了YOLO和SSD算法检测小型建筑物困难的问题。
上述研究对基于回归算法的特征提取网络进行了一定的改进,特别是针对YOLO、SSD算法检测小型建筑能力弱的问题进行了相应的改进,提高了回归算法检测小型建筑物的能力。
基于模型方法的检测算法中,研究者需要抑制SAR图像自有的相干斑噪声去进行检测,在面临多建筑图像时检测效率较慢。
基于纹理特征和机器学习的方法在一定程度上改善了这一问题,该类方法利用灰度矩阵对图像特征进行分析,再利用机器学习分类器建立模型实现对图像的检测,但是这类方法的特征提取大都与分类器的设计有关,这就使得模型在特征的提取上缺乏深度,无法进一步提高检测精度。
基于深度学习目标检测算法主要是依赖于CNN强大的特征表达能力,可以提取建筑物目标更高层次的语义特征,在复杂背景下的检测性能优异。相较于传统方法,检测效果明显,但是神经网络结构中加入了大量的参数,并且在进行深度学习模型训练时需要大量数据,计算过程繁重。此外,数据集的质量会直接影响深度学习算法的检测性能。Mask RCNN算法是当前SAR图像检测应用较为广泛的二阶算法之一,该算法可实现SAR图像中的建筑物目标的语义分割,并且解决了Faster RCNN、YOLO、SSD等算法在检测过程中出现的检测框信息冗余问题,但是受检测速度的影响,Mask RCNN算法在工程应用中并不多见。目前,实际工程应用较多的是YOLO算法,由于算法机制的不同,YOLO算法检测速度较快。针对SAR图像中的小型建筑物检测精度低的问题,上述研究主要从数据增强、多尺度特征融合、锚框设计、上下文学习四个方面来提高小型建筑物的检测精度。表1对上述建筑物检测的主要方法进行了总结归纳。表2从四个方面对小型建筑物检测的优缺点进行了归纳总结。
表1 不同SAR图像建筑检测方法比较分析Table 1 Comparison and analysis of building detection methods in different SAR images
表2 小型建筑物检测方法比较分析Table 2 Comparative analysis of detection methods for small buildings
结合当前SAR图像建筑物检测方法的研究现状,在未来可以从以下几方面展开后续研究:
(1)如何获取高质量的SAR图像建筑数据集。目前,在SAR图像解译这一领域缺乏大规模、高质量的数据集。当前数据集里的许多小目标、模糊目标没有被标注出来,限制了现有算法的潜力[64]。生成式对抗网络作为一种生成模型,具有很强的数据扩充能力,研究基于生成式对抗网络的数据增强方法,能够提高数据集的完备性,使模型具有更好的泛化性[65]。
(2)如何解决小型建筑检测难的问题。在SAR图像中由于小型建筑所携带的特征少,所以在利用深度学习目标检测算法进行检测时难以检测[66]。现有的方法多是通过融合网络中的多尺度特征来提升小目标的特征表达能力,但是并未考虑到融合过程中语义间隔和噪声干扰的问题[67]。因此,如何消除语义间隔和噪声干扰问题也是未来研究的趋势。
(3)如何解决大型目标精细检测的问题。目标精细化检测是在目标识别的基础上,进一步对目标的组成、状态、分布等开展解译分析[68]。目前,SAR图像建筑物检测技术只针对建筑物这一单一目标进行检测,并未对图像中的大型建筑进一步解译。因此,利用深度学习目标检测算法对大型建筑物的进一步解译也是未来遥感影像领域研究的趋势。
随着SAR图像建筑目标检测算法的不断发展,深度学习算法将被更广泛地应用于SAR图像建筑物检测。本文将SAR图像建筑目标检测方法分为传统方法以及深度学习两个方向,对这两个方向使用的方法分别进行了梳理和总结,最后对该领域未来的研究方向进行了讨论,希望为之后的研究者提供有益参考。