遥感影像目标的尺度特征卷积神经网络识别法

2019-10-30 01:01:54董志鹏李德仁王艳丽张致齐

测绘学报 2019年10期

董志鹏，王密，2，李德仁，2，王艳丽，张致齐

1. 武汉大学测绘遥感信息工程国家重点实验室，湖北武汉 430079； 2. 地球空间信息协同创新中心，湖北武汉 430079

随着地对地观测技术的发展，高分辨率遥感影像的数据获取量越来越大，且已被广泛用于城市规划、灾害监测、农业管理和军事侦察等方面[1-3]。在大数据条件下，如何自动化、智能化地实现高分辨率遥感影像目标检测与识别，对高分辨率遥感影像应用价值的发挥具有重要影响[4]。为此，国内外学者开展了大量的研究，其中许多研究方法主要使用人工设计的影像目标特征进行目标检测与识别，如梯度直方图(histogram of oriented gradient，HOG)[5]、局部二值模式(local binary patterns，LBP)[6]、尺度不变特征变换(scale-invariant feature transform，SIFT)[7]和Gabor[8]等特征，然后将这些特征以特征量的形式输入到传统的分类器，如支持向量机(support vector machine，SVM)[5,7]、AdaBoost[9]、决策树[10]等进行分类，在特定的目标识别任务中取得了较好的效果。但由于遥感卫星复杂多变的拍摄条件，传统的目标检测与识别算法难以适应不同情况下的遥感影像，算法的稳健性、普适性较差[11-12]。

近年来，卷积神经网络(convolutional neural networks，CNN)作为最热门的深度学习模型算法，其不需要人为设计目标特征，且会根据海量数据和标注自行进行有效特征提取和学习[13-14]。在训练数据充足的情况下，模型具有良好的泛化能力，能够在复杂多变的条件下依然保持良好的稳健性[15-16]。因此，卷积神经网络模型已被广泛应用于图像目标检测与识别领域。如文献[17]提出regional CNN(RCNN)算法，该算法将候选区域提取算法与CNN相结合，首先使用selective search算法提取图像的候选区域，然后通过CNN对候选区域进行特征提取，最后根据特征使用SVM进行区域分类，实现图像的目标检测与识别。文献[18]为了减少文献[17]中CNN对重叠候选区域的重复计算，提出spatial pyramid pooling net(SPPNet)算法。该算法只对CNN最后一层卷积层特定区域进行一次池化操作，输出候选区域的特征用于分类实现目标检测与识别，极大提高了模型的训练和测试速度。文献[19]提出Fast-RCNN算法，采用region of interest pooling(ROI pooling)层对CNN卷积层的特定区域进行池化，并引入多任务训练函数，使模型的训练和测试变得更加方便，且具有较高的目标检测与识别精度。文献[20]对Fast-RCNN算法进行进一步加速，提出Faster-RCNN算法，用region proposal network(RPN)网络代替selective search候选区域提取算法；RPN负责提取数量更少准确率更高的候选区域，并与Fast-RCNN提取特征的网络共享卷积层，进一步减少计算量，检测速度更快，且目标检测与识别精度优于RCNN、Fast-RCNN算法。但上述卷积神经网络算法均是针对自然图像设计的模型算法，相对于自然图像，高分辨率遥感影像存在背景更加复杂、目标区域范围更小和同类目标尺度变化更大等特点[21-22]。因此，上述卷积神经网络算法难以良好地学习与耦合高分辨率遥感影像目标特征信息，对遥感影像目标检测与识别精度不高。

针对上述问题，本文提出基于高分辨率遥感影像目标尺度特征的卷积神经网络检测与识别方法。首先通过统计遥感影像目标的尺度范围，获得卷积神经网络训练与测试过程中目标感兴趣区域合适的尺度大小。然后根据目标感兴趣区域合适的尺度，提出基于高分辨率遥感影像目标尺度特征的卷积神经网络检测与识别架构。最后通过定性对比试验和定量评价验证本文卷积神经网络架构的有效性。

1 本文方法概述

本文方法主要分为两个步骤：①统计高分辨率遥感影像目标的尺度范围，获得遥感影像目标感兴趣区域尺度大小；②根据目标感兴趣区域尺度，设计高分辨率遥感影像目标检测与识别卷积神经网络架构。

1.1 目标感兴趣区域尺度范围

高分辨率遥感卫星通常在近地轨道对地球表面进行成像，且成像过程中受光照、气象条件等影响，生成的遥感影像存在影像内容复杂、目标尺度范围较小，且不同时间段生成的遥感影像辐射差异较大等特点。在遥感卫星特殊的成像条件下，为了充分统计影像典型目标感兴趣区域的尺度范围，本文建立了一个包含飞机、储存罐和船只的遥感影像目标检测与识别数据集WHU-RSone。该数据集中包含2460幅高分辨率遥感影像，影像大小为600×600像素～1372×1024像素。2460幅遥感影像中包含22 191个目标，其中7732个飞机(plane)目标、10 572个储存罐(storage-tank)目标和3887个船只(ship)目标，具体信息如表1所示。

表1 WHU-RSone数据集目标类别与数目

Tab.1 The category and number of objects in WHU-RSone data set

目标类型目标个数飞机7732存储罐10572船只3887总计22191

WHU-RSone数据集中包含不同辐射亮度、不同尺度大小的目标影像数据，可以用于充分统计不同成像条件下遥感影像典型目标感兴趣区域的尺度范围，图1为WHU-RSone数据集中部分样例目标数据。在Faster-RCNN架构中RPN网络使用3种尺度(128、256和512)和3种比例(1∶2、1∶1和2∶1)生成9种目标感兴趣区域。9种目标感兴趣区域大小如图2左侧矩形框内所示，9种目标感兴趣区域能覆盖的区域范围如图3面积较大多边形区域所示。

图1 WHU-RSone目标样例数据Fig.1 Object sample data in WHU-RSone data set

图2 目标感兴趣区域提取网络Fig.2 Object region of interest extraction network

对WHU-RSone数据集中22 191个目标尺寸进行统计，统计信息如图4所示。在图4中，WHU-RSone数据集中仅有6.95%的目标尺寸处于中RPN网络生成的9种目标感兴趣区域覆盖的区域范围内，RPN网络生成的9种目标感兴趣区域难以有效耦合遥感影像典型目标的尺寸大小。由于高分辨率遥感影像中典型目标的尺度通常较小，需要对RPN网络生成的感兴趣区域尺度进行改进，设置4种尺度(16、32、64和128)与3种比例(1∶2、1∶1和2∶1)获得12种目标感兴趣区域。12种目标感兴趣区域大小如图2右侧矩形框内所示，12种目标感兴趣区域能覆盖的区域范围大小如图3面积较小多边形区域所示。在图4中，WHU-RSone数据集中有95.65%的目标尺寸处于改进后RPN网络生成的12种目标感兴趣区域覆盖的区域范围内，几乎所有的目标尺寸均处于改进后RPN网络生成的12种目标感兴趣区域覆盖的范围内。统计结果表明，设置的4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成的目标感兴趣区域能有效耦合遥感影像中典型目标的尺度范围。据此，在本文卷积神经网络架构设计中，RPN网络利用4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成卷积神经网络架构训练与测试过程中目标感兴趣区域大小。

图3 目标感兴趣区域覆盖范围Fig.3 Coverage area of object region of interest

图4 目标尺度分布范围Fig.4 Object scale distribution range

1.2 目标检测与识别卷积神经网络架构

借鉴Faster-RCNN架构设计，本文卷积神经网络架构包括RPN网络和目标识别网络。其中RPN网络用于生成影像中的目标感兴趣区域，目标识别网络用于对RPN网络中生成的目标感兴趣区域进行识别分类及目标区域坐标回归。卷积神经网络架构示意图如图5所示。

图5 本文卷积神经网路架构Fig.5 The proposed convolution neural network framework

1.2.1 RPN网络

本文中RPN网络用于提取目标感兴趣区域，生成的目标感兴趣区域用于架构的目标检测与识别的训练与测试。本文架构的RPN网络采用4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成12种锚点用于得到卷积神经网络架构的目标感兴趣区域，锚点示意图如图5矩形框内所示。RPN网络在最后一层特征图上根据锚点生成目标感兴趣区域，对目标感兴趣区域进行前景与背景的二分类及目标感兴趣区域坐标回归训练，使RPN网络中的权重学习到预测目标区域的能力。二分类与目标区域坐标回归训练的损失函数L(p,t)的计算如下所示

(1)

(2)

(3)

(4)

(5)

1.2.2 目标识别网络

目标识别网络使用卷积层(convolution layer)、激活层(relu layer)和池化层(pooling layer)获得影像特征图(feature map)。本文分别使用Zeiler and Fergus(ZF)模型[23]和visual geometry group(VGG)模型[24]两种经典网络模型获得卷积神经网络架构的特征图，通过两种不同的模型验证卷积神经网络架构的有效性。RPN网络将生成的目标区域信息传递给目标识别网络，目标识别网络结合目标区域信息和网络中最后一层特征图，获得目标区域在特征图上特征向量信息，将特征向量信息传递至ROI pooling层，获得指定大小的特征向量信息。特征向量被传递至全连接层(fully-connected layer，FC)用于目标识别分类和区域坐标回归训练和测试。目标识别分类和区域坐标回归训练的损失函数L(p,k*,t,t*)计算如下所示

(6)

(7)

(8)

1.2.3 架构训练与测试

本文卷积神经网络架构利用Caffe框架实现，采用端到端的训练方式对RPN网络和目标识别网络进行训练。将RPN网络损失和目标识别网络损失相加，利用随机梯度下降法进行反向传播。训练过程中，使用ImageNet上训练好的模型初始化本文网络模型参数。本文RPN网络的batch大小为256，目标识别网络的batch大小为2000，网络训练的动量为0.9，衰减因子为0.000 5，基础学习速率为0.001，学习速率变化比率为0.1，每迭代50 000次变化学习速率，最大训练迭代次数为75 000。

在卷积神经网络架构测试阶段，将一幅遥感影像输入卷积神经网络架构，利用RPN网络生成6000个目标区域，对目标区域进行非极大值抑制，非极大值抑制的intersection over union(IoU)阈值为0.7。然后选取置信度排名前300的目标区域传递至目标识别网络，目标识别网络对300个目标区域进行分类识别及区域坐标回归，输出目标类别和区域坐标。

2 试验结果与分析

大规模的学习样本是支撑深度学习发挥高性能的基础。为此，本文建立了一个包含2460幅遥感影像的目标检测与识别数据集WHU-RSone。数据集中包含22 191个目标，其中7732个飞机目标、10 572个存储罐目标和3887个船只目标，数据集具体信息如表1所示。

为了充分验证本文卷积神经网络架构的有效性，将本文卷积神经网络架构与Faster-RCNN架构进行定性与定量对比评价。在试验中使用ZF和VGG两种网络模型获得本文架构与Faster-RCNN架构的特征图，通过两种不同的模型充分对比验证两种架构的性能。在2460幅遥感影像中随机选出1476幅影像作为训练数据，492幅影像作为验证数据，492幅影像作为测试数据。通过训练和验证数据对本文架构与Faster-RCNN架构进行训练，利用测试数据对训练后的两种架构进行对比测试。

2.1 训练损失值(loss)对比

图6为两种架构基于ZF模型和VGG-16模型训练loss走势图。图6(a)中蓝色曲线和红色曲线分别为Faster-RCNN ZF和本文架构ZF模型训练loss曲线。相对于Faster-RCNN ZF模型loss曲线，本文架构ZF模型的loss更易趋于收敛，且收敛后的loss值小于Faster-RCNN ZF模型。图6(b)中的蓝色曲线和红色曲线分别为Faster-RCNN VGG-16和本文架构VGG-16模型训练loss曲线。同样，相对于Faster-RCNN VGG-16模型loss曲线，本文架构VGG-16模型的loss更易趋于收敛，且收敛后的loss值小于Faster-RCNN VGG-16模型。

图6 Faster-RCNN架构与本文架构训练loss对比图Fig.6 Comparison of Faster-RCNN and the proposed CNN framework training loss

Faster-RCNN架构通过设置3种尺度(128、256和512)和3种比例(1∶2、1∶1和2∶1)生成9种目标感兴趣区域对架构进行训练。本文架构通过设置4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成12种目标感兴趣区域对架构进行训练。两种架构在其他结构相似的情况下，试验结果表明本文架构设置的4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成12种目标感兴趣区域更有利于高分辨率遥感影像目标检测与识别训练，可以获得更好的模型训练结果。

2.2 目标检测与识别定量评价

本文使用492幅遥感影像对训练后的Faster-RCNN架构和本文架构进行对比评价。通过mAP(mean average precision)[25]对两种架构的目标检测与识别精度进行定量评价。mAP值越大说明网络架构的目标检测与识别精度越高，反之亦然。在计算mAP时，当检测结果的坐标与目标真值坐标的IoU大于等于0.5时，认为检测结果正确，反之为错误检测结果。mAP的计算如式(9)所示

(9)

式中，n为目标类别数；i为类别标签；APi为标签i类别的平均精度，APi的大小为标签i类别的P-R曲线下包含的面积，如图7所示。

图7 P-R曲线Fig.7 P-R curve diagram

图8为两种架构基于ZF模型和VGG-16模型的mAP走势图，图8(a)中实线和虚线分别为本文架构ZF模型和Faster-RCNN ZF模型的mAP曲线，图8(b)中实线和虚线分别为本文架构VGG-16模型和Faster-RCNN VGG-16模型的mAP曲线。图8(a)、(b)中，本文架构的mAP曲线均高于Faster-RCNN架构的mAP曲线，表明本文架构的目标检测与识别精度优于Faster-RCNN架构。

图8 Faster-RCNN架构与本文架构测试mAP对比图Fig.8 The mAP comparison of Faster-RCNN and the proposed CNN framework test

表2中为图8中Faster-RCNN架构和本文架构的mAP曲线平稳时，各类目标的AP值，及所有目标类别的mAP值。表2中，本文架构ZF模型的飞机、存储罐和船只的AP值均高于Faster-RCNN ZF模型，说明本文架构ZF模型对各类目标的检测与识别精度均优于Faster-RCNN ZF模型；本文架构ZF模型和Faster-RCNN ZF模型的mAP值分别为0.772 7和0.691 0，本文架构ZF模型的mAP值比Faster-RCNN ZF模型提高了8.17%。表2中本文架构VGG-16模型的飞机、存储罐和船只的AP值均高于Faster-RCNN VGG-16模型，表明本文架构VGG-16模型对各类目标的检测与识别精度均优于Faster-RCNN VGG-16模型；本文架构VGG-16模型和Faster-RCNN VGG-16模型的mAP值分别为0.779 0和0.695 9，本文架构VGG-16模型的mAP值比Faster-RCNN VGG-16模型提高了8.31%。试验结果表明本文架构的mAP值比Faster-RCNN架构有了较大的提升，本文架构的目标检测与识别精度优于Faster-RCNN架构。

2.3 目标检测与识别目视判别

表2中Faster-RCNN架构与本文架构基于VGG-16模型的mAP值分别高于两种架构基于ZF模型的mAP值，则对mAP值更高的Faster-RCNN VGG-16模型与本文架构VGG-16模型的检测与识别结果进行目视对比评价。两种架构目标检测与识别的置信度阈值设为0.8，图9(a1)、(b1)、(c1)、(d1)和(e1)为Faster-RCNN VGG-16模型的测试样例结果，图9(a2)、(b2)、(c2)、(d2)和(e2)为本文架构VGG-16模型的测试样例结果。

表2 目标检测与识别定量评价结果

Tab.2 Quantitative evaluation results of object detection and recognition

模型飞机存储罐船只mAPFaster-RCNN ZF0.92800.54780.59740.6910Faster-RCNN VGG-160.93190.54070.61500.6959本文架构ZF0.93790.73520.64490.7727本文架构VGG-160.93800.74000.65890.7790

在图9(a1)、(a2)中黄色箭头所指的区域，Faster-RCNN VGG-16模型难以检测与识别出尺度较小的飞机目标，而本文架构VGG-16模型可以准确检测与识别出尺度较小的飞机目标。

在图9(b1)、(b2)中黄色箭头所指的区域，Faster-RCNN VGG-16模型难以检测与识别出尺度较小的飞机目标，而本文架构VGG-16模型可以准确检测与识别出尺度较小的飞机目标。

在图9(c1)、(c2)中黄色箭头所指的区域，Faster-RCNN VGG-16模型难以检测与识别出尺度较小的存储罐目标，而本文架构VGG-16模型可以准确检测与识别出尺度较小的存储罐目标。

在图9(d1)、(d2)中黄色箭头所指的区域，Faster-RCNN VGG-16模型难以检测与识别出尺度较小的存储罐目标，而本文架构VGG-16模型可以准确检测与识别出尺度较小的存储罐目标。

图9 测试样例检测与识别结果Fig.9 Test sample detection and recognition results

在图9(e1)、(e2)中黄色箭头所指的区域，Faster-RCNN VGG-16模型将长条形状的码头区域识别为船只，而本文架构VGG-16模型可正确识别长条形状的码头区域。

试验结果表明，对于遥感影像中尺度较小的目标，本文架构VGG-16模型的检测与识别结果优于Faster-RCNN VGG-16模型，本文架构VGG-16模型可获得良好的影像检测与识别结果。

为了进一步验证本文框架的适用性与稳健性，将本文框架VGG16模型用于6幅高分二号全色影像目标检测与识别。目标检测与识别的置信度阈值设为0.8，试验结果如图10所示。

通过目视判读试验结果，本文框架VGG-16模型可有效检测与识别出影像中的飞机、存储罐和船只等典型地物。试验结果表明本文卷积神经网络架构可有效应用于高分二号影像的目标检测与识别，本文卷积神经网路架构具有良好的普适性与稳健性。

3 结论

针对传统影像目标检测与识别算法中人工设计特征稳健性、普适性差的问题，本文提出基于高分辨率遥感影像目标尺度特征的卷积神经网络检测与识别。由于高分辨率遥感影像存在背景复杂、目标区域范围较小和同类目标尺度变化较大的特点，对此本文通过统计遥感影像目标的尺度范围，获得卷积神经网络训练与检测过程中目标感兴趣区域合适的尺度大小。试验统计分析得出设置4种尺度(16、32、64和128)和3种比例(1∶2、1∶1和2∶1)生成的12种目标感兴趣区域能有效耦合遥感影像中飞机、存储罐和船只等典型目标的尺度范围。根据合适的目标感兴趣区域尺度，提出基于高分辨率遥感影像目标尺度特征的卷积神经网络检测与识别架构。通过WHU-RSone数据集测试验证，结果表明本文架构ZF模型和本文架构VGG-16模型的mAP值分别比Faster-RCNN ZF模型和Faster-RCNN VGG-16模型提高了8.17%和8.31%，本文架构可以更好地检测出影像中尺度较小的目标，获得良好的目标检测与识别效果。下一步将在遥感影像目标检测与识别的基础上，对目标方向预测进行研究。