一种基于改进Mask R-CNN 模型的遥感图像目标识别方法

2021-03-17 07:15余慧明周志祥崔志斌

网络安全与数据管理 2021年3期

余慧明，周志祥，彭杨，崔志斌

(武汉兴图新科电子股份有限公司平台产品部，湖北武汉430073)

0 引言

随着人工智能的兴起，深度学习[1]算法各个领域的优势被体现出来。对视频、图像中的多目标、细粒度的目标识别技术，可以方便人们在复杂的情景中快速定位到所需要的检测目标。随着场景的复杂度加深，基于基础模型的各种改进版本层出不穷。

在过去近10 年中，目标识别技术又有了飞速的发展，从最开始的机器学习算法，再到目前主流的深度学习目标识别算法，如 RCNN[2]、SSP-Net[3]、Fast R-CNN[4]、Faster R-CNN[5]，目标识别技术已经在各个领域都有了很好的应用。但是，由于数据集的制约，针对遥感图像的军事目标识别却是一个例外。另外，军事码头物体数量众多，需要检测的目标与其他物体交错相间，大大降低了模型的准确性。对于一些密集型的目标检测，PAN X[6]等人提出了一个由特征选择模块(Feature Selection Module，FSM)和动态优化头(Dynamic Refinement Head，DRH)组成的动态优化网络。 FSM 使神经元能够根据目标物体的形状和方向调整接受野，而DRH 使模型能够以一种对象感知的方式动态地改进预测。何代毅[7]等人就提出了一种基于改进 Mask-RCNN[8]的建筑物自动提取方法，在网络的设计中添加了路径聚合网络和特征增强功能，通过监督和迁移学习的方式在Inria 航空影像标签数据集中进行多线程迭代训练与模型优化学习，实现了建筑物的自动精确分割和提取。对于数据集缺乏等问题，林通[9]等人通过迁移姿态生成对抗网络生成姿态不同的行人图片，对数据集进行了扩充。

针对遥感图像的军事目标多目标细粒度的识别，在主流的Mask R-CNN 模型表现不佳的情况下，本文在Mask R-CNN 模型的基础上进行改进，经过改进后的模型更加高效地实现了对多目标的自动精确分割和提取，也提高了对遥感图像中军事目标的细粒度识别的准确率。

1 算法原理与网络改进

1.1 Mask R-CNN 模型

Mask R-CNN 是目标检测近年来最成功的算法之一，它是由何凯明于2017 年提出，在其前一代版本Faster R-CNN 的基础上进行了改进，将原有的感兴趣区域(Region Of Interest，ROI)Pooling 改进为更加精确的 ROI Align，此外，还在 Faster R-CNN 网络的基础上新增了一个 Mask[10]分支。其算法的结构流程图如图1 所示。

从图 1 中可以看到，Mask R-CNN 网络在Faster R-CNN 的基础上，运用特征学习效果较好的组合ResNet[11]50/101+FPN，极大程度上提高了模型对特征的学习能力，ROI Align 通过双线性插值的办法解决了ROI pooling 像素点的偏差较大的问题，增强了特征框检测的精确度。另外，对于每一个类别都有一个独立的Mask 分支与之对应。经验表明，通过为每个类别对应一个Mask 可以有效避免类间竞争(其他目标类别不贡献Loss 值)，这可以提高实例分割的效果[12]。整体而言，Mask R-CNN 相较于Faster R-CNN 各方面性能指标有了很大程度的提升。

Mask R-CNN 算法采用多任务损失函数，通过不断地学习减小损失函数的值，最终达到全局最优解。

1.2 Mask R-CNN 网络的改进

传统的Mask R-CNN 网络功能强大，但是针对遥感军事图像存在大量图片尺寸不一，清晰度不足，细粒度目标检测效果欠佳；单向的FPN 网络特征图中的高层特征与低层特征之间的联系不太紧密，不利于特征信息的有效结合；在Mask 网络中，对有效的信息没有特别的关注的问题。因此，本文在继承Mask R-CNN 网络的优点的前提下，对其做出了如下的改进。

图 1 Mask R-CNN 结构流程图

1.2.1 输入数据集的改进

针对数据集，在预处理后进行了增强处理，针对每张图片运用Random-Batch images 的思想进行处理。对原本尺寸为 1 280×1 280 的每一个目标，根据图片中目标数量的多少，动态截取 640×640、320×320、160×160 的图片，然后对截取后的同等大小图片按照其尺寸随机拼接还原成 1 280×1 280 的图片。以截取框 640×640 为例，Random-Batch images思想如图 2 所示。

图2 Random-Batch images

如图 2 所示，采用 640×640 的截取框对原图像进行截取，然后随机地拼接还原为原始尺寸的大小，不仅仅对原始数据集进行扩充，而且也增加了模型的识别能力。

1.2.2 FPN 网络的改进

FPN 最早是在 Faster R-CNN 模型中被提出的，FPN 主要是用来解决目标检测中的多尺度问题，通过简单的网络连接的改变，在基本不增加原有模型计算量的情况下，大幅度地提升了小尺寸目标检测的性能。其结构如图 3 所示。

如图3 所示，输入的图片通过高层特征的上采样和底层特征进行自顶向下的连接，每一层都会进行预测。

而本文采用的是 FPN 的变体，FPN 的一种复杂双向融合模型——BiFPN，其可以更加方便地融合多尺度特征，针对多尺度的目标细粒度检测任务有很好的效果。 BiFPN 的结构如图 4 所示。

图 4 BiFPN 结构

1.2.3 Mask 网络的改进

掩码网络(Mask)是 Mask R-CNN 网络的关键所在，它通过添加一个分支与现有的用于边界框识别的分支并行来预测目标Mask，从而扩展了Faster R-CNN。然而它在进行预测时，并不能关注到需要的有用的信息，增加有用信息的权重，因此在Mask分支上添加通道注意力机制，对所需要识别的模糊目标给予更多的权重，提高了目标检测的准确性。其结构如图 5 所示。

图 3 FPN 结构

图5 带有通道注意力的Mask

Mask R-CNN 网络在提取军事码头的集装箱、小型船只等清晰、独立的目标物时效果较好。但是，军事码头各种大小型船只交错相间，遥感图像较模糊，一些模糊的小目标无法被准确地识别出来，因此，本文在原本的 Mask 分支基础上增加了通道注意力机制，针对模糊不易被察觉的目标，给予更多的注意力，也在一定程度上增加了模型整体的准确率。

2 算法的总流程

由于本文使用的是尺寸大小固定为1 280×1 280并且带有标记的数据集，因此省去了数据标注和数据裁剪等步骤。具体步骤为：(1)获取数据集；(2)运用Random-Batch images 对数据集进行了增强处理，对原始数据集进行扩充和增强处理；(3)在原始的Mask R-CNN 模型上进行搭建自己的模型；(4)配置网络参数，如初始化学习率，定义Epoch 等；(5)载入预训练权重及标签数据开始训练，并保存训练得到的权重等数据；(6)载入训练得到的权重，读取测试集图片的掩模图片；(7)对掩模图片的各个特征进行二值化处理；(8)对输出的结果进行性能评估并对比其他模型。整体的算法流程如图6 所示。

3 实验与算法评价

3.1 实验过程

本实验使用开源的PyTorch 学习框架，使用 Python语言编程实现算法网络，硬件环境为配有NVIDIA GeForce GTX TITAN 2080 显卡 (32 GB)，64 位 Ubuntu16.04 操作系统。

图6 算法的总体流程

本文采用迁移学习方法，运用网上公开的COCO2014 数据集训练得到预训练模型，作为本文遥感军事场景多目标细粒度识别算法模型的预训练模型。本文使用的数据集，其中的训练集包含3 000 张图片，经过 Random-Batch images 后扩充至5 000 张图片，测试集为 260 张，图片尺寸均为1 280×1 280。

3.2 评价指标

由于需要检测的目标数较多，因此使用平均准确率(mAP)、平均召回率(mRecall)、平均查准率(mPrecision)和 F1[13](式(1)～式(4))作为模型的评价指标。其中C 为所要检测目标的种类数。

其中 P(R)为准确率-召回率曲线(P-R 曲线)，TP(True Positive)表示算法和人工标注都识别出需要检测的目标物，FN(False Negative)表示算法没有识别出但是人工标注了的目标物，FP(False Positive)表示算法检测出而人工未标注的目标物。

为了验证本文所提出的改进模型较主流的目标识别网络有优势，使用支持向量机(Support Vector Machine，SVM)[14]、全卷积网络 (Fully Convolutional Network，FCN）[15]、Mask R-CNN 模型在相同的数据集上进行对比试验。由表1 可以看出，相较于其他主流目标识别网络，经过改进后的Mask R-CNN 在总体上效果更好。

表1 比赛官方数据集上主流算法比较 (%)

3.3 结果分析

本文采用的数据集为带有标注的遥感目标数据，如图7 所示，目标类型较多，目标物较为模糊，其他物体数量较多，对需要检测的目标造成了较大的干扰。另外，数据集较少，只有 3 000 张图片，因此本文采用了Random-Batch images 策略，如图 8所示，将图片裁剪后进行拼接，对数据进行了增广处理。

图7 带标注的图片

图8 Random-Batch images生成的图片

由表1 可以看出，相较于主流的目标识别模型，本文提出的模型在此数据集上的各个评价指标均有一定的提升，说明本文提出的模型具有一定的优越性。

4 结论

本文针对的是基于遥感图片的军事多目标细粒度识别，提出了一种基于主流的目标识别网络Mask R-CNN 的改进模型，通过Random-Batch images思想，对数据集进行增广处理；然后将Mask R-CNN模型中的FPN 改进为BiFPN，使模型能更加方便地融合多尺度的模型；Mask 网络层通道注意力机制的加入，提高了模型对小目标的关注度，提高了模型目标识别的准确率。整体而言，本文提出的方法在遥感图片的军事目标多目标细粒度识别取得了不错的效果，相较于其他主流模型有较为明显的提升。