舰船遥感图像数据集DSTD的构建研究

2022-08-02 01:44何维娟王林飞徐权峰

计算机技术与发展 2022年7期

何维娟，江涛，王林飞，徐权峰，王欣

(1.云南民族大学数学与计算机科学学院，云南昆明 650500; 2.云南大学信息学院，云南昆明 650091)

0 引言

近年来，研究人员在图像识别[1]开发中做了很多工作。随着遥感技术的快速发展，公开的目标检测数据集也变得更多，大大增加了遥感图像的数量和质量。遥感图像可以描述空中观测的一切物体，如飞机、油罐、车辆等。但是目前提出的目标检测图像数据集存在一些普遍的问题，大多都是自然场景下的数据集。并且这些数据集中单类目标场景通常很单一，目标数量也较少，对于特定场景和目标的数据集并不多见，但是这类数据集却是很有价值的。研究人员广泛地研究致力于航空图像中的目标检测[2-8]，利用计算机视觉的最新进展，并考虑到地球视觉应用的高要求，这些方法中的大多数[4,8]试图将针对自然场景开发的目标检测算法转移到航空图像领域。此外，目前的目标检测虽然取得了很大的成功，但是在舰船遥感图像[9]中却存在很多难题，从当前舰船遥感图像目标检测的研究来看，存在以下几个普遍的问题：一是舰船目标较小，导致舰船占像素点较少；二是舰船的种类多、大小不一，检测难度相对较高；三是舰船图像的成像受天气、岸边建筑和光照等因素的影响引起舰船物体视觉的改变。

对于舰船目标检测和舰船数据集的研究已有显著成果。例如，徐芳[10]提出了一种梯度方向特征方法；余东行等人[11]采用基于频率域相位谱的多尺度显著性检测方法抑制干扰因素；宋明珠等人[12]针对难以辨认的弱小舰船目标，设计了不同图像层的权重，借此合成了基于多类特征的显著性图；李健伟等基于深度学习的SAR图像舰船检测数据集及性能分析提出了SSDD数据集；Li等[13]提出了DIOR数据集等等。舰船检测的传统方法是基于自动识别系统和舰船特征[14]，Li等提出了一种改进的空间聚类算法来识别舰船的异常行为[15]，Zhang等使用AIS数据来识别碰撞舰船,虽然这些研究都获得了不错的效果，但是却普遍存在识别精度低和检测速度低等一系列问题，因此，传统的舰船检测难以达到理想的检测效果。近些年，基于深度学习的方法在各种图像识别中占据主导地位，基于深度学习的方法主要包括两种：一种是一阶段基于回归的方法，包括SSD[16]、YOLOV1[17]、YOLOV2[18]、YOLOV3[19]等；另一种是两阶段基于区域建议的方法，包括R-CNN[20]、Fast R-CNN[21]、Faster R-CNN[22](Faster Regions with CNN features)等。

为了更好地解决以上问题，该文构建一种舰船数据集，将其命名为DSTD。从开源数据集中采集了4 845张图像，其中包含不同方向、形状和比例的对象，共有87 076个舰船实例，每个实例都由一个bounding box标记。主要贡献(Contribution)如下：(1)构建舰船数据集，构建的DSTD数据集是一组规模较大的舰船遥感图像目标检测数据集；(2)以DSTD舰船数据集为基准，选择了单次目标检测的YOLOV3算法和两次目标检测R-FCN算法与YOLOV5算法对该数据集进行实验对比，最终在当前几种主流的目标检测方法中找到了最适合舰船检测的方法：即YOLOV5。

1 相关工作

遥感图像是以航空拍摄为基础，开始为航空遥感，随着遥感数据集的发展，数据类型越来越丰富, 数据量也越来越大，目前而言，遥感图像数据集已经有了很好的发展。

1.1 遥感图像数据集的发展

近些年，有许多人热衷于遥感图像数据集的研究，并公开发表了他们的数据集(部分数据集见表1)，这些数据集简要描述如下:

表1 遥感图像数据集

(1)TAS：TAS数据集是用于航空图像里的汽车检测。包含30张图像共1 319个汽车目标，图像的空间分辨率相对较低。

(2)SZTAKI-INRIA:SZTAKI-INRIA数据集包含9张图像，共665个建筑目标，该数据集用于对各种建筑检测方法进行基准测试。

(3)NWPU VHR-10：NWPU VHR-10数据集由800张图片构成，有10个对象类，其中包括舰船、油罐、飞机等等。

(4)VEDAI：VEDAI数据集由1 210张图像构成，其中含有的目标为车辆，分辨率0.12 m，RGB+N(近红外)，尺寸大小：1 024*1 024。

(5)UCAS-AOD：中国科学院大学的实验成果，UCAS-AOD数据集由910张图像构成，其中含有的目标为汽车和飞机，还有部分背景样本。

(6)DLR 3K Vehicle：DLR 3K Vehicle数据集由20张航拍图像，共14 235个实例构成，这些图片是用DLR 3K摄像系统拍摄的。

(7)HRSC2016：HRSC2016数据集由1 070张图像构成，用于舰船检测，该数据在位置、外观和形状等上都有很大的变化。(8)RSOD：武汉大学团队标注，RSOD数据集由976张图像构成，包含6 950个实例，有四个类别，分别为油箱、飞机、桥和操场。

(9)DOTA：DOTA数据集一共有15种土地利用类型，总样本数高达18万，包含2 806张图片，其中含有15个对象类别，共计188 282个实例目标。

(10)SSDD：SSDD是国内外公开的第一个专门用于SAR图像舰船目标检测的数据集，SSDD中长宽比的分布范围比较广，从0.4到3，该数据集用于舰船检测。

(11)DIOR：DIOR数据集由20个类别，23 463张图像包含190 288个实例构成，该数据集在类别数量、对象数量和图像数量都是最大的。

(12)ITCVD：ITCVD数据集是由飞机在高空约330米高度拍摄的，该数据集用于车辆检测。

1.2 参与评估的目标检测方法

(1)R-FCN：R-FCN与Faster R-CNN是一个派系的，但是与Faster R-CNN比较，R-FCN的速度快得多，并且将部分卷积特征图的计算实现了共享。R-FCN的关键思想：分类需要特征具有平移不变性，检测则要求对目标的平移做出准确响应；消耗的卷积都尽量移到前面共享的subnetwork上，因此，与Faster RCNN中用的ResNet策略有所不同。

(2)YOLOV3：YOLOV3引入了FPN结构。从YOLOV1和YOLOV2中的Darknet19网络升级到 Darknet-53[23]实现特征提取，借鉴残差网络[24]的思想，交替使用 3 × 3 与 1 × 1 的卷积神经网络，但该方法借鉴了SSD方法中的多尺度思想，在保留了YOLO系列方法采用单阶段网络进行高帧率检测的同时，进一步具备了检测微小目标和多尺度目标的能力。它与SSD一样准确，但是比Faster R-CNN和SSD检测速度更快。

(3)YOLOV5：YOLOV5推理速度是目前最强的，它在YOLOV1-YOLOV4的基础上进行优化。为了达到更快的目标检测效果，YOLOV5在输入端采用了Mosaic数据增强、自适应锚框计算和自适应图片缩放，运行速度大大提高，最快的速度达到每秒140帧，在Backbone中使用了Focus结构和CSP结构，针对Focus结构，这种结构的主要操作是切片，目的是最大程度地减少信息损失而进行下采样操作，保证了特征图的语义多样性。与YOLOV1-YOLOV4相比，YOLOV5具有更高的准确率和更好的识别小物体的能力。

2 DSTD数据集

实验数据是由TGRS-HRRSD-Dataset-master、NWPU-VHRdataset、DIOR、DOTA等几个开源遥感图像数据集构成，对图片进行剪切、修改以及筛选，并通过标注工具labelImg进行手动标注，一共得到了3 900张训练集和954张测试集，制作了该舰船目标遥感数据集DSTD(见图1)。

图1 DSTD数据集部分舰船图像数据示例

数据集文件中包括annotation，image两个文件，其中annotation包含4 854个txt文件，是使用开源工具 LabelImg对DSTD进行人工标注，生成后缀为.txt的文件，每个txt文件主要为目标舰船的bounding box，格式为x1，y1,x2,y2，其中(x1,y1)与(x2,y2)分别是舰船bounding box的左上角坐标和右下角坐标。在训练数据集之前，需要对数据通过人工标记标签，这是非常费时费力的步骤，因此要获得训练数据集变得非常困难。

DSTD遥感图像目标检测数据集有以下显著特征：

(1)针对性强、规模较大。DSTD数据集由4 854张最优舰船遥感图像和87 076个舰船目标实例组成，该数据是从开源数据集中采集的。针对目前的遥感图像数据集，DSTD针对性很强，只有舰船遥感图像并且在图像数量和目标数量上规模都较大，进一步提高了水上目标检测技术水平。

(2)目标尺寸变化大。目标尺寸变化是目标检测的一个重要特征，因为它对图像的分辨率有很大影响，在DSTD数据集，舰船的大小变化范围较大，为了增加目标的尺寸变化，该数据集收集了分辨率不同的图像，两张舰船图片的目标大小与数量均有较大差异。

(3)图片变化大。对于目标检测而言，需要图像具有较好的鲁棒性，DSTD数据集就是在不同天气、不同成像条件、不同水上环境下拥有丰富的图像变化，因此DSTD数据集在光照、物体姿态和背景等方面都有丰富的变化，从而具有一定的鲁棒性。

(4)类内多样性高。为了增加类内多样性，在收集舰船数据时，考虑了舰船比例、颜色、大小等因素，因此DSTD数据集具有较高的类内多样性。

3 实验及结果

在这一节中，用DSTD数据集训练了几种经典目标检测方法的性能，验证了该数据集的可行性，同时找到了最适合舰船的检测方法：即YOLOV5。进一步进行实验分析并讨论了验证集上的可视化结果。

3.1 实验数据集

为保证进行实验时训练和测试数据分布的相似性，在4 854张DSTD舰船遥感图像中，随机获得3 900幅舰船图像当作训练集，剩下的954幅图片当作测试集(见表2)。由于每幅图片至少包含一艘舰船，有的一幅图片包含多艘舰船，因此，舰船目标数量不等于总的图片数。

表2 舰船目标数据集

3.2 实验过程及平台

该文使用python语言进行实验，实验使用的操作系统为Red Hat 4.8.5-39，其中，处理器型号为Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10 GHz，显卡型号为 GeForce GTX 1080，采用 NVIDIA CUAD11.0 加速工具箱。具体配置如表 3 所示。

表3 实验环境

除了特别说明以外，对于YOLOV5算法在DSTD数据集的训练阶段使用的其他部分实验参数如表 4 所示。

表4 实验参数设置

在YOLOV5算法下，训练阶段设置 batch为64，输入图像为640×640，初始阶段学习率为 0.004 7，结束学习率为0.000 044 7，训练迭代次数为300，loss 值稳定在0.105 左右，训练过程得到正常收敛效果，Loss曲线如图2所示。

图2 损失值函数

3.3 实验评价指标

实验评价指标主要是验证实验结果好坏的一种评比方法，该文选择的评价指标为:精准率、召回率、平均精度和帧率。

(1)精准率(Precision，P)和召回率(Recall，R)。

其中，P是舰船的精准率，Ntp是准确检测舰船的数量，Nfp是错误检测舰船的数量，R是舰船的召回率，Nfn是将舰船误检为背景的数量。

(2)平均精度(mean Average Precision，mAP)。

其中，mAP表示多类别精度。

(3)帧率(FPS)：目标检测中每秒钟能够检测的图片数量，用该指标评价目标检测的速度。

3.4 实验结果及对比

为了验证YOLOV5算法在DSTD舰船遥感图像的检测性能，另外选了2种目标检测方法作为对比，这两种方法都是目前在深度学习中很有效的方法，一种为基于区域建议的方法：R-FCN，另一种为基于回归的方法：YOLOV3。在进行R-FCN、YOLOV3模型的训练时，使用官方代码和默认参数。使用YOLOV3、R-FCN和YOLOV5对数据集训练300次Batches。

三种算法在DSTD数据集上的精度、速度和召回率的对比如表5和图3所示。图3为三种算法的mAP图像对比，其中YOLOV5、R-FCN、YOLOV3的图像依次向下。YOLOV5目标检测算法在检测时间上每张图片大约花费0.005 4 s，YOLOV3算法检测一张图片需要0.014 2 ms，R-FCN算法检测一张图片需要0.056 5 ms，YOLOV5的检测速度是最快的。在检测精度方面，YOLOV5的检测精度为99.4%，YOLOV3的检测精度为81.2%，R-FCN的检测精度为86.2%，YOLOV5比YOLOV3和R-FCN的检测精度提高了22.4%和18.8%。R-FCN的召回率为92.3%，YOLOV3的召回率为87.2%，YOLOV5的召回率为99.2%，YOLOV5较R-FCN及YOLOV3提高了7.5%和13.8%。

图3 三种算法mAP对比结果

表5 实验对比结果

对比YOLOV3和R-FCN，YOLOV5能够保持较高分辨率的主要原因是具有较强的语义信息，具有开阔的感受野，YOLOV5中的Mosaic数据增强，随机缩放、随机裁剪、随机排布的方式进行拼接等，提高了对舰船小目标的检测能力。YOLOV5在保持一定精度的同时检测速度最快，所以YOLOV5对舰船遥感图像检测效果最好。

4 结束语

该文构建了一种规模较大、舰船目标较多的DSTD舰船遥感图像数据集。该数据集可以帮助水上舰船目标检测有进一步的发展，并且利用构建的数据集对基于深度学习的方法进一步探索和验证。对三种具有代表性的目标检测方法的性能进行了评价，最终在当前几种主流的检测方法中发现了最适合舰船遥感图像检测的方法,即YOLOV5。将 YOLOV5应用到遥感舰船检测领域中，更好地实现了DSTD目标的检测。YOLOV5虽然效果很好，但是网络在目标框构建的时候存在明显的不足，使得模型完美地屏蔽了一些小目标的训练，原因是通过比较目标框和锚框的比例，过滤掉了一部分锚框比例差距较大的目标框，训练不好，并且进行过滤。该实验结果可作为今后研究舰船目标检测的一个有用性能。