李 昂,王晟全,张 晨
(1.南京邮电大学 通信学院,南京 210003;2.南京理工大学紫金学院,南京 210003)
机场目标的识别是一种常见的遥感图像目标提取,具有重要的战略意义,并且因为识别难度较大,一直是研究人员关注的重点[1-4]。常用的机场目标检测算法,如Darknet,是整体求解特殊场景的目标检测[5-6],它对遥感卫星图片的小特征目标不是很有效。其次,卫星图像中的目标大小和方向各不相同,因为卫星地图是从空中角度拍摄,所以角度不固定,变化较大,目标方向可能并不相同[7-8],因此,传统的目标检测算法很难准确检测到目标。肖志坚等[9]提出了一种遥感图像中机场跑道的自动识别方法。在分析机场结构特征的基础上,首先采用形态学方法提取图像的线结构;然后通过非监督聚类方法将直线段动态分组;最后进行直线段修复和跑道配对,实现对机场的识别定位。王鑫等[10]提出了基于图像显著性区域的遥感图像机场检测。朱丹等[11]提出了基于直线邻近平行性和GBVS显著性的遥感图像机场目标检测。国外的研究人员也对此进行了相关的研究[12]。工程上常用的解决方法是对数据进行规模转换、旋转等数据增强操作,这就造成了很多有效时间的浪费,效率不高[13]。本文提出应用Rsnet目标检测框架来实现对遥感机场目标的识别。该框架最重要的改进是使用了Global Maxpooling,并且将迁移网络Mobilenet的思想用于主干网络上,主要用于解决全连接问题只对最后一层的特征图进行池化,形成特征点。所以使用Rsnet可以较好地规避特征不明确的问题,使得小型目标识别更加准确。
表1列举了近年来常见的目标检测算法框架和测试结果,可以发现使用了Darknet为框架的Yolo系列框架取得了较好的成绩,但是这些只是对于相同的公开数据集VOCdevikt的测试,研究发现,现有的网络对于细小目标检测的鲁棒性和准确率不是很好。
表1 近年来的各种目标检测框架的对比(均使用相同数据集和批次)
在Rsnet网络框架中,Global Maxpooling对有可能的特征进行特征选择,选出具有更好分类识别效果的特征,并减小非线性的误差。根据相关理论,特征提取的误差主要来自于2个方面:
1)受限邻域大小增加引起的估计方差。
2)卷积层的参数误差导致估计平均值的偏移。
局部池化主要还是为了增大卷积核的感受野,需要把一块区域内的信息集中起来,相当于对图像做了一个下采样。这个时候有2种保留原来图像信息的方式,一种是取均值、一种是取最大值。对于这种小范围的局部池化有最大池化保留纹理信息,平均池化保留总体信息这种概念。使用全局池化之后,特征图每个channel都被压缩到了一个点,这实际上是对每个channel做了一个信息压缩。这样就对特征不明显的目标的特征提取提供了方便,可以对每个channal进行一次筛选,避免了Darknet对全图整体进行计算的误差。
Moblienet作为迁移网络,具有体积小、易训练、算法空间复杂度小的特点,因此Rsnet和Mobilenet结合的网络框架具有高采样率和对设备性能的低依赖性。
Rsnet框架主要目的是提高对细微目标的整体感知质量,而迁移网络Mobilenet的作用是为了提高模型的可移植性和可训练性。这部分首先描述了研究提出的网络体系结构,然后讲解为何这样做,最后对该算法进行整体的客观评价指标的测试,使用的数据集是武汉大学开源的Dota数据集里的机场目标。
Rsnet的框架结构如图1所示,该网络将原先的Maxpooling改成了GlobalMaxpooling层,因为这个是基于Darknet-19框架的,所以仍然使用了3×3和1×1的卷积层,其网络框架的连接图如图2所示,较好地表示出该网络的运作机制。
图1 Rsnet的框架
图2 网络框架的连接层
Mobilenet的网络结构如图3所示,MobileNet的结构过于简单,是类似于VGG的直筒结构,导致此网络的性能并不高。但是如果和Darknet、Rsnet等结构结合(复用图像特征,添加Shortcuts)可以大幅提升网络的性能。
图3 Mobilenet的网络结构
统一取80%的数据作为训练集,20%的数据作为测试集。
Rsnet与Mobilenet的结合方案如图4所示,将Rsnet的最后一层卷积层与Mobilenet的BN和Re-LU连接,这就是与迁移网络的结合方案,与BN层连接的目的有以下4点:
图4 Rsnet与迁移网络Mobilenet结合的网络结构
1)加快训练速度,这样就可以使用较大的学习率来训练网络。
2)提高网络的泛化能力。
3)BN层本质上是一个归一化网络层,可以替代局部响应归一化层(LRN层)。
4)可以打乱样本训练顺序从而提高精度。
而ReLU的作用是增加了神经网络各层之间的非线性关系,如果没有激活函数,层与层之间是简单的线性关系,每层都相当于矩阵相乘,神经网络完成的复杂任务是非常困难的。
传统的卷积操作下,计算量为DF*DF*DK*DK*M*N,而Mobilenet使用了深度卷积,其计算量为DK*DK*M*DF*DF+1*1*M*N*DF*DF通过深度可分离卷积,计算量下降了1/N+。将Rsnet的最后一个4组层用迁移网络Mobilenet连接,可以同时兼顾精度和速度,也降低了对硬件性能的需求。同时Rsnet使用的Focal loss如图5所示,在表2中展示了Focal loss和常用的Center loss在相同测试环境下的Map。
图5 Focal loss
表2 Focal loss和常用的Center loss在相同测试环境下的Map
遵循YOLO预测边界框,使用维度簇作为锚盒。该网络预测每个边界框的4个坐标,tx,ty,tw,th。如果单元格从左上角偏移,则图像的NER由(Cx,Cy)和先验框的宽度和高度由(pw,ph)表示,然后进行分类预测。式(1)为目标检测框的工作原理方程,和YOLO一致。
本文采取的主观验证方法是只改变单一变量的对比试验,使用的实验设备是GPU:RTX2060s(8G)、CPU:i5-9400F、RAM:16G的个人计算机平台,在实验中采用使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络的样本进行训练,数据集是武汉大学的航拍数据集Dota,最后测试得到了相应的结果,如图6所示。
从图6可以看出,GlobalMaxpool+Mobilenet在识别的实际效果上要好于其余的方法,错检的结果较少,并且Ground truth和Anthor Box的吻合程度较高,也就是图中的蓝色框和绿色框的重合率,这表明使用GlobalMaxpool的Rsnet和Mobilenet的结合在实际效果上是良好的,为此,做出了图7展示Map,本文所提方法的Map较高。
图6 使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络对遥感机场目标检测的结果示意图
图7 使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络对遥感机场目标检测的结果示意图
由表3可以看出,当实验中统一取80%的数据作为训练集,20%的数据作为测试集时,Rsnet+Mobilenet在VOC数据集上具有较好的Map,并且由于是基于Darknet改造的,所以识别速度和YOLO相近。
表3 本方法与各种目标检测框架的检测结果(使用相同的通用数据集和批次)
统一取80%的数据作为训练集,20%的数据作为测试集,选用较为典型的框架在Batchsize=5的情况下测试GPU和CPU的内存占用率,得出的结果如表4所示。
表4 不同算法内存占用率测试结果
在同样的测试条件下,传统Darknet-19的Map是76.9/AP50,而通过将Mobilenet和Rsnet结合的方法,得到了Map值,并且提高了10%的下采样效率,在提高目标识别性能的同时,有效减少了时间开销;同时,每批训练数量Batch Size也可以提高到原来的5~6倍,有效降低了对于高配置、高性能运算设备的依赖,有助于扩大受众面。