摘 要:""""" 随着人工智能的飞速发展, 可见光目标检测作为计算机视觉技术的重要组成部分, 已经被广泛应用于无人机侦察领域。 利用深度学习技术深入挖掘复杂战场环境和低质量图像中的目标特征, 可以有效解决无人机侦察场景中可见光目标检测遇到的困难挑战, 进一步提高可见光目标检测的准确性。 因此, 对基于深度学习的无人机可见光目标检测方法进行了全面综述。 首先, 介绍了无人机可见光目标检测面临的目标小尺度、 任意方向、 高度伪装以及运动模糊等诸多挑战。 其次, 描述了用于可见光目标检测和图像恢复的主要公开数据集。 然后, 结合无人机可见光目标检测面临的诸多挑战总结了深度学习方法在无人机可见光目标检测中的应用以及优缺点。 最后, 展望了无人机可见光目标检测未来可能的研究方向。
关键词:"""" 无人机; 复杂战场环境; 低质量图像; 深度学习; 可见光目标检测
中图分类号:"""""" TJ760; V279
文献标识码:""" A
文章编号:"""" 1673-5048(2024)06-0023-13
DOI: 10.12132/ISSN.1673-5048.2024.0148
0 引" 言
现代战场局势复杂, 战争模式越来越向无人化与智能化转变, “发现即摧毁”已成为很多军事强国的作战理念[1-4]。 传统的方法主要依靠卫星和有人驾驶的飞机挂载探测设备来发现目标, 近年来, 由于无人机具有体积小、 灵活、 易于控制等优点, 在军事侦察领域中越来越受欢迎。 无人机作为现代航空侦察的核心力量之一, 可以通过对地面目标的高效检测来帮助推断对手军事意图, 制定作战决策, 实现先发制人的打击效果[5-7]。
无人机挂载探测设备对地侦察时, 主要获得三种图像: 可见光图像、 红外图像和SAR(合成孔径雷达)图像。 现有公开的红外和SAR数据集相对较少, 基本上都是基于特定场景来收集图像数据, 数据集的制作难度相对可见光大得多。 红外图像缺少色彩信息, 当目标由于天气温度或躲避侦察打击而不产生热源时, 红外探测设备的成像效果很差, 另外红外探测设备的成本相对较高。 SAR图像同样缺少色彩信息, 当无人机飞行高度较高时, 目标在图像中所占据的像素特别少, 很难将目标像素与噪声点区别开来, 导致目标检测的漏检率与虚警率较高。 因此, 可见光目标检测是无人机对地侦察的核心任务和研究热点。
传统的可见光目标检测大多采用基于统计的方法[8], 难以解决目标检测过程中出现的计算复杂度高、 特征表示能力弱、 优化困难等问题。 随着深度学习技术的发展, 深度卷积神经网络通过多个卷积层提取图像的高级特征, 逐渐成为可见光目标检测的主体框架[9-11]。 基于深度卷积神经网络的可见光目标检测方法分为两类: 两阶段方法和单阶段方法。 两阶段方法, 例如Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等, 首先生成区域建议, 然后对区域建议中的目标进行分类和定位, 适用于具有较高检测精度要求的应用。 单阶段方法, 例如SSD[15], RetinaNet[16], YOLO[17]系列等, 直接生成目标的类别概率和检测框位置, 在具有较高检测速度要求的应用中有很大优势。 另外, 伴随着深度学习技术的发展进步, Transformer架构由于其良好的并行化和全局注意机制, 被越来越多地应用于可见光目标检测, 例如Deformable DETR[18], TransMIN[19], QETR[20]等, 作为一种编码器来提取目标的全局上下文特征。
除此之外, 可见光图像由于模糊、 噪声、 雨雾等因素的影响经常遭受不同程度的退化[21-22]。 将退化的图像恢复为高质量的图像是非常重要的, 特别是对于后续的目标检测任务, 退化的图像严重降低了目标检测的精度。
在模糊图像恢复方面, 模糊图像恢复的方法逐渐从基于图像先验的方法发展到基于深度学习的方法。 基于图像先验的方法[23-27]使用自然图像先验来估计模糊核, 对模糊图像进行反卷积操作, 将其恢复为清晰图像。 基于深度学习的方法[28-32]使用模糊和清晰图像对来训练模糊恢复模型, 隐式学习模糊和清晰图像之间的关系, 不需要估计模糊核, 实现了良好的模糊图像恢复性能。
然而, 与通用可见光目标检测相比, 无人机可见光目标检测还存在着许多挑战, 如复杂的战场环境和低质量的侦察图像等问题。 因此, 对基于深度学习的无人机可见光目标检测方法进行了全面综述。 首先, 分析了无人机可见光目标检测与通用可见光目标检测的主要区别, 以及当前无人机可见光目标检测面临的主要挑战。 其次, 描述了用于可见光目标检测和图像恢复的主要公开数据集。 然后, 结合当前无人机可见光目标检测面临的主要挑战介绍了深度学习方法在无人机可见光目标检测中的应用以及优缺点。 最后, 展望了无人机可见光目标检测未来可能的研究方向。
1 无人机可见光目标检测分析
1.1 无人机可见光目标检测与通用可见光目标检测的区别
在普通视图中, 通用可见光目标检测的数据集大多是由手持摄像机或固定位置拍摄的, 所以大多数图像都是侧视图。 然而, 无人机航空图像不同于普通视图图像, 它们是通过自上而下的视角拍摄的, 这意味着普通视图中的目标检测方法不能直接应用于无人机鸟瞰视图。
首先, 无人机鸟瞰视图中的目标尺寸很小且形状多变[33-41]。 例如, 行人和汽车在普通视图中可能占据多个像素, 而在无人机鸟瞰视图中可能只占据几个像素, 并且它们形状不规则, 导致呈现任意的方向, 这增加了无人机可见光目标检测的难度。 其次, 无人机鸟瞰视图中的伪装不同于普通视图[42-44]。 在普通视图中, 目标由于伪装可能会被其他背景遮挡, 比如躲藏在丛林里的坦克。 然而, 在无人机鸟瞰视图中, 目标借助伪装可能与地面环境高度相似, 比如穿纯白衣服趴在雪地里的士兵。 最后, 无人机航空图像的质量受到多种因素的影响, 如设备的不稳定性导致的模糊、 低分辨率、 图像失真等[45-48]。 这些问题需要对图像或视频进行预处理, 以提高无人机可见光目标检测方法的检测效果。
因此, 不可能将在普通视图数据集上训练的目标检测方法直接应用于无人机航空图像, 需要根据无人机航空图像的特有特征, 设计能够满足不同任务的无人机可见光目标检测方法。
1.2 无人机可见光目标检测的挑战
无人机可见光目标检测通常面临着目标小尺度、 任意方向、 高度伪装以及运动模糊等诸多挑战。 对不同挑战的详细解释如下:
目标小尺度问题。 无人机对目标进行侦察时, 为躲避对手防空火力的袭扰, 通常需要高空飞行, 由于无人机的飞行高度较高, 侦察收容面积较大, 使得图像中的目标呈现小尺度的特点。
目标任意方向问题。 无人机对目标进行侦察时, 为深入了解对手防御纵深、 要点, 通常需要俯视或斜视拍摄图像, 由于无人机的飞行航迹与目标的运动方向不一致, 使得图像中的目标呈现任意方向的特点。
目标高度伪装问题。 无人机对目标进行侦察时, 为躲避侦察打击, 目标通常会借助各种复杂背景伪装自己, 目标与复杂背景之间具有高度的纹理相似性, 使得图像中的目标呈现高度伪装的特点。
目标运动模糊问题。 无人机对目标进行侦察时, 为缩减在任务区内的滞留时间、 降低对手防空系统的反应几率, 通常需要高速飞行。 由于无人机相机的高速运动, 获得的航空图像往往是缺乏高频信息的模糊图像, 使得图像中的目标呈现运动模糊的特点。
2 相关公开数据集
2.1 可见光目标检测的公开数据集
近年来, 基于数据驱动的深度学习方法迅速发展, 为可见光目标检测提供了强大的支持。 为了促进可见光目标检测的研究, 研究人员提出了许多经典的可见光目标检测数据集, 这些数据集具有较大的数据规模和良好的泛化能力。
(1) 针对无人机图像的可见光目标检测数据集
UAV123数据集[49]包含从低空无人机捕获的123个视频序列, 总计超过11万帧图像。 这些视频序列涵盖了不同的场景, 如城市、 公园、 海滩、 学校等, 以及不同类型的目标, 如行人、 自行车、 汽车、 船只等。 每个视频序列都有一个相应的注释文件, 记录目标在每帧中的位置和大小。 此外, 每个视频序列都有一个属性文件来描述该序列的特征。
UAVDT数据集[50]由50个视频组成, 总共有40 376张图像, 其中24 778张图像用于训练, 15 598张图像用于测试。 这些图像涵盖了各种常见场景, 如道路收费站、 高速公路交叉口和T形路口等。 该数据集主要关注车辆目标(汽车、 卡车、 公共汽车), 图像的分辨率为1 024×540像素。
Visdrone数据集[51]包含无人机在不同角度和不同高度获取的图像, 其中6 471张图像用于训练, 3 190张图像用于测试。 该数据集有卡车、 巴士等10个目标类别, 图像的分辨率在960×540到1 920×1 080像素范围内。
DroneVehicle数据集[52]主要针对无人机航空图像中的车辆目标检测和计数, 包含31 064张图像和441 642个实例, 其中一半是RGB图像。 这些图像涵盖了从白天到晚上的各种场景, 具有真实的环境遮挡和不同的尺度变化。 该数据集有货车、 汽车等5个目标类别。
(2) 针对无人机图像的伪装目标检测数据集
MHCD数据集[53]是一个军事高级伪装目标检测数据集, 包含3 000张图像, 其中2 400张图像用于训练, 600张图像用于测试。 每张图像的每个目标都被仔细地标注了类别和位置, 5个目标类别为人、 飞机、 军用车辆、 军舰和坦克, 其中的伪装涉及各种现实场景, 如丛林、 沙漠、 雪地、 城镇和海洋等。
2.2 可见光图像恢复的公开数据集
为了克服可见光图像由于模糊、 噪声、 雨雾等因素造成的不同程度的退化, 研究人员提出了许多经典的图像恢复数据集。
GoPro数据集[29]使用GoPro Hero 4相机捕捉240帧/秒的视频序列, 通过平均连续的短曝光生成模糊图像。 该数据集是图像运动模糊的一个常见基准数据集, 包含3 214个模糊和清晰图像对, 其中2 103对用于训练, 1 111对用于评估。
RSBlur数据集[54]提供了各种户外场景的真实模糊图像, 每个图像都与9个清晰的图像序列配对, 能够分析真实模糊与合成模糊之间的差异。 该数据集包含来自639个场景的12 238张真实模糊图像, 其中来自465个场景的8 878张真实模糊图像用于训练, 来自174个场景的3 360张真实模糊图像用于评估。
3 基于深度学习的无人机可见光目标检测方法
随着无人机技术的发展, 配备摄像机和嵌入式系统的无人机已广泛应用于军事侦察领域。 无人机对地侦察通常要求无人机具有感知环境、 理解场景和作出及时反应的能力, 其中最基本的是自动、 高效的目标检测。 基于深度学习的目标检测方法通过深度卷积神经网络或Transformer架构自动提取图像特征, 大大提高了目标检测的性能和侦察情报判读的准确性[55-58]。
因此, 对目前基于深度学习的无人机可见光目标检测的论文进行了重点研究。 首先, 介绍了目标检测方法的发展过程。 然后, 介绍了图像恢复方法的发展过程。 最后, 针对无人机可见光目标检测的不同挑战, 分别介绍了不同的基于深度学习的无人机可见光目标检测方法。
3.1 目标检测方法的发展过程
目标检测方法的发展过程如图1所示, 可以分为两个阶段: 传统的目标检测方法和基于深度学习的目标检测方法。 基于深度学习的目标检测方法进一步分为两种技术路线: 基于深度卷积神经网络的目标检测方法和基于Transformer架构的目标检测方法。 基于深度卷积神经网络的目标检测方法按照目标检测的任务阶段又分为单阶段方法和两阶段方法。
传统的目标检测方法主要基于滑动窗口和人工特征提取, 一般包括区域建议、 特征提取和分类回归三个步骤。 首先, 通过区域建议获取目标可能所在的感兴趣区域。 然后, 利用人工特征提取方法将感兴趣区域中的目标转换为特征向量。 最后, 分类回归器根据提取的特征向量对目标进行分类和回归。 传统的目标检测方法具有计算复杂度高、 特征表示能力弱、 优化困难等缺点, 代表性方法主要有VJ Det[59]和HOG Det[60]等。
基于深度卷积神经网络的目标检测方法采用深度卷积神经网络, 从输入图像中自动提取高级特征并对目标进行分类和回归, 具有速度快、 精度高、 鲁棒性强等优点。 两阶段目标检测方法在第一阶段生成区域建议, 并在第二阶段对区域建议内的目标进行分类和回归。 两阶段目标检测方法生成了目标的区域建议, 检测精度通常较高, 但由于额外的阶段处理, 检测速度通常较慢, 代表性方法主要有Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等。 单阶段目标检测方法没有生成区域建议, 直接从图像中生成目标的位置和类别, 具有较快的检测速度。 然而, 单阶段目标检测方法的分类和回归分支通常是简单的, 难以捕获目标的详细特征, 导致检测精度较低, 代表性方法主要有SSD[15], RetinaNet[16], YOLO[17]系列等。
基于Transformer架构的目标检测方法作为一种编码器来提取目标的全局上下文特征, 具有良好的并行化和全局注意机制, 能够以端到端的方式直接预测目标的边界框和类别标签。 然而, 基于Transformer架构的目标检测方法更多地关注目标检测的准确性, 忽略了模型的大小和目标检测的时效性, 阻碍了其在资源有限的环境中的部署, 代表性方法主要有Deformable DETR[18], TransMIN[19], QETR[20]等。
3.2 图像恢复方法的发展过程
图像恢复是从退化图像中获得高质量图像, 退化的典型例子包括模糊、 噪声、 雨雾等[21-22]。 接下来, 主要从模糊图像恢复方面介绍图像恢复方法的发展过程, 如图2所示。
模糊图像恢复的方法逐渐从基于图像先验的方法发展到基于深度学习的方法。 基于图像先验的方法使用自然图像先验来估计模糊核, 对模糊图像进行反卷积操作, 将其恢复为清晰图像, 代表性方法主要有极端通道先验[24]、 局部最大梯度先验[26]、 局部最大差分先验[27]等。 然而, 基于图像先验的方法的建模依赖于先验约束, 许多先验仅针对特定的模糊场景设计," 不能推广到真实的模糊图像。 相反, 基于深度学习的方法使用模糊和清晰图像对来训练模糊恢复模型, 隐式学习模糊和清晰图像之间的关系, 而不估计模糊核, 代表性方法主要有MPRNet[21], AMD-GAN[61], MGSTNet[62]等。 然而, 基于深度学习的方法依赖于成对的训练数据, 当训练数据有限时, 模糊图像的恢复效果将会下降。
3.3 解决目标小尺度问题的可见光目标检测方法
在无人机航空图像中, 由于无人机飞行高度高、 拍摄角度宽等原因, 通常目标特征信息较少、 分辨率较低。 此外, 由于深度神经网络中的降采样和池化操作, 目标保留的特征信息会更少, 可能只有10个像素左右, 这将严重影响目标检测效果。 为解决无人机航空图像中的目标小尺度问题, 提出了许多先进的小目标检测方法。
3.3.1 基于多尺度特征的小目标检测
Lin等[63]提出一种特征金字塔网络(FPN), 通过融合深层特征和浅层特征获得多层特征图。 Ghaisi等[64]提出神经结构搜索-特征金字塔网络(NAS-FPN), 采用神经结构搜索, 通过自上而下和自下而上连接的组合来融合跨尺度的特征信息。 Liu等[65]提出一种路径聚合特征金字塔网络(PAFPN), 通过自下而上的路径增强来增强小目标特征, 缩短了特征信息的传输路径。 Xu等[19]提出一种Transformer引导的多交互网络(TransMIN), 通过FPN中的Transformer实现跨层特征交互, 以捕获小目标特征与FPN特征之间的相关性。 Sun等[66]提出一种实时小目标检测方法(RSOD), 引入多尺度特征融合模块和自适应锚框生成模块, 以提高小目标的特征表达和定位能力。 Li等[67]提出一种尺度感知的三分支网络(TridentNet), 引入不同接受域的多分支检测头, 用于多尺度预测。 Liu等[68]提出一种高分辨率目标检测网络, 使用多分辨率图像作为输入, 依次从高分辨率到低分辨率提取目标特征。
3.3.2 基于上下文信息的小目标检测
MCFPN[69]提出了交叉上下文聚合模块, 采用多分支交互融合方法对相邻维度的上下文进行整合, 以充分提取小目标的上下文信息。 PADN[70]在提取上下文信息的基础上增加了注意力模块, 从空间和通道两个维度对小目标的上下文信息进行自适应选择。 SCA[71]将上下文特征进行反卷积, 并对每一层特征进行批归一化和级联, 实现了小目标不同层次的上下文特征融合。 ION[72]采用空间递归神经网络来传递上下文信息, 通过跳跃池化提取小目标不同尺度的特征。 AC-CNN[73]通过堆叠长短时记忆网络来探索全局上下文信息, 旨在完善小目标特征信息的表达。
3.3.3 基于超分辨率特征的小目标检测
小目标像素较少, 可利用的有效信息有限, 可以采用超分辨率技术将其扩展为高分辨率、 高质量的特征表示, 以增强小目标的细节信息。 MTGAN[74]提出基于端到端多任务生成对抗网络的小目标检测方法, 对小目标进行图像级别的超分辨率重建。 PGAN[75]提出将小目标特征作为残差网络的输入, 利用生成对抗网络学习小目标与大目标特征之间的偏差, 直接生成高分辨率的特征表示。 BFFB[76]构建超分辨率特征提取网络, 超分辨率特征提取网络与骨干网络共享网络参数, 通过扩展卷积操作和池化操作匹配小目标的感受野, 提高小目标的检测精度。
3.3.4 小目标检测方法的定量与定性分析
表1和图3显示了上述小目标检测方法在Visdrone数据集上的定量与定性比较结果。
表1中, mAP表示全类平均精度(mean Average Precision, mAP), FPS表示每秒处理的图像数量(Frame Per Second, FPS)。
图3(a)中, 单阶段目标检测方法YOLOv3在13个小型车辆(紫色边界框)中只检测到了3个, 检测精度相对较低。 图3(b)中, 两阶段目标检测方法Faster RCNN在13个小型车辆(紫色边界框)中检测到了10个, 检测精度相比单阶段目标检测方法有了很大提升。 图3(c)~(d)中, 基于多尺度特征的目标检测方法TransMIN和TridentNet都成功检测到了所有的小型车辆(紫色边界框), 检测精度得到进一步提升, 但都存在将图片右上角的石墩和左下角的路灯阴影错误检测成小型车辆的问题。 图3(e)中, 基于上下文信息的目标检测方法ION成功检测到了所有的小型车辆(紫色边界框), 并且图片左边的大型公交车(橙色边界框)也被成功地检测到, 但存在将图片右上角的石墩和左下角的路灯阴影错误检测成小型车辆的问题。 图3(f)中, 基于超分辨率特征的目标检测方法PGAN成功检测到了所有的小型车辆(紫色边界框)和图片左边的大型公交车(橙色边界框), 但存在将图片右上角的石墩和右下角的路灯错误检测成小型车辆的问题。
通过比较结果可以发现, 当前为解决目标小尺度问题而提出的目标检测方法虽然取得了良好的检测效果, 但仍然存在一定的小目标误检漏检情况, 这些问题需要在未来进一步解决, 总结如下:
(1) TransMIN和TridentNet等方法将多尺度特征进行融合, 可以同时考虑细节轮廓和高层语义信息, 丰富了小目标特征的表达。 然而, 不同尺度特征的分辨率不同, 对输出特征的贡献不一, 按位相加或者直接级联缺乏对各个特征之间的重要性建模, 小目标特征容易被淹没, 并且特征图中的背景噪声可能随着特征融合不断累积。
(2) MCFPN和ION等方法通过提取小目标的上下文信息来完善小目标特征信息的表达, 提升了小目标的检测效果。 然而, 上下文语义建模无法建立像素与像素之间的直接联系, 不相邻的像素之间缺乏长距离依赖关系建模, 全局信息可以弥补小目标特征信息少的不足, 增强小目标的特征表达, 但只有叠加深层的网络结构才能捕获长距离特征关系, 网络优化训练的时间较长。
(3) MTGAN和PGAN等方法采用超分辨率技术来增强小目标的细节信息。 然而, 超分辨率技术在图像尺寸较大时会带来较高的计算复杂度, 而且容易导致训练困难, 如何加速计算是超分辨率技术广泛应用的前提。
3.4 解决目标任意方向问题的可见光目标检测方法
无人机航空图像中的目标具有任意方向, 当采用通用目标检测方法进行目标检测时, 由于使用水平锚框来检测目标, 生成的目标检测框不可避免地会引入背景噪声或无关的前景特征[77]。 为解决无人机航空图像中的目标任意方向问题, 研究人员提出了许多先进的定向目标检测方法。
3.4.1 基于特征增强的定向目标检测
AARN[33]利用密集排列的亲和力来检测定向目标, 亲和力图构造模块选择与参考框高度相似的检测框, 动态增强模块利用注意力机制学习邻域信息, 动态地确定特征增强的权重。 Oriented R-CNN[78]引入定向区域建议网络来直接预测水平锚框的定向建议。 RoI-Transformer[79]将水平目标区域转换为旋转目标区域, 提取旋转不变特征进行定向目标的分类和回归。 ADT-Det[80]提出特征金字塔Transformer, 通过特征交互机制来增强定向目标检测框架的特征提取功能。 S2A-Net[81]通过锚框细化生成高质量的定向锚框, 自适应地将卷积特征与锚框对齐。 R3Det[82]提出特征细化模块并构建对齐的特征映射, 以适应定向检测框的定位偏移。 SCRDet[83]提出引入像素级语义信息的细粒度特征融合分支, 以充分提取定向目标的特征信息。
3.4.2 基于样本分配的定向目标检测
良好的样本分配可以减轻分类与回归任务之间的不一致。 DCFL[35]以动态的方式对先验、 样本分配和目标表示进行建模, 利用粗糙的先验匹配和精细的后验约束来动态地分配样本, 为不同的目标提供适当的和相对平衡的监督。 Rotated-RetinaNet[16]基于固定的Max-IoU策略分配样本, 采用区域建议和地面真实值之间的交并比(IoU)作为选择度量。 DAL[84]根据输入先验IoU与输出预测IoU之间的不一致性定义了一个预测感知匹配度, 然后利用它来重新确定锚框的权重, 实现了动态样本学习。 SASM[85]根据目标的形状信息和特征分布动态分配样本。 Oriented RepPoints[86]提出Max-Convex-IoU样本分配方案用于自适应点学习, 不仅从分类和回归中选择点样本, 而且从方向和点特征相关中选择点样本。
3.4.3 基于回归损失优化的定向目标检测
Gliding Vertex[87]通过在水平边界上滑动顶点来学习检测框四个角的偏移量, 进而预测定向检测框。 CSL[88]通过将定向目标回归转化为分类任务来处理超出范围的旋转角度。 PIoU[89]通过累积内部重叠像素的贡献来计算回归损失。 GWD[90]和KLD[91]将定向目标框和地面真实框分别建模为高斯分布, 然后通过高斯瓦瑟斯坦距离和库勒散度构造一个新的损失函数来衡量分布之间的差异, 以此作为回归损失。 Attention-Points[34]设计了由引导注意损失(GALoss)和盒点损失(BPLoss)组成的注意力网络, GALoss使用一个实例分割掩模作为地面真实图像来学习目标的注意特征, BPLoss利用目标的注意特征来预测定向目标检测框的位置。 KRRD[92]提出了R-DIoU损失, 将地面真实边界框与预测边界框之间的中心点距离纳入定向目标检测的回归过程中, 以加速网络的收敛速度。
3.4.4 定向目标检测方法的定量与定性分析
表2和图4显示了上述定向目标检测方法在UAV123数据集上的定量与定性比较结果。
图4(a)~(b)中, 基于特征增强的目标检测方法AARN在33个船只(紫色边界框)中只检测到了3个, S2A-Net在33个船只(紫色边界框)中只检测到了5个, 检测精度相对较低。 图4(c)~(d)中, 基于样本分配的目标检测方法SASM在33个船只(紫色边界框)中检测到了6个, DCFL在33个船只(紫色边界框)中检测到了11个, 检测精度虽有提升, 但仍然较低。 图4(e)~(f)中, 基于回归损失优化的目标检测方法Attention-Points和KRRD在33个船只(紫色边界框)中检测到了12个, 检测精度进一步提升, 并且其生成的目标边界框更加贴近船只的真实形状。
通过比较结果可以发现, 当前为解决目标任意方向问题而提出的目标检测方法虽然取得了一定的检测效果, 但仍然存在大量的定向目标漏检情况, 这些问题需要在未来进一步解决, 总结如下:
(1) AARN和RoI-Transformer等特征增强方法由于精心设计的特征增强模块, 使得网络变得沉重且复杂, 参数数量明显增加。 另外, 这些方法在每个位置上设置了不同角度、 比例和高宽比的锚框, 密集旋转的锚框导致了检测效率明显降低并存在大量的计算开销和内存占用。
(2) SASM和DCFL等样本分配方法都设置了一些超参数, 如SASM的动态IoU阈值和DCFL的目标尺度范围, 超参数的不同设置将会产生非常不同的检测结果, 甚至出现目标的漏检情况。
(3) Attention-Points和KRRD等回归损失优化方法不能根据定向目标的高度和宽度动态调整梯度, 例如具有大高宽比的船只目标对位置的偏移很敏感, 轻微的角度误差就会导致检测精度的严重下降甚至出现目标的漏检情况。
3.5 解决目标高度伪装问题的可见光目标检测方法
伪装目标为躲避侦察打击通常位于复杂的背景中, 如战场、 丛林和城镇, 并且与复杂的背景具有高度的纹理相似性。 当采用通用目标检测方法进行目标检测时, 由于复杂的战场环境以及前景和背景之间高度的纹理相似性, 这些方法往往不能检测到伪装的目标, 导致出现遗漏检测, 严重影响无人机侦察打击等军事任务的效果。 为解决无人机航空图像中的目标高度伪装问题, 研究人员提出了许多先进的伪装目标检测方法。
3.5.1 基于手工设计特征的伪装目标检测
基于手工设计特征的伪装目标检测方法通过手工设计的特征来计算对比度, 使伪装目标与背景分离。 基于手工设计特征的伪装目标检测方法可以分为基于强度对比的方法[93]、 基于颜色对比的方法[94]、 基于纹理对比的方法[95]、 基于光流对比的方法[96]和基于特征融合对比的方法[97]。 然而, 这些方法缺乏丰富的语义表达能力, 不能处理复杂的背景和有噪声干扰的实际场景。
3.5.2 基于语义分割的伪装目标检测
随着CAMO[98]和COD10K[99]等伪装数据集的发布, 许多基于语义分割的伪装目标检测方法被提出, 并取得很大进展。 这些方法大致可以分为四种类型:" 一是设计先进的网络结构来探索伪装目标的鉴别性特征, 如C2FNet[100], TANet[101], DTCNet[102], UGTR[103], FSANet[104]和CRI-Net[105];" 二是将辅助任务与目标检测任务相结合以提高伪装目标检测的性能, 如边界探索[106]、 显著目标检测[107]和伪装目标排名[108]等;" 三是采用受自然界捕食者行为启发的仿生机制来执行伪装目标检测, 如SINet[109]和MirrorNet[110]; 四是提出红外和可见光图像融合方法来辅助伪装目标检测, 如SeAFusion[111]和SuperFusion[112]。
3.5.3 基于锚框的伪装目标检测
由于公共数据集的严重限制, 基于锚框的伪装目标检测方法的研究相对较少。 MHNet[53]提出一种端到端的感知和识别框架来检测军事伪装目标, 在整个检测过程中包含了生物视觉机制的全局先验、 关系挖掘和视觉恢复。 TCPM[113]提出一种基于三元级联感知的方法来检测伪装目标, 提取了伪装目标的空间信息与关键点的位置信息之间的关系。 CPDN[114]提出一种基于锚框的伪装人员检测方法, 在卷积神经网络中增加了有效的通道注意和改进的接受域块, 以关注伪装人员的更多特征。
3.5.4 伪装目标检测方法的定量与定性分析
表3和图5显示了上述伪装目标检测方法在MHCD数据集上的定量与定性比较结果。
图5(a)~(b)中, 基于语义分割的目标检测方法C2FNet和FSANet通过设计网络结构来探索伪装目标的鉴别性特征, 对于伪装的狙击手(紫色边界框)的检测精度只有30%左右, 并且生成的目标边界框偏离了狙击手的轮廓形状。 图5(c)中, 基于语义分割的目标检测方法SINet采用受自然界捕食者行为启发的仿生机制来执行伪装目标检测, 对于伪装的狙击手(紫色边界框)的检测精度达到了63%, 但生成的目标边界框未能紧密匹配狙击手的轮廓形状。 图5(d)~(e)中, 基于锚框的目标检测方法TCPM和MHNet对于伪装的狙击手(紫色边界框)的检测精度达到了98%~99%, 并且生成的目标边界框能够紧密匹配狙击手的轮廓形状。
通过比较结果可以发现, 当前为解决目标高度伪装问题而提出的目标检测方法虽然取得了良好的检测效果, 但仍然存在一定的目标边界框不准确情况, 这一问题需要在未来进一步解决, 总结如下:
(1) C2FNet, FSANet和SINet等语义分割方法由于伪装目标与背景之间高度的纹理相似性, 提取的伪装目标特征较为有限, 不能很好地区分伪装目标与背景的模糊边界。
(2) TCPM和MHNet等基于锚框的方法能够获得伪装目标更高的检测精度, 并且生成的目标边界框能够紧密匹配伪装目标的轮廓形状。 然而, 当前主流方法侧重于伪装目标的语义分割, 对伪装目标的检测关注较少, 目前几乎没有专门为伪装目标检测而设计的数据集。
3.6 解决目标运动模糊问题的模糊图像恢复方法
无人机航空图像已被广泛应用于侦察情报判读和重点区域监测。 然而, 当无人机相机快速移动并且有多个运动目标时, 无人机航拍图像将变得高度模糊。 因此, 恢复模糊的图像是非常重要的, 特别是对于后续的目标检测任务, 模糊的图像严重降低了目标检测的精度。 为解决无人机航空图像中的目标运动模糊问题, 研究人员提出了许多先进的模糊图像恢复方法。
3.6.1 基于图像先验的模糊图像恢复
基于图像先验的模糊图像恢复方法主要利用不同的图像先验从模糊图像中恢复清晰图像。 例如, Ren等[23]采用结合低秩先验和梯度图的最小化加权核范数方法, 以提高图像去模糊的有效性。 Yan等[24]将暗通道和亮通道相结合, 设计了一种图像去模糊的极端通道先验方法。 同时, 基于局部先验信息的图像去模糊方法也取得了重大成果, 如基于局部最大梯度先验[26]的方法和基于局部最大差分先验[27]的方法。
3.6.2 基于深度学习的模糊图像恢复
随着深度学习的快速发展, 设计不同的网络结构, 学习从模糊图像到清晰图像的非线性映射, 无需对不同的模糊场景进行复杂的参数调整, 已经取得了重大进展。 基于深度学习的模糊图像恢复方法主要通过大量成对的训练数据, 以端到端的方式训练去模糊模型。 例如, MIMO-UNet[28]提出一种用于图像去模糊的多输入多输出U-Net网络。 DeepDeblur[29]提出一种从粗到细的去模糊网络, 通过堆叠多个子网络实现了良好的去模糊性能。 MAXIM[30]提出一种基于多轴多层感知机的架构, 其中每个模块都有一个全局和局部感知域, 提高了去模糊模型的学习能力。 DeblurGAN[31]提出一种基于生成对抗网络(GAN)的去模糊方法, 可以在去模糊图像中生成更真实的细节。 DSADN[115]提出一种具有并行融合流的去模糊网络来生成清晰的图像, 融合了底层纹理特征和高层语义特征来扩展图像的接受域。 Ref-MFFDN[116]提出一种基于参考的多层特征融合网络进行图像去模糊, 从同一位置不同时刻的清晰参考图像中提取纹理, 以帮助恢复模糊图像。 IdemDeblur[117]在去模糊框架中引入了幂等约束, 提出一种深度幂等网络, 在稳定的再去模糊条件下实现更好的非均匀图像去模糊。 SDD-GAN[118]提出一种用于图像去模糊的端到端GAN, 引入特征对齐模块和特征重要性选择模块来恢复模糊图像的纹理和细节。 AMD-GAN[61]提出一种用于图像去模糊的自适应多尺度融合GAN, 采用图像模糊度自适应地引导网络进行特征图的多尺度融合。 MGSTNet[62]设计了一种多尺度广义收缩阈值网络, 能够自适应地学习深度几何先验信息的重要性, 以增强模糊图像恢复的效果。
3.6.3 模糊图像恢复方法的定量与定性分析
表4和图6显示了上述模糊图像恢复方法在GoPro数据集上的定量与定性比较结果。
图6的第1列中, 部分方法不能准确地恢复由高度移动的行人造成的模糊边缘。 图6的第2列中, 部分方法不能准确地处理高度模糊的场景, 特别是图像右下角的标志牌和岗亭。 图6的第3列中, 部分方法不能准确地恢复红框中窗户的结构。
另外, 利用上述模糊图像恢复方法对DroneVehicle数据集中的真实模糊图像进行图像恢复, 运用常见的目标检测方法RetinaNet对上述模糊图像恢复方法恢复后的图像进行目标检测, 定性比较结果如图7所示。 图7(a)中, DeblurGAN方法恢复的图像对于道路上的直行和掉头箭头依然模糊不清, 同时对于车辆的检测精度只达到了67.0%。 图7(b)~(e)中, DeepDeblur, AMD-GAN, NAFNet和IdemDeblur这四种方法恢复的图像对于道路上的直行和掉头箭头的清晰度逐渐增加, 同时对于车辆的检测精度分别达到了79.6%, 83.0%, 83.7%和84.8%, 但由于车辆模糊边缘的影响, 生成的目标边界框未能紧密匹配车辆的轮廓形状。 图7(f)中, MGSTNet方法恢复的图像对于车辆的检测精度达到了最高的86.7%, 并且生成的目标边界框紧密匹配了车辆的轮廓形状。
通过比较结果可以发现, 当前为解决目标运动模糊问题而提出的模糊图像恢复方法虽然取得了良好的效果, 但是对模糊边缘恢复等一些细节的处理并不令人满意, 仍然存在一些问题需要在未来进一步解决, 总结如下:
(1) 极端通道先验、 局部最大梯度先验和局部最大差分先验等基于图像先验的方法的建模依赖于先验约束, 许多先验仅针对特定的模糊场景而设计。 此外, 基于图像先验的方法往往很耗时, 需要仔细调整针对不同数据集的参数。
(2) NAFNet, IdemDeblur和MGSTNet等基于深度学习的方法恢复的模糊图像在多层和多尺度特征的聚合和对齐过程中, 由于不断的双线性降采样和转置卷积操作, 可能会丢失高频细节信息。 此外, 基于深度学习的方法依赖于成对的训练数据, 当训练数据有限时, 模糊图像的恢复效果将会下降。
4 未来研究方向
近几年来, 研究人员对基于深度学习的无人机可见光目标检测的研究越来越感兴趣, 现有的方法已经取得了一些阶段性研究成果, 但无人机可见光目标检测作为无人机侦察领域和人工智能应用的核心任务, 仍存在许多问题与难点亟待解决。 对基于深度学习的无人机可见光目标检测的未来研究方向进行了以下讨论:
(1) 无监督或半监督训练。 现有的无人机目标检测数据集标注成本较高, 无监督或半监督训练方法可以从未标注或少量标注数据中学习有用的特征和知识, 实现高效的目标检测。 此外, 还可以使用来自其他领域或任务的预训练模型, 如自然场景普通视图中的目标检测模型, 对无人机可见光目标检测模型进行初始化或微调, 利用来自其他领域或任务的知识来提高目标检测性能。
(2) 数据预处理。 目标检测的效果很大程度上取决于输入数据的质量, 由于无人机飞行高度和飞行姿态的限制, 目标重叠、 覆盖、 位移等问题是不可避免的。 基于深度学习的无人机可见光目标检测方法可以通过数据预处理来减少冗余特征, 提高目标检测的效率。
(3) 多模态数据。 多模态数据是指从红外等传感器或雷达中获得的数据。 多模态数据可以提供更丰富、 更完整的信息, 有助于克服单模态数据的局限性和不足。 多模态数据融合的应用非常广泛, 然而在数据融合过程中存在着一些挑战, 例如数据质量问题、" 噪声问题等。 为了解决这些问题, 有必要将多模态数据转换为统一的格式和分辨率, 促进多模态数据的融合与处理。
参考文献:
[1] 符成山, 吴惟诚, 雷东. 美军无人机装备现状及发展趋势[J]. 飞航导弹, 2019(9): 46-52.
Fu Chengshan, Wu Weicheng, Lei Dong. Current Situation and Development Trend of US UAV Equipment[J]. Aerodynamic Missile Journal, 2019(9): 46-52.(in Chinese)
[2] 鲁亚飞, 陈清阳, 吴岸平. 中空长航时察打一体无人机运用特点分析[J]. 飞航导弹, 2020(9): 75-79.
Lu Yafei, Chen Qingyang, Wu Anping. Analysis on the Application Characteristics of Unmanned Aerial Vehicle with Hollow Long Endurance Inspection and Strike[J]. Aerodynamic Missile Journal, 2020(9): 75-79.(in Chinese)
[3] 胡劲松, 黄文涛. 无人化装备给侦察情报带来的新变化[J]. 军事文摘, 2020(19): 27-30.
Hu Jinsong, Huang Wentao. New Changes Brought by Unmanned Equipment to Reconnaissance Intelligence[J]. Military Digest, 2020(19): 27-30.(in Chinese)
[4] 王耀南, 安果维, 王传成, 等. 智能无人系统技术应用与发展趋势[J]. 中国舰船研究, 2022, 17(5): 9-26.
Wang Yaonan, An Guowei, Wang Chuancheng, et al. Technology Application and Development Trend of Intelligent Unmanned System[J]. Chinese Journal of Ship Research, 2022, 17(5): 9-26.(in Chinese)
[5] Zhao Q, Liu B H, Lyu S C, et al. TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer[J]. Remote Sensing, 2023, 15(6): 1687.
[6] Deng S T, Li S, Xie K, et al. A Global-Local Self-Adaptive Network for Drone-View Object Detection[J]. IEEE Transactions on Image Processing, 2021, 30: 1556-1569.
[7] Huang Y C, Chen J X, Huang D. UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 1026-1033.
[8] 邱荷茜. 视觉目标检测关键技术研究[D]. 成都: 电子科技大学, 2022.
Qiu Heqian. Research on Key Technologies of Visual Object Detection[D]. Chengdu: University of Electronic Science and Technology of China, 2022. (in Chinese)
[9] 冯彦卿. 基于深度学习的视觉目标检测与跟踪技术研究[D]. 长沙: 国防科技大学, 2020.
Feng Yanqing. Research on Visual Object Detection and Tracking Technology Based on Deep Learning[D]. Changsha: National University of Defense Technology, 2020. (in Chinese)
[10] 丁鹏欣. 基于深度学习的图像目标检测关键技术研究[D]. 成都: 四川大学, 2021.
Ding Pengxin. Research on Key Technologies of Image Object Detection Based on Deep Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)
[11] 曹家乐, 李亚利, 孙汉卿, 等. 基于深度学习的视觉目标检测技术综述[J]. 中国图象图形学报, 2022, 27(6): 1697-1722.
Cao Jiale, Li Yali, Sun Hanqing, et al. A Survey on Deep Learning Based Visual Object Detection[J]. Journal of Image and Graphics, 2022, 27(6): 1697-1722.(in Chinese)
[12] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[13] Cai Z W, Vasconcelos N. Cascade R-CNN: High Quality Object Detection and Instance Segmentation[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[14] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
[15] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]∥ European Conference on Computer Vision, 2016: 2325-2341.
[16] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]∥ IEEE International Conference on Computer Vision, 2017.
[17] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[18] Zhu X Z, Su W J, Lu L W, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[C]∥ International Conference on Learning Representations, 2021.
[19] Xu G M, Song T C, Sun X, et al. TransMIN: Transformer-Guided Multi-Interaction Network for Remote Sensing Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 3230973.
[20] Ma X Y, Lv P Y, Zhong Y F. QETR: A Query-Enhanced Transformer for Remote Sensing Image Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 6005905.
[21] Zamir S W, Arora A, Khan S, et al. Multi-Stage Progressive Image Restoration[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
[22] Chen L Y, Chu X J, Zhang X Y, et al. Simple Baselines for Image Restoration[C]∥ European Conference on Computer Vision, 2022: 4676-4696.
[23] Ren W Q, Cao X C, Pan J S, et al. Image Deblurring via Enhanced Low-Rank Prior[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3426-3437.
[24] Yan Y Y, Ren W Q, Guo Y F, et al. Image Deblurring via Extreme Channels Prior[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[25] Ge X Y, Tan J Q, Zhang L. Blind Image Deblurring Using a Non-Linear Channel Prior Based on Dark and Bright Channels[J]. IEEE Transactions on Image Processing, 2021, 30: 6970-6984.
[26] Chen L, Fang F M, Wang T T, et al. Blind Image Deblurring with Local Maximum Gradient Prior[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[27] Liu J, Tan J Q, He L, et al. Blind Image Deblurring via Local Maximum Difference Prior[J]. IEEE Access, 2020, 8: 219295-219307.
[28] Cho S J, Ji S W, Hong J P, et al. Rethinking Coarse-to-Fine Approach in Single Image Deblurring[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[29] Nah S, Kim T H, Lee K M. Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[30] Tu Z Z, Talebi H, Zhang H, et al. MAXIM: Multi-Axis MLP for Image Processing[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022.
[31] Kupyn O, Budzan V, Mykhailych M, et al. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[32] Kupyn O, Martyniuk T, Wu J R, et al. DeblurGAN-V2: Deblurring (Orders-of-Magnitude) Faster and Better[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[33] Fang T T, Liu B, Zhao Z W, et al. Affinity-Aware Relation Network for Oriented Object Detection in Aerial Images[C]∥Asian Conference on Computer Vision, 2022: 3343-3360.
[34] Doloriel C T C, Cajote R D. Improving the Detection of Small Oriented Objects in Aerial Images[C]∥IEEE/CVF Winter Conference on Applications of Computer Vision Workshops, 2023.
[35] Xu C, Ding J, Wang J W, et al. Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
[36] 杨建秀. 无人机视角下车辆目标检测的算法研究[D]. 西安: 西安电子科技大学, 2021.
Yang Jianxiu. Research on Vehicle Detection Algorithms from UAV Imagery[D]. Xi’an: Xidian University, 2021. (in Chinese)
[37] 韩伟. 基于深度神经网络的高分辨率遥感影像弱小目标检测[D]. 武汉: 中国地质大学, 2021.
Han Wei. Small Weak Object Detection in High-Resolution Remote Sensing Images Based on Deep Neural Network[D]. Wuhan: China University of Geosciences, 2021. (in Chinese)
[38] 李雪森, 谭北海, 余荣, 等. 基于YOLOv5的轻量化无人机航拍小目标检测算法[J]. 广东工业大学学报, 2024, 41(3): 71-80.
Li Xuesen, Tan Beihai, Yu Rong, et al. Small Target Detection Algorithm for Lightweight UAV Aerial Photography Based on YOLOv5[J]. Journal of Guangdong University of Technology, 2024, 41(3): 71-80.(in Chinese)
[39] 王乾胜, 展勇忠, 邹宇. 基于改进Yolov5n的无人机对地面军事目标识别算法[J]. 计算机测量与控制, 2024, 32(6): 189-197.
Wang Qiansheng, Zhan Yongzhong, Zou Yu. Recognition Algorithm for UAV Ground Military Targets Based on Improved Yolov5n[J]. Computer Measurement amp; Control, 2024, 32(6): 189-197.(in Chinese)
[40] 牛为华, 魏雅丽. 基于改进YOLOv 7的航拍小目标检测算法[J]. 电光与控制, 2024, 31(1): 117-122.
Niu Weihua, Wei Yali. Small Target Detection in Aerial Photography Images Based on Improved YOLOv7 Algorithm[J]. Electro-nics Optics amp; Control, 2024, 31(1): 117-122.(in Chinese)
[41] 沈学利, 王灵超. 基于YOLOv8n的无人机航拍目标检测[J]. 计算机系统应用, 2024, 33(7): 139-148.
Shen Xueli, Wang Lingchao. UAV Aerial Photography Target Detection Based on YOLOv8n[J]. Computer Systems and Applications, 2024, 33(7): 139-148.(in Chinese)
[42] Liang Y H, Qin G H, Sun M H, et al. A Systematic Review of Image-Level Camouflaged Object Detection with Deep Learning[J]. Neurocomputing, 2024, 566: 127050.
[43] 孙备, 党昭洋, 吴鹏, 等. 多尺度互交叉注意力改进的单无人机对地伪装目标检测定位方法[J]. 仪器仪表学报, 2023, 44(6): 54-65.
Sun Bei, Dang Zhaoyang, Wu Peng, et al. Multi Scale Cross Attention Improved Method of Single Unmanned Aerial Vehicle for Ground Camouflage Target Detection and Localization[J]. Chinese Journal of Scientific Instrument, 2023, 44(6): 54-65.(in Chinese)
[44] 赖杰, 彭锐晖, 孙殿星, 等. 融合注意力机制与多检测层结构的伪装目标检测[J]. 中国图象图形学报, 2024, 29(1): 134-146.
Lai Jie, Peng Ruihui, Sun Dianxing, et al. Detection of Camouflage Targets Based on Attention Mechanism and Multi-Detection Layer Structure[J]. Journal of Image and Graphics, 2024, 29(1): 134-146.(in Chinese)
[45] Zhang K H, Ren W Q, Luo W H, et al. Deep Image Deblurring: A Survey[J]. International Journal of Computer Vision, 2022, 130(9): 2103-2130.
[46] 蔡锷, 邓春华. 基于深度信念沙漏网络的无人机运动模糊图像的恢复[J]. 计算机应用与软件, 2022, 39(5): 260-266.
Cai E, Deng Chunhua. Restoration of Motion-Blurred UAV Images Based on Deep Belief Hourglass Networkor[J]. Computer Applications and Software, 2022, 39(5): 260-266.(in Chinese)
[47] 王馨. 基于三维重建应用场景下的无人机图像去模糊算法的研究[D]. 天津: 天津理工大学, 2023.
Wang Xin. Research on Image Deblurring Algorithm of UAV Based on 3d Reconstruction Application Scenario[D]. Tianjin: Tianjin University of Technology, 2023. (in Chinese)
[48] 张文政, 吴长悦, 赵文, 等. 融合对抗网络和维纳滤波的无人机图像去模糊方法研究[J]. 无线电工程, 2024, 54(3): 607-614.
Zhang Wenzheng, Wu Changyue, Zhao Wen, et al. Research on UAV Image Deblurring Method Based on Adversarial Network and Wiener Filter[J]. Radio Engineering, 2024, 54(3): 607-614.(in Chinese)
[49] Mueller M, Smith N, Ghanem B. A Benchmark and Simulator for UAV Tracking[C]∥ European Conference on Computer Vision, 2016: 445-461.
[50] Du D W, Qi Y K, Yu H Y, et al. The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking[C]∥European Conference on Computer Vision," 2018: 375-391.
[51] Zhu P F, Wen L Y, Du D W, et al. Detection and Tracking Meet Drones Challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(11): 7380-7399.
[52] Sun Y M, Cao B, Zhu P F, et al. Drone-Based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10): 6700-6713.
[53] Liu M Z, Di X G. Extraordinary MHNet: Military High-Level Camouflage Object Detection Network and Dataset[J]. Neurocomputing, 2023, 549: 126466.
[54] Rim J, Kim G, Kim J, et al. Realistic Blur Synthesis for Learning Image Deblurring[C]∥European Conference on Computer Vision, 2022: 487-503.
[55] Tan M X, Pang R M, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
[56] 吕璐, 程虎, 朱鸿泰, 等. 基于深度学习的目标检测研究与应用综述[J]. 电子与封装, 2022, 22(1): 72-80.
Lü Lu, Cheng Hu, Zhu Hongtai, et al. Progress of Research and Application of Object Detection Based on Deep Learning[J]. Electronics amp; Packaging, 2022, 22(1): 72-80.(in Chinese)
[57] 谢富, 朱定局. 深度学习目标检测方法综述[J]. 计算机系统应用, 2022, 31(2): 1-12.
Xie Fu, Zhu Dingju. Survey on Deep Learning Object Detection[J]. Computer Systems and Applications, 2022, 31(2): 1-12.(in Chinese)
[58] 那振宇, 程留洋, 孙鸿晨, 等. 基于深度学习的无人机检测和识别研究综述[J]. 信号处理, 2024, 40(4): 609-624.
Na Zhenyu, Cheng Liuyang, Sun Hongchen, et al. Survey on UAV Detection and Identification Based on Deep Learning[J]. Journal of Signal Processing, 2024, 40(4): 609-624.(in Chinese)
[59] Viola P, Jones M. Rapid Object Detection Using a Boosted Cascade of Simple Features[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001.
[60] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition ," 2005.
[61] Zhu B Y, Lv Q B, Tan Z. Adaptive Multi-Scale Fusion Blind Deblurred Generative Adversarial Network Method for Sharpening Image Data[J]. Drones, 2023, 7(2): 96-119.
[62] Feng Y J, Yang Y, Fan X H, et al. A Multiscale Generalized Shrinkage Threshold Network for Image Blind Deblurring in Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 3368760.
[63] Lin T Y, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[64] Ghiasi G, Lin T Y, Le Q V. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2019.
[65] Liu S, Qi L, Qin H F, et al. Path Aggregation Network for Instance Segmentation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[66] Sun W, Dai L, Zhang X R, et al. RSOD: Real-Time Small Object Detection Algorithm in UAV-Based Traffic Monitoring[J]. Applied Intelligence, 2022, 52(8): 8448-8463.
[67] Li Y H, Chen Y T, Wang N Y, et al. Scale-Aware Trident Networks for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[68] Liu Z M, Gao G Y, Sun L, et al. HRDNet: High-Resolution Detection Network for Small Objects[C]∥IEEE International Conference on Multimedia and Expo, 2021.
[69] Wang B Y, Ji R Y, Zhang L B, et al. Bridging Multi-Scale Context-Aware Representation for Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(5): 2317-2329.
[70] Zhao Y, Zhao L J, Li C Y, et al. Pyramid Attention Dilated Network for Aircraft Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4): 662-666.
[71] Lim J S, Astrid M, Yoon H J, et al. Small Object Detection Using Context and Attention[C]∥International Conference on Artificial Intelligence in Information and Communication, 2021.
[72] Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks[C]∥ IEEE Conference on Computer Vision and Pattern Recognition , 2016.
[73] Li J N, Wei Y C, Liang X D, et al. Attentive Contexts for Object Detection[J]. IEEE Transactions on Multimedia, 2017, 19(5): 944-954.
[74] Bai Y C, Zhang Y Q, Ding M L, et al. SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network[C]∥European Conference on Computer Vision, 2018: 210-226.
[75] Li J N, Liang X D, Wei Y C, et al. Perceptual Generative Adversarial Networks for Small Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[76] Noh J, Bae W, Lee W, et al. Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[77] 曹连雨. 基于深度卷积神经网络的遥感影像目标检测技术研究及应用[D]. 北京: 北京科技大学, 2021.
Cao Lianyu. Research and Application on Object Detection of Remote Sensing Images Based on Deep Convolution Neural Network[D]. Beijing: University of Science and Technology Beijing, 2021. (in Chinese)
[78] Xie X X, Cheng G, Wang J B, et al. Oriented R-CNN for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2021.
[79] Ding J, Xue N, Long Y, et al. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[80] Zheng Y B, Sun P, Zhou Z T, et al. ADT-Det: Adaptive Dynamic Refined Single-Stage Transformer Detector for Arbitrary-Oriented Object Detection in Satellite Optical Imagery[J]. Remote Sensing, 2021, 13(13): 2623.
[81] Han J M, Ding J, Li J, et al. Align Deep Features for Oriented Object Detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5602511.
[82] Yang X, Yan J C, Feng Z M, et al. R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.
[83] Yang X, Yang J R, Yan J C, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[84] Ming Q, Zhou Z Q, Miao L J, et al. Dynamic Anchor Learning for Arbitrary-Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(3): 2355-2363.
[85] Hou L P, Lu K, Xue J, et al. Shape-Adaptive Selection and Measurement for Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 923-932.
[86] Li W T, Chen Y J, Hu K X, et al. Oriented RepPoints for Aerial Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2022.
[87] Xu Y C, Fu M T, Wang Q M, et al. Gliding Vertex on the Horizontal Bounding Box for Multi-Oriented Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(4): 1452-1459.
[88] Yang X, Yan J C. Arbitrary-Oriented Object Detection with Circular Smooth Label[C]∥European Conference on Computer Vision, 2020: 677-694.
[89]" Chen Z M, Chen K A, Lin W Y, et al. PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments[C]∥European Conference on Computer Vision, 2020: 195-211.
[90] Yang X, Yan J C, Ming Q, et al. Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss[C]∥ International Conference on Machine Learning, 2021: 11830-11841.
[91] Yang X, Yang X J, Yang J R, et al. Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence[J]. Advances in Neural Information Processing Systems, 2021, 34: 1-16.
[92] Zhu H F, Huang Y H, Xu Y, et al. Unmanned Aerial Vehicle (UAV) Object Detection Algorithm Based on Keypoints Representation and Rotated Distance-IoU Loss[J]. Journal of Real-Time Image Processing, 2024, 21(2): 58.
[93] Tankus A, Yeshurun Y. Convexity-Based Visual Camouflage Breaking[J]. Computer Vision and Image Understanding, 2001, 82(3): 208-237.
[94] Boot W R, Neider M B, Kramer A F. Training and Transfer of Training in the Search for Camouflaged Targets[J]. Attention, Perception amp; Psychophysics, 2009, 71(4): 950-963.
[95] Neider M B, Zelinsky G J. Searching for Camouflaged Targets: Effects of Target-Background Similarity on Visual Search[J]. Vision Research, 2006, 46(14): 2217-2235.
[96] Beiderman Y, Teicher M, Garcia J, et al. Optical Technique for Classification, Recognition and Identification of Obscured Objects[J]. Optics Communications, 2010, 283(21): 4274-4282.
[97] Liu Z, Huang K Q, Tan T N. Foreground Object Detection Using Top-Down Information Based on EM Framework[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4204-4217.
[98] Le T N, Nguyen T V, Nie Z L, et al. Anabranch Network for Camouflaged Object Segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56.
[99] Fan D P, Ji G P, Sun G L, et al. Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2020.
[100] Sun Y J, Chen G, Zhou T, et al. Context-Aware Cross-Level Fusion Network for Camouflaged Object Detection[C]∥Thirtieth International Joint Conference on Artificial Intelligence, 2021: 1025-1031.
[101] Ren J J, Hu X W, Zhu L, et al. Deep Texture-Aware Features for Camouflaged Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(3): 1157-1167.
[102] Zhai W, Cao Y, Xie H Y, et al. Deep Texton-Coherence Network for Camouflaged Object Detection[J]. IEEE Transactions on Multimedia, 2023, 25: 5155-5165.
[103] Yang F, Zhai Q, Li X, et al. Uncertainty-Guided Transformer Reasoning for Camouflaged Object Detection[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[104] Zhang Z J, Wang T, Wang J, et al. Features Split and Aggregation Network for Camouflaged Object Detection[J]. Journal of Imaging, 2024, 10(1): 1-16.
[105] Ge Y L, Ren J C, Zhang Q, et al. Camouflaged Object Detection via Cross-Level Refinement and Interaction Network[J]. Image and Vision Computing, 2024, 144: 104973.
[106] Zhang Q, Sun X X, Chen Y R, et al. Attention-Induced Semantic and Boundary Interaction Network for Camouflaged Object Detection[J]. Computer Vision and Image Understanding, 2023, 233: 103719.
[107] Li A X, Zhang J, Lv Y Q, et al. Uncertainty-Aware Joint Salient Object and Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[108] Lü Y Q, Zhang J, Dai Y C, et al. Simultaneously Localize, Segment and Rank the Camouflaged Objects[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[109] Fan D P, Ji G P, Cheng M M, et al. Concealed Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6024-6042.
[110] Yan J N, Le T N, Nguyen K D, et al. MirrorNet: Bio-Inspired Camouflaged Object Segmentation[J]. IEEE Access, 2021, 9: 43290-43300.
[111] Tang L F, Yuan J T, Ma J Y. Image Fusion in the Loop of High-Level Vision Tasks: A Semantic-Aware Real-Time Infrared and Visible Image Fusion Network[J]. Information Fusion, 2022, 82: 28-42.
[112] Dong H, Gu W H, Zhang X J, et al. SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation[C]∥IEEE International Conference on Robotics and Automation , 2024.
[113] Jiang X H, Cai W, Ding Y, et al. Camouflaged Object Detection Based on Ternary Cascade Perception[J]. Remote Sensing, 2023, 15(5): 1188.
[114] Xu B, Wang C Q, Liu Y, et al. An Anchor-Based Convolutional Network for the Near-Surface Camouflaged Personnel Detection of UAVs[J]. The Visual Computer, 2024, 40(3): 1659-1671.
[115] Song Z B, Zhang Z Y, Fang F Y, et al. Deep Semantic-Aware Remote Sensing Image Deblurring[J]. Signal Processing, 2023, 211: 109108.
[116] Li Z Y, Guo J Y, Zhang Y T, et al. Reference-Based Multi-Level Features Fusion Deblurring Network for Optical Remote Sensing Images[J]. Remote Sensing, 2022, 14(11): 2520.
[117] Mao Y X, Wan Z X, Dai Y C, et al. Deep Idempotent Network for Efficient Single Image Blind Deblurring[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(1): 172-185.
[118] Zhu B Y, Lv Q B, Yang Y B, et al. Blind Deblurring of Remote-Sensing Single Images Based on Feature Alignment[J]. Sensors, 2022, 22(20): 7894.
A Survey of UAV Visible-Light Object Detection
Based on Deep Learning
Liu Keshun, Zuo Xiaotong, Zhang Yuhua, Wang Changlong, Yang Sen*
(Shijiazhuang Campus of Army Engineering University of PLA, Shijiazhuang 050003, China)
Abstract: With the rapid development of artificial intelligence, visible-light object detection, as an important part of computer vision technology, has been widely used in the unmanned aerial vehicle (UAV) reconnaissance field. Using deep learning technology to deeply explore object features in complex battlefield environments and low-quality images can effectively solve the difficulties and challenges of visible-light object detection in UAV reconnaissance scenario, and further improve the accuracy of visible-light object detection. Therefore, a comprehensive survey is conducted on UAV visible-light object detection methods based on deep learning. First, various challenges of UAV visible-light object detection are introduced, such as small scale, arbitrary orientation, high camouflage, and motion blur. Second, main public datasets for visible-light object detection and image restoration are described. Then, combined with various challenges faced by UAV visible-light object detection, the application, advantages and disadvantages of deep learning methods in UAV visible-light object detection are summarized. Finally, the future possible research direction for UAV visible light object detection is discussed.
Key words:" UAV; complex battlefield environment; low-quality image; deep learning; visible-light object detection