陈超逸 魏沛杰 刘永峰 韦哲 薛松
摘 要 :深度学习在计算机目标检测领域近几年突飞猛进,取得了较大的成果。本文总结了迄今为止相关研究成果并分析了主要算法的利弊,从无人机航拍影响数据集和目标检测算法的研究发展趋势出发,分析了无人机航拍的成像特点、相关计算机目标检测算法的存在问题和改进空间。目前,无人机影像目标检测技术正处于快速发展阶段,具有广阔的应用前景和实用价值。
关键字:目标检测;深度学习;计算机视觉;无人机影像
1研究背景及意义
目标检测作为计算机视觉研究领域之一,是热点课题也是重点课题,一直以来受到广大学者的关注和研究。传统的目标检测方式首先从指定的图形上确定几个候选的地区,然后再以滑动的方法对这些地区提取特点,最后利用经过训练的分级器,对所提取的特点加以分组运算。由于采用滑动窗口的区域选择策略没有针对性,且时间复杂性较高,因此窗口多余严重,而手工设计的特征针对多样性的改变也不能很好的鲁棒性,因此传统目标检测算法难以满足发展需求,已经逐步淘汰。
深度学习是计算机学习研究中的全新重要领域,随着学术界对关键技术的进一步深入研究与发展,基于深度学习的目标测试技术也获得了突破性发展。基于学习的目标检测算法利用深度卷积神经网络获取目标特征,在鲁棒性、准确度和检测速度方面均超过了传统算法。深度研究的实质意义上,是指利用建立有很多隐层结构的机器学习模型和海量的训练数据分析,来了解更全面的系统特性,以便于最终提高分析或预测结果的精确度,具有良好的泛化性,相比较传统算法,在完成指定场景下的检测任务具有更好的表现。
随着无人机技术的发展以及安全方面的需求,经常需要利用无人机航拍来进行数据的采集。无人机能够快速的获取大量数据,在农业、军事、建筑、地质等许多领域发挥了重要作用。目前为止,常规图像目标检测技术的发展已经趋向成熟,可无人机航拍时视野广、视角高、天气复杂,其成像不稳定、目标尺度小,难以直接提取影像中的信息特征,深度学习目标检测算法在此领域依旧需要进一步的研究与改进。
2国内外研究现状
2.1目标检测研究现状
目标检测任务是寻找目标在给定图像中的位置并判定目标的归属类别。目标检测技术发展至今已有多年历程,从2001年至2021年目标检测技术发展的线路方案,大致上经过了两个主要发展阶段——基于经典特征信息提取的目标检测时代、以及基于深度学习的目标检测时代。
在深度学习时代以前,早期基于经典特征提取的传统目标检测方式的过程主要包括了三步:候选框生成、特征矢量获取,以及区域划分。候选框生成的主要功能是寻找目标在图片中可能出现的地方,如"感兴趣区域"ROI,并通过更多尺寸的滑动窗口扫描整幅图片;第二阶段需要设计能够捕捉语义信息和鲁棒性的视觉特征用来判别任务目标;第三阶段使用区域分类器,将目标对象与其他类别区分。
近年来,计算机硬件技术的飞速发展为深度卷积神经网络的实现提供了算力保障,基于深度学习的目标检测算法逐步成为目标检测算法的主流。基于深度学习,目标检测分别向两个主要研究方向发展——基于候选区域的算法和基于回归的算法。基于候选区域的算法也叫双阶段目标检测算法,第一阶段是选取候选区域,第二阶段是进行分类和边框位置的回归。双阶段目标检测的代表算法主要有RCNN、Fast RCNN、Faster RCNN等。基于回归的算法又叫单阶段目标检测算法,该算法可以跳过对候选框的选择,直接从卷积网络中预测类别的坐标值和置信度,单阶段目标检测的代表算法主要有YOLO、YOLOv2、YOLOv3、SSD等。基于深度学习的目标检测方法,从结果分析来看,从速度和精度上都大大超越了传统的目标检测方式,并且降低了人为因素,从而拥有卓越的泛化能力,基于深度学习研究目标检测,已逐渐成为主流。
2.2无人机航拍影像的目标检测研究工作现状
无人机因其航拍特殊性,其成像中任务目标广泛较小、大范围拍摄造成的尺度差异悬殊、背景多变,许多已在常规数据集上验证有效的深度学习方法无法直接利用。因此,许多研究针对无人机影像特点改进深度学习模型,以优化小目标检测的精度。现有的目标检测算法在无人机影像上的检测效果仍然不尽理想。对无人机视角下的影像进行检测有以下几方面的研究重点和研究难点:
(1)可用数据集缺乏。虽然无人机技术得到了飞速发展,无人机航拍影像的质量也逐渐提升、种类更加完全,但是还是缺少大范围的无人机航拍公开数据集,无法确保模型的充分训练。
(2)无人机成像目标尺度小。无人机在高空拍摄时,角度高,视野广,而任务目标在成像里往往可能只有数百像素,与全景图像尺寸比很小。
(3) 无人机航拍目标尺度变化大、背景复杂。无人机对地面物体拍摄时的范畴较广并且角度各异,导致图像中涉及的目标角度和尺度差异较大,尤其是随着无人机与目的距离的靠近。
3无人机目标检测研究进展
针对无人机图像中的机场、飞机、汽车等目标识别,属于一种“大范围、小目标”的识别应用,受限于目标尺寸、目标形态改变、背景干扰等各种因素的影响,传统的目标识别方法很难达到较高的準确性,近年来基于深度学习的目标检测方法在无人机技术应用领域取得了一些重要的研究进展。面向无人机图像的深度学习目标识别方法,可以解决在复杂场景下对“大范围、小目标”应用的快速准确定位问题。通过深度学习方法,首先对机场、飞机等目标进行识别,之后再对目标类型进行精细识别。使用候选窗口获取和分类器辨识的识别框架:先通过区域候选计算,获取待辨识的目标区域;在候选范围上使用已经训练好的学习模块,对范围内所包含主要目标类型做出分类辨识。
3.1航空影像数据集现状
无人机航拍影像有其独特显著的特点,在公开的自然情形图像数据集MS COCO等上面做检测任务时取得的效果令人差强人意。
出现用无人机当拍摄平台来制作数据集的时间比较晚。深度学习的结果非常依赖数据集的质量,然而在无人机影像目标检测上,我们缺少大量诸如ImageNet、MS COCO等成熟公开的数据集。目前,无人机航拍影像数据集的类别数量,以及目标标注过的公开数据集非常少,绝大多数现有的数据集收集的类别大概局限在车辆、建筑、飞机和船舶,比较下来,ImageNet里包括1000个类别共1281167张带注释(标签)的训练集图片,所以现有的数据集难以表现现实世界的复杂程度;同时,目标的尺度变化和旋转特性不够丰富,相比于卫星和传统航空遥感平台,无人机有着较高的灵活性,目标较为丰富的变化才能逼近无人机的实际航拍场景。因此,在采集和制作无人机影像数据集时应作如下方向努力:
1)数据集应具有较大的规模。目标类别、目标标注在数量上要足以支撑基于深度学习的方法。类别的选择除了满足实际应用还要平衡正负样本的比率,从而进一步提高无人机影像目标检测的技术水平。
2)数据集应具有较好的泛化性,淡化数据集本身的特征。使用不同传感器进行航拍,保证相同类别目标具有不同的分辨率;拍摄时段和天气应多样化,从而确保影像信息之间具有偏差更加贴合实际。
3)数据集应充分表征无人机影像的特点。背景信息足够丰富,不能刻意排除模糊、有遮挡或难以辨别的目标;采集数据时应注意同类目标的多样性和相似性,包括尺度和形状的变化、旋转特性等。
3.2无人机目标检测研究现状与重难点
计算机视觉领域中基于深度学习的目标检测方法在自然场景领域取得了巨大的成功,这对于无人机目标检测任务是值得借鉴和参考的,很多国内外研究提出了效果显著的改进算法。本文从无人机影像的4个特点出发,分析比较了一些具有代表性的方法。
3.2.1无人机影像中的复杂背景问题
无人机影像中目标密集区域往往存在着大量近似物体,从而导致检测中的漏检或误报增加。此外,无人机影像背景中大量噪声信息,还会使目标被弱化或遮挡,难以被连续和完整地检测。
在解决无人机影像中的复杂背景问题时,上下文信息可以帮助模型对目标与背景的理解,从而从提取更好的目标特征,但上下文信息需要进行挑选,通常只有部分信息是对模型有用的;空洞卷积在增加感受野的同时保留细节信息,为了适应无人机影像中的目标分布和遮挡情况,多尺度空洞券积中提取的特征大小和数量显得尤为重要:注意力机制可以有效过滤背景中的无用信息,不过在无人机目标检测这种特定的场景下需要合理地分配权重,避免小目标的漏检或误报。
3.2.2无人机影像中的小目标问题
无人机影像中目标的尺度范围大,各类目标经常出现在同一图片中。小目标在图片中占比极小,提供的分辨率有限,从而造成检测困难。
在解决无人机影像中的小目标问题时,特征融合的方法可以结合多层特征来进行预测,提高对多尺度目标尤其是小目标的检测效果。根据不同场景下无人机目标检测任务的需求,具有相应特性的CNN模型或模块与FPN结合都取得了较好的检测效果,但却增加了时间成本。轻量化的网络模型是一种解决方法,另一种思路则从训练深度学习模型的角度出发,在已有数据集的情况下改进训练质量,具有很高的实际工程适用性。
3.2.3无人机影像中的大视场问题
无人机的探测范围较广,且不受地理因素等限制因此得到的图像视场往往很大。大视场下的目标检测面临着目标分布不均、目标稀疏等问题。
针对候选区域生成算法的缺点,一些研究将强化学习用于大视场图片的目标搜索中。在解决无人机影像中的大视场问题时,首先要考虑的是减少目标搜索的成本,常见的方法为区域特征编码方法的优化,如增加ROI输出的数量或增加ROI生成模块感受野;对子图片进行检测时,目标尺度的估计对检测精度有着较大影响。减少搜索区域的方法本质上还是两阶段的目标检测方法,需要遍历整张图片,效率较低。强化学习与CNN的结合实现了大视场影像中的自适应担索,增加效率的同时保证了子图片检测的精度。
3.2.4无人机影像中的旋转问题
无人机影像中的物体可能在任意位置和方向上出现,同一类物体的角度变化也不尽相同。无人机目标检测任务因此变得困难,旋转的物体使位置回归变得困难,因而大量的目标被漏检。常见的检测方法按照候选区域和包围盒的形式,可分为水平检测和旋转检测。
在解决无人机影像中的旋转问题时,较为直接而简便的方法为保持水平的ROI不变,自定义包用盒的形状来适应目标旋转特性;使用旋转的RROI生成的区域特征与目标旋转特性较为匹配,可以有效避免大量的回归错位,但旋转的锚定框的生成增加了计算量;通过默认的水平锚定框转换得到RROI避免了计算量的增加,且仍有着较高的回归精度。而无锚点的回归摆脱了锚定框对包围盒的限制,增强了模型的实时性和精度,不过回归的稳定性需要进一步研究。
4总结与展望
目前,无人机目标检测算法的受关注程度与日俱增,现有的算法也取得了不错的检测效果,但还有很大的改进空间。复杂背景给目标检测任务带来的干扰得到了有效抑制,但现有的算法仍存在虚警和漏检问题,检测效果不太理想;基于两阶段方法的目标检测算法在分类和回归的精度上有优势,大部分小目标检测方法都是基于此来进行改进,加之新模块和网络的引入,使得检测速度仍然较慢;多数算法都是基于现有算法的改进,增加了检测的局限性,需要有新的方法来提高定位精度。
針对上述问题和近几年的研究趋势,本文对无人机目标检测未来研究的方向做出如下讨论:
1)在增大感受野的同时,密集地生成不同尺度的特征。无人机影像的分辨率较高,ASPP 可以在保证特征分辨率的同时,增大感受野,但随着扩张率的增长,空洞卷积会失效。
2)自适应地融合特征和生成ROI。无人机因应用场景的不同而获取不同特性的影像,为了避免有用信息的丢失,在特征融合和生成ROI时可以给不同的特征层赋权,通过加权融合得到相应的上下文特征和高质量的ROI,进而提高目标检测模型的泛化性。
3)深度学习方法与其他方法的结合。深度学习方法在目标检测领域有着显著的优势,也取得了极大的成功,其他算法的加入将会弥补单一方法的局限性。
4)减少进行位置回归时的限制。基于锚点的回归中锚定框的设置需要与待检测的目标形状相符合,但在无人机影像中,目标的形状和朝向多变,预设的锚定框限制了位置回归。对于关键点重合而导致的检测结果不稳定问题,可以对关键点进行二次预测和匹配来提高检测的精确性。
参考文献:
[1]石叶楠,郑国磊,三种用于机加工特征识别的神经网络方法综述[J].航空学报,2019,40(9);182-198
[2] RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery[J]. Journal of Visual Communication and Image Representation,2016, 34(C):187-203.
[3]Fahlstrom P,Gleason T.无人机系统导论[M].吴汉平,施自胜,丁亚非,等,译.二版.北京:电子工业出版社,2003.
[4]朱华勇,牛轶峰,沈林成,等.无人机系统资助控制技术研究现状与发展趋势[J].国防科技大学学报,2010,32(3):115-120.
[5]江波,屈若锟,李彦冬,李诚龙,基于深度学习的无人机航拍目标检测研究综述[J].航空学报,2021,42(4)