基于卷积神经网络的无人机视觉跟踪系统设计

2023-08-16 05:01:16李常磊张曦郁

无线互联科技 2023年11期

李常磊,张曦郁

(驻西安地区第九军代室,陕西西安 710064)

0 引言

无人机(UnmannedAerial Vehicles, UAV)是一种不搭载飞行员、乘客的飞行器,具有完全或部分自主的能力,在大部分情况下由人类飞行员远程控制。在过去10 年,人们见证了商用无人机的普及,其种类呈现了爆炸式增长,以应对不同的应用场景[1]。需要注意的是在拥挤的公共场合和机场使用此类设备是受到监管的[2]。在这些场合,不明无人机的存在可能对公众构成威胁,此外由商用无人机而破坏机场安全的实例也屡见不鲜。

针对该问题,地理围栏系统应用而生。该系统需要预先划定无人机可飞行的区域,然后借助蓝牙、WiFi、GPS 等定位技术完成对定位源进行跟踪和报警,由此防止无人机进入限制空域[3]。目前,该系统主要通过在规定的空域内使用现有的摄像机基础设施来实现,以进行适当的自动定位和响应。本文主要研究了面向无人机地理围栏系统的视觉跟踪算法,以确保UAV 保持在允许的空域内。

1 无人机PTZ 相机视觉跟踪系统框架设计

由于运动模糊、光照变化和遮挡等固有问题,无人机的视觉跟踪是一个具有挑战性的问题[4]。长期跟踪器(Long-Term Trackers,LTT)能够有效地解决目标消失和重现的问题,这是自主视觉跟踪的一个基本特性[5]。 LTT 由以下两部分组成:(1)基于前一帧估计目标边界框的短期跟踪模块;(2)负责报告目标消失的检测模块。该结构创建了跟踪、学习和检测子任务。但在LTT 中,目标边界框需要由用户初始化,这在一定程度上限制了系统的自主使用的能力。

针对上述问题,本文提出了具有自动目标初始化功能跟踪系统。其基本流程为:(1)测量搜索区域;(2)使用现有目标分类器初始化目标边界框;(3)利用短期跟踪器创建用于视觉伺服的LTT。视觉伺服方案通过调整PTZ 相机平台的俯仰角θ,ϕ 和变焦系数zm,使被测无人机在摄像机视场范围内占据被测图像的较大部分。用于无人机跟踪的PTZ 相机坐标系统如图1 所示。对无人机位置的估计是通过对其尺寸的先验知识进行的。

图1 用于无人机跟踪的PTZ 相机坐标系统

在上述基本流程的第3 步提到的视觉伺服问题,可分为运动目标检测、目标识别、跟踪和伺服。运动目标检测和目标识别共同构成了无人机位置的边界框估计,是跟踪和伺服中STT 初始化的基础。本文提出的PTZ 相机视觉伺服软件结构如图2 所示。

图2 PTZ 相机视觉伺服软件结构

对于提出系统用到的嵌入式软件包括搜索、目标检测、分类/识别、跟踪4 种状态。系统间歇性进入“搜索”状态,调整摄像头位置以覆盖预定义的搜索区域。目标检测是从视频序列中分割运动目标。目标识别是为确认目标,然后将目标传递给利用STT 进行帧到帧关联的目标跟踪。

2 基于深度学习的无人机视觉跟踪

2.1 移动无人机的边界框估计

边界框估计的目的是为实现框架提供给定帧的前景目标的位置。其主要挑战包括由于相机运动产生的模糊、相机传感器产生的噪声以及移动物体碎片。使用基于深度学习的目标检测器或统计背景建模来识别前景,可以有效地解决该挑战。基于深度学习的目标检测器可用于对底层深度神经网络训练的某些目标执行定位和识别。虽然这种检测器已经得到了成功的应用,但目前仅限于离线处理。而在实时性要求较高的场景下,使用高清图像时的计算负担限制了它们在远程实时视觉伺服的引用。

运动目标检测可以通过使用高斯混合建模的统计背景模型进行背景差分。笔者测试了5 种不同的背景差分模型:混合高斯(Mixture of Gaussian,MOG),MOG2,GMG,CNT 和k 最近邻(k-nearest neighbor,KNN)差分法[6-7]。

MOG 背景差分法用一组高斯分布的混合减去每个背景像素。在算法的每个阶段都采用了更新函数,以加快后台学习过程。 MOG2 算法通过自动选择混合的数量来改进MOG,提高对光照变化的弹性和对不同环境的适应性。 GMG 算法在统计估计背景图像的同时,对每个像素使用贝叶斯分割,并通过启发式置信度水平选择性地应用滤波算法。 CNT 是基于计算像素稳定性的时间。 KNN 背景差分法使用k 近邻方法根据样本密度确定内核大小,这比使用固定内核大小产生更好的性能。

MOG,MOG2 和GMG 模型都存在分割问题,其中前景目标显示为单独的斑点。尽管MOG2 在三者中提供了最小的碎片,但涉及多个移动目标的某些场景会导致失败。尽管并行CNT 是一种低成本的算法,但高频纹理的存在导致分割不稳定。与所有方法相比,KNN 产生的碎片数量最少,并且使用核大小为5px 的圆形中值滤波器可以消除噪声。因此,在本系统中采用KNN 模型。

2.2 面向无人机识别的卷积神经网络

预训练的卷积神经网络(Convolutional Neural Network, CNN)在识别形状相似的物体方面表现出良好的性能。在文献中常用的ResNet50 作为目标分类器。虽然也可以使用其他最先进的分类框架,如VGG,DenseNet,GoogLeNet 和Inception 等。但ResNet50 提供了实现系统所需的性能。

ResNet 架构引入了残差连接,其中两个连续卷积层的输出跳过下一层的输入。由此产生的体系结构改进了梯度流,允许更深层次的网络实现。本文提出对ResNet-50 架构进行修改,即对边界框检测器检测到的前景目标执行二进制分类。由于缺乏对商用无人机进行分类的数据集,本文收集了各种无人机的内部无人机数据集。无人机二值分类器的大部分正图像是在室内和室外飞行中采集的。一些图像是从网上公开的数据集和百度图像搜索中收集的。结果数据集有近10 000 个无人机样本。从ImageNet 数据集和内部镜头背景中随机抽取训练过程中匹配数量的反面例子,得到超过5 万张训练图像。

在训练过程中遇到的问题包括训练数据和测试数据之间的光照条件差异,滚动快门相机造成的模糊,以及图像遮挡等。在训练期间应用归一化转换、旋转和部分缩放候选区域的样本来增强数据集,以及用噪声破坏40%的图像(即加性高斯噪声和恒定偏差、模糊、部分遮挡、水平镜像),以提高鲁棒性。

2.3 PTZ 相机的视觉伺服设计

利用从第一节获得的目标边界框,可实现STT 的初始化。使用核相关滤波器(kernelized correlation filter,KCF)跟踪算法作为基础[8]。该算法的不足在于缺乏规模适应能力。因此,本文提出在空间正则化判别相关滤波器跟踪算法下,引入预定义的滤波器加权策略。

3 实验验证

本文将通过室内测试,来验证提出的系统在跟踪和位置估计方面的性能。实验中设定的飞行时间160 s。使用3 个解耦PID 控制器,根据跟踪器的输出调整摄像机的PTZ 参数。影响平移和倾斜参数的定位误差定义为边界框质心与图像中心之间的像素差,而缩放误差则与边界框内像素与整体图像像素的比值有关。实验过程中,将比例误差、积分误差和导数误差系数设置为kp=1.2,ki=0.1,kd=0.1;这些参数是使用大疆Mavic Pro 无人机在距离相机5 m 的距离手动调整为1 倍的变焦。

如果系统能够实现当无人机不在相机的FoV 时不跟踪,并且无人机在相机的FoV 时跟踪,则认为所设计的跟踪系统是有效的。相反的,如果系统跟踪非无人机目标,或未跟踪无人机则认为系统无效。通过统计在160 s 飞行时间内,有效跟踪的时间占比来衡量系统的有效性。统计结果表明总体跟踪成功率为71.2%。

基于检测到的无人机宽度和缩放因子,可以仅从视觉输入和已知距离上检测到的无人机宽度的先验知识对无人机位置进行估计。本文将轨迹估计的误差与视觉跟踪系统提供的真实值进行比较,计算了3个方向,以及位置估计的均方根误差(RMSE)。结果如表1 所示。

表1 估计的均方根误差

实验结果表明,在3 个方向上以及位置估计误差均小于1 m,跟踪误差较小,由此进一步证明了所设计系统的有效性。

4 结语

本文设计了一种面向商用无人机视觉跟踪系统。该系统借助现有的背景模型、目标分类器来实现自动化的无人机跟踪问题,且无需手动初始化初始目标。实验结果表明,在室内场景下其成功率为71.2%。此外,无人机的三维位置估计均方根误差仅为0.76 m。实验结果验证了系统的跟踪性能。