沈 旭,孟 巍,程小辉,王新政
(1.岭南师范学院 信息工程学院,广东 湛江 524048;2.山东电力科学研究院,山东 济南 250012; 3.桂林理工大学 信息科学与工程学院,广西 桂林 541004)
无人机具有高度的灵活性和可操作性,广泛应用于视频监控、态势感知、应急响应等领域[1]。目标检测与跟踪是机载光电设备至关重要的功能模块,其检测跟踪的性能直接关系到目标感知的精度[2]。
目标跟踪是对视频序列的分析,其过程是在第一帧中选择目标,然后通过跟踪算法逐帧从序列中找到与所选目标相同的区域作为跟踪目标[3]。尽管机载目标跟踪算法已经取得了优异的跟踪效果,尤其是彩虹系列无人机可以实现地面大尺寸目标的稳定跟踪,但由于机载平台的抖动、翻滚和视角突变、背景杂波、目标旋转、快速运动和变形,这使得机载目标跟踪仍然是一项艰巨而富有挑战性的任务。现有的目标跟踪算法可以分为基于人工低层次特征的目标跟踪与基于深度高层次特征的目标跟踪,前者是通过手工设计的算子提取低层次特征;后者则是用深度网络去学习目标的高层次特征,但最终都是采用生成(Generative)模型或判别(Discriminative)模型实现跟踪[4]。虽然深度模型获取的深度特征提高了目标的表征能力,但同时也增加了算法的复杂度。
为了实现复杂场景下机载跟踪算法的精度与速度的平衡,国内外专家提出了许多有效的算法。基于判别模型的核相关滤波器[5]是目前速度与精度都非常高的算法,该算法利用初始样本循环移位构建循环矩阵,并采用岭回归获取傅里叶域最优鲁棒滤波器,实现目标跟踪。然而,循环移位获取的样本存在边界效应,产生无效负样本,影响跟踪精度。
随着深度学习在识别、分类等信号处理领域的不断渗透,一些学者开始尝试将深度学习应用于目标跟踪领域,DLT(Deep Learning Tracker)[6]是第一个将深度模型应用于单目标跟踪的跟踪算法,该方法是在粒子滤波框架下引入稀疏自编码模型作为测量分类器,需要海量的数据进行离线训练与在线微调。FCNT(Fully Convolutional Networks for Tracking)[7]和HCFT ( Hierarchical Convolutional Features for Tracking)[8]则是利用VGG-Net 在大规模分类数据集上训练模型,获取目标的特征表示,并将观测模型用于分类以获得跟踪结果,虽然这些方法避免了在线训练海量样本的不足,充分利用了深度特征的强大表征能力。但由于分类任务更加关注目标与背景之间的差异,因此这种经过预训练的网络会忽略类内的差异,造成跟踪精度不如 KCF(Kernelized Correlation Filter)、TLD(Tracking-Learning-Detection)等跟踪算法[9],其跟踪速度也不高。Siamese 跟踪网络[10]是目前深度模型中实时性较高的跟踪性算法,该网络提取搜索区域与模板的特征,输入到相似度量函数里计算相似度,实现目标跟踪。
虽然近年来基于Siamese 网络的跟踪算法在各种挑战性的数据集上取得了优异的效果,但大多数Siamese 跟踪算法采用局部搜索策略,无法更新模板,且模板会引入背景干扰,最终因跟踪点漂移而导致跟踪失败。为了解决这些问题,本文提出了一种结合目标边缘检测的改进全连接Siamese 跟踪算法,该算法利用目标的轮廓模板代替边界框模板,减少了背景杂波的干扰;同时,在Siamese 网络的基础上增加了一路目标检测分支,不仅能够获取目标的边界,还能增加抗遮挡能力,提高机载光电设备的目标捕获概率。
边缘检测是红外图像处理中一个重要的领域,尤其是桥梁、道路、跑道等典型目标大多是以目标的边缘作为先验信息进行感知。传统的边缘检测算法是利用微分算子对局部区域的灰度信息进行处理,通过邻域灰度的波动情况实现边缘的检测,但该方法容易受背景干扰。若目标内部纹理信息丰富则很难获取目标的边缘轮廓。随着深度学习为代表的机器学习算法的发展,已经可以提取到封闭的边缘轮廓[11]。HED(Holistically-Nested Edge Detection)算法[12]是目前边缘检测领域的最优算法,该方法是以VGG16 网络作为基础网络,VGG16 含有5 个block,3 个全连接层和1 个softmax 输出层,前两个block 分别含有两个卷积层和一个池化层,后3 个block 分别含有3 个卷积层和一个池化层,HED 边缘检测网络去掉了VGG16 网络的softmax 层、全连接层和最后一个block的池化层,并将从每一个block 的最后一个卷积层引出一个侧边输出层,最后将侧输出层融合得到最终的候选区域边缘图。HED 网络在训练过程中采用了6个类均衡交叉嫡损失函数,如式(1)所示:
式中:Y+与Y-分别表示边缘与非边缘的标签集合;β是该集合中边缘标签样本的比例因子;m是网络分支数;Pr可以通过Sigmoid 函数的激活值确定,即:
HED 网络使用经典的分类网络架构VGG-16[13]作为基础网络,得到的边缘检测效果很大程度上己经超过了传统边缘检测算法。若能准确地提取目标的封闭轮廓,就可以获得目标的尺度特征与内部纹理信息。在红外目标跟踪过程中,由于红外图像对比度过低,目标特性难以捕捉。本文提出的跟踪算法采用HED 边缘检测网络检测目标的边缘,获取目标的封闭外轮廓,从而确定目标的尺度,也能够对目标的位置进行进一步的修正,提高目标跟踪精度。
Siamese 网络也称孪生网络,是用于衡量输入样本相似性度量的网络架构,该网络由两个共享权值参数的相同结构网络组成。图1 是Siamese 全卷积跟踪网络的模型结构。Siamese 全卷积跟踪网络采用Alex Net 作为基本网络,该网络可以对输入的模板z与搜索区域x进行深度特征编码[14],然后对获得的深度特征进行交叉相关,最终获得响应矩阵,如式(2)所示:
式中:φ是去掉全连接层的AlexNet 网络[14];g(·)是卷积操作;f为最终获取的相似性响应矩阵。为了获得准确的目标定位,对响应图f进行非线性插值,得到与原图尺寸一样的响应图。最大的响应值为预测到的最终目标位置,最终实现目标跟踪。
Siam FC 网络结构包括两个相同的特征提取网络,每个特征提取网络为包含7 个卷积层,2 个全连接层的深度卷积网络,该网络对特征提取网络中的卷积层和全连接层的数量并不做限制,但是要包含卷积层和全连接层。Siam FC 仅仅利用孪生网络获取了深度特征,其跟踪过程仍然采用的相关匹配选最优的方法。跟踪性能的提升主要是以下两方面:深度特征提升了目标的表征能力,进一步增强了跟踪的精度;跟踪过程中不进行在线更新,加快了跟踪速度。
然而,跟踪过程不更新模板,意味着长时间跟踪过程中模板不会随着目标状态而自适应刷新。另一方面,Siam FC 获得的相似性响应图是由相似性矩阵上采样插值得到,存在较大的定位误差,且目标的尺寸很难确定。
由于HED 边缘检测网络可以获取目标准确的封闭边界,只要选定目标就可以知道目标的轮廓,不仅可以提升系统反应时间,还能通过封闭轮廓提升目标的跟踪能力。当目标灰度突变、部分遮挡、姿态变化时,采用轮廓模板可以增强系统的抗干扰能力。因此,本文提出了一种结合目标边缘检测的改进全连接Siamese 跟踪算法,该算法利用目标的轮廓模板代替边界框模板,减少了背景杂波的干扰;同时,在Siamese 网络的基础上增加了一路目标检测分支,不仅能够获取目标的边界,还能增加抗遮挡能力,提高机载光电设备的目标捕获概率。
模板是现有跟踪算法的基准,模板的准确性直接关系跟踪性能,错误的模板会降低场景匹配适应性,导致跟踪失败。模板更新可以分为固定帧更新、逐帧更新及自适应更新。机载设备跟踪过程目标存在姿态突变、遮挡、光照、运动模糊等干扰影像,其模板只有随着环境变化而刷新,才能获取稳定的跟踪性能。图2 是车辆在不同环境下的跟踪结果,白色是逐帧刷新的相关跟踪算法[15-16],黑色是模板不刷新的结果。可以看出,目标在机动运动过程中,由于姿态与运动模糊,目标的形状发生了较大变化,尤其是46 帧时目标与路边的背景灰度类似,且目标的尺度逐渐变小。只有刷新模板才能更适应状态的变化。
理想的模板应该完整的包含目标,并尽可能降低引入背景信息。然而现有的模板都是以边界框的形式表征目标的模板,由于目标的不规则性,不可避免会引入背景信息。相比之下,轮廓特征清楚地表征了目标的尺度、形状与位置信息。若能用目标的轮廓模板代替传统模板,不仅能获取准确地目标尺度信息,还能有助于提高目标匹配跟踪精度。
受HED 侧边输出层结构的启发,本文提出采用一种具有特征重提取功能的边缘检测网络,如图3 所示,该网络包含基本网络、侧边输出模块以及融合模块。
图1 Siamese 全卷积跟踪网络Fig.1 Siam FC tracking network
基本网络模块主要是提取深度特征,常用的网络架 构 有 VGG16 , VGG19[17], ResNet-50[18],ResNet-101[19]等。本文选用VGG16 用作边缘提取基本网络。虽然VGG19 和ResNet 网络获得的深度特征表征能力更强,但其网络深度与参数数量比VGG16 大得多,需要花费大量的时间进行网络训练与微调,影响边缘检测的实时性。原始的VGG16包含5个卷积层,每一层连接一个步长为2 的池化层,获得不同感受野的特征图。表1 展示了每个卷积层的感受野的大小。在VGG 网络中,不同的卷基层包含不同的层次的深度特征信息。特别是在较深的层次上,HED 网络中的边缘输出更容易受到密集边问题的影响。例如,Stage 3表达图像纹理特征,Stage 5 包含图像类别信息等。因此,从每个层次提取的特征信息不能直接作为目标边缘轮廓,需要对输出边界进行细化,以生成清晰和准确的目标轮廓。为了生成边缘图像,需要将各卷积层提取的不同层次信息映射到边缘像素空间。
侧边输出模块由特征重新提取模块和上采样层组成。在轮廓检测网络中,特征重提取模块连接在基本网的conv2_2,conv3_3,conv4_3 和conv5_3 层之后,可以将特征映射到边缘像素空间中。考虑到GPU显存的限制,conv1_2 仅连接1×1×1 卷积层以减少特征维度并实现特征融合。特征重提取模块由3 个卷积层组成,分别为1×1×32、3×3×32 和1×1×128。在网络的末端,特征融合模块使用卷积1×1 卷积核生成最终的边缘检测图像。
图2 目标尺度逐渐变小导致跟踪失败, 其中(a), (b)和(c)为不同帧下的跟踪结果Fig.2 Tracking failure with scale change of object appearance, where (a), (b)and(c)are the results of different frames
图3 轮廓提取网络Fig.3 Contour-extraction networks
表1 轮廓检测网络中每层参数设置Table 1 The parameter setting of each layer in contour extraction network.
机载光电设备在实时搜跟目标的过程中,阴影变化、目标重叠、遮挡、形变、旋转等干扰会直接影响跟踪的精度。尤其是地面运动目标在穿越树林,建筑物的过程中,目标会出现短暂丢失的现象。虽然大多数算法具备抗干扰能力,但如何重捕目标是光电跟踪系统研究的热点问题之一。目前大多数策略采用的全视场搜索检测,如相关配准、R-CNN、SSD 和YOLO等算法。YOLO 是近年来精度与效率最优的目标检测算法,该算法将目标检测视为回归问题,一次CNN计算就可以实现目标在端到端网络上的位置和分类,但对小目标的检测精度较差,不适应机载光电设备远距离跟踪弱小目标。为了提升光电平台的目标重捕能力与小目标的检测能力,本文在tiny-YOLOv3 网络[20]的基础上提出了一种改进的目标检测网络,利用K 均值聚类找到最合适的锚框(anchor box),在空洞卷积(dilated convolution)启发下引入了扩张模块层来扩展感受野,并增加了基本网络的深度,以便可以提取更多的语义信息,从而满足了机载空对地复杂环境下弱小目标检测与目标重捕的需求,其基本网络模型如图4 所示。
传统的K均值聚类方法使用欧氏距离函数,这意味着较大的锚框比较小的锚框具有更多的误差,并且聚类结果可能会发生偏差。为此,本文采用IOU 得分来评估聚类结果,从而避免了由框的大小引起的误差。距离函数可以通过以下公式计算:
式中:box 与centriod 分别表示候选样本框与聚类中心,IOU 是候选框与原始标记框的重叠率。K均值聚类方法用于比较具有不同K值的IOU 分数,考虑到模型的复杂性,本文最终选择K值为6。
机载平台逼近目标以及目标高机动不规则运行时,目标的尺度是时刻变化的,传统的Siamese 跟踪网络很难进行长期稳定的目标跟踪。尤其是视场中存在多个类似目标的情形,跟踪过程中目标易被相似背景干扰。对于大多数改进的Siamese 跟踪网络,如GOTURN(Generic Object Tracking Using Regression Networks)和Siam FC,通过金字塔策略进行多尺度目标融合,可以提升跟踪精度,但也会损失小目标特征信息,并导致目标尺度降低,引入更多背景信息。本文提出了一种基于自适应轮廓模板Siamese 跟踪网络。
现有的改进的Siamese 跟踪网络通常选择以上一帧的跟踪结果作为搜索区域的中心,并从当前帧图像中提取一块固定大小的图像块作为搜索区域,若目标位于视场边缘则可能无法跟踪到最优区域,因此采用轮廓模板将最大限度降低干扰的影响,利用相关层作为融合张量,提高了融合张量的准确性。
针对滑窗搜索的不足,本文提出采用稀疏区域搜索,减少计算冗余;同时,根据卷积神经网络在不同的特征层的感受野不同,可以将不同层次的特征进行融合,实现多层次多尺度目标特征表示;为了获得更精确的位置估计,在网络末端预测置信度的基础上增加了位置回归模块,建立端对端的网络结构。
本文提出的改进Siamese 跟踪网络采用Python3.5作为开发语言,Tensor Flow 作为深度学习框架。实验平台选用多核Intel Xeon,最高频率达2.4 GHz,以及多张GTX 1080Ti GPU 显卡的服务器。离线训练数据是用于检测任务的ILSVRC2015,测试视频来自当前目标跟踪中常用的DARPA VIVID[15],OTB 2015,VOT-TIR 2016, 以及挂飞收集的自建数据库。为了便于性能分析,所有数据都进行逐帧尺度与位置标注,并按干扰状态进行分类。
图4 目标检测网络框架Fig.4 Main framework for object detection model
网络的基础骨干网包括5 个从Alexnet 网络派生的卷积层。值得注意的是,Alexnet 网络包括5 个卷积层,其中前两个卷积层后面是一个最大池化层。除第五卷积层之外,每个卷积层后面都有一个ReLU 层。在训练期间,在每个ReLU 层之前使用批归一化以减少过度拟合。
中心误差(Center Error,CE)与重叠率(Overlap Rate,OR)是衡量跟踪性能的主要定量指标,前者是表征跟踪点与基准点之间的差异,误差越小,表明跟踪点越接近理想状态,但不能衡量跟踪目标的尺度变化;后者则是衡量跟踪区域与基准区域之间的重叠率。由于不同阈值下,定量分析存在较大差异。因此,本文采用精确度图和成功率图定量分析算法性能,其中前者表示平均中心误差在测试序列上的整体跟踪性能,后者表征重叠率大于给定的阈值下的帧数比例[21]。本文选用位置误差为20,重叠率为0.5 作为跟踪成功阈值。
本文提出的改进跟踪网络分为3 部分:轮廓检测网络,目标检测网络与Siamese 跟踪网络,各网络模型的基本网络参数与原模型保持一致,其中学习率η设定为0.001。Siamese 网络在离线训练期间,所有卷积层都将更新。进行在线更新后,浅层卷积层参数保持固定,最后两个卷积层将根据测试数据进行微调。采用峰值旁瓣比选用最优跟踪点,归一化响应的阈值设置为0.65。若回归响应分数小于0.65,则认为跟踪失败,则利用改进的tiny-Yolov3 实时执行目标检测网络,重捕最优目标。
为了定性定量分析本文提出的改进Siamese 深度模型的目标跟踪算法的应用性能,Siam FC,DCF Net[22],CF Net[23],Siam RPN[24],KCF 和DKCF[25],其中前4种对比算法是基于Siamese的改进算法,KCF是基于判别模型的核相关算法;DKCF 是将核相关滤波嵌入到深度网络中,以端到端的方式学习目标的深度特征,并进行目标跟踪。由于选用的基准数据集已经标注了目标大小与位置,为了便于对比分析,本文提出的算法跟踪点由第一帧的基准点给点,但其目标大小由轮廓检测模型自适应计算。图5 展示了不同算法在基准数据集上的平均准确度图和成功率图。表2展示了位置误差为20,重叠率为0.5 下不同算法的定量指标。
从图5(a)可以看出,本文算法可以大部分情况下超过其他基准算法,其精度为0.8421,AUC 为0.8631,与Siam FC相比分别提高了29.4%和11.9%。由于Siam FC 是在第一帧中标记目标,获取目标,在跟踪期间不再更新,因此不能适应目标变化,抗干扰能力较弱。本文提出方法的性能仅次于Siam RPN,在目标快速运动,背景干扰,旋转,遮挡,光照变化等挑战序列中表现出色。Siam RPN 在Siamese 网络之后添加了额外的区域提取网络来细化边界框,而本文算法在Siamese 网络基础上增加了一路轮廓检测网络,用于获取目标的轮廓信息,并利用轮廓模板降低干扰因素的影响。值得注意的是,本文提出的算法中有一路目标检测网络,用于跟踪丢失后目标重捕。实验结果可以看出,一旦目标从穿出遮挡物,本文的算法很容易检测到目标,并再次启动跟踪模型进行逐帧跟踪。但若目标附近存在多个类似目标时,存在误跟踪,主要是本文模型没有考虑轨迹预测,而其他算法一旦丢失目标则完全不能重捕。因此,基准序列定量分析结果表明本文算法能够准确地定位模板,减少了跟踪点漂移现象。
图5 不同跟踪算法的跟踪性能对比Fig.5 Comparison of tracking performance for different tracking algorithms
表2 跟踪结果定量对比,其中位置误差为20,重叠率为0.5Table 2 Quantitative comparison of tracking results, where the location error is 20 and the overlap rate is 0.5
本文提出的算法通过离线训练来学习类似目标的共性特征,采用在线训练来捕捉当前目标的个性特征,提高了复杂背景下目标特征的辨别能力。为了验证这一点,本文从基准数据与挂飞数据中选择了6 个具有多种复杂干扰场景的序列进行跟踪测试,并且与所选的对比算法进行了比较。从图6 可以看出,所提出的算法对于大多数复杂场景都是鲁棒的,尤其是对于跟踪丢失后的目标重捕,具有较高的重捕概率。为了可视化定性分析本文算法的跟踪性能,本文选择几段序列的跟踪结果进行定性分析。图6(a)场景是对地面运动车辆的跟踪过程,主要挑战是背景中多个类似目标,目标本身的快速移动导致跟踪模糊,且出现多次全遮挡现象。一旦目标被完全遮挡,本文算法将在视场中心显示一个黑色边界框,表明跟踪目标丢失,进入目标重捕状态。从跟踪结果可以看出,KCF 与DKCF 的跟踪波门已经偏离目标中心。Siam RPN 跟踪效果与本文提出的算法类似,但本文算法具有重捕功能。Siam FC 则偏离了目标中心,在目标模糊时突然跳转跟踪到道路边缘的树冠。
图6(b)图像序列的跟踪目标是地面运动的黑色车辆,由于视角差异导致目标外形变化较大。除CFNet,SiamRPN 和本文方法外,其他跟踪算法都丢失了目标。尽管SiamFC 在跟踪丢失后又在67 帧重新跟踪上目标,主要是由于67 帧目标的状态与建立模板的状态类似,其目标正好进入SiamFC 的搜索区域。本文提出的一种结合目标边缘检测的改进全连接Siamese跟踪算法能够在长期跟踪中更好地适应目标的变形和遮挡,特别适合机载光电设备在捕获复杂环境下的运动目标,增强机载装备态势感知、对地观瞄与跟踪的应用效果,提升系统响应时间与适应性。
本文结合了目标检测网络、轮廓提取网络和全卷积Siamese 跟踪网络的特点,提出一种有效的机载光电系统目标跟踪算法,该算法利用目标的轮廓模板代替边界框模板,减少了背景杂波的干扰;同时,在Siamese 网络的基础上增加了一路目标检测分支,不仅能够获取目标的边界,还能增加抗遮挡能力,提高机载光电设备的目标捕获概率。在tiny-YOLOv3 网络的基础上提出了一种改进的目标检测网络,利用K均值聚类找到最合适的锚框,引入了扩张模块层来扩展感受野,并增加了基本网络的深度,实现目标重捕的需求。仿真试验结果表明本文提出的改进模型特别适合机载光电设备在捕获与跟踪复杂环境下的运动目标,具有较高的工程应用价值。
致谢
本项研究得到了桂林中电科三十四所提供的帮助,在此表示感谢。
图6 不同对比算法对视频序列的跟踪结果Fig.6 Tracking results for different models