杨临风 牟 睿 黎 新 李 炜
(1.中国民用航空飞行学院民机火灾科学与安全工程四川省重点实验室 四川 广汉 618307;2.四川川大智胜软件股份有限公司 成都 610045;3.中国民用航空飞行学院空中交通管理学院 四川 广汉 618307;4.中国民用航空飞行学院广汉分院 四川 广汉 618307;5.中国民用航空飞行学院民航安全工程学院 四川 广汉 618307;6.四川大学空天科学与工程学院 成都 610065)
随着民航运输业的不断发展,机场场面流量快速增长,现行的目视与场面雷达监视方式难以快速准确地跟踪辨别场面目标,机场目标跟踪成为研究的热门领域之一。传统的目标跟踪研究[1-3]多利用特定的场面结构和航空器运动学模型,设定航空器的初始位置、速度、加速度等信息,结合概率估计进行跟踪,难以适应实际场景下的运动跟踪,且缺乏对车辆、人员等其他场面常见目标的适用性。近年来交通领域内逐渐兴起基于视觉跟踪方法的研究[4],相关滤波目标跟踪以视频图像作为信息源,将目标的图像特征与相关滤波器进行卷积[5],其跟踪结果与目标的实际运动高度关联,具有更高的准确性,且可跟踪的目标范围覆盖图像内所有物体,包括航空器、车辆、人员等多种类型,可应用场景广,受到了越来越多学者的关注[6]。因此,本文以基于视觉的相关滤波目标跟踪算法为框架对机场目标跟踪进行研究。
目前,相关滤波目标跟踪领域已取得大量研究进展[7],然而其在机场环境的实际应用中仍面临着较大的困难。首先,由于视频多为远景拍摄,跟踪对象如航空器、车辆和人员等的图像尺寸较小,使目标图像特征提取困难;其次,拍摄的视频图像受天气的限制,易产生背景干扰和低分辨率等情况;另外,运动的目标也容易被遮挡和产生几何形变,增加跟踪难度。
Wang等[8]将相关滤波器结合结构向量机,提出多峰值检测策略和判断跟踪置信度的方法,提升了跟踪准确性;谢维信等[9]对梯度方向直方图(histogram of oriented gradient,HOG)特征与颜色(color name,CN)特征和灰度特征组成的颜色矩阵分别进行卷积,对其响应值在决策层面进行线性加权融合,提高了算法的精确度;李健宁等[10]采用尺度金字塔原理对存在遮挡及尺度变化的目标进行自适应跟踪,提高算法对尺度变化的鲁棒性;王科平等[11]结合目标和背景的时空特性,增强了滤波器对遮挡、形变等干扰信息的鲁棒性。随着深度学习在图像领域的不断发展,研究学者发现将具有强大表征能力的卷积神经网络(convolutional neural network,CNN)特征与传统手工特征相融合,可以大幅提高跟踪算法准确性[12],但在特征融合时面临着CNN特征计算量大、各特征层融合困难等问题[13]。针对这个问题,Danelljan等[14]提出了高效卷积算子(efficient convolution operators,ECO)算法,利用插值算子对目标的HOG特征、CN特征和CNN特征进行特征层面的融合,并通过降维处理提升计算效率,在VOT2016,OTB-2015,UAV123和TempleColor等公开数据集上的测试结果均做到了最优,成为相关滤波类跟踪算法中具有代表性且性能优秀的算法,得到了大量研究学者的关注[15-17]。Danelljan等[14]在ECO算法的框架上提出了仅采用HOG与CN特征的ECO-HC算法,由于舍弃了CNN特征,因此损失了部分精确度,提升了实时性;Bhat等[15]研究了CNN浅层特征与深层特征及其与跟踪精度和鲁棒性的关系,提出了1种新的自适应融合方法,进一步提高了算法的精确度,同时增加了计算复杂度,降低了实时性;李欣等[16]针对ECO-HC算法进行改进,引入置信度量校验机制,提高了ECO-HC算法的精确度;李国友等[17]采用时空正则化滤波器、一致性检验滤波器和ECO算法的相关滤波器进行跟踪,较ECO-HC算法提升了精确度和鲁棒性。
虽然ECO算法在常规场景下已经能够取得优秀的跟踪效果,但其无法自适应更新滤波器,使得在目标遮挡、背景干扰、低分辨率等复杂的机场跟踪场景下仍面临着容易产生误差累积导致模型漂移的问题。针对以上问题,笔者结合机场环境对其进行了改进,研究了1种基于滤波器自适应更新的机场目标跟踪算法,融合目标的CN特征与CNN特征以增强对目标的描述能力,设计了1种滤波器自适应学习策略,建立跟踪结果校验机制,仅在跟踪结果可靠时更新滤波器,从而提高算法在复杂场景下的跟踪准确性。
首先从输入图像中提取特征图组成训练样本x j,每个样本包含D个离散的特征通道。用J{x}表示整个特征图,训练1个多通道卷积滤波器f=(f1,…,f D),将J{x}与之对应的滤波器进行卷积并求和,可得到目标的响应函数S f{x},即跟踪结果,S f{x}表示为
每个通道的特征都对应1个滤波器,占用了大量的训练时间,因此只选择其中贡献较大的C个滤波器f1,…,f(CC 式中:滤波器f通过对样本集X进行训练得到,设y j为S f{x j}对训练样本x j的期望输出;a j为单个样本权重;ω为罚函数,则滤波器的训练函数为 引入傅里叶基和帕塞瓦尔公式,式(3)最终可以转化为1个二次型问题,可通过共轭梯度法迭代求解。ECO算法流程图见图1。 图1 ECO算法流程图Fig.1 ECOalgorithm flow chart 图像特征可分为颜色特征、深度特征和形状特征等,不同的图像特征描述目标的角度不同,适用的跟踪场景也有所不同。在复杂的场景下,不同特征的融合可以实现特征信息的互补,采用多特征融合可以更全面地描述目标。考虑到机场目标跟踪需要对图像亮度、几何形状等变化保持高鲁棒性,且在满足各特征互补性和可区分性的同时尽量避免特征冗余,本文选取包含像素颜色信息的CN特征和包含空间语义信息的CNN特征进行特征融合。 CN特征描述图像目标区域的颜色信息,对目标的几何形变具有良好的稳定性,是许多多特征融合跟踪算法的主要选择之一。CN特征使用概率潜在语义分析方法将图像从RGB空间映射到黑、蓝、棕、灰、绿、橙、粉、紫、红、白和黄等11个维度,并用PCA方法降维到2维,降维后的CN特征图见图2(b)。 CNN特征提取图像目标区域的位置信息以及高级语义信息。CNN通过逐步滑动卷积核提取特征,感知图像的局部信息,因此浅层CNN特征具有较高的空间分辨率,可以准确地预测目标位置;对浅层特征进一步进行卷积处理得到深层特征,深层特征可以表示目标更高级的语义信息,对目标具有较强的辨别性,可以很好地完成目标分类识别。CNN特征区别于传统的手工特征,没有简单地提取图像特征,而是通过对输入样本进行训练学习,因此对变形、平面内旋转等图像也能保持良好的鲁棒性,十分适用于复杂场景下的目标跟踪。通过VGG-m网络提取的浅层和深层特征见图2(c)~(d)。 图2 可视化特征图Fig.2 Visualized feature map 融合CN特征与CNN特征可以使二者实现优势互补,目标表征更丰富且具体,从而提高目标的辨别性,进而适应机场场面复杂的环境变化、目标外形变化等因素带来的影响。目前特征层面的融合方式一般是将所有特征按权重相加得到融合特征。然而CNN特征包含多个特征层,不同特征层的采样数不同,无法通过简单的相加进行融合。因此,本文将离散的多特征与三次立方插值核函数b进行卷积,以得到融合的连续特征,这种连续特征能够独立选择每种特征的采样数,且能直接得到连续的目标响应函数,从而实现精确的子网格定位,b表示为 式中:b d为特征通道d通道对应的插值核函数,Nd为特征通道d对应的采样数;t∈[0,T)为连续空间域。用J d{xd}表示经过插值转换后的连续特征 融合后的连续特征图见图2(e)。 传统的相关滤波类跟踪算法是每帧更新1次模型,严重影响了计算速度。ECO算法采用1种更稀疏的模型更新策略,每间隔N S帧执行N CG次的共轭梯度迭代来更新模型。这样虽然有效减少了计算量,但也存在降低了共轭梯度优化的收敛速度,导致模型缺乏判别性的问题,而如果简单地增加共轭迭代次数则会抵消掉之前带来的计算量收益。另外,不考虑当前跟踪结果的置信度,以固定的更新间隔更新模型,可能导致在置信度高时对目标变化学习不及时,在置信度低时逐步积累误差,造成模型漂移。 针对这个问题,笔者设计了1种自适应的滤波器更新策略。一般来说,只有当目标外观发生充分变化时,才应该更新模型。为了评估目标外观变化,首先对当前跟踪结果建立置信度评价机制,然后使滤波器的学习速率随跟踪置信度高低自适应调整。在置信度高时提高学习速率,在置信度低时降低学习速率,当置信度低于某一阈值时,则不更新滤波器。采用改进的更新策略可以使学习抗干扰能力更强,在新样本受到目标突然变化的影响时(例如,遮挡、变形、平面外旋转、背景干扰等),依然能较好地学习目标,可以降低干扰。本文算法流程图见图3。 图3 本文算法流程图Fig.3 Proposed algorithm flow chart 3.1.1 响应峰值 相关响应图的响应峰值反应了目标候选区域与目标的相似程度,采用峰值旁瓣比(peak to sidelobe ratio,PSR)评价当前响应峰值的置信度,在无干扰情况下,PSR值越高则代表当前跟踪区域越近似目标,定义为 式中:Fmax为响应图F的最大响应值;μ和σ分别为F的均值和标准差。设定1个阈值Fthd,若PSR>Fthd,则认为此时的响应峰值是可靠的。 3.1.2 响应波动程度 如果响应图F具有多个波峰,且波峰峰值非常接近,则说明此时的响应图可能存在干扰,其峰值不是可靠的全局最优值,见图4(c)。采用平均响应峰值能量(average peak-to-correlation energy,APCE)分析响应图的波动程度,定义为 式中:Fmin为F的最小响应值;Fw,h为第w行第h列处的响应值。当响应图波动程度低时,APCE变大,见图4(a);反之,当响应图剧烈波动时,APCE会显著降低,见图4(c)。用APCE与历史均值的比例β反应当前波动程度,当β高于阈值βthd时,认为此时的响应图波动程度是可靠的。 只有当满足PSR>Fthd且β>βthd时,才认为当前跟踪结果可靠,进行滤波器更新,否则滤波器不更新。 设定滤波器学习速率随β值自适应调整,β值越高则学习速率越高。为了避免滤波器更新过于频繁,降低计算速度,设定更新间隔为4帧,学习速率η表示见式(8)。 图4为某机场行人目标被遮挡的跟踪场景,其中绿色虚线框表示改进前的ECO算法跟踪结果,对应第一行改进前的响应图;红色实线框表示改进后的本文算法跟踪结果,对应第二行改进后的响应图。可以看出,在图4(a)中目标明显且无干扰,响应图只出现1个单峰且周围平滑,此时的PSR值和β值均较大;图4(b)中目标被部分遮挡,响应图小幅波动,此时的PSR值和β值降低;图4(c)中目标被完全遮挡,此时响应图剧烈波动,出现多个峰值,PSR值和β值明显降低。ECO算法在目标被遮挡时仍然每6帧以固定的学习速率更新滤波器,导致误差逐步累积,使模型漂移,最后跟踪失败;本文算法增加跟踪结果校验机制,在目标被遮挡时,PSR值和β值未达到给定阈值,不更新滤波器,避免了模型漂移,在目标重新出现后成功跟踪到目标,PSR值和β值升高,见图4(d)。 图4 遮挡因素下的响应图变化Fig.4 Response map variation in occlusion factor 本文实验所用计算机CPU为Intel Core i5-9400,显卡为Nvidia GeForce RTX 2060S,实验软件环境为MATLAB R2020a和Cuda10.1。以采集的西南某机场的场面活动视频制成测试数据集,该数据集共有20个视频,视频序列的长度为256~1 500帧,覆盖了白天、夜晚不同时刻下航空器、车辆和人员等多种常见的场面目标类型,并包含11种难度较大的跟踪因素,具有一定的代表性,包含的跟踪因素见表1。 表1 跟踪因素表Tab.1 Tracking factors table 实验选取预训练的VGG-m卷积神经网络提取CNN特征。经调试,设置实验参数Fthd为14,βthd为0.3,β1为0.4,η1为0.008。共设计3组实验:实验一,2种校验机制对算法的贡献分析;实验二,本文算法与ECO算法的性能对比;实验三,本文算法与其他算法的性能对比。 算法进行1次评估测试(one-pass evaluation,OPE),采用精确度和成功率2个指标来评估性能。精确度用于评估跟踪结果的准确性,定义为测试方法估计的目标位置的中心点和人工标注的目标准确位置的中心点之间的距离小于给定阈值的视频帧的百分比;成功率用于评估测试位置与标注位置的重合度,通过计算人工标注的矩形框与测试方法所得到的矩形框之间的平均重合面积获得。 该实验研究响应峰值和波动程度校验机制分别对算法的贡献程度,设置Ours_psr算法增加响应峰值校验机制,学习速率随PSR值自适应调整;Ours_apce算法增加响应波动程度校验机制,学习速率随β值自适应调整;本文算法同时增加2种校验机制,学习速率随β值自适应调整。对ECO、Ours_psr、Ours_apce和本文算法的精确度和成功率进行测试,结果见图5。 图5 2种校验机制的测试结果Fig.5 Test results of the two verification mechanisms 可以看出,3种算法的性能较ECO算法均有一定提升,其中,Ours_psr算法精确度为0.766,提升了2.27%,成功率为0.758,提升了1.4%;Ours_apce算法精确度为0.814,提升了8.68%,成功率为0.809,提升了8.74%;本文算法精确度为0.834,提升11.35%,成功率为0.828,提升了11.29%。可以判断,响应波动程度校验机制对跟踪不稳定情况的判断更敏感,对算法的贡献更大。二者叠加可以实现优势互补,使本文算法性能更优。 该实验测试本文算法与ECO算法在不同跟踪因素下的精确度和成功率,结果见表2和表3,其中加粗数字表示效果更好。可以看出,ECO算法的整体精确度和成功率分别为0.749和0.744,本文算法的整体精确度和成功率分别为0.834和0.828,本文算法性能提升明显。本文算法在光线变化、尺度变化、目标遮挡、变形、平面外旋转、运动模糊、平面内旋转、背景干扰和低分辨率等9种因素下的跟踪均具有较大优势,在快速运动和出视野因素下的跟踪效果略显不足。可以得知,本文提出的滤波器自适应更新策略只在跟踪结果可靠时更新滤波器,可以有效避免模型漂移,在目标外观发生变化时具有更高的精确度和鲁棒性,同时也存在对目标外观的剧烈变化适应性不足的问题。 表2 不同跟踪因素下的精确度对比表Tab.2 Precision comparison table under different tracking factors 表3 不同跟踪因素下的成功率对比表Tab.3 Success rates comparison table under different tracking factors 选 择MOSSE,KCF,SAMF,SRDCF,DSST,ECO等6种经典的基于视觉的相关滤波跟踪算法与本文算法进行性能对比实验。对7种算法进行精确度和成功率测试,结果见图6。MOSSE算法使用单通道灰度特征,对目标的表征能力不足,导致跟踪性能稍弱,精确度和成功率分别为0.486和0.460;KCF算法扩展使用了多通道的HOG特征,性能有一定提升,精确度和成功率分别为0.578和0.523;SRDCF算法引入空间正则化,减轻了循环移位产生的边界效应,精确度和成功率分别为0.627和0.630;SAMF算法采用平移滤波器检测多尺度缩放的图像,提高了对目标尺度变化的适应性,精确度和成功率分别为0.678和0.669;DSST算法采用空间滤波器与尺度滤波器联合跟踪目标,使算法更加鲁棒,精确度和成功率分别为0.680和0.693;ECO算法融合手工特征与CNN特征,提高了对目标的表征能力,整体跟踪性能大幅提升,精确度和成功率分别为0.749和0.744;本文算法融合了CN特征与CNN特征,使用自适应滤波器更新策略,精确度和成功率分别为0.834和0.828,跟踪性能优于其他6种经典算法。 图6 本文算法与其他算法的测试结果Fig.6 Test results of the proposed and other algorithms 图7例举了部分测试视频序列,包括昼夜测试环境及其包含的跟踪因素,并展示了各种算法的跟踪效果。其中,图7(a)~(b)展示了对航空器目标的跟踪效果。图7(a)包含尺度变化、光线变化、平面外旋转等因素,在第281帧中航空器尺度变小、光线变暗,KCF算法和SAMF算法未能跟踪到目标,其余算法能够继续跟踪;在第746帧中航空器转向变形,MOSSE算法没有进行尺度调整,本文算法和SRDCF算法成功跟踪到目标。图7(b)包含尺度变化、遮挡、背景干扰等因素,在第342帧航空器被部分遮挡后,MOSSE算法首先跟踪失败;在第616帧中航空器尺度变小,KCF算法也跟踪失败,其余算法能成功跟踪到目标。 图7 本文和其他算法的跟踪效果Fig.7 Tracking effect of the proposed and other algorithms 图7(c)展示了行人目标的跟踪效果,包含遮挡、背景干扰、低分辨率等因素,在第442帧中行人被遮挡50%时,KCF算法首先跟踪失败,其余算法能够继续跟踪;在第513帧中行人被完全遮挡之后再次出现,其余算法均跟踪失败,本文算法仍能成功跟踪到目标。 图7(d)展示了车辆目标的跟踪效果,包含尺度变化、平面外旋转、遮挡等因素,在第398帧车辆被部分遮挡,KCF算法首先跟踪失败,其余算法能够继续跟踪;在第434帧,MOSSE算法未能适应目标的尺度变化,本文算法及其他算法成功跟踪到目标。 为了提高目标跟踪算法在复杂机场场面环境下的跟踪性能,笔者提出了1种基于滤波器自适应更新的机场目标跟踪算法。通过插值算子将目标的CN特征和CNN特征融合到连续的空间域,实现精确的子网格定位。设计了1种滤波器自适应更新策略,利用峰值旁瓣比和平均响应峰值能量建立对跟踪结果的校验机制,仅在跟踪结果可靠时更新,并自适应调整学习速率,提高了滤波器更新效率。在机场视频数据集的测试结果显示,相较于原算法,本文算法在光线变化、尺度变化、目标遮挡、变形、平面外旋转、运动模糊、平面内旋转、背景干扰,以及低分辨率等复杂因素下的精确度和成功率均有较大提升,且整体性能优于其他算法。 本文算法有效提高了机场场面环境下的目标跟踪性能,但在快速运动和出视野等目标外观发生剧烈变化的情况下跟踪性能有所下降,有待于下一步研究改进。2 多特征选取与融合
3 滤波器自适应更新策略
3.1 跟踪结果校验机制
3.2 学习速率自适应调整
4 实验与结果分析
4.1 实验一:2种校验机制对算法的贡献分析
4.2 实验二:本文算法与ECO算法的性能对比
4.3 实验三:本文算法与其他算法的性能对比
5 结束语