多特征融合的尺度自适应目标跟踪

2022-12-01 12:35张原园艾斯卡尔艾木都拉玛依热依布拉音
现代电子技术 2022年23期
关键词:尺度成功率平面

张原园,艾斯卡尔·艾木都拉,玛依热·依布拉音

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)

0 引 言

计算机视觉是指利用计算机处理图像、视频的科学研究,单目标跟踪是其中最主要的一个分支[1]。单目标跟踪是指通过计算机处理视频数据,实现对感兴趣的目标跟踪,比如在大型广场对某人的行踪进行监控定位。其跟踪的策略主要是在视频图像的第一帧通过特征提取得到目标信息的特征,在后续跟踪过程中通过与前一帧对比运算,实现对目标进行持续跟踪,从而得到所需要的信息。

目标跟踪在生活中有许多应用场景,包括交通视频的监控、智能人机交互、自动驾驶技术、军事侦察技术等[2]。目标跟踪发展从早期的均值漂移算法、粒子滤波、卡尔曼滤波等经典算法[3],到基于检测的方法、相关滤波方法,再到近几年热门的深度学习和孪生网络方法[4],经历了几十年的发展,其结果也越来越好。可是目标跟踪研究面临的问题依然严峻,主要是因为目标外观形变、背景光照变化、目标的快速移动、背景相似干扰等复杂状况导致的跟踪失败[5],这些问题依然需要不断探索创新来解决复杂环境下的目标精确跟踪。MOSSE(Minimum Output Sum of Squared Error)[6]是最早将通信中的相关思想用到目标跟踪领域的,通过峰值判断目标位置,峰值越大,得到的响应也就越大。CSK(Circulant Structure of Tracking-by-detection with Kernels)[7]通过使用高斯核计算相邻两帧之间的相关性,取响应最大的点为预测的目标中心,通过循环矩阵解决训练量问题,仅使用单通道灰度特征。该算法是固定目标大小的,对发生尺度变化的目标效果不好。KCF(Kernel Correlation Filter)[8]是在CSK基础上加了HOG(Histogram of Oriented Gradient)特征使得效果有了很大的提升,使用岭回归方法降低了运算量,提高了运算速度,使算法满足实时性要求。CN(Color Name)[9]目标跟踪算法主要的贡献就是将图片的颜色属性扩展到了CSK 跟踪器中,文中将颜色分为11 类,通过增加特征来提高跟踪效果,结果表明颜色属性对于视觉跟踪问题具有优越的表现并且速度可达到实时性要求。DSST(Discriminative Scale Space Tracker)[10]在CN 基础上增加了尺度更新方法,使其准确率又有了新的提升。

BACF(Background-aware Correlation Filter)[11]通 过扩大循环矩阵采样区域增加样本数量,通过裁剪样本区域优化样本质量,使其效果在以上算法中表现突出。

但是BACF 算法在使用特征过程中较为单一,在复杂场景中跟踪结果不是很理想,没有进行尺度更新等操作。所以本文在BACF 算法基础上提出了一种多特征融合尺度自适应跟踪算法。通过在HOG 特征中添加CN 以及Gray 特征,增加特征识别,在跟踪第一步能很好地提取目标信息。通过对图片的多峰检测进行选择更新[12-13],对各个尺度对比选择效果最好的结果来更新目标位置[14],减小遮挡等带来的不良影响。通过对算法进行优化,在背景干扰等几种环境下都有很好的表现。

1 基于背景感知的相关滤波跟踪

BACF 是Galoogahai 于2017 年 发 表 在ICCV 上 的 论文,算法的主要思想是:

1)通过扩大循环矩阵的采样区域;

2)通过裁剪使得每个样本质量明显提高,所以能够有较好的结果。在BACF 算法中,滤波器h为式(1)求解结果最小二乘加正则项:

式中:xk∈RD,hk∈RD,x表示正样本;中括号中是进行循环移位操作;h是所要训练的滤波器。

式(2)是通过P矩阵进行裁剪的式子,之后经过快速傅里叶变换投影到频域,如式(3),为使用增广拉格朗日法,构造出辅助变量g,利用增广拉格朗日法得到式(4):

之后就是用ADMM(Alternating Direction Method of Multipliers)优化算法,将问题转化成滤波器h的求解和辅助变量g的求解,通过式(5)和式(6)分别求解h*和*:

至此化简式(6)即可得到最优解,同时式(7)为更新滤波器公式,由此可以根据相关滤波器进行目标定位。

2 多特征融合尺度自适应目标跟踪算法

2.1 算法改进

本文在BACF 基础之上,提出了多特征融合尺度自适应目标跟踪算法。跟踪过程中,在目标区域提取梯度直方图(HOG)特征、颜色(CN)特征以及灰度(Gray)特征,通过峰值旁瓣比来减弱遮挡对跟踪的影响,通过对原图多尺度估计对比选择效果最好的结果来更新目标位置。本文所提出的算法框架如图1 所示。

2.1.1 特征提取

梯度直方图特征对图像的梯度变化十分敏感,是跟踪过程中比较能反映目标特征的一类特征,在一般运动中效果还是比较好的,只是在遮挡、背景复杂、快速变化等环境中,单独的一种特征不能准确地对目标进行表达,难免在跟踪过程中出现目标丢失的问题。于是选择加入颜色以及灰度特征。颜色特征是区别于RGB 三色划分的颜色系统,将颜色信息划分为11 类,因为需要对颜色属性进行规范化操作,将11 维的颜色空间降低为10 维,在跟踪过程中再通过PCA 降维的方式将10 维颜色属性降低至2 维,减少运算,提高跟踪速率。对于灰度特征的加入,侧重于图像的亮暗变化,可以作为特征加强特征表达,三个特征相互补充以提高跟踪鲁棒性。

2.1.2 峰值检测

在跟踪过程中,往往在多种类似目标出现时,目标的响应图通常会显示多个差别很小的峰值,如图2所示。

图2a)和图2c)是背景环境比较干净,峰值响应就是目标的响应结果,图2b)和图2d)因为遮挡问题,出现多峰值情况,如果在这种情况下更新滤波器,很有可能将错误信息作为目标特征,影响跟踪效果。在其跟踪过程中利用峰值旁瓣比(Peak to Sidelobe Ratio,PSR)削弱遮挡对跟踪的影响。其旁瓣比比值越小,响应图越干净,跟踪效果越好。将跟踪响应图的最高响应点设为主瓣峰值,峰值附近13×13 之外区域定义为旁瓣,通过实验选取理想比值,小于阈值正常更新,大于阈值停止更新,减弱遮挡影响。其中g表示峰值,μ是旁瓣均值,σ是旁瓣标准差。

2.1.3 尺度更新

以原样本为中心,按照一定比例的尺度获取多个样本,通过计算不同尺度样本所对应的响应值,选择最优的尺度响应完成滤波器更新。

假设当前帧目标所在图像的大小是M×N,尺度滤波器大小为P,以图像块目标位置为中心,在周围提取大小为αn M×αn N的图像块,α表示特征层之间的尺度因子,n∈,通过不同尺度图像块训练跟踪模板,在得到的众多相关滤波器中选择响应值最大的作为尺度更新结果。

在跟踪过程中设置提取33 种不同的尺度样本,以得到最大响应值所对应的尺度滤波器。

2.2 实验结果分析

2.2.1 实验环境

实验是在Windows 10 环境下、Intel coreTMi5-8300H CPU @ 2.30 GHz,8 GB 内 存,Visual studio S2019,Matlab 2019b 软件中完成的。

2.2.2 实验数据集以及评价指标

实验数据集是OTB2015,其数据集在OTB50 中扩充至100 个视频序列,包含59 040 帧图片,和OTB50 相同,都是以室内、室外场景为图片特性。每帧图片都标注目标中心位置和目标的大小。数据集的不同序列有不同的特性,同一序列包含多种特性,总共有11 个类别,分别是:光照变化、平面外旋转、尺度变化、遮挡、形变、运动模糊、快速运动、平面内旋转、出视野、背景杂乱、低分辨率[15]。其评价指标有距离精度(Distance Precision,DP)、重叠率精度(Overlap Precision,OP)和算法运行速度:帧率(Frame per Second,FPS)。距离精度是在所有图像帧中跟踪结果的中心位置误差(Center Location Error)小于20 像素的帧数的占比,反映了跟踪算法的鲁棒性。成功率曲线面积表示成功率曲线与坐标轴围成的面积。成功率表示的是在总帧数中重叠率大于阈值的帧数占比[16],通常情况下,该阈值取0.5。OPE(One-pass Evaluation)表示每个图像序列运行一次,SRE(Spatial Robustness Evaluation)和 TRE(Temporal Robustness Evaluation)分别代表空间鲁棒性和时间鲁棒性测试,SRE 通过平移或缩放第一帧中的初始边界框,对每个跟踪器进行了12 次评估绘制成功率和精确率图。TRE 通过视频序列在时间轴上平均找出20个点作为起点,每个序列重复20次,绘制平均的成功率和精确率图。

选择CSK、KCF、SAMF、BACF 与本文算法进行对比,在同一环境下进行测试,实验分析如下。

2.2.3 定性分析

通过实验分析,本文优化算法OURBACF在各个方面都优于其他算法。5种算法的精确率和成功率如图3所示。

图3 中,OURBACF 算法精确率OPE 为84.1%、SRE为79.1%、TRE 为84.7%,分别提升了9.2%,3.5%,2.9%。成功率OPE 为79.5%、SRE 为71.4%、TRE 为77.9%,分别提升了11.8%,2.4%,1.0%。优化算法整体效果有了明显的提升。

图4 为各算法在不同跟踪环境下的SRE 跟踪表现。优化算法精确率SRE 在平面内旋转、平面外旋转、背景杂乱、光照变化、尺度变化情况下精确率均优于原算法,分别为75.7%,78.0%,75.2%,73.7%,72.3%,分别提升了3.1%,3.7%,4.8%,1.7%,0.7%。成功率SRE 在平面内旋转、快速运动、平面外旋转、背景杂乱、光照变化情况下均优于原算法,分别为66.8%,55.8%,68.5%,64.2%,63.7%,分别提升了2.9%,0.3%,3.0%,2.2%,0.8%。优化算法OURBACF 除了快速运动环境下精确率和尺度变化下成功率略有下降,其余方面均有所改善。

图5为各个算法在不同跟踪环境下的TRE跟踪表现。

图5 中精确率TRE 在背景杂乱、快速运动、平面内旋转、平面外旋转、光照变化情况下均优于原算法,分别为81.9%,69.8%,81.5%,83.0%,81.4%,分别提升了6.6%,2.2%,4.1%,3.7%,4.6%。成功率SRE 在背景杂乱、快速运动、平面内旋转、尺度变化、平面外旋转、光照变化情况下均优于原算法,分别为72.4%,62.8%,73.8%,71.1%,74.5%,73%,分别提升了2.3%,2.2%,2.3%,0.1%,0.9%,2.3%。

通过TRE 结果分析,优化算法OURBACF 较原算法在精确率和成功率上面都有了明显的提升,在背景杂乱、快速运动、平面内旋转、尺度变化、平面外旋转、光照变化等方面效果都有显著的改善。

2.2.4 定量分析

选取如下几个视频序列分析跟踪结果,表1是不同序列的环境特性,图6是不同算法在不同序列中的跟踪结果。

表1 选取的视频序列的特性

分析Jogging-2 序列中5 种算法跟踪过程,从第10 帧开始跟踪,在第79 帧遮挡物跟踪框出现明显漂移,第90 帧SAMF 和KCF 跟踪丢失,至此直至跟踪结束,优化算法与BACF 在Jogging-2 序列遮挡、形变、平面外旋转的变化下都保持准确的跟踪定位。

分析woman 序列中5 种算法跟踪过程,从第10 帧开始跟踪,整个跟踪过程中目标有光照变化、尺度变化、遮挡、形变、运动模糊、快速运动、平面外旋转等多情景变化,第135 帧出现SAMF 跟踪丢失,再到第563 帧除优化算法外,其余均未出现目标丢失,能体现出优化算法的良好性能。

分析Soccer 序列中5 种算法跟踪过程,从第10 帧开始跟踪,整个跟踪过程目标环境变化有光照变化、尺度变化、遮挡、运动模糊、快速运动、平面内旋转、平面外旋转、背景杂乱,第82 帧KCF 出现跟丢情况,第132 帧在复杂环境下各个跟踪框出现明显漂移,直至跟踪结束,仅优化算法和SAMF 结果较为理想。

分析jumping 序列中5 种算法跟踪过程,从第10 帧开始跟踪,目标包含的变化有尺度变化、遮挡、形变、运动模糊、快速运动、平面内旋转、平面外旋转,随着目标的跳跃跟踪框漂移十分剧烈,只有优化算法能够持续对目标进行跟踪。

综上所述,优化算法OURBACF 能在大部分状况下优于其他4 种经典算法,提升了跟踪的准确性及鲁棒性。

分析算法在选取的视频序列中的帧率和平均帧率,如表2 所示。

表2 OURBACF、BACF 算法在选取的视频序列中的帧率和平均帧率 f/s

从表2中可以看到:BACF算法的帧率整体还是不错,能够满足视觉要求(>30 帧),大部分都在50 f/s 以上,平均帧率也是55 f/s;OURBACF 在优化过程中帧率稍微有所下降,但是依然满足实时性要求,基本上在40 f/s 以上,平均帧率为45 f/s,通过优化跟踪精度和准确率,降低一点帧率还是比较可行的。

3 结 语

为了解决跟踪过程中目标外观形变、背景光照变化、背景相似干扰等复杂状况导致的跟踪失败问题,在BACF 算法基础之上提出了多特征融合尺度自适应目标跟踪算法。通过跟踪过程中特征提取部分增加了颜色(CN)特征以及灰度(Gray)特征以提高目标的特征识别,降低因特征提取不足引起的跟踪丢失问题。在跟踪过程中通过添加空间正则项,减少跟踪框漂移,提升跟踪精度。通过峰值旁瓣比来减弱遮挡对跟踪的影响,通过对原图多尺度对比,选择效果最好的结果来更新目标位置。

实验表明,优化算法OURBACF 较BACF 有了不错的提升,跟踪的整体精确率和成功率都有了很好的提升。通过定量分析也能看出在整个连续跟踪过程中本文算法表现很好。对于平面内旋转、平面外旋转、背景杂乱、光照变化、遮挡等问题能够得到很好的解决,但在个别跟踪情形下如尺度变化、快速运动等结果还是不太理想,以后可以针对这几种跟踪环境进行算法优化。通过对帧率的分析,帧率从55 f/s 降低至45 f/s,在提高准确性和鲁棒性过程中使得帧率有所降低,不过帧率下降还是在可控范围内,能够满足实时跟踪要求。

猜你喜欢
尺度成功率平面
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
如何提高试管婴儿成功率
财产的五大尺度和五重应对
立体几何基础训练A卷参考答案
如何提高试管婴儿成功率
参考答案
宇宙的尺度
关于有限域上的平面映射
研究发现:面试排第四,成功率最高等4则
9