贾 亮,于昊充,王贵宇
(沈阳航空航天大学电子信息工程学院,沈阳 110136)
在计算机视觉领域中,跟踪是非常基础且重要的技术之一,在军事目标导航,视频监控,无人机巡航,机器人感知等应用中发挥着重要的作用。近年来,随着相关滤波的出现,使得鲁棒性得到了显著提升,矩形框由视频的初始帧确定,再根据初始帧训练跟踪器,在下一帧图像进行相关滤波计算,最大响应值点即为下一帧的目标位置,并用矩形框跟住目标,具备较高的运算速度。然而,并不能较好地应对如目标尺度变化,遮挡,快速运动,低分辨率,光照变化等复杂背景的问题。本文在传统核相关滤波跟踪(kernel correlation filter,KCF)算法的基础上,通过对方向梯度直方图(HOG)特征与颜色命名(CN)特征进行线性融合,将融合后的特征代替传统KCF算法的单一特征,并且在更新阶段引入平均峰值相关 能 量(average peak-to correlation energy,APCE)来判断当前帧是否进行更新,从而解决在复杂背景下跟踪失败等问题,提高跟踪性能。
KCF跟踪算法通过建立循环矩阵,实现对目标的密集采样。并且通过核函数的方式将线性空间中的回归问题扩展到非线性空间,这样就把低维空间不可分的情况扩展到高维空间之后变线性可分,使得核相关滤波更加具有鲁棒性。
在样本采集的过程中,传统的目标跟踪算法通常采用的是稀疏采样方式,这样的采集方式会导致目标特征表达不完全,并且计算量也较大,运行速度较慢。KCF跟踪算法是通过使用循环位移的方式对训练样本进行采样,进而可实现对目标样本的密集采样。使用一个一维向量作为基本样本=(,,…,x),通过循环移位对基本样本进行密集采样:
根据循环矩阵在傅里叶域中可进行对角化的性质,可将循环矩阵简化为:
KCF跟踪算法的分类器使用了岭回归分类器,岭回归分类器可以快速地得到训练目标的闭式解,并且在实际应用中,岭回归分类器拥有较高的性能水平,分类性能与SVM相近。通过采用岭回归找到一个回归函数:
式(3)中:为样本,为滤波器系数。
通过该函数计算样本x与回归目标y的平方误差,并且使平方误差最小化。该过程要使得误差函数取最小值,即寻找最优的:
式(4)中:为滤波器系数,是正则化参数,用于抑制过拟合。y是样本x的期望输出。
对式(3)求导,使导数等于0求得,得到闭式解,写成复数域的形式为:
式(5)中:是每个元素对应一个样本的标签的列向量,X为的共轭转置。
将式(4)的循环矩阵进行对角化,并用对角化形式来化简式(5)中的岭回归公式,可得:
用矩阵元素的点乘代替矩阵求逆的运算过程,可大幅提高训练时的计算速度,并得到:
KCF采用高斯核函数,其计算公式为:
在非线性问题的处理上,通过使用核函数把非线性问题从非线性空间转换到线性空间,使在低维空间线性不可分到高维空间线性可分。滤波器表示为:
由此得出的最优解问题变为寻找对偶空间中的最优解。由高斯核可知:
使用核矩阵表示所有元素的点乘结果,其中K=(x,x)。所以可得:
引入核函数后得到岭回归的闭式解:
式(12)中:是核矩阵,是α的矢量。
若核矩阵为循环矩阵,可将式(11)化简得到:
训练样本和待测样本的核矩阵通过K表示,并且和均由循环移位获得,故K也是循环矩阵,即定义为:
将其代入式(10)中得
将其进行傅里叶变换并进行对角化处理得:
当前帧中目标的所在位置即为响应()的峰值所在位置。
本文在KCF算法基础上进行了相关改进,算法的鲁棒性有了明显提高。改进后算法的流程如图1所示。其步骤如下:
图1 改进后的KCF算法流程
(1)特征提取阶段分别计算HOG特征与CN特征,将HOG特征与CN特征进行线性融合;
(2)相关滤波阶段使用新的特征进行计算,并计算当前帧的响应值;
(3)更新阶段采用APCE更新准则,防止遮挡等干扰导致更新错误信息使得跟踪失败;
(4)通过确定目标区域与每一个像素的相似度,来确定这一帧的目标位置。
传统的KCF跟踪算法对目标特征的提取通常采用单一的目标特征,但使用单一的目标特征会导致跟踪器在存在大量复杂背景的场景中跟踪失败,例如:HOG特征在目标背景具有较强的光照变化、目标与背景颜色相近等干扰情况下具有较强的稳定性,但是在快速运动、模糊背景等干扰下的适应性较差;CN特征在快速运动、低分辨率等情况下表现良好,但是对于颜色干扰表现较差。为了解决这一问题,本文将HOG特征与CN特征进行线性融合,因两者可以相互弥补其缺点,所以本文算法采用这两种特征进行线性融合来提高跟踪精度,并将融合后的特征用于目标跟踪。
HOG用于检测目标的几何特征。通过计算目标区域的梯度方向直方图的方式来描述感兴趣目标的特征,因HOG反映的是目标的外形轮廓,对目标的颜色变化不敏感,但是对于模糊背景以及遮挡等适应性较差。
CN是一种描述颜色语言的颜色标签。CN特征能够检测目标的颜色,检测的颜色信息为目标的重要特征信息,在快速运动、低帧数背景和光照变化等复杂背景下的敏感度很低,但是无法良好地应对颜色相似干扰。
本文算法多特征融合的具体步骤为:
(1)进行HOG特征与CN特征的特征提取;
(2)将HOG特征与CN特征进行线性融合,HOG特征的通道数为31,CN特征的通道数为10,融合后得到41个通道特征;
(3)通过对应像素相加的方式将41个通道特征进行相加,最终得到一个单通道的特征图。
在目标跟踪过程中,除了初始帧之外,每一次跟踪器更新前增加一个多峰值检测机制,在没有出现干扰的情况下,响应的峰值都将出现单一峰值;如果出现遮挡等复杂背景的干扰,响应将不再是单峰值,而是会出现多峰值情况。如图2所示。
图2采集自OTB-100数据集中的Jogging序列,在第51帧时未出现遮挡,响应呈现单峰值;在第79帧出现了明显的多峰值,这表明在此刻周围环境出现了遮挡,跟踪器计算了大量相似的背景信息,但无法正确寻找响应最大值,导致目标丢失,跟踪失败。
图2 Jogging图像序列的第51帧、第79帧的响应图
在原有核相关滤波算法(KCF)基础上加入APCE更新准则,并且只有在检测的响应值存在唯一且明显的单峰值时,才会对跟踪器进行更新。若出现干扰等产生多峰值,会根据当前帧的APCE值和响应峰值的最大值()来判断目标是否受到遮挡干扰。APCE更新准则如下:
式(17)中:代表响应最大值;代表响应最小值;F代表目标在(,)位置处的响应值。
APCE更新准则可以反映出跟踪过程中的整体响应情况,当APCE骤然减小时,表示目标受遮挡影响,为了避免在此帧更新干扰信息,跟踪器将不会进行更新。加入APCE评价标准即在一定程度上减少了跟踪时跟踪器的漂移情况,又减少了跟踪器的更新次数,起到了一定的加速效果。
在KCF算法中对跟踪器系数进行线性插值:
式(18)中:为下一帧的跟踪器系数;α为前一帧的跟踪器系数;为线性插值因子;α由当前帧跟踪器训练得到。
本文算法所用的实验平台配置为AMD Ryzen 7 4800 H with Radeon Graphics CPU,主频2.9 GHz,8 G内存,使用Matlab2018b开发平台进行测定。实验中,传统的KCF参数保持不变,padding值由原本的1.5设置为2.5,标准差设置为0.7,插值因子设置为0.014,正则项系数设置为0.0001。
本文实验中,根据Wu等提出的OTB(online object tracking)跟踪性能评估标准来评估本文算法的性能,并且评价指标采用中心位置误差(CLE)与重叠率(Overlap)。CLE是指通过算法计算得到的跟踪目标的中心坐标与目标所在的真实位置坐标之间的欧氏距离:
式(19)中:(,)为算法计算所得的目标中心坐标,(x,y)为目标的真实位置坐标。精确度是计算CLE小于某一阈值(本文取值为20 pixel)的视频帧数占该视频序列总帧数的百分比。
帕斯卡尔重叠率可用来评估跟踪成功率,重叠率是指给定跟踪框BT与实际跟踪框BG区域面积的交集,而成功率计算的是目标的重叠率大于设定的重叠率阈值(本文取值为0.5)的视频帧数总和占总帧数的百分比大小:
为验证改进算法的鲁棒性,将本文算法KCF_HC(包含多特征融合、APCE更新标准)、KCF_APCE(仅有APCE更新标准)、KCF与当前几种具有较好跟踪效果的相关滤波跟踪算法进行比较,精确度与成功率结果对比如图3所示。
图3 不同算法的精确度与成功率对比
从测试结果可以看出,本文的改进算法KCF_HC的精确度为79.3%,在所测算法中排在第2位,明显优于改进前KCF算法的精确度。成功率为75.8%,也明显优于改进前的KCF,在所有算法中也排在第2位。仅包含APCE更新标准的KCF_APCE算法的精确度与成功率分别为71.7%和64.7%,也略高于改进前的KCF,表明增加多特征融合与APCE更新标准确实可以提高算法的鲁棒性。
为了进一步验证本文改进后的KCF算法的跟踪性能,测试时选取了OTB-100数据集中较为经典的具备遮挡的视频序列,在视频序列中同时标注出改进前与改进后算法的跟踪框进行对比,如图4所示。
在图4(a)Jogging1视频序列中,选择跟踪目标为左侧跑者,在第57帧时,两种算法均可正常跟踪;在第80帧时出现了遮挡情况,改进后的KCF跟踪器因此帧未进行更新,所以没有学习遮挡的背景信息;在第91帧可明显看出改进前KCF因学习了背景信息,跟踪框停留在遮挡处,改进后的KCF则正常跟踪。
图4 改进前与改进后的KCF算法在Jogging1、Couple上的跟踪效果
在图4(b)Couple视频序列中,因该视频序列全程存在窗口剧烈晃动,所以只有在初始时两算法均正常跟踪。在后续帧中改进前KCF只进行HOG特征提取,而改进后的KCF因结合了CN特征,所以可以正常跟踪。
本文在对核相关滤波算法进行的研究中,针对传统KCF在单一特征及复杂背景下跟踪失败的问题,提出了多特征融合的方法,解决了在复杂背景下只采用单一目标特征跟踪效果不理想的问题;同时提出多峰值检测更新机制,解决了跟踪过程中因出现遮挡导致跟踪失败的问题。通过OTB视频序列跟踪效果的对比验证,在快速运送、遮挡等复杂背景下仍可良好的进行跟踪,同时也提高了鲁棒性,综合性较为良好。