陈昭炯 叶东毅 林德威
目标跟踪是计算机视觉领域的一个重要分支,具有广泛的应用前景。其主要任务可以描述为:给出一组视频序列和某个目标在序列第一帧中的位置,要求获得该目标在后续所有帧中的位置.目标跟踪问题围绕着视频的来源、应用场景需求和算法框架等因素分成多个分支,在线单目标跟踪是其中最为基础且研究内容最多的方向[1].此类跟踪系统一般分为初始化、目标建模与更新、候选目标采样、位置确定四个部分.系统抽取目标的外观或运动特征进行建模,对采样获取的候选目标进行匹配、分类等甄别,最终确定下一帧目标的预测位置.其中目标建模与更新和候选目标采样方法是当前研究的热点,特别是目标建模与更新是影响最终跟踪效果的重要因素.
目标的建模与更新方法通常可分成产生式和判别式两类.产生式模型通过对特征的抽取建立目标外观的先验分布,而后在候选样本中搜索与先验模型最为匹配的区域作为下一帧中目标的位置,并对先验模型进行实时更新;判别式模型是近年来逐渐兴起的方法,其思路是将跟踪问题看成一个分类问题,常用的分类器有贝叶斯分类器[2]、支持向量机(Support vector machines,SVM)[3]以及近年提出的相关滤波器[4-6]等,判别式模型通过在线学习训练分类器,利用训练好的分类器对候选目标进行分类,得分最高且分类标签为正的候选样本作为最终结果输出,而后对分类器进行更新.可以看到,两种方法各有特点,前者着眼于对目标整体的刻画,通用性较好,但对目标特征的依赖程度较高,如果特征的表征能力粗糙或者采用的特征单一化就可能造成目标模型不准确,且产生式建模未利用背景的信息,而目标位置通常以矩形框形式呈现,这就不可避免地造成了背景混入目标,在后续的匹配中可能带来误判;判别式模型利用了前景和背景信息,区分度较好,但是通用性不强.而混合式模型旨在结合两者优点[7],但融合方式或参数确定困难,研究成果较少[8].
不论是产生式还是判别式模型首先都需要对对象特征进行有效的刻画和提取,好的模型特征通常应具有尺度不变、旋转不变等特性,才能适应运动目标可能发生的外观变化.常用的特征有颜色特征[3,6,9-10]、刻画形状或纹理的方向梯度直方图(Histogram of oriented gradient,HOG) 特征[5,11]、主方向直方图(Histogram of dominant orientations,HDO) 特征[12]和Harr-like 特征[2-3]等,在特定的情况下单独使用上述特征可能有不错的表现,而不同类型特征的结合则有更强的适应性[6].近年来也有学者利用深度学习在特征刻画上的优势,探讨其在跟踪方面的应用[13-15],但由于视频目标跟踪是典型的小样本在线学习问题,且对实时性要求极高,而以处理大数据见长的、规模庞大的深度网络在上述两方面难以发挥优势,还有许多关键问题亟待解决[16-17].
在目标建模中颜色是非常重要的特征之一,颜色特征对姿态和旋转不敏感、计算简单,在目标跟踪方法中得到广泛应用,但其缺点是容易受到外界光照变化的影响,当出现颜色相似的目标或背景时模型表征能力会下降.常用的颜色特征有基于加权直方图分布的[3,6,9-10,18]特征和基于Color name[19]的特征.本文通过分析发现,前者存在构建模型的假设条件不够合理、同一区间长度中的差异色无法分辨等不足;后者将颜色信息投影到11 维常用颜色名空间中,本质上是一种简化了的直方图分布模型,由于区间数不多而区间长度较大,同样会产生视觉上有差异的颜色落入同一区间而无法区分的问题.此外,上述两种方式还易受背景信息干扰.
本文首先针对上述颜色直方图表征目标的不足,设计了一种新的颜色表示模型,即背景抑制的目标颜色模型,并提出基于人眼感知特性的动态权重函数来计算颜色分布的重要性,该模型能够有效区分同一区间中的差异色且降低背景色在模型中的权重;其次,本文将产生式和判别式模型相结合,利用上述新的颜色模型构建产生式跟踪器,同时引入相关滤波器[5],结合HOG 特征构建判别式的形状跟踪器,从颜色和形状两方面刻画目标和背景,将产生式和判别式的优势结合;在两者结合的参数设计这一关键问题上,本文利用两个跟踪器对候选目标的相关响应值,来判定对应场景中颜色和形状特征各自的可信度,分析并设计了参数选择的定性原则,同时通过场景的判定对跟踪器实施不同力度的更新策略,提升了算法的整体鲁棒性;算法采用粒子群算法的搜索机制进行候选目标采样,在满足搜索精度的基础上还能保有搜索的广度,其最大的优势是可追随目标尺度的变化.本文算法在OTB-2015 公测数据集[20]上与其他算法进行对比实验,在绝大多数情况下准确率较对比算法更优且能满足实时性要求.
颜色通常是快速辨别目标的一个重要因素,许多跟踪算法把颜色作为重要的建模特征之一.
目前广泛采用的颜色分布模型是以带权重的颜色分布直方图作为特征的[3,9-10,18].该模型对半遮挡、旋转或尺度变化具有较好的鲁棒性,且计算简洁,工程上容易实现.但分析表明,该模型存在如下较大的局限性:
1) 颜色直方图无法区分同一区间内相近但视觉上能感知的差异色.在建立颜色分布模型时,需要考虑区间的个数和每个区间的长度,若区间数太多、区间长度过短,虽然可以比较细致地表达颜色,但是计算量大,影响跟踪的实时性,还可能导致模型对颜色变化过于敏感,出现跟踪丢失的情况,因而在实际应用中,通常不采用区间数过多的直方图分布设计;但是若采取区间长度较长、区间数较少的方案,例如前述的Color name 模型[19],则会带来颜色表达能力的下降,视觉上有差异的颜色可能落入同一区间无法分辨,进而导致错误跟踪.以图1 为例,图中两个色块的差异人眼很容易分辨,其RGB 值分别是(0,128,128) 和(11,131,158),但模型却将它们视为相同而归入11 维区间中的同一区间段.
2) 传统模型采用随目标框中心向外逐渐递减的权重函数来计算直方图的分布,而目标的许多实际情况并不符合这种函数形态.
图1 同一区间内的相近色Fig.1 Similar colors within the same interval
一般情况下,跟踪过程通常采用矩形框表示目标区域.记r为目标框内当前点与中心的距离,权重函数k(r) 是一个与r成正比的核函数[21],典型的形式为
式(1) 表明越靠近目标框中心的颜色其权重越大,相应的颜色信息越重要.图2 中矩形框为检测过程标定的目标区域,曲线框代表目标的实际轮廓,容易看出靠近矩形框中心的右下部分实际上是背景区,如果按照上述权重计算方式,大量的背景颜色信息会混入到目标颜色模型中.这种情况在与图2 类似的具有凹形或空心的目标形态出现时尤为明显;更严重的问题是,此时处在目标区中心的背景信息被赋予了很高的权重,造成目标模型的颜色分布不仅和真实的颜色分布相差较大,反而和背景模型的颜色分布相差无几,这容易造成跟踪方向背离目标而指向背景区域.
图2 目标框与实际目标形状差异Fig.2 Shape difference between the tracking box and the real object
为了解决上述问题,本文的思路是对颜色模型的结构形式进行重新设计,将区间的均值和方差纳入到模型中,在每一区间内对其颜色分布进行二次统计,如此即可较好地应对同一区间视觉上有差异的颜色的区分问题.
其中,bu为如下四元组:
pu为该区间颜色在图像中的出现频值,μu为区间颜色均值,为区间颜色方差,计算式为
其中,δ为克罗内克(Kronecker) 函数
其中,wu为权重系数,反映了区间u的颜色在目标颜色模型中的重要程度,式(5) 是与时间t有关的,为简便计,统一将t略去.下面分析该系数的计算方式.
如第1.1 节所述,目标颜色的重要程度未必与其分布位置必然相关,因此简单地使用随空间位置变化的权重函数并不合理.事实上,人类视觉有着长期进化形成的非常有效的捕捉和跟踪机制,值得算法借鉴.例如人类在观察对象时更侧重关注对象与背景差异较大的部分,如观察一个身着黑衣的人在夜间行走,会更倾向于关注行人的头部.即并非目标中的颜色都是起关键作用的,只有那些能将目标从背景中分离出来的颜色才是真正重要的.
基于上述分析,本文给权重函数设立的计算原则是,目标框中颜色信息的重要程度与背景相关,与背景差异越大其颜色的特异性在目标识别中越重要,相应的权重也应该更大,这样即使目标中有与背景相近的颜色,但是因赋予其较小的权重而使其不会在跟踪中起主导作用,真正起主导作用的是与背景颜色差异较大的目标色,这样就能有效改善模型中背景易混入目标的不足.
根据该原则计算权重的方式如下:假设在检测过程已获取目标框P,将其外扩1~2 个像素宽,得到覆盖P的一个稍大的矩形框P′,条带γ=P′-P应不含或含有极少量目标,绝大部分为背景,并且此背景与目标框中的背景是相邻的,故二者属于语义上同一背景的可能性较大.可用条带γ表达目标框中的背景组成,也就是目标框P中混杂的背景色与条带γ的颜色分布应相似,通过计算γ的颜色分布来刻画目标框内的背景色,就能从P中较好地将背景色析出,保留真正的差异性目标颜色特征并给予其较大的权重.
计算条带γ在t时刻的颜色直方图并归一化得B(t)={γ1(t),γ2(t),···,γm(t)},如图3 所示.B(t)中占比越大的颜色区间是背景的概率越大.
图3 与目标紧邻的参考背景模型Fig.3 Reference model of background close to the target
t时刻的权重系数wu(t) 也应与区间颜色的均值和方差有关联,但考虑到其最重要的取值原则是该颜色在背景中占比越大,则取值越小,最终的计算式为
其中,γu(t) 越大,表明区间u的颜色在背景中占的比例越大,此时wu(t) 应越小.当然,也存在另一种可能,就是目标中也包含了与背景相近的颜色,根据算法思想,我们将这种颜色看作是目标的非特异性颜色,也就是无法将目标从背景中区分出来的颜色,对于表征目标没有实质意义,因此同样要赋予较小的权重.例如图3,目标主体是小狗,主要由黑色和灰白色构成,由于灰白色与背景相近,黑色就构成了目标特异色,其权重较大.
颜色是人类视觉系统中常用的一种特征,但有其局限性,因为颜色不是一种固定属性,会随着环境的变化而改变,因此考虑增加目标的形状特征来强化跟踪效果,构造颜色和形状两个跟踪器.
近年来,相关滤波器[5]因其构造方式简洁、处理速率较快、鲁棒性较好而在目标跟踪中引起关注和研究[6,22-24],在此引入相关滤波器作为形状跟踪器,采用刻画形状特征的HOG 描述子[11]作为滤波器的输入.
假设给定目标候选区f、滤波器h及相关性响应g,根据卷积定理,空域的卷积运算可以在傅里叶域通过元素乘积后反变换完成,故有如下关系:
其中,F 为傅里叶变换,F*(h) 表示F(h) 的复共轭,⊙表示矩阵点乘.
跟踪初始通常收集一定量的目标表示样本fi和输出gi,i=1,2,···,N,通常fi由视频首帧的真实目标框及其若干偏移框构成,其响应值gi通常是fi中心与真实目标中心距离的高斯函数变换值,通过训练的方式建立初始滤波器h.记F=F(f),G=F(g),H=F(h),则有:
其中,除号是指矩阵元素相除,为了使滤波器更具鲁棒性,H*可通过求解如下最小化问题获得:
由文献[5]可知,其最优解H*的表达式为
由此获得初始化的滤波器.其中滤波器的输入是采用提取好的HOG 特征.后续随着视频推移,滤波器模型需要通过更新公式来更新,参见第4.2.2 节.相关滤波器的详细介绍可参见文献[5].
群智能算法因其带指导的随机性、不易陷入局部最优、无需求导实现方便、信息可交互等特点得到广泛运用,在目标跟踪相关领域也有相关的应用工作出现[25].这种带随机搜索机制的群体智能优化算法用于目标跟踪,相比于传统的优化方法,具有更高的获得全局最优的可能性,因而更不易陷入局部最优.同时即便在某一帧算法判断失误,由于每个个体保持一定的独立性,其搜索范围仍然保有一定的广度,算法依然有机会找回目标.粒子群算法是群智能方法中一个比较经典、简洁的算法,本文的候选目标搜索过程通过引入粒子群优化(Particle swarm optimization,PSO) 算法来实现.
粒子s的结构形式设计为s={P,R,V,a},其中,P=(x,y)T为该粒子所代表的矩形区左上角的坐标;R=(rox,roy)T为该区域的长和宽;V=(vox,voy)T表示粒子在x和y方向上的运动速度;a=(aox,aoy)T表示区域在x和y方向上尺寸的变化速度.如图4 所示.
图4 粒子模型示意图Fig.4 Illustration of particle model
在设计粒子模型时,我们将候选框的尺度和变化率也作为粒子可调节的参数,以适应真实场景中对象可能发生的尺度变化.
有效运用PSO 算法的关键环节是适应值函数的设计,本文思路是将颜色和形状两个跟踪器的结果在适应值函数中进行组合,通过加权系数反映两个跟踪器当前的可信程度,希望组合后粒子si的适应值函数disi能较好地反映粒子的价值,指导当前帧粒子趋近目标的真实位置.
适应值函数式为
其中,di为粒子si与目标颜色模型的距离;gi为形状跟踪器对si的响应值;M为粒子种群大小;τ是加权参数,其值反映了当前两个跟踪器的可信度,具体确定方法在第4.1 节详细讨论.
当前帧粒子状态的更新式为
其中,和为粒子si历史最优解的坐标和尺寸;P*和R*为整个种群历史最优解的坐标和尺寸;ω1和ω2为2 阶惯性参数对角阵;η1,η2,ξ1,ξ2为认知系数;r1,r2,r3,r4为[0,1]中的随机数.当前后两次搜索得到的粒子适应值之比近似为1 时,搜索停止.
在每一帧执行完整的一轮粒子群算法找到该帧的最佳目标匹配位置后,下一帧重新开始新一轮搜索,新一帧粒子的初始化过程不必随机选择粒子,而要充分利用上一帧的结果.第t+1 帧中搜索最佳匹配位置时,粒子群的初始状态可以设置为
其中,带* 号的是上一帧获得的最优值,δ1,δ2,δ3,δ4为[0,1]中的随机数.
本文对颜色特征采用产生式建模、对形状特征采用判别式建模后,获得了两个跟踪器,在给定的场景中最终的目标位置需要对两个跟踪器的可信程度进行判定,综合两者的结果获得,这一综合结果以适应值函数的形式体现在前述粒子群的搜索过程中,参见式(11).记
根据这些信息对当前场景下目标的变化情况作如下分析:若dmin很大,表示所有候选粒子所在区域的颜色都与目标的颜色差异较大,可推断场景发生了较大的颜色改变,此时颜色信息的可信度下降;若gmax很小,表示所有候选粒子所在区域的对象外观都与目标差别较大,可推断场景中目标外形发生较大的改变,此时形状信息的可信度下降.
设置阈值ε1和ε2,具体有如下4 种状况(参见图5):
图5 颜色与形状跟踪器权衡选择过程图示Fig.5 Trade-offbetween color tracker and shape tracker
1)dmin≤ε1且gmax>ε2,两个跟踪器都工作良好.
2)dmin≤ε1且gmax≤ε2,形状跟踪器出现波动,颜色跟踪器状态良好.常见的原因是目标发生形变,此时应侧重采纳颜色跟踪器的结果.
3)dmin>ε1且gmax>ε2,颜色跟踪器出现波动,形状跟踪器状态良好.常见的原因是目标受光照变化影响而发生颜色改变,此时应偏向采纳形状跟踪器的结果.
4)dmin>ε1且gmax≤ε2,两个跟踪器同时出现波动,常见的原因是目标丢失或者目标被遮挡,此时应扩大粒子群搜索范围.
上述分析给出了式(11) 中融合系数τ取值的定性原则,本文实验中τ取值范围如下:
其中,ε1=0.2,ε2=0.4.
4.2.1 基于颜色的产生式模型的更新
在当前帧中找到目标最优解后,记最优解对应的颜色模型为O*={b*1,b*2,···,b*m},则颜色模型的更新式为
其中,λ为更新系数.
上述4 种状况的分析结果也给出了对模型采用不同更新力度的依据.状况1) 出现时,模型常规化更新;状况2) 出现时,加大更新力度;状况3) 出现时,虽然颜色模型出现波动,但是形状模型仍表现良好,说明目标仍在跟踪范围内,只是颜色因光照等原因有变化,为了适应这种变化,更新系数不调整;状况4) 出现时,目标有可能跟丢,此时应减小更新力度.本文后续实验中颜色模型更新系数λ的取值范围如下:
4.2.2 基于形状的判别式模型的更新
假设已获取第t帧目标Ft及相关响应Gt,η为权系数,形状判别器的更新式为
与上述颜色模型更新的分析类似,形状模型更新系数η的取值范围如下:
即,状况1) 出现时,模型常规化更新;状况2) 出现时,虽然形状模型出现波动,但是颜色模型仍表现良好,说明目标仍在跟踪范围内,只是目标外形可能因柔性运动等原因有变化,为了适应这种变化,更新系数不调整;状况3) 出现时,加大更新力度;状况4)出现时,目标有可能跟丢,应减小更新力度.
本文算法的流程如下(参见图6):
步骤1.对给定目标分别建立颜色和形状模型.
图6 本文算法过程示意图Fig.6 Illustration of the proposed algorithm
a) 建立目标的颜色模型
b) 建立目标的相关滤波器模型(参见第2 节)
步骤2.随机初始化粒子群的状态,粒子的具体含义参见第3.1 节.
步骤3.对候选目标进行粒子群搜索获得最优解.
a) 计算每个粒子si与目标的颜色距离di以及对相关滤波器的响应值gi,i=1,···,M.
b) 根据式(16) 选择τ值,获得si的适应值
c) 根据式(12) 获得粒子下一位置信息.
d) 前后两次搜索得到的最优粒子适应值之比接近1 时,搜索停止;根据最优粒子结构中的坐标和长、宽值输出目标框,完成当前帧的搜索任务.
步骤4.粒子状态更新,模型更新.
a) 根据式(14) 对当前粒子群进行更新,作为下一帧(t+1 时刻) 的初始粒子群si(t+1),i=1,···,M.
b) 根据式(17) 和式(18) 更新颜色模型.
c) 根据式(19) 和式(20) 更新相关滤波器模型.
本文测试数据集OTB-100 取自Visual tracker benchmark[20],包含的视频序列涉及对象的光照变化、尺度变化、遮挡、形变、模糊、快速移动等多种可能情况,是目前最具影响力的视频目标跟踪算法测试数据集[16].实验环境的技术参数为:英特尔奔腾G3240 的CPU,主频3.10 GHz,内存8 GB,编程平台VS2013.
实验选取了近期两个同类型且有代表性的跟踪算法:核相关滤波算法(Kernel correlation filter,KCF) 算法[5]和Staple (Sum of template and pixel-wise learners) 算法[6]作为对比算法.KCF 算法采用基于HOG 特征的相关滤波器建模和密度采样方式进行候选目标搜索;Staple 算法在KCF 算法基础上还增加了传统颜色直方图建模.
本文使用文献[17]定义的5 种指标来评价算法性能:中心误差(Center location error,CLE)、重叠率(Overlap score,OS)、准确率、成功率以及平均帧率.中心误差和重叠率的计算式为
其中,(xT,yT) 和(xG,yG) 分别表示跟踪结果和真实目标的中心坐标,RT表示跟踪算法获得的目标区域,RG表示真实的目标区域,s(R) 表示区域R的面积;准确率定义为跟踪结果的CLE值小于阈值tp的帧比率;成功率定义为跟踪结果的OS值大于阈值ts的帧比率.跟踪效果越好则CLE值越小,而其他指标越大.
6.1.1 算法总体性能定量对比
图7 展示了本文算法与其他两个算法在OTB-2015 数据集的100 个视频测试的一次通过性(Onepass evaluation,OPE) 的跟踪准确率和成功率.3个算法都是从视频首帧的目标真实位置开始跟踪的.图7(a) 中括号内的数值表示tp=20 时的准确率;图7(b) 中括号内的数值表示对应算法成功率曲线下方围成的面积.从图7 中可以看出,本文算法在整体性能上优于其他两个算法.
图7 3 个算法OPE 跟踪准确率和成功率图Fig.7 OPE tracking accuracy rate and success rate of three algorithms
表1 展示了3 个算法在数据集上的平均性能指标.可以看出,KCF 算法虽然帧率较大、实时性好,但是准确率较低;Staple 算法的准确率有所提升,但是帧率低,不能很好满足实时性要求;而本文算法采用了新的颜色模型,同时结合产生式和判别式模型并加以权衡,以获取综合的可信度,综合性能超过KCF 和Staple 算法,且帧率达到了实时性的要求.
表1 3 个算法的总体性能平均值Table 1 Average global performance of three algorithms
6.1.2 代表性视频定量实验结果及分析
表2 列出了3 个算法对测试集中18 个有代表性的视频序列实验的具体CLE 指标比较,其中序列特点栏目中,1、2、3、4、5 和6 分别表示快速移动、模糊、尺度变化、形变、光照变化和遮挡.表3 列出了3 个算法对测试集中18 个有代表性的视频序列实验的具体OS 指标比较.
从表2 和表3 中可以看出,本文在绝大多数场景中性能优于其他两个算法,特别是有尺度变化的场景效果优势较明显.
第6.1 节定量数值结果给出了3 个算法跟踪准确率、成功率和时间效率值,本小节针对不同场景下3 个算法的目标捕捉能力,选取若干有代表性的图像序列做定性的分析.图8~12 中,跟踪矩形边框底部标有五角星代表本文算法结果,三角形代表Staple 算法结果,圆点代表KCF 算法结果.
表2 3 个算法在18 个视频的CLE 值比较Table 2 CLE values of three algorithms on 18 videos
表3 3 个算法在18 个视频的OS 指标比较Table 3 OS values of three algorithms on 18 videos
图8 BlurOwl 图像序列3 个算法跟踪截图Fig.8 Screen shots of tracking with three algorithms on BlurOwl image sequences
图9 Girl2 图像序列3 个算法跟踪截图Fig.9 Screen shots of tracking with three algorithms on Girl2 image sequences
6.2.1 算法对快速移动且模糊场景的效果
在BlurOwl 图像序列中,目标的移动速度很快,同时出现不同程度的模糊.KCF 算法和Staple 算法分别在第108 帧和第289 帧开始偏离目标.本文算法对颜色和形状综合后的搜索策略能够在目标快速运动过程中,较好地跟住目标,参见图8.
图10 Human5 图像序列3 个算法跟踪截图Fig.10 Screen shots of tracking with three algorithms on Human5 image sequences
图11 Skating1 图像序列3 个算法跟踪截图Fig.11 Screen shots of tracking with three algorithms on Skating1 image sequences
图12 Diving 图像序列3 个算法跟踪截图Fig.12 Screen shots of tracking with three algorithms on Diving image sequences
6.2.2 算法对遮挡场景的效果
在Girl2 图像序列中,目标是骑儿童滑板车的小女孩,视频中目标多次被遮挡,KCF 算法和Staple算法分别在第118 帧和第1 398 帧之后丢失目标,而本文算法合理的跟踪机制,特别是模型的更新机制保证了算法始终跟住目标,参见图9.
6.2.3 算法对尺度变化场景的效果
Human5 图像序列最大的难点就是尺度变化较大(第230 帧至第272 帧以及第370 帧到第407 帧),同时变化速率快,因此在保证跟住目标的同时准确计算目标尺度是一个挑战.实验表明,本文算法相较于Staple 和KCF 算法能更准确地获得目标尺度,参见图10.
6.2.4 算法对光照变化场景的效果
Skating1 序列集中,光照条件始终在发生变化.而本文算法由于使用了颜色和形状的双特征跟踪机制,因此能保证目标不丢失,参见图11.
6.2.5 算法对形变场景的效果
这里的形变主要为非刚体变化,在Diving 序列中,跳水运动员的身躯从伸展到团身然后再展开的三次非刚体变化,这对依靠形状特征来跟踪目标的算法是很困难的.可以看到,第19 帧和第143 帧KCF 算法失效,第218 帧Staple 和KCF 两个算法都失效,而本文算法很好地平衡了形状和颜色特征在跟踪算法中的作用,因此能够跟住目标,参见图12.
本文设计了一个新的合成式跟踪算法,其中包含了新的颜色模型表达方式、产生式与判别式模型的融合策略等要素,实验结果显示了本文提出的算法在大多数场景中取得了比Staple 和KCF 算法更好的准确率,且满足实时性要求,表明本文提出的颜色模型的合理性以及目标模型融合和搜索策略的有效性.
在上述工作的基础上,针对本文算法中的一些不足以及可提升效率的空间,下一阶段计划从以下3个方面进行深入研究.1) 本文提出的颜色模型通过有效地抑制背景、分离出目标的特异色而能够快速定位目标,但是对目标的尺度变化不够敏感,后续将进一步研究适应尺度变化的颜色模型.2) 近期关于深度学习的研究工作展现了其在特征刻画方面的优势;此外,也有一些研究工作通过辅助目标来提升跟踪目标判定的准确度[26],下一步考虑如何在不失实时性的前提下,在本文算法框架中引入这些特征和策略.3) 在跟踪算法中,模型的更新方式通常采用凸组合的形式,其中的组合系数一般根据经验给出,本文尽管分析了组合系数在4 种不同状况下的定性取值范围,但仍未能给出具有理论背景的分析,后续将对此展开研究.