齐玉娟, 牛潇然, 王延江
(中国石油大学(华东) 信息与控制工程学院, 山东 青岛 266580)
目标跟踪是计算机视觉研究中十分重要的领域,在智能监控和安防系统中有着十分广阔的应用前景。在众多的目标跟踪算法中,粒子滤波以其对非线性/非高斯系统状态估计的良好适应性而越来越受到关注。粒子滤波算法根据蒙特卡洛仿真原理递推实现贝叶斯估计[1],在目标跟踪过程,用足够数量的、带有相关权值的粒子对应目标各种可能的状态,并通过粒子间的线性加权逼近目标的真实状态[2]。由粒子权值的递推公式可知,观测模板与目标模板之间的相似程度直接影响粒子权值的变化。
通常,以颜色直方图为代表的全局特征被用来构建观测模板和目标模板。全局特征对目标区域内所有点的特征进行统计,所以能够一定程度上抑制随机噪声。然而,当目标的外观与背景相似,或者由尺度变化、光照突变、旋转等引起目标外观发生变化时,单一的全局特征将无法可靠地作为区分目标与背景的依据,从而使粒子跟踪器失效。与全局特征相对应的局部特征则可以一定程度上适应上述情况[3];但是,由于局部特征仅统计目标区域内的一部分特性,也造成局部特征对噪声比较敏感,特别是在复杂场景下,特征点发生误匹配的概率较高。
为了应对跟踪过程中出现的目标外观变化和目标外观与背景近似等情况,本文受人类记忆机制的启发,引入三阶段记忆模型用于建立模板空间。模板空间综合使用目标的局部特征和全局特征,并能够记忆目标外观的时序变化。在目标跟踪过程中,模板空间对粒子的传播方向加以引导,降低粒子在传播过程中偏移目标的程度,以避免粒子的退化。同时,粒子集合对特征点的匹配范围进行约束,以减少伪匹配点的出现,从而增强目标模板的可靠性。实验结果表明,当目标外观与背景相似时,或由尺度变化、光照突变、旋转等引起目标外观发生变化时,本文提出的算法仍能鲁棒地跟踪目标。
研究表明,记忆系统在人类的认知活动中发挥着至关重要的作用[4]。人类在视觉感知行为中,通过视觉系统、人脑记忆、学习、推理等功能的协同工作,能够在复杂环境下鲁棒地识别、跟踪、理解、解释感兴趣目标及其所处的场景。通过视觉输入与人脑记忆系统输出的记忆模式进行匹配,完成感兴趣目标的推测、提取与注意焦点的转移等[5]。作为人类认知活动中的枢纽,记忆机制在自然科学、生物心理学、认知科学等领域均得到了深入的研究,研究者提出了多种记忆模型[6]。其中,记忆信息三级贮存模型被认为是认知心理学领域中经典的人类记忆机制模型。后经研究人员不断地发展完善,逐步形成了三阶段记忆理论,其模型框图如图1所示。
图1 三阶段记忆模型
从图1可以看出,记忆系统被划分为瞬时记忆空间、短时记忆空间和长时记忆空间,分别对应着信息处理流程的3个阶段。瞬时记忆空间存储着神经系统传来的视觉、听觉等感知信息,这些具有底层特征的信息被送入短时记忆空间并整合为高层特征信息;短时记忆空间是进行信息编码、解码、转换等处理的主要工作场所,为认知活动中进行的模式匹配提供记忆模式;长时记忆空间容量最大,信息保存时间最长,存储着经验知识等具有概念性质的信息。“复述”行为将短时空间中重复出现的信息送入长时空间存储,而“提取”将长时记忆中的激活信息传送到短时空间。
近年来,人类记忆机制被成功应用于短时交通流量预测[7]和计算机视觉[8-12]等领域。特别是在计算机视觉领域的研究中,王延江等将三阶段记忆模型引入到视觉信息处理过程,提出了基于记忆机制的视觉信息处理的认知计算模型[8-9],通过模拟人脑的一些认知过程,提高了背景建模和运动目标跟踪算法的鲁棒性[10-14],较好地解决了复杂场景下的背景突变、目标姿态改变以及目标被遮挡等问题。
根据三阶段记忆模型的信息处理流程,本文将模板空间划分为三部分,如图2所示。分别对应了瞬时、短时、长时记忆空间:瞬时空间中存储了局部特征激活模板,该模板由目标区域的局部特征综合而成;短时空间存储全局特征激活模板,该模板由目标区域的全局特征构成;长时空间存储全局特征记忆模板,这些模板记录了目标曾经出现过的外观。在跟踪过程中,激活模板用于与观测模板进行匹配,并根据匹配结果做出相应的决策。记忆模板用于短时空间中激活模板的更新,使跟踪器能够快速适应目标的变化。
图2 模板空间结构图
BRIEF描述符[16]是一种用来对不同特征点进行比较的二值描述算子。由于对内存要求低且运行速度快,近年来受到广泛的关注与研究。与SIFT、SURF等传统的二值描述符相比,BRIEF在构造与匹配计算上都更加的简洁高效,并能取得较高的识别准确率。
BRIEF描述符是一个n位的0/1码串,对应的十进制数为:
其中:τ(s;u,v)是以点s为中心的图像块中两点之间灰度值的比较函数,具体如下:
I(s,u)是点u=(xu,yu)Τ的灰度值。
在基于全局特征的粒子滤波算法中,观测模板与目标模板之间的巴氏距离被作为两者之间的相似性度量。由于本文模板空间引入了局部特征,因此模板的匹配策略需作如下调整:
(1)
式中:ρ1为观测模板区域内局部特征点数量no与瞬时空间模板中局部特征点数量ns之比,代表了在局部特征层面上观测模板与目标模板之间的相似性;ρ2是观测模板直方图ho与短时空间模板hts之间的巴氏系数。ρ1与ρ2的线性组合作为观测模板与目标模板之间的相似性度量ρ,且权值α根据场景变化自适应调整。
粒子滤波利用蒙特卡洛仿真原理解决贝叶斯跟踪框架下后验概率密度函数难以求得解析解的问题,即以足够多的、采样于后验概率分布的样本来近似表示真实的数学期望。然而,由于目标状态的后验概率分布p(x0:kz1:k)是多变量、非标准的,难以从中采样获得应用样本。根据贝叶斯重要性采样定理,可以从一个已知的且容易采样的参考分布中进行采样,并通过加权近似后验概率分布。
理想状态下,参考分布q(x0:kz1:k)应尽可能地接近后验概率分布p(x0:kz1:k),从而使权值的方差最小。从实际情况出发,最常见的参考分布是目标的先验概率密度函数p(xkxk-1),即第k帧的粒子(参考分布的采样序列)状态取决于其状态转移方程。一阶状态转移方程如下:
(2)
式中:uk、rk、hk、gk是零均值的高斯随机过程。此时,粒子传播的速度和方向完全随机。
为了使粒子更加接近后验概率分布中的采样样本,本文对状态转移方程进行如下调整:
(3)
式中:uk、rk是0,1之间的随机数;(cx,k-1,cy,k-1)是瞬时空间中局部特征点的中心。粒子传播的方向不再随机,每1帧粒子都是向着上1帧中目标的方向进行传播。
经过改进,粒子加权运算后更加近似于后验概率分布,粒子权重的方差变小。直观来看,远离目标运行轨迹的粒子减少,避免了粒子权值的持续衰减,粒子间的权重分布更加均衡,粒子退化现象得到遏制。
局部特征表征的是一部分独立的图像块的特性。由于没有与其他特征建立联系,图像的某个区域并不能由单独的局部特征唯一标记。当场景较为复杂或场景与目标近似时,背景和目标可能会出现相同或相似的局部特征,从而造成特征点的伪匹配。
为解决特征点的伪匹配问题,本文定义粒子集合分布的空间区域为ROP(Region of Particles)。局部特征匹配时,仅取ROP内提取的FAST角点作为待匹配的特征点。由于缩小了匹配范围,避免了背景中远离目标的、但与目标局部特征相近的特征点被分类为目标,减少了伪匹配的发生。
对于模板记忆空间:清空长时空间;将所选目标区域的颜色直方图存入短时空间,作为全局特征激活模板;将目标区域内提取的FAST角点及相应的BRIEF描述符存入瞬时空间,作为局部特征模板。同时,计算目标特征点集的中心位置(cx,0,cy,0)。
Step2对于每1帧新进入的图像,执行粒子的状态转移方程(3),实现粒子的传播。
Step3在ROP区域内提取与瞬时空间模板相匹配的局部特征。根据式(1)计算各粒子观测模板与目标模板之间的相似度,并按照下式计算各粒子的权值,
(4)
Step4根据下式估计目标的位置:
(5)
同时,计算估计目标的颜色直方图he。
为验证本文所提模型及算法的有效性和实用性,用两段标准视频在主频为Core 2.3 GHz、内存为2 GB的计算机上进行测试。视频Ι“david_indoor”中的跟踪目标为人脸;视频Ⅱ“cliffbar”中的跟踪目标为手中的书签。为了比对传统算法与本文算法的效果,两者的粒子数量均设为25。
图3(a)展示了原始粒子滤波算法在“david_indoor”中的跟踪结果,图3(b)是原始粒子滤波在“cliffbar”中的跟踪结果。由于目标与背景的颜色特征近似,加之目标出现了尺度变化与亮度变化,跟踪器逐渐偏离目标,并分别在第193帧和第90帧时完全跟丢。
(a) David-indoor
(b) cliffbar
图4分别展示了对两个标准视频进行目标局部特征点匹配的结果,特征点由绿色十字标注。由结果可看出,每一帧都有相当数量属于背景的局部特征点被误匹配为目标。
(a) david-indoor
(b) cliffbar
图5展示了本文算法在“david_indoor”测试视频上的跟踪结果。外层红色矩形框为跟踪结果,内层绿色矩形框包围了匹配为目标的特征点(用绿色十字标记)。图5第1行截取于第10~315帧,期间场景的亮度与目标的尺寸发生了变化;第2行截取于第444~491帧,期间目标发生了旋转,并且尺度变小;第3行截取于第602~708帧,期间出现了光照突变,同时,目标的眼镜也被反复地摘取。实验结果表明,本文算法在目标尺寸变化、目标旋转以及光照突变条件下都能较好的跟踪目标。
图5 本文算法在视频Ι中的跟踪结果
图6是本文算法在“cliffbar” 测试视频上的跟踪结果。图6第1行截取于第30~100帧,期间目标的尺度随运动发生了变化;第2行截取于145~247帧期间,目标被“手”部分遮挡,并发生了180°的平面内旋转;第3行截取于336~447帧期间,目标被“手”牵引做无规则运动,并且尺度发生连续变化。实验结果表明本文算法在目标尺度变化、遮挡时都能较好地跟踪目标。
图6 本文算法在视频Ⅱ中的跟踪结果
粒子退化严重影响了粒子滤波算法的效率和准确性。本文提出的算法通过对粒子传播方程的改进,最大程度上抑制了粒子的退化现象。
通常,粒子集合的退化程度可以用下式近似表示[1]:
(6)
式中:ω为粒子权值;N代表粒子的数量。粒子退化越严重,量测值越接近1。
图7给出本文算法在“david_indoor” 测试视频中粒子退化量测值的变化情况。由图7可以看出,本文算法的量测值始终大于24.995,这一数值远远大于1,证明了对粒子退化的有效抑制。
图7 本文算法的粒子退化量测值变化
为了更直观地展示本文算法中粒子权值的分布,图8描绘了整个跟踪过程中最大和最小粒子权值的变化情况。可以看出,最大权值和最小权值之差不超过0.003,说明粒子是极为均匀地分布在目标的周围,参考分布十分接近后验概率分布。
图8 最大与最小粒子权值的变化
传统粒子滤波器在跟踪过程中难以应对目标外观变化和目标外观与背景近似等情况。为解决上述问题,本文受人类记忆机制的启发,引入三阶段记忆模型用于建立模板空间。模板空间综合使用了目标的局部特征和全局特征,并能够记忆目标外观的时序变化。在跟踪过程中,模板空间对粒子的传播方向加以引导,避免了粒子的退化。同时,粒子对局部特征的匹配范围进行约束,减少了伪匹配点的出现。实验结果展示了本文算法在目标外观与背景相似时和目标外观发生变化时的鲁棒性。