一种基于深度置信网络的目标跟踪算法

2018-06-11 11:05李克靖孙凤梅
电子设计工程 2018年11期
关键词:权值分类器滤波

李克靖,孙凤梅

(中国电子科技集团公司第五十八研究所,江苏无锡214035)

目标跟踪,是指在视频中利用目标的有效特征,结合适当方法在各帧图像中获取目标的位置、速度、运动轨迹等信息,在视频监控、物体识别和人机交互等领域都有广泛的应用[1-2]。

近年来,基于分类的目标跟踪得到了较快的发展,涌现出大量的研究成果。文献[3]采用一种步步为营的反馈式学习方法,通过正、负约束提高目标模型与分类器的判别能力和容错能力;文献[4]提出一种基于在线半监督boosting的协同训练目标跟踪算法,利用未标记的样本对两个特征视图分类器进行协同训练,并结合分类器在线迭代和先验模型对未标记样本作出类标记预测,同时得到其权重,该算法有效地提高了分类器的判别能力,从而对目标外观的变化有了更好的适应性。然而这些基于分类的目标跟踪方法都需要预先选取目标特征,而所选特征对目标的区分是否最为有效往往需要依赖人们的先验知识,这样既复杂又不具有普适性。不合适的特征还会造成分类器的分类精度下降,进而影响目标跟踪的效果。针对以上情形,本文提出一种基于深度学习的目标跟踪算法,该算法使用深度学习中深度置信网络的方法对输入图像进行多层次的表示和抽取学习,获取图像特征,训练得到一个分类器,对各帧图像像素进行分类,得到目标分布图,最后结合Camshift算法实现目标跟踪。训练过程中省去了一般分类器训练所需的目标特征提取的步骤,同时在跟踪过程中加入了Kalman滤波预测目标在下一帧图像中的位置,缩小了分类和目标搜索的范围,大大提高了目标跟踪的效率。该算法对光照变化、遮挡、目标旋转等复杂情况有较强的鲁棒性,在多个典型视频中对运动目标进行跟踪实验,验证了本文算法的有效性。

1 深度学习

深度学习是机器学习研究中的一个新领域,其目的在于建立神经网络模仿人脑机制来理解文本、图像、声音等数据。深度学习的概念源于人工神经网络,由Hinton等[5]于2006年提出,它将低层特征组合形成更抽象的高层特征,从而得到数据的分布式特征表述形式。如图1所示,典型的深度学习模型由输入层、隐层(多层)、输出层组成多层网络,其中只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个逻辑回归模型,这种分层结构与人类的大脑结构比较接近。

1.1 深度置信网络

深度置信网络(DBN)是目前研究应用较为广泛的一种深度学习结构,不同于传统的区分型神经网络,DBN能够获得观测数据及其标签的联合概率分布,以方便同时对先验概率和后验概率进行估计,而区分型神经网络只能估计后验概率[6]。

图1 深度学习模型

DBN是由一系列的受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)单元组成。玻尔兹曼机是基于能量理论的概率模型,通过热力学能量函数定义了一个概率分布:Boltzmann分布[7]。如果对玻尔兹曼机加以约束条件,令其自身不与自身连接,则得到一个有向无环图RBM。

典型的DBN结构用以下联合概率分布表示输入向量x和隐含向量h的关系:

其中x=h0,P(hk|hk+2)是条件概率分布,l是隐藏层数。DBN的可视层和隐藏层单元彼此互连,但层内无连接,隐藏层单元可以获取输入可视层单元的高阶相关性。DBN与传统的sigmoid信度网络相比,更易于连接权值的学习。

1.2 深度置信网络训练过程

深度置信网络的训练过程分为两个阶段:1)预训练阶段:采用自下而上的非监督学习,利用无标记数据通过贪婪逐层的学习方法得到各层权值;2)权值调整阶段:采用自顶向下的监督学习,通过带标签的数据去训练,误差自顶向下传输,对整个多层模型的权值进行进一步微调。

图2 DBN网络模型

如图2所示,在预训练阶段,首先在可视层单元产生一个观测向量V,映射给隐藏层单元,然后可视层单元由隐藏层单元重建,这些新可视层单元再次映射给隐藏层单元,这样就获取了新的隐藏层单元[8];在贪婪学习过程中,向上的权值用于认知,向下的权值用于生成。然后使用Wake-Sleep算法调整所有的权值,让认知和生成达成一致,从而保证所生成的最顶层表示尽可能正确地复原出底层原始输入[9]。

在预训练后,DBN利用带标签数据通过BP算法调整网络的判别性能。顶层将被加上一个标签集用以推广联想记忆,通过自下而上的学习得到识别权值,从而得到一个类似网络的分类界面。

2 基于DBN的目标跟踪算法

本文算法利用深度置信网络训练得到分类器,通过Camshift算法对运动目标进行定位,并结合Kalman预测目标位置以提高算法跟踪效率,算法流程如图3所示。

图3 本文算法流程

2.1 训练分类器

利用DBN训练分类器可分为两个阶段:预训练、参数调整。预训练阶段,将第一帧图像I1(m,n,d)变换成包含全部像素rgb值的矩阵I1'(N,d),其中d为图像的通道数,N=m×n为图像的像素数,然后把I1'(N,d)作为输入进行无监督贪婪逐层训练,得到多层模型及各层的参数;参数调整阶段,通过输入标签矩阵L(N,1)对整个多层模型的参数进行自顶向下的逐层调整。

2.2 Kalman滤波预测目标位置

一般视频中,目标往往只占整个视频图像的一部分,如果在目标跟踪过程中对整幅图像的像素进行分类,将在一定程度上影响到跟踪效率。如果可以较准确地预测出下一帧中目标的位置,就能够缩小搜索范围从而快速对目标进行锁定,同时还能避免真实目标周围疑似目标的干扰[10-11]。Kalman滤波作为一个最优化自回归数据处理方法,对于很多预测问题,是最优的同时也是计算效率最高的方法[12-13]。因此,本文算法引入Kalman滤波对后续帧图像中目标位置进行预测,只对预测位置周围适当范围内的像素进行分类,来得到目标分布图,这样既减小了算法的计算量,同时也避免了目标真实位置周围的噪声及相似目标的干扰。

2.3 Camshift算法定位目标

使用训练所得DBN分类器对后续帧图像进行分类得到目标分布图,如图4所示,使用Kalman滤波预测后,只对预测位置周围的区域进行分类,效果明显优于对整幅图像进行分类。

图4 本文算法分类效果

得到目标分布图后,Camshift算法通过计算窗口内分布图的零阶矩、一阶矩来确定窗口的质心位置,并以Kalman滤波预测的位置作为下一帧搜索窗口位置的初始值。主要过程如下[14-15]:

1)计算零阶矩:

计算一阶矩:

式中,I(x,y)是坐标为 (x,y)的像素值,x和y的变化范围为搜索窗的范围。

2)计算搜索窗的质心(xc,yc):xc=M10/M00,yc=M01/M00。

3)重设搜索窗的大小s,s比之前的搜索窗稍大一些。

4)重复前3步直到迭代收敛,即质心变化小于给定的阈值或迭代次数超过上限。

3 实验结果及分析

为了验证本文算法的有效性,使用了多个场景下的典型视频进行实验。实验平台为MATLAB R2012b,电脑配置为Pentium(R)Dual-Core处理器,2G内存,WindowsXP操作系统。

实验一考虑了目标出现遮挡的情况,并将本文算法的跟踪结果与使用文献[4]中算法的跟踪结果进行了对比,算法跟踪结果在图中用方框标出。如图5所示,视频中目标在运动过程中目标姿势、背景等条件存在明显变化,同时出现严重的遮挡情况。从实验结果可以看出,使用文献[4]中的算法进行跟踪时,会在目标发生遮挡后出现较大偏差;使用本文算法跟踪时,能够始终对目标实现准确跟踪。这是由于本文使用深度学习中的DBN方法训练分类器,能够对图像进行多层次的表示和抽取学习,学习到更高级别的图像特征表示形式,分类效果更佳。

图5 目标发生遮挡时的跟踪结果对比

如图6所示,本文算法在其他一些出现目标旋转、光照变化、相似背景干扰等情况的场景中依然能准确地实现对目标的跟踪,进一步验证了本文算法的有效性。

图6 算法跟踪结果

基于DBN分类的目标跟踪算法的跟踪效率与DBN结构的层数密切相关,经过反复实验对比,在跟踪精确度与跟踪效率之间做出权衡,本文采用隐藏层数为50的DBN结构,实验结果如表1所示,其中平均误差是指视频帧中算法所得目标位置与目标真实位置之间误差的平均值,可以看出层数越多所需训练的时间越长,但一般也有更好的跟踪精度。

表1 隐藏层数选择实验结果

实验二对比了本文算法与其他两种基于分类学习的算法的跟踪效率,同时给出了DBN分类算法加入Kalman滤波预测之前的跟踪效率,结果如表2所示。其中文献[16]是一种基于半监督学习中局部与全局一致性的跟踪算法,具体给出了算法处理第15~20帧图像所需时间。可以看出DBN分类算法在加入Kalman滤波预测之前在跟踪效率方面就有比较大的优势,加入Kalman滤波预测之后,跟踪效率进一步得到提高。

表2 算法效率对比

4 结束语

本文提出了一种基于深度学习中深度置信网络的目标跟踪方法,通过DBN网络对输入图像进行多层次的表示和抽取学习,将低层特征组合成更加抽象的高层特征形式,得到图像的分布式特征,提高了分类的精确度;同时加入Kalman滤波预测,进一步提高了算法的跟踪效率。针对不同的情形利用本文提出的方法进行测试,如目标旋转、遮挡、复杂背景、光照变化等,实验结果表明,本文方法能够很好地处理这些情形,实现对目标的有效跟踪,且具有较高的跟踪效率。下一步工作的重点是提升目标被遮挡后的跟踪精度,以及深度学习在多目标跟踪方面的应用。

猜你喜欢
权值分类器滤波
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
BP-GA光照分类器在车道线识别中的应用
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
RTS平滑滤波在事后姿态确定中的应用
基于线性正则变换的 LMS 自适应滤波
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别