基于合作模式的目标跟踪方法

2018-10-16 05:50张波彬甘宗鑫

计算机工程与应用 2018年19期

张波彬，甘宗鑫，陈伟

1.中国矿业大学计算机科学与技术学院，江苏徐州 221116

2.河海大学计算机与信息学院，南京 211100

1 引言

目标跟踪作为计算机视觉及图像处理与识别领域中重要的研究内容，广泛应用于视觉导航、智能交通以及视频监控等。在近年来取得了较多的研究成果[1-10]，但仍然面临着多方面的挑战：（1）诸如在目标移动时可能会产生移动模糊，导致目标区域的像素强度以及梯度发生变化，改变了目标区域的结构信息，使得在对目标进行跟踪时无法准确识别最佳的位置信息，导致发生目标的漂移甚至于目标丢失。（2）在对目标进行跟踪时可能会出现严重的遮挡，甚至遮挡物本身与目标极为相似，使得算法将遮挡物当做最佳目标导致目标丢失。

文献[11]提出加速逼近梯度L1跟踪（L1APG）算法，能够有效快速的求解L1范式约束的最小化问题并确保其解二次收敛，但该算法不能有效鲁棒的应对目标的严重遮挡以及视频序列中因模糊而导致的目标区域梯度信息的改变等问题，且当目标区域的信息被改变时其跟踪结果有时并不稳定。文献[12]提出了连续低秩稀疏跟踪（CLRST）算法，利用时间一致性，自适应的剪切、选择候选目标粒子，并通过候选粒子与潜在的低秩约束来学习对目标区域的稀疏表示，该算法能够较为鲁棒的应对目标的形变以及部分遮挡问题，但当目标与背景极为相似，出现移动模糊或者目标区域被严重遮挡，尤其是遮挡者与被遮挡区域有相似的目标外观以及形态时，会产生极为类似的目标信息，该算法无法有效应对。文献[13]提出多任务反向稀疏表示（MTRSR）模型同时结合对模糊核的估计以及目标的稀疏表示问题于一个联合框架中，来应对因模糊而导致的目标区域梯度信息的改变。为避免引入在去模糊过程中产生的噪声和振铃效应，该模糊核k实际上并不用来恢复候选目标模板，而是与清晰目标模板进行卷积得到模糊目标模板，该模糊目标模板集与候选目标模板集进行稀疏匹配得到稀疏编码矩阵C，由于候选目标模板集远多于目标模板集，得到的C可以消除与目标模板无关的一些候选目标，再进行目标匹配时可以降低计算代价。该算法首次将模糊核估计与目标的稀疏表示问题结合在一个统一框架内，通过迭代优化可以同时得到单一的模糊核k和稀疏编码矩阵C，可以有效、快速地排除与目标不相关的候选目标模板。但当物体出现严重遮挡以及边缘梯度的剧烈变化时仍会导致出现跟踪漂移以及目标丢失现象，难以有效鲁棒的对目标进行跟踪。文献[14]提出了一个可靠高效的实时压缩跟踪算法，该算法使用一个生成式的外观模型，基于压缩感知理论保留图像的特征空间信息，同时使用非自适应降维来选择特征，并通过一个朴素贝叶斯分类器来区分目标与背景区域，但当目标区域的信息被污染时该算法无法有效应对。文献[15]提出使用结构化的局部描述符结合强分类器对目标进行跟踪，考虑到稀疏编码系数对遮挡等因素较为敏感，因此在提取目标的描述符时，通过抽取目标局部块的稀疏编码系数进行连接操作得到目标区域的描述符。同时为了处理在跟踪时遇到的目标外观变化，提出了针对目标模板的遮挡感知更新策略。该算法能够较好的应对目标的局部遮挡等问题，但当目标区域发生严重模糊或遮挡导致目标区域信息被严重污染时，分类器无法准确区分目标与背景区域，最终导致目标的漂移甚至丢失。文献[16]提出使用一种简单、有效的基于多尺度图像特征空间的特征提取算法，同时外观模型采用非自适应随机投影，保留图像特征空间的结构，构造一个稀疏测量矩阵，有效地提取了外观模型的特征，同时基于相同的稀疏测量矩阵压缩前景目标和背景的样本图像，最终通过朴素贝叶斯分类器将跟踪任务转化为二类分类任务。该算法可以较为快速的跟踪到目标，但当目标快速移动导致目标区域因移动模糊而受到污染时，该算法难以有效鲁棒的应对。因此，本文提出了基于描述性字典的结合生成式与判别式方法的目标跟踪算法以应对目标区域梯度信息的改变以及目标的遮挡等因素，能够很好地应对复杂场景下视频序列的目标跟踪任务。

本文主要贡献如下：

（1）本文使用基于生成式和判别式相结合的目标跟踪方法，同时采用双字典，一个由目标区域抽取局部块向量化得到D1与候选目标进行稀疏匹配，得到稀疏编码系数来训练AdaBoost分类器，另一个由HOG特征得到的描述性字典D2，能够更好地依据目标的外观梯度等信息判定目标权重。

（2）通过求解MTRSR模型得到目标的模糊核k，以及模糊目标模板集T*，而后计算候选目标的重建误差，同时根据跟踪到的目标抽取正负样例训练AdaBoost分类器，通过权值与二者置信度的和得到最佳目标。

（3）为了避免目标跟踪的漂移和丢失，更新模板集时评估更新模板的噪声、污染程度，选择模板模糊程度误差最大的进行更新，当噪声、遮挡等污染超过阈值时，终止当前的模板更新，直至满足阈值要求。

2 合作模型

首先通过实时压缩跟踪算法[14]得到前8帧的跟踪结果作为初始的目标模板Ti其中i=1,2,…,m（其大小为32×32）。

2.1 模糊核k的求解

马波等人提出多任务反向稀疏表示（MTRSR）模型[13]同时解决对模糊核k以及目标的稀疏表示问题：

其中k是模糊核，Y是候选目标集，T是目标模板集，*代表卷积操作，而C是稀疏编码矩阵。该模型包含两个变量，因此转化为两个最优化求解的子问题，其中C初始化为：

（1）子问题1对模糊核k的求解：固定C求解模糊核k。

该问题是关于吉洪诺夫正则化的最小二乘问题，其封闭解为[18]：

（2）子问题2求解稀疏矩阵C。通过求得的模糊核k，求解如下目标函数：

C由加速近端梯度算法[17]求解，最终通过反复迭代求解得到模糊核k。

算法1对模糊核k与稀疏矩阵C的求解[13]

1.输入：模板集合T，候选目标集合Y，参数ν以及λ

2.输出：模糊核k以及稀疏编码矩阵C

3.首先通过（2）初始化稀疏编码矩阵C

4.Fori=1,2,…,ndo

5.通过（4）求解模糊核k

6.通过（5）求解稀疏编码矩阵C

7.End

2.目前相关法律法规中存在的问题。总体来说，我国现有的与转基因产品标识制度相关的立法主要有：一部法律、一部行政法规、四部部门规章、一条国家标准。虽然法律法规不少，但其中也存在很大的问题。一是缺少专门的立法，并且法律法规位阶不高。根据我们对现有法律法规的梳理可以发现，对于转基因产品标识制度相关的法律只有《中华人民共和国食品安全法》，而法规方面，位阶稍高的《农产品质量安全法》也只是规定属于农业转基因生物的农产品，应当按照农业转基因生物安全管理的有关规定进行标识。这两部法律法规都很笼统，而没有专门详细的规定，使得我国目前关于转基因产品标识方面没有专门的立法，对转基因产品的管理缺少法律支持。

2.2 AdaBoost分类器设计及训练

前8帧中在每帧跟踪到的目标附近通过像素扰动采样得到9个正样例，同样通过像素扰动在第8帧得到150个负样例（均为32×32的块）。将这些正负样例以8个像素为步长抽取16×16的子块，并将每个子块向量化，得到每个抽样目标 X={xi∣i=1,2,…,n}∈Rd×n，其中每一个xi都是向量化的局部块，n表示局部子块的个数。目标模板集T={T1,T2,…,Tm}依同理抽取局部子块，得到字典 D1={d1,d2,…,dn×m}∈Rd×n×m，因此每个抽样目标区域X的子块xi可由字典D1编码得到：

得到稀疏编码系数αi∈Rn×m×1，作为分类器的训练集，每个目标块X中抽取n个子块，并选择k=3个子块的稀疏编码系数来训练分类器。因此，针对不同局部子块可以训练个弱分类器，并依据分类误差最小的作为最佳分类器，依次训练60个最佳分类器，而后在60个最佳分类器中选择出45个作为最终的强分类器（每一个弱分类器均为朴素贝叶斯分类器），得到最终的强分类器H(X)。

2.3 最佳目标的选取以及候选目标权值计算

采用基于生成式与判别式相结合的目标跟踪方法，通过求得的模糊核k与目标模板集T进行卷积运算得到模糊目标模板集T*，此时依同理抽样得到字典每一个候选目标Yi都可以抽取局部子块为，每一个子块 yk都可以被字典D1与编码：

此时通过求解目标模板T的HOG特征得到描述性字典 D2∈Re×m，同时得到候选目标Yi，i=1,2,…,N的HOG特征，该候选目标的HOG特征可由字典D2编码得到：

其中 βi∈Rm×1为关于候选目标与字典D2的稀疏编码系数，则候选目标与字典D2的重建误差为：

此时候选目标Yi的权值为：

因此最佳目标为：

2.4 模板与分类器的更新策略

这个序列越往后，区间越大，被选中淘汰的概率也相应增大。产生一个随机数r在[0，1]内服从均匀分布，被r选中的区间也就被淘汰。这看起来很合理，但是随机数r的选择可能导致一些不必要的模板因为长期未被选中从而导致对字典的更新不准确，即使初始目标帧对目标跟踪有着重要作用，但是在目标快速移动的情况下如果不能及时更新，会在目标模板集内留下一系列污染的模板，对目标的跟踪产生不利影响。

在自然场景下，视频序列的多个帧是一个连续的过程，即使受到聚焦、移动、光照等影响产生模糊，也不会突然产生非常大的噪声，事实上大多数情况下产生的都是均匀模糊，即使有突发情况产生了较大的噪声导致目标信息受到污染，在短时间内产生的噪声也不会同时污染多个连续帧，对模板的更新可以排除这些污染严重的帧：

此时即使目标Yj本身的噪声污染并不严重，但跟踪到的最佳目标与目标模板集的平均误差超过预定义阈值，那么该跟踪结果仍然不能加入到目标模板集中：

其中，δ为当前选择的候选目标Yj与目标模板集T的平均误差，m为模板个数，δ0为预定义正常数，如果δ＜δ0，则模板更新可靠，否则模板更新失败，该目标区域不加入模板集。

分类器的更新：当δ＜δ0时更新分类器，根据跟踪到的目标位置，通过像素扰动采集正样例（每帧9个），负样例每5帧后更新一次（每次采样150个）以训练分类器。

算法流程的伪代码如下：

算法2提出的跟踪算法

输入：通过实时压缩跟踪算法[14]得到o1,o2,…,om为算法在前m帧跟踪得到的结果并作为目标模板集T，目标模板的个数m，以及更新的频率Φ

输出：追踪结果st，t=m+1,m+2,…,M

初始化分类器：

1.在前m帧中每帧选择9个正样例Np，第m帧选择150负样例Nq，结果目标集ψ=0。

2.从正负样例Np与Nq的稀疏编码系数中抽取局部描述符。

3.利用得到的局部描述符训练强分类器H(x)。

4.Whilet=m+1,…,Mdo

5.产生候选目标集Y=[Y1,Y2,…,YN]

6.通过算法1求解模糊核k

7.使用模糊核k与目标模板集T进行卷积操作得到模糊目标模板集T*

8. 由公式（8）计算得到各候选目标Yi与字典D1与的重建误差

9. 由公式（9）得到各候选目标的置信度

10.从候选目标集Y的稀疏编码系数中抽取局部描述符，并通过分类器H(x)计算对每一个候选目标的分类值。

11. 由公式（12）计算候选目标的权值Wi

12. 由式（13）选择出最佳的跟踪结果st。

13. 若误差小于预定义阈值(δ＜δ0)：

14.更新目标模板T。

15.依据跟踪到的目标选择9个正样例⇒Np。

16.更新结果目标集ψ=[ψ,st]

17.If size(ψ)==Φ

18.更新结果目标集ψ=0

19.采集150个负样例⇒Nq

20.从正负样例Np与Nq的稀疏编码系数中抽取局部描述符。

21.再次训练分类器H(X)

22.End if

23.End while

3 实验结果

本实验在跟踪过程中保持8个模板，在每个帧中采集800个候选目标，即采用的粒子数为800，所有的目标模板集、采样目标集以及候选目标模板集都为32×32像素。同时，以8个像素作为步长在图片区域内选取9个大小为16×16像素的重叠局部块，用这些块的局部稀疏编码系数来组建描述符，从9个稀疏编码系数中选取3个进行连接操作得到分类器的训练样本。固定参数ν=λ=λ2=λ3=λ4=0.01,ξ0=0.2,θ=0.1,δ0=0.5,k=3,n=40，为评估算法的性能，与6种具有代表性的算法进行对比，分别是：移动模糊跟踪（MBT）[13]、加速逼近梯度 L1跟踪（L1APG）[11]、实时压缩跟踪（RCT）[14]、快速压缩跟踪（FCT）[16]、强分类器追踪（SCT）[15]、连续低秩稀疏追踪（CLRST）[12]。

为确保实验结果的可靠性和可对比性，以上算法的代码均由其作者提供，且所有的算法的参数也使用初始给定值。实验所使用的视频取自OTB-100[20]。

3.1 定性分析

图1展示了7种跟踪算法在6个公开视频上（分别是Walking2、BlurCar3、DragonBaby、BlurBody、Jumping、FaceOcc1）的部分跟踪结果，图中红色框标注的是本文算法的跟踪结果。本文算法具有较为稳定的目标跟踪结果，其他算法在各视频中均有出现目标丢失现象，表明本文算法能够在快速移动导致的模糊以及严重遮挡的视频序列中有较好的跟踪效果。

图1 目标跟踪结果

Jumping与BlurCar3两个序列中主要是移动模糊与快速移动影响视频质量，本文算法与MBT算法能够较为准确且稳定的对目标进行跟踪。算法FCT在视频序列BlurCar3中取得了最佳的跟踪效果，但在Jumping视频序列中效果不佳，其余算法也存在一定的目标漂移或者目标丢失的现象，表明本文算法能够有效应对视频序列中出现的移动模糊与目标快速移动问题。在Dragon-Baby序列中存在遮挡、移动模糊与尺寸变化等因素，本文算法取得了较好的跟踪结果，在BlurBody中存在形变、移动模糊以及尺寸变化等因素，本文算法与FCT算法可以较为准确地对目标进行跟踪，当目标的尺寸发生较大变化时，L1APG无法准确标记出目标大小。在视频序列Walking2中，存在形变、遮挡以及低分辨率等问题，本文算法不论是平均覆盖率还是中心位置误差均优于其余算法。影响FaceOcc1视频序列质量的因素是目标的严重遮挡，本文算法与MBT、RCT、CLRST算法均能较好地应对因目标严重遮挡导致的外观信息的改变。通过上述算法在6个视频序列中的实验对比表明，本文算法可以有效应对在视频序列中产生的移动模糊、尺寸变化以及遮挡等问题，相比较于其他的6种算法，本文算法在不同的应用场景中都有着较好的跟踪效果。

3.2 定量分析

用平均中心位置误差和平均覆盖率两个标准对实验结果进行定量分析，以评价各算法的优劣，算法的平均中心误差越小，平均覆盖率越大，该算法的性能就越优异，跟踪的结果就越精确可靠。中心位置误差依据下式计算（目标中心位置(x0,y0)，跟踪到的目标中心位置(x,y)）：

若给定的人工标记的跟踪结果为RG，各算法得到的跟踪结果为RT，覆盖率可以依据下式计算：

覆盖率越大表明该算法跟踪到的结果与真实结果越接近，表1给出了7种算法的平均覆盖率。表2给出了7种算法的平均中心位置误差，该值越小算法的定位越精准。图2为平均中心位置误差对比图。

表1 平均覆盖率 %

表2 平均中心位置误差像素

表1和表2表明，本文算法在序列Walking2、Blur-Body以及DragonBaby中表现最佳，算法的平均覆盖率最大，中心位置误差最小。本文算法的平均覆盖率为67.0，优于第二位MBT的57.2，本文算法的平均中心位置误差为15.1，优于第二位MBT的24.4。实验结果表明，本文算法能够更加稳定地完成目标跟踪任务，对复杂场景具有较高的鲁棒性。

图2 平均中心位置误差

4 结论

本文针对复杂场景下视频序列中存在的移动模糊、遮挡等干扰因素，提出了生成式方法与判别式方法相结合的目标跟踪算法，同时在对最佳目标的选取时考虑到目标的权值，选取权值与目标的置信度乘积最大的作为当前帧的最佳目标，即使目标存在一定程度的污染，也能在目标跟踪中具有较好的鲁棒性。同时结合目标区域的污染程度，当污染程度高于给定阈值时不使用该帧跟踪的目标来更新目标模板集与分类器，防止误差累积导致目标丢失。通过各算法在不同场景视频序列中目标跟踪实验结果的对比，视频序列目标跟踪的平均覆盖率以及中心位置误差的平均值表明，本文算法有较好的效果与稳定性，能够很好地应对视频序列中存在的移动模糊、形变以及遮挡等不利因素，在目标跟踪中有较高的精度与鲁棒性。