采用RGB–D时空上下文模型的多目标遮挡跟踪算法

2022-01-24 14:19朱晓林肖岳平孙健王耀南颜金娥杨佳玉

控制理论与应用 2021年12期

万琴朱晓林肖岳平孙健王耀南颜金娥杨佳玉

(1.湖南工程学院电气与信息工程学院，湖南湘潭 411104;2.湖南大学机器人视觉感知与控制技术国家工程实验室，湖南长沙 410082;3.湖南大学电气与信息工程学院，湖南长沙 410082;4.湘潭大学数学与计算科学学院，湖南湘潭 411105)

1 引言

多目标跟踪是计算机视觉领域中重要的关键技术，在视觉监控[1]、人机交互[2]、自动驾驶[3]、机器人导航[4]等方面起着重要作用.传统基于二维RGB摄像机的视觉跟踪问题已有30多年的研究历史，多目标跟踪方法可以分为在线跟踪和离线跟踪.在线跟踪通过从先前帧中获取的信息，进行当前帧跟踪匹配及更新目标状态[5]，通常采用卡尔曼滤波器和粒子滤波器等方法来估计中间状态，稀疏表示和在线特征学习等则用于计算目标响应，并通过使用马尔可夫链蒙特卡洛(markov chain monte carlo，MCMC)进行求解[6]，但当遇到严重的遮挡、目标外观变化以及复杂的姿态变化时往往会失败.离线方法也被称为批处理方法，需要对所有视频帧进行检测，将检测响应关联形成短轨迹，但轨迹可能会因遮挡而碎裂，再将短轨迹全局关联生成长轨迹[7]，该方法需要迭代关联才能生成全局优化的轨迹，计算量大，实时应用比较困难.因此，多目标跟踪特别是遮挡跟踪仍是亟待解决的关键难点问题.

Khan等[8]通过设计特定的基于轨迹片段的目标模板来处理目标相互遮挡.Santner等[9]对整个视频序列进行多个对象跟踪，同时更新每个跟踪器的外观模型来实现遮挡处理.针对只考虑目标特征信息、丢失目标周围稠密的上下文信息的问题，文献[10]提出基于时空上下文信息分块分区域进行遮挡跟踪.该算法的优点在于利用子块匹配和目标局部上下文信息实现不同程度的遮挡跟踪.在基于时空上下文信息进行目标跟踪中，Chu等[11]利用目标与背景之间的时空关系，在一定程度上解决目标静态遮挡问题.Liu等[12]根据目标的关联状态、重叠情况、深度顺序构建遮挡推理模型，采用基于时空渐进特征模型进行多目标遮挡跟踪.尽管这些方法在目标遮挡提供一些改进，但由于缺乏三维深度距离信息，仍然无法在目标严重遮挡或完全遮挡下实现鲁棒跟踪.

随着三维深度传感器日益普及以及成本的降低，如Microsoft Kinect，Asus Xtion 和PrimeSense等三维深度相机能直接获取三维深度信息，越来越多研究者采用三维深度数据进行视觉跟踪，特别是当目标遮挡时可采用三维深度识别跟踪目标.Spinello等[13]提出了方向深度直方图(histogram of oriented depths，HOD)检测器，该方法利用了深度信息，但是忽略了颜色和纹理信息，可能导致对非人体目标的错误跟踪.Song等[14]提出了一个非常简单但功能强大的RGB-D跟踪模型，结合深度信息进行遮挡推理可有效防止模型漂移，针对复杂交通场景中存在多行人遮挡等问题，Gao等[15]提出RGB-D分层图模型，从轨迹转变到图层进行跟踪，并使用可分析的图层级别策略处理遮挡问题.Liu等[16]通过将RGB-D像素转换成新颖的俯视图计算颜色和高度联合直方图来关联检测结果，逐渐形成目标的3D运动轨迹.Kuai等[17]提出基于判别相关滤波器(discriminative correlation filter，DCF)的目标跟踪器，并基于前景/背景分割图进行遮挡检测跟踪.针对视觉跟踪中鲁棒尺度估计和遮挡处理两个难点问题，Leng等[18]提出一种实时RGB-D目标跟踪器处理复杂场景中的遮挡和尺度变化，利用循环矩阵和核的属性来实现快速目标跟踪.但这些采用RGB-D深度相机的跟踪方法尚缺少将二维RGB信息和三维深度进行融合以及缺乏如何基于三维融合信息进行跟踪的深入分析.

连续帧间上下文信息也成为解决遮挡跟踪问题的重要信息.Zhang等[19]通过稠密的时空上下文算法进行视觉跟踪，将快速傅立叶变换算法应用于在线学习和检测中，得到了一种高效的跟踪方法.文献[20]提出了一种鲁棒的时空上下文快速跟踪算法，估计预测下一帧目标并将其做为时空上下文快速跟踪算法的迭代起点.Xue等[21]提出基于显著性视觉特征融合的多尺度时空上下文学习跟踪算法框架，利用颜色、强度、纹理等视觉显著性特征来进行跟踪.Li等[22]则将增量学习子空间与稀疏的模板更新策略相结合，有效地解决了局部遮挡问题.但上述方法当目标受到严重遮挡或姿态变化较大时，由于缺乏三维空间中的连续视频帧时空上下文模型，可能会导致跟踪失败.

针对上述问题，本文采用三维深度相机，将RGBD三维视觉信息及连续帧时空上下文特征有机结合，提出一种基于RGB-D时空上下文模型的多目标遮挡跟踪算法，总体框架如图1所示.首先通过目标时空上下文特征提取，进行目标时间上下文建模、目标空间上下文建模，构建RGB-D时空上下文模型，然后利用时间一致性进行目标跟踪，提高跟踪算法的精确性和快速性，当目标发生遮挡时通过最大后验概率关联模型及引入深度概率分析进行目标遮挡匹配跟踪.在测试视频序列上的实验结果表明，本文算法具有良好的遮挡跟踪性能，提高了多目标遮挡跟踪的鲁棒性.

图1 本文算法总体框架图Fig.1 The overall framework of the algorithm

2 RGB–D时空上下文模型

在获取多目标检测定位区域后，需研究其特征提取及建模方法，以便后续目标跟踪，在视频帧中目标检测区域的特征、空间近邻区域构成的三维上下文信息以及连续帧间时间上下文信息是建模的重要依据.本文首先进行目标时空上下文特征提取，通过有机融合空间局部三维上下文及目标区域特征、连续帧间的时间上下文特征，进行目标时间上下文建模、目标空间上下文建模构建RGB-D时空上下文模型.

2.1 目标时空上下文特征提取

RGB-D时空上下文模型中的每个值表示目标检测的响应，用表示第k帧的第i个目标(i ∈Z+，1 ≤k≤K)，在视频帧中研究目标的3-D空间特征=目标外观特征，目标运动特征，进行目标时空上下文特征提取.

图2 目标3-D位置特征及空间上下文图Fig.2 3-D location feature and spatial context information

目标外观特征:，为了减少光照变化和光线突变的影响，通过结合方向梯度直方图(histogram of oriented gradient，HOG)和颜色梯度直方图特征(histogram of oriented gradient&color，HOGC)构建目标外观特征.HOG侧重于形状描述，HOGC侧重于颜色特征描述，为充分利用图像中的梯度统计特征、颜色信息特征以及特征的空间位置信息，本文在方向梯度直方图(HOG)的基础上增加了颜色梯度直方图特征(HOGC)，用于对跟踪目标进行多种特征的提取，由于目标外观特征是从二维RGB图像中提取的，因此计算第i帧处像素点(x，y)的梯度幅度值和梯度方向值及纹理特征值作为目标的外观特征，可表示为

其中Gi(x，y)表示第i个目标在像素点(x，y)处的梯度幅度值:

其中Di(x，y)表示第i个目标在像素点(x，y)处的梯度方向值:

其中Gx，i(x，y)和Gy，i(x，y)分别是第i帧x轴方向的梯度和y轴方向的梯度.Si(x，y)表示第i个目标在像素点(x，y)处的纹理特征值，可表示为

其中:R为目标区域，f(·)为纹理特征LBP8，1的取值，δ为狄拉克函数.

目标运动特征:，不考虑运动目标的整体特性，假定运动目标可以由唯一的特征集合表达，利用目标运动的速度特征和方向特征构建目标运动特征集合，其中表示第k帧中第i个目标的速度值，表示第k帧中第i个目标的方向特征值.

2.2 目标特征的时间上下文模型

跟踪器首先确定当前帧的目标位置，通过基于目标3-D空间特征、外观特征、运动特征在RGB和深度图像中确定后续帧的候选目标区域，在目标时空上下文特征提取的基础上，通过特征融合建立连续帧间的时间上下文模型，将当前帧的目标特征与候选区域目标特征进行匹配.采用核相关滤波器(kernel correlation filter，KCF)跟踪器计算图像目标模板与图像候选区域之间的匹配相似度，获得目标区域的最大响应峰值.在RGB图像中，利用目标间的外观特征建立不同帧时间上下文关联.设当前帧目标边界框外观估计值brgb，k表示为第k帧处的RGB-KCF，其对应的概率为p(brgb，k).类似地，在深度图像中，跟踪器生成目标区域的相关峰，由于背景区域的响应较低，则利用Depth-HOG，Depth-HOGC作为特征进行建模，当前帧目标边界框深度估计值bd，k表示为第k帧处的Depth-KCF，其对应的概率为p(bd，k).

2.3 目标特征的空间上下文模型

由于时间上下文连续帧的目标变化不会很大，位置不会发生突变，但当目标的外观发生很大变化，可通过空间上下文信息进行区分目标和背景.目标和目标周围的非目标区域在深度值上存在空间约束，如目标候选区域不能位于背景区域的后面或遮挡对象的前面，本文则将这种空间约束性建立空间上下文模型，在后续遮挡跟踪中确定目标搜索区域.通过建立目标特征的空间上下文模型，结合RGB信息和深度信息改善整体跟踪性能.当基于KCF的跟踪器面对多重遮挡情况时，选取目标区域为正样本，目标周围区域为负样本，越靠近目标区域正样本可能性越大，为进一步提高跟踪精确度，通过自适应窗口比率扩大目标的搜索区域，如图2所示，设C是给定目标检测框的区域，O是围绕目标边界框区域的环形区域(“上下文”区域)，给出目标总体的搜索区域U为

3 利用时间一致性进行目标跟踪

建立RGB-D时空上下文模型后，后续需要对连续帧间的目标进行匹配跟踪，从而实现多目标跟踪.充分利用KCF跟踪器的实时性和判别式跟踪的优点，基于KCF跟踪器的时间一致性进行目标跟踪，通过目标的上下文区域O的循环矩阵采集正负样本，为多目标遮挡跟踪节约运算空间，提高目标跟踪的实时性.

利用时间一致性判别目标当前帧的跟踪状态，根据当前帧目标边界框外观估计值brgb，k、当前帧目标边界框深度估计值bd，k分别得到当前帧目标二维RGB区域面积估计值Area(brgb，k)、三维深度区域面积估计值Area(bd，k)，当目标跟踪处于非遮挡状态，目标二维RGB区域Area(brgb，k)、三维深度区域Area(bd，k)重叠度高，而当目标遮挡时、由于二维外观相互遮挡、仅深度具有区分度，使得这两个估计值重叠度低，则可通过这两个估计值的重叠率区分是否遮挡，从而定义跟踪器判别如下:

其中:C表示给定目标检测框的区域面积值，λ是跟踪器判别阈值.在实验中，λ=0.85可以很好地避免跟踪器因漂移而失败，λ通过实验结果得到，当真实目标区域与目标估计区域之间的重叠率λ小于0.85时，则可能会导致跟踪失败.

基于当前帧目标区域估计值Area(brgb，k)和Area(bd，k)区分两种跟踪情况:1)跟踪器判别清晰“Clear”;2)跟踪器判别不清晰“Unclear”.当前帧中目标两个边界框的面积Area(brgb，k)和Area(bd，k)具有高重叠率时，则跟踪器处于“Clear”情况，即跟踪器的特征与目标特征一致度高;当前帧中目标两个边界框的面积Area(brgb，k)和Area(bd，k)具有低重叠率时，则跟踪器处于“Unclear”情况，即跟踪器的特征与目标特征表现不一致.

当在跟踪器判别“Clear”的情况下，当前帧目标估计概率p(brgb，k)和p(bd，k)用于更新回归模型.概率回归模型可用于连续帧间多目标匹配并计算“时间一致性”、自适应融合颜色和深度特征，以便确定目标在当前帧位置的整体估计值.线性连续回归模型表示如下:

其中α和α0是在线学习参数.在RGB图像匹配过程中，目标特征匹配度表示为当前帧中的目标特征匹配度回归模型的预测的差值用于计算时间一致性，即差值小时间一致性高.

针对在跟踪器判别“Clear”的情况下，连续帧间多目标的最终位置估计bk通过brgb，k和bd，k与目标特征匹配度的加权线性组合计算得到，从而得到目标在正常情况下的跟踪结果.当跟踪器判别“Unclear”的情况时，关闭回归模型的训练，防止模型训练错误累计.

4 MAP进行目标遮挡匹配跟踪

在建立RGB-D时空上下文模型，基于KCF跟踪器快速跟踪后，当目标发生遮挡时利用深度信息特征进行约束，通过最大后验概率(maximum a posteriori，MAP)关联模型，可有效解决目标遮挡跟踪问题.RGB-D时空上下文模型的输出是找到特定运动目标的轨迹并在每帧中对其目标运动位置进行跟踪，遵循MAP公式将单个目标运动轨迹假设构成该目标的一组检测响应值，sk=其中∈N.关联模型则可假设由单个轨迹组成S={sk}.给定当前帧目标检测响应值集合N，关联模型的目标函数为

由贝叶斯(Bayesian)法则得到:

上式中，P(N)表示当前帧目标检测响应值集合，其值是确定的，通常可忽略.式(8)可改写为

假设所有运动目标之间是相互独立的，则在给出的假设情况下，似然概率具有条件独立性，式(10)等价于

式(11)中，P(fi|S)是目标深度相似性的似然概率，描述了目标检测值的深度变化，则该似然项为深度概率.图3是深度信息遮挡处理示意图，其中左图是RGB域检测响应值，中图是Depth域的检测响应值示意图，右图中P0，P1，P2表示对应的目标区域在当前帧的深度概率分布.同时根据KCF跟踪器得到的目标坐标点，结合目标空间上下文模型，在深度图中相应得到目标的搜索区域，在搜索区中利用高斯分布函数计算每个像素点深度属于目标的深度概率值，即

图3 深度信息遮挡处理示意图Fig.3 Schematic diagram of depth information occlusion processing

其中:x={x1，x2，···，xn}代表搜索区中一个像素点的深度值;μ表示前一帧目标区域的深度均值;σ表示目标区域的方差，本文把方差定义为常数以方便调整;表示在目标区域中像素点属于搜索区域的平均深度概率.则p(x;μ，σ)表示目标区域中像素点属于搜索区域的深度概率，通过高斯采样构造标准正态分布可表示为

其中:sk ∈S，fi ∈sk.引入KCF最大响应峰值来表示目标的外观相似度.定义为上一帧(第k-1 帧)的第i个目标在当前帧(第k帧)的第j个目标检测值处的KCF最大响应值，计算两个目标之间的特征关联性.

通过对当前帧目标的HOG与HOGC特征进行提取，然后采用高斯核函数对前一帧与当前帧的目标外观进行关联得到目标外观关联函数矩阵k，计算出所有目标外观的位置响应值矩阵，从该矩阵中得到最大值即为最大响应峰值.

当得到遮挡情况下的目标跟踪结果后，每隔10帧更新目标模型以适应目标上下文区域以及动态背景的变化.

5 实验分析

为了证明本文算法在无遮挡、有遮挡、交叉遮挡情况下多目标跟踪的鲁棒性和精确性，通过选用不同类型的视频序列进行对比分析，验证算法的遮挡跟踪性能.实验平台包括硬件和软件两个部分:硬件环境为Intel(R)Core(TM)i5-8400 CPU@2.80 GHz 2.81 GHz，内存8.00 GB，软件环境为Windows10 64位操作系统，编译环境为MATLAB 2018a.为了保证各算法的可对比性，将本文算法中高斯分布的参数σ固定设置为0.5，二维RGB区域面积估计值Area(brgb，k)和三维深度区域面积估计值Area(bd，k)跟踪器判别是否清晰的阈值λ=0.85.

图4 本文算法框架图Fig.4 The algorithm framework

将本文算法与5种性能较优的算法进行对比分析.对比算法包括基于高斯混合模型拟合深度分布的RGB-D目标遮挡跟踪算法(Gaussian mixture model，GMM)[23]、基于点集图的RGB-D目标遮挡跟踪算法(point ensemble image，PEI)[16]、基于深度结构关联的RGB-D目标遮挡跟踪算法(depth structure association，DSA)[24]、基于感兴趣(region of interest，ROI)区域和深度尺度估计(depth size estimation，DSE)结合的RGB-D目标遮挡跟踪算法(ROI-DSE)[25]、基于时空上下文的目标跟踪算法(spatio-temporal context，STC)[19].

为了进一步评估算法的有效性，实验测试视频序列来自两个RGB-D数据集:clothing store dataset1http://cv.fudan.edu.cn/humandetection.和princeton tracking benchmark datasets2http://tracking.cs.princeton.edu/dataset.html..这两个数据集均是采用Microsoft Kinect进行采集，采集帧率30～35帧/秒，分辨率640×480.Clothing store dataset在商场室内采集，由两个大约45 min的视频序列组成，该数据集包括复杂且动态的背景，行人姿势变化多，存在无遮挡、遮挡、交叉遮挡情况.Princeton tracking benchmark datasets是基准数据集，其中包含100个具有RGB和深度数据的视频序列，存在多目标遮挡、照明和尺度变化、非刚性物体和突变运动等干扰.因此，在此数据集上的跟踪结果可提供RGB-D和RGB跟踪器的综合评估.表1是各视频序列的属性表，视频序列可分为无遮挡、遮挡、交叉遮挡、尺度变化、相似物体、姿态变化.图5是视频序列实验数据，第1，2列分别是clothing store视频序列中对应的RGB、Depth图，第3，4列是new-ex-occ3视频序列中对应的RGB、Depth图，第5，6 列是walking-occ1 视频序列中对应的RGB、Depth图.

图5 视频序列实验数据Fig.5 The experiment data of video sequence

表1 视频序列的属性Table 1 Properties of video sequence

本文使用了两个指标来评估算法的性能:中心位置误差(center position error，CPE)和跟踪成功率(success rate，SR)，CPE 是输出目标边界框的中心与Ground Truth标注的目标中心之间的像素距离.为了评估跟踪整体性能，本文采用PASCAL VOC挑战[26]中使用的标准，即输出目标边界框和Ground Truth边界框之间的重叠率ri

其中:ROITi是第i帧中的目标边界框，ROIGi是手动标注的Ground Truth边界框，通过设置最小重叠率rt=0.5，则可计算跟踪器的跟踪成功率SR

其中:ui是根据最小重叠率rt来判断第i帧的输出边界框是否能准确跟踪的指标，N是视频序列的总帧数.

5.1 定性分析实验结果

为验证本文算法的有效性，分别在clothing store dataset和princeton tracking benchmark dataset上，同5种性能较优的算法GMM，PEI，DSA，ROI-DSE，STC进行目标遮挡跟踪对比实验.图6是不同算法对clothing store视频序列的遮挡跟踪结果，图6(a)中目标在第30帧时处于未遮挡状态，5种算法均能较好地确定目标位置，跟踪边界框与Ground Truth的边界框有较高的重叠率.目标在第420帧时处于局部遮挡状态，GMM，PEI算法受到左边新出现的目标和光照强度的影响，出现无法准确跟踪的情况，DSA算法受到右边新出现的目标的影响，出现跟踪漂移的情况.目标在第1230帧时处于新出现的目标和周围物体的交叉遮挡状态，DSA算法出现跟踪丢失、鲁棒性较差，GMM，PEI，ROI-DSE和STC算法均出现一定程度的漂移.本文算法利用目标的外观、运动、时空上下文特征建模，通过深度信息约束目标的上下文区域，一定程度上减少目标在局部跟踪和交叉跟踪下的跟踪漂移问题.图6(b)目标基本不存在运动状态和姿态变化的影响，目标跟踪效果均有进一步地提升，但在第14820帧时处于遮挡状态和强烈的光照强度时，目标跟踪框左移，原因在于每次跟踪框会融入一定的背景像素，目标的上下文发生一定程度的改变，造成跟踪失败.本文算法能够根据时空上文更新模型，同时利用MAP关联模型，准确跟踪目标，提高了跟踪精度.

图6 不同算法对Clothing Store视频序列的遮挡跟踪结果Fig.6 The occlusion tracking results of algorithms on the Clothing Store video sequence

图7(a)是不同算法对new-ex-occ3视频序列的遮挡跟踪结果，这组视频序列的实验效果相对于其他视频序列略差一些，运动目标相距Kinect相机比较近，获取运动信息不太准确，长期处于交叉遮挡状态.目标在第1，8，11帧都处于交叉遮挡状态，本文算法相比较于其他5种算法跟踪效果更好，区分目标与新出现的目标能力较强，具有较好的跟踪鲁棒性.图7(b)和(c)分别是不同算法对walking-occ1和two-people-1.1视频序列的遮挡跟踪结果，GMM和PEI算法在一定程度上存在跟踪漂移，目标跟踪框漂移到背景人物上，例如图(b)中的第28帧以及图(c)中第20帧.图7(c)中第170帧结果，不难看出STC算法中跟踪框漂移到遮挡物上，原因在于当真实目标被混淆目标全部遮挡时，当前帧获取的上下文特征相似导致跟踪失败.本文算法相较于其他算法在目标遮挡跟踪上有较为精确的结果.

图7 不同算法对new-ex-occ3，walking-occ1，two-people1.1视频序列的遮挡跟踪结果Fig.7 The occlusion tracking results of new-ex-occ3，walking-occ1，two-people 1.1 video sequences by algorithms

由于跟踪框融入一定的背景像素，目标的上下文发生一定程度的改变，则造成多目标交叉遮挡跟踪失败.本文算法利用MAP进行目标遮挡匹配跟踪，通过引入深度概率约束目标的上下文区域，建立多目标跟踪之间的匹配关联性.为了验证本文算法多目标遮挡跟踪的性能，笔者分别在clothing store dataset和princeton tracking benchmark dataset数据集上取出具有代表性的遮挡视频序列进行实验仿真.图8(a)是在clothing store dataset视频序列的多目标遮挡跟踪结果，因为引入深度概率进行约束，能够更好处理视频中出现的动态遮挡情况.图8(b)和(c)分别是本文算法在princeton tracking benchmark datasets数据集中walking-no-occ和two-people-1.1视频序列的多目标遮挡跟踪结果，图8(b)中第51，78帧由于深度信息稀疏，造成目标遮挡跟踪失败.图8(d)是本文算法在princeton tracking benchmark datasets数据集中walking-occ-long视频序列的多目标遮挡跟踪结果.由于第123帧重叠目标周围空间信息一致，造成目标跟踪框漂移.综上实验证明，本文算法在不同数据集、不同视频序列、相同视频序列不同帧进行多目标遮挡跟踪能实时区分目标与遮挡目标，且在多目标发生遮挡后，仍能较为准确跟踪.

图8 不同视频序列的多目标遮挡跟踪结果Fig.8 Multi-target occlusion tracking results of different video sequences

5.2 定量分析实验结果

为了量化不同算法在不同视频序列上目标遮挡跟踪的效果，引入CPE和SR两个客观评估指标.表2是不同算法在视频序列上的目标遮挡跟踪成功率，本文算法相比较于其他5种算法更好处理视频中出现的遮挡、交叉遮挡情况，总体跟踪成功率普遍高于其他算法.但是在walking-occ1视频序列中略低于ROI-DSE算法，原因在于目标外观呈黑色与全白色背景形成反差，提取的颜色梯度直方图特征不足够表达目标.本文算法因为采用时空上下文模型处理遮挡，能够更好处理视频中出现的动态局部遮挡以及严重交叉遮挡，所以在library2.1-occ视频序列中跟踪成功率远高于其他5种算法(比排在第2的算法高出10%左右)，本文算法具有较好的目标遮挡跟踪性能.

表2 不同算法在视频序列上的目标遮挡跟踪成功率Table 2 Target occlusion tracking success rate of algorithms on video sequences

中心位置误差是衡量算法性能和算法跟踪精度的常用指标，图9是不同算法的中心位置误差分析图，本文算法中心位置误差在前5个视频序列均低于参考值15，仅在多运动目标严重遮挡的library2.1-occ和basketball视频序列中略高于参考值15，本文算法在不同视频序列具有较好的鲁棒性.在所有视频序列中，本文算法的平均CPE为12，均好于STC算法的15，ROI-DSE算法的16，DSE算法的20，PEI算法的29，GMM算法的35，本文算法在不同视频序列相比与其他算法能处理复杂跟踪问题，具有较高的跟踪精度.

图9 不同算法的中心位置误差分析图Fig.9 The center position error analysis of algorithms

同时根据估计目标位置的中心点与ground-truth的目标的中心点，计算两者的距离小于给定阈值的视频帧的百分比，纵坐标为精度，横坐标为不同的CPE阈值，参考阈值设定为20.图10是two-people-1.1视频序列下不同跟踪算法在不同遮挡程度下的距离精度图，图10(a)-(c)分别是无遮挡、部分遮挡、和交叉遮挡下不同算法的距离精度图.本文算法相比其他算法在设定的CPE阈值下具有更高的精度，跟踪性能更为鲁棒.

图10 不同跟踪算法在不同遮挡程度下的距离精度图Fig.10 The distance accuracy of tracking algorithms under different degrees of occlusion

为了进一步评估本文算法的时间复杂度，用帧率(frames per second，FPS)衡量不同算法的运行时间，表3是不同算法的平均FPS，由于GMM和PEI两种算法都采取降低算法复杂度的方法，故本文算法FPS略低于GMM和PEI算法，但本文算法的遮挡跟踪整体性能优于这两种方法.因此从帧率可以看出，随着上下文信息的引入，增加了算法的复杂度，因此STC算法的FPS低于DSA算法，但是本文算法的帧率FPS仍高于其他3种算法.

表3 不同算法的平均FPSTable 3 Average FPS of algorithms

6 结论

本文提出一种基于RGB-D时空上下文模型的多目标遮挡跟踪算法.首先根据目标时空上下文特征提取进行目标时间上下文建模、目标空间上下文建模来构建RGB-D时空上下文目标模型，然后通过计算时间一致性自适应融合颜色和深度特征，以便确定目标在当前帧位置，并利用深度信息特征进行约束，通过MAP关联模型有效解决目标遮挡跟踪问题.通过从定性和定量两方面进行实验仿真分析，本文算法采用时空上下文模型处理遮挡，能够更好处理视频中出现的动态局部遮挡以及严重交叉遮挡，相对于其他算法具有良好的遮挡跟踪性能.本文算法主要侧重于多目标遮挡跟踪情况，还未涉及运动目标的多尺度情况分析，下一步将研究提高多目标多尺度变化适应性和实时性.