基于多信息融合的多目标跟踪方法研究

2020-09-26 00:58王文杰
计算机测量与控制 2020年9期
关键词:相似性轨迹分数

张 静,王文杰

(1.中北大学 软件学院,太原 030051; 2.湖北江山重工有限责任公司,湖北 襄阳 441057)

0 引言

随着社会的发展,多目标跟踪作为目标跟踪领域中重要的研究方向广泛应用于城市数字化管理、智能安防和自动驾驶等领域[1]。多目标跟踪(Multi-Object Tracking)研究的主要目的在于通过对视频帧的检测分析,找到多个感兴趣的目标并在整个视频中生成并维护这些目标的轨迹[2]。常用的多目标跟踪方法可以分为离线方法和在线方法,离线方法通过历史帧和当前帧的信息生成跟踪轨迹,可以利用的信息更多,效果更好,但不适用于实时的计算机视觉任务。同时,随着深度学习网络性能的提高,目标检测方法也取得了很大的进步。因此,在目前的研究大多是基于检测的跟踪(Tracking by detection)框架。

多目标跟踪中常用的基于检测的跟踪框架能够在大多数应用场景中取得很好的效果,但是,这种框架比较依赖于提取目标特征的质量,当提取的目标特征鲁棒性较差或出现错误时,就会出现ID交换或轨迹丢失的情况,严重影响最终得到的跟踪效果。在之前的研究中,目标和轨迹的特征通常用传统方法的颜色直方图、HOG特征、SIFT特征等方法来描述。但是在处理遮挡、旋转、姿态变化等问题时都有一定的缺陷。如文献[3]中提到的SORT方法是一个应用较为广泛的多目标跟踪方法,通过匈牙利算法和卡尔曼滤波器处理得到目标轨迹,但是由于仅使用了传统特征作为目标特征,所以跟踪效果较差。而文献 [4]中提出的Deep SORT方法,在SORT方法的基础上使用深度神经网络提取目标特征,获得了较好的目标特征,提升了跟踪效果。在文献[5]中提出的跟踪方法利用基本的深度学习网络提取特征,同样极大地提升了跟踪效果。文献[6]中通过修改特征提取网络中的骨干网络,提高了特征的鲁棒性,在此基础上得到了更好的目标轨迹。文献[7]则使用GoogleNet的修改版网络,并在自定义的目标重识别数据集上进行训练,结合表观特征和空间特征,也取得了很好的跟踪效果。但是,在处理复杂场景下的多目标跟踪问题时,仍然会发生轨迹偏移、轨迹丢失和ID交换等现象。主要是因为多目标跟踪处理的场景视频帧,并且目标一般是在不断运动的,而当前的研究主要关注于当前帧中目标的特征信息,这样的信息是单独的、静态的并不适用于处理复杂场景。同时在计算轨迹和目标的相似性分数时也没有考虑到轨迹中不同帧的图像和当前帧检测图像的相似程度是会受时间影响的。因此本文将对特征提取网络和相似性分数计算方法进行修改,并选用目前表现较好的DenseNet[8]网络作为骨干网络,提取更为鲁棒的特征,更好的处理复杂场景中的跟踪问题。

同时检测方法作为跟踪框架的基础,影响着后续的跟踪质量。在文献[9]中提出的跟踪方法使用的是YOLO[10]检测方法,虽然其检测速度较快,但是牺牲了很大一部分的检测精度,导致其在复杂场景中无法准确的检测到跟踪的目标。而在文献[11] 中提出的多目标跟踪方法则使用了Mask R-CNN[12]作为目标检测方法,牺牲了一部分的速度性能,但准确地检测出了跟踪的目标,提升了跟踪效果。说明在多目标跟踪场景中,并不需要速度很快的检测方法,而是需要能够准确检测目标的检测方法。因此本文使用Mask R-CNN检测方法作为框架中的目标检测方法。

因此,针对上面分析的问题,本文从实际监控场景出发,提出了一种融合了历史信息和运动信息的基于检测的多目标跟踪框架(HM-TBD),主要贡献点如下:1)设计了一种双分支网络用于联合学习历史信息和运动信息;2)为了得到更准确的相似性分数设计了一种新的相似性计算方式;3)通过在MOT16数据集上的实验,本文提出的HM-TBD方法能够达到很好的效果。

1 目标跟踪方法

本文提出的基于检测的多目标跟踪框架主要包括四个部分:目标检测、目标特征提取、相似性分数计算和轨迹关联,如图1所示。

图1 融合历史信息和运动信息的特征提取网络

在本文的研究过程中选择通过文献[12]中提出的Mask R-CNN检测方法对视频帧中的目标进行检测,在得到目标的检测结果之后,通过本文设计的网络提取更为鲁棒的特征描述符,之后计算检测和轨迹之间的相似性分数,构建相似度矩阵,最后利用匈牙利算法[13]进行轨迹更新,得到目标的轨迹信息。下面将对本文所使用的相关方法和提出的双分支网络进行详细说明。

1.1 目标检测方法

Mask R-CNN是何凯明等人在2017年提出的一种新的目标检测算法,不仅训练速度快,并且能够获得很好的检测结果。Mask R-CNN整体上沿用了Faster R-CN15N[14]的检测思想,采用相同的两步检测策略,并在其中添加了一个Mask预测分支。具体来说当视频帧输入后进行目标检测时,首先Mask R-CNN会通过其骨干网络ResNet-FPN提取用于检测的特征,之后通过 Mask R-CNN中的RPN子网络初步得到目标的坐标信息和分类信息,再通过RoI pooling处理之后对目标进行包围框回归和分类,最后得到用于跟踪的目标的位置信息。Mask R-CNN的损失函数如式(1)所示:

L=LCLS+LBOX+LMASK

(1)

其中:LCLS使用于约束目标分类的损失函数,LBOX使用于学习目标包围框回归的损失函数,LMASK则是用于学习目标Mask 的损失函数。

1.2 特征提取方法

在得到视频帧中目标的位置信息后,就可以得到需要跟踪的目标图像,这时就需要对目标的特征进行提取了。在之前的大多数研究中都忽略了多目标跟踪处理的场景是一个不断运动的视频序列,因此只关注于单张图像中所包含的信息是不够的,这样提取出来的特征在面对复杂场景时的鲁棒性不高,将会导致跟踪效果较差。针对这一问题,本文根据多目标跟踪中常见的场景设计了一种融合历史信息和运动信息的双分支网络(HM-Net),用于提取更为鲁棒的特征计算相似性分数。本文提取特征的整体框架图如图2所示。

图2 融合历史信息和运动信息的特征提取网络

从图2中可以看出提取特征的整体框架包括上下两个分支,其中上分支用于提取跟踪目标的历史信息,下分支用于提取跟踪目标的运动信息。上下两个分支独立生成用于向后传播的特征向量δHA和δMA,并将两个分支中得到的特征向量进行融合得到融合了历史信息和运动信息的目标特征向量δOi,之后通过全连接层(FC层)处理,将特征向量送入到Softmax层得到目标ID的预测概率。下面将详细说明提取历史信息和运动信息的两个分支网络的具体结构。

在得到跟踪目标的图像之后,为了提取跟踪目标中可以利用的历史信息,本文设计了基于LSTM 的上分支网络。上分支网络的结构如图3所示。

图3 历史信息特征提取分支网络

以历史帧中的N张目标图像和当前帧中检测到的目标图像作为输入,通过骨干网络Dense-Net提取目标的表观特征,之后将提取到的N个历史表观特征和当前表观特征按照时间顺序输入到LSTM网络中用以提取目标具有区分性的运动特征,并将LSTM网络中最后一个隐藏层的特征向量作为目标的历史特征,用于和其他分支提取出的特征进行融合预测目标的ID,进行学习。

提取目标的历史信息后,为了提取目标的运动信息,本文设计了基于目标关节点的下分支网络和运动提取器模块,网络的结构如图4中所示。

图4 运动信息特征提取分支网络

提取运动特征时如图4中所示,首先将当前帧检测到的目标图像输入到下分支网络中,通过姿态探测器和运动提取器得到特征a将其作为目标的运动特征。具体来说,本文选用Alpha Pose网络作为姿态探测器提取目标的关节点信息,并用式(2)作为运动提取器计算目标的运动特征。

(2)

Loss=-∑Ktklogyk

(3)

其中:k为训练时输入网络的目标图像数量,t为目标图像的真实ID,y为目标图像的预测ID。

1.3 相似性计算方法

多目标跟踪框架中的第三步为计算轨迹和当前帧检测图像之间的相似性分数。在之前的研究中,计算相似性分数的方式是在轨迹中选取n张图像提取特征,再分别计算它们与检测目标特征之间的距离进行相加,将最后的距离作为相似性分数。这样做的缺点是没有考虑到轨迹是不断运动的,时间间隔越短的轨迹图像会和目标图像越相似。因此,本文提出增加权重的相似性计算方法。第一步计算轨迹中单个图像和检测目标之间的相似性分数,本文选用余弦距离作为单个轨迹和图像的相似性分数,计算方法如式(4)所示:

(4)

(5)

1.4 轨迹关联方法

得到轨迹和检测目标的相似性分数之后,需要通过轨迹关联方法得到轨迹和检测目标之间的匹配关系,得到最终的目标轨迹。但是由于在跟踪过程中可能有新的目标进入场景或旧的轨迹离开消亡,因此只是简单地得到匹配关系是不够的,还需要对轨迹进行管理。

通过上面的分析,本文的轨迹关联方法如下:首先在得到了当前m个轨迹和n个检测目标之间的相似性分数之后,基于这些分数构造一个m*n的相似度矩阵,之后通过匈牙利算法进行二分图匹配得到轨迹和检测目标之间的匹配关系。在得到匹配关系之后,进行轨迹管理,轨迹的状态包括三种:生存、未知和消亡。首先设定FMAX(一般设为3)为帧数的阈值,用于确定轨迹的状态;当一个轨迹匹配和当前帧中的检测目标成功匹配或新的轨迹出现时,将其这些轨迹的状态视为生存并维护其信息,其中新轨迹是指没有匹配上的检测目标在其后连续FMAX帧都成功匹配关联后才能确定为新的轨迹;而在本帧中没有匹配上的检测目标和没有匹配上且连续未匹配上帧数小于FMAX的轨迹都为未知状态,并需要维护其信息;最后到当前帧连续未匹配帧数超过FMAX的轨迹将视为消亡状态,停止维护其信息。这样就完成了当前帧的跟踪过程。

2 实验及分析

为了验证本文提出的融合历史信息和运动信息的多目标跟踪方法(HM-TBD)的有效性和可行性,本文选用常见的几种多目标跟踪方法进行对比。并通过在常用的多目标跟踪数据集上进行实验,根据跟踪评价的主要指标对比分析,验证方法的有效性和可行性。下面将对实验过程中所用到的数据集和评价指标进行介绍,并对实验结果进行分析。

2.1 实验数据集

本文多目标跟踪的对比验证实验选用了MOT16数据集[15]进行验证,训练集和测试集各包含7个相机,共14个相机,其中6个相机为静止拍摄相机,8个为运动拍摄相机,共10 000多张图像。MOT16中所包含的部分场景如图5所示。

图5 MOT16部分场景示例

图5展示了MOT16的部分场景,可以观察到该数据集所包含的场景,相机的视角多变、场景复杂,且具有固定和移动拍摄两种运动状态,因此能够对本文提出的多目标跟踪方法的泛化能力及鲁棒性进行充分的考验。

2.2 评测指标

本文选择使用常见的多目标跟踪评价指标来对各个方法进行评测,主要指标有:识别 F1 分数(Identification F1Score, IDF1)、身份交换次数(ID switches, IDs)、多目标跟踪准确度(Multiple Object Tracking Accuracy, MOTA)、多数跟踪数(Mostly tracked, MT)、多数丢失数(Mostly lost, ML)以及轨迹跳变数(Fragmentation, Frag)[15]。计算方法如下面的公式所示。

IDF1需要由识别精确度(Identification Precision, IDP)和识别召回率(Identification Recall, IDR)求得,IDP的计算方法如式(6)所示:

(6)

式(6)所计算的IDP表示每个行人所记录的框中的ID识别的精确度,其中IDTP和IDFP分别代表真阳性ID数量和假阳性ID数量。IDR的计算方法如果式(7)所示:

(7)

式(7)所计算的IDR表示每个行人所记录的框中的ID识别的召回率,其中IDFN表示假阴性ID数量。IDF1的计算方法由IDP和IDR得到,计算方法如式(8):

(8)

式(8)所计算的IDF1表示每个行人所记录的框中的ID识别的F1分数,一般作为评价跟踪好坏的首要评价指标。IDs表示一个行人的跟踪轨迹中行人ID切换的次数,通常能反映跟踪的稳定性,越小越好。Frag代表跳变数,轨迹只要在跟踪和不跟踪两种状态中跳变一次,则跳变数加一次,越小越好。根据以上所得到的信息可以计算MOTA,如式(9)所示:

(9)

式(9)所计算的MOTA用于评价单相机下多目标跟踪的准确性,其中FN表示所有帧中的假阴性检测之和,FP表示表示所有帧中假阳性检测之和,GT则表示真实的跟踪目标,同时MOTA也是常用衡量多目标跟踪性能指标之一。

通过上述评价方法,可验证多目标跟踪方法的综合性能,评估方法的稳定性与精度。

2.3 实验结果与分析

为了验证本文提出的融合历史信息和运动信息的多目标跟踪方法的有效性,选取 MOT16 数据集进行评测,并和常见的 4种多目标跟踪方法进行对比,实验中所用的计算机硬件配置为:Intel(R) Core®系列CPU,4核8线程,主频为3.40 GHz;使用了两条8.0 GB共16.0 GB的内存;显卡为NVDIA GeForce GTX 1060,位宽为192bit,显存大小为6 GB。框架选用 Pytorch框架。实验中所用的检测结果都为数据集中提供的Mask R-CNN检测结果,轨迹关联方法都使用匈牙利算法进行关联。实验结果如表1所示。

表1 多目标跟踪方法效果对比表

表1中, HM-TBD表示本文提出的融合历史信息和运动信息的多目标跟踪方法,为了方便观察,数值越大表示效果越好的指标后方标注了向上的箭头,数值越小表示效果越好的指标后方标注了向下的箭头。首先从表中可以看出本文提出的方法在MOTA指标方面相较于其他方法要更好,结合MOTA的计算方法可以说明本文提出的跟踪方法在使用相同的检测方法的情况下,发生的Frag次数更少,表中的Frag数据也印证了这一点,从这两个指标中可以看出本文提出的跟踪方法得到的目标轨迹更为稳定、准确。同时从表中也可以看出HM-TBD方法的IDF1指标相较于其他方法较好,从IDF1的计算方式中可以看出,IDF1表示目标识别的准确性,这就说明HM-TBD方法中所提出的融合历史信息和运动信息的特征提取网络效果更好,能够提取出更有区分性、更为鲁棒的目标特征。最后在表中的其他三个指标中本文提出的方法也获得了较好的表现,能够准确跟踪较多的目标,并且发生轨迹丢失和ID交换的次数较少。图6~8是跟踪结果较好的三个跟踪方法的跟踪轨迹图。

图6 DMAN方法跟踪效果

从图6可以看出当目标发生遮挡时,DMAN方法无法准确的再次跟踪到目标,如第170帧的两位行人在经过遮挡后,重新出现在画面中时两位行人的ID都发生了变化,发生了轨迹变跳。从图7中可以看出发生同样的情况后,MOTDT方法同样无法再次跟踪到目标,发生了轨迹变跳和ID交换。而从图8中可以看出,经过遮挡后,本文提出的HM-TBD方法依然可以准确的跟踪到目标,并且保证了轨迹的准确,没有发生轨迹变跳和ID交换。通过对实验结果的分析,可以看出,本文提出的融合历史信息和运动信息的多目标跟踪方法在复杂场景下依然能取得较好的跟踪效果,证明了本文提出的方法的有效性和可行性。

图7 MOTDT方法跟踪效果

图8 HM-TBD方法跟踪效果

3 结束语

通过对多目标跟踪实际应用场景的分析,本文提出了在提取目标特征时融合历史信息和运动信息,有效地提高了特征的区分性和鲁棒性;并在相似性分数计算阶段加入了权重的影响,使得相似性分数更能真实地反映轨迹和检测目标之间的相似程度;通过这两处的改进能够提高多目标跟踪方法在复杂场景下跟踪目标的鲁棒性和准确性,提高跟踪效果。但在本文中只针对特征提取和相似性分数进行了改进,而目标检测方法和轨迹关联方法没有改进,因此下一步的工作就是对多目标跟踪方法进行整体改进,提高跟踪效果。

猜你喜欢
相似性轨迹分数
解析几何中的轨迹方程的常用求法
隐喻相似性问题的探讨
分数的由来
轨迹
轨迹
把握物理难点,分数更上一步
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
……的近似分数的若干美妙性质
奇妙分数与特殊数列自动生成