结合时空一致性的FairMOT跟踪算法优化

2022-09-20 09:13彭嘉淇王涛陈柯安林巍峣
中国图象图形学报 2022年9期
关键词:特征提取一致性轨迹

彭嘉淇,王涛,陈柯安,林巍峣

上海交通大学电子信息与电气工程学院,上海 201100

0 引 言

多目标跟踪(multiple object tracking,MOT)任务的主要目标是对视频中多个感兴趣目标定位的同时,维持目标各自的身份识别号(identification,ID)并记录连续的运动轨迹。多目标跟踪在诸多领域都有广泛应用。例如,在自动驾驶中可以辅助车辆代替人员感知周围其他车辆和人员的运动情况,做出合理决策;在安防监控中可以辅助提取视频中可疑人员的身份和去向信息,节约人力。视频多目标跟踪场景的复杂性以及目标间的频繁遮挡,给准确的多目标跟踪带来挑战。现有多目标跟踪方法结果主要存在两类错误,即目标漏检和目标身份识别错误。目标漏检指某一帧目标没有检测到,导致轨迹中断。目标身份识别错误指同一目标在不同帧中识别为不同目标,导致身份跳变。在现有视频多目标跟踪方法中,通用做法为使用检测器获得单帧目标的检测框,然后利用前后帧同一目标相似度,在时序上对检测框进行跨帧关联,形成多个目标的轨迹。针对目标漏检和身份识别错误问题,现有方法基于基本框架采取了多种改进策略,从目标检测、目标关联以及两者联合的角度尝试解决。其中,一类方法关注于检测性能的改善,通过更加准确的检测器获得位置更加准确的目标检测框,作为目标关联步骤的输入。例如,DeepSORT(deep simple online and realtime tracking)(Wojke等,2017)使用比Faster R-CNN(region convolutional neural network)(Ren等,2015)效果更好的检测器POI(person of interest)(Yu等,2016)获得单帧检测结果,再进行目标间的关联。另一类方法关注于设计更加准确合理的目标关联机制。例如,使用图网络或复杂的全局匹配策略对目标进行更加准确的关联。其他研究则将目标检测和关联联合训练,增加匹配和关联之间的特征耦合关系,对两者的效果同时进行提升。例如,FairMOT(Zhang等,2020)采用无锚框的检测器CenterNet(Zhou等,2020)并增加一个ReID(re-identification)分支获取目标的外观特征,将外观特征与检测器特征联合训练。

然而,尽管现有检测器尝试从目标检测、目标关联以及两者联合等多角度对多目标跟踪进行改进,特别是FairMOT,既使用了性能更强的检测器CenterNet,又将关联特征和检测部分进行联合训练,但是忽视了多目标跟踪中广泛存在的不一致性问题。这些不一致性体现在以下方面:1)空间不一致性。指ReID特征中心与目标检测框中心不一致。在将无锚框的检测器添加ReID特征分支进行跟踪的方法中,由于输出特征图上的每个位置代表一个潜在目标,因此在提取目标的ReID特征时,最直接的做法是根据目标的中心位置在ReID特征图的对应位置提取特征向量。由于目标中心位置由热图进行监督训练,而热图生成时使用的中心往往直接使用目标检测框的中心,从而出现目标特征与物理中心不一致问题。即在密集场景下目标检测框中心可能会落在周围其他目标对应的像素上,导致该处ReID特征包含大量不相干目标信息而不是对应目标信息,不能很好表示该目标外观特征。ReID特征提取的最佳中心与该目标检测框中心不一致,不能将两者混为一谈。如图1(a)所示。2)时间不一致性。指相邻帧目标中心响应不一致。现有方法大多仅对单帧图像进行特征提取和检测,未使用邻帧的目标信息,出现目标中心响应时序不一致问题。即某些场景能够准确检测上一帧中的物体,但是到下一帧由于遮挡或模糊,物体无法检测,导致前后帧的物体召回情况不一致,使目标间无法一对一正确匹配。如图1(b)所示。一致的目标响应是相邻帧均出现的同一目标均能检测到。3)特征相似度度量在训练与测试中不一致。如图1(c)所示,现有方法在训练过程中往往将目标检测框进行分类,使用交叉熵损失函数对目标类别进行监督,同一轨迹的目标检测框分到同一类,每个目标是单独考虑的;但是在测试时,却需要在相邻帧目标特征上两两交互计算余弦相似度,根据相似度进行最优匹配。这两者之间存在巨大差异,导致测试与训练时模型机制不一致,使得性能下降。

图1 多目标跟踪中存在的不一致问题Fig.1 The inconsistent problem in multiple object tracking ((a) target feature center is inconsistent with physical center; (b) target center response is inconsistent in timing; (c) the similarity measurements during training and testing is inconsistent)

为了解决现有多目标跟踪方法存在的不一致性问题,本文提出基于时空一致性的改进算法,并在FairMOT(Zhang等,2020)上验证。本文方法在抽取ReID特征时预测ReID中心与检测框中心的偏移,称为特征提取位置偏移,然后根据该偏移和检测框中心计算最佳ReID特征抽取中心,以此解决空间不一致问题,提升ReID特征对目标的表达能力。随后,在相邻帧之间计算运动偏移信息,根据偏移信息用上一帧的响应信息对下一帧的响应进行增强,解决时间不一致问题。最后,通过设计特征正交损失函数,在训练时考虑不同身份目标之间的相似度关系,在特征空间对不同目标特征进行正交约束,解决训练和测试中的相似度度量不一致问题。在MOT17和Hieve(Lin等,2021)数据集上进行验证,结果表明本文方法能够较好地解决这些不一致问题,对多目标跟踪的性能提升具有显著效果。

1 多目标跟踪方法

根据目标检测和目标关联的耦合程度,可以将现有多目标跟踪方法分为3类,即先检测后关联的方法、检测跟踪联合的方法和无关联的方法。

1.1 先检测后关联的方法

先检测后跟踪的方法使用独立的检测器对视频的每一帧图像进行目标检测,获取每一帧中的目标检测框,然后使用独立的关联模块对检测框依据外观、运动等相似度进行关联,连接成目标轨迹。SORT(simple online and realtime tracking)(Bewley等,2016)是此类方法中的经典,利用检测器Faster R-CNN(Ren等,2015)对每一帧进行检测,然后使用卡尔曼滤波预测目标在后一帧的位置,根据预测位置和实际检测框位置计算交并比作为轨迹与检测框之间的相似度,并进行二分图匹配,获得目标关联结果。DeepSORT(Wojke等,2017)在SORT上进行两方面改进,一是将Faster R-CNN替换成检测效果更好的检测器;二是在目标相似度计算中引入使用深度网络提取的外观特征,提升了目标关联的准确度。DMAN(dual matching attention networks)(Zhu等,2018)在目标关联中的特征提取时使用空间注意力机制,使网络更加关注那些区分性较强区域的特征,使目标能够更准确地识别身份。GNMOT(graph networks for multiple object tracking)(Li等,2020)使用两路独立的图卷积网络对轨迹的外观特征和运动特征进行逐帧更新,利用得到的外观特征和运动特征计算融合相似度,用于后续的匹配过程。TubeTK(Pang等,2020)在多帧特征图上预测一个短的轨迹,利用短轨迹特征进行关联获得目标长轨迹。Ctracker(chained-tracker)(Peng等,2020)使用相邻两帧目标形成的目标对提取特征进行匹配关联。INAF-GNN(intra-frame relationship modeling and graph neural networks)(朱姝姝 等,2022)使用图网络对帧内物体关系进行建模,使用自注意力机制整合局部特征和全局跟踪特征,实现更准确的关联。此外,获取更准确的ReID特征(如使用通道和空间注意力机制(Qin等,2021))以及孪生网络(高博,2021)对特征提取进行改进,也有助于增加关联的匹配准确度,从而提升跟踪效果。

1.2 检测跟踪联合的方法

先检测后关联的方法对目标检测和关联使用两个独立的网络进行。一方面特征提取等大量重复计算导致速度下降;另一方面检测和关联分开学习使梯度无法共享,两者之间没有相互促进作用。因而一些方法尝试将目标检测和目标关联方法联合到一个网络中进行训练。如JDE(jointly learns the detector and embedding model)(Wang等,2020)使用标准的区域生成网络(region proposal network,RPN)作为检测器时,另外增加一路外观特征提取分支,在检测损失函数的基础上增加一个分类损失函数,基于目标的外观特征对目标的所属身份进行监督。FairMOT(Zhang等,2020)考虑到基于锚框的算法中,对目标进行外观特征提取时引入了大量无关的背景信息和其他目标的信息,因此使用无锚框的检测器,外观特征则是在对应目标中心点进行提取,从而消除部分无关背景信息。此外,将分割等任务引入多目标跟踪(Yang等,2019)以及与检测关联联合学习也能有效提升多目标跟踪效果。

1.3 无关联的方法

由于目标关联准确性受相似度度量和关联策略的影响较大,因此有的方法将目标关联步骤省略,直接使用历史轨迹在当前帧预测位置。如Tracktor(Bergmann等,2019)利用Faster R-CNN中的二阶段网络,输入上一帧的目标检测框,一对一获得其在当前帧位置,省略了关联步骤。TrackFormer(Meinhardt等,2022)在基于Transformer的检测器DETR(detection transformer)(Carion等,2020)上进行修改,将上一帧目标作为新一帧的query,将当前帧图像的特征作为key,利用Transformer的编解码过程得到的这些key查询在新的一帧中的位置。TransCenter(Xu等,2022)在利用上一帧的目标中心提取查询特征后,在后一帧的图像特征上利用Transformer查询得到新的中心位置以及目标检测框的宽和高。

以上3类方法对多目标跟踪中的目标检测和目标关联进行了一系列改进,但对多目标跟踪中普遍存在的不一致性问题缺少足够的关注和改进。本文将基于FairMOT分别对目标关联特征与检测框中心不一致、训练测试相似度度量不一致以及目标中心响应时序不一致进行改进。

2 方 法

2.1 方法整体框架

本文提出的时空一致性多目标跟踪方法结构如图2所示,主要基于多目标跟踪方法FairMOT进行改进。

图2 基于一致性改进的多目标跟踪方法整体流程图Fig.2 The framework of our multiple object tracking method based on consistency improvement

给定连续视频帧序列I={I1,I2,…,IT},本文方法将相邻两帧It-1和It输入特征提取网络。输出的特征图分别用于目标检测、目标关联和帧间响应增强。

目标关联包含ReID分支和extract offset分支两部分。ReID分支用于计算全局的ReID特征图,extract offset分支则预测目标ReID特征提取位置与目标检测框中心之间的偏移,目的是修正目标特征中心及检测框中心上的不一致性;extract offset分支得到的偏移和ReID分支以及检测部分得到的目标中心位置一起用于提取目标的ReID特征。关联时,使用当前帧目标与历史轨迹间的ReID特征相似度和基于卡尔曼滤波得到的轨迹预测位置与当前帧实际位置之间的距离相似度对目标和轨迹进行关联。

邻帧增强分支用于帧间一致性信息增强,修正相邻帧之间目标中心响应不一致的情况。本文方法根据相邻帧的特征图计算空间相关信息,预测两帧之间的偏移情况,然后使用可变形卷积基于偏移对上一帧的目标响应做时空对齐,得到与当前帧相关的响应信息,对当前帧的目标响应进行增强。

训练时,除了使用检测器中的损失函数,考虑到使用交叉熵损失进行分类训练与测试时目标关联步骤中的两两相似度计算过程不一致问题,本文将FairMOT中用于关联的交叉熵损失替换为特征正交损失,对训练集中的每个身份都学习一个模板特征向量,然后对目标和对应身份两两之间做损失计算,保持与测试时相似度计算的一致性。

2.2 基于ReID特征提取位置偏移的空间不一致修正

图3 基于提取位置偏移的目标ReID特征提取Fig.3 Object ReID feature extraction based on extraction position offsets

2.3 基于邻帧响应增强的时间不一致修正

为了充分利用邻帧间的一致性信息,首先将当前帧特征图与上一帧特征图进行邻帧相似度计算,得到大小为(N,H,W,K2)的相似度矩阵,然后基于相似度矩阵预测两帧间的偏移信息,基于得到的偏移信息,使用可变形卷积对上一帧的目标响应进行变换,得到时序一致性信息,对当前帧的heatmap进行时序一致性信息增强。

具体实现时,假设经过特征提取网络后得到当前帧特征图Ft以及上一帧特征图Ft-1,大小均为(N,H,W,D)。将当前帧的每一位置(x,y)与上一帧的K2邻域内的位置依次计算特征相似度,得到当前帧每个位置与上一帧大小为(K,K)的邻域内各点的余弦相似度。由于该邻域大小为(K,K),每个点可以得到K×K个相似度,在该点将相似度拼接成维度为K2的向量,得到相似度矩阵,大小为(N,H,W,K2),该矩阵编码了相邻帧间的局部相似信息。该相似度矩阵经过卷积后,可以为每一位置预测一组偏移向量,表示两帧之间的偏移关系。将该偏移向量用作可变卷积的偏移参数,并利用可变卷积对上一帧的heatmap信息进行变换,得到与当前帧相关的一致性响应信息,将该信息加到当前帧的heatmap上,即可对目标的时序信息进行增强。

2.4 基于特征正交损失的相似度不一致修正

(1)

平滑化该损失函数,可得

(2)

但是,在测试时采用余弦相似度度量前后帧目标的相似程度。目标训练和测试中计算相似度方式的不一致导致模型性能下降。因此本文提出在训练中采用与测试时相似度计算方式相近的特征正交损失,并为每个类别都设置一个可学习的类模板。为此,对训练集中的每个轨迹j,本文模型均用标准正态分布初始化一个特征向量作为第j类的类模板Mj,Mj随着网络的学习不断更新。通过ReID分支和extract offset分支得到目标i的特征向量fi,假设其属于身份j,则ReID分支的学习目标为使fi和Mj尽可能相似,与其他轨迹的模板特征向量则尽可能相斥,即特征向量fi与类模板Mj做内积,并经过sigmoid函数的结果满足

(3)

类似于二分类中的交叉熵损失,损失函数为

(4)

由于多目标跟踪中单帧中正样本只有一个,其余均为负样本。针对类别不均衡问题,对上述公式进行改进,得到最终的目标特征正交损失函数。具体为

(5)

式中,γ为大于1的超参数,类似focal loss中的思想,用于进行难样本的权重控制,使误差越大的项在损失函数中获得越大的权重。

3 实 验

3.1 算法实现

算法基于FairMOT实现,在MS COCO(Microsoft common objects in context)数据集上预训练作为初始化并沿用FairMOT的训练方案。初始学习率设为0.000 1。在MOT17数据集和Hieve数据集上,图像均等比缩放至短边为608像素,batch size设置为4,总共训练30个周期,在20个周期后学习率下降为原来的0.1倍。

3.2 数据集与评价指标

实验主要在多目标跟踪数据集MOT17、MOT20和Hieve上进行,并与现有方法进行效果对比。

3.2.1 MOT17数据集

MOT17数据集是2017年MOT Challenge多目标检测跟踪方法公开的基准数据集,随后的MOT算法基本都会给出在MOT17上的性能表现。

MOT17主要标注目标为移动的行人,拥有丰富的场景画面、不同拍摄视角和相机运动,也包含不同天气状况的视频。MOT17数据集共14个视频序列,每个视频平均长度约800帧,其中7个为带有标注信息的训练集,其他7个为测试集,每个训练集提供SDP、DPM和Faster R-CNN共3种检测器的检测结果,标注超过1 300个目标,约300 000个检测框。

3.2.2 Hieve数据集

Hieve(Lin等,2021)数据集是2020年提出的以人为中心的复杂事件的数据集,包含人群的骨架、行为与跟踪标注。Hieve在YouTube收集了32个异常场景(如监狱)和异常事件(如打斗、地震)的视频序列,大多超过900帧,总长度33 min 18 s,分为19个训练集视频和13个测试集视频。在跟踪方面,Hieve中包含2 687个目标轨迹,平均轨迹长度大于480帧,2维检测框个数超过130万。

3.2.3 评测指标

在MOT任务中,通过检测框建立真实轨迹与预测轨迹之间的关系。使用目标交并比(intersection over union, IoU)作为相似性度量,阈值设定为0.5。当预测轨迹中的某一帧对应的检测框与真实轨迹中该帧对应的检测框之间的目标交并比>0.5时,则认为这一物体在该帧得到了准确跟踪。预测轨迹与真实轨迹之间的一一对应关系是由二分图最大匹配获得的,目标是使预测轨迹与真实轨迹间的IoU尽可能大。通过这种方式确定预测轨迹与真实轨迹间的一一对应关系后,再通过各种指标衡量跟踪的准确度。MOT任务中的评测指标主要包括整体评价指标MOTA(multiple object tracking accuracy)、准确率指标MOTP(multiple object tracking precision)、漏检指标FN(false negatives)、误检指标FP(false positives)、身份跳变指标IDs(identity switches)、80%帧跟踪正确轨迹比例MT(mostly tracked)和80%帧跟丢轨迹比例ML(mostly tracked)。其中, MOTA综合了FN、FP和IDs数据。

3.3 实验结果

3.3.1 各改进点的对比实验

1)特征提取方式。在检测部分得到的目标检测框中心加上提取位置偏移预测分支得到的偏移后,可以得到ReID特征提取位置。由于得到的位置为浮点数,而ReID特征图上的位置均为整数,因此在提取时需要进行近似。实验分别对最近邻提取、置信度最高处提取、双线性插值提取和直接使用检测框中心位置提取进行对比。最近邻提取表示直接在与提取位置最近的整数位置提取特征位置。置信度提取表示在提取位置周围选取热图响应值最大的整数位置处的ReID特征作为目标ReID特征。双线性插值提取即第2节的提取方法。实验中损失函数均使用FairMOT中的原始交叉熵损失函数。实验结果如表1所示。可以看出,使用双线性插值提取方式效果最佳,相比不采用特征提取位置偏移的方法,在MOTA上有0.7%的提升,同时ID切换次数也有非常明显的下降,说明通过提取位置偏移后提取的特征相比原来在检测框中心提取的特征能够更好地表征目标的外观信息。

表1 偏移后不同特征提取方法对跟踪效果的影响Table 1 The effect of different feature extraction method on tracking results

2)帧间相关计算。在帧间信息增强时,帧间位置相似度的计算直接影响最终效果。因此实验中分别采用单点余弦相关和本文提出的空间相关方法进行相似度计算,并与不进行帧间增强的方法进行对比。其中,单点余弦相关直接使用当前帧与上一帧同一位置的特征向量进行余弦相似度计算,得到相似度矩阵。实验不进行ReID特征提取和损失函数修改。实验结果如表2所示。可以看出,使用空间相关相似度计算进行帧间一致性响应增强带来的效果提升最大,相比不使用帧间增强在MOTA指标上提升0.9%,而直接使用单点余弦相关则几乎没有提升。主要原因是单点余弦相关只利用了对应位置的相似度信息,导致两帧位移信息估计不准,使历史响应信息经过可变卷积后与当前帧的响应没有得到良好对齐。而空间相关则提取了更多空间邻域的信息,使两帧之间的位移信息预测更加准确,有助于可变卷积准确提取帧间一致性响应信息。

表2 帧间不同相关计算方式对跟踪效果的影响Table 2 The effect of different relation calculation method between two frames

此外,对不同损失函数对跟踪效果的影响进行实验,将FairMOT中的交叉熵损失函数分别替换为focal loss和本文提出的特征交叉损失,实验结果如表3所示。可以看出,focal loss相比交叉熵损失有0.6%的提升,但大幅低于本文提出的特征交叉损失。特征交叉损失能够取得最好效果,主要得益于训练时在损失函数计算中考虑了目标两两之间的相似度信息,与测试时的相似度度量机制比较一致,保证属于同一目标的特征相比不同目标间的特征更相似。

表3 不同关联损失函数对跟踪效果的影响Table 3 The effect of different feature extraction method on tracking results

为了验证本文提出的3种一致性改进对跟踪效果提升的作用以及它们之间的相互影响,将ReID特征位置偏移提取、特征正交损失和帧间一致性响应增强分别与基准方法FairMOT组合,进行跟踪效果对比实验。根据表1—表3的结果,实验使用双线性插值作为ReID特征提取方式,特征正交损失作为损失函数,空间相关作为帧间相似度计算方式。实验结果如表4所示。本文方法最终得到的MOTA检测结果为71.2%,检测速度为15帧/s。

从表4可以看出,1)单独使用ReID位置偏移提取、特征正交损失函数和帧间一致性响应增强均能有效提升多目标跟踪的指标,叠加使用能够实现更好效果。2)相比不采用任何不一致消除策略的多目标跟踪方法,本文提出的一致性多目标跟踪方法的跟踪效果明显提升,MOTA指标从69.6%提升至71.2%,特别是在密集场景下,MOTA平均有3%的提升。如在MOT17-07拥挤的街道情形下,MOTA从52.7%提升至58.2%。3)空间一致性和帧间一致性改进均能有效降低目标的身份跳变次数。因为ReID特征偏移提取能够使目标获得更能代表自身外观的特征,而帧间一致性响应增强有助于召回更多的目标检测框供匹配,使匹配丢失情况减少。

表4 不同模块对跟踪效果的影响Table 4 The effect of different components on tracking results

3.3.2 与现有方法对比

为验证本文提出的一致性多目标跟踪方法的效果,与现有方法在MOT17数据集上进行对比,结果如表5所示。可以看出,本文方法在MOTA指标上超过大部分现有方法。值得注意的是,尽管Center-

表5 本文方法与其他方法在MOT17数据集上的效果对比Table 5 The tracking performance comparison between our method and other methods on MOT17 dataset

Track等方法的IDs低于本文方法,但这些方法的MT较低,ML较高,其正确召回的目标框数量显著低于本文方法,导致IDs占据总匹配数的比例较大,因此匹配错误比例高于本文方法,这从较低的MOTA指标中亦可看出,说明它们的跟踪效果劣于本文方法。

为了验证本文方法的通用性和泛化性能,在目标更加稠密的MOT20和Hieve数据集上进行对比实验。这两个数据集中目标数量更多更密集,目标遮挡情况更严重,因此由特征提取和目标丢失等带来的不一致现象也更加明显。实验结果如表6和表7所示。可以发现,本文方法在这两个数据集上均取得了超过大部分现有方法的跟踪效果,并且带来的相对提升比在MOT17数据集上更加明显,特别是在Hieve数据集上,本文方法在所有指标上均取得最好效果,在召回更多目标的同时,有效减少了目标间关联错误的次数,说明本文方法能够有效解决密集场景中的目标ReID特征提取、帧间响应以及相似度度量不一致问题,从而提升跟踪效果。

表6 本文方法与其他方法在MOT20数据集上的效果对比Table 6 The tracking performance comparison between our method and other methods on MOT20 dataset

表7 本文方法与其他方法在Hieve数据集上的效果对比Table 7 The tracking performance comparison between our method and other methods on Hieve dataset

3.3.3 可视化结果

图4为本文方法在MOT17数据集上的一部分可视化效果。可以看出,尽管目标间存在比较严重的遮挡,但是由于本文提出的ReID特征位置偏移提取和特征交叉损失,使目标仍然能够获得较为准确的外观特征,得到正确匹配。而得益于帧间响应一致性信息的增强,对于部分遮挡目标也能够有效召回。

图4 本文方法与FairMOT的可视化结果对比Fig.4 The visualization results comparison between FairMOT and our method((a)FairMOT;(b)ours)

另外,将ReID特征提取位置偏移预测分支预测的偏移结果进行可视化,如图5所示。其中,绿色点为目标检测框中心,红色点为预测的目标ReID特征提取位置。可以发现,本文模型预测的检测框中心位置加上偏移量后所处的位置大多落于目标自身的像素上,而不是落在遮挡目标上,该处提取的外观信息能够保留更多的当前目标信息,尽可能少地受到遮挡目标信息的干扰。

图5 目标ReID特征提取位置偏移示意图Fig.5 The visualization result of the ReID feature extraction position offsets

4 结 论

现有多目标跟踪方法存在ReID特征中心与目标检测框中心的空间不一致、邻帧目标中心响应的时间不一致以及关联相似度度量的训练测试不一致问题。现有方法大多利用更准确的检测器或更复杂的目标关联策略对多目标跟踪进行改进,忽略了这些不一致问题,导致目标跟踪过程中频繁出现跟踪丢失、身份跳变等现象。针对这些不一致问题,本文提出了一致性多目标跟踪方法,在无锚框的目标检测和基于目标ReID特征的目标关联组成的多目标跟踪框架上,使用目标ReID特征中心偏移,在更能代表目标外观特征的位置提取ReID特征;使用帧间空间相关计算两帧的空间偏移,利用可变卷积对历史帧的目标响应进行变换,得到一致性响应信息增强到当前帧的目标热图上;在训练时为训练集中每个目标轨迹设定一个特征模板,计算检测目标与所有特征模板之间的相似度损失。通过这3方面的改进,解决了多目标跟踪中的一致性问题,在多个多目标跟踪数据集上取得了效果提升。

然而,在实验结果中也发现尽管采用了邻帧目标响应一致性信息进行增强,但是依然存在一些目标丢失或误检情况。原因在于只使用了前一帧的信息,没有使用更多历史信息对目标的响应进行增强。同时,目标的关联中尽管改进了空间上的不一致性,但是ReID特征仅由单帧特征获得,两帧同一目标的ReID特征也可能存在时间不一致。因此,下一步研究工作的重点有两方面。一是融合历史多帧的目标响应信息对当前帧目标的识别召回进行增强;二是在获取ReID特征时,使用历史目标的ReID特征对当前帧目标的ReID特征进行一致性监督学习或特征融合,实现ReID特征的时间一致性。

猜你喜欢
特征提取一致性轨迹
商用车企业的3C零部件一致性管控新模式
同步定位与建图特征提取和匹配算法研究
离散异构线性多智能体系统的输出一致性
商用车CCC认证一致性控制计划应用
浅谈求轨迹方程中的增解与漏解
无从知晓
基于Paxos的分布式一致性算法的实现与优化
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
捕捉物体运动轨迹