黄 晨,胡爱群
(东南大学 信息科学与工程学院,江苏 南京 211189)
多目标跟踪技术[1-2]是计算机视觉领域的重要研究方向,在行人监测[3]、智能交通监视[4]和自动驾驶[5]等领域有着广泛的应用。近年来,随着深度学习、目标检测等技术的发展,多目标跟踪技术取得了极大的进步。当前多目标跟踪技术的主流方法主要有两种:基于检测加跟踪的两阶段方案[6-8]和基于检测和跟踪联合的一阶段方案[9-11],如:DeepSORT、JDE和CenterTrack等。在行人监测领域,多目标跟踪已经取得了长足的发展,但是在交通目标跟踪领域的研究较少,交通目标的跟踪场景此前尚未出现公开、大型的多目标跟踪任务。同时由于交通目标与行人目标跟踪在特性上存在诸多差异,缺少交通多目标跟踪数据使得难以衡量多目标跟踪算法在道路交通场景的跟踪性能,导致目前针对交通多目标跟踪任务的研究不充分。
DeepSORT跟踪算法是两阶段跟踪框架中应用最为广泛的算法,但是在交通场景跟踪目标密集情况下,DeepSORT跟踪算法难以保持目标的跟踪状态,并且高度依赖目标检测器的检测性能。为了在交通目标跟踪场景获得更好跟踪性能,本文引入YOLOv5算法[12]作为DeepSORT的目标检测器,并在以下两个方面提出改进:① 提出用检测框和跟踪目标预测框二者的IOU度量运动相似度替代原本的马氏距离度量方式;② 外观相似度度量采用深度特征距离融合HOG[13]特征距离,提升外观相似度度量的准确性,从而提高跟踪的鲁棒性。将改进的DeepSORT算法命名为MF-DeepSORT。
MF-DeepSORT算法在标注和构建的交通目标跟踪数据集Car-MOT中取得了明显优于DeepSORT的跟踪性能。
本文提出的改进算法主要在两个方面对DeepSORT进行改进。下面介绍MF-DeepSORT算法的整体框架,同时对改进和优化的部分进行进一步的介绍。
图1为MF-DeepSORT的整体框架示意图,MF-DeepSORT算法包含两个阶段:目标检测阶段和跟踪匹配阶段。
图1 MF-DeepSORT算法的整体框架
在目标检测阶段,首先采用YOLOv5目标检测模型识别视频每帧的输入图像,筛选得到检测框;然后,检测框通过卷积神经网络模型提取得到深度特征以及提取手工HOG特征,这两种特征被称为检测框的外观特征;最后,将检测框的外观特征及表征其运动特征的位置信息输入跟踪匹配阶段。
跟踪匹配阶段基于目标检测阶段得到运动特征和外观特征,然后与现有跟踪目标预测的运动特征和外观特征分别度量相似度,融合关联矩阵,进行级联匹配;未能完成匹配的检测框与跟踪目标再次执行IOU匹配;通过两次匹配过程,完成当前帧检测框与现有跟踪目标的配对;最后更新跟踪器中跟踪目标的状态标记,并完成卡尔曼滤波器的更新和预测。
为了更好地度量多目标跟踪中的运动特征,本文提出采用检测框与跟踪目标预测框的IOU度量替代DeepSORT算法中的马氏距离度量方式。
在DeepSORT中,检测框与先前跟踪目标预测位置运动特征的匹配程度通过二者的马氏距离来刻画。跟踪目标i与检测目标j的马氏距离d′(i,j)表示为:
(1)
式中,xj和yi分别是检测目标j的观测量和跟踪目标i运动的预测量,而Si代表卡尔曼滤波器的状态协方差矩阵。马氏距离越大,二者间的运动特征差异越大,通过对马氏距离设置阈值门限,来排除错误的关联。
然而这种马氏距离度量仅仅使用到了检测框与跟踪目标的距离关系,不能准确刻画二者的运动信息,当外观特征相似的两个目标接近时,容易导致ID切换问题,同时当跟踪目标被遮挡一段时间后,马氏距离受到卡尔曼滤波预测不确定性增大的影响,难以可靠的度量运动状态。
基于IOU的运动特征度量比马氏距离能够更准确刻画检测框和跟踪目标的位置关系,即运动特征。跟踪目标i预测框Pi与检测目标j的检测框Qj的IOU计算如图2所示,其计算公式为:
图2 跟踪目标预测框Pi与检测框Qj的IOU计算示意图
(2)
IOU(i,j)的取值范围为[0,1],定义跟踪目标i与检测目标j的IOU距离表示为:
dIOU(i,j)=1-IOU(i,j)。
(3)
通过IOU度量的方式,能够更准确衡量检测框与跟踪目标之间的运动特征差异,可以得到运动特征阈值门限矩阵表达式:
bIOU(i,j)=I[dIOU(i,j)≤tIOU],
(4)
式中,I为指示函数,符合条件取1,反之取0。经过实验,tIOU设置为0.9,能够剔除检测框与跟踪目标预测框绝大部分错误的关联,提高跟踪准确性,减少ID切换次数。
为了在跟踪匹配阶段更准确地关联匹配检测框和跟踪目标,本文提出在级联匹配外观特征度量时融合深度特征距离与HOG特征距离。
HOG特征通过统计和计算图像局部区域的梯度方向直方图构成特征,常用于表征物体边缘信息,广泛用于图像识别中,对于检测框的几何形变和光照变化能保持很好的不变性。并且,提取计算图像的HOG特征,计算量小、运算快,对速度性能影响很小。通过引入HOG特征距离融合,能够更好地反映目标的浅层图像特征,提升外观相似度度量准确性、鲁棒性。
在目标检测阶段,将得到的检测框Qj尺寸调整为256×128,输入经过预训练的ResNet-18网络[15],输出得到512维的深度特征Dj。同时,提取检测框的HOG特征,输出8 505维的HOG特征Hj。
图3为级联匹配距离度量的算法结构。其中,深度特征距离和HOG特征距离采用最小余弦距离作为衡量准则,只针对跟踪目标i最近的N帧内的特征计算,可以分别用如下公式表示。
图3 级联匹配距离度量算法结构
(5)
(6)
(7)
(8)
获得外观特征距离dd(i,j)和dHOG(i,j)后,对两种特征距离通过加权平均进行融合,得到融合外观特征距离dF(i,j),计算公式如下:
dF(i,j)=λdd(i,j)+(1-λ)dHOG(i,j)。
(9)
可以调节λ的权重决定外观特征距离更看重哪种特征。通过实验,λ取值为0.85时取得良好效果。
同样,外观特征距离度量也存在阈值门限tF,避免错误匹配,其表达式为:
bF(i,j)=I[dF(i,j)≤tF],
(10)
式中,tF通常设置为0.2。结合式(3)和式(9)两个门限阈值,得到门限函数b(i,j),其计算公式如下:
b(i,j)=bIOU(i,j)∘bF(i,j),
(11)
式中,∘表示矩阵的哈达玛积。融合关联矩阵Ci,j可以由融合外观距离得到,计算表达式为:
Ci,j=dF(i,j)∘b(i,j)。
(12)
将融合关联矩阵采用匈牙利匹配[16]法则进行匹配,获得跟踪目标和检测框之间正确的对应关系。
本文采集并标注了一个含有6个交通场景的视频数据集,并将这个数据集命名为Car-MOT。
Car-MOT包含6个城市交通场景视频序列,从帧率为30帧/s的视频中,每隔5帧提取一帧图像,构成视频序列。在实际应用中,多目标跟踪框架需要对当前图像进行推理,再提取视频当前时刻的图像,构建的跟踪算法处理速度在10~15 帧/s,大约为视频帧率的1/2~1/3,因此构建的Car-MOT符合交通多目标跟踪算法实际应用场景。数据集具体信息如表1所示。
表1 Car-MOT数据集信息
本文采用多目标跟踪评估常用的4个性能指标[17]对算法在Car-MOT数据集的性能做客观评价,分别为多目标跟踪准确性(Multiple Object Tracking Accuracy, MOTA)、多目标跟踪精度(Multiple Object Tracking Precision,MOTP)、ID切换次数(ID Switch,IDsw)、大多数目标被跟踪的轨迹数量(Mostly Tracked,MT)。
其中,MOTA可以统计跟踪中错误指标的积累,反映多目标跟踪器跟踪的准确性能;MOTP表示检测框与真实标注框之间的重合程度,主要与目标检测模型的检测性能有关;IDsw用于衡量跟踪算法对目标跟踪状态的保持能力;MT是指目标被成功跟踪,且路径长度占总路径长度80%以上的数量,进而反映同一个目标在长时间内的跟踪性能。
本文的实验环境基于Ubuntu 16.04操作系统的服务器,同时深度学习架构采用Pytorch 1.7版本。服务器的主要硬件参数为:Intel (R) Core i5-9400F 6核6线程处理器、GeForce RTX 1060 6GB显卡和32 GB内存。
MF-DeepSORT跟踪算法的实验参数设置与DeepSORT算法基本保持一致。跟踪目标初始化帧数为3帧;IOU匹配最大阈值距离为0.7;丢失跟踪最大保留帧数是30;外观特征计算帧数N=100。
目标检测模型YOLOv5使用轻量级模型YOLOv5s,保证最快的检测速度;输入模型的图像大小为640×640;检测框置信度阈值为0.3,保证足够多的检测框数量;YOLOv5中NMS非极大值筛选的IOU阈值为0.5。
表2显示了DeepSORT跟踪算法和MF-DeepSORT跟踪算法及各项改进在Car-MOT交通目标跟踪数据集上消融实验的结果。由表2中数据可知:在Car-MOT数据集中,MF-DeepSORT的两种消融模型在大多数指标中优于DeepSORT跟踪算法,并且最终的MF-DeepSORT各项性能评价指标均优于DeepSORT。具体来看,MF-DeepSORT在MOTA指标上提高了4.839%,达到了62.071%,跟踪的准确性大幅度提高,在IDsw降低了94%,减少到两次,几乎不发生跟踪ID的切换,证明对同一个跟踪目标有很强的保持能力。由此可见本文提出的MF-DeepSORT在交通多目标跟踪数据集上的跟踪性能优于DeepSORT。
表2 MF-DeepSORT与DeepSORT在Car-MOT的消融实验跟踪性能对比
图4和图5直观显示了MF-DeepSORT和DeepSORT在Car-MOT数据集上的跟踪效果。目标密集时,MF-DeepSORT的跟踪精度更高,从图4任务1的第42到第43帧可以看出,DeepSORT算法中,蓝色箭头指向的跟踪ID为30的同一车辆,下一帧跟踪ID切换为22,而在MF-DeepSORT算法中同一车辆保持跟踪ID为24不变,这体现了MF-DeepSORT更好的跟踪保持能力。
图4 任务1中DeepSORT和MF-DeepSORT的性能对比
图5 任务6中DeepSORT和MF-DeepSORT的性能对比
MF-DeepSORT具有更好的环境鲁棒性,图5中跟踪任务6从第30到第31帧时,DeepSORT算法受到树阴光照变化影响,红色箭头指向的同一车辆被赋予了两个跟踪ID,且两个跟踪框与车辆实际轮廓均存在较大差距。而MF-DeepSORT,对同一车辆则能保持正常的跟踪状态,不受影响。由此可知,MF-DeepSORT通过IOU度量运动特征,能够极大程度避免空间上错误的匹配,保持跟踪状态,减少跟踪ID的切换。外观特征度量融合HOG特征距离,能够提升外观特征度量的准确性,提升跟踪精度。
本文针对交通场景下的目标跟踪问题,构建了交通多目标跟踪数据集Car-MOT,同时还提出了一种基于DeepSORT的交通目标追踪算法MF-DeepSORT。MF-DeepSORT引入了HOG特征来表征目标信息,可以提高跟踪匹配准确性,同时MF-DeepSORT采用IOU度量空间位置信息,可以提升跟踪精度。实验证明MF-DeepSORT是一种高效的交通多目标跟踪算法。