多模态视觉跟踪方法综述

2023-02-18 03:06李成龙鹿安东刘磊汤进
中国图象图形学报 2023年1期
关键词:模态深度特征

李成龙,鹿安东,刘磊,汤进*

1.安徽大学人工智能学院,合肥 230601;2.安徽大学计算机科学与技术学院,合肥 230601

0 引 言

视觉跟踪是计算机视觉研究中的前沿和热点问题,在视频监控、智能交通和无人驾驶等领域中有着重要的应用价值。然而,基于可见光成像的视觉跟踪方法受光照变化、雨雪雾等恶劣天气的影响较大,很难满足复杂场景和环境下的应用需求。为了克服可见光成像的局限,学者们引入其他模态数据,包括红外、深度、事件和语言数据,通过协同利用不同模态的互补优势,实现复杂场景和环境下的鲁棒跟踪,对全天时全天候感知有着重要的价值和意义。例如,可见光波段对直径小于2.5 μm的微粒穿透能力差,在雾霾环境下成像质量急剧下降,甚至失效,极大限制了视觉跟踪性能。而红外热像是通过感知场景物体热辐射而形成的,反映了场景物体表面的温度分布,对雾霾穿透能力强,对可见光成像具有较好的补充作用。因此,多模态视觉跟踪受到了越来越多的关注和研究。

多模态视觉跟踪主要包含4个子任务:可见光—红外(RGB and thermal infrared,RGBT)跟踪、可见光—深度跟踪(RGB and depth,RGBD)、可见光—事件跟踪(RGB and event,RGBE)和可见光—语言跟踪(RGB and language,RGBL),如图1所示。与可见光成像相比,其他模态成像具有特定的成像优势和劣势。红外传感器是一种被动成像系统,反映了场景物体表面温度分布,基本不受光线变化、雾霾和雨雪等恶劣天气因素影响,但红外成像分辨率低、易出现热交叉。深度传感器已广泛应用于计算机视觉领域中,与可见光传感器获得图像的颜色信息不同,它可以获得图像的深度信息,反馈的是图像中各像素点和传感器之间的距离信息,能够较好地感知遮挡状态,但深度成像距离近、噪声多且受室外光线影响大。与可见光相机一帧一帧地记录图像内容不同,受生物启发的事件相机以更低的延迟产生异步和稀疏的事件流,可以避免运动模糊,具有更大的动态范围,在快速运动和低照度下能够很好地工作,但事件成像缺乏物体纹理和细节信息。基于语言描述的目标表示方法能够提供更明确的目标语义信息,可以有效增加目标表示的判别能力以及消除矩形框表示的歧义现象,但语言描述无法提供准确的外观细节和定位信息。因此,本文在表1中总结了4种模态的优劣势。可以看出,可见光模态和其他模态具有良好的互补优势。而如何充分挖掘和利用不同模态信息是多模态视觉跟踪领域的核心问题。

图1 可见光和其他模态成像及其互补性示意图

表1 不同模态成像的优劣势

目前,也有一些工作对多模态视觉跟踪方法进行了整理和回顾,如Zhang等人(2020d)对RGBT视觉跟踪方法的发展历程进行了全面梳理,并根据跟踪器框架的不同以及融合层次(如像素级、特征级和决策级)的不同对RGBT视觉跟踪算法进行了划分。Zhang等人(2020b)同时回顾了RGBT和RGBD视觉跟踪方法,并根据辅助模态的作用和跟踪框架的不同对多模态视觉跟踪算法进行了划分。尽管这些工作梳理了一些多模态视觉跟踪方法,但是多模态视觉跟踪不仅包含有RGBT和RGBD跟踪,还包含RGBE和RGBL跟踪,而现有的多模态跟踪综述缺少对这些多模态跟踪方法的介绍。此外,考虑到多模态信息融合是多模态视觉跟踪研究的核心,本文从信息融合的角度对现有算法进行归类和分析,以期帮助读者更容易、更深刻地掌握多模态视觉跟踪领域发展的基本脉络,能够为读者带来更多的启发。

1 RGB视觉跟踪方法

本文仅简单阐述与多模态视觉跟踪方法具有较高相关性的RGB视觉跟踪方法,更全面和深入地介绍可参考相关综述论文。主要将现有RGB视觉跟踪方法分为两大类,即基于传统模型的跟踪方法和基于深度模型的跟踪方法。

1.1 基于传统模型的跟踪方法

1.1.1 稀疏表示跟踪方法

稀疏表示可以有效降低数据维度且减小特征向量各维度之间的依赖性,且稀疏约束可以使得计算后得到的各个基对于解释数据具有同等的重要性,因此,稀疏表示模型成功应用于RGB视觉跟踪中。Mei和Ling(2009)较早地提出了基于稀疏表示的目标跟踪算法。他们引入了一个模板集,将稀疏表示优化转换成一个L1范数最小二乘问题,并采用LASSO(least absolute shrinkage and selectionator operator)算法进行求解,较好地解决了遮挡和噪声带来的问题。受该工作启发,研究者们提出了一系列基于稀疏表示的跟踪算法。例如,Liu等人(2010)提出了一种两步稀疏优化算法,极大提高了跟踪效率。为了进一步提升鲁棒性,Li等人(2012)将Gabor特征引入到基于稀疏表示的目标跟踪算法中,有效地解决了光照变化带来的影响。为了平衡实时性和鲁棒性,侯跃恩等人(2013)提出一种将目标与背景联合稀疏表示的跟踪方法,把稀疏表示模板字典与背景信息相结合,有效地增强了跟踪算法对背景的判别能力。

1.1.2 结构化支持向量机跟踪方法

该类方法基于检测算法,其核心是通过结构化支持向量机将目标样本和背景样本进行区分,从而实现对目标的定位。鉴于支持向量机的良好泛化能力、标签噪声鲁棒性和核函数表示的灵活性,Hare等人(2011)引入结构化支持向量机到跟踪任务中,提出了一种有效的判别式跟踪模型,因其较好的跟踪性能受到了广泛关注。Kim等人(2015)提出了基于空间有序加权特征的结构化支持向量机跟踪方法,通过随机游走模型计算局部图像块的重要性权重,结合加权特征和结构化支持向量机实现稳健跟踪。Ning等人(2016)提出了双线性的结构化支持向量机优化方法和显式特征映射,显著降低了模型计算复杂度。此外,Li等人(2017a)在Kim等人(2015)工作基础上引入动态图模型更为鲁棒的加权特征表示,有效融合了图像块之间的局部和全局关系,并结合结构化支持向量机显著提升了跟踪性能。

1.2 基于深度模型的跟踪方法

1.2.1 深度相关滤波跟踪方法

相关滤波跟踪方法是通过循环矩阵的特性快速学习一个高判别力的相关滤波器,从而快速、稳健跟踪。由于其计算效率高、性能好的特点,引起了研究者的广泛研究,但前期的一些工作仅使用了手工设计特征,处理复杂场景和环境因素的能力有限。一些研究者结合深度特征和相关滤波模型,取得了显著的性能提升。Ma等人(2015)使用多层深度特征训练相关滤波器,有效地利用了多尺度信息,实现了由粗到细的融合和定位。后续有一系列工作研究如何更好地融合不同尺度特征下的滤波器及其预测的响应图(Qi等,2016;Wang等,2018b;Danelljan等,2016,2017;Valmadre等,2017;张艳琳 等,2020)。

1.2.2 分类网络跟踪方法

这类方法一般通过多域卷积神经网络提取出通用的深度特征,然后利用第1帧的正负样本训练域分类器,并通过后续的正负样本进行微调域分类器,从而实现目标实例的有效跟踪。Nam和Han(2016)首次提出基于多域卷积神经网络的RGB视觉跟踪方法,取得了优越的跟踪性能,后续许多研究工作基于该模型进行了拓展。Song等人(2018)引入生成对抗网络生成具有遮挡属性的样本,使得跟踪模型可以更好地应对遮挡挑战。Jung等人(2018)引入感兴趣池化对齐(region of interest(ROI)align)操作,避免了重复的特征提取过程,在保持跟踪性能的同时极大提高了跟踪效率。

1.2.3 孪生网络跟踪方法

该类方法将视频目标跟踪视为匹配任务,通过使用目标模板特征在后续帧中匹配出正确的目标位置。其基本架构是由共享参数的双分支卷积神经网络和互相关层组成,其中双分支网络用以分别提取模板特征和搜索区域特征,互相关层执行相关操作获得目标响应图,响应图上的峰值点就是目标位置所在。Bertinetto等人(2016)较早提出基于模板匹配的孪生网络方法,促进了RGB视觉跟踪领域的快速发展,涌现了一大批基于孪生网络的跟踪算法(Li等,2018a;Zhang和Peng,2019;Xu等,2020;陈志良和石繁槐,2022)等。

1.2.4 IoU优化跟踪方法

为了充分发挥分类网络跟踪方法和孪生网络跟踪方法的优势,Bhat等人(2019)提出了一种多任务跟踪方法,同时执行分类和回归任务。他们首先通过离线训练一个IoU(intersection over union)预测器实现尺度估计,然后通过一个在线训练的分类器来用于目标定位,这种分类和回归两个任务的协同工作有效地提升了跟踪器的鲁棒性。后续也有一些工作对其进行了改进,有效地提升了对目标和背景的判别性(Bhat等,2020)以及对相似干扰物的处理能力(Mayer等,2021)。

1.2.5 Transformer跟踪方法

Transformer的注意力机制可以更好地建模全局依赖关系,在许多计算机视觉任务中都有着很好的应用,在RGB视觉跟踪中也取得了较大的成功。Wang 等人(2021a)利用Transformer 结构建模了不同时刻的时序信息,丰富了跟踪模型中的时序关系。Chen等人(2021)使用Transformer结构替代了孪生网络跟踪方法中的互相关操作,将模板信息融合到搜索区域中,可以更好地进行目标定位和尺度回归。Yan等人(2021a)使用Transformer结构来预测目标的角点进行跟踪,此外还引入了时空信息,可以更好地适应目标的外观变化,进一步提升了基于 Transformer 跟踪方法的鲁棒性。然而,上述这些跟踪器仍然依赖于卷积神经网络提取特征,不能充分发挥Transformer全局建模的能力。为了解决这个问题,Cui等人(2022)使用Transformer结构同时进行特征提取和信息交互,进一步简化了跟踪器的结构,并极大地提升了跟踪性能。

2 RGBT视觉跟踪方法

从信息融合角度,本文把现有RGBT视觉跟踪算法划分为两大类:结合式融合和判别式融合。结合式融合是通过不同的融合方法结合不同模态信息,而判别式融合是挖掘不同模态的判别信息进行融合。图2展示了两类融合方式的过程。

图2 两类融合策略示意图

2.1 结合式融合

现有结合式融合的RGBT跟踪算法可以分为5类:稀疏表示融合、协同图表示融合、模态共享和特定信息融合、基于属性的特征解耦融合以及其他结合式融合方法,下面分别予以介绍。

2.1.1 稀疏表示融合

由于稀疏表示模型具有非常好的抑制特征噪声的能力,因此一些研究者将稀疏表示引入到 RGBT跟踪中,旨在联合建模多模态特征的稀疏表示并抑制特征噪声。这些方法通常将传统贝叶斯滤波框架拓展成多模态贝叶斯滤波框架实现跟踪,其中运动模型和传统方法一致,而似然模型一般是基于融合多模态信息的稀疏表示模型。

Wu等人(2011)首次将稀疏表示模型应用到RGBT跟踪中,他们将可见光和红外粒子(图像块)的特征拼接成1维的特征向量,然后采用稀疏表示方法实现多模态跟踪。Liu和Sun(2012)设计一种联合稀疏表示模型,分别计算每种模态的重构系数,并通过最小化操作融合两种模态的重构系数,然后计算粒子的置信度作为似然分数。Li等人(2016b)提出一种拉普拉斯稀疏表示模型,利用了粒子之间的相似性提高稀疏表示的鲁棒性。Lan等人(2020)设计了一种基于模态相关性感知稀疏表示模型,通过低秩正则化和稀疏正则化分别利用不同模态之间的相关性和自适应选择具有代表性的粒子处理外观变化。

然而,这些方法并没有考虑到模态可靠性对跟踪性能的影响,同时也忽略了前景和背景的判别信息,限制了跟踪算法的鲁棒性。为了解决这些问题,Li等人(2016a)提出了一种协同稀疏表示模型,对不同的模态数据通过传统的联合稀疏表示模型进行建模,同时为每个模态引入一个可靠性权重,实现多个模态的自适应融合。此外,该工作构建了一个RGBT跟踪数据集GTOT(grayscale-thermal object tracking),为该领域的研究提供了一个统一的评价平台。为了增加模态权重计算的可靠性,Li等人(2017b)设计了一种多任务拉普拉斯稀疏表示模型,利用图像块之间的相似性优化稀疏系数。为了克服遮挡、嘈杂背景等因素的影响,Lan等人(2019a)研究了如何有效地从潜在污染样本中学习可靠的多模态稀疏表示,并将非负约束引入优化框架,增强了模型鲁棒性。

尽管这些稀疏表示融合方法在抑制特征噪声方面表现良好,但是由于稀疏表示模型的在线优化比较耗时,导致这些算法大都不能满足实时性要求,且该类模型一般基于像素的特征表示,对复杂场景和环境具有较差的鲁棒性。

2.1.2 协同图表示融合

基于图模型的视觉跟踪方法能够较好地抑制嘈杂背景对特征表示的影响,受到了一定的关注。这类方法一般是将样本区域划分成多个不重叠的图像块,把图像块的颜色和梯度特征连接在一起作为该样本的特征表示,然后在结构化支持向量机跟踪框架进行跟踪。但该特征易受背景成分的影响,为此,学者们通过为每个图像块分配一个权重抑制背景块的影响,并以图像块为图结点构建图模型,优化图像块权重的计算。基本流程如图3(Li等,2018c)所示。在RGBT跟踪中,学者们主要考虑如何设计鲁棒的协同图模型,有效利用多模态信息提高权重计算精度和鲁棒性。

图3 基于跨模态排序算法的RGBT跟踪流程图(Li等,2018c)

Li等人(2017c)首次将图模型应用到RGBT跟踪中,提出了加权稀疏表示正则化协同图模型,联合优化模态权重、稀疏表示系数、图结点相似性和图结点权重。进一步,Li等人(2019a)提出了一种基于种子点稀疏优化的协同图模型,通过L1范数约束权重变量和种子点权重的关系,以此降低噪声种子点的影响。为了同时考虑模态间的协同性和异质性,Li等人(2018c)设计了跨模态排序图模型,引入了模态之间的跨模态软一致性有效融合多模态信息。Li等人(2022a)改进了跨模态排序图模型,通过分离不同特征(颜色和梯度特征)的排序过程,在多任务学习框架下实现更为精准的权重计算。为了联合利用局部信息和全局信息,Li等人(2019c)提出了一种局部—全局多图模型,通过利用全局和局部线索挖掘多模态图像块之间的内在关系,实现多模态信息的协同融合。为了提高对初始化权重的鲁棒性,Li等人(2018d)提出了一种两阶段排序模型,通过第1阶段的排序结果重新初始化结点权重,以此降低初始化权重的噪声影响。Shen等人(2022)提出了一种协同低秩图模型,将输入特征分解成低秩特征部分和稀疏噪声部分,利用协同图学习算法对其进行动态更新。Lan等人(2019c)提出了一种稀疏正则化锚点协同图模型,通过图结点亲和性的学习构建锚点协同图,进而设计了标签预测模型,通过少量标注样本准确预测样本标签。

协同图表示融合模型使用局部特征表示目标,能够对目标变形、部分遮挡等挑战有着较好的鲁棒性,且通过权重抑制背景成分影响,能够较好地应对嘈杂背景等因素。但这类算法一般需要迭代优化多个变量,因此具有较差的跟踪效率。此外,虽然使用了颜色和梯度特征,相对于稀疏表示融合方法有了较高的表示能力,但与深度特征相比,这类方法的表示能力仍旧较弱。

2.1.3 模态共享和特定信息融合

一些学者设计专门的网络协同提取模态共享和模态特定信息,以此提高多模态特征的表征能力,然后结合模态共享和特定特征实现鲁棒的视觉跟踪(Lu等,2021)。通过在特征提取阶段构建不同的子网络分别提取模态共享特征和模态特定特征。

Li等人(2019b)提出一种多适配网络,包括通用适配模块、模态特定适配模块和实例适配模块,分别提取模态共享特征、模态特定特征和实例感知特征。具体地,通用适配模块使用多模态数据学习模态共享表示,模态特定适配模块则分别利用单模态数据学习模态特定表示。通过渐进式训练策略实现了对多模态特征的解耦建模,有效提升了多模态特征的表征能力。此外,实例适配模块通过在线更新机制能够有效应对目标及其周围环境的动态变化。为了更好地解耦模态共享和模态特定特征,Lu等人(2021)进一步设计了基于多核均方差函数的层级差异损失,以监督模态共享特征和模态特定特征的解耦学习,提升模型判别能力。具体地,该方法通过在多个层级上施以最大均值方差损失约束,最大化模态共享特征和模态特定特征之间的分布差异,同时最小化模态共享特征分布距离。此外,该方法在实例适配模块中引入在线的模态权重预测网络实现了更鲁棒的自适应融合。类似地,Peng等人(2021)提出了一种具有耦合滤波器的双流卷积互补特征融合网络,有效提取红外和可见光图像之间的共享特征和特定特征。

尽管模态共享和模态特定信息融合方法提供了一种有效和通用的多模态结合式融合框架,但在模态特定特征学习中缺少模态间信息交互,一定程度上限制了融合性能。

2.1.4 基于属性的特征解耦融合

深度跟踪模型往往依赖大规模标注数据,且很难克服多种多样的挑战因素。Qi等人(2019)提出了一种基于属性表示学习的跟踪算法,通过基于属性的多分支网络学习目标相应属性的特定表示,可以有效解耦目标外观的建模过程,达到仅需少量参数就可以有效学习复杂目标外观变化的目的,并克服了对大规模训练数据的依赖。借鉴该解耦的方式,一些学者提出了基于属性的多模态特征解耦融合算法, 一般采用多阶段训练方法建模不同属性的参数,如图4所示。

Li等人(2020)提出了一种挑战感知网络,实现适用于RGBT跟踪任务的解耦框架。具体地,针对可见光和红外数据既面临着共同的挑战(如快速运动、遮挡和尺度变化等挑战),又面临着特定的挑战(如光照变化和热交叉等挑战),Li等人(2020)设计了一些参数共享的挑战感知分支解决模态共享挑战和一些参数独立的挑战感知分支解决模态特定挑战。由于模态特定挑战通常包含模态互补信息,因此还设计了指导模块显式地将较好模态的判别性信息传播到较差的模态中,有效增强了较差模态的特征判别能力并抑制噪声。此外,针对跟踪过程中挑战不可知的问题,他们还设计了一种自适应聚合模块融合所有挑战感知分支的输出结果,学习过程如图4所示。由于这些挑战感知分支能够在特定挑战下对目标外观进行建模,因此即使在训练数据不足的情况下,也可以有效地学习目标表示。

图4 基于属性的特征解耦融合网络模型及渐进式学习策略

然而上述工作只考虑了5种特殊的挑战,而真实场景会包含更多的挑战因素。为了解决这个问题,Zhang等人(2021b)提出了一种自适应属性驱动表示的RGBT跟踪算法,设计了一个通用分支学习其他挑战因素下的特征表示。为了训练这些不同的属性分支,他们设计了一种数据生成策略,为每种属性生成对应的训练数据,并设计了一种属性集成网络,在通道级和空间级进行自适应聚合,以适应属性不可知的跟踪过程。考虑到融合过程的复杂性,Xiao等人(2022)通过属性信息解耦融合过程,提出了一种基于属性的渐进式融合网络,设计了参数独立的属性融合分支来捕捉不同属性下的多模态融合方式,设计了一种基于注意力机制的挑战聚合模块来自适应地聚合不同挑战下的特征。考虑到Transformer可以捕捉全局信息,他们设计了自注意力增强模块,用于增强聚合特征和主干网络特征,并使用交叉注意力将聚合特征以更有效的方式与主干网络特征进行自适应融合。

基于属性的特征解耦方法提供了一种有效的目标表示方式,并克服了对大规模训练数据的依赖。但在实际应用中,挑战属性是多种多样的,如何充分挖掘属性信息实现更为精准的目标表示,以及设计合适的网络分支建模不同属性下的目标表示还有待进一步探索和研究。

2.1.5 其他结合式融合方法

多模态信息的像素级融合可以直接使用单模态跟踪方法实现跟踪过程。Schnelle和Chan(2011)利用13种空间域和基于金字塔的像素级融合算法融合可见光和红外图像,提高了现有视频监控系统的跟踪性能,并采用基于背景减法的算法进行目标定位。Chan和Schnelle(2012)在此基础上进一步进行了研究,使用13个基于像素的图像融合算法进行图像融合,确定了5种可以显著提升跟踪性能的基于金字塔的方法,并在后续的工作中分析了这些融合方法的计算效率。然而,像素级融合要求严格配对多模态数据,且很难充分挖掘多模态有效信息。为了验证像素级、特征级和决策级融合的有效性,Zhang等人(2019a)提出了一种端到端的多模态融合跟踪算法,采用数据生成策略解决训练数据不足问题,通过对比不同融合策略的跟踪结果,最终采取了在特征级融合多模态特征,并在国际权威的目标跟踪比赛VOT2019中RGBT跟踪赛道获得冠军。

由于相关滤波模型具有速度快、性能高的特点,因此一些学者在该框架下研究RGBT跟踪算法。Wang等人(2018b)首次将相关滤波方法引入到RGBT跟踪任务,提出了一种软一致性相关滤波算法,充分考虑了多模态数据之间的协同性和异质性,并设计了一种加权融合机制来预测最终的响应图。Zhai等人(2019)利用低秩约束联合学习不同模态的相关滤波模型,实现模型的协同学习,对光照变化和恶劣天气等挑战具有很好的鲁棒性。Feng等人(2020)提出了一种自适应时空正则化相关滤波模型,采用自适应加权融合方法和多尺度搜索机制,实现了决策级的多模态信息融合。Yun等人(2019)提出了一种判别融合相关滤波模型,通过有效地融合可见光和热红外模态的特征及响应图提高跟踪性能。基于相关滤波的RGBT跟踪算法虽然具有较快的跟踪速度,但由于一般使用传统特征,因此性能相对深度模型还有很大的差距。

2.2 判别式融合

结合式融合方法通过结合不同模态的所有信息融合多模态数据,但也往往会带来特征的冗余和噪声。而判别式融合方法旨在挖掘每个模态的判别性信息,通过仅聚合判别性信息降低了特征冗余和噪声,实现多模态数据的有效融合。现有判别式融合的RGBT跟踪算法可以分为4类:特征选择融合、基于注意力机制的自适应融合、双向增强融合以及其他判别式融合方法。

2.2.1 特征选择融合

特征选择融合方法通过一些准则选择多模态判别性特征用于视觉跟踪。一方面避免了数据噪声干扰,有利于提高跟踪性能;另一方面消除了数据冗余,有利于提高跟踪效率。

Li 等人(2018b)提出了一种基于双流卷积神经网络的RGBT跟踪算法,通过双流卷积网络用于提取不同模态的深度特征,通过选择融合网络选择判别性特征、去除冗余和噪声特征,用于后续跟踪。其中,特征图的重要性是根据训练过程的损失变化大小定义的。不同于上述方法,Zhu等人(2019b)提出了基于自适应剪枝策略的融合方法,通过一种多模态协作的方式来修剪所有模态的联合特征,并采用全局平均池化和加权随机选择操作对每个通道进行打分,最后通过一种硬选择机制保留高分数的特征通道,以此去除特征冗余和噪声。进一步,Zhu等人(2022)将该剪枝策略分别应用于单模态分支和多模态融合分支,在更充分利用所有模态特征的同时消除了特征冗余和噪声。

判别性特征选择的标准是这类方法的关键,现有基于损失函数变化大小和损失函数驱动的选择算法由于选择标准的精准度和鲁棒性问题,往往会去除有用信息,尽管显著降低了计算开销但也限制了跟踪性能。

2.2.2 基于注意力机制的自适应融合

不同模态数据包含的信息量和判别性都是不同的,如何挖掘和利用有用信息、抑制噪声信息对于 RGBT 跟踪是非常重要的。最有代表性的一类方法是通过注意力机制计算数据的可靠性,包括模态可靠性、空间可靠性和通道可靠性,从而实现多模态信息的自适应融合,有效抑制数据噪声。基于注意力机制的自适应融合基本流程如图5所示。

图5 基于注意力机制的自适应融合示意图

早期工作一般通过单类型注意力机制实现自适应融合,Zhu等人(2019a)提出了一种质量感知特征聚合网络,同时考虑了不同模态的可靠性和不同层特征的可靠性,对多层深度特征进行自适应聚合。

为了建模简单样本与困难样本之间的关系,Tu等人(2022)提出了一种多模态多边界度量学习框架,通过探索和利用简单正样本、简单负样本、困难正样本和困难负样本之间的关系提升特征的鲁棒性,并设计了一个基于注意力机制的质量感知聚合模块。为了提高算法实时性,Zhang等人(2019b)在多模态孪生跟踪模型中引入了基于注意力机制的特征融合网络,用不同模态的响应图计算不同模态的可靠性权重。进一步,Zhang等人(2020e)提出了一种基于动态孪生网络的多层融合跟踪算法,利用注意力机制计算多层特征的可靠性权重,实现多层次多模态特征的自适应融合。

然而,上述方法只考虑了模态可靠性,虽然能够抑制噪声模态的影响,但也会抑制模态中的判别信息,因此,一些学者通过引入通道注意力和空间注意力凸显更为细粒度的判别性特征。Gao等人(2019)提出了一种渐进式的深度自适应融合网络,通过基于通道注意力机制的自适应融合模块估计不同模态特征不同通道的可靠性权重,有效地降低了特征噪声和冗余信息。Zhang等人(2021c)进一步考虑了空间位置注意力对多模态信息融合的影响,提出了一个基于空间注意力机制的多模态融合网络,估计不同模态响应图不同空间位置的可靠性权重。

为了进一步挖掘注意力机制在多模态信息融合上的潜力,一些学者使用混合注意力机制,实现鲁棒的多模态信息融合,并广泛应用于 RGBT 跟踪网络中。Xu等人(2022)提出了一种基于通道注意力和空间注意力的多模态跨层双线性池化的RGBT跟踪算法,使用通道注意力实现多层特征通道的统一,然后通过基于空间注意力机制的质量感知融合模块预测两个模态特征中每个空间位置的可靠性权重,自适应地聚合不同模态不同层交互的双线性池化特征。Zhang等人(2022a)提出了一种多层级多模态融合跟踪算法,同时考虑了基于分布约束的互补图像融合、基于通道注意力的判别特征融合和基于空间注意力的自适应决策融合,进一步提升了跟踪性能。

2.2.3 双向增强融合

特征选择融合和基于注意力机制的融合方法可以分别看成硬选择和软选择策略,而选择策略有可能会抑制一些有用信息。例如,为每个模态进行可靠性加权,那么该模态的所有特征都将被削弱。为此,一些学者通过双向增强融合策略避免有用信息的抑制,主要是利用一个模态的判别性信息增强另外一个模态的特征,同时会抑制该模态的数据噪声。

Zhang等人(2022b)设计了一种互补感知的多模态特征融合网络,通过权重生成模型选择一个模态的判别性特征,利用元素级相加的方式将判别性特征传播到另一个模态中。Mei等人(2021)提出了一种层级双传感器交互网络,通过设计数据编码模块和特征交互模块实现模态互增强。特征交互模块结合两个模态的特征计算可靠权重,以选择每个模态的判别性特征,然后采用元素级相加方式实现模态互增强。Zhang等人(2020a)提出了一种基于模态感知的注意网络,通过跨模态融合子网络引导多模态判别性特征的充分交互,然后通过元素级相加将交互特征传播到原始特征上,增强各个模态的特征表示。Wang等人(2020a)基于自注意机制设计了一个跨模态模式传播模块,该模块首先对两个模态特征执行自相关注意力操作,获得每个模态的自相关关系矩阵,而后在两个关系矩阵中执行融合操作,以实现模态间的互增强。此外该方法还引入时间域信息,通过长时上下文传播模块进一步增强当前的模态特征。为了充分利用低质量模态判别性信息,Lu等人(2022)提出了一种对偶门控互条件网络,通过对偶门控模块提取模态判别性特征,对另一个模态特征学习进行指导,同时通过双门控机制过滤冗余和噪声信息。这类方法虽然取得了较好的跟踪性能,但模型稍显复杂,跟踪效率偏低。

2.2.4 其他判别式融合方法

以上判别式融合方法均是基于深度学习框架的,而一些学者在传统跟踪框架中也探索了判别式融合方法。Lan等人(2018)提出了一种判别性学习框架,在统一的计算模型中联合优化特征表示、可靠性权重和分类器,从而使这3个学习任务相互受益,获得更好的性能。为了缓解模态差异问题,Lan等人(2019a)提出了一种模态一致性的稀疏表示模型,并通过引入特征判别性一致性约束,实现多模态信息的协同建模和判别。

基于传统模型的判别式融合方法尽管一定程度上解决了RGBT跟踪中的部分挑战,但其跟踪性能难以与基于深度学习的多模态视觉跟踪方法相比,而且这类方法往往会涉及较为复杂的迭代优化过程,使得跟踪效率偏低。

2.3 融合策略总结和比较

得益于可见光和红外的强互补优势,当前的RGBT跟踪领域引起了众多学者的关注,并得到了快速发展。尽管各种多模态融合策略可以解决多模态跟踪的一些问题,但是这些方法都有着各自的优缺点。因此,本文在表2中总结了当前主流融合方法以及它们优缺点的比较。

表2 主要RGBT跟踪方法总结与优缺点比较

2.4 RGBT跟踪数据集

大规模数据集对RGBT视觉跟踪领域有着至关重要的作用,一方面可以帮助训练深度学习算法,另一方面可以综合评价不同跟踪器的性能,有效促进该领域的研究和发展。Li等人(2016a)提出了第1个大规模RGBT视觉跟踪数据集GTOT,包含有50对不同场景和条件下的RGBT视频序列,并提供了7种挑战属性标注,用来评价算法在不同挑战属性下的性能。为了进一步丰富RGBT视觉目标跟踪数据集的多样性,Li等人(2017a)提出了一个更大规模的RGBT视觉跟踪数据集RGBT210,包含有210对RGBT视频序列。然而,RGBT210数据集的标注不够精细。为了解决这一问题,Li等人(2019a)对其进行了改善,提出了更大规模的RGBT跟踪数据集RGBT234,并提供了12种挑战属性标注。虽然上述3个数据集对于评估不同算法的性能已经足够大,但是还不能满足深度跟踪器对大规模训练数据的需求。为了解决这一问题,Li等人(2022a)提出当前最大规模的RGBT跟踪数据集LasHeR,提供了1 224对RGBT视频序列,并标注了19种挑战属性,这将有利于推动RGBT跟踪领域的方法研究。此外,Zhang等人(2022a)提出了面向无人机平台的RGBT跟踪数据集VTUAV(visible-thermal unmanned aerial vehicle),并提出了RGBT长时跟踪问题,这为RGBT领域拓展了新的研究空间。为了更为清晰地理解不同数据集的特点,本文在表3中总结了主流RGBT跟踪数据集的细节。

表3 RGBT跟踪数据集比较

3 其他多模态视觉跟踪方法

除了RGBT跟踪任务,多模态视觉跟踪还包括RGBD跟踪、RGBE跟踪和RGBL跟踪。由于这些领域的研究相对较少,因此本文将简要阐述这3种多模态视觉跟踪任务的研究进展。

3.1 RGBD视觉跟踪

RGBD 跟踪是引入与可见光图像对应的场景深度图,有效克服可见光模态的局限性,从而提高跟踪鲁棒性。特别是在低光照和遮挡情形下,深度图能够更好地跟踪目标,并推理目标的遮挡状态,如图6(Liu等,2019)所示,图中,中间一列表示特征响应,最后一列表示通过深度信息感知遮挡状态。2012年,García等人(2012)提出了第1个RGBD跟踪方法,通过浓缩算法融合了灰度特征、颜色特征和深度图特征,用以区分前背景目标。2013 年,Song和Xiao(2013)提出了第1个大规模RGBD数据集,包含了100条配对的RGB和深度视频序列,引起了计算机视觉领域研究者的广泛关注。在早期RGBD跟踪研究中,通常是针对单模态跟踪器的拓展展开的,通过从深度图中获取手工设计特征或跟踪结果,解决特定挑战下的跟踪问题。例如,Hannuna等人(2019)基于现有的该相关滤波算法(kernel correlation filter, KCF),联合颜色和深度线索实现鲁棒跟踪,同时利用深度数据调整目标尺寸。尽管最近的工作引入深度学习技术,但大都基于现有单模态跟踪器的拓展。本文大致将当前RGBD跟踪方法分为两类:早期融合和后期融合,下面予以分别介绍。

图6 RGBD目标定位示意图(Liu等,2019)

早期融合是指在像素级和特征级实现两种模态的信息融合。基于像素级融合的RGBD跟踪算法(Liu 等,2019;Kart 等,2019;Xie 等,2019;Gutev和Debono,2019)通常是将深度图和可见光图像形成一种四通道输入,然后使用单模态跟踪算法实现目标跟踪;基于特征级融合的RGBD跟踪算法(Wang 等,2020b;Bibi 等,2016;Meshgi等,2016;Ma和Xiang,2017;Xiao 等,2018;Liu 等,2020;Zhao 等,2020;Yan 等,2021b)通常是对深度图和可见光图像分别提取手工特征或者深度特征,然后进行特征融合,并利用融合特征进行跟踪。例如,Wang等人(2014)同时结合光流、颜色和深度图特征预测目标位置。此外,基于深度跟踪框架ATOM(arate tracking by orlap maximization)和DiMP(discriminative model prediction),Yan等人(2021b)提出了一种双流网络,通过构建一个额外的深度网络分支提取两种模态的深度特征。

在RGBD跟踪领域中,大部分研究者更侧重于在跟踪结果中进行修正式融合,也称为后期融合。一些研究算法通过使用深度模态的几何或深度先验信息来修正当前RGB跟踪器的结果,这在早期的工作中得到广泛使用(Zhong 等,2015;Chen 等,2015;Shi 等,2015;Kart 等,2018;Zhai 等,2018;Ding和Song,2015)。Shi等人(2015)提出使用来自可见光和深度图像HoG(histogram of oriented gradient)的检测结果,联合可见光和深度图像各自的跟踪结果,并以加权融合的方式聚合上述结果。此外,根据深度图像的直方图判断当前帧遮挡情况,从而对聚合后的跟踪结果进行修正。为了进一步解决跟踪中的遮挡问题,Zhai等人(2018)提出了一种基于深度图像和定向梯度直方图特征的目标遮挡判断机制,并利用相关最大似然估计粒子滤波器算法,建立了目标预测—跟踪—优化—再检测的跟踪机制,极大地提升了模型在遮挡场景中的跟踪性能。类似地,Ding和Song(2015)同样使用深度直方图来判断是否发生遮挡,但是额外引入了基于深度图像的分割图重新定位目标。

在RGBD多模态视觉跟踪中,由于深度模态的成像质量的限制,现有的大多数 RGBD 跟踪工作仍然以深度模态作为一种辅助的信息使用。无论是早期融合或者后期融合,通常聚焦于挖掘深度模态图像的几何或空间性质,获得跟踪目标的先验信息。然而缺乏对深度模态特征信息的充分挖掘,这限制了该领域的基于多模态信息融合的跟踪方法的发展。

3.2 RGBE视觉跟踪

事件相机由于其低延迟、高动态范围的特点,使得异步跟踪成为可能。为了解决可见光相机存在的运动模糊问题,一些学者联合可见光和事件相机的信息流,实现更可靠的跟踪结果,图7(Wang等,2022)展示了4个典型场景下可见光和事件信息的互补优势。为了提供统一评测基准,Liu等人(2016)构建了一个小规模RGBE跟踪数据集 Ulster,并提出了一个基准方法。他们将跟踪过程分为3个步骤:1)使用聚类的跟踪方法和事件相机数据生成感兴趣区域;2)使用卷积神经网络和可见光数据将这些感兴趣区域划分为前景和背景;3)使用粒子滤波从这些感兴趣区域推断出目标的位置。为了获取更丰富的事件数据,Hu等人(2016)在现有跟踪数据集的基础上生成对应的事件流,构建了一个大规模RGBE跟踪数据集VOT-DVS(visual object tracking dynamic vision sensors)和TD-DVS(tracking dataset dynamic vision sensors),可以应用于目标跟踪、行为识别和目标识别等领域。

图7 不同挑战因素下的可见光成像和事件成像优势(Wang等,2022)

早期的RGBE跟踪方法通常是提取RGB的特征,然后利用事件流辅助检测和跟踪,如Tedaldi等人(2016)提出的基于迭代的几何配准方法、Kueng等人(2016)提出的基于事件的视觉测程算法和Gehrig等人(2018,2020)提出的最大似然生成事件模型等。

为了更充分融合多模态信息,Huang等人(2018)提出了一种基于支持向量机的事件引导跟踪模型,利用在线自适应区域搜索实现更准确的目标定位,利用事件数据和可见光数据重建样本以实现多模态信息融合。Yang等人(2019)设计了一种时间互补滤波器和注意力机制联合处理可见光数据和事件流,并构建了一个更大规模的RGBE跟踪数据集NFS-DAVIS(need for speed-dynamic and active pixel vision sensor)。

随着深度学习技术的发展,一些学者也探索了基于深度学习的RGBE跟踪框架,并取得了较好的跟踪效果。Zhang等人(2021a)提出了一种跨域注意力机制实现特征增强,并设计了一种加权方案自适应地平衡两种模态的贡献,能够有效地、自适应地融合两种模态的有效信息。此外,他们也提出了一个大规模RGBE跟踪数据集FE108。为了进一步推进RGBE跟踪领域的发展,Wang等人(2022)构建了一个更为完善的RGBE跟踪数据集VisEvent,并提出了一种基于跨模态Transformer的多模态信息融合方法,以实现可见光数据和事件数据之间更有效的特征融合。

在RGBE视觉跟踪中,由于可见光和事件数据格式的不同,为了实现多模态信息融合,现有做法通常将事件流转换为事件图像,这不可避免地带来了信息损失,对事件流数据进行有效建模,进而挖掘可见光和事件流数据的互补优势,对提升RGBE跟踪器的性能具有重要意义。此外,由于可见光和事件相机捕获信息的频率不同,在跟踪中关联可见光和事件相机的信息存在着很大的挑战。

3.3 RGBL视觉跟踪

RGBL跟踪是通过在第1帧中引入额外的对跟踪目标的语言描述,结合目标的RGB图像来执行后续的跟踪任务。Li等人(2017d)提出这一研究问题的一个基准算法LSNet,并且该工作基于现有的跟踪数据集OTB(object tracking benckmark)构建了第1个RGBL数据集Lingual OTB99,其中跟踪示例如图8(Li等,2017d)所示。

图8 RGBL跟踪过程示例(Li等,2017d)

图像和语言模态之间存在较大的差异,现有RGBL跟踪方法(Yang 等,2021;Wang 等,2021b)主要是将目标的两种模态特征进行融合,通过充分利用模态间的互补信息丰富目标表示。Yang等人(2021)提出了一个多任务学习框架,将RGBL跟踪解耦成3种子任务:视觉定位、跟踪和融合,从而实现在第1帧跟踪框缺失条件下的鲁棒跟踪。此外也有一些工作(Feng 等, 2021a,b)关注于后期融合。Feng等人(2021a)通过共享搜索分支,将语言和图像分布作为模板分支分别进行跟踪,然后聚合两者的响应图获得最后的跟踪结果。

在RGBL多模态视觉跟踪中,由于其图像和文本间的巨大差异,现有的工作通常都集中于特征空间中的多模态融合方法。此外在对目标描述中,静态的文本模态和动态的图像模态之间的不一致性对该领域是一个重要的挑战,但是鲜有探索。

4 结 语

本文对RGBT,RGBD,RGBE,RGBL不同的多模态视觉跟踪方法进行了总结和分析。由于目前主流的多模态跟踪方法是基于RGB和热红外数据,所以本文从数据融合的角度详细阐述了RGBT视觉跟踪方法,并简述了其他3种多模态跟踪算法的研究进展。

4.1 工作总结

基于对现有研究工作的梳理,RGBT视觉跟踪方法可以归纳为结合式融合和判别式融合两大类。其中,结合式融合的研究可以分为两个阶段,早期研究者聚焦于稀疏表示融合和协同图表示融合,这些工作对RGBT跟踪的研究有着重要的推动意义。但是,这些方法受限于较弱的特征表示能力导致跟踪性能不佳。随着深度学习技术的发展,当前结合式融合方法得到了更深入的研究。例如,基于模态共享和模态特定信息融合策略以及基于属性的特征解耦融合策略,通过充分利用数据驱动的解耦表征学习模式极大提升了RGBT跟踪性能。然而这些方法往往依赖于对训练数据的人工划分和标注。基于判别式融合方法的RGBT跟踪研究工作在深度学习时代兴起并取得极大的关注。特征选择融合策略和基于注意力机制的自适应融合策略是多模态融合领域中常用的融合方法并在许多领域都取得了一定的成功,然而在RGBT跟踪中由于跟踪场景和模态质量都是不断变化的,现有的研究工作往往侧重于抑制低质量或者低贡献的模态信息,限制了跟踪性能的进一步提升。为此,一些研究者探索了在模态质量分布差异场景下的多模态融合算法,即双向互增强融合策略。该类方法通过引导不同质量下模态的判别性信息进行双向增强模态特征表示能力。尽管判别式融合的跟踪算法取得了较好的性能表现,但是在融合方法的设计上往往会引入较为复杂的融合模块,对跟踪效率有着较大的影响。尽管其他多模态视觉跟踪任务也取得了较快的发展,但研究工作相对较少,对相应模态信息(如事件模态和语言模态)的挖掘和利用还有较大的空间。

4.2 未来展望

尽管多模态跟踪领域发展蓬勃,跟踪性能得到了极大的提升,但还存在着一些问题亟待解决,主要包括以下几点。

1)复杂多模态数据。真实场景和环境中,多模态数据复杂多样,具有不确定性、不一致性和数据噪声,如何充分挖掘和利用多模态信息建立有效融合模型仍是多模态视觉跟踪中的非常关键而具有挑战的问题。

2)非配准数据。现有多模态跟踪方法大都需要高精度配准的多模态数据。然而,人工配准的代价十分昂贵,且人工或设备配准仍无法保证完全配准。因此,研究非配准数据下的多模态视觉跟踪模型有着重要意义和应用价值。此外,如何利用非配准数据或者非配对数据实现多模态视觉跟踪模型的训练也是值得探索的研究方向。

3)模态缺失问题。在真实应用场景中,由于成像设备等问题,某些模态往往会存在缺失现象。而现有多模态视觉跟踪方法是在数据完整的前提下进行的,无法处理模态缺失的问题。因此,研究适应各种缺失情形的多模态视觉跟踪模型有着重要的价值。

4)无监督多模态融合。现有多模态跟踪方法通常依赖大规模标注的训练数据,具有较大的人工标注和配准成本,且现有的多模态跟踪数据集难以满足深度模型的需要,导致跟踪模型对新场景的适应能力弱。因此,如何设计无监督多模态融合方式,实现对大规模无标注多模态数据的充分利用,对提升跟踪模型的适应能力和泛化能力具有重要的研究价值。

5)融合模型轻量化。现有多模态视觉跟踪方法为了充分挖掘多模态信息,设计了较为复杂的多模态融合模型,但也带来了较大的计算量和存储负担,无法在实时应用场景和嵌入式设备上部署。因此,如何设计轻量化、高精度多模态融合模型是未来研究的一个方向。

6)辅助模态学习。现有视觉系统大多基于单一模态成像,且嵌入多模态成像设备往往带来较大的成本和代价。因此,研究多模态数据训练、单模态数据测试的辅助模态学习算法,在不增加额外代价的基础上有效提高视觉跟踪算法鲁棒性有着重要的价值和意义。

7)更多模态集成。目前的多模态视觉跟踪方法均是针对两种模态(RGB和其他模态)进行研究的,而不同模态对不同场景和环境的作用会有较大差异。因此,集成更多模态信息对多模态视觉跟踪系统的鲁棒性和适应性会有较大的帮助,是未来值得研究的一个方向。

8)统一平台构建。目前,多模态视觉跟踪的研究相对散乱,缺乏统一的数据集和评测平台,为相关研究带来极大不便,不利于该领域的研究和发展。因此,构建多模态视觉跟踪的统一平台,是该领域研究和发展的迫切需求。

猜你喜欢
模态深度特征
基于BERT-VGG16的多模态情感分析模型
根据方程特征选解法
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
深度理解一元一次方程
不忠诚的四个特征
深度观察
深度观察
深度观察
抓住特征巧观察