肖 刚,冶 平,张星辰,刘 骏,2,贡 克
(1.上海交通大学航空航天学院,上海 200240;2.四川轻化工大学自动化与信息工程学院,四川 宜宾 644000)
目标跟踪是计算机视觉领域重要研究内容之一,在军事领域和民用领域具有广泛的应用基础和前景,例如战场目标检测、跟踪和识别,情境感知,态势评估,机场导航,人类视觉辅助等。然而,受到图像传感器综合及融合算法、高性能处理硬件成本的制约,目前的图像跟踪系统普遍采用单传感器或同类多传感器作为信源[1]。由于单视觉传感器提供的数据单一,存在视场有限,无法获取目标的距离、空间信息等问题,无法应对复杂多变的应用场景,所以往往很难保证一致稳健跟踪;而同类多传感器虽然能部分弥补单传感器因成像视场局限性造成的不足,但仍旧受成像机理的制约,很难同时兼顾分辨率、定位精度、穿透力(如烟、雾、雨、霾、低能见度)和灵敏度等性能要求[2]。即使改良目标检测与跟踪算法弥补了这些缺陷,但收效甚微。因此,为了满足全天候、全天时观测条件下对目标检测与跟踪系统的实时性、稳定性、可靠性要求,弥补基于单一传感器在对运动目标检测、跟踪、识别的信息不确定性[3],将多种传感器进行数据融合十分必要,以实现信息互补,最大程度优化数据,为后续工作提供决策依据。
复杂背景下的多源异构图像融合跟踪是一个典型的复杂随机非线性动态系统估计问题。首先,在动态图像中,当运动目标状态信息和观测环境信息均不完备的情况下,需要建立目标检测模板,定义目标特征信息;其次,统一主、被动传感器之间配置参数,需要将包括文字、坐标、距离、图像等多种异构信息表征为数学模型;再次,将目标先验信息、背景属性与目标特征信息综合,实现鲁棒跟踪;最后,确立融合跟踪的决策机制和性能评估办法,构建完整的性能评估方法和优化综合决策。近年来,多源异构图像鲁棒融合跟踪成为智能信息处理与信息融合领域的交叉研究热点,具有十分重要的研究意义。
本文将总结近年来多源异构图像融合跟踪的研究进展,从目标跟踪,图像融合,多源异构图像融合跟踪,异构信息的表征,基于深度学习的图像融合跟踪研究现状几个方面进行论述,并分析该领域的未来的发展趋势。
基于视频图像的目标跟踪是对图像序列中运动目标的位置和形状进行估计。动态图像跟踪过程存在目标遮挡,目标尺度变化,先验信息缺失,观测环境天气和光照变化以及跟踪实时性等问题,是个颇具挑战研究课题。
根据目标表观的描述和更新策略,可将目标表观模型算法分为生成式(Generative Model)和判别式(Discriminative Model)两类。生成式模型算法包括基于目标模板的跟踪方法,无参的概率建模方法,有参的概率建模方法,基于子空间表示方法;判别式模型即基于分类器的目标跟踪方法,将目标与背景分离,目标信息作为正样本,背景信息作为负样本。这两种模型在某种程度上相辅相成,有学者提出[4-5]将两者的信任度进行加权,或者两种方法序贯进行,使用混合型方法获得目标表观的变化。
搜索目标位置的方法可分为确定性方法和随机方法等。Mean shift 算法[6]是确定性目标跟踪方法中经典方法之一,它的理论基础是核密度估计。该过程是利用梯度下降算法寻找使相似度最大的方向,根据目标颜色分布概率,不断迭代找到目标位置。随机搜索方法中粒子滤波是典型代表算法,首先对跟踪目标进行建模,并定义一种相似度度量确定粒子与目标的匹配程度。在目标搜索的过程中,统计按照一定分布规律的粒子(如均匀分布或高斯分布)的相似度,确定目标可能的位置,在下一帧中的这些位置加入更多新的粒子,确保在更大概率对目标进行跟踪。卡尔曼滤波(Kalman Filter)常被用于描述目标的运动模型,对目标的运动模型进行建模,常用于估计目标在下一帧的位置。另外,经典的跟踪方法还有基于特征点的光流跟踪,在目标上提取特征点,然后在下一帧计算这些特征点的光流匹配点,统计得到目标的位置。在跟踪的过程中,需要不断补充新的特征点,同时删除置信度不佳的特征点,以此来适应目标在运动中的形状变化。
随后,基于相关滤波、深度学习的目标跟踪方法相继出现。相关滤波(Correlation Filters)算法源自信号处理领域,2010年,David S.Bolme[7]首次将相关滤波算法应用于目标跟踪,提出了误差最小平方和滤波器(Minimum Output Sum of Squared Error Filter,MOSSE),通过在线训练和自适应改进,在目标表观变化时仍然能够鲁棒跟踪,使用快速傅里叶变化加快运算速度,帧率可达669帧/秒。2014年,Joao F. Henriques[8]等提出KCF(Kernelized Correlation Filters)算法,对MOSSE算法做了进一步改进,引入多通道特征获得更好的HOG,强调负样本的重要性,通过循环矩阵扩大样本数量,使用核函数将低维空间计算映射到高维空间,从而快速检测到目标位置。 而在长时间(Long-term)目标跟踪方面,Z. Kalal[9]提出了TLD(Tracking Learning Detection)目标跟踪框架,在目标遮挡、目标离开视野等复杂场景中尝试突破。
2015年,基于深度学习的目标跟踪算法表现突出,Chao Ma[10]使用深度学习算法HCF(Hierarchical Convolutional Features)提取目标特征,准确性较高,但是由于使用离线训练,在实时性方便表现欠佳。在此之后,越来越多的研究者改进基于深度学习的目标跟踪算法,不断提高其准确性和鲁棒性。2016年,Luca Bertinetto[11]提出全卷积孪生网络(Fully-Convolutional Siamese Networks),孪生网络为两个并行的网络结构,两个分支共享卷积层的权值,分别进行特征提取和目标搜索,在全卷积孪生网络中通过随机梯度下降来适应网络,简化目标模板,提高速度,保证准确性。
目前,在目标跟踪领域基于相关滤波的方法和基于深度学习的方法各有所长,相关滤波在实时性方面表现突出,而基于深度学习的算法更擅长提取目标特征信息。孪生网络的出现对目标跟踪领域产生了很大影响,此后出现了很多基于此网络的目标跟踪算法,其中,Valmadre J[12]创造性地将深度学习和相关滤波结合到一起,该算法兼具深度学习特征提取的精确性和相关滤波计算速度快的优点。
在目标跟踪领域,目标遮挡和长时跟踪目前还没有较好的解决办法,此外,兼顾准确性和实时性一直是个难题。
多源图像融合,本质上是一种由低(层)至高(层)对多源信息进行整合,逐层抽象的信息处理过程,最终达到1+1>2的效果。在医学领域,将CT图像与MRI图像融合可以为医学诊断、人体功能和结构研究提供更充分的信息。在安防监控、无人驾驶、机载对地目标检测等领域,将可见光图像与红外图像融合,可以获得更好的跟踪效果。这方面已有一些系统性的研究。邱亚丹,陈雪荣等[13]建立多源人脸识别理论体系,在像素级、特征级、决策级分别提出不同的融合算法,初步建立可见光和长波红外图像的人脸识别理论体系。刁海南等[14-15]基于可见光和红外的成像机理,研究了车船检测中两种图像配准和融合方法;刘刚在[16]采用多分辨率分解的方法对可见光图像和红外图像进行融合,用于构建机载红外与可见光传感器图像融合系统。
Jiayi Ma在[17]总结了多种可见光和红外图像融合方法及其应用,指出图像融合前进行配准的重要性,并将现行多种融合算法进行测试和比较。江南大学李辉博士[18-21]课题组在融合规则方面做了很多相关研究,将图像在不同层次、不同区域进行融合,尝试采用不同的权值策略。比如将低阶矩阵引入融合,对全局和局部分别采用不同的融合规则;或者运用先解构再重构的思路,将图像分为基础部分和细节部分,使用不同的特征提取方法,随后进行重构;设计编码器中的融合层在编码过程中融合源图像特性,最后在解码器端重构。结果表明,这些融合规则和策略的灵活运用在不同程度提高了融合效果。
但是,这些动态图像融合研究多是停留在信息融合层面的算法研究,并未结合面向复杂背景下的目标跟踪的需求设计融合准则,无法解决目标持续稳定跟踪的多源输入数据的冗余性、可融合性及有效性。
基于多源图像与异构信息融合的跟踪所面临的背景复杂性、目标运动状态概率的非线性、非高斯、多模态特性等诸多理论问题尚未解决。同时,有效地利用异构信息融合或综合决策结果解决复杂背景下低信噪比、目标残缺、目标遮挡、目标隐藏、目标丢失、先验信息缺失等实际应用问题还需要系统的研究。
近几年来, 国内外学者提出了“融合跟踪”的概念,并针对复杂背景下红外与可见光动态图像融合跟踪中目标特征建模、鲁棒跟踪、多目标跟踪、异构传感器融合等关键问题做了很多研究工作。表1总结了目标融合跟踪领域中用来衡量算法性能的测试集中具有代表性的场景。
Yang 等[22]提出了一种基于区域红外和可见光动态图像融合方法,为使用基于特征的融合跟踪方法奠定了初步理论基础。 赵高鹏[23]将提取可见光图像的颜色、纹理和红外图像的灰度值作为特征,建立核函数量化直方图目标模型,有选择性地更新目标跟踪模板,较之单一的可见光或者红外图像跟踪,具有明显的稳定性,该算法需要事先配准可见光和红外图像,计算量较大。Lan 等[24-25]提出了一种联合稀疏表示实现了鲁棒特征融合,利用稀疏表示的优势去除融合跟踪中的不可靠信息, 随后在特征级融合跟踪中,加入先验信息和文本信息,与图像信息融合。
表1 RGBT210数据集
苟书鑫[26]提出一种基于模型互更新(CoUpdate)的多模图像融合跟踪算法,从可见光与红外图像中分别提取目标及周围像素点的特征,采用决策级融合方法得到似然图像,在Co-Training框架下结合目标跟踪结果进行模型的互更新,减小模型更新误差累积问题,能准确跟踪目标,实现可见光图像和红外图像优势融合互补。Bing Bai等[27]提出一种基于KCF相关滤波的自适应算法,解决了尺度变化和模板漂移的问题。Sulan Zhai[28]将低阶约束应用到可见光和红外的相关滤波器中,引入ADMM(Alternating Direction Method of Multipliers)交替方向乘子算法对模型进行优化,实现在遮挡和天气状况不良时的鲁棒跟踪,但是该算法的效果在复杂的外部信息干扰时还有待优化。
Moulay[29]融合红外和可见光图像用于行人检测,采用HOG-SVM支持向量机(Support Vector Machine, SVM)分类器模型,实时性和准确性较好,但是当被检测行人相遇的情况下,目标互遮挡较为严重,使得检测效果欠佳,这是多目标跟踪中普遍面临的问题。
针对目标遮挡、主动隐身、短时丢失问题,国内外学者正逐步尝试基于图像与非图像的异构信息融合的目标跟踪,进一步提升目标跟踪的稳定性。Danis Kolev[30]利用单个相机和惯性测量单元传感器的信息,实现了视频数据和传感器数据的融合。Jing[31]提出了一种激光测距仪(LRF)和单目摄像机数据融合框架,并设计了一个接近理想的LRF与摄像机数据融合的粒子过滤器,通过图像匹配解决了全遮挡问题。
综上所述,在多源异构图像融合跟踪方面,其中需要解决的关键问题在于异构图像信息的融合表征、特征提取和跟踪器的鲁棒性。
图1 多源异构信息融合跟踪框架图
图1总结了同构信息融合和异构信息融合所研究的科学问题和获得的收益。在复杂场景中,运动目标空间观测模型的尺度、分辨率、异构特征具有连续、快速、非线性变化的特点,运动目标状态的非完备性、观测环境的非完备性、运动目标信息的非结构化是影响融合跟踪性能的条件因素。实际应用场景中,目标残缺、遮挡、隐藏及丢失,先验信息缺失,背景信息缺失,电磁干扰等导致的信号低信噪比,致使运动目标和传感器平台端的信号源不完备;同时,已获取信息的非结构化需要建立系统的预处理规则,其中,目标先验信息包括局部特征、目标属性、目标类型、目标方位、目标材质等,背景先验信息包括光照变化、背景纹理、相对运动、空间位置等,多传感器采集平台包括红外图像、可见光图像、多光谱图像、激光、雷达等不同数据格式。因此,将具有非结构化属性的运动目标状态与观测环境的非完备性信息进行表征(表征形式为文本、标量、交互数据、低维或高维数据等),对多个来源的异构信息进行数学定义,构建数学模型、物理模型及约束和假设条件,是实现鲁棒融合跟踪的前提条件。
针对多源异构信息建立时空配准规则,在时域或频域的两维图像信息建立线性或非线性映射关系与匹配准则,形成面向多源异构图像融合跟踪的非结构信息抽象表征、原理表征、图式表征等不同表征方式,通过构建归一化模型及其特征矢量构建,解决异构图像融合跟踪的数据率不一致,数据属性不一致以及测量维数不匹配问题,形成有效地异类传感信息融合处理之前对具有非结构化属性的多源异构信息的统一表征。
采用基于空间关系一致性配准或尺度不变特征变换(SIFT)方法的配准算法,解决多源图像的平移、缩放及非平面旋转(多视角)配准问题;针对多源异构信息,分析信息组的内在特征和因素冗余,依据相关关系与特定规则,通过功能处理关联、任务目标关联、融合过程关联、目标环境关联及其信息综合,建立基于最优估计的多传感器异构数据间时空配准方法的数学模型,降低因配准误差引起的主被动异类传感器的观测频率、观测范围、观测时间与空间分辨率等不一致导致的融合不确定性。
深度学习是近些年来才出现的机器学习领域的新方向,目前很多网络框架,如深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks, CNN) 、深度置信网络(Deep Belief Networks,DBN)和递归神经网络(Recursive Neural Network, RNN)在计算机视觉、语音识别、自然语言处理、音频识别以及生物信息学等领域解决了实际应用中的很多棘手问题。在目标跟踪领域中,自2013 年以来,基于深度学习的一系列跟踪算法大量出现,凸显出其在鲁棒性跟踪方面的优势。
在多源图像融合跟踪领域,建立目标特征模型、设计跟踪模板和决策机制、减少多源异构信息之间的差异性都是研究者们关注的问题。Christian Bailer[32]对基于帧的目标动态轨迹进行优化,提高轨迹连续性和平滑度,算法更具通用性。Tewodros A[33]设计了两个贝叶斯跟踪器融合的跟踪算法,在线评估每个跟踪器效果并实时更新,使融合保持在相对优化的水平。
Fayez Lahoud[34]提出了一种实时图像融合方法,将图像分解为强度不同的基础层和细节层,使用视觉显著性来融合底层和深层特征。Lan[25]针对可见光模糊的问题,提出的跟踪算法解决在模态一致性约束条件下的模态差异性问题,为异构图像的协同表示和可分辨性生成识别特征模板。
在红外和可见光的融合跟踪问题上,徐宁文[36]使用卷积神经网络融合了可见光和红外的特征信息,不需要大量数据进行训练,将红外图像作为第4通道与可见光进行融合,目标跟踪帧率大约为 5 帧/秒。Zhan[36]首次将全卷积孪生神经网络用于红外和可见光图像特征级融合,分别对模板框和搜索框进行特征融合并进行互相关运算,该算法在一定程度上兼顾了准确性和实时性。唐聪[37]提出了一种基于深度学习的红外与可见光决策级融合跟踪方法。通过建立参数传递模型,以可见光深度学习检测模型为基础,微调参数,得到红外检测模型。并且进行单波段和双波段融合跟踪对比试验,在跟踪过程中,选取置信度较高的波段更新跟踪模板,融合后的跟踪精度和成功率较之单波段跟踪显著提高,跟踪速度2~3帧/秒,实时性有待提高。
在多源异构信息融合跟踪领域,仍然存在许多尚未解决的问题,譬如非结构化信息的定义与表征,建立目标特征通用数学模型,动态目标多尺度变化,多目标跟踪中目标之间相互遮挡,长时跟踪鲁棒性等。总得来说,需要构建包括场景定义、特征定义、目标特征建模、跟踪性能评价在内的完整闭合的融合跟踪理论框架。
在未来的多源异构信息融合领域,可以融合随机噪声,以文本和位置做先验信息,构建RGB-D目标特征模型等方法强化目标特征;此外视觉显著性学习、强化学习以及注意力机制等在目标鲁棒性跟踪方面是新的研究热点;此外,目前针对多源异构信息融合跟踪的测试集非常少,已经有红外和可见光的测试集,但是更多形式的视频数据集还有待建立。
本文总结了复杂场景下多源异构信息融合跟踪中关键问题的研究现状,分析了各种算法的优缺点及解决的问题以及未来趋势,希望为本文的读者理解多源异构信息融合跟踪提供有用信息。