王全东, 常天庆, 孙浩泽, 杨国振, 戴文君
(陆军装甲兵学院兵器与控制系, 北京 100072)
图像处理技术在军事领域的典型应用是视频目标检测与跟踪系统,与传统的雷达检测与跟踪系统相比,它属于典型的无源跟踪装置,在分辨率、隐蔽性和跟踪精度等方面具备独特优势[1-3],而且具有结构简单、功耗较小、抗电子干扰和符合人眼视觉观察习惯的特点,因此在侦察、监视、电视制导和光电跟踪等武器系统中得到了大量运用。
由于受地形、植被、建筑和遮挡等复杂地表环境因素影响,处理地面战场目标检测与跟踪问题所面临的背景复杂程度要远远高于空中目标,因此坦克、装甲车辆等陆战平台采用雷达技术实现对地面目标检测与跟踪的技术难度更大。随着可见光、红外、微光夜视等多种成像检测设备以及相关数字化技术在装甲车辆上的广泛应用,具备视频图像目标自动检测与自动跟踪功能的火控系统已成为各军事大国陆战装备关注的重点,发展基于视频图像的目标自动检测与跟踪技术已成为提高现有装甲车辆火控系统性能的重要方向[4-5]。
当前,坦克火控系统的目标自动跟踪技术已达到实用化水平,中、俄等国的新型三代主战坦克已安装了具备目标自动跟踪功能的火控系统。但由于战场环境的复杂性,坦克火控系统的目标自动检测技术仍处于研发和试验阶段,距离实战应用还有差距,现有坦克火控系统的目标选取尚需乘员人工进行搜索和选择,系统的自动化、智能化水平和对战场图像信息的综合处理能力有待进一步提高[5-6]。特别是随着现代伪装和隐身技术在军事装备中的广泛运用,未来信息化战争中仅由坦克乘员人为地搜索、发现和识别处于复杂背景环境中的敌方目标变得日益困难,而乘员又要在较短时间内处理大量的战场信息,对整车的反应速度提出了更高要求。因此,需要研发一种具备目标自动检测与跟踪功能的火控系统,实现对目标从搜索、检测、跟踪到火力打击的一体化,从而使我方坦克能从日益复杂的战场环境中更迅速、更准确地发现、识别和跟踪各类目标,更快地对各类战场目标做出反应。
笔者分别从检测和跟踪2方面对现有坦克火控系统目标自动检测和自动跟踪技术的发展现状进行梳理和总结,并对其未来发展趋势进行展望,旨在为在未来坦克火控系统目标检测与跟踪技术的研究提供相关参考。
虽然各国坦克火控系统目标自动检测和跟踪的功能水平不一、技术特点不同,但实现对目标的自动检测与跟踪已成为坦克火控系统未来发展的重要方向。国内外典型三代主战坦克火控系统目标检测、跟踪技术的总体应用情况如表1所示[7-13]。
坦克火控系统自诞生至今其功能逐步完善,自动化和信息化水平逐步提高,目前已经发展了扰动式、非扰动式和稳像式(猎歼式)三代[4]。目前部分三代主战坦克装备的稳像式火控系统已具备目标跟踪功能,能够在坦克乘员发现和锁定目标后对其进行自动跟踪。
以美、德为首的西方国家,由于其三代坦克的研发时间较早,在火控系统研制初期并未考虑采用目标跟踪技术,同时出于当时目标跟踪技术在复杂战场环境下的精度、稳定性尚有缺陷和改装成本较高的考虑,其目前装备的三代坦克火控系统在标准配置下并不具备目标自动跟踪功能。但相关的研究工作一直在进行:美国的M1A2 SEP坦克在加装雷声系统公司为其研制的目标跟踪模块后,可以实现全天候的目标搜索、自动跟踪与锁定功能[7];德国改进和出口型“豹”2A6坦克装备在部分采用FLP-10/EMES-18型火控系统后具备目标跟踪功能[8];法国陆军也明确提出要在“勒克莱尔”2015型坦克中加装新型火控系统和目标自动跟踪系统[9]。
以俄[10-11]、日[12]、以[13]等为代表的对新型坦克研发较为积极的国家,已率先在其三代坦克火控系统中应用了目标跟踪技术,使其火控系统能够在坦克乘员捕捉到目标后,自动控制瞄准具对目标进行跟踪,从而显著提高了坦克在行进间跟踪和打击运动目标的能力和精度。在目标自动跟踪工况下,当炮长操纵炮塔使目标落入瞄准镜的锁定框时,车长或炮长只需按下锁定开关即可完成对目标的跟踪。当目标受到遮挡而暂时消失时,系统仍会继续保持跟踪功能,待目标重新进入视场后,炮长就可迅速地对目标进行自动跟踪和火力打击。
由于计算机技术水平的限制,国内对图像跟踪技术的研究起步较晚。20世纪90年代以后,我国计算机技术水平有了巨大发展,国内各高校和科研院所在目标检测、跟踪等视频图像处理技术上进行了大量的研究工作。2000年前后,我国在某型主战坦克上首次实现了视频图像目标的自动跟踪[4],该型坦克采用了稳像式火控系统,可以在行进间对运动目标进行打击,炮手观测到目标并按下自动跟踪按钮后,系统可自动完成目标跟踪至火炮发射的全过程,与国外先进坦克火控系统的目标跟踪技术基本处于同一水平。
面对复杂多变的地面战场环境,相比于目标跟踪技术,在坦克火控系统中实现目标自动检测的技术难度更大,目前各国均未在现有坦克火控系统中实际采用目标自动检测技术,这也是坦克火控系统实现对目标检测与跟踪一体化所面临的主要技术瓶颈,但相关研究工作一直在进行之中。
美、俄等国对坦克火控系统目标自动检测技术的研究进程处在世界前列。其中,美国的相关研究进展最快,虽然尚未实际装备,但已基本完成了样机的设计和试验,具体技术和性能指标尚未公布。有资料[14]表明:雷声系统公司正在为美国军方M1A2系列坦克开发一种具备模块化目标搜索功能的新型火控系统MATS-FC,其具备自动发现、识别和跟踪目标的能力,并能将目标信息分类后同时显示在乘员综合显示器上,可同时与多个目标进行远距离交战,目前已基本完成了样机的设计和测试工作。
与国外现役三代坦克一样,我国新式三代主战坦克的目标选取也需要由坦克乘员人工进行搜索和选择,面对未来信息化战争的需求,系统的自动化、智能化水平有待进一步提高。虽然部分科研单位和院校早已开展了对视频目标自动检测与跟踪技术的研究,但多基于民用领域车辆和行人等一般目标的研究,视频图像的背景较为简单。针对复杂地面战场环境下的目标自动检测与跟踪技术的研究较少,检测、识别的准确率尚不能满足实战需求,目前也尚未有成型的系统,与美、俄等世界先进水平仍有一定差距,亟需大力开展相关研究工作。
与传统坦克火控系统相比,具备目标自动检测与跟踪功能的坦克火控系统的技术优势在于:
1) 可以进一步提高现有坦克火控系统的智能化水平和对战场信息的综合处理能力,降低炮长的操作难度,并可有效降低战时乘员工作量和任务负担,提高乘员持续作战的能力;
2) 可以提高现有坦克火控系统对目标跟踪的精度和可靠性,减小传统人工跟踪造成的跟踪误差,进而提高坦克火力打击的精度和行进间射击的首发命中率;
3) 可以有效缩短乘员搜索和发现敌方目标的时间,提高坦克对战场目标的综合处理能力和反应速度,对于无人装甲车辆还可以提高其自主能力和智能化水平。
某型坦克目标自动跟踪火控系统的控制结构如图1所示[14-15],主要由图像传感器、目标自动跟踪器、火控计算机和稳定器等部分构成。
在自动跟踪工况下,系统的工作流程如下:
1) 搜索目标,生成样本图像。炮长单独或根据车长指示操作操纵台搜索目标,当从瞄准镜或视频监视器上发现目标后,通过控制操纵台将目标控制到电子窗口内,按下锁定按钮后,系统立即对电子窗内图像的灰度分布进行分析,并根据目标与背景的灰度差异识别出目标,生成一个紧密包围目标的最小矩形框(跟踪框),框内图像即为目标样本图像。
2) 滑动扫描,搜寻“最相关”子图像。采用滑动窗口(或运动估计、光流法、局部搜索等)方法将瞄准镜图像分为多个与样本图像同样大小的子图像,并与样本图像进行相关度计算。通过水平、垂直滑动扫描,搜寻当前屏幕中与样本图像最相关的子图像,即为目标在当前视场图像中的位置,跟踪框中心即为跟踪线位置。
3) 伺服控制,火力打击。跟踪线持续跟随目标在视场内的运动,系统以使瞄准线与跟踪线在水平、垂直方向的位置差Δx、Δy最小为原则,控制瞄准线逐步逼近跟踪线,实现了瞄准线对目标的自动跟踪。目标运动时,瞄准线与跟踪线之间的偏差反映了自动跟踪系统的跟踪精度。当水平和垂直2个方向上跟踪偏差都小于某值时,系统输出跟踪允许射击信号,按下击发按钮并经激光测距后,系统即可完成对跟踪目标的火力打击。
上述跟踪方法在理论上称为“相关跟踪”[15],为保证跟踪算法的实时性,图像传感器一般选用黑白或红外相机。图2为目标样板图像与瞄准镜子图像,假设瞄准镜图像大小为M×N像素,用F(x,y)表示瞄准镜图像点(x,y)处的灰度值。假设在t0时刻,炮长采用大小为K×L的跟踪框锁定目标,产生一个K×L像素大小的目标样板图像Q,用Q(i,j)表示目标样本图像点(i,j)处的灰度值。
用Suv表示左上角坐标为(u,v)、像素为K×L的一个瞄准镜图像的子图像,Suv(i,j)表示该子图像点(i,j)处的灰度值,则
Suv(i,j)=F(u+i,v+j)。
(1)
图像匹配算法就是从当前瞄准镜图像中,找到与目标样板最相似的子图像位置作为跟踪结果。需要对瞄准镜子图像和目标样板图像的相似度进行衡量,因此引入相似性测度的概念:
(2)
Ruv越小,说明该子图像与样板图像越相似。为了减小Ruv对图像灰度值变化的敏感程度,通常对Ruv进行归一化处理,即
(3)
以此作为瞄准镜子图像和目标样板图像相似度的评价指标[16]。根据归一化的方法不同,还存在均值、方差、拉普拉斯滤波、二值滤波等归一化相关算法。
由式(3)可知:每次相关匹配操作均需要对样板图像和子图像的K×L个像素灰度值进行乘积求和开方运算,计算量较大,影响算法实时性。对于此问题,序贯相似性检测算法(Sequential Similarity Detection Algorithm, SSDA)[17-18]是一种常用的改进算法,其对于失配位置不需要计算所有点对应的相关性,可以迅速得到该位置不是匹配点的结论。图3为SSDA算法示意图,设定一个阈值T0,对每一搜索位置(u,v),按照一定的对比顺序比较该子图像和目标样板图像的差值,并累计其误差Er,当Er>T0时停止计算。SSDA算法的匹配精度随阈值T0的增加而增加,但计算速度随之降低,因此可以采用单调增加阈值Tn(或阈值自适应算法)代替固定阈值T0,达到计算速度和匹配精度的最优[19]。
坦克火炮属于直瞄型武器,炮长从发现目标到火力打击的过程可在数秒内完成,在目标姿态和环境变化不太大的情况下,“相关跟踪”算法的跟踪效果较好。但现有坦克火控系统目标自动跟踪技术在实际应用中也存在如下问题:
1) 目标选取仍需炮长人工选择,不能实现目标的自动检测与识别;
2) “相关跟踪”算法严重依赖目标样板图像,对目标灰度变化敏感,难以适应目标姿态和光照的剧烈变化,尤其是目标的快速旋转和遮挡。
为了弥补采用 “相关跟踪”算法的火控系统面对环境或目标变化时的不稳定性,现有火控系统在跟踪失败时,允许炮长随时退出自动跟踪工况,切换为手动跟踪工况,但并未从根本上解决上述问题。
目标检测的任务是在输入图像中发现感兴趣目标并输出其外接矩形框[20]。按照处理对象的不同,目标检测算法可以分为基于背景建模的方法和基于前景建模的方法2类[21],其中:基于背景建模的方法通过将当前帧与背景模型对比作差,分离出前景目标;基于前景建模的方法通过采用颜色、梯度、纹理等图像特征建立目标的表观模型,并设计合理的分类器对前景目标进行分类与检测。基于背景建模的方法主要用于固定场景或场景变化有限的场合,运动状态下坦克火控系统瞄准镜视场变化剧烈,因此基于前景建模的方法更适合坦克火控系统对目标的检测。
基于前景建模目标检测方法的工作流程如图4所示,分为离线训练和在线检测2个阶段。1)离线训练过程为:将训练图像库中已标注好的图像按照某种样本分类规则产生一定数量的正、负样本,并通过特征提取模块得到正、负样本对应的特征表示,用于对分类器进行训练。2)在线检测过程为:首先通过建议区域提取模块产生多个可能包含有目标的候选区域,然后通过特征提取模块得到与候选区域相应的特征表示,并将其送入离线训练阶段训练好的分类器,对候选区域进行分类和识别,得到包含目标的候选区域,并通过边界回归算法对候选区域在整幅图像中的位置进行回归和修正,得到最终的目标检测结果。
其中,特征提取模块属于算法的核心部分,其输出的特征表示对目标特征的表达能力,直接影响分类器精度和算法整体性能。基于前景建模的目标检测方法按照特征提取方式的不同,可以分为基于人工模型的目标检测算法和基于自学习模型的目标检测算法2种。
3.1.1 基于人工模型的目标检测算法
基于人工模型的目标检测算法是通过人工设计的特征模型来“显式”地提取图像特征。人工模型采用的特征主要包括梯度特征(Scale Invariant Feature Transform(SIFT)[22]、Histogram of Oriented Gradient(HOG)[23]等)、模式特征(Gabor[24]、Local Binary Pattern-LBP[25]、Haar-like[26]等)、形状特征(角矩阵[27]、k近邻分割[28]、Shape context[29]等)和颜色特征(颜色SIFT 特征[30]、Color names[31]等)4种。其中,梯度特征的研究和应用最为广泛且实际效果较好,因此本文重点介绍梯度特征算法。梯度特征将图像视为二维离散函数,通过统计图像空间上各点像素值或灰度值的梯度大小、方向及其空间分布情况来描述目标。常用的梯度特征包括尺度不变特征(SIFT)[22]和梯度直方图特征(HOG)[23]等。
SIFT算法最早由LOWE[22]提出,并在2004年对算法进行了完善。该算法首先通过高斯模糊的方式,在多个尺度空间寻找图像中对于尺度和旋转不变的、呈稀疏分布的兴趣点;其次通过计算兴趣点的梯度和方向生成局部图像描述子;最后利用局部图像描述子,从图像中提取对尺度、旋转和亮度变化无关的特征向量,作为图像特征用于分类。SIFT算法具有优秀的尺度和旋转不变特性,对光线、噪声的影响也具有较强的鲁棒性,是基于人工模型检测算法最为常用的特征提取方法,并相继发展出了PCA-SIFT(Principal Component Analysis SIFT)[32]、GLOH(Gradient Location-Orientation Histograms)[33]和SURF(Speed-Up Robust Features)[34]等改进算法。
HOG[23]特征提取算法通过计算和统计图像局部区域的梯度方向直方图来构成特征。具体而言,首先,采用Gamma校正的方法对输入图像进行颜色(灰度)空间的归一化;其次,计算图像每个像素的梯度信息,将图像划分成许多小的细胞单元(cells,如6×6),并统计每个细胞单元的梯度方向直方图;再次,将多个cells组合为一个block(如3×3),并对block内cells的梯度直方图进行归一化,目的在于对图像特征进行压缩,降低噪声和光照变化对图像特征的影响;最后,统计多个block的直方图特征,作为图像特征用于分类。HOG特征通过与SVM,分类器相结合,在行人检测应用中取得了较好的检测效果,其改进算法主要有v-HOG(HOG with variable size)[35]和Co-HOG(Co-occurrence HOG)[36]等。
采用多种特征组合的可变形部件模型 (Deformable Part-based Model, DPM)[37-38]算法,由一个根模型和若干可形变部件组成,能够弥补利用单一特征进行目标表示的不足,是人工模型常用的检测框架,被大量应用于人脸及行人等目标检测任务,并取得了较好的检测效果。
3.1.2 基于自学习模型的目标检测算法
基于自学习的特征表达主要是采用无监督学习的方法, 使机器自动学习能够更高效表达样本抽象特征的网络参数,参数完全是由机器根据损失函数自主学习到的。2006年,HINTON等[39-40]首次提出了深度学习的概念和方法,指出包含多隐层的神经网络具有极佳的特征学习和提取能力,与传统人工依靠经验设计的特征提取方法相比,其通过逐层提取方式学习到的抽象特征对数据本质的刻画能力更强,更适用于对数据的分类和识别;并且首次提出以“逐层初始化”的方式克服深度神经网络在参数训练上容易陷入局部最优的问题,解决了困扰多层人工神经网络多年的参数训练难题,掀动了深度学习的热潮,已成为目前最为有效的自学习模型方法。
目前,深度学习算法在PASCAL VOC、ImageNet等国际目标检测、识别竞赛中的效果明显优于DPM等采用人工模型的传统算法,深度学习模型已逐渐代替传统检测算法成为图像检测领域的主流算法。常用的深度学习模型包括自动编码器、受限波尔兹曼机、深度信念网络(Deep Belief Nets, DBNs)和卷积神经网络(Convolution Neural Nets, CNNs)[21]等,其中CNNs及其改进型网络是目前深度学习领域采用的主流网络模型。
GIRSHICK等[41]提出的R-CNN(Regions with CNN)目标检测算法最早将CNN理论引入目标检测领域,其后的一系列改进算法是目前该领域的最高水平。以对坦克目标的检测为例,R-CNN目标检测算法框架的实现流程如图5所示。首先,采用选择性搜索(Selective Search,SS)的方法,在图像中提取1~2 000可能包含有目标的矩形建议区域,并通过缩放(wrap)操作将得到的矩形建议区域统一缩放到相同大小(227×227)后,用深度卷积神经网络提取其特征向量;然后,用训练好的分类器(Softmax、支持向量机(Support Vector Machine,SVM)等),对各候选区域进行分类;最后,采用非极大值抑制的方法,在一个或多个临近的判定为相同目标的建议区域中,使用边界回归算法精细修正建议框位置,得到最终的目标检测结果。
R-CNN目标检测算法的缺点在于:一是需要采用卷积神经网络提取近2 000个目标建议区域的特征向量,计算量巨大,无法满足实时性要求;二是由于全链接层需要固定大小的输入,为固定输入卷积神经网络前的建议区域而对所有目标建议区域强制进行的缩放(Crop)操作,会导致部分建议区域图像比例的失真和图像信息的流失,影响分类结果和最终的检测精度。
针对R-CNN目标检测算法的缺点,HE等[42]和GIRSHICK[43]分别采用金字塔池化和ROI Polling(Region Of Interest Polling)的方法对其进行了改进。改进算法只需对整幅待检测图像进行1次卷积神经网络计算后,直接在整幅图像的特征图上找到与建议区域相应的特征区域,并从不同大小的特征区域提取出相同大小的特征向量用于分类,不再限制输入神经网络的建议区域的大小。与R-CNN目标检测算法相比,改进算法既显著降低了卷积运算的计算量,又有效避免了缩放操作带来的图像失真和信息流失,使得算法的检测速度和平均检测精度(mean Average Precision, mAP)得到明显提升。
通过对Fast R-CNN图像检测过程中各处理流程时间损耗的分析发现:建议区域的提取占据了整个检测流程的大部分时间,成为制约该算法速度提升的主要瓶颈。为解决建议区域提取的速度问题,REN[44]等提出了一种Faster R-CNN算法,该算法通过采用与检测网络共享全图卷积特征的区域建议网络(Region Proposal Network, RPN)的方式,产生高质量建议区域,使得建议区域的提取时间显著缩短,大幅提高了算法的检测速度。Faster R-CNN算法即使在模型复杂度较高的VGG网络中,在GPU的加速下其检测速率仍可以达到5帧/s,而网络层数较低的ZF网络则可以达到17帧/s。R-CNN及其改进算法在VGG网络模型下的mAP及训练、检测速度(GPU模式)对比[41-44]如表2所示。
R-CNN、SPP-net(SpatialPyramidPoolingnetworks)、Fast R-CNN以及Faster R-CNN算法对目标的检测可以分为候选区域提取、分类与回归2步,属于2步检测。虽然Faster R-CNN算法的RPN网络与SS、Multi-Box等传统建议区域提取方法相比已经可以快速产生建议区域,但仍需要耗费一定时间。YOLO(You Only Look Once)[45]、SSD(Single Shot MultiBox Detector)[46]等后续改进算法省略了建议区域提取过程,通过将输入图像划分为S×S的格子,直接对网格的卷积特征进行分类和回归(也被称为单步检测),检测速度得到明显提升,但检测精度与2步检测方式相比有所下降。
表2 R-CNN及其改进算法的mAP及速度对比
视频目标跟踪的主要任务是通过图像处理的方法在连续的视频图像序列中获取感兴趣目标的运动轨迹,跟踪算法主要由3部分构成,即外观模型、运动模型和搜索策略[21]。目标跟踪问题的主要挑战在于跟踪过程中目标外观和环境的动态变化,因此如何建立一个高效、鲁棒的外观模型是实现目标准确、实时跟踪的关键。根据外观模型建模方法的不同,可将目标跟踪方法分为基于产生式外观模型和基于判别式外观模型2种。
3.2.1 基于产生式外观模型的跟踪方法
基于产生式外观模型的跟踪方法一般工作流程如图6所示。在第一帧中实现目标的选取后,通过产生式模型的方法构建一个外观模型来描述目标的外观特征,并在跟踪过程中通过在后续每一帧图像中搜索与已建模模板最相似的区域来实现对目标的跟踪(“相关跟踪”即为此类算法)。为了适应目标外观可能发生的变化,目标模型可以通过增量式学习的方式,以最新的准确跟踪结果作为新的目标模板来进行在线更新。
均值漂移算法最早由FUKUNAGA等[47]提出,其本质上是一个逐步迭代寻优的过程,即首先计算跟踪点的漂移均值,然后将当前跟踪点移动到该点偏移均值点处,并以此作为新的起始点,不断移动,直至满足一定的误差约束条件后结束。COMANICIU等[48]对该理论进行了扩展,在其中引入了核函数和权重系数的概念,采用巴氏系数作为衡量候选目标与参考模板之间相似度的指标,成功地将均值漂移理论应用到目标跟踪领域。在此基础上,BRADSKI等[49]提出了基于颜色直方图特征的均值漂移目标跟踪算法,使得均值漂移作为一种简单快速的算法被广泛应用到视觉目标跟踪中来,并相继出现了期望值最大、显著性特征融合等多种改进算法来提高其精度。
子空间学习算法关注于如何使用子空间分析方法来构建这些子空间以及与之相关的基模板,通过多个低维的子空间来自适应目标外观的变化,该方法已经被证实可以有效处理目标面内旋转、尺度变化、姿态变化和光照变化等挑战性问题。LI[50]提出了一种张量式学习的视觉跟踪算法,利用线性子空间对目标外观进行建模,并通过主成分分析理论对样本进行在线更新。为了消除复杂背景信息对目标跟踪的影响,周小娟等[51]直接将二维图像作为矩阵表示,构造了一个基于二维主成分分析的表观模型用于目标跟踪,该方法不仅考虑了前景信息,还通过建模背景信息避免了复杂背景的干扰;WU等[52]从选择将目标和背景可有效区分的子空间的角度,提出一种基于最优子空间选择的跟踪算法,实现了对目标进行子空间自适应选择的鲁棒跟踪。
ISARD等[53]首次把粒子滤波理论应用到目标跟踪领域,称之为Condensation算法。从重要性函数选取的角度,有研究者提出了辅助粒子滤波[54]、扩展卡尔曼粒子滤波[55]等改进算法。针对具有较强机动性能的目标,DOU等[56]提出具有马尔科夫转化概率的交互多模型粒子滤波算法,通过多个动态模型的相互作用对目标的运动状态进行建模;COLLINS等[57]应用多颜色特征融合的方式来获得多个似然图,并以似然图的方差比作为衡量各个特征对背景和目标区分能力的评价指标,然后选取区分能力最优的似然图进行跟踪,取得了良好的跟踪效果。
3.2.2 基于判别式外观模型的跟踪方法
基于判别式外观模型的目标跟踪方法将目标跟踪视为二分类问题来处理,其通过训练不同类别之间的分类器,对目标和背景图像进行区分,也被称为基于检测的跟踪方法。该方法的核心在于设计和训练稳定高效的分类器,用以区分目标和背景信息,分类器性能对目标跟踪性能有重要影响。相比于产生式外观模型,判别式外观模型旨在最大化目标与非目标区域的差异,同时也关注于发掘高信息量的特征,用于视觉目标跟踪,对目标和背景具有更强的区分能力。
基于判别式外观模型跟踪方法的工作流程如图7所示,其中分类器可以分为在线训练和离线训练2种方式。在线训练时,在第一帧选取目标后,通过在第一帧图像中提取正负样本对分类器进行在线训练,并可以根据跟踪结果获取最新的训练样本,对分类器进行更新;离线训练时,采用先验知识或者目标图像库训练分类器(与目标检测算法中分类器的训练方式类似),跟踪过程中不对分类器进行更新。
GRABNER等[58]采用区域特征来构造分类器,并把每一帧的跟踪结果作为正样本,在跟踪结果的周围收集负样本,利用在线Boosting算法更新分类器,提出一种在线特征选择的目标跟踪算法。该方法可有效解决目标跟踪中遇到的光照变化、非刚体形变等问题,但由于在线Boosting分类器可能被噪声或潜在的错误定位的样本更新,导致该方法存在目标漂移问题。为此,研究者们尝试将目标跟踪建模为半监督或多示例学习问题。GRABNER等[59]发展了一种在线半监督boosting跟踪方法,该方法结合了离线训练和在线训练2种分类器各自的优势,利用未标记样本在线更新分类器,能够在一定程度上限制跟踪漂移的发生。
判别式跟踪算法如果被选中的正样本(即跟踪结果)不是最优,对样本的标记就会存在误差,这种误差的累积将导致分类器的判别能力逐步降低,最终造成跟踪的失败。多示例学习(Multiple Instance Learning, MIL)[60]方法能够较好地解决跟踪过程中样本标记的歧义性问题。该方法在整个跟踪过程只需记录第一帧的目标位置,在被跟踪目标区域的附近选取多个样本封装成一个正包,在目标区域的周围选取多个样本封装成一个负包,每个正包至少存在一个正示例,而负包中所有样本均为负示例。通过在包的层面上进行学习,特征选择机制训练出一个强分类器来对下一帧图像构建样本标签置信图,并根据置信度值来确定跟踪结果。
KALAL等[61]提出了一种跟踪-学习-检测(Tracking-Learning-Detection, TLD)算法,它与传统视觉跟踪算法的显著区别在于将跟踪方法和检测方法相结合,跟踪模块采用产生式外观模型的方法,检测模块采用判别式外观模型的方法,将跟踪模块和检测模块对目标位置估计的综合结果作为最终的跟踪结果。同时,该方法通过一种在线PN(Positive Negative)学习机制,对跟踪模块的目标特征点和检测模块的目标模型进行持续更新,以解决目标在跟踪过程中发生的形变、遮挡等问题,从而使得整体的目标跟踪更加稳定、准确性更高,实现了目标的持续稳定跟踪。
DLT算法[62]首次把深度学习理论应用于解决目标跟踪问题。由于用于目标跟踪的训练数据通常十分有限,该算法首先使用辅助的非跟踪训练数据对深度学习模型进行预训练,获取对跟踪对象的通用特征表示。其次,在跟踪的过程中,在当前帧及之前数帧中提取数量有限的(与辅助训练数据相比)正负样本,对预训练模型进行微调, 使模型对当前跟踪目标有更强的分类性能,取得了较好的跟踪效果。SO-DLT[63]、TCNN(Tiled Convolutional Neural Networks)[64]、ECO(Efficient Convolution Operators)[65]等算法在模型结构、更新策略、训练方式等方面进行了改进,使跟踪速度和精度得到明显提升。近年来深度学习理论在目标检测领域取得了巨大成功,采用判别式跟踪的方法将深度学习理论应用于目标跟踪,是目标跟踪算法目前正在快速发展的一个重要方向。
未来信息化战争中,坦克乘员往往要在较短时间内处理大量的战场信息,对整车反应速度提出了更高要求,坦克装甲车辆必须具备对目标自动检测和跟踪的能力。而现有稳像式坦克火控系统尚不具备自主检测、识别战场目标的能力,目标选取仍需炮长人工选择,已逐渐不能满足未来战争的实际作战需求,发展一种具备目标自动检测与跟踪功能的火控系统,实现对目标搜索、检测、跟踪和火力打击的一体化是未来坦克火控系统的重要发展方向。
笔者对未来坦克火控系统目标检测与跟踪一体化流程的设计如图8所示。在目标搜索阶段,车长和目标自动检测器可分别通过车长镜和图像传感器实现对战场目标的快速搜索。对于检测器发现的可疑目标,可以通过计算机发给车长终端显示器进行人工确认,对于检测器或车长发现的确认目标,可以选择自动或手动2种模式对目标进行持续跟踪和火力打击。与现有火控系统相比,通过目标检测与跟踪的一体化,可以有效缩短乘员搜索和发现敌方目标的时间,提高坦克对战场目标的综合处理能力和反应速度。
区别于一般场景下的目标检测,战场环境复杂多变,光照变化、目标旋转、姿态变化、烟雾遮挡等引发的目标外观模型的变化,对复杂战场环境下的目标检测任务造成了严峻挑战。由于传统人工模型只包含图像原始的像素特征和纹理梯度等信息,并不具备高层语义上的抽象能力,对目标的刻画仍不够本质,使得这种方法在处理复杂场景下目标检测任务时的效果并不理想。近些年,深度学习算法在目标检测与识别领域取得了突破性进展,检测、识别的精度和效果远超传统算法,已成为图像检测与识别领域的主流算法。孙皓泽等[66]采用深度学习算法对复杂战场环境下的坦克装甲车辆检测进行了部分研究,结果表明:深度学习算法通过多层的卷积神经网络学习和提取坦克的深层次结构模型,能够检测出各种姿态下的坦克目标,对目标的烟雾或局部遮挡,目标姿态、颜色、大小,以及环境、背景的变化具有较高的容忍度。深度学习模型算法为未来坦克火控系统实现对复杂战场环境下的目标自动检测提供了一种很有应用前景的技术方案。
目前Faster R-CNN等主流深度学习算法尚无法实现对连续视频的实时检测,但深度学习算法发展速度很快,从R-CNN[41]模型到Faster R-CNN[44]仅用了不到2年时间,检测速率已经提高了近百倍。最新的YOLO[45]、SSD[46]等深度学习模型采用单步检测的方式,直接利用CNN的全局特征预测每个目标的可能位置,已经可以实现视频目标的实时检测,但检测精度稍有降低(仍明显高于传统算法),是一种可以工程化应用的目标检测方案。
同时,现有深度学习算法基本未考虑计算机资源的限制,其对计算机软硬件的需求远超目前火控计算机的资源配置,要实现此类技术在坦克火控系统中的工程应用,需要继续对模型进行适当简化和优化,降低系统软硬件要求和设备成本。此外,目前尚未有标准的大规模战场目标图像库,导致模型训练样本数量偏少。如何利用小样本数据实现高效网络的训练也是一个值得深入研究的问题。
现有坦克火控系统目标跟踪算法采用的“相关跟踪”等产生式外观模型的方法,优点在于模型简单、算法速度较快。在目标姿态和环境变化不太大的情况下,“相关跟踪”算法的跟踪效果较好。但此类算法模型的建立严重依赖在线检测过程中获得的数量有限的目标样本,面对复杂战场环境仍有缺陷,难以适应目标姿态、光照和背景的剧烈变化。为提高跟踪算法鲁棒性,可以采用TLD算法的框架,在跟踪器跟踪失败时采用检测器重新检测出目标,对跟踪器模板进行在线更新和初始化,并将检测器和跟踪器的综合结果作为最终的跟踪结果,使得算法在处理目标姿态变化和遮挡等情况下的跟踪效果更稳定,是提高跟踪精度和稳定性的不错选择。
多隐层的卷积神经网络在目标检测领域被证明具有极佳的特征学习和提取能力,采用判别式跟踪的方法将深度学习理论应用于目标跟踪,是目标跟踪算法目前正在快速发展的一个重要方向。深度学习算法应用于目标跟踪面临的主要困难在于算法通常无法满足实时性需求。为提高算法速度,可以通过充分利用连续视频的帧间信息,采用马尔科夫、粒子滤波等方法构建目标运动模型,对目标下一帧可能出现的位置进行合理预测,只在目标潜在区域而非整个视场对目标进行跟踪,以此减小分类器的运算量,提高算法实时性。