吴凤娇,刘 宽,候红涛,孙收余,赵 凯,罗子江
(1.贵州财经大学信息学院,贵阳 550025;2.北京盛开智联科技有限公司,北京 101300)
目标跟踪作为计算机视觉中一个经典的研究问题,被普遍应用于视频监控、人机交互、自动驾驶和安防监控等领域,人脸作为一个重要的跟踪对象也不例外。人脸跟踪的核心思想是根据人脸的重要生物特征在上下文时空中进行特征搜索和匹配,从而得到人脸在视频序列中的位置和大小信息。目前,人脸跟踪算法主要包括传统的人脸跟踪算法、相关滤波人脸跟踪算法、基于深度学习的人脸跟踪算法。传统的人脸跟踪算法和基于相关滤波的人脸跟踪算法大多采用手工特征,手工设计特征局限于经验性不足,难以达到较好的跟踪性能。卷积神经网络的出现以及在人脸检测领域取得的显著成果,相继被运用到人脸跟踪领域。在精度上表现优异的算法以Nam等提出的MDNet算法为代表。MDNet在精度上表现突出,但在实际应用环境中难以达到实时跟踪。为解决跟踪算法实时性低的问题,Bertinetto等人基于相似性判断提出SiamFC跟踪算法,该算法仅将模板和搜索区域的距离作为相似性判断依据,加快算法推理速度,但鲁棒性不足。Li等基于RGBT(RGB-Thermal)目标跟踪研究缺乏综合评价平台,提出RGBT234数据集,并提供了相应的评价基线,但其算法复杂度较高,难以实时处理。本文提出多模态余弦相似孪生网络人脸跟踪算法,该算法采用可见光(visible spectrum,VIS)和红外光(infrared spectrum,IR)图片作为输入,削减跟踪算法对光照变化的敏感度,增强算法在光照差异变大的环境中的跟踪性能,并用余弦相似相关替换互相关层,增强模板与搜索分支的相似性判别能力。为弥补余弦相似和多模态输入增加的计算开销,结合MobileNet、PP-LCNet和PeleeNet思想设计适合于人脸跟踪轻量级特征提取网络。大量实验证明,本文的人脸跟踪方法有效解决光照变化明显、背景相似干扰、快速移动、遮挡等问题,实际跟踪速度可达到115.7 fps。
本文算法基于SiamFC,该算法将目标跟踪任务转换为相似性学习,将模板和搜索区域的距离作为相似性判断依据。但当目标处于暗光、曝光和复杂多运动物体的场景下,单独的VIS图像无法提供足够的信息,导致跟踪精度下降乃至跟踪失败,而IR图像能够很好地应对光线问题,有效地补充了VIS图像的不足。因此,本文采用多模态余弦相似孪生网络人脸跟踪,网络包括模板分支和搜索分支,两个分支分别将模板和搜索的VIS-IR图融合为一张3通道的模板图z和搜索图i,如图1所示。
图1 多模态余弦相似孪生网络人脸跟踪网络
图1中多模态余弦相似孪生网络人脸跟踪算法包括模板分支和搜索分支,搜索分支和模板分支的输入通道为3。多模态输入融合计算方式如式(1)所示:
式(1)中表示可见光特征,表示红外光特征,β表示VIS图像的融合系数,β表示IR图像的融合系数。为了更好地利用好双模态图像互补的信息,本文采用了权重分配策略,使用亮度信息离散度作为融合系数分配的参考依据。图2(a)为相同场景中拍摄到的VIS图与IR图。图2(b)为与图2(a)对应的像素亮度统计情况,其中横轴表示图片宽,纵轴表示图片对应像素列、像素亮度加和。由图2可知,VIS图片中像素亮度分布离散度大且无明显规律,而IR图片横轴中心位置(动态目标存在的位置)像素亮度集聚度高,且几乎呈正态分布。
图2 VIS图与IR图差异对比直方图
故,融合系数计算方式如式(2)所示:
和表示像素所在的行和列,̇和分别表示VIS图与IR图,其中属于正态因子系数,计算方式如式(3),其中和分别是IR图像单个像素亮度和整体亮度均值。
对模板分支和搜索分支X进行相同的特征变换=(),生成特征图F和F。本文对F和F操作,余弦相似相关的计算方式如式(4)所示:
式(4)中“•”表示余弦相似相关,和分别表示模板分支和搜索分支。经过余弦相似相关的特图值都将被拟合到-1到1之间。
多模态输入和余弦相似相关在跟踪算法中造成算力增加,推理速度减慢等问题。基于此,本文设计轻量级卷积神经网络平衡计算开销,特征提取主干网络结构,如表1所示。
表1 多模态人脸跟踪孪生网络结构
表1所示,基于SiamFC思想设计本文网络结构包括搜索分支和模板分支,搜索分支输入大小是模板分支的四倍。为减少推理延迟,在主干网络特征提取以深度可分离卷积为主,深度可分离卷积对普通卷积进行过程分解,有效缩减模型量、节约算力。复杂背景下的人脸跟踪需要更深层的语义特征作为跟踪的外观判断依据,随着网络深度的增加,感受野随之增大,在网络末尾增加三个Dense_Block,结构如图3所示。
图3 深度模块结构
图3(a)为PeleeNet网络中的Dense结构块,直接将上一阶段的特征图通过Concat方式进行特征融合。图3(b)为本文借鉴PeleeNet中Dense结构块设计的特征提取网络结构,在其基础上,左边分支直接用可分离卷积代替标准卷积进行特征提取,在右边分支使用两个深度可分离空洞卷积增加感受野,提高算法在资源受限设备中的适用性。
SiamFC跟踪对特征提取后的模板特征和搜索分支特征进行互相关操作,互相关操作能以较小的算力完成最大响应点的搜索,但最大响应点定位容易出现误判,如图4所示。
图4 余弦相似相关与互相关对比
图4中当跟踪区域出现相似背景(多人脸干扰时),互相关操作容易出现最大响应位置计算错误,导致人脸跟踪失败。余弦相似相关充分挖掘局部特征向量之间的内在关系,寻找相似度最大的最优位置,抗特异性强,局部相似性度量准确性高。本文的余弦相似计算方式如式(5)所示。
式(5)中表示通道,和分别表示特征图上某点所在行和列,表示搜索分支的一个局部特征集,表示模板分支全局部特征集,其中的局部特征集和的全局特征集数量相等。
实验训练PC机环境:CPU选取Intel(R)Core(TM)i7-5930,显卡NVIDIA GTX 1080 Ti,采用Visual Studio 2013,OpenCV3.1.0和Caffe框架实现多模态余弦相似孪生网络人脸跟踪算法。
本文采用ChokePoint数据集、RGBT234数据集和自制样本数据集对本文的人脸跟踪算法进行实验验证。ChokePoint数据集包含432个视频。RGBT234数据集是较大规模的双模态跟踪数据集,它囊括了234对VIS和IR视频序列。自制的数据集考虑多人干扰、人脸遮挡等因素,共搜集103282对VIS-IR可变性面部图片。
2.3.1 评价指标
本文提出的多模态余弦相似孪生网络人脸跟踪方法采用平均中心像素误差精度(accuracy)、鲁棒性(robustness)、重叠率(overall)进行评估。平均像素误差,即实际人脸中心位置与预测人脸中心位置小于给定阈值的百分比,鲁棒性评估决定人脸跟踪算法的稳定性,重叠率越高算法的跟踪锁定位置更准确。
2.3.2 定性分析
实际测试过程中仅对首帧视频帧进行初始化,同时使用实际拍摄视频序列和ChockPoint数据集视频序列进行测试评估,部分实际评估结果如图5、图6所示,其中直角虚线框表示真实的标准框,圆角虚线框表示SiamFC算法跟踪结果,直角实体框表示本算法的跟踪结果。
图5 光照明暗变化人脸跟踪示例
图6 相似多人脸干扰跟踪示例
图5为ChockPoint数据集中的测试样例图片帧,从图5可以看出,第485帧、第498帧、第506帧和第513帧均呈现不同的光照色差,基于本文算法绘制出的矩形框仍然能较准确地框出人脸所在位置,而SiamFC算法则出现不同程度的抖动。
图6为实际应用环境中拍摄的多人脸干扰的视频序列,在第145帧,两种跟踪算法均能进行较准确的人脸跟踪。随着时间的推移,第153帧和第164帧中开始出现大面积人脸重叠,SiamFC的跟踪框大范围抖动,引入过多非目标人脸信息。从第164帧到第178帧,SiamFC的跟踪框明显跟错了对象,而本文的人脸跟踪算法依旧能准确地锁定跟踪人脸,进行准确的人脸跟踪,能有效解决多人干扰人脸目标跟错现象,抗干扰性强,具有更强的鲁棒性。
2.3.3 定量分析
在我们的实验中,对增加不同模块和策略的主干网络进行增益实验比较,其中DP表示使用本文设计的轻量级主干特征提取网络,IR是红外光图,VIS是可见光图,Cor表示互相关,Cos表示余弦相似相关,具体参数如表2所示。
表2 不同策略组合的主干网络命名
将本文设计的人脸跟踪网络以及几种变体网络在自制数据集上的平均像素误差精度、鲁棒性、平均覆盖率、测试速度进行比较,具体实验结果如表3所示。
表3 不同主干网络跟踪性能比较
表3中,将SiamFC的主干网络AlexNet直接替换为本文设计的轻量级主干网络,跟踪整体性能略微降低,为弥补深度可分离卷积带来的精度下降,采用HSwish作为激活函数,增加非线性,并在主干网络末尾增加三个Dense_Block增大感受野,丰富深层语义信息提取。直接使用IR图像作为输入,跟踪精度相对于VIS的有所下降,据分析,IR图像相对于VIS丢失了颜色等重要信息。Siam-DP+VIS+IR(Ours)对孪生网络的搜索分支同时融合可见光图与红外光图,消弱光照强度变化对跟踪外观模型表征的影响。Siam-DP+VIS+IR+Cos(Ours)把互相关操作替换为余弦相似相关,余弦相似相关将输出响应最大值进行归一化,提高网络模型的相似性判别能力,在本文设计的四种主干网络中,整体性能均优于SiamFC。
2.3.4 方法有效性比较
为验证本文提出的基于多模态余弦相似孪生网络人脸跟踪方法的有效性,与其他人脸跟踪算法进行比较,其中包括基于稀疏表示的IVT跟踪算法、基于相关滤波的KCF跟踪算法、基于深度学习孪生网络的SiamFC跟踪算法、基于深度学习位置回归的GOTURN人脸跟踪算法等。
表4和表5分别为不同人脸跟踪算法和本文的跟踪算法在光照变化(IV)、遮挡(OCC)、快速移动(FM)、背景干扰(BC)、运动模糊(MB)等5种环境下平均像素距离误差在20个像素以内、平均成功率即平均跟踪面积重叠率为0.45以上的百分比的实验结果,表中最优结果已使用加粗显示。
表4 基于ChockPoint数据集的平均像素误差精度和平均成功率(用“/”隔开)的比较
表5 基于RGBT234数据集的平均像素误差精度和平均成功率(用“/”隔开)的比较
表4中基于深度学习的人脸跟踪算法在跟踪性能上均取得显著提升,从表中可以看出,虽然在FM和MB条件下的跟踪效果不是最好,但是在IV、OCC、BC三种条件下的表现优于其他四种跟踪算法。表中四种经典跟踪算法的平均成功率依次是0.676、0.691、0.717、0.7366,本文算法的平均成功率为0.781。实验表明,本文提出的人脸跟踪算法即使是在跟踪环境复杂多变的情况下依旧能达到较优的跟踪效果。
表5中,本文所提出的人脸跟踪算法整体性能较优,其中在FM条件下略差于Li等的基准算法,但其他条件下皆较优,整体平均精度达到0.762,整体平均成功率为0.484,比Li等的分别提高8.3%和4.8%。进一步证明了在多模态输入的条件下,本文的人脸跟踪算法即使是在跟踪环境复杂多变的情况下依旧能达到较优的跟踪效果。
本文以实际应用环境为背景,为解决光照变化大、背景相似干扰等人脸跟踪问题,提出多模态余弦相似孪生网络人脸跟踪算法。首先,采用成对的VIS-IR图片作为网络的输入,利用这两种模态信息互补的特点,降低光照强弱变化对图片特征的敏感度,提高跟踪过程中外观建模的鲁棒性。其次,结合SiamFC算法中互相关层存在相似度计算异常的问题引入余弦相似相关层,进一步对相似度值进行归一化,有效解决互相关层由个别差异值引起的相似度误判问题。余弦相似相关相比互相关增加较大的算力开销,本文通过构建轻量级的特征提取网络有效地减少余弦相关增加的算力开销。为提高算法的适用性,采用大量不同角度、姿态、遮挡、佩戴饰物的样本数据进行模型训练。经实验验证,本文的人脸跟踪算法有效解决跟踪过程中光照干扰、多人脸干扰、复杂背景、跟丢、跟错等问题,提高人脸跟踪算法稳定性,实际跟踪速度达到115.7fps,具有较高的实时性和较强的移植性。