弱对齐的跨光谱人脸检测

2023-01-16 07:36闫梦凯钱建军
自动化学报 2023年1期
关键词:候选框人脸红外

闫梦凯 钱建军 杨 健

众所周知,可见光人脸图像中含有丰富的面部纹理、颜色等细节信息,然而红外人脸图像中含有面部热信息,跨光谱人脸图像能够将两者的优点相结合,弥补各自的不足.另外,热红外相机能够采集人脸面部的温度信息,可用于快速推算人体体温,这在公共场所的体温筛查任务中有着重要的应用价值.

在实际应用中,跨光谱图像的人脸检测是必不可少的过程.可见光图像中的人脸检测较为容易,红外图像中的人脸检测较难.原因是红外图像人脸的表征很弱,不同场景下采集的红外图像差异较大.如果分别对可见光图像和红外图像进行人脸检测又需要耗费双倍的时间和计算资源.

为了有效地检测红外图像中的人脸,通常利用双目相机的位置关系,使用平移和旋转参数将可见光图像中检测到的人脸边界框投影至红外图像中,以此得到粗略的红外人脸位置.由于双相机之间存在视场不一致和成像时间差等缺点,导致跨光谱图像之间的像素无法严格对应,因此以该方式获取的红外人脸边界框存在较大偏差,如图1 中虚线边界框所示.

图1 跨光谱人脸检测Fig.1 Cross-spectral face detection

针对上述问题,本文对跨光谱图像之间的偏差进行了深入的分析,偏差主要是由双相机视差和成像时间差导致的.相机的视差是指由于双相机光轴无法完全重叠,导致视场存在一定的偏差.据所知,使用光线分束器可以将双目相机的视场对齐,但是分束器成本高、调试难、并且有光损耗,应用范围较小.相机的成像时间差主要是由于双相机成像时间不一致,导致采集到的图像时间戳无法严格对齐,从而导致场景中动态目标的成像存在偏差.

为了克服双目相机采集到的跨光谱图像之间的偏差,准确定位红外图像人脸,本文设计了候选框布置策略和跨光谱特征表示方法.候选框的布置利用了坐标映射的结果,坐标映射虽有偏差,但是能够为候选框的布置提供较强的先验信息.跨光谱特征表示方法用于选择能够准确表达红外人脸位置的候选框.

本文还构建了一个跨光谱人脸数据集,数据采集场景为人员进出密集的楼宇出入口,涵盖白天和夜晚场景,采集到的人脸图像含有遮挡、不同姿态等情况.数据集中的红外人脸图像含有手工标注的人脸边界框,作为评估算法性能的基准.

本文主要贡献如下:

1)深入分析了跨光谱相机的视差和成像时间差对跨光谱图像偏差的影响.

2)提出了一种针对弱对齐图像的跨光谱人脸检测算法,依据跨光谱图像之间的弱对齐关系布置候选框;为选择最优候选框,设计了跨光谱特征表示方法.

3)构建了一个跨光谱人脸数据集(Cross-spectrum face,CSF).并在CSF和OTCBVS[1]上测试了人脸检测算法的性能.实验结果证明,本文方法在红外图像中可以表现出更好性能.

1 相关工作

1.1 人脸检测

人脸检测的任务是检测人脸在图像中的具体位置以及大小,检测结果通常用边界框在图像中的位置表示.早期的人脸检测算法[2-3]采用密集滑动窗口进行采样分类,检测速度慢、精度低.后续基于AdaBoost 分类器的算法[4-5]等在保证检测精度的同时极大地提升了检测速度,简单特征的优化级联框架[5]是当时主流的人脸检测框架.为了提升算法的鲁棒性,文献[6] 设计了基于可变形组件模型的人脸检测算法,能够检测各种姿态的人脸,文献[7] 利用稀疏表示提取泛化能力更好的面部特征.随着深度学习的发展,基于深度学习的人脸检测算法逐渐代替了基于手工设计特征的方法.目前的一些基于深度学习的人脸检测算法已取得了巨大的进展,文献[8-13]等人脸检测算法在WIDER-face 数据集[14]上达到了非常好的检测性能.但是基于深度学习的人脸检测算法通常依赖大量的训练数据,目前红外图像人脸数据集有限,使用深度学习方法检测红外人脸仍存在较大的挑战.现有的红外图像人脸检测工作[15-18]很难达到令人满意的结果.早期,有文章介绍了使用手工特征进行红外人脸检测的方法,例如文献[15]提出了两种用于热红外人脸检测的局部特征,文献[18]提出了使用边缘检测、模板匹配以及两者结合的红外人脸检测算法,文献[19-20] 开发了用于发热筛查的移动平台,该平台利用可见光图像定位人脸,并将人脸位置映射至红外图像中以获取面部温度信息.但是以上红外人脸检测算法检测性能有限,对于环境复杂、有遮挡、面部较小等特征不明显的面部,检测结果不理想.

1.2 跨光谱图像处理

跨光谱图像处理包含跨光谱图像融合以及跨光谱图像立体匹配等方面的工作.跨光谱图像的融合的目的,是将可见光图像和红外图像各自的优势结合起来,文献[21-22]提出了可见光和红外配对的人脸数据集,用于活体人脸识别的研究,数据集中含有不同的姿势、遮挡的人脸.文献[23]提出了跨光谱行人数据集,红外信息的引入能够大大增强夜间行人的检测性能.另外,文献[24-28]介绍了跨光谱图像融合的相关算法.跨光谱图像立体匹配是依靠交叉光谱之间的匹配特征估计视差,通常由于跨光谱图像之间存在差异导致特征匹配较为困难.为了克服特征匹配的困难.文献[29]针对玻璃等材料在不同光谱中的不同表现设计了材料感知损失函数,降低了材料对交叉光谱特征匹配的影响.文献[30]针对交叉光谱外观差异较大的问题,提出了使用生成对抗网络对图像进行风格转换,从而降低了交叉光谱之间的差异.此外,文献[31]提出了弱对齐图像对行人检测的影响,并将对齐偏差融入损失函数,提高了检测性能,该文中明确指出跨光谱双目相机采集到的图像存在不严格对齐的情况.文献[32]使用红外相机获取面部眼部的温度进行体温测量,但是红外图像中人脸难以被检测,因此文中使用可见光与红外图像配对的方案,在可见光图像中检测到人脸后再将可见光与红外图像中的人脸通过可变形方法进行对齐,从而获取红外图像中人脸位置.以上工作表明,可见光图像与红外图像之间存在较大的差异,包括像素位置无法对齐的差异和图像特征的差异,这些差异导致跨光谱图像的处理依然是一个极具挑战的问题.

2 跨光谱人脸图像偏差分析

跨光谱双目相机采集到的图像之间无法严格对齐,导致同一个人脸在不同的相机中的成像位置无法准确对应,因此将可见光图像中的人脸坐标映射至红外图像中时,会出现偏差.在以往的工作中,文献[31]提出了跨光谱图像行人检测存在偏差,但是并未具体分析原因,仅从数据集的层面指出了存在该问题.本节对跨光谱人脸图像的坐标映射进行了推导,分析了视差和双相机成像时间差对坐标映射的影响.

2.1 视差对坐标映射的影响

由于双目相机的光轴无法完全重合,且可见光相机与红外相机的镜头材质不同,因此双相机采集到的同一人脸很难实现精确的一一对应.本节以坐标映射的方式推导了双相机图像之间的像素对应关系,根据推导结果分析了人脸到镜头的距离与像素对应偏差之间的关系.

可见光图像和红外图像分别由可见光相机和红外相机采集,根据相机的成像原理和双相机之间的位置关系,可以推算出跨光谱图像之间的像素关系.如图2 所示,空间内任意一点P 与其在可见光相机中成像位置的关系为R1,与其在红外相机中成像位置的关系为R2,可见光相机与红外相机之间的位置关系的R3.依据R1、R2、R3 可以推导出双相机所拍摄的两图像之间的像素关系.

图2 双相机与空间内任意一点的关系Fig.2 The relationship between dual cameras and any point in space

依据相机的成像原理,在相机坐标系下,可以推导出空间中一点与其在图像中成像位置的关系,如图3 所示,是相机坐标系下的一点,是相机成像面上的一点,相机成像原理为小孔成像,根据相似三角形相似原理,可得两点的关系如式(1):

图3 空间中任意一点在相机中的成像坐标Fig.3 The imaging coordinates of any point in space in the camera

式中,f为相机焦距.

在相机成像面上,如图4 所示,P点像素坐标(u,v) 与其在图像坐标系下的坐标 (xu,yu) 的关系为式(2)~(3).

图4 像素坐标系与图像坐标系的关系Fig.4 The relationship between pixel coordinate system and image coordinate system

式中,u0、v0是图像坐标系原点O2在像素坐标系下的位置.dx、dy 分别代表两个像素点之间的实际距离.

根据式(1)~(3)可得,可见光相机坐标系下一点(xc1,yc1,zc1) 与像素坐标系下一点 (u1,v1) 的关系R1 可表示为式(4)和式(5):

同理可得红外相机坐标系下一点(xc2,yc2,zc2)与像素坐标系下一点 (u2,v2) 的关系R2 可表示为式(6)和式(7):

双相机之间存在一段空间距离的偏移,假设偏移量为p,那么双相机坐标系之间的关系R3 可表示为式(8)~(10).

根据式(4)~(10) 可得,可见光图像中一点(u1,v1) 与红外图像中对应位置点 (u2,v2) 的关系为式(11)和式(12),该推导结果即为跨光谱图像之间的像素对应关系.

式(11)中的zc为相机坐标系下物体的竖坐标,是点到相机镜头的距离,即为深度.

基于以上分析可得跨光谱图像之间像素对应关系可以等同为缩放和平移,缩放系数为常数au,av,平移系数为bu/zc+cu,cv,横向平移系数与当前像素点的深度zc相关,纵向平移系数为常数.

将可见光图像像素坐标映射至红外图像中时,根据式(11)和式(12)可知,除了需要事先对偏移和缩放参数标定,还需要获取图像中每个像素点准确的深度信息.因此视差对坐标映射的影响可以转换为深度估计对坐标映射的影响,深度值的估计的精度直接影响了坐标映射的准确程度.

本文通过实验证明了深度值对坐标映射的影响.如图5 所示,左列为可见光图像,右列为与左列对应的红外图像,从上至下人脸到镜头的距离由远及近.可见光人脸边界框表示人脸在可见光图像中的位置,红外人脸边界框是可见光图像中的边界框通过缩放和平移变换后的结果.由于深度信息未知,因此在实验中以较远处的人脸位置偏移为基准,将远处人脸对齐时的平移参数作为实验时的平移参数,在图5 中,将第1 行的图像之间缩放和平移参数作为实验过程中的参数.由图5 可以看出,随着距离的缩小,映射后的坐标偏移越来越大,这是因为距离变近时,平移量本应当随着深度值的变小而变大,但是由于在实验过程中使用了固定的平移量,导致坐标映射的偏差变大,这也验证了本文的推理结论.

图5 不同深度下的跨光谱人脸图像Fig.5 Cross-spectral face images at different depths

2.2 双相机成像时间差对坐标映射的影响

当双相机采集面对运动目标时,双相机需完全同步工作才能保证采集到同一时刻的图像,此过程往往需要使用软件或硬件控制双相机同时采集图像,但是实际应用时很难控制双相机的采集时间绝对一致,即使是毫秒级别的误差,在图像上也会表现出较大的偏差.

可见光相机与红外相机的工作方式不一致,可见光相机需要调节曝光时间来应对外界光照的变化.在夜晚,曝光时间过短,会导致图像过暗;曝光时间过长会导致图像失真.虽然红外图像的每帧采集时间固定,即便能够获取可见光相机的曝光时间,也很难保证双相机的采集时间绝对一致.对于静态的人脸,双相机采集时间的影响基本可以忽略不计,但是对于动态移动的人脸,尤其距离镜头较近时快速移动的人脸,由于双相机的采集时间差异,会导致跨光谱人脸坐标映射存在一定偏差.

本文也通过实验验证了双相机成像时间差对坐标映射的影响.如图6 所示,当人脸在镜头前匀速移动时,可见光图像中人脸坐标映射到红外图像中后出现不同程度的偏差,并且偏差大小不稳定.

图6 含有运动目标的跨光谱人脸图像Fig.6 Cross-spectral face images with moving target

在实际应用中,除上述影响以外,相机的控制信号触发、相机硬件延迟等过程都需要一定的时间,并且可能由于相机工作环境不稳定等不可抗因素导致图像的采集时间会出现一定的抖动,从而加剧双相机之间的偏差.

3 跨光谱人脸检测

根据第2 节中对跨光谱双相机之间的偏差分析,本节提出了消除误差的跨光谱人脸检测框架.首先针对距离对偏差的影响,提出了一种基于深度估计的偏差修正方法,随后针对整体的偏差(双相机视差和成像时间差导致的偏差)介绍了跨光谱人脸检测框架,包括候选框布置策略以及跨光谱特征表示网络的构建与训练等.

3.1 基于深度估计的坐标偏差修正

根据对式(11)的分析,在可见光图像人脸坐标映射到红外图像坐标系下的过程中,需获取对应像素点准确的深度,本文提出了一种简洁的深度估计方式,即通过图像中人脸大小粗略估计深度zc.

由于成年人的人脸大小之间差异较小,此处暂时假设所有人的人脸实际高度为b.根据相机的成像原理,如图7 所示,a和b分别表示图像中人脸的像素高度与实际三维空间中人脸高度,f为相机焦距,d为人脸到相机镜头的距离,可以得出:

图7 人脸高度与其成像高度的关系Fig.7 Relationship between face height and image height

将式(18)代入等式(11),即可完成坐标的初步映射.

实际情况下,每个人脸的大小有略微的差异,尤其是人脸图像存在遮挡和姿态变化时,会导致检测器检测到的人脸边界框发生变化.此时的人脸高度估计不准确,从而导致人脸到镜头的距离估计精度下降,因此基于人脸大小的边界框坐标映射仅能在一定程度上降低坐标映射的偏差,并且只能针对距离远近的变化带来的误差进行纠正.如需准确检测红外图像中的人脸位置,还要进一步对坐标映射后的位置进行纠正.

3.2 跨光谱人脸检测框架

为了弥补双相机之间的偏差,准确检测红外图像中的人脸,本文设计了跨光谱人脸检测框架,该框架在坐标映射的基础上对边界框进行修正,并且能够提升红外人脸检测的精度.

本文的跨光谱人脸检测框架主要包括候选框布置策略和跨光谱特征表示.依据坐标映射的结果,可以获取红外人脸的大致位置,如图1 中候选框对应区域所示,候选框在此区域内以坐标映射后的人脸框大小为基准,由左至右密集布置.分别截取候选框位置对应的红外图像和可见光图像中检测到的人脸图像,截取到的图像如图8 中黄色虚线区域所示.使用跨光谱特征表示网络分别提取每个红外候选图像的特征和可见光人脸图像的特征,特征提取示意图如图8 中特征提取对应区域所示,最后分别计算每个候选框对应特征向量与可见光人脸对应的特征向量之间的距离,与可见光人脸最近的候选框即为检测结果,如图8 中检测结果对应区域所示.

图8 跨光谱人脸检测框架Fig.8 Cross-spectral face detection framework

布置候选框是目标检测任务中常用的方法,其目的是找到所有可能涵盖有目标的区域,候选框的质量与数量是影响最终检测性能的重要因素.借助跨光谱图像的优势,根据可见光图像提供的人脸位置先验信息,可以产生质量较高,数量较少的候选框.根据第2 节中坐标映射偏差的分析可知,坐标映射的偏差主要存在于水平方向,因此以映射后的边界框为中心,分别向其左右密集布置候选框,能够有效将真实的人脸边界框涵盖在内.

在图像中,远处的人脸像素面积较小,近处的人脸像素面积较大,使用固定像素点步长布置候选框不合理,过于稀疏的候选框布置会导致每个候选框之间的间距较大.而真实的人脸边界可能存在于两个候选框之间,最终可能导致定位不准确.过于密集的候选框布置会增加候选框的数量,同时两个候选框之间的图像过于相似,不利于后续的精确定位.因此根据人脸的大小对候选框进行布置,本文使用1/8 人脸框的横向长度为步长,并且最远布置到1/2 人脸横向长度,左右对称布置,每个人脸具有9 个候选框.

检测框架第2 个步骤的关键是挑选出能准确表达红外人脸位置的候选框.本文在非常深的卷积神经网络(GG-very-deep-11 CNN,VGG11)[33]的基础上设计了跨光谱特征表示网络,该网络的卷积层与VGG11 一致,仅使用了一个全连接层(Fully connected layers,FC),最终网络的输出是维度为8 的特征向量.网络结构如图9 所示,主要由卷积层、池化层和全连接层组成,“Conv 3 × 3,64”表示卷积的卷积核大小为3 × 3,输出通道数为64,池化层的过滤器为2 × 2,步长为2,全连接层的输入向量的维度是512,输出特征向量的维度是8.该方法用于表示可见光图像和红外候选框图像之间的相似特征,根据所提取特征判断候选框图像与可见光图像的相似程度,以此来选择最优候选框.网络的训练方式如图10 所示,训练的目的是使得可见光人脸的特征与对应的红外图像人脸特征之间的距离尽可能小,而与背景特征之间的距离尽可能大.本文使用了FaceNet[34]中的三元损失函数来引导卷积神经网络学习鉴别特征.在FaceNet 中,三元损失函数能够拉近同一个人脸的特征,而使不同人脸提取到的特征疏远.此处,使用三元损失函数的目的是能够将同一人的可见光人脸特征与红外人脸特征拉近,而使得偏离准确人脸位置的候选框图像特征与可见光人脸特征之间的距离变大.

图9 跨光谱特征表示网络Fig.9 Cross-spectral feature representation network

图10 跨光谱特征表示网络训练方式Fig.10 Cross-spectral feature representation network training method

由于候选框布置较为密集,相邻候选框之间蕴含的信息差异有限,尤其是靠近真实人脸位置的候选框,所以网络提取到的特征极为相似.为了提高网络对相似候选框图像的分类能力,获取了含有部分人脸的负样本用于训练网络.如图11 所示,负样本包括左右两侧7/8 的人脸、6/8 的人脸、5/8 的人脸、4/8 的人脸以及完全的背景部分.在训练过程中,将每种负样本作为一类,即网络的预测含有六类.此种负样本的选取方式是为了使分类器对相似候选框中的人脸具有更好的区分性,从而增强人脸检测的准确度.

图11 含有部分人脸的负样本Fig.11 Improved negative sample selection method

在测试阶段,由于受材料等因素的影响,可能存在可见光图像中含有人脸而红外图像中不含人脸的情况.例如,可见光相机可以透过玻璃拍摄到玻璃后的人脸,但是红外相机只能采集到玻璃表面的红外信息.此时由于红外图像中不含有人脸,导致所有候选框的置信度均较低,当置信度低于某个阈值时检测结果将被舍弃.

4 CSF 跨光谱人脸数据集

CSF 跨光谱数据集包含可见光相机和热红外相机同时采集的人脸图像,采集场景为人员密集的楼宇出入口.值得说明的是人脸数据采集的过程中,未对过往人员进行任何行为约束,因此采集到的人脸图像包含有遮挡、姿态变化等情况.

CSF 数据集主要包含测试集和训练集两部分.测试集含有3 000 帧手工边界框标签的数据,其中包括白天8:00 至8:30 的数据1 500 帧,夜间19:30至21:30 的数据1 500 帧,用于测试算法性能的基准;训练集包含1 500 帧不含有手工标签的数据,用于训练模型.测试集包含4 821 个人脸标注框,单张图像中最多含有7 个人脸标注框.训练集共有2 155个人脸标注框.

数据集中的图像由跨光谱双目相机进行采集,可见光相机是迈德威视GigE 彩色工业相机,红外相机是FOTRIC 680 系列热红外相机.

双相机被固定在同一个平台上,左、右摆放,光轴同向,如图12 所示,两相机固定在钢板上,由于安装精度原因,可能存在一定的误差.可见光相机采用的光学镜头,红外相机采用的是特殊材质的镜头,因此无法实现镜头视场角的严格统一.双相机均为网络相机,通过网线与采集控制设备相连接.使用电脑控制两相机同时采集图像,红外相机的采集频率保持30 Hz 不变,可见光相机由于随着外界光照的变化需要自动调整曝光时间,采集频率也会随之改变.由于保存每帧的数据需要巨大的存储空间,所以在可见光图像上检测到人脸时才保存当前帧数据.除了保存可见光图像和红外图像以外,存储了红外相机采集到的原始辐射值,以便后续进一步开展深入研究.

图12 相机安装位置Fig.12 Camera installation location

采集设备的环境含有正常光线,夜间照明不足等情况.如图13 所示,左列为可见光图像,右列为与可见光图像对应的红外图像;第1 行为白天光照较强的场景的可见光图像,第2 行为夜间光照不足的场景.可见光相机曝光时间较长会导致图像的动态性能较差,采集到的运动的人脸模糊,因此在夜间采集数据时可见光相机的曝光时间被限制在30 ms 以内,并且尽可能保证可见光图像中的人脸可以被检测到.

如果不是极为细腻的口味,是不会知道,糖藕中的糯米球才是最好吃的。吸收了藕的清甜,却没有藕的渣口,代之以糯米的绵密,是江南甜点里登峰造极的东西。如日剧《白夜行》的女主角雪穗所说:“年轻时没有尝过美味,就不能培养真正的味觉。”

图13 不同采集条件下的图像Fig.13 Images under different acquisition conditions

5 实验部分

本文实验是在CSF 数据集上和OTCBVS 数据集上,进行跨光谱人脸检测实验.

OTCBVS 数据集是在室内采集的可见光和红外配对的数据集,其数据采集形式与CSF 数据集的采集形式一致,采用左右双相机,分别为可见光相机和红外相机.本文研究重点是跨光谱图像的人脸检测问题,因此对该数据集中的1 500 帧红外人脸进行了人工标注,以评估检测算法的性能.

可见光图像中的人脸检测使用的是人脸检测器(Dual shot face detector,DSFD)[3].

可见光与红外图像之间坐标映射依据式(11)和式(12)进行实验,相机在使用前需要进行标定,以获取平移和缩放参数.其中缩放参数和纵向平移参数为常数.依据式(11)可知横向平移参数与当前深度值相关,但是深度值无法实时准确获取.因此在标定时以较远处(约5 m)为基准获取横向平移参数,当深度发生变化时,再依据第3.1 节中的粗略补偿方案对横向平移量进行粗略修正.

跨光谱特征表示网络使用未标注的红外和可见光数据构建训练集.DSFD 用来分别检测可见光和红外图像中的人脸.在可见光图像与红外图像中同时检测到同一个人脸时,将可见光人脸图像保存,并按照红外图像中的正负样本选取规则保存对应的红外图像.在跨光谱特征表示网络的训练阶段,以可见光人脸图像作为模板,将红外人脸图像作为正样本,红外图像的非人脸区域作为负样本,所有图像的大小统一调整至 32×32,使用三元损失函数对网络进行训练.通过损失函数的约束,可见光人脸图像提取到的特征与红外人脸图像提取到的特征会趋于相似,而与红外图像非人脸区域提取到的特征差异变大.

在测试阶段,分别提取可见光图像的特征与红外候选框图像的特征,计算所有候选框特征与可见光人脸图像特征的距离.由于三元损失函数约束正样本时使用了二范数距离的平方,因此在测试阶段计算特征相似度时仍使用相同的计算方式.将计算得到的距离进行排序,距离最近的特征对应的候选框为检测结果.

实验将红外图像中人脸检测的准确度作为检测结果的评估标准,采用平均正确率(Average precision,AP)作为人脸检测的评价指标.Intersection over union (IoU)阈值分别选取0.5和0.3,IoU 为0.5 的AP 值是常用的目标检测评估标准.此处也选取IoU 为0.3 时,通过实验说明本文方法相比于直接在红外图像中检测人脸性能更好.

本节分别测试了坐标映射、坐标纠正以及本文提出的跨光谱人脸检测算法在不同数据集上的性能,实验结果如表1~3 所示.

表1 测试集为CSF-白天的实验结果Table 1 Experiment results on CSF-day

实验结果显示,仅通过坐标映射得到的红外人脸位置精度不高,粗略修正能够在一定程度上提高检测的精度,但是结果仍无法令人满意.然而,本文提出的跨光谱人脸检测算法能够大幅提高检测性能,并在IoU 为0.3 时的实验数据表明,本文算法仍有较大的提升空间.

此外,本文对候选框的召回率进行了评测.当红外人脸的真实边界框与任一候选框的交并比大于设定阈值时,即认为该真实边界框被召回.分别评估了交并比为0.5和0.3 情况下的召回率,结果如表4 所示.

表4 候选框召回率(%)Table 4 Proposal recall (%)

表2 测试集为CSF-夜间的实验结果Table 2 Experiment results on CSF-night

表3 测试集为OTCBVS 的实验结果Table 3 Experiment results on OTCBVS

表4 的实验结果显示,本文的候选框布置策略所产生的候选框能够将绝大多数的真实人脸涵盖在内,基本满足人脸检测需求.

为了探究候选框的布置策略对模型精度和效率的影响,本节依据第3.2 节的候选框设置策略,分别对模型进行测试,并评估了测试精度和不同设置下的模型运行时间.模型的训练及测试使用的GPU为NVIDIA TITAN V.实验结果如表5和表6 所示,表中1/8 代表含有1/8 步长的候选框,1/8和2/8 表示含有1/8 步长的候选框和2/8 步长的候选框,以此类推.在不同的候选框设置条件下,分别测试了当IoU > 0.5 时模型的精度和模型处理单张图像的时间.

表5和表6 的实验结果显示,随着候选框数量的增多,模型的精度也在逐步上升,时间消耗也随之增加.当候选框达到3/8 步长时,模型的精度基本达到最大值,也说明了数据集中的人脸偏差基本分布在3/8 人脸宽度内.在实际应用中可能由于相机型号不同,导致偏差略有增大或减小,可根据实际情况对候选框的布置策略进行调整,以达到最佳的性能或速度.

表5 CSF 中候选框的选取对模型的影响Table 5 Influence of the selection of the proposal on the model in CSF

表6 OTCBVS 中候选框的选取对模型的影响Table 6 Influence of the selection of the proposal on the model in OTCBVS

为了证明不同难度的负样本对模型训练的影响,本文设置了不同难度的负样本用于训练模型,测试集数据使用的是CSF 中的测试集.实验结果见表7 所示.

表7 负样本类型对模型精度的影响Table 7 Effect of negative sample type on model accuracy

表7 的实验结果显示,仅使用完全背景的图像作为负样本时,训练得到的网络性能不理想.使用含有部分人脸图像作为负样本时,人脸占比面积越大,网络性能越差.当综合使用所有负样本时,训练得到的网络性能最佳.

为了进一步证明跨光谱人脸检测算法的优越性,本文使用了当前主流的人脸检测算法在CSF数据集和OTCBVS 数据集上进行了测试.分别使用在WIDER-face 数据集上训练好的模型的测试结果和使用红外数据重新训练后的测试结果.为了保证实验的公平性,使用红外数据训练主流检测模型时,应用了与本文训练跨光谱特征提取网络同样的训练集.不同的是,本文算法在训练时,仅用了人脸区域及其附近的图像,而主流算法在训练时使用了完整的红外图像,测试数据使用的是CSF 测试集全部数据和OTCBVS 数据集的测试集.实验结果如表8和表9 所示,其中FaceBoxes[12]、S3FD[9]、Pyramidbox[13]、DSFD[8]、Tinyface[10]均为在WIDER-face 数据集上训练得到的人脸检测模型,S3FD-IR和DSFD-IR 分别为S3FD和DSFD 在红外数据上重新训练后的模型.

表8 CSF 数据集上的对比实验结果Table 8 Comparative experiment results on CSF dataset

表9 OTCBVS 数据集上的对比实验结果Table 9 Comparative experiment results on OTCBVS dataset

表8和表9 的实验结果显示,使用现有的人脸检测算法直接应用在红外图像时,检测结果很不理想;即便使用红外数据重新训练检测模型,最终的检测结果依然不能令人满意.而本文提出的跨光谱人脸检测显著的优于其他具有竞争力的人脸检测算法.

本节展示了DSFD 在红外图像中重新训练(DSFD-IR)的检测结果、S3FD 在红外图像中重新训练(S3FD-IR)的检测结果以及DSFD-本文算法的检测结果的对比图,如图14 所示.其中左侧一列为S3FD-IR 的检测结果,中间一列为DSFD-IR 的检测结果,右侧一列为DSFD-本文算法的检测结果,第1 至3 行为CSF 测试集中的部分检测结果,第4 至5 行为OTCBVS 数据集中的部分检测结果,每张图像中,红色边界框表示算法检测的人脸位置,绿色边界框表示真实的人脸位置.

由图14 第1 行的检测结果可以看出,S3FDIR和DSFD-IR 的检测结果中存在误检的情况,原因是红外人脸数据面部细节特征不明显,模型容易将热量较高部分作为人脸的主要特征,因此发热物体可能会被检测器检测为人脸,而本文的检测算法不易误检,原因是可见光图像的人脸检测步骤过滤掉了大部分的背景区域.

由图14 第2 行的检测结果可以看出,S3FDIR和DSFD-IR 检测结果的边界框会包含脖子部分,导致边界框不能完全表示人脸的位置,原因是在红外图像中脖子与人脸融为一体,模型难以准确获取其边界.相比之下,本文的算法由于有可见光图像对边界框的约束,能够得到较准确的检测结果.

由图14 第3 行的检测结果可以看出,DSFDIR 存在漏检人脸的情况,当人脸遮挡较为严重时,DSFD-IR 算法难以检测到人脸位置.

由图14 第4 行的检测结果可以看出,所有算法均漏检了最右侧的人脸,原因是红外图像中该人脸热量较低,难以检测,本文算法依赖可见光图像中的人脸检测结果,当可见光图像中未检测到人脸时,红外图像中的人脸同样会被漏检.

由图14 第5 行的检测结果可以看出,S3FDIR 检测到的人脸边界框存在较大偏差,未能准确表示人脸的位置,DSFD-IR 存在漏检的情况,而本文的算法能够较好的检测红外图像中的人脸.

图14 检测结果对比图Fig.14 Comparison of face detection results

通过对实验结果的分析可知,S3FD-IR和DSFD-IR 检测红外图像中的人脸时存在较多的检测缺陷,而DSFD-本文算法能够更好的检测红外图像中的人脸位置.但是本文算法较为依赖可见光图像中的检测结果,可见光图像中的人脸检测性能较差时,将直接影响最终的检测结果.后续工作将考虑依靠红外视频帧之间的相关性对候选框进行布置,降低对可见光图像的依赖.

6 结束语

本文提出了一种弱对齐跨光谱图像的人脸检测算法,该算法利用了可见光图像与红外图像的弱对齐关系和两者之间的一致特征,克服了跨光谱图像之间的偏差,达到了准确检测红外人脸的目的.与直接在红外图像中检测人脸的算法相比,本文的算法速度更快,人脸位置检测精度更高,模型训练成本更低.大量的实验证明,本文提出的跨光谱人脸检测算法能够快速准确地检测红外图像中的人脸.虽然本文的算法已经能够较好解决红外人脸检测难的问题,但是算法部分模块设计不够细致,数据集的构建也不够完善,对可见光图像中的人脸检测结果依赖性强.在后续的工作中,将深入挖掘可见光人脸与红外人脸之间的一致特征,设计更加有效的跨光谱特征表示网络和目标函数,依靠红外图像视频帧之间的相关性设计候选框布置策略,以进一步提升检测性能,同时也会进一步在更多场景下采集跨光谱人脸数据,以增加数据集的多样性.

猜你喜欢
候选框人脸红外
重定位非极大值抑制算法
网红外卖
面向自然场景文本检测的改进NMS算法
有特点的人脸
一起学画人脸
闪亮的中国红外『芯』
基于深度学习的重叠人脸检测
TS系列红外传感器在嵌入式控制系统中的应用
三国漫——人脸解锁
一种针对特定目标的提议算法