基于多摄像头接力跟踪的远红外人物身份识别方法

2021-10-22 07:31:33江鹏飞王保栋董子昊李金屏
关键词:人脸识别人脸摄像头

江鹏飞,王保栋,董子昊,李金屏

(济南大学 a. 信息科学与工程学院,b. 山东省网络环境智能计算技术重点实验室,c. 山东省“十三五”高校信息处理与认知计算重点实验室,山东 济南 250022)

随着老年人隐私保护意识逐渐增强,安装低分辨率远红外摄像头对老年人进行无接触的室内养老监护成为人们关注的热点。同一房间一般由多位老年人共同居住,及时识别老人身份能够大幅提高发生意外时的处理效率,但低分辨率远红外监护视频仅能反映热源温度信息,且视频中人物图像的分辨率只有40~50像素,人脸图像的分辨率约为7像素,导致人物信息丢失严重,常规的基于计算机视觉的人物身份识别方法难以有效识别视频中人物身份。

人物身份识别是学术研究的热点领域之一,其根本原理就是利用人物固有的身份特征进行人物身份认定。利用计算机视觉进行人物身份识别时,先从需要识别的图像或视频中提取人物特征,然后与数据库中的身份信息进行匹配,获得人物身份,其中人脸识别[1-11]、步态识别[12-17]和行人重识别是对监护视频中的人物身份进行识别的主要方法。人脸识别通过提取人脸图像的固有特征作为识别的依据,是目前最有效的身份识别方法。大多数远红外人脸识别研究都是针对较大分辨率、特征明显的远红外人脸图像的,例如: 文献[1]中通过提取原始图像的分辨率为240像素×320像素的远红外人脸中的局部二值模式(local binary patterns,LBP)特征来识别人物身份; 文献[2]中提出了稀疏表示分类,对分辨率仅为40像素×30像素的远红外人脸图像进行识别,获得了较好的识别效果。

通常,在低分辨率远红外监护视频中的人脸图像分辨率太小,特征丢失,不能满足传统方法的要求,识别效果不佳。步态识别通过在一段视频或图像序列中提取人物正常行走的步态特征作为人物的身份特征进行识别。由于远红外视频中步态受到时间、地形、视角、服饰和老人的身体状态等因素的影响,因此步态特征波动较大。同时在实际场景下不可避免地存在步态不一致和遮挡问题,因此在实际使用中步态识别不能算是一种有效的人物身份识别方法。在监护视频中,由于相机分辨率较低,安装位置较远,难以得到高质量的人脸图像,甚至始终无法获得人脸图像,因此行人重识别成为重要的代替方法。行人重识别主要有两大方向,即特征表示[18-21]与度量学习[22-26]。基于特征表示的方法通过提取人物的全局或局部外貌特征,利用欧氏距离等标准距离进行相似性度量。度量学习则通过学习得到一个新的距离度量空间,使同一人物特征之间的距离较小,不同人物特征之间的距离较大。目前行人重识别对于实际场景中的遮挡问题还没有完全解决,并且不能适应远红外视频中季节、服装以及生理因素等引起的人物特征不规律变化,因此需要进一步研究。

为了识别低分辨率远红外监护视频中的人物身份,针对低分辨率远红外图像信息丢失严重和人物特征不规律的问题,本文中提出一种基于多摄像头接力跟踪的远红外人物身份识别方法(简称本文方法),利用时空信息,将室外可见光视频与室内低分辨率远红外监护视频中的人物身份相结合,在有效保护老人隐私的前提下,实现低分辨率远红外监护视频中的人物身份识别。

1 算法原理

当在某一时刻识别到某人物身份,其他时刻通过认定待识别人物是此已知身份的人物时,即可实现在任意时刻的人物身份识别。基于这种思路,本文方法将基于多摄像头接力跟踪的远红外人物身份识别方法分为可见光视频中人物身份识别和通过人物轨迹检测与跨模态多摄像头接力跟踪实现人物身份一致性认定两大步骤,具体流程如图1所示。

图1 远红外人物身份识别算法流程图

1.1 可见光视频中人物身份识别

在房间门口外安装可见光摄像头,能够在不侵犯个人隐私的前提下获得高质量的人脸图像,因此可以使用人脸识别算法识别将要进入房间的人物身份。视频中的人脸识别方法主要包含人脸检测、预处理、特征提取和特征匹配4个部分,其中人脸检测和特征提取是关键。为了满足监护视频中实时性和准确性的要求,本文中使用You Only Look Once(YOLO)v3算法[27]完成人脸检测,然后配合卷积神经网络ResNet50实现提取人脸特征,完成人脸识别。

1.1.1 基于YOLOv3算法的人脸检测

YOLO是一种成熟的目标检测算法,具有检测速度快、精度高的特点,且使用端对端的训练方式与预测手段,具备较高的灵活性。YOLOv3算法采用Darknet-53网络结构,在网络层间引用残差模块,在保证检测实时性的同时增加网络结构(见图2),进一步提高了检测精度。由图可见,输入图像经过Darknet-53网络,提取输入图像的特征;对得到的特征图分别进行2次上采样与张量拼接,得到3个不同尺度的特征,然后在3个尺度对不同大小的人脸进行检测。

类型卷积核通道个数卷积核尺寸(行数×列数)特征图尺寸(行数×列数)卷积层323×3416×416卷积层643×3/2208×2081×卷积层321×1卷积层643×3残差块208×208卷积层128 3×3/2104×1042×卷积层641×1卷积层128 3×3残差块104×104卷积层256 3×3/252×528×卷积层128 1×1卷积层256 3×3残差块52×52卷积层512 3×3/226×268×卷积层256 1×1卷积层512 3×3残差块26×26卷积层1 024 3×3/213×134×卷积层512 1×1卷积层1 024 3×3残差块13×13均值池化 全连接 1 000 归一化指数函数图2 Darknet-53网络结构

在前向传播过程中输入图像被划分成s×s个网格,最终每个网格都预测出b个检测框,得到的检测框都包含检测框的中心坐标、检测框的宽度和高度,以及这个检测框所属类别的置信度。每个检测框的损失函数l包括4个部分,定义为

l=λl1+l2+l3,

(1)

式中:l1为检测框的中心坐标、宽度和高度损失;λ为赋予l1的权重;l2为检测框的置信度损失;l3为检测框的分类损失。

当第i个网格的第j个检测框负责某真实目标时,该检测框所产生的边界框与真实目标的边界框进行比较,计算得到中心坐标、宽度和高度损失l1,定义为

(2)

检测框的置信度损失l2定义为

(3)

只有当第i个网格的第j个检测框负责某个真实目标时,该检测框所产生的边界框才会计算分类损失函数,即分类损失l3定义为

(4)

1.1.2 基于ResNet50网络的人脸识别

神经网络层数越多,所能够提取的特征越丰富,但简单的堆叠网络也会带来严重的梯度消失问题。针对该情况,深度残差网络(deep residual network, ResNet)[28]引入残差学习解决深度网络难以优化的问题,即用H(x)表示最优映射,用堆叠的非线性层拟合另一映射F(x)=H(x)-x,基中x为网络输入,此时最优映射可以表示为H(x)=F(x)+x。残差映射在前馈网络中增加捷径连接,执行简单的恒等映射,这样不会增加额外参数和计算复杂度,比原有映射更易优化。残差网络示意图如图3所示。

图3 残差网络示意图

ResNet50网络是性能优良的残差神经网络模型,本文中以该网络为人脸识别模型的基本框架并使用归一化指数函数Softmax损失进行监督训练。

通过ResNet50网络从提交的人脸模板图像中提取特征向量作为人物身份特征模板存入数据库中。在人脸识别过程中,首先使用此网络提取待识别人脸图像的特征向量,然后计算此特征向量和数据库中的人物身份特征模板的欧氏距离,从而识别待识别人脸图像所属的人物的身份。欧氏距离的计算公式为

(5)

式中:f为待识别人脸特征向量;fd为数据库中人物的身份特征向量;d(f,fd)为f与fd之间的欧氏距离;n为特征向量维度;fr、fdr分别为人脸特征向量和身份特征向量第r维特征值。当欧氏距离最小时对应的数据库中的人物身份即为待识别的人物身份。

1.2 人物身份一致性认定

人物身份一致性认定利用目标跟踪算法获得人物的连续时空信息,认定视频中不同时刻的人物是同一身份。本文中在单一摄像头下使用人物运动轨迹检测方法,在可见光与远红外摄像头之间使用跨模态多摄像头接力跟踪方法实现人物身份一致性认定。

1.2.1 人物运动轨迹检测

运动轨迹是指人物从出现到离开的时间段内每一时刻在视频中的位置。在同一摄像头拍摄的连续视频中,通过目标跟踪算法对视频中的人物进行连续跟踪,检测人物的运动轨迹,即可判断前、后2幅图像中的人物是否为同一身份。本文中人物运动轨迹检测共包括2个部分,分别是通过YOLOv3算法进行人物检测和使用核相关滤波跟踪(kernel correlation filter, KCF)算法[29]跟踪目标人物。KCF算法基于样本的梯度方向直方图(histogram of oriented gradients, HOG)特征跟踪目标,具有不需要训练样本的优势,同时利用循环矩阵可以离散傅里叶对角化的性质,加快了跟踪速度。

由于人物活动总会使HOG特征产生变化,目标跟踪效果劣化,使得目标跟踪框与人物真实位置出现偏差,因此需要计算人物检测框和目标跟踪框的重合度,用于校正跟踪框的偏差。人物检测框和目标跟踪框的重合度ε的计算公式为

(6)

式中:sd为人物检测框的面积;st为目标跟踪框的面积;sdt为人物检测框和目标跟踪框重合部分的面积。若目标跟踪框过大或ε小于设定阈值,即认定跟踪结果出现较大偏差,需要根据人物检测结果重新更新跟踪目标。

1.2.2 跨模态多摄像头接力跟踪

对于人物从室外可见光摄像头视野域进入室内远红外摄像头视野域的情况,需要使用跨模态多摄像头接力跟踪方法来实现跨摄像头身份一致性认定。由于可见光摄像头和远红外摄像头分别拍摄室外与室内2个不同区域,因此2个摄像头视野域之间无重叠区域。无重叠区域的接力跟踪方法一般采用基于目标特征匹配[30-31]的方法,即从不同视频中提取目标的特征进行匹配来判断不同视频中的目标是否相同。由于可见光摄像头和远红外摄像头成像原理各异、摄像头拍摄角度不同、远红外摄像头分辨率过低等导致同一目标在2个摄像头间的特征难以匹配,无法使用基于目标特征匹配的方法实现跨模态多摄像头接力跟踪,因此本文中采用了基于时空信息的接力跟踪方法建立跨模态多摄像头接力跟踪模型。基于时空信息[32-33]的接力跟踪方法通过建立多摄像头之间的时空拓扑结构,即不同摄像机视野域的空间转移和转移时间概率模型,根据时空信息判断前、后2个目标是否为同一目标。

由于在低分辨率远红外监护视频中的人物身份识别过程只需要实现从室外可见光摄像头视野域到室内远红外摄像头视野域的接力跟踪,因此多摄像头空间邻接关系如图4所示。

确定摄像头视野域进、出口是为了确定目标进行一次转移的起点和终点,因为在此接力跟踪过程中,仅有可见光摄像头视野域中的一个出口和与其对应的远红外摄像头视野域中的一个进口,所以人物转移方式示意图如图5所示。2个视野域之间存在一个由房门阻隔形成的空间较小的封闭盲区,即无法从盲区进入其他区域,也不可能从其他区域进入盲区,因此目标只可能从可见光摄像头视野域经盲区进入远红外摄像头视野域,或目标进入盲区后折返。当多人同时转移时,由于盲区空间较小行人无法并行,因此转移次序不会改变。多摄像头空间邻接关系和人物转移方式共同组成空间转移模型,因此在该场景下无须特别建立多摄像头空间转移模型。

图4 多摄像头空间邻接关系示意图

图5 接力跟踪实验人物转移方式示意图

本文中将转移过程分为慢速、正常和高速运动3种情况,采用混合高斯分布进行转移时间概率建模,对应的高斯权重模型P(t)为

(7)

其中

(8)

为了提高转移时间概率模型的准确性,根据实际情况,实时更新混合高斯分布参数,

(9)

(10)

当人物从可见光摄像头视野域转移至远红外摄像头视野域时,若同时满足空间转移和转移时间概率模型,即可认为2个视频中的人物为同一人物。

2 实验及结果分析

2.1 实验设计

2.1.1 实验平台

本实验中硬件配置为Inter I5-9600KF型中央处理器搭配GTX-1660Super型图形处理器,软件采用图像处理库Opencv和深度学习框架Pytorch。

为了验证本文方法的有效性,使用分辨率为1 280像素×720像素的可见光摄像头和分辨率为320像素×240像素的远红外摄像头构建无重叠视野域的实验平台,2个摄像头保持同步,摄像头视野域之间的盲区为封闭区域,实际场景如图6所示。

(a)可见光摄像头视野域

(b)远红外摄像头视野域图6 无重叠视野域实验平台

2.1.2 评估指标

验证本文方法的有效性主要从可见光人脸识别、远红外视频中人物轨迹检测以及跨模态多摄像头接力跟踪3个方面进行分析。由于低分辨率远红外监护视频中人物步态和外貌特征受到衣着、季节等因素的影响,难以作为身份识别的依据,因此选择基于远红外人脸识别的人物身份识别方法与本文方法进行对比。本文中选用准确率作为可见光人脸识别、人物运动轨迹检测和跨模态多摄像头接力跟踪方法的评估指标。由于可见光人脸识别算法计算量较大,因此采用平均计算速度衡量可见光人脸识别算法的实时性。定义准确率Acc为

(11)

式中:np为正确识别身份并且跟踪正确结果总数;ntot为识别和跟踪结果总数。

2.1.3 实验数据

考虑到老年人行动不便,在实验平台中通过10位年轻志愿者模拟老年人生活的真实场景,拍摄40段人物运动视频,另外标注1 000幅可见光人脸图像用于可见光人脸识别模型的训练,如图7(a)所示;标注1 000幅远红外视频中的人物图像用于人物轨迹检测模型的训练,如图7(b)所示。为了与远红外人脸识别方法进行对比,标注1 000幅远红外视频中的人脸图像用于远红外人脸识别模型的训练,人脸图像分辨率仅为6~7像素,部分人脸图像如图7(c)所示。

2.2 结果分析

2.2.1 可见光人脸识别

分别训练可见光人脸检测与识别模型,可见光人脸识别实验结果如表1所示。由表可以看出,将人脸识别网络嵌入YOLOv3算法后,模型在人脸测试样本个数为200时识别准确率达到98.21%,并且模型整体运行较快,处理一幅图像的平均时间仅为0.006 3 s,能够满足视频中实时身份识别需要。

(a)可见光人物图像

(b)远红外人物图像

(c)低分辨率远红外人脸图像图7 远红外人物身份识别实验数据

表1 可见光人脸识别实验结果

2.2.2 人物运动轨迹检测

图8所示为不同重叠度阈值时人物运动轨迹检测准确率。由图可知,即使在较大的重叠度阈值时也能取得较好的准确率。最终本文中选择的重叠度阈值为0.6,此时人物运动轨迹检测准确率为91.1%。

图8 不同重叠度阈值下的人物运动轨迹检测准确率

2.2.3 跨模态多摄像头接力跟踪

在跨模态多摄像头接力跟踪实验中,对80段接力跟踪视频中穿过2个摄像头视野域中间盲区所用时间进行混合高斯建模,得到慢速、正常和高速状态下穿过中间盲区所用的转移时间概率模型,结果如图9所示。图10所示为跨模态多摄像头接力跟踪实例。

图9 跨模态多摄像头接力跟踪转移时间概率模型

(a)可见光视频第200帧(b)可见光视频第260帧(c)远红外视频第320帧(d)远红外视频第380帧图10 跨模态多摄像头接力跟踪实例

从可见光人脸识别、人物运动轨迹检测、跨模态多摄像头接力跟踪实验结果可以看出,本文方法在可见光人脸识别、人物运动轨迹检测和跨模态多摄像头接力跟踪3个方面的准确率都较高,验证了本文方法的准确性。

2.2.4 远红外人物身份识别

采用基于梯度方向直方图特征、局部二值模式特征和ResNet50网络的远红外人脸识别方法与本文方法进行对比,实验结果如表2所示。从表中可以看出,本文方法利用时空信息将远红外视频与可见光视频中的人物身份进行了统一,因此具有较高的准确率。基于远红外人脸识别的人物身份识别方法准确率普遍较低,这是由低分辨率远红外监护视频中远红外人脸图像难以有效提取特征导致的。

表2 基于不同算法的远红外人物身份识别方法的实验结果

3 结语

采用低分辨率远红外摄像头在室内对老年人养老监护,能有效保护老年人隐私,但也给低分辨率远红外监护视频中的人物身份识别带来了困难。本文中提出了一种基于多摄像头接力跟踪的远红外人物身份识别方法,实验结果证明该方法能够有效识别低分辨率远红外监护视频中的人物身份,可以为处理监护过程中的突发性事件提供帮助。该方法需要另外在室外安装可见光摄像头,虽然不侵犯老年人隐私,但是增加了监护成本,需要进一步改进。

猜你喜欢
人脸识别人脸摄像头
浙江首试公路非现场执法新型摄像头
人脸识别 等
作文中学版(2022年1期)2022-04-14 08:00:34
摄像头连接器可提供360°视角图像
有特点的人脸
揭开人脸识别的神秘面纱
学生天地(2020年31期)2020-06-01 02:32:06
三国漫——人脸解锁
动漫星空(2018年9期)2018-10-26 01:17:14
基于类独立核稀疏表示的鲁棒人脸识别
计算机工程(2015年8期)2015-07-03 12:19:07
奔驰360°摄像头系统介绍
马面部与人脸相似度惊人
长得象人脸的十种动物
奇闻怪事(2014年5期)2014-05-13 21:43:01