林智能
摘要:人脸特征点定位对人脸分析等领域有着重要作用,为了提高人脸特征点定位的准确性及跟踪的鲁棒性,提出一种鲁棒的长期人脸特征点跟踪系统。该系统有效结合了人脸检测、中值光流法和深度学习模型人脸特征点定位方法。首先,深度模型对当前帧的人脸进行特征点定位;其次,中值光流法跟踪当前帧的特征点,通过有效的跟踪的特征点评估下一帧的人脸位置;再次,通过提出的跟踪校验方法对跟踪结果进行校验;最后,利用深度模型对下一帧的人脸特征点进行修正。实验结果表明,提出的动态方法在公开的数据集上取得更好的结果。
关键词:人脸特征点跟踪;人脸检测;中值光流法;深度学习;跟踪校验
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)08-0174-04
人脸特征点定位指的是通过监督或半监督的方式定位人脸关键点的技术,人脸关键点包括眼睛、鼻子、嘴巴、甚至是人脸下巴轮廓等。由于人脸的特征点蕴含了人脸的语义信息,对人脸识别、表情分析、人脸姿态估计等起着关键性作用而受到广泛关注。目前研究比较广泛人脸特征点定位方法可以分为两类:生成模型和回归模型。
生成模型的典型代表是主动外观模型(AAM)vj和主动形状模型(ASM),它们都通过迭代的方式优化表观参数并构建模型。ASM通过训练集中人工标记得人脸形状来构建全局形状模型。AAM则在ASM的形状模型基础上,建立了全局的人脸纹理模型。ASM可以快速的定位到人脸特征点,而AAM可以定位到更精确的特征点。但在大姿态、光照影响造成的纹理不清晰等复杂背景下,两者均较难得到最优的人脸特征点。
回归模型则通过直接学习人脸特征与人脸特征点之间的映射关系。Xiong等。提出监督下降法(SDM)通过监督学习的方式建立手工设计的人脸形状特征与特征点之间的线性回归模型。Kazemi等提出组合回归树的方法实现人脸对齐,并由于在静态图像人脸特征点定位中任务中具有准确实时特性,被用于人脸特征点跟踪中。
近年来,深度学习成为热门的研究,深度学习在分类、回归分析等领域都取得了突破性进展。同样,基于深度学习的方法比传统的人脸特征点定位方法表现出更优异的性能,因为深入学习可以利用原生大数据进行训练,挖掘大数据内在的数据结构,而不需要手动设计特征。Sun等提出级联的深度卷积神经网,并采用由粗到细的方式对人脸的五个关键特征点(眼睛中心、鼻尖和嘴角)进行定位。但该网络结构很难拓展到大规模的人脸特征点定位中。Zhang等提出四层的层叠自动编码器网络,每层网络都考虑到全局特征,充分挖掘了特征点之间的几何约束,在遮挡情况有更好的鲁棒性。
尽管人脸特征点定位在静态图像中取得很大成功,但在真实的非约束环境中,由于表情、光照、遮挡、姿态以及视频质量的原因,长期的人脸特征点跟踪研究却较少受到关注。幸运的是,300VW最近提出了一个新的特征点跟踪的基准,涵盖了在无约束的环境中的人脸特征点跟踪,包含了各种照明条件下,在任意表达式,并可能被其他对象遮挡。
目前,人脸特征点跟踪可以分为以下三种架构:
1)人脸检测+特征点定位被称为跟踪一检测(tracking-by-detection)。该方式将视频序列视为由独立的视频序列组成,采用静态图像的处理方式,对视频序列的每一帧先进行人脸检测器来定位到人脸位置,再提取检测到的人脸的特征点。该方式的优点是不会产生漂移,特征点的定位比较准确和稳定。尽管人脸检测方法比较成熟,但仍然存在误检和漏检问题,这一点在真实的非约束环境中体现尤为明显。
2)目标跟踪+特征点定位该方式对人脸目标进行跟踪,并提取所跟踪到目标的特征点。跟踪算法虽可以弥补人脸检测的不足,但由于跟踪漂移问题,无法实现长期跟踪。
3)混合系统混合系统有效结合现有的人脸检测、跟踪和人脸特征点定位算法来提高人脸特征点跟踪的鲁棒性。
OpenFace是一个集成人脸特征点跟踪、头部姿态估计、实现估计等功能的综合人脸行为分析开源工具。OpenFace的人脸特征点跟踪中,集成了现有的人脸检测、跟踪、人脸特征点定位方法。该论文表明在特征点跟踪领域取得了最好的人脸特征点跟踪效果。但现有的系统模型比较复杂,需要额外在线学习人脸分类器。同时,所采用特征点定位算法均为传统的算法,特征点定位的精度仍有待提高。因此,本文提出了一种简化的跟踪系统,并且将深度学习模型引入系统中。
1人脸特征点跟踪系统
提出的鲁棒的长期人脸特征点跟踪混合系统,如图1所示。该系统可以分解为三个子任务:人脸检测、人脸特征点定位和跟踪;包括四个模块:人脸检测、人脸特征点定位、特征点跟踪和跟踪校验。
跟踪系统处理过程如下:
第一步:对视频序列第一帧或需要重新初始化的视频帧进行全局的人脸检测定位到初始的人脸框。根据初始人脸框和目标人脸框的几何关系,对初始人脸框做简单的调整得到人臉特征点定位的人脸框。
第二步:利用训练好的深度学习回归模型对简单调整后的人脸提取特征点,这个是准确地位人脸特征点的重要保障。
第三步:利用中值光流法跟踪对上一帧提取到的人脸特征点,根据信赖的跟踪点来估计当前帧的人脸位置。如果跟踪失败,返回第一步;如果跟踪成功进入第四步。
第四步:利用人脸检测方法只针对跟踪到的人脸做局部校验。如果校验成功,提取校验后的人脸的特征点;如果校验失败则提取跟踪的人脸的特征点。
重复第二、三、四步。
1.1人脸检测与跟踪校验
人脸检测是人脸识别、人脸分析的首要任务;其关键性作用使其受到很多学者的重视,经过长期研究也趋于成熟。其中,最具影响力的工作应属Viola和Jones提出的基于Ada-boost的人脸检测方法(简称VJ检测器)。VJ检测器的实时性得益于在积分图中提取haar-like特征,并采用级联的Adaboost框架提高了检测准确性。所以,本文提出跟踪系统的采用VJ人脸检测器来初始化人脸位置。此外,在跟踪失败时,对人脸区域重新初始化。但所提出的跟踪系统的人脸检测方法不局限于VJ检测器。
不同于人脸识别,即使人脸区域可以被正确检测出来,但仍然无法实现大规模特征点定位。如图1所示,在大规模人脸特征点定位任务中,人脸区域不仅需要覆盖人脸的五官外,还需要包含人脸下巴。所以,需要对VJ检测器检测的结果做调整。由于在训练人脸特征点定位的深度模型时,采用了数据增强技术,摆脱了对原始人脸标定区域和人脸检测器的依赖,不需要利用VJ检测器的检测结果重新训练深度模型。所以只需将检测到的人脸区域向下平移使之包含红色的区域。此外,将人脸框放大0.1倍,使之涵盖更多的人脸信息,可以提高特征点检测的准确性。
下框为人工标签,而上框是Ⅵ检测的结果。
由于跟踪存在漂移现象,很难做到长期跟踪。Kalal提出TLD目标跟踪方法,采用跟踪一校验方式来提高跟踪鲁棒性.同时,Kalal将TLD用于人脸跟踪,通过学习人脸分类器来校验跟踪结果。本文尝试将现有的人脸检测器用于跟踪校验过程。这样不仅可以降低模型的复杂性,同时不需要为不同目标都学习一个人脸分类器。所以,人脸检测器采用除了初试化人脸位置外,还用于跟踪校验。虽然,校验过程会增加耗时,但只对跟踪到人脸进行校验,称为局部跟踪校验。相比于全局的人脸检测而言,在高分辨率的视频中,其耗时可以忽略不计,但提高了跟踪的鲁棒性。
1.2跟踪算法
人脸特征点跟踪系统的跟踪模块采用中值光流法,该方法也被用于长期目标跟踪框架TLD中。中值流光流法认为准确的跟踪与时间流向無关,拓展金字塔Lucas Kannade光流法的单向跟踪,并提出正向一反向误差,提高了跟踪稳定性。
首先,通过金字塔Lucas Kannade光流法对当前帧定位到的人脸特征点xit得到下一帧的人脸特征点xit+1,并通过金字塔Lucas Kannade光流法反向跟踪点xit+1估计上一帧的人脸特征点xit。称xit与xit之间的欧式距离为正向反向误差。其次,可以计算当前帧所有人脸特征点与当前帧估计的人脸特征点距离的中值,记为dm。再次,过滤掉di>dm的人脸特征点,同时,可以计算所有xit与xit的归一化互相关,去除归一化互相关大于归一化互相关的中值的点。最后,通过剩余有效跟踪的人脸特征点来评估下一帧的人脸框。
对于物体快速运动、被完全遮挡的情况,跟踪算法可能会出现漂移现象。针对这种情况,如果dm>JD则视为跟踪失败,需要重新初始化人脸位置。
不同于文献,大规模的人脸特征点跟踪不需要额外生成特征点来表征跟踪目标;通过使用t时刻定位到的人脸特征点作为跟踪点,从而通过光流法定位到t+1时刻的点。并且相比文献网格法来生成跟踪点,精准定位的人脸特征点更具有纹理特性,从而更容易跟踪。
1.3特征点定位
不同于文献,提出的跟踪系统引入深度学习引方法。深度模型采用Zhang等提出四层的层叠自动编码器网络,第一层自动编码器网络先预测低分辨率人脸的特征点;其次,在第二层网络中,以更大分辨率的人脸图像中提取上一级网络预测的人脸特征点局部特征作为输入,对上一级的特征点进行微调,得到更准确的定位;第三层和第四层网络类推。
基于深度学习的精准特征点定位方法离不开大数据,大数据是深度学习取得成功的重要原因之一。利用真实环境下无约束的静态人脸特征点数据集LFPW训练集,HELEN和AFW共同训练深度模型,每个数据集均标注了68个人脸特征点。训练集均采用ibug提供的人脸框作为初始人脸位置。由于人脸框是人工标定的,在实际应用中,使用其他的人脸检测方法无法得到相同的人脸框。为了防止训练模型过程中出现过拟合现象,采用数据增强(data augment)技术对训练数据集进行拓展。平移、旋转和尺度变化是特征点定位任务中常用的方式。数据增强不仅可以有效防止模型过拟合,并且扩充训练数据,通过大数据的学习使得模型更加鲁棒。
2实验与结果分析
本节将通过实验来验证所提出的人脸特征点跟踪系统。首先,会介绍评估的数据集和评价指标。最后,设计实验并通过两种评价标准对比跟踪准确性更好的OpenFace。
数据集:300VW是第一个长时间人脸特征点跟踪的基准。视频都是从真实环境中捕获到的,存在各种各样的表情,姿势和遮挡等情况,使得数据集非常具有挑战性。视频可分为以下三类:类别一由在没有任何遮挡的光照良好的环境中捕获的视频组成;类别二包含无约束照明条件下的视频。类别三在完全任意条件下捕获的视频,包括严重遮挡和极端照明。本文选取一段隶属于300VW类别三的一段视频,该视频长度为1′2″,包含了1574帧,分辨率为1280*720。
评价指标:常见的评价指标由两种,定性和定量。定性是由于没有公开数据集的情况下,通过可视化的方式进行比较的通用方法。由于300VW最近提出了一个新的特征点跟踪的基准,所以同样采用定量的方式进行方法对比。归一化均方根误差(NRMSE)是用于测量估计预测人脸特征点与真实标签的误差。NRMSE首先计算所有预测特征点与真实值之间欧氏距离的均值误差,并通过两外眼角欧式距离进行归一化。其计算公
其中,M表示人脸特征点数量,xi,j表示视频序列的第i帧的第j个特征点坐标,gi,j表示真实的标签。li和ji分别表示左眼和右眼的外眼角坐标。
NRMSE用于评估估计点与真实值之间的误差,而NRMSE的累积分布函数(cumulative distribution mrwtion,CDF)则可以展示误差的分布情况。所以,使用NRMSE的CDF曲线作为最终的定量评价标准。
图3展示了真实标签、OpenFace和本文所提出的跟踪系统的结果,可以看出本文提出的方法在遮挡的真实环境下比OpenFace具有更好的结果。特别需要说明的是,在图3-c中,OpenFace出现较严重的漂移现象,在连续许多帧视频序列均无法正确跟踪人脸特征点,其原因可能是因为遮挡。NRMSE的CDF曲线如图4所示,图中展示了NRMSE误差小于0.1的结果。横轴表示NRMSE误差,纵轴表示误差占整个视频序列的百分比,曲线越往上,说明小误差的比例越高,整体误差就越小,所以,本文提出的系统优于OpenFace。
第一行为真实标签;第二行为OpenFace跟踪结果;第三行为本文提出的跟踪系统的结果。
3结论
本文提出了一种长期的人脸特征点跟踪系统,其有效结合了人脸检测、跟踪与人脸特征点定位算法。本文的贡献在于:1)与其他跟踪框架相比,该系统并不需要引入其他模块,如在线学习分类器。通过有效的结合,可以取得更好的跟踪准确度。2)引入了深度学习方法,充分利用深度学习对大数据的挖掘能力。通过深度学习充分利用了特征点之间几何约束,对遮挡具有更好的鲁棒性。实验结果表明,提出的人脸特征点跟踪系统准确性更好。由于VJ检测器对大姿态变化的检测性能差,所以对于长期大姿态偏转的情况,由于长期无法对跟踪结果进行校验,容易出现漂移现象,需要研究该系统在其他人脸检测方法的跟踪鲁棒性。