一种基于姿态先验的鲁棒的人脸对齐方法

2019-06-06 05:46周丽芳文佳黎李伟生雷帮军李佳其

小型微型计算机系统 2019年6期

周丽芳，谷雨，文佳黎，李伟生，雷帮军，李佳其

1(重庆邮电大学软件工程学院，重庆 400065)2(三峡大学水电工程智能视觉检测湖北省重点实验室，湖北宜昌 443002)3(重庆邮电大学计算机科学与技术学院，重庆 400065)

1 引言

人脸对齐的目的是能够自动定位人脸特征点(例如眼睛、鼻子、嘴巴及轮廓等部位的关键点).在人脸识别[1，2]、人脸检测[3，4]、特征提取[5]、表情分析[6]、姿态估计[7]以及活体检测[8]等多个应用领域被广泛使用.在众多自动学习人脸信息的算法研究中，基于模型的算法被证实为最有效的.这类算法的早期研究包含可变形模板和主动轮廓模型，主要是通过单一地研究特征点来提取人脸特征和人脸轮廓.因此，其匹配效果有一定的局限性.近几十年，包括主动形状模型(ASM)[9]和主动表观模型(AAM)[10]在内的多种基于模型和基于纹理的方法被提出.其中，ASM从整体的角度研究人脸的形状信息(基于手动标注的人脸特征点).而AAM是由形状模型和外观模型(研究一个区域内的像素强度)合成的模型，被广泛应用于人脸图像、医学图像以及特征点检测.由于这些模型的高效性和准确性，近些年来多种关于ASM和AAM的改进方法[11-13]被提出，使得其在人脸特征点标定的准确率上有很大提升.

在实际的情况中，人脸却存在着多种姿态变化.但ASM和AAM无法随姿态变化进行判断，对初始化模型效果的依赖性较高.换言之，当初始模型和标准脸相差较大时，会导致后续匹配情况越来越糟糕.与此同时，AAM的匹配是一个迭代过程，在每一次迭代更新中模型的参数都会被评估.通常，参数的迭代更新利用最小化输入图像和模型实例之间的误差函数来实现.解决这类问题的主要方法有两种.第一种是基于回归方法[14，15]来实现，学习速度快，但是容易陷入局部最小.第二种匹配AAM的方法是基于非线性最小二乘法算法[16].

本文中，提出一种在非限制性环境下精确的人脸特征点标定(也称自然环境下的人脸对齐)方法.首先，由于人脸可以分为正面、左侧面和右侧面，因此，在训练阶段我们分别建立了人脸的正脸模型、左偏模型和右偏模型.在搜索阶段，利用特征三角形自动选择合适的模型作为人脸的初始模型.也就是说，人脸初始模型不再是平均脸，而是与当前人脸姿态更为匹配的初始模型.此外本文第二个主要的贡献是采用了高效快速的高斯牛顿下降方法进行AAM匹配.

2 基于姿态先验的人脸对齐方法

原始的主动表观模型AAM在匹配阶段均以训练集的平均形状作为初始模型，当测试人脸姿态为非正面(即存在姿态变化)时，极易陷入局部最优，最终无法准确定位.本文通过构建的特征三角形在搜索阶段先进行姿态的预判，可有效避免姿态变化时主动表观模型AAM的收敛瓶颈.

2.1 主动表观模型(AAM)

AAM是由形状变化模型和纹理变化模型结合而来.

假设存在D个训练样本，在每个训练样本上标定u个标定点[x1，y1，…，xu，yu]，那么这些标记点就对应于所属图像的形状特征.接下来，通过普鲁克分析(Procrustes Analysis)从原始图形中移除相似转换(缩放、旋转和转换)进行归一化.用主成分分析法对形状归一化后的数据进行处理，得到平均形状s0和按特征值大小排序后的前n个形状特征向量S.该模型典型地反映了由于身份、姿势和表情而产生的形状变化.则任意人脸形状s都可以用线性表达式表示：

s=s0+Sb，b=ST(s-s0)

(1)

类似地，利用训练图像的纹理建立表观模型.通过分段放射W将每一个人脸Ii映射到平均形状s0，实现对纹理的归一化，再利用PCA归一化后的纹理进行降维得到平均纹理向量A0和m个表观特征向量A，则一个表观模型的实例可表示为：

I=A0+Ac，c=AT(I-A0)

(2)

尽管AAM在特征点定位上有着良好的效果，但它的标定精度对于初始形状以及姿态、表情和光照的变化非常敏感.

2.2 初始模型选择

为了解决这些问题，提出利用人脸特征三角形(由两眼中心和鼻尖组成)判定选取初始模型的方法.

众所周知，按照姿态的不同，人脸大致可以分为左偏、正面以及右偏人脸.因此，本文利用特征三角形针对不同的姿态分别训练了正面模型、左偏模型以及右偏模型.同时，在搜索过程为待定位人脸提供一个较匹配的初始模型，从而解决了当人脸有姿态变化的情况下，初始形状仍然为平均形状的问题.

如图1所示，我们用Adaboost算法定位人眼和鼻尖.假设右眼坐标为A(a1，a2)，左眼坐标为B(b1，b2)，鼻尖坐标为C(c1，c2)，则特征三角形的三条边分别为：

(3)

(4)

(5)

图1 人脸特征三角形展示Fig.1 Facial characteristic triangle

α、β、γ分别是∠A、∠B、∠C的对边，则特征三角形的三个角可由余弦定理计算得到：

2016年在恩施州利川、来凤、建始、咸丰、宣恩、恩施6个主要植烟县（市）采取典型抽样方法取样。每个植烟县（市）选择3个能代表该植烟县（市）主要植烟区域的取样地点。田间烟草品种为云烟87，由专职评级人员按照GB 2635—1992烤烟分级标准在每个取样点采集C3F等级烟叶样品，共采集样品18份。所有采样地点均实行GPS定位，样品都标识地理坐标和海拔高度。

(6)

(7)

∠C=π-∠A-∠B

(8)

当人脸发生偏转的时候，如图1所示，可以看出特征三角形发生了扭曲，不再是等腰三角形.人脸向哪个方向旋转，这个方向的顶角就会变大.于是可以得到这样的结论：如果∠A>∠B，我们判断人脸向左边偏转，则选择左侧模型为初始模型.与此同时，训练集中所有左侧人脸的平均值被当作初始模型.相反，如果∠B>∠A，则判断人脸向右偏，选择右侧模型.如果∠A=∠B，则选择正面平均模型.

如前文所述，在定位阶段特征三角形判定可以使AAM模型中的初始化形状达到最优效果.特别是在人脸有姿态偏转的情况下，该方法使AAM对姿态变化的抗干扰能力大幅提升.同时，将对应的人脸模型作为下一拟合阶段的初始化.

2.3 AAM的匹配

AAM的匹配过程就是利用AAM去定位人脸特征点，根据输入图像与模板图像间的差值不断调整参数，最终达到误差最小.本文利用非线性的最小二乘优化方法来匹配一个测试图像.对于给定的测试图像，我们将其变换到AAM框架中，然后通过最小化模型实例和测试图像之间误差来得到相应模型参数：

(9)

其中，X=(x，y)T表示像素坐标形成的向量，p=(p1，…，pn)T是扭曲参数组成的向量，本文中共有9个扭曲参数，即p=(p1，…，p9)T.

接着，使用反向合成的方式处理上式：

(10)

根据公式(10)，进行一阶泰勒展开：

(11)

根据公式(11)，忽略二阶项可简化为：

(12)

1https://github.com/TadasBaltrusaitis/CLM-framework

根据公式(13)，可得到Δc的更新方式：

(13)

因为A是一个正交空间，定义投影空间P=E-AAT，其中E是单位矩阵.则优化公式(12)等同于优化下列公式：

(14)

则

Δp=H-1JT(I(W(X;p))-A0)

(15)

通过交替迭代不断更新Δp和Δc来达到最优化.

3 实验与分析

近年来，人脸对齐技术得到迅速的发展，同时越来越多新的人脸数据集出现.但无论如何，最终目标始终都是能够在户外人脸上实现精确的特征点定位.因此，本文中的实验均在无约束的户外人脸库LFPW进行算法效果评估.LFPW数据库中的图像在姿势、表情和光照等条件上具有随机变化，如图2所示.

图2 LFPW人脸库中图像示例Fig.2 Sample face images from the LFPW dataset

3.1 平均误差比较

本小节中通过比较点对点的平均误差(利用瞳间距进行标准化)来测试人脸对齐的性能.为了简单起见，文中展示了68个特征点，实验数据已省略“%”，匹配结果如表1所示.

表1 不同对齐方法误差对比Table 1 Compare with different methods

从对比数据可以看出，本文所提出的方法在LFPW人脸库上的性能优于大多数现有的优异的算法，比如SDM和3000FPS.

3.2 视觉效果展示

在本小节中，利用四种不同方法的标定图像从视觉效果上进行了对比展示.

本文中所提出的方法与Active Orientation Models(AOMs)[13]、CLM_framework1和Tasks-Constrained Deep Convolutional Network (TCDCN)[25]在视觉效果上作出直观比较.就AOMs而言，它所提供的源代码采用Multi-PIE作为训练样本.至于CLM-framework，也被称为剑桥人脸跟踪器，是一个人脸关键点检测和头部姿势估计的框架.其中TCDCN方法进行人脸对齐时需要一个外部人脸检测器提供人脸框位置信息.我们根据TCDCN原作者的建议，选择了被称为Multi-task Cascaded Convolutional Networks (MTCNN)[26]的人脸检测器.

显而易见，对于一般简单姿态(图片中被展示在前两行的人脸)而言，所有方法的人脸特征点匹配结果都很有效.然而，在人脸有遮挡的情况下或者特效图像上，本文中所提方法具有更好的表现.对比效果已在图3中用色圈作强调标记出来.在原始的主动表观模型AAM中，无论测试人脸姿态如何，在匹配阶段均以训练集的平均形状作为初始模型.当测试人脸姿态为正面时，通常可以得到比较好的结果；但若测试人脸姿态为非正面(即存在姿态变化)时，极易陷入局部极值，而导致无法得到理想的结果.本文所提出的方法在搜索阶段，利用特征三角形自动选择合适的模型作为人脸的初始模型，从而避免了姿态变化对初始模型的干扰.理论分析与试验证明，我们的方法具备的鲁棒且精准的特征点定位效果.

图3 在LFPW人脸库上的标定图像示例Fig.3 Visual fitting results of different methods on LFPW dataset

为了更明显地展示算法的对比效果，我们通过放大图3中的色圈区域来说明标定效果，如图4.在嘴巴、眼睛和人脸轮廓被遮挡时，我们的算法相比于其他方法具有更优异的标定效果.另外，就深度学习模型而言，它是用大量外部数据源预先训练而成，相比于传统算法它们主要定位人脸五个关键点(双眼中心、鼻尖、嘴角)[27]，对于多点检测效果并没有表现得非常优异.

图4 从图3中筛选出的放大后的标定示例Fig.4 Enlarged visual fitting results of selected results from Fig.3

4 总结与展望

本文针对AAM对初始模型依赖度极高，且极易受到姿态、光照以及遮挡等因素的影响的问题，设计了一种基于姿态先验的鲁棒的人脸对齐方法.虽然我们并没有利用一些鲁棒的特征，仅仅只是利用像素特征，但本文所提方法比当前大多数人脸对齐方法拟合效果都要好.