新疆维吾尔族男性三维人脸图像的年龄估计与年龄面貌重构

2018-10-08 06:36潘思宇陈诗婷李彩霞赵雯婷
法医学杂志 2018年4期
关键词:脸部人脸向量

潘思宇 ,陈诗婷 ,唐 鲲 ,李彩霞 ,刘 京 ,叶 健 ,赵雯婷

(1.中国人民公安大学,北京 100038;2.公安部物证鉴定中心 北京市现场物证检验工程技术研究中心 现场物证溯源技术国家工程实验室,北京 100038;3.中国科学院上海生命科学研究院,上海 200031)

基于DNA的三维面貌刻画是法医遗传学领域发展起来的新技术,通过检验人类DNA序列中的遗传标记,结合种族、性别及年龄等人类相关生物特征重建人脸面貌。当短串联重复(short tandem repeat,STR)序列个体识别技术没有比中任何信息时,基于DNA的三维面貌刻画技术有望为案件提供新的侦查线索。在三维面貌刻画过程中,年龄和衰老是影响面貌刻画真实性及可辨认性的重要因素[1-2]。人脸年龄估计就是通过提取与年龄相关的脸部图像特征,构建年龄特征模型,对输入的待测图像的年龄或年龄范围进行推测[3]。除年龄外,疾病、种族、性别、生活方式及环境地域等因素也会影响人面部衰老的进程[4-6]。由于这些难以完全量化的因素,人脸识别系统的准确率和鲁棒性并不是很高,这也使得脸部衰老进程研究成为人脸识别领域的挑战[7]。

由于人脸年龄模型的建立在刑事侦查、未成年人保护、失踪人口追踪及动画、电影制作等诸多领域具有巨大的潜在应用价值,国内外研究机构对此进行了众多的深入研究,如国外的延世大学[8]、杜伦大学[9]、西弗吉尼亚大学[10]以及国内的华中科技大学[11]、天津大学[12]、中南大学[13]、中国科学院上海生命科学研究院[14]等在人脸年龄模式研究中取得了较好的成果。人脸年龄估计的主要步骤分为图像预处理、面部特征标示和年龄估计模型构建,其中后两者是研究人员关注的重点[15]。图像预处理主要是通过对图像的灰度化、尺度归一化等弱化非年龄因素的干扰[16],是重要的基础工作。面部特征标示是通过分析面部形态随着年龄的变化趋势,将图像中与年龄相关的特征提取出来[17]。年龄估计模型则是利用年龄标签的离散性与连续性特征,使用分类、回归或二者相结合的混合算法[18]建立的。例如,基于仿生学特征(bio-inspired features,BIF)[19]提取人脸年龄特征,使用支持向量机(support vector machine,SVM)[20]学习年龄估计模型。

早期研究主要使用二维人脸图像来评估年龄[9,21]。随着三维成像技术的发展,许多三维成像仪器,如Artec Spider、3dMDface等被应用到三维人脸图像研究中[14,22]。相比于二维图像,用三维人脸图像分析诊断疾病、比较种族面貌形态、年龄估计更加精细化[23-24]。在我们的前期研究[14]中,以300多张中国汉族人群面部三维图像为研究对象,发现了一系列人脸衰老相关的形态特征,构建了一张人脸年龄变化图谱,并基于此进行人脸年龄估计及人脸年龄图像推测。

为研究不同人群衰老特征的差异,并验证该模型在其他人群中的使用效果,本研究选取了中国典型亚欧混合人群——维吾尔族人的三维人脸图像,计算不同年龄段样本平均脸,观察平均脸随年龄变化的老化趋势,通过偏最小二乘回归(partial least square regression,PLSR)法[25]将采集的三维图像与年龄做回归分析,并进行年龄估计,以脸部回归系数热图展现脸部不同区域对年龄模型的影响程度,基于该年龄模型重塑个体更年轻及更年老时的图像。

1 材料与方法

1.1 图像采集

采用Artec Spider扫描仪(卢森堡Artec 3D公司)采集新疆地区维吾尔族男性105人的人脸图像,年龄范围为18~57岁(年龄通过采样年与出生年之差得到),平均年龄35.82岁,BMI为18~24,无影响脸部发育或脸部形态的遗传、代谢或其他疾病,未做过面部整形手术或化妆。所有志愿者依照公安部物证鉴定中心伦理委员会规定签署知情同意书。

采集过程中,志愿者保持端正的坐姿及中性的面目表情,采集者手持Artec Spider扫描仪通过调整仪器与志愿者的距离,使Artec Studio软件(卢森堡Artec 3D公司)中呈现人脸图像,从志愿者一侧的耳部经过面部至另一侧耳部进行面部图像的扫描,得到完整三维脸部图像。根据年龄将上述样本分为5组(表1)。

表1 观察对象年龄分布 (N=105)

1.2 图像处理流程及平均脸计算

(1)通过设定Artec Studio软件中的参数对原始三维图像进行预处理,去除图像噪声,生成纹理尺寸为 1024px×1024px(长×宽)的人脸图像。

(2)基于中国科学院唐鲲研究组[26]提出的高精度全自动非刚性人脸配准方法,利用其自主研发的FaceAnalysis软件(中国科学院上海生命科学研究院)实现高通量批次处理人脸图像。该方法主要是基于主成分分析(principal component analysis,PCA)投影的方法,自动识别并标记解剖学上面部显著凸起的15个特征点[左外眼角、左内眼角、右内眼角、右外眼角、鼻尖点、鼻根点、左鼻翼端点、右鼻翼端点、鼻下点、右唇角、左唇角、口裂点(上、下唇闭合时,口裂的正中点)、上唇点、下唇点、下巴(颏)点]。由于特征点自动识别标记误差的大小影响后续人脸模型的建立,因此需要通过3dMDpatient软件(美国3dMD公司)对存在较大偏差的特征点进行人工调整校准[14]。

(3)利用FaceAnalysis软件以选定图像完整且质量较好的样本脸或平均脸作为参考脸,在15个特征点的匹配下,使参考脸覆盖包裹在每个样本脸上,使脸部之间建立解剖学结构对应,将参考脸上的致密网格点一一对应投射至每个样本脸上,依次重新定义每个样本脸上的网格点,参考脸及15个面部特征点见图1。由于使用的是同一张参考脸,所以重新获得的三维人脸数据点与原始图像是一致的。通过以上步骤使每个样本可被32 251个点所表示,每个点都具有相应的x、y、z轴坐标值,形成 3×32 251 的数据矩阵,经矩阵转换,最终每个样本用1×96753的形状向量所表示。

图1 参考脸及15个面部特征点

(4)通过广义普鲁克分析(generalized Procrustes analysis,GPA)法[27]对所有三维人脸图像中心化校正,并将所有样本脸统一到同一坐标系中以备后续分析使用。

通过上述处理,每张人脸图像可使用1×96753的形状向量所表示,即每行数据代表一个样本脸。将每个样本脸的形状向量逐行添加形成包含一定样本量的人脸矩阵,对矩阵中所有样本脸对应维度上的数据进行算数平均,得到该样本量下的平均脸。

1.3 模型建立

本研究应用PLSR建立三维人脸图像数据与年龄的回归模型,PLSR用于年龄估计的形式如下:

每一个样本Xi用包含x、y、z轴坐标n个顶点的形状向量所表示,将人脸数据作为自变量X,年龄作为因变量Y,基于R软件中的“pls”包[28]建立回归模型。

年龄估计使用留一法(leave one out,LOO),每次取出一个样本作为测试集,其余的样本作为训练集来训练模型,随后用该模型预测测试样本的年龄。

1.4 回归系数热图

热图主要是用颜色变化来反映二维矩阵或表格中的数据信息,可以直观地将数据值的大小以定义的颜色深浅表示出来。本文为展现脸部不同区域对年龄估计模型的影响程度,基于R软件中的“rgl”包[29],选用回归系数在样本平均脸上绘制脸部热图。主要从构建的年龄估计PLSR回归方程中提取回归方程的系数,将色域定义为蓝色至红色并均分为100份,从X、Y、Z三个方向将回归方程系数按照大小映射到色域范围中,并呈现在人脸图像上。

1.5 模型评估

模型预测准确性的评价指标主要有实际年龄与估计年龄之间的Pearson相关系数(Pearson correlation coefficient,PCC)及平均绝对偏差(mean absolute deviation,MAD),公式分别如下:

其中,x、y为数据对象,N为变量取值个数。

1.6 老化向量构建

基于构建人脸图像与年龄的PLSR回归模型,为便于研究,我们假设人脸随时间的变化是线性的,即一个人在时间长度相等的年龄段,人脸形状向量的向量差相等,因此,存在一个反映人脸随时间变化的老化向量Aging Vector(Vage),则可以将人脸形状向量表示为时间的函数 X(t):

式(4)中,Δt为时间长度。

将年龄与三维人脸数据矩阵的PLSR回归模型表示为:

将公式(4)带入公式(5),则有:

得到:

假定人脸随年龄的变化是一个最小的变化,即||Vage||最小。应用拉格朗日乘子法求解 s.t.Vage×β=1,min(||Vage||)。 解得:

Vage是一个1×96753的向量。通过以上计算,根据PLSR回归模型的回归系数向量,得到了该群体人脸随时间变化的老化向量。通过在个体样本脸或者平均脸上添加老化向量Vage与时间长度Δt的累积变化量Vage×Δt,可以重构不同时间长度的年轻脸或衰老脸。

根据以上原理,本研究随机选择实际年龄分别为35、44、50、53、57 岁的样本,分别推测、重构其年轻10、20岁和变老10、20岁的三维脸部图像。

2 结 果

2.1 模型预测效果

2.1.1 图像预处理

如图2,其中图2A为Artec Spider扫描仪采集的原始三维人脸图像,通过Artec Studio软件进行降噪整合处理获得纹理尺寸为1 024 px×1 024 px的人脸图像(图2B),通过FaceAnalysis软件对所有样本的15个面部特征点批量逐点自动识别标记,在脸部图像中生成绿色标记点,并经参考脸配准移除非面部区域获得人脸图像(图2C)。

图2 图像预处理过程

2.1.2 样本平均脸

根据前述年龄分组,将各组每个样本脸1×96753形状向量逐行添加,形成各年龄组包含多个样本人脸的数据矩阵,对各自矩阵中所有样本对应维度上的数值进行算数平均,得出五组不同年龄段的正、侧面平均脸。不同年龄段的平均脸反映人脸衰老的平均趋势。如图3所示,随着年龄的增加,平均脸呈现鼻唇沟加深、脸颊凹陷、颧骨突出、眼角下垂等衰老特征。

图3 不同年龄段维吾尔族男性样本的平均脸

2.1.3 年龄估计

使用PLSR方法建立人脸数据与年龄的回归模型,由于人脸数据的高维性及复杂性,为减小变量间的相关性及建模复杂度,以最少的变量最大程度地解释人脸变异。在回归模型中,使用10折交叉验证计算不同PLSR成分个数下验证集的MAD,当选定10个与年龄相关的PLSR成分时,MAD最小,可以解释该群体中脸部83.35%的变异。实际年龄与估计年龄之间的 PCC为0.71(P<0.05),估计年龄与真实年龄之间的MAD值为6.37岁。从图4可以看出,散点绝大多数分布在直线的两侧,年龄估计结果较为准确。如表2,所有年龄组中,>30~40岁人群的年龄估计的MAD(4.27岁)和标准差(3.23岁)均最小,表明该年龄组年龄估计的准确度相对于其他年龄段较高。

2.1.4 年龄估计模型回归系数热图

为展示脸部区域对年龄估计模型的影响,使用PLSR回归方程中的系数在样本平均脸上绘制脸部热图(图5)。为便于表示,热图标尺上的回归系数乘以10000。图5中x、y、z轴分别从横向、纵向、凹凸三个不同的方向表示脸部不同区域对年龄估计的影响。鼻唇沟的宽度(x轴)、人中长度(y轴)、颧骨的高低(z轴)、嘴唇周围脸颊的凹陷程度(z轴)等区域颜色与其他区域颜色相比,均较深。

2.2 基于年龄模型的年龄面貌重构

5个样本变年轻10、20岁和变老10、20岁的三维脸部图像(图6)显示:合成年老化的人脸时,脸部形态会呈现明显的脸颊凹陷、纹路加深及软组织下垂等衰老特征;合成年轻化的人脸时,衰老特征会消失,脸部已有的下垂、凹陷等状况有所改善,脸部在视觉上更加平滑、饱满。

图4 PLSR年龄估计模型的预测效果

表2 不同年龄段样本年龄估计的MAD和标准差(岁)

图5 PLSR年龄估计模型的回归系数热图

图6 对5个个体进行基于年龄模型的人脸合成

3 讨 论

基于人脸年龄估计和年龄面貌重构是近年来计算机视觉领域和图像处理领域的研究热点,未来机器学习将是法医图像识别的主要研究方向之一,在刑侦、法医、信息等领域有着巨大的潜力和应用价值。比如:公安刑侦部门可以根据早期人脸图像推测现年龄人脸图像,提高侦查效率;为失踪人口的查找提供搜寻方向;为法医图像年龄推断及研究人类面部老化特征提供重要依据。

人脸特征很大程度上由遗传因素决定,然而由于发育、衰老等进程会使脸部形态产生明显的改变,给基于图像视频技术的人脸识别、基于遗传关联的人脸特征刻画带来了技术上的难题,削弱了两项技术在实际应用中的有效性。本研究通过观察三维人脸形态特征变化与年龄之间的关系,建立了年龄估计模型,并尝试对个体不同年龄阶段的脸部形态进行合成,以期能为脸部年龄特征变化问题提供解决方法。

PLSR是一种多元统计分析方法,在人脸数据及年龄建立回归模型的过程中,既可以提取人脸数据中的主成分,又能使主成分与年龄间的相关性最大化,同时该算法对三维人脸样本观测数远远小于变量维数和变量间的多重共线性都具有较好的适应性,因此本研究采用了PLSR方法构建年龄估计模型。通过该模型,我们研究了105个新疆维吾尔族男性个体年龄与三维人脸的相关性并进行年龄估计,预测的误差为6.37岁,与前期研究中针对163个汉族男性个体得到的PLSR偏差(MAD值为6.11岁)结果[14]相近。同样,年龄估计的准确性与研究对象的年龄范围也呈现明显的关联性,在>30~40岁的群体中准确度最高,MAD值为4.27岁,而在接近老年的>50~57岁群体中准确度最低,MAD值为9.35岁。这一现象与通过甲基化检测推测年龄时观察到的现象相近,即对青中年群体的年龄推测准确性大大高于老年群体[30-31]。同时说明由于遗传背景、生活环境等方面的影响,衰老进程会逐渐显现出明显的个体差异,也表明基于脸部形态特征的改变所估计的年龄值,相比实际年龄更接近个体的生物学年龄,与个体身体整体衰老程度具有较高一致性。

回归系数是每个与年龄相关的PLSR成分的负荷向量(loading values)的加权和,比年龄相关的PLSR成分更能综合反映脸部形态改变和年龄之间的关系,因此,回归方程系数热图可以展示脸部区域对年龄模型的影响。从不同年龄段的平均脸的衰老趋势可以看出,随着年龄的增加,平均脸呈现鼻唇沟加深、脸颊凹陷、颧骨突出、眼角下垂等衰老特征,而且鼻唇沟的宽度、颧骨的高低、人中长度、嘴唇周围脸颊的凹陷程度等区域相比其他区域对年龄都有较大影响。这些影响年龄估计准确度的特征区域与人眼视觉识别脸部衰老的特征相一致。这一结果在汉族人群、亚欧混合人群(维吾尔族)中都得到了验证[14],说明衰老对脸部特征的改变在各人群中十分相似,本研究建立的年龄估计模型可能适用于多个种族人群。基于人脸年龄估计的PLSR模型,本研究重构了5个个体更年轻及更年老时的脸部形态,重构的人脸形态较为逼真,老化模拟效果较好,说明构建的模型可以较好地模拟人脸老化过程。然而,人脸衰老受遗传、性别、光照、生活方式等众多因素影响,一个统一的年龄模型难以达到很高的年龄估计和年龄面貌合成精确性,需要对研究人群进行细致分类,分别建立有针对性的模型。

此外,虽然当前人脸数据库较多,但大多基于二维人脸且样本年龄分布并不理想[32-33],可应用的三维人脸数据库有限,多年龄样本不易采集且数量较少,这也是本研究的不足之一。人脸图像的预处理、人脸特征的提取、年龄估计和年龄面貌重构的方法选择也都会影响年龄模型的准确性和可靠性。针对存在的问题及目前已有的研究成果,我们未来的工作将从以下几个方面逐步推进:严格控制采样条件,增加样本量,完善多年龄人脸数据库,提高人脸年龄特征提取方法的鲁棒性;对人群进行背景调查和分类,减少环境等因素在计算中的不确定性影响;研究人脸肤色纹理衰老特征,结合已有形态特征,更加真实地模拟人脸面貌老化过程,提高人脸年龄估计的准确度和人脸重构效果,使获得数据和结论更具有科学性和实际的指导意义,为法医学研究提供重要的参考价值。

猜你喜欢
脸部人脸向量
脸部美容须知
向量的分解
有特点的人脸
一起学画人脸
聚焦“向量与三角”创新题
三国漫——人脸解锁
做脸部运动让你显得更年轻
The Lovely Face
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线