吴晓婷 冯晓毅 黄安 张雪毅 董晶 刘丽
人脸亲子关系验证(Facial kinship verifica- tion),是指应用计算机视觉和机器学习方法,分析来自不同人的两幅人脸图像的面部特征相似性来自动判断其是否具有某种亲子关系,如父子、父女、母子、母女关系等.人脸亲子关系验证是在生物遗传学理论基础上,受心理认知学启发[1−5]衍生出来的一个计算机视觉中的重要研究方向,因为心理学研究表明人们可以通过面部推断亲子关系.人脸亲子关系验证技术在诸多领域具有广泛的应用价值.在人类学、基因学领域,有助于分析社会关系中近源亲属的遗传特性;在社会公共安全领域,可以应用于丢失儿童寻找、国家边境控制、刑事侦查等,如可以快速验证家庭重聚签证申请人的身份信息以及服务快速侦察儿童乞讨、拐卖儿童等违法行为;在社交媒体领域,可以用于家庭信息分析、家庭相簿整理、自动图像标注等;在生活娱乐方面,可以用于子女人脸图像合成、年老人脸合成等;此外,亲子关系验证在智能家居、物联网等领域也有潜在应用价值,如亲子行为理解、家庭信息互联等.该问题由Fang等[6]于2010 年提出,至今仅有十余年的研究历史,是一个近几年新兴的、具有挑战的一个研究方向,鉴于人脸亲子关系验证研究潜在的学术价值和应用价值,近期国内外研究者对该问题的关注呈上升趋势.
国际上,开展人脸亲子关系验证研究的主要有美国康奈尔大学、东北大学和西弗吉尼亚大学、荷兰阿姆斯特丹大学、芬兰奥卢大学等;国内开展该方面研究的主要有清华大学、北京邮电大学、西北工业大学等.近年来,国际上多次举办了人脸亲子关系验证比赛和专题研讨会.第1 届国际亲子关系验证比赛(Kinship Verification in the Wild,KVW)于2014 年在国际生物特征识别会议(International Joint Conference on Biometrics,IJCB)上举办[7];第2 届KVW 比赛举办于2015 年国际人脸与手势自动识别会议(IEEE Conference on Automatic Face and Gesture Recognition,FG)[8];KVW 系列比赛均为单任务,基于人脸亲子关系验证展开.随后,美国东北大学SMILE 实验室[9−10]自2017 年起每年举办家庭识别竞赛(Recognizing Families in the Wild,RFIW),该竞赛于2017 年在ACM 国际多媒体会议(ACM International Conference on Multimedia,ACM MM)[10]1https://web.northeastern.edu/smilelab/RFIW2017/上举办,之后每年在FG 会议上[9]举办,2019 年 在Kaggle 平台上举办了RFIW竞赛2Kaggle 是一个数据建模和数据分析竞赛平台,信息来自维基百科.,3https://www.kaggle.com/c/Recognizing-Faces-in-the-Wild.与以往不同,RFIW 系列比赛基于大规模亲子数据库[11]展开的多任务人脸亲子识别比赛,包括人脸亲子关系验证、三人组人脸亲子关系验证以及家庭识别、家庭检索.
综上所述,人脸亲子关系验证的研究获得计算机视觉和模式识别领域研究者的广泛关注,研究者提出很多方法来解决该问题[6, 12−20].近期,国外已经有一些学者对人脸亲子关系验证问题进行了综述,表1 对比了这些综述论文,具体代表性工作总结如下.2014 年,Dandekar等[21]对早期人脸亲子关系验证方法进行了总结,包括研究目标、应用价值、方法框架和早期代表性方法.2016 年,Wu等[22]对早期人脸亲子关系验证方法进行了归类总结,将已有方法分为4 类: 基于特征的方法、基于度量学习的方法、基于深度学习的方法和其他方法.Almuashi等[23]在2017 年的综述则侧重于阐述人脸亲子关系验证问题的衍生、定义、研究意义以及难点与挑战,但较少讨论解决方法.Georgopoulos等[24]在2018 年将人脸亲子关系验证任务和人脸衰老问题结合,分析了其之间的相互关系,介绍了年龄因素对于亲子关系验证问题的影响,以及祖辈人脸图像在人脸衰老变化中的引导作用.2020 年,Qin等[25]对人脸亲子关系验证方法进行归类总结,将其分为基于亲子特征的方法和基于数学度量分析的方法,但是较少涉及近期基于深度学习的人脸亲子关系验证方法.2020 年,Robinson等[26]侧重于总结RFIW 系列比赛,包括比赛任务介绍、现阶段性能对比及今后可能的研究方向,但忽略了其他人脸亲子验证方法的汇总.目前,国内尚没有关于人脸亲子关系验证方法的综述.
表1 现有人脸亲子关系验证综述论文总结Table 1 The summary of the existing facial kinship verification survey papers
总而言之,已有的综述对现有人脸亲子关系验证问题的研究方法总结还很不全面,尤其缺乏对近期基于深度学习的人脸亲子关系验证方法的总结以及近几年以来出现的重要数据集的总结.为吸引更多的研究学者参与到该领域的研究,促进其发展,本文尝试首次对人脸亲子关系验证的相关研究成果进行全面综述.首先从人脸亲子关系验证问题的基本定义出发,对该问题研究中存在的困难与挑战进行了深入剖析;接下来,本文对人脸亲子关系验证领域的主流数据库的发展脉络进行了梳理与总结;随后系统地对亲子关系验证的方法进行了梳理、归纳、评述和总结;最后对人脸亲子关系验证未来的研究方向进行了探讨.
心理学研究表明,人们具有仅通过面部图像推断其是否具有亲子关系的能力[1−5].进一步,相关研究学者探究了影响人们亲子推断的可能因素,包括面部旋转性[27]、面部表情[28]、人脸的对称性[2]、性别和年龄因素[3],以及不同面部区域对亲子验证的贡献分布[1, 5].其中,面部的旋转并不会降低亲子识别的准确率[27];而对比于无表情人脸图像,无约束的面部表情会对亲子验证产生负面影响,从而降低识别准确率[28];面部左右脸部分对亲子验证的贡献相当,仅稍次于整个面部;DeBruine等[3]指出性别和年龄因素会大大降低亲子验证的准确率;就面部区域影响上,上半脸包含的亲子信息量最大,而嘴部区域由于形态多样,容易对亲子识别产生噪声影响,Alvergne等[5]指出亲子线索取决于有效面部区域,而非整个面部区域.心理学领域中的研究成果,对基于计算机视觉和机器学习方法的自动人脸亲子关系验证问题具有借鉴价值.
图1 中展示了部分亲子图像对和非亲子图像对,亲子的推断主要从亲子间的相似性与非亲子间的不相似性得出.然而,人眼通过感官知觉上判断图像的相似程度,很难对来自不同人的两幅图像进行相似度量化,如眼睛间距离、五官形状与大小等.此外,人眼对颜色的区分感知能力较低,因此在进行亲子关系验证时,人脑处于模糊判断,从而造成识别准确率低下.不同于人眼对亲子关系验证的判断,计算机视觉能够在形状和颜色等方面,准确捕捉亲子间的遗传相似度,以及判断非亲子图像间的不相似程度,在数字化基础上有据可依,通过优化特征表示和分类器,使得机器学习方法能够更加准确的推断两幅人脸图像是否具有亲子关系.
图1 正样本对(具有亲子关系)和负样本对(不具有亲子关系)示意图 (© (2018) IEEE[29] 授权修改版)Fig.1 The illustration of positive pairs (with kin relations) and negative pairs (without kin relations) (© (2018) IEEE.Modified,with permission,from [29])
自动人脸亲子关系验证,旨在通过图像特征提取和机器学习方法,分析两幅不同的人脸图像的面部特征相似性来判断其是否具有某种亲子关系,如父子、父女、母子、母女关系等.这是一个极具挑战的问题,因为有的时候具有亲子关系的两幅人脸图像仅存在细微的相似性.正式地,给定输入的两幅人脸图像(或两段视频),用Ip和Ic表示,分别对图像(或视频)提取特征表示,记为ϕ(Ip)与ϕ(Ic),两输入之间的距离用d(ϕ(Ip),ϕ(Ic)) 表示,通过阈值θ判断输入间是否具有亲子关系,则Ip与Ic
人脸亲子关系验证系统的关键环节在于两个方面,一是亲子特征的有效表示;二是人脸图像间距离的准确度量.人脸验证与人脸亲子关系验证问题两者具有相似性,却又有很大不同.两者都需要基于两幅人脸图像的面部特征相似性来进行判断,前者旨在判断两幅人脸图像是否属于同一个人,后者旨在判断其是否具有某种亲子关系.两个问题的正负样本空间是不同的,前者正样本对相似度高,负样本对存在明显差异性;而后者的正样本对相似程度较低,容易与负样本对混淆,鉴于部分情况下具有亲子关系的两幅人脸图像仅在细微之处存在相似性,增加了问题的难度系数,人脸亲子关系验证是一个极具挑战的问题.
除了目前研究最热的人脸亲子关系验证问题,研究学者也指出由于孩子的遗传基因来源于父母双方,因此引出了另一个亲子研究问题,即三人组亲子关系验证(Tri-subject kinship verification),输入包括父母二人的人脸图像,以及子女人脸图像,分别用If和Im表示父亲、母亲的人脸图像,用Ic表示孩子人脸图像,来判断其是否具有亲子关系.父母、孩子的特征表示为ϕ(If)、ϕ(Im)和ϕ(Ic).孩子与父母间的距离表示为d(〈ϕ(If),ϕ(Im)〉,ϕ(Ic)),与人脸亲子关系验证问题类似,通过阈值对距离进行分类.三人组亲子关系验证与人脸亲子关系验证均为二分类问题(Binary classification).
在人脸亲子关系验证基础上,研究也延伸到家庭分析上,包括家庭分类[30]、家庭成员搜索和检索[11].家庭分类问题是一个多类别的分类问题(Multi-class classification),即分类任务中包含多个类别,每个类别为一个家庭,给定一幅待定人脸图像判断其属于哪个家庭.用χ={X1,X2,···,Xk}表示包含k个家庭的集合,对应的多分类标签为{y1,y2,···,yk},训练一个分类器,对输入的人脸图像xi输出其家庭标签.家庭分类问题与人脸亲子关系验证的区别在于,人脸亲子关系验证的任务是分析两输入间的相似性,而家庭分类需要分析一个输入与多个家庭集间的相似与不相似性,从而增加了问题的难度.同其他图像分类问题类似,随着家庭数目的增加,家庭分类的难度也相应增大,因此分类性能也会跟着下降.例如目前最大的亲子数据集FIW,家庭分类任务中包含564 个家庭,分类准确率仅有16.18%.家庭成员检索问题旨在对输入的人脸图像匹配家庭成员,其中搜索集由所有的家庭成员组成,输入的人脸图像为待查询样本,输出给出最为匹配的前K个家庭成员.家庭识别和家庭成员检索问题的区别在于,家庭识别侧重于家庭分类模型的训练,而家庭成员检索则通过相似性度量学习,检索出与待查询图像较相似的人脸图像,从而找到输入的父母及其他亲属成员.
图2 总结了4 种亲子关系相关的任务示意图.由于人脸亲子关系分析仍处于研究初级阶段,且人脸亲子关系验证方法是亲子关系研究中的关键和核心,因此受关注度最高的是人脸亲子关系验证问题,表2 对现有的代表性人脸亲子关系验证算法进行了分类汇总,分析了其所针对的问题,对比了不同方法的优势与不足,本文第3 节与第4 节对具体的算法进行了详细的分析.
表2 人脸亲子关系验证方法的优缺点总结Table 2 The summary of advantages and disadvantages of the facial kinship verification methods
图2 亲子关系任务示意图Fig.2 The illustration of kinship related tasks
人脸亲子关系验证是一个具有挑战的问题,其主要的挑战和难点总结为以下几个方面.
1) 同一人不同形态差异(Inner-person variations)的影响.这一点继承了人脸验证(Face verification)问题存在的挑战.一方面,由于成像环境导致的各种变化,受到多种因素带来的干扰,如光照变化、成像距离、成像角度、相机参数等;另一方面,由于主体自身的各种变化,例如姿态变化、表情变化、年龄变化、眼镜等配饰引起的遮挡等.这些因素,会导致同一个人的人脸图像表观特征产生很大差异,影响图像特征的提取.
2) 亲子长相的差异性(Inter-person variations).待判定是否具有亲子关系的两幅不同人脸图像可能存在很大的年龄差异,也可能来自不同性别,或者仅存在细微的相似性,这些都增加了人脸亲子关系验证的难度.然而性别、年龄等差异性,会导致具有亲子关系的人脸图像差异性增大.可以看出相比于年轻时父母的人脸图像,子女与年老父母图像差异更大.而性别的差异性,间接性地影响了判断是否具有亲子关系的准确性.此外,隔辈人脸亲子关系(如爷爷−孙子、爷爷−孙女等)验证问题,由于年龄跨度大、共同遗传信息减少使得判断难度更大.
3)亲子/非亲子分类边界模糊.具有亲子关系的两个不同人可能看起来有很大差异,仅存在细微的相似性,这种情况被称为困难正样本(Hard positive sample).相反,不具有亲子关系的不同人或许在长相上具有一定的相似性,称为困难负样本(Hard negative sample).亲子人脸图像对相似度低、非亲子人脸图像相似度高,就造成距离度量往往难以分类,分类边界难以界定.
4) 图像高维特征提取与数据样本量少之间的矛盾.可见人脸亲子关系验证问题是一个难度很高的研究课题,人脸亲子特征的准确表示就是技术需攻破的关键壁垒之一.随着深度学习在计算机视觉领域的不断渗透和发展,在学习提取高维可判别的图像特征中,对训练数据的要求非常高,然而现有的亲子数据集往往存在数据量小、数据质量低下等问题,给深度模型的训练带来巨大的挑战.
5) 大规模亲子数据库的建立.现有的亲子数据库往往存在数据量少、数据质量低、涉及情景少等缺点.大规模全面数据库对机器学习算法的研究推进起着重要的作用,然而亲子数据库的建立依赖于已知人物间的亲子关系,由于亲子关系属于个人的家庭信息,有时候很难直接获得该方面信息,这就对大规模的亲子数据库的建立产生了巨大的困难.
数据集在人脸亲子关系验证研究中发挥着重要的作用.在如今的大数据时代,大量数据的收集显得越来越重要.一方面,公开的标准数据集为研究者提供了实验数据和统一的评价标准,另一方面,数据集的构建与发展也进一步促进研究的问题趋于完善.在亲子关系验证研究出现以前,没有相关的亲子人脸数据集,因此,康奈尔大学的Fang等[6]于2010 年建立了第一个亲子关系数据集Cornell Kin-Face,该数据集由300 幅人脸图像(即150 个亲子对)组成,包含了父亲−儿子,父亲−女儿,母亲−儿子,母亲−女儿4 种主要的亲子关系.此后十年间,许多学者建立了多种亲子数据集.相较于最初的数据集,新的数据集在数据集大小、结构、亲子关系类型以及数据的模态上各有丰富和发展.
目前常用的公共人脸亲子关系数据集有12 个,分别为: Cornell KinFace[6],UB KinFace[52−53],Kin-FaceW[15],Family 101[30],UVA-NEMO Smile[66−67],TSKinFace[68],FIW[11],WVU[69],KFVW[70],FFVW[71],KIVI[72]和TALKIN[73]数据集.表3 对现有亲子数据集参数进行了总结和对比.下面我们将对这些数据集展开介绍其特性.
表3 亲子关系数据库属性总结Table 3 Characteristics of kinship databases
1) Cornell KinFace 数据集4http://chenlab.ece.cornell.edu/projects/KinshipVerification/.Cornell KinFace[6]是第一个公共人脸亲子数据集,其由康奈尔大学搜集.其包含150 对名人以及名人的父母或者子女的人脸图像,每幅图像的大小是100×100 像素,这些图像均来源于网络,图像采集环境为自然条件,即对光照、姿态、背景、表情、遮挡等因素上没有要求.该数据集的提出具有开创性意义,为之后的数据集构建提供了借鉴.Cornell KinFace 数据集没有对父母−子女亲子关系进一步细分,根据名人的身份信息推断亲子关系类型发现,亲子关系类型分布数量不均衡,其中母亲−儿子这一亲子关系类型数量最少,父亲−儿子关系对最多.
2) UB KinFace 数据集5http://www1.ece.neu.edu/yunfu/research/Kinface/Kinface.htm.由美国东北大学的Shao 等采集的UB KinFace[52−53],是第一个包括有子女、年轻父母和年老父母的人脸图像数据集.与其他的亲子关系数据集不同,它收集了父母年轻时期的照片,这是由于研究人员发现年轻父母与其子女的人脸图像之间具有更高的相似性.它包括400个人的600 幅图像,图像的分辨率为89×96 像素.这600 幅图像分为200 组,每一组中包括了子女、年轻时父母及年老时父母的人脸图像各一幅.UB Kin-Face 涉及到的人种分为两部分: 亚洲人和非亚洲人,各有 100 组.该数据集对具体的亲子关系类型进行了区分,分为4 种亲子关系,其中父亲−儿子,父亲−女儿,母亲−儿子,母亲−女儿分别有91 组,79 组,21 组以及 15 组.
3) KinFaceW 数据集6http://www.kinfacew.com/.KinFaceW 数据集由两个子数据集组成: KinFaceW-I 和 KinFaceW-II,数据是从网络上收集的自然环境下的人脸图像,由Lu 等提出[15],所有图像的大小为64×64 像素.两个子数据集的数据结构相同,不同之处在于,Kin-FaceW-I 中的人脸图像来自从不同的照片,而Kin-FaceW-II 中的人脸图像对是从同一幅图像中分割得到的.KinFaceW-I 中,父亲−儿子,父亲−女儿,母亲−儿子,母亲−女儿分别有 134 对,156 对,127对和116 对;KinFaceW-II 中,每一种亲子关系分别有250 对,由于其数据规模适中,数据分布合理,便于进行训练,绝大多数基于人脸亲子关系验证研究中都用到了该数据集,但随着深度学习算法在人脸亲子关系验证中的运用,该数据集也暴露出其在数据量上的短板.
4) Family 101 数据集7http://chenlab.ece.cornell.edu/projects/KinshipClassification/index.html.Family 101[30]数据集是第一个包含有家庭树结构的数据集,该数据集是由康奈尔大学先进多媒体处理(Advanced multimedia processing,AMP)实验室建立.Family 101数据集包含了206 个核心家庭,涉及607 个人,共计14816 幅人脸图像.每一棵家庭树有1~ 7 个核心家庭,而每一个核心家庭包括3~ 9 个家庭成员.数据集中的图像大部分是灰度图,图像的分辨率各有不同,并没有进行统一.Family 101 数据集中包含了白种人、亚洲人和非裔美国人等多个人种.Family 101 数据集中有多种亲子关系类型,父亲−儿子,父亲−女儿,母亲−儿子,母亲−女儿分别有213 对,147 对,184 对和148 对.Family 101 数据集以家庭树结构组织数据,高效地表示了不同样本间的亲子关系.此外,Family101 中的多数人具有多幅人脸图像,部分图像拍摄于不同的年龄时期.
5) UVA-NEMO Smile 数据集8http://www.uva-nemo.org/.UVA-NEMO Smile 数据集由Dibeklioglu等[66−67]提出,最初建立该数据集的目的是为了检测参与者是在 “真笑” 还是 “假笑”,由于该数据集的参与者是以家庭为单位的,其也被视为第一个由人脸视频组成的亲子数据集.UVA-NEMO Smile 数据集包括有1240 段微笑视频(其中597 段 “真笑”视频,643 段 “假笑”视频),所有视频的拍摄背景均为黑色,光照条件固定.参与者的年龄在8~ 76 岁之间,视频帧大小为1920×1080 像素.该数据集包含了父母−子女的4 种主要亲子关系类型以及兄弟姐妹3 种亲子关系类型(根据性别的不同分成的姐妹关系,兄弟关系,姐弟/兄妹关系).该数据集的亲子关系对数较少,仅有95 对,且视频中包含的人种相对单一,绝大多数为白种人.
6) TSKinFace 数据集9http://parnec.nuaa.edu.cn/xtan/data/TSKinFace.html.TSKinFace 数据集是由淮阴师范大学的Qin等[68]提出的人脸图像数据集,与之前的数据集不同,它主要用于研究三人组亲子关系验证问题.TSKinFace 包含两种组合亲子关系类型: 父亲−母亲−儿子和父亲−母亲−女儿,分别有 513 组和 502 组,人脸图像来自于网络并且对拍摄环境没有约束,每幅人脸图像大小归一化为64×64 像素,数据集中涉及了多个人种.
7) FIW 数据集10https://web.northeastern.edu/smilelab/fiw/.FIW (Families in the Wild)[11]数据集是目前规模最大,综合性最强的亲子图像数据集,由Robinson 等建立.FIW 数据集以家庭结构组织数据,包含1000 个家庭的超过13000 幅人脸图像,每幅人脸图像大小为224×224 像素.FIW涉及了家庭成员在不同时间的多张照片.在亲子关系类型上,不仅包含了在UVA-NEMO Smile 中涉及的7 种亲子关系类型,而且还涉及了四种跨代亲子关系类型(祖父−孙子,祖父−孙女,祖母−孙子,祖母−孙女).FIW 不仅在数据集的规模上远远超过了Family 101,而且在家庭结构方面也比Family 101 更为复杂.它的数据量也远超其他的数据集.
8) WVU 数据集11https://sites.google.com/a/mix.wvu.edu/namankohli/resources.WVU 数据集由西弗吉尼亚大学(West Virginia University,WVU)的Kohli等[69]建立,数据集包括113 对亲子关系对,包含了UVA-NEMO Smile 中涉及的7 种亲子关系类型,其中22 对兄弟,9 对姐弟/兄妹,13 对姐妹,14 对父女,34 对父子,13 对母女和8 对母子.为了增加人脸图像多样性,数据集每个参与者包含4 幅人脸图像.缺点是数据集规模小,亲子对数量有限.
9) KFVW 数据集12https://www.kinfacew.com/datasets.html.Yan等[70]提出了KFVW(Kinship Face Videos in the Wild)这一人脸视频亲子关系数据集,与UVA-NEMO Smile 的固定背景不同,它采集于自然环境.视频在光照、姿势、遮挡情况、背景、表情、化妆情况、年龄等方面没有约束.KFVW数据集包含了418 对人脸视频,每段视频包含100~ 500 帧图像,视频帧的大小为900×500 像素.这些视频数据均来源于网络电视节目.KFVW 包含了4 种主要的亲子关系类型,该数据集在亲子关系类型的分布上比较均衡,数据量较UVA-NEMO Smile 也有了很大的提升,而不足的是KFVW 数据集没有以家庭结构组织数据,每个个体没有多段视频.
10) FFVW 数据集.FFVW 数据集是由Sun等[71]建立的一个人脸视频亲子关系数据集,与TSKin-Face 数据集相似,该数据集主要用于基于人脸视频的三人组亲子关系验证.FFVW 包含了100 组对象的300 段视频,数据来源自互联网,视频中的环境均为自然环境.与TSKinFace 不同,FFVW 将父母−子女关系统一作为研究对象,没有对子女性别进行细分.
11) KIVI 数据集13http://iab-rubric.org/resources/KIVI.html.KIVI 数据集由Kohli等[72]建立,数据以家庭为结构进行组织.包含了503 个个体的人脸视频,这503 个个体来自于211 个家庭,共计组成了355 对亲子对.该数据集从互联网中收集,视频的平均时长为18.78 s,平均帧频率为26.79 帧/s,静态总帧数超过了25 万.与先前提出的视频亲子关系数据集不同,KIVI 数据集包括了加上兄弟姐妹关系在内的7 种亲属关系,在光照、姿势、遮挡情况、种族和表情方面没有约束,且数据集中包括了多个人种.
12) TALKIN 数据集.TALKIN[73]数据集是第一个多模态的亲子关系数据集,由人脸视频和语音两个模态的数据组成.TALKIN 数据集包含了从互联网中收集的800 段视频,包括了4 种亲子关系,父亲−儿子、父亲−女儿、母亲−儿子和母亲−女儿.每种关系有一百对视频.视频均为说话者视频,包含人脸视频和声音信号.视频中人物为名人或者来源于家庭综艺中的普通人.TALKIN 数据集包含了来自9 个国家的人种,其中白种人占有很大的比例.视频在背景环境、人脸姿态、有无遮挡以及说话的文本内容等均无限制.
实验中数据分为正样本对和负样本对,正样本对是由数据集当中所有具有亲子关系的样本组成,负样本对为随机产生的不具有亲子关系的样本.通常正负样本对数量相同,但也有研究工作为了生成更多的学习样本,负样本会多于正样本.由于亲子关系数据量往往比较小,为了避免过拟合,实验中采取五折验证方法.其中,四折作为训练集,剩下的一折作为测试集,通过五轮交替后求平均得出最终的结果.需要特别注意的是,每一折数据的正负样本对均在本折中产生,不可以产生不同折之间的数据交叉.
识别准确率是亲子关系验证常用的评价指标,准确率可以描述一个分类器在测试数据集上的分类能力[74],分类器的分类结果可以分为两部分: 正确分类部分和不正确分类部分.正确分类部分包括正确分类的正样本(True positive,TP)与正确分类的负样本(True negative,TN);错误分类部分包括错误分类的正样本(False positive,FP)和错误分类的负样本(False negative,FN).准确率A的计算方式为
短短十年的研究历史,涌现了不少人脸亲子关系验证的研究工作,经历了传统手工设计工程和以深度学习为代表的学习训练时代.为方便总结,我们将人脸亲子关系验证方法分为两个阶段进行总结: 传统的手工设计方法(本节)和基于深度学习的方法(第4 节).在本节,我们先介绍了传统人脸亲子关系验证的一般过程,之后对传统方法分为两个大类介绍,分别为传统人脸亲子特征提取方法和亲子度量学习方法.
亲子关系验证的一般流程如图3 所示,主要由4 个关键环节组成: 人脸检测、矫正和分割、亲子特征提取、距离计算和分类得出结果.
图3 亲子关系验证的一般流程Fig.3 The general framework of kinship verification
1) 人脸检测、矫正和分割.这一步骤是对输入的包含人脸的原始图像进行人脸检测,对人脸部位进行定位后,通常以眼睛位置作为关键比对点,对人脸进行对齐和矫正.对齐和矫正的目的是减少由于尺度、人脸角度的影响,常用的人脸分割和对齐方法有MTCNN (Multi-task convolutional neural network)[75]和ERT (Ensemble of regression trees)[76].本文将不再对此进行详细介绍,读者可参阅相关文献.
2) 亲子特征提取.对给定的两幅输入人脸图像I1,I2分别进行特征提取,将每幅人脸图像表示成一个紧致的特征矢量,即ϕ(I1) 和ϕ(I2),用于后续的距离度量和分类.这一环节属于亲子关系验证的一个核心研究内容,也是决定其性能的关键所在.在深度学习出现以前的传统特征工程时代,常用的特征描述子有局部二值模式(Local binary pattern,LBP)、二进制统计图像特征(Binarized statistical image feature,BSIF)、尺度不变特征变换(Scale-Invariant feature transform,SIFT)、方向梯度直方图(Histogram of oriented gradient,HOG)以及局部相位量化(Local phase quantization,LPQ)等.深度学习出现以后,传统的特征描述子已经逐渐被深度特征表达方法取代.本文在第3.2 节和第4 节中按照传统特征工程方法和深度学习方法两类对代表性的人脸亲子特征表达方法进行详细的归类、分析和总结.
3)距离度量.经过亲子特征提取,两幅人脸图像分别表示成两个固定维度的特征向量,接下来需要采用合适的距离度量来计算两个特征矢量在特征空间中的距离,来评估两幅人脸图像之间的相似性.常用的距离度量方法有欧氏距离、马氏距离、余弦相似度等,在基本距离度量上,研究者尝试引入度量学习(Metric learning) 算法,度量学习由Xing等[77],在NIPS 2002 (Conference and Workshop on Neural Information Processing Systems 2002)第一次提出,度量学习旨在学习能使具有亲子关系样本对(即正样本对)间的距离变小,而非亲子关系样本对(即负样本对)间的距离变大的变换矩阵,将提取的特征向量通过学习到的变换矩阵嵌入到新的特征空间,以提高人脸亲子关系验证的性能[15,46,78].这部分将在第3.3 节中进行详细介绍.
4)分类.经过上述步骤,已经得到人脸图像样本对之间的距离,接下来就是学习一个二元分类器对输入人脸图像样本对间的距离进行分类.常用的分类器有K近邻,支持向量机和阈值判别法.
在人脸亲子关系验证问题中,亲子特征提取和距离度量起着更为重要的作用,也是研究关注的焦点,为此也是本文讨论的重点.
解决人脸亲子关系验证问题首先要对人脸图像中的关键部位进行有效的特征表示,特征提取方法研究的目的是在面部图像中提取包含亲子遗传属性的特征表示,依据算法侧重不同及其拟解决的问题,可以分为描述特征、面部显著特征、手工特征、基于颜色的特征变换和特征选择方法等.首先,描述特征由Fang等[6]学者提出,他们着手于面部底层特征,从不同维度表示面部特征,包括面部颜色属性:眼睛颜色、肤色、发色;五官间距离: 用欧氏距离测量不同部位间的距离以及其梯度特性;脸型: 五官器官的大小.之后Xia等[79−80]对面部更多的信息进行描述,包括图像人的年龄、性别、人种等,这些属性用二值化的特征表示,即 − 1 和+1.最后将20 种属性特征级联作为特征向量.然而,描述特征大多需要人为介入进行标注,来定义特征描述的属性,特征向量维度低,信息表示片面,不能够全面挖掘图像中的亲子特性.随着人脸亲子关系验证逐渐获得更高的关注度,研究员们提出了性能佳、效率高的自动特征提取方法,接下来将对这些方法进行分类和汇总.
3.2.1 基于显著特征的亲子关系验证
这类方法旨在通过对面部的显著部位,如眼睛、鼻子、嘴巴比较亲子间的相似度[31−33, 81],因此首先需要对人脸进行关键点定位.给定一幅人脸图像,对其提取显著性部位,Guo等[31]提出使用眼睛、嘴巴和鼻子作为面部显著性区域,如图4 所示,再用DAISY 描述子[82]对每个区域提取相似性特征,而后计算一对图像的相似性.Kohli等[81]提出使用角点检测(Differences of Gaussians,DoG)方法定位面部关键区域,之后Wang等[32]在2014 年将广泛应用的68 个人脸特征点检测方法应用到亲子关系验证中来[34],并提出使用基于Grassmann 流形的几何度量方法,计算两幅人脸图像的相似性.除了对人脸的关键点、关键部位检测和提取,Goyal等[33]提出基于边缘(Edge) 检测的亲子特征提取方法,作者首先用Canny 边缘检测算子对两幅人脸图像提取边缘特征.Canny 算子具有低错误率的边缘检测,最优的边缘定位以及对任意边缘仅标记一次的优良特性[35],在获得图像边缘信息后,分析边缘条纹包裹的闭环面部区域作为最终获得的显著性区域.
图4 基于显著性区域的亲子关系验证算法框架图Fig.4 The architecture of saliency based kinship verification
3.2.2 手工特征方法
前面介绍的面部几何形状特征是在图像的像素级上检测和提取的,受检测准确度、面部表情形变、噪声以及倾斜角度影响较大,从而导致识别准确率低,在复杂条件下对噪声容忍度低.针对这类问题,研究学者提出使用手工特征提取方法[14,36−39,83].其中局部二值模式(LBP)是应用最为广泛的手工特征表示提取方法,LBP 是一种用来描述图像局部纹理特征的算子,它具有旋转不变性和灰度不变性等显著的优点,最早由Ojala等[84−85]在1996 年提出,LBP采用圆形邻域编码方法,如图5 所示.在3×3大小的窗口内,以中心像素作为阈值,分别与邻域的8 个像素进行比较,生成8 个二值码.若周围像素大于阈值,则标记为1,否则标记为0.
图5 LBP 算法Fig.5 The algorithm of LBP
由以上方法得到的8 位无符号数即为该窗口的LBP 编码,这个编码可以反映区域的纹理特征.LBP 编码可以通过改变邻域半径和取值点,得到不同维度下的特征表示.设窗口半径为R,取P个邻域相似点,则 (xc,yc) 点的LBP 值计算式可以表示为
其中,gc为中心像素点,gp为邻域像素点.s(x) 为符号函数.经过LBP 算子后,特征采用10 进制方式表达该点的二值模式,共有 2P种,在实际应用中可以对P和R值进行改变获得多尺度下的LBP 表达[38].通常,在LBP 特征提取前会将图像进行分块,计算每个子块中每个像素的LBP 值,对子块进行直方图统计得到该子图像块的LBP 值,利用子图像块的LBP 值即可以描述该图像的纹理特征.图6给出了一个灰度图及其对应的LBP 图谱,LBP 图谱中的每个像素值代表了该点的LBP 值.
图6 LBP 可视化特征Fig.6 The visualization of LBP feature
在基础的手工特征基础上,现有的方法也对其进行了不同程度的发展研究.金字塔多尺度协方差描述子(Pyramid multi-level covariance descriptor,PML-COV)[38]建立了金字塔手工特征,将不同分辨率下的HOG 和LBP 两种特征与协方差描述子结合,取得了传统特征提取方法中最好的识别率,在KinFaceW-I与KinFaceW-II 数据集上的识别率均达到88.2%.
3.2.3 基于颜色的特征变换方法
传统手工特征往往在灰度图像上提取,仅从光照强弱(Luminance)程度层面分析图像的特征表示,而忽略了图像的色度信息(Chrominance).面部中的颜色包含了亲子间的遗传信息,如: 眼睛颜色、肤色和发色等,为了能够充分提取面部图像颜色信息,Wu等[12]提出颜色纹理特征提取方法.颜色纹理特征结合了图像中颜色和纹理两个方面信息,使得表征具有更高的可判别性.常用的颜色空间包括RGB,HSV,YCbCr 等,该方法首先将输入图像转换为目标颜色空间,在目标颜色空间中对每个通道上的图像分别提取纹理特征,再将各个通道的特征进行级联得到最终的颜色纹理特征,如图7 所示.实验表明HSV 颜色空间相较于其他颜色空间可以提供更为丰富的亲子信息,并在TSKinFace 数据集上取得了较好的识别准确率,亲子平均识别率为81.2%.并且之后的相关研究均表明了颜色纹理特征在亲子关系验证问题上的有效性[29, 40].
图7 彩色纹理特征提取方法Fig.7 The method of color-texture feature extraction
除了在已知的颜色空间提取特征表示,Liu等[13, 41]提出遗传颜色空间(Inheritable color space,InCS),将亲子距离度量作为目标函数,从而学习一个映射矩阵W,映射矩阵可以将原图像所在的颜色空间映射到新的颜色空间.假设原图像对可以用两个矩阵表示,mp和mc ∈R3×n(n=h×w),在新颜色空间下的图像为x,y ∈R3×n.InCS 通过一个变换矩阵W将原图像变换得到新的颜色空间
其中,W矩阵在目标函数下训练得到.InCS 颜色空间的各个颜色通道信息不相关,减小了信息冗余度.研究表明InCS 对光照变化,(包括光强变化和光照颜色的变化)鲁棒,在多个数据集上的实验结果也表明了InCS 相较于常用颜色空间的优越性.
3.2.4 特征选择方法及其他方法
与单一特征提取方法相比,特征选择(Feature selection) 方法旨在研究多个特征间的融合和选择方法,从而可以丰富特征表示,并去除冗余信息[42−45].特征选择方法往往输入为多个特征,在目标函数或者识别准确率的约束下,从多个特征中选择出其中有效的表示方法.Alirezazadeh等[42]在2015 年首先提出融合局部特征与全局特征,并从其中选取有效特征的方法.Bottinok等[43]提取图像的多个特征,包括频域局部相位量化(Local phase quantization,LPQ)、韦伯局部描述符(Weber's local descriptor,WLD)和LBP.在进行特征分类之前,为了提高识别准确率,用最大相关和最小冗余算法 (Max-relevance and min-redundancy,mRMR) 从特征候选集选出一个最优子集作为最终的分类器输入.
除此之外,研究者也有用分类器做导向来进行特征选择.Cui等[44]提出自适应的特征选择方法,用W对不同特征进行选取,对于特征fj,j=1,···,N训练一个弱分类器hj,对N个弱分类器的选择和优化通过以下目标函数实现:
其中,Wi为正则化参数,ξi是每个特征的松弛变量,ωj,bj是第i个支持向量机(Support vector machine,SVM) 的超参数,C是SVM 的惩罚参数,xij为i样本对的第j特征表示,Φ (xij) 是输入空间的特征图,有效的弱分类器组成一个强分类器.与文献[44]类似,Chen等[45]采用典型相关分析(Canonical correlation analysis,CCA)方法,来寻找一个多特征映射选择矩阵,从而增大亲子关系对的特征相关性.
除了上述提到的特征提取方法,还有一些学者从其他角度解决特征提取的问题.Fang等[30]选取多个不同人脸部分组成一个字典,当输入新的面部图像时,在对应器官图像字典中寻找其编码方式作为该图像的特征向量.Duan等[86]提出特征消减法去除特征中的噪声信息,保留有效信息.Bessaoudi等[87]提取了特征的高阶表示,而Laiadi等[88]提出张量交叉视图二次判别分析(Tensor cross-view quadratic discriminant analysis,TXQDA)方法,通过特征映射方法,学习低维张量,来减小由年龄、性别等多种因素带来的影响.
本小节对基于特征表示的人脸亲子关系验证方法进行了全面的总结,从多个分类角度分析了方法的切入点和创新点.特征提取的好坏直接影响到最终识别性能的高低,传统的特征提取方法有计算复杂度低、特征提取速度快的优点,然而,由于特征固化于特定的提取规则,往往有不适用于复杂情况、抗干扰能力差等缺点.
在特征提取方法基础上,我们期望找到一个最佳的度量方法去计算图像对间的距离,使得具有亲子关系的图像对(正样本对)距离小,而不具有亲子关系的图像对(负样本对)距离大.这就引入了本小节将要介绍的研究内容,基于度量学习的人脸亲子关系验证算法.度量学习(Metric learning)旨在根据不同的任务自动学习出一个距离度量函数,将距离度量空间映射到一个新的度量空间中.这是由于在常用的度量空间中,同一类样本往往不能够很好地聚类,度量学习就是为了解决该类问题、更好地描述样本间的相似问题,这也是人脸亲子关系验证研究的核心问题之一.
度量学习通常在距离度量/相似性度量的基础上增加一个映射矩阵,依据任务不同构造损失函数,通过迭代优化或最优解的方法得到映射矩阵,从而达到映射度量空间的目的.其中涉及到的距离度量包括欧氏距离[46]、马氏距离[15,54,78,89−92]、双线性相似度[47−49,93−95]、图构造[50−51]、余弦相似度[55−56]、CCA[96]及其他度量模型[97−101],本小节将对这些方法进行总结概述.
3.3.1 邻域驳斥度量学习算法
Lu等[15]2014 年提出邻域驳斥度量学习(Neighborhood repulsed metric learning,NRML)算法,这是度量学习在人脸亲子关系验证中的第一次尝试,为度量学习在人脸亲子关系验证研究中的研究奠定了理论和实践基础.NRML 算法的思想是,正样本相邻的负样本会对分类器产生干扰,因此方法对正样本k个邻域中的负样本进行排斥,同时使正样本互相吸引,从而分离正负样本,算法示意图如图8 所示.
图8 NRML 算法框架图Fig.8 The architecture of NRML algorithm
我们用S={(xi,yi)|i=1,2,···,N}表示训练集,其中,包含了N对具有亲子关系的图像对,xi,yi为第i对亲子图像的特征表示,用m维的列向量表示.xi和yj之间的距离用马氏距离(Mahalanobis distance)表示为
其中,A是一个m×m的对称正定矩阵,通过找到一个合适的A,使得当i=j时,距离尽可能小;而ij时,距离尽可能大.对A构造目标函数如下:
其中,yit1表示yi的k邻域中第t1个负样本,而xit2表示xi的k邻域中第t2个负样本.式(7)中的前两项目的是为了驳斥xi和yi邻域中的负样本,J1(A)以xi为基准,最大化其与k个邻域负样本的距离;反过来,J2(A)以yi为基准,最大化其与k个邻域负样本的距离,而第3 项J3(A) 则使正样本对xi和yi距离尽可能小.这样就实现了正负样本对的分离,文献[15]中用迭代优化的方法对A进行求解,本文将不再赘述,感兴趣的读者可以参阅相关文献.
NRML 算法在当时研究水平上取得了最好的识别率,分别在KinFaceW-I 和KinFaceW-II 数据集上的平均识别率为73.8%与69.9%.因此,NRML的邻域驳斥思想也被多个研究学者应用于其他度量方法上,Yan等[46]提出将特征向量映射到SVM 超平面(Hyperplane)上,再通过构造邻域驳斥思想优化系数矩阵.Xu等[47]用多特征级联作为图像的特征向量,提出用双线性相似度结合NRML 算法的度量学习方法.之后,Yan等[55]和Lei等[96]分别将度量方法用余弦相似度和CCA 代替,也证明了NRML算法的有效性.
除了上文提到的NRML 算法,研究学者在马氏距离的基础上也提出了其他度量学习算法,从不同角度切入优化距离度量方式.Yan等[78]引入概率模型,最大化亲子关系距离小于非亲子关系距离的概率,即P(d(xi,yi) 图9 大裕量多维度量学习算法示意图Fig.9 The illustration of LM3L LM3L 在单一特征(第k特征)下的损失函数可以表示为 其中,wk是权值参数,为了避免平凡解,对权值取p次方.第1 项对不同特征空间学习权重函数;第2项为了减少不同特征空间的差异性,由此最终可以得到多特征的度量学习模型.作者采用交替优化方法优化式(9),具体细节可参见文献[78]. 3.3.2 基于双线性相似度的度量学习方法 除了研究较多的马氏距离度量方法,还有一种度量方式是双线性相似度(式(10)),M是参数矩阵,xi,xj表示两个特征向量,当M为单位阵(Identity matrix)时,双线性相似度可以视为没有归一化的余弦相似度.双线性相似度在图像检索上展现了较好的度量性能[102−103],并且对于稀疏特征向量,其可以有效计算特征间相似度,即 Zhou等[48−49]提出四输入的相似度学习算法(Ensemble similarity learning,ESL),输入为xi,yi,xj,yl,其距离关系目标函数可以表示为 其中,xi和yi表示一对正样本对,而yl和xj分别为对应负样本.为了满足上述的约束条件,Zhou等[48−49]提出如下损失函数: 其中,1 是一个边缘阈值常量用于分离正负样本对.作者提出使用梯度下降的迭代方法优化参数.ESL算法在计算效率方面具有一定的优势,因此其在实际应用中可以适应于高维特征表示.其次,ESL 通过四输入的数据组,满足每对图像相似度模型上的类内类间约束.实验结果表明,ESL 在计算效率上优于现有的方法,识别准确率在KinFaceW-I 和KinFaceW-II 上分别取得74.1%和74.3%,在当时获得最佳识别性能.Qin等[94]提出多任务的双线性相似性学习方法,将多种亲子关系任务结合,用多任务(Multi-task)的思想进一步提高算法的鲁棒性.Fang等[95]引入线性回归模型,建立正样本的后验概率模型,平滑目标函数,进一步帮助最优解求解. 3.3.3 迁移子空间学习 基于迁移子空间学习的人脸亲子关系验证方法将子女图像与父母图像分别看作源域(Source domain)与目标域(Target domain),旨在通过学习一个矩阵映射,缩小两个域之间的差异,同时保留特征的可判别性[52−53].Xia等[52−53]提出子女长相更相像于年轻时父母,为了保证源域到目标域的有效迁移,将年轻父母的人脸图像作为源域到目标域的桥梁,称为中间域(Intermediate domain).Zhang等[54]将该思想与NRML 算法结合,提出邻域驳斥迁移度量学习(Neighborhood repulsed transfer metric learning,NRTML)算法,同时缩小子女与年轻父母之间的距离、子女与年老父母之间的距离以及年轻与年老父母之间的距离.这类方法的缺点是同时需要年轻与年老时的父母人脸图像,对数据搜集要求高,难度大. 3.3.4 其他度量学习方法 除了上述应用中较为广泛的度量学习方法,研究学者也从其他角度对亲子度量方法进行了研究.Zhang等[97]提出三人组的亲子关系度量方法,在高维特征空间中,距离由子/女点到父母点连线的垂直距离表示.Liu等[98−99]通过向量的对角向量表示距离关系,Wu等[100]引入低秩的度量学习,通过自适应的隐含子空间学习方法挖掘更具有可判别的特征表示.Zhao等[101]提出多核的距离度量方法,包括线性和非线性度量方法,在不同核函数下计算距离后加权融合.图学习方法也在亲子关系度量中展现了其优越性和有效性,Liang等[51]依据数据节点间的距离关系,将NRML 思想和图理论结合,通过构造本质图(Intrinsic graph) 和惩罚图(Penalty graph),同时描述类内紧凑性和类间分离性,在公开数据集上取得了较好的识别效果,在TSKinFace数据集上的亲子平均识别率为90.5%,在Kin-FaceW-I 和KinFaceW-II 数据集上的平均识别率分别为78.7%和82.8%. 度量学习可以看作是对特征向量的聚类操作,通过不断优化学习,拉近具有亲子关系的图像对,而不具有亲子关系的图像对互斥.本小节对现有的亲子度量学习算法进行了归纳总结,传统的度量学习方法是在特征表示基础上提出的,与特征提取方法是两个独立的模块.深度度量学习将特征提取和距离度量结合,用样本间的距离度量引导网络学习表征能力强的特征提取方法.通常深度网络抽象特征向量,相似性度量作为损失函数,通过优化损失函数,不断更新网络参数,最后可以得到判别力强的特征向量. 传统手工特征的描述能力有限,很难适应复杂场景下的大规模数据任务.基于卷积神经网络 (Convolutional neural network,CNN)的深度学习方法具有很好的特征描述能力,通过对大规模的数据进行训练分析,自适应地从原始数据中提取有效特征向量,避免了手工特征单一、特定的特征提取规则. 随着深度学习在计算机视觉领域的不断渗透和大规模亲子数据集的提出,2016 年以后研究人员的研究重心逐渐向深度学习方法迁移.相较于传统方法,深度学习方法通过设计神经网络,自适应地挖掘图像的高层次特征,一般通过端到端(End-toend)的训练方法获得任务的训练模型(Model).深度学习方法在复杂情况下表现出了优越的性能,对光照、遮挡等因素鲁棒性高.人脸亲子关系验证算法中涉及到多个先进深度学习框架,包括基本卷积神经网络、深度度量学习、基于自编码器的框架和注意力机制神经网络框架.下面将对这些算法进行汇总和介绍. 近年来,随着深度学习方法在计算机视觉和语音处理领域得到成功应用,其在人脸亲子关系验证问题中也取得了不少进展[16−20,57−63,65,72−73,104−109].深度学习网络包含了许多隐含层及通过损失函数的反向传播,使得其具有相对于传统手工特征的强大的表达能力,以及对特定问题的学习能力.2015 年,Wang等[16]首次提出用深度网络解决亲子关系验证问题,该方法分为两个阶段,特征提取与深度度量学习.其中,面部的非线性特征通过自编码器(AutoEncoder)提取,而后,基于优化马氏距离的深度度量学习,可以更好地分离正负样本.然而,该方法的输入为LBP 特征,丢失了原始图像的细节特征.Zhang等[57]开启了基于端到端(End-to-end)深度学习的人脸亲子关系验证方法,框架图如图10 所示,是一个基本的卷积神经网络(CNN).网络的输入为两幅人脸图像,经过多层的网络卷积最终输出判断结果.该网络架构简洁明了,仅用单一卷积网络对两输入分析其之间的关系情况.尽管网络结构比较单一,CNN 在公开数据集上同样表现出了很好的识别性能,在KinFaceW-I 和KinFaceW-II 数据集上的平均识别率分别为77.5%和88.4%,该项工作奠定了深度学习在人脸亲子关系验证研究中的研究基础. 图10 基于基本CNN 的亲子关系验证框架图Fig.10 The architecture of the basic CNN based kinship verification 在卷积神经网络的基础上,为了优化学习输入的亲子图像间的距离,研究学者引入距离度量参与网络训练,即深度度量学习(Deep metric learning)方法[17, 58−62].典型的网络结构为孪生网络(Siamese network),如图11 所示.不同于基于表征学习的深度网络,度量学习旨在通过优化损失函数,寻找到一个最优的特征空间,使得具有亲子关系的图像对(Positive pair)距离缩小,不具有亲子关系的图像对(Negative pair)距离变大,而该特征空间即为我们训练所得到的网络. 图11 基于孪生网络的亲子关系验证框架Fig.11 The Siamese network based kinship verification Li等[17]提出基于相似度量的卷积神经网络(Similarity metric based convolutional neural networks,SMCNN),输入为两幅人脸图像X1和X2.G(·)表示网络的全连接层特征输出,两幅图像经过参数共享的网络得到特征的嵌入表示,特征间的距离用L1范数表示,如式(13)所示. 训练过程中,为了区分正负样本对,增加一个阈值参数τ,使得正样本对间距离大于τ,而负样本对间距离小于τ.正负样本的标签分别用y=1与y=−1表示,此时,可以得到网络的损失函数 其中,f(·) 表示归一化的逻辑回归.通过不断地优化最小化损失函数,可以得到最终的网络参数用于问题的求解.此外,常用的孪生网络损失函数还包括对比损失函数(Contrastive loss)和三元损失函数(Triplet loss)[17−18, 73],这两个损失函数均基于距离度量,如欧氏距离和余弦相似度,用d=D(X1,X2)表示.同样,y表示输入图像对的标签.对比损失函数可以表示为 其中,(x)+=max(x,0),参数y的0 或1 取值就使得损失函数在正负样本情况下保留特定项式.当y=1 时(正样本),优化d使其逐渐缩小,从而使得亲子关系对间距离变小.反之,当y=0 时(负样本),负样本对会逐渐分离,距离大于预设定的α阈值.不同于对比损失函数,三元损失函数的输入为三元组〈a,p,n〉,其包括3 个样本,分别为,固定图像(Anchor)a、正样本图像(Positive)p和负样本图像(Negative)n,正负样本均参照输入的固定图像而言.三元组损失函数表示为 三元损失函数以固定样本作为参考,在拉近正样本的同时远离负样本.在两个条件作用下,达到聚类正样本对的目的,实现正负样本对的分离,如图12 所示.然而,对于深度度量学习而言,网络的训练样本对直接决定网络训练的效率和网络性能,因此研究者提出一系列难样本挖掘(Hard negative samples mining)方法[110].通常难样本挖掘方法致力于在训练批(Batch)中寻找距离较远的正样本对以及距离相近的负样本对,这些样本会产生较大的误差回传,从而有效训练网络.由于深度度量学习在人脸亲子关系验证中的研究尚处于较初级阶段,且人脸亲子关系验证由于环境等因素,问题难度大,至今难样本挖掘方法的研究在人脸亲子关系领域中仍处于空白. 图12 三元损失函数示意图Fig.12 The illustration of triplet loss 另一个解决亲子关系验证问题的框架基于自编码器(Auto-encoder,AE)[16, 19, 72, 104, 106, 111−114],早期自编码器在人脸亲子关系验证领域的应用主要针对特征的无监督训练,如图13 所示.自编码器包含两个部分: 编码器和解码器,输入为特征向量,经过多层隐含层(Stacked autoencoders)后得到输出特征向量,此时的输出近似于输入.其中编码特征(Encoded feature)可以作为输入的表征用于任务.自编码器通过无监督的学习方式,对输入特征进行降维和去噪. 图13 自编码器框架图Fig.13 The architecture of auto-encoder 由于自编码器输入与输出相似的特点,如图14所示,Dibeklioglu等[18]将亲子对作为自编码器的输入,自编码器的输出不仅与原图像相似,又使其和自己的亲子相似,从而得到具有亲子表示的特征向量.用x1,x2表示两幅输入图像,经过自编码器后的输出分别为和.则亲子损失函数可以表示为 图14 基于自编码器的亲子验证/图像合成框架图Fig.14 The architecture of auto-encoder based kinship verification/kin face synthesis 其中,C(·,·) 表示两幅图像的余弦相似度,通常面部图像会用大数据预训练的深度网络提取特征向量,如VGG (Visual geometry group)网络.亲子损失函数描述了亲子对间的相互转化,保留了亲子间的有效特征表示.而非亲子损失函数是建立在亲子图像与其非亲子图像间的,对于父母和子女的负样本图像表示为n1和n2,则非亲子损失函数为 结合亲子损失函数和非亲子损失函数,可以得到 其中,λ是一个权重参数,用来控制亲子损失函数和非亲子损失函数间的贡献程度.通过对自编码器的训练,可以得到编码特征f(x1,x2),描述输入图像间的关系.此外,也有部分研究者利用其图像生成特性,研究亲子图像合成技术[19, 63, 64].生成对抗网络(Generative adversarial networks,GAN)是一个无监督的学习模型,对子女图像的生成可以实现数据域之间的转换.GAN 包括两个部分,分别为生成器(Generator,G)和判别器(Discriminato,D),生成器接受父母的图像而合成子女的图像,缩小与真实子女图像间的距离.同时判别器用对抗学习的方法,判断生成的图像是否是真实图像.因此在训练过程中,生成器的目标是合成逼真的子女图像去欺诈判别器,而判别器在尽力区分真实图像与合成图像.通过这样的一个博弈过程,GAN 就可以完成对子女图像的合成. Yan等[65]就亲子遗传线索往往存在于特定的局部面部区域,而非整个人脸的问题,提出基于注意力机制的亲子关系验证方法.通过注意力机制,学习面部局部特征表示方法,对面部不同区域进行加权操作,对比与传统的卷积神经网络,该方法可以学习到局部区域的高维特征,从而去除噪声和无效信息的干扰,提高方法的性能,算法如图15 所示. 图15 注意力机制示意图Fig.15 The illustration of attention mechanism Yan等[65]采用残差注意力机制方法,对原特征图进行加权.首先输入特征图(Feature map),经过一个池化和卷积,为了使得权值和原特征图大小相同,用上采样操作得到一个二维的特征图.特征点通过Sigmoid 函数,将特征图上的每个点都归一化到0 到1 之间.用C(X) 表示输入,即待加权的特征图,F(X) 代表得到的注意力图,得到的经过注意力操作的特征图为 其中,∗表示点乘.但是,由于提出的注意力权值通用于特征图所有通道,而权值在0 到1 之间,会造成丢弃深层特征值,因此网络增加残差(Residual)结构,可以得到最终的特征图表示为 当F(X) 的值接近于0 时,( 1+F(X)) 的值接近于1,不会对原特征图造成特征消失的影响,保留了网络的高维信息.进一步,为了更加准确地定位亲子特征部位,指导网络对局部区域的学习作用,作者对不同面部区域遮挡再学习注意力权值,例如,眼睛、鼻子、嘴巴部位.包括全脸和部分遮挡的面部图像在内,网络输入6 幅面部图像,可以得到一个合成的网络,全面地描述面部信息.注意力机制网络在KinFaceW-I 和KinFaceW-II 数据集上的平均识别率为82.6%和92.0%,是目前算法中性能比较好的. 注意力机制网络借鉴了人类观察时选择性的注意力特点,可以根据任务的不同,学习注意力方法.在亲子关系验证的问题上尤为适用,生物学家和心理学家发现对于长相遗传,眼睛部位会存在大量的遗传信息.相比于眼睛,嘴巴部位由于状态多样化,并不能够提供充足的遗传线索,尤其对于静态图像而言.基于注意力的亲子关系验证研究尚处于一个初级阶段,而今后如何将度量结合注意力学习是研究的关键点之一. 除了上述提到的几种典型的深度学习框架,研究者们也在包括外观模型和几何模型分离、多模态融合、基于图网络的框架和数据扩充问题上提出了相关解决办法. Zhang等[107]提出分离外观模型与几何模型的方法,结合全局面部外貌和脸型形状两个方面因素分析亲子特征.外观特征基于人的身份信息得到,脸型信息通过面部关键点得到.然而脸型信息的获取受到角度和姿态的影响,因此提出仿射不变性的形状特征提取方法,详细的方法细节参见文献[108].实验表明,两个维度特征的融合使得识别准确率在单特征基础上提高了10%. Wu等[73]就子女不仅长相与父母相似,在说话声音上也具有一定的相似性特点,提出融合语音特征和面部特征来解决亲子关系验证问题,为亲子特征提供更加全面的信息.网络结构分为两个部分:声音网络和视觉网络,分别在大规模的说话者数据集和人脸数据集上预训练后进行微调.融合模块采用对比损失方法,学习融合机制,首先将语音和视觉特征级联,经过全连接层输出融合后的特征表示.实验结果表明,多模态融合相较于单一模态可以进一步提高识别准确率. Li等[109]发现对比亲子关系时,往往通过比对对应的面部属性,而CNN 的输出特征的每一维可以看作是一种基因特征.基于此,作者提出一种基于图的关系推理方法.两个输入图像的特征向量g(xi) 和g(yj) 的每一维级联后得到图的N个特征节点,hd=[gd(xi)||gd(yj)].为了融合不同维度上的关系,在所有节点中选出一个节点作为超级节点,剩余节点均和该节点连接,由此建立了亲子关系推理网络.通过多层图卷积后,将二值交叉熵损失函数作为目标方程来训练整个图网络. 数据量不足是影响亲子关系验证研究在深度学习领域发展的一个重要因素,Song等[110]提出KINMIX 的亲子数据扩充方法.该方法在特征级而不是原始图像上进行扩充.作者提出两个亲子图像特征向量间的线性变化后的特征向量,仍与原向量具有亲子关系,通过改变线性变化的权值,可以扩充出大量的特征用于训练.实验表明,扩充后相较于原始数据会对方法性能有一定的提升. 深度学习算法具有较好的学习能力,在人脸亲子关系验证中具有很大的发展潜力,也是未来的主要研究方向之一.为了更加清楚直观地对比现有基于深度学习的人脸亲子关系验证算法,本文在表4中对其在多个维度上进行了汇总比较,并分析了算法所针对的问题. 表4 基于深度学习的亲子关系验证方法总结Table 4 The summary of deep learning based kinship verification 本节将对现有的人脸亲子关系验证算法进行性能比较,由于人脸亲子关系验证的方法很多,我们无法对所有的方法穷举.因此,本文选取了3 个研究方向中具有代表性的研究工作,以及发表在顶级会议和顶级期刊上性能好、具有里程碑意义的方法.表5 总结了10 余种最具代表性的亲子关系验证算法在常用基准测试数据集上的性能,分别从特征提取、度量学习和深度学习3 个方面选取几种最具代表性的方法.常用基准测试数据集包括亲子静态人脸数据集KinFaceW-I、KinFaceW-II、TSKinFace、FIW 和Cornell KinFace 等,视频数据集包括Smile、TALKIN 和KIVI.为了方便比较,我们选取了应用较多的几种亲子关系,包括: 父亲−儿子(FS)、父亲−女儿(FD),母亲−儿子(MS),母亲−女儿(MD). 传统人脸亲子关系包括两个方面,分别为基于特征提取的方法和基于度量学习的方法.人脸亲子关系验证研究初期以传统特征提取方法为主,识别率相对较低.以第一个人脸亲子关系验证方法 “计算模型”为例,平均识别准确率仅有65.7%.随着人脸特征表示研究的不断进步,基于特征提取的方法取得了比较大的性能提升.颜色特征方法[12]在TSKin-Face 数据集上的平均识别准确率为81.2%,PMLCOV[38]方法在KinFaceW-I 和KinFaceW-II 数据集上的平均识别率均可以达到88.2%.在特征提取的基础上,度量学习方法从距离度量的角度着手,进一步优化亲子和非亲子图像对的距离度量方式,提高正负样本的识别准确率.MNRML 算法作为度量学习在人脸亲子关系验证研究中的里程碑工作,取得了当时最好的识别准确率,分别在KinFaceWI 和KinFaceW-II 数据集上的平均识别准确率为73.8%和69.9%.WGEML 方法引入图结构,得到了更高的识别准确率.传统方法为人工设计的特定规则,在复杂情景下鲁棒性低,从表3 中可以看出传统方法均针对于小规模数据集,涉及的情景单一、数据收集环境也比较理想.深度学习方法进一步实现了算法性能的提升,其中SCCAE 算法在Smile数据集上取得了93.3%的平均识别准确率,Attention 算法在KinFaceW-I 和KinFaceW-II 数据集上击败了传统方法,识别准确率分别为82.6% 和92.0%.随着小数据集上识别准确率趋近于饱和,研究学者提出大规模的人脸亲子关系验证,目前,FIW 是最大的人脸亲子数据集,数据采集于无约束条件下,问题复杂度高,现有的识别准确率仅有68.5%,大规模自然环境下的人脸亲子关系验证问题难度大,仍需进一步研究. 人脸亲子关系验证也受到多方面因素的影响,从数据采集条件角度分析,包括录制环境以及人脸图像来源等因素;从人脸特性而言,影响人脸亲子关系验证的因素包括面部表情、年龄和性别;此外,亲子数据集规模也是影响亲子验证识别准确率的因素之一,下面我们将依据对应实验结果对这些因素进行分析. 1)数据采集.数据集采集的条件包括两种,一种是在自然环境下无约束的数据采集,一种是约束条件下录制.约束条件下,数据采集的各个参数均保持一致,包括背景、光照、受验者面部角度、面部表情、面部是否遮挡以及采集数据的设备和拍摄位置.以Smile 亲子数据集为例,由于Smile 数据集是在约束条件下拍摄的,受到来源于外部因素的干扰可以降到最低,因此识别准确率处于较高的水平,SCCAE[18]方法取得了93.3%的平均识别准确率.KinFaceW 数据集研究了亲子人脸图像来源于同一张照片和不同照片的差异性,从表3 的实验结果可以看出,KinFaceW-I 数据集中亲子图像来自于不同照片,其平均识别率相对低于亲子图像来自同一照片的KinFaceW-II 数据集,这是由于图像背景、光照等因素的相似性为亲子验证提供了参考,从而简化了问题复杂度.文献[115]对此进行了详细的分析,感兴趣读者可以参阅相关文献. 2)面部表情.心理学研究表明亲子关系验证准确率受到面部表情[27]变化的影响,相比于不同面部表情,待验证的两幅人脸图像在无面部表情时识别率较高.表5 中,文献[18]采用微笑的人脸亲子数据进行测试,实验结果表明了具有亲子关系的两个人不仅在长相上相似,也具有相似的微笑表情. 3)年龄和性别.人脸面部随着年龄的变化存在结构和纹理上的差异[116],而这些差异对人脸亲子关系类内距离产生影响,从而降低识别性能.UBKin-Face 数据集包含子女、年轻父母以及年老父母的人脸图像,在表5 的DMML[78]算法实验结果可以看到,年轻和年老父母在亲子关系验证上性能相差4.5%.在亲子关系性别上的差异表现于父亲−女儿和母亲−儿子这两种亲子关系,性别不同在人脸属性上会产生一定的差异[117],从表3 中统计的实验结果分析,FS、MD 关系的识别性能相对优于FD、MS 关系. 4)数据集规模.自人脸亲子关系验证研究以来,亲子数据集的建立经历了由小规模到大规模的发展过程.目前大规模亲子数据库为FIW,其余数据库大都属于小规模数据库.小规模的亲子数据库涉及情景单一,数据搜集条件比较理想,受到来自遮挡、视角等因素的干扰少,人脸图像提供了丰富的面部视觉信息.小数据库中样本量少更容易学习类内的聚敛性和类间的分离性,从表5 的实验结果可以看出,在小数据库上,算法识别性能已接近饱和.而当数据量剧增时,以FIW 数据库为例,每个个体具有多幅不相同的人脸图像,人脸形态在年龄维度、装束、拍摄条件发生变化时具有多样化,干扰类内距离的度量,问题复杂度增加,传统方法已无法满足解决问题的需要.AdvKin[62]深度学习方法也仅取得了68.5%的平均识别准确率.基于大规模数据集的人脸亲子关系验证研究更贴合于实际应用,同时也伴随着更大的挑战性,值得今后投入更多研究. 表5 人脸亲子关系验证方法识别准确率对比 (%)Table 5 The comparison of accuracies or kinship verification methods (%) 5)多模态信号.现有的亲子数据集大多数仅包含人脸视觉信息,人脸亲子关系验证算法基于视觉单模态实现.文献[73]通过将语音信号和视觉信号结合,在视觉模态上通过语音模态提供互补信息,性能得到了进一步提升.通过文献[73]的实验结果可以看到单一语音模态和视觉模态分别取得65.8%和71.9%的平均识别准确率,融合两模态后可以达到74.1%的平均识别准确率,因此所涉及的模态也是影响识别性能的因素之一. 整体而言,人脸亲子关系验证的识别率总体仍比较低,特别是在复杂情况下受多种因素干扰时性能鲁棒性较差,距离实际应用尚存在很大差距,仍需要进一步的研究. 近年来人脸亲子关系验证领域出现大量新的研究工作,在包括方法研究、数据集构建和应用拓展等方面均取得一定的研究进展,这是对其应用价值的肯定.未来会有更多的工作尝试进一步提高人脸亲子关系验证的准确率和易用性,并逐渐将人脸亲子关系验证方法应用到现实问题中.本文在回顾了人脸亲子关系验证问题的发展历程、分析其研究现状、归类和评述了现有主流方法的基础上,下面总结现有人脸亲子关系验证研究的一些问题和未来可能的研究方向. 1) 大规模人脸亲子关系数据集构建问题.深度学习在亲子关系验证中得到了成功应用,为了训练性能更佳、使用性更为广泛的深度模型,需要建立一个大的亲子数据库用于算法的训练.目前最大的亲子数据库FIW 的数据量为1000 个家庭,距离百万级的数据库还有很大的距离.并且目前的亲子数据库所涉及的场景也不够丰富,例如通常亲子图像来源于同一幅相片[115].现有的亲子数据库所涉及的参与者信息不够全面,大部分仅涉及到了参与者的视觉静态的面部长相,而忽略了参与者时间−空间的面部视频、声音以及步态等信息.除此之外,亲子数据库的搜集是建立在已知的亲子关系基础上,多个亲属参与的数据搜集工作,需要家庭中两人以上作为单位进行数据搜集.然而,亲子关系属于相对隐私的家庭关系,随着人们对个人隐私保护意识的不断提高,无疑对亲子数据库的构建形成了一个阻碍.构建大规模且信息源丰富的亲子数据集是推动亲子关系验证研究发展的一项重要工作. 2)有效亲子特征表示的研究.现有亲子关系验证方法中涉及到的面部特征提取大多基于整个面部的纹理特征、几何特征以及深度特征,上述特征大多为人脸的一般特征表示,包含了与亲子遗传信息无关的特征.而亲子特征的有效表示直接影响了算法的识别准确率,因此有效的亲子特征表示方法研究是今后的一个重要研究方向.对亲子特征提取的研究包括,面部亲子区域定位、亲子特征表示方法等.在Dal Martello等[1, 5,27]的心理学研究中就表明了不同面部区域对亲子验证的贡献程度不同,从实验结果看出嘴巴部分由于形态的多样性,易对亲子关系验证产生负面的噪声影响,而上半部脸包含了丰富的亲子特征线索,今后一个值得关注的可能解决办法包括,注意力机制网络在亲子关系验证问题的深入探究.在区域定位基础上,如何应用深度卷积网络从大数据中学习亲子特征表示也是今后值得研究的关键之一. 3) 如何降低年龄和性别因素对人脸亲子关系验证的影响.人脸亲子关系验证本质上是对比两个输入间的相似程度,DeBruine等[3]通过研究表明性别和年龄会大大影响亲子验证系统的准确性,而如何降低这两个因素带来的影响是今后研究值得关注的一点.其中一个思路是通过GAN 网络在原输入图像的基础上修改图像的某种特性,如性别、年龄,并生成新的人脸图像.另一个思路是,将年龄、性别标签作为约束条件,通过将年龄、性别特征与亲子特征解耦,从而学习年龄和性别不变性的人脸特征表示. 4) 非限定环境下人脸亲子关系验证的鲁棒性问题.本文在第1 节中提到人脸亲子关系验证所面临的挑战包括人脸姿态变化、成像条件、图像分辨率、面部表情变化等,目前为了解决自然条件下的人脸姿态差异性问题,在实验过程中通过眼睛位置对人脸进行归一化对齐操作.然而目前很少对光照、表情等因素进行考虑,依旧是尚待解决的问题.如我们考虑引入表情估计模型,利用表情估计模型估计出人脸的表情,再进行局部特征匹配,从而解决表情不统一的问题[118].再者对于光照不均匀和光线弱的情况,是否可以引入近红外成像光电器件解决光线弱的问题,引入本征图分解方法提取与周围环境光无关的本征反射图,从而消除由光照不均匀和阴影带来的影响[119]. 5) 视听亲子关系验证(Audio-visual kinship verification).现有研究工作大多从静止人脸图像判断二者是否具有亲子关系,而基因学[120]、心理学[121]和声学[122−125]等研究均表明声音也具有遗传性,子女具有与父母相似的说话声音.Sataloff[120]从基因学的角度研究人类发声规律,他指出人说话音色取决于发声器官,而发生器官往往由基因决定,包括喉部软骨大小、声带的长度以及声门形状.声学相关学者也通过语音特征: 基频F0[122−124]、基频扰动(Jitter)、振幅扰动(shimmer)以及谐噪比(Harmonics-to-noise ratio,HNR)[125]证明了亲属间语音是具有相似性的.此外,心理学研究表明人们具有依据说话声音判断是否具有亲属关系的能力[121],而计算机是否也可以通过语音来进行亲子关系验证是未来值得探究的一个研究方向.声音模态可以为人脸视觉模态提供补充信息,提高系统的识别准确率.目前在亲子关系验证研究中,视觉语音双模态融合研究还非常少,处于起步阶段,而如何利用模态间的互补性、提高系统鲁棒性是未来的研究热点之一. 6) 亲子图像生成相关研究.生成对抗网络(GAN)[126]是现阶段深度学习的一个重要发展分支,在多个研究领域展现了其卓越的性能.在亲子关系验证研究上,其中一个难点就是亲子人脸数据的难获得性和亲子数据量不足、缺乏数据多样性,GAN模型就可以通过亲子图像生成、数据扩充方法帮助解决这个问题.此外,就丢失儿童问题而言,其中的一个重要解决思想就是通过父母的人脸图像生成其子女图像,从而更好的匹配和寻找丢失的儿童,基于GAN 的子女人脸图像的生成研究也可以应用于手机终端娱乐.基于GAN 的亲子图像间的转换和分析研究是一个今后值得关注的研究方向. 7)基于模型迁移学习的亲子关系验证研究.我们在前面提到现有的亲子数据集规模大都较小,训练样本不足,除了对数据集进行数据扩充,另一个思路就是用知识迁移(Knowledge transfer)[127]方法,是否可以借鉴人脸相关训练模型所学习到的知识,如在大规模人脸识别数据库上预训练的深度模型,从而更有效的解决亲子关系验证问题.除此之外,现有的人脸亲子关系验证研究将每种亲子关系看作独立的任务,以 “父亲−儿子(FS)”关系为例,其余人脸亲子数据,如: 母亲−儿子,是否有助于训练单任务模型,比如将模型通过其他类型关系训练网络的初始化参数,再就特定的亲子类型学习或微调网络.如何充分应用亲属数据也将是解决数据量不足的一个思路. 8)小样本亲子关系验证.深度学习网路往往需要大量的标注数据训练模型,然而就人脸亲子关系验证问题而言,场景不同、问题背景不同时训练样本不足,这种情境下就需要解决样本少时的亲子关系验证问题.我们是否可以引入小样本学习(Fewshot learning,FSL)[128],FSL 是深度学习的一个重要分支,在没有大量标注数据情况下,能够快速泛化学习内容,训练模型.小样本亲子关系验证的一个解决思路是,通过元学习(Meta-learning)使得模型学会学习.具体为将有限的人脸亲子训练数据构造一系列训练任务,让系统学会学习,从而达到快速学习目的,同时避免过拟合(Overfitting)问题.小样本亲子关系验证问题研究目前处于空白,具有很大的研究价值和意义. 9)家庭检索和家庭分类.家庭检索和家庭分类任务的训练数据集为所有家庭成员,测试输入为丢失儿童图像,输出其所属的家庭.家庭检索和家庭分类对于丢失儿童匹配目标家庭有重要的现实意义.但是,家庭分析研究由于其涉及范围广、隔辈差异性大等原因,问题复杂度高、难度大,因此目前的相关研究很少,仍处于基准方法水平,算法的性能具有非常大的提升空间.比如,应用数学模型,对家庭构建图结构或树结构,更好的优化家庭聚类.家庭检索和家庭分类是今后极具潜力的一个研究方向. 人脸亲子关系验证是计算机视觉领域一个新兴的研究方向,具有重要的理论意义和实际应用价值,同时也存在诸多难点与挑战.本文对人脸亲子关系验证问题的起源与发展做了详细的回顾,对该领域主流数据集进行了总结,对已有人脸亲子关系验证方法进行了详细地梳理、归类和评述,对主流方法的优缺点进行了分析、性能进行了对比;在此基础上,对未来人脸亲子关系验证的可能研究方向进行了展望.由于篇幅所限,许多问题未及深究.本文旨在使国内同行对该领域有一个较为全面的了解,以期引起更多研究者对该领域的关注.4 基于深度学习的人脸亲子关系验证方法
4.1 深度度量学习方法
4.2 基于自编码器的方法框架
4.3 基于注意力机制的框架
4.4 其他框架
5 现有方法性能比较
6 对人脸亲子关系验证的思考
7 结束语