冯 宇 孙 晓 杨 飞 邵 磊 汪 萌,2
(1.安徽医科大学生物医学工程学院 合肥 230009)
(2.合肥综合性国家科学中心人工智能研究院 合肥 230088)
(3.合肥工业大学计算机与信息学院 合肥 230009)
(4.陕西警官职业学院 西安 710021)
人格是指个体在对人、对事、对己等方面的社会适应中行为上的内部倾向性和心理特征的总和,其描述的是一种稳定的心理状态,而非情绪那般在短时间内可不断变化。而对人格的研究,其应用领域非常广泛,在个人就业以及人力资源领域,人格测试可以帮助我们认清自己的真实人格特点,以选择最适合自己的岗位进行就业,而从企业单位的方面,对求职者的人格测试也有助于确定求职者的人格是否能够胜任相应的职位。而学术界在人格描述模式上,形成了比较一致的共识,即人格的大五模式[1~2],大五人格模型(BFPM)提供了一个更普遍的人格模型,由于其统一的测试,它被广泛应用于临床和健康心理学的研究中。NEO-PI-R[3]为BFPM 提供了一个统一的评估,并包含了100 多个问题。而通过这种问卷的方法去评估大五人格,将耗费极大的人力和物力资源,因此希望提出一种更快捷的,基于纯粹的视觉特征的人格评估方法。
本文提出了以下贡献:1)将TimeSformer[4]首次应用在人格预测特征提取领域,并提出了一种基于对抗学习的提取与性别特征无关的方法,以减轻性别因素对于特征提取器提取的特征有效性造成的干扰。2)提出了一种多粗细粒度损失结构的网络框架,以对视线注视方向进行估计,进一步得到注视分布以及视线序列特征,这在人格评估中也发挥了重要作用。
在过去的自动人格评估研究中,面部特征和人格评估的相关性已经得到充分证明。Donald F等[5]通过对面部结构和线索进行分析推断出了部分人格特质,孙晓等[6]通过对面部非兴趣区域的模型通道剪枝成功预测了大五人格分值,并在基于视觉特征上的方法上取得了0.9165的平均精度,S.Aslan[7]等通过注意力机制以及误差一致性约束将图像与其他模态的特征融合并加权得到最佳特征组合,获得了0.9172的大五人格平均预测精度。
近些年的许多实验研究表明,从视线估计以及眼动追踪数据中可以自动推断出个性特征信息。例如,Sabrina Hoppe 等[8]利用眼动仪采集大学生日常校园生活中的眼动数据,随后使用完善的调查问卷评估了他们的人格特质,使用随机森林训练人格分类器,并可靠地预测了大五人格中的四个,但受制于样本规模太小,而导致无法选用更高级可靠的预测分类模型;Lepri 等[9]利用在小组会议中记录众人的行为,并与视线注意力结合,建立了外向性人格预测模型。John F 等[10]的研究也表明了凝视行为拥有着可以与人格特质联系起来的个体差异,特别是神经质性、外倾性、开放性与眼球运动的参数有着密切关系。
考虑到自动人格评估的复杂性,需要一种有效的方法通过从视频中挖掘更多的有用信息来提高模型的性能。除了原始的图片帧外,本文单独对面部部分进一步地提取特征,并使用基于TranSformer[11]的视频理解框架TimeSformer[4],对视频应用分开的时空注意力机制来提取其时空特征,此外提出了一种基于对抗学习[12]的提取性别特征无关的方法,对特征提取器进一步加以约束,以减轻性别因素对于特征提取器提取的特征有效性造成的干扰。
除了上述传统的面部特征外,视线估计与眼动也是人格评估的一种重要特征,但此前眼动仪信息采集的低效率限制了视线估计的应用,对此本文提出了一种多粗细粒度损失结构的网络框架,以对视线注视方向进行估计,进一步得到注视分布以及视线序列特征。然后,将这两种人格模型融合,得到了一种高效率、高准确率的基于纯粹视觉特征的大五人格预测模型。
心理学界已有大量研究证实了人格和眼睛行为之间存在联系[13~14]。然而,由于眼动仪的高成本,使用眼动仪获取大量人格数据集的代价巨大。本文采用基于深度学习的视线估计方法,来获得被试者相对于相机坐标系的视线注视方向,由此进一步得到注视分布热力图以及视线的序列特征。
本文使用视线估计公共数据集MPIIFaceGaze[15]来训练注视方向估计的模型,这是注视估计领域的权威数据集之一,数据集中有15 位志愿者,每位志愿者3000 份样本,每份样本皆包括图片以及注视方向的标签等信息。基于该数据集,本文提出了一种多级粗细粒度损失结构的网络框架,以对视线注视方向进行预测,模型中的Backbone采用resnet50,每张输入图像经过Backbone 得到提取出的特征,并分别连接不同FC 层,每个FC 层拥有不同的分类尺度,分别计算自己的交叉熵损失,FC 层将输入特征映射到不同粗细粒度的角度区间后,通过Softmax 得到归一化特征,并分两支,一方面计算MSELoss,另一方面计算交叉熵损失,而后求和,得到最终的损失。
视线注视方向估计模型的结构图如图1所示。
图1 多粗细粒度损失结构的视线注视估计模型
这里的多粗细分类结构可以看作是一种参数共享,每个分支都是相关的分类任务,这种结构有助于减少过拟合的风险,此外在粗细分类网络上还可以避免出现极端情况下的错误概率,使预测结果更加稳定,这种粗细粒度的分类网络可以很容易地添加到以前的框架中,在不需要额外计算资源的情况下提高性能,每个角度的最终损失计算公式如式(1)所示:
式中,α,β为回归系数,y为视线注视角的真实值,y*为注视角的模型预测值,Loss为综合损失。
采用上述模型获取视频每一帧图像的注视方向后,进一步得到体现视线空间统计特征的注视分布热力图,为了使视线分布热力图在人格预测模型的输入中遵循一致的分布,在距离视频中的人物1m 远的平面上确定一组点的注视分布,结合视线估计模型输出的两个视线注视角Pitch、Yaw,计算出视线在此平面上的注视点坐标,并使用注视点坐标附近的80邻域填充,以确保获得224*224的非稀疏矩阵。
视线的注视分布热力图体现了视频的总体空间统计特征,但对视频来说,其时域特征同样重要,为了抽象出有效的时间维度信息,本文选取了视线注视俯仰角Pitch、偏转角Yaw、头部姿态俯仰角Pitch、偏转角Yaw 以及翻滚角Roll,加上头部中心点在画面的坐标位置信息,对每一帧图像皆提取这7维特征作为视线时域模型的输入。
图2(a)为80 邻域填充示意图,图2(b)、(c)展示了体现注视空间分布特征的注视分布热力图,图2(d)为体现时域特征的视线序列结构特征图。
图2 注视分布热力图与注视序列特征示意图
图3 基于TimeSformer和对抗学习的大五人格预测模型
由于面部特征的性别二态性,以及某些人格特征(特别是外向性)[16~17]对不同性别的表现差异很大,大五人格的面部预测模型应该针对男性和女性的面孔分别进行训练和验证,而事实上,此前的众多大五人格预测模型中,少有特别考虑到性别对人格预测结果的影响,我们猜测,这是因为针对性别的特别训练和验证将会导致训练集样本量剧减,这对于本就难以大量获得的人格评估样本来说,显得难以接受,但也导致那些在特征空间中相差不大的特征,伴随着性别的差异,对大五人格模型预测的结果也会产生负面的影响。在这种情况下,受郑壮强等[18]通过引入个体身份判别器进而提取与身份无关的面部特征的原理启发,我们设计并提出了性别判别器,通过特征提取器与性别判别器之间的对抗训练,使特征提取器可以提取与性别无关的面部特征表示。
其结构分为特征提取器F,性别判别器GD 和人格预测器P 三个部分,F 从输入图像中提取面部特征,GD 本质是个性别分类器,通过F 和GD 之间的对抗训练以及F 和P 之间的联合训练,提取性别无关的面部特征。以下用T={x,y}N表示N个训练样本,其中x表示输入图像,y={y1,y2,y3,y4,y5}表示真实的标签,s∈{0,1} 表示性别的类别,P*(s|F(x))是模型定义的给定特征F(x)下s的分布,P(s)是s的边缘分布。
在综合了训练开销以及性能之后,本文选择了TimeSformer 作为特征提取器,相比于3D 卷积神经网络,其训练速度快,推理时间大幅度缩短。
每个视频均采用稀疏随机采样8 帧作为视频理解模型的输入,且考虑到人脸部分对人格预测的重要性,使用Arcsoft的人脸检测模块单独截取面部图片,并同样采样8帧作为并行的模型输入。
性别判别器GD在模型中起到优化特征提取的作用,它的本质是一个性别分类器,当性别分类器的分类结果与全部个体的性别边缘分布一致时,可以认为当前面部特征表示与性别标签无明显相关性。
优化特征提取器F 的参数时,需要固定性别判别器GD,尽可能减小提取的面部特征与性别标签之间的相关性,即最小化P(s)和P*(s|F(x))之间的差异,由于P(s)无法直接得到,可以使用训练集中性别的经验分布PE(x)来代替P(s),因此可以得到特征提取器的交叉熵损失如下式,si指第i 个样本的性别标签。
优化性别判别器GD 的参数时,需要固定特征提取器F 的参数,并希望GD 可以尽可能发现提取的特征与性别标签之间的相关性,即最小化P*(s|F(x))和P(s|F(x))之间的差异,其中P(s|F(x))是给定特征F(x)的条件下个体性别标签的one-hot类型的分布。由此可以得到性别判别器的损失:
在获得了特征提取器提取的面部特征后,利用由两个线性层组成的人格预测器进行大五人格回归任务,并使用均方差损失计算得到人格回归任务的损失LossP,再与特征提取器的损失,即式(2)所示LossF合并为L=LossP+αLossF,而性别判别器的损失即式(3)所示LossD,使用小批次的随机梯度下降更新网络权重,通过整个网络的交替训练,使特征提取器逐步获得提取与性别无关的面部特征表示的能力。
最终的大五人格预测模型结构如图4 所示,人脸预测模块与视线预测模块得到的特征进行拼接,从而预测得到最终的大五人格分值。
图4 多通道的大五人格预测模型
图5 人格视频数据集中的一些图片帧
本文使用ECCV ChaLearn LAP 2016 比赛数据集,这是自动人格评估领域最为重要的权威数据集,其中有10000 个标注了大五人格标签的视频,8000 个视频作为训练集和验证集,剩余2000 个视频作为测试集,每个视频大约有15s 的长度。每个视频的标签由5 个范围在[0,1]的连续值组成,分别对应大五人格的五种特质,而对人格预测任务的评估,则需要计算所有特质的平均预测精度,每种特质的预测精度定义如下:
其中,pi是每种特质的预测分值,ti是每种特质的真实分值,tˉ是所有所有视频数据集每种特质的平均预测分值,Nt为视频数据集的总数。
为验证对抗学习模块的有效性,探究了不同的特征提取模块在每一次迭代中,对大五人格评估任务的预测精度影响,分别使用TSM[19],TimeSformer以及包含对抗学习模块的TimeSformer-GD 进行比较。结果如图6所示。
图6 不同特征提取器的平均准确率
可以发现,相比TSM,TimeSformer 取得了更好的结果,且模型收敛速度也有所提升,而包含对抗学习模块的TimeSformer-GD 虽然起始准确率略低,但随着迭代次数的增加,准确率逐渐超过TimeSformer,这表明随着迭代次数的增加,对抗学习模块开始在人格评估任务的特征提取工作中起到正向的作用。而对于人格预测器和特征提取器的联合损失中超参数α的取值,α取值为0.5时,人脸模块得到最佳的预测精度。如表1 中人脸模块实验结果所示。
表1 各个模块分别使用不同的模型的结果
如表1 实验结果所示,对于视线模块的注视分布特征和视线序列特征,使用ResNet 和LSTM 的模型取得了最佳的效果,而在表2 的实验结果中,可以注意到人脸模块在整个模型中也发挥了重要作用,最终本文的融合模型的平均预测精度超越了以往所有的基于视觉特征的大五人格模型。
表2 使用不同组合模型的平均预测精度
最后,如表3 所示,将本文基于视觉特征的融合模型与现有模型进行了比较。
表3 不同模型的平均预测精度对比
由于对视觉特征充分的应用,以及缓解了面部特征的性别二态性,本文的方法超越了以往所有基于视觉特征的模型,仅次于孙晓等[22]多模态的融合模型,平均精度为0.9196,比当前最高的基于视觉特征的模型高0.3%。
对于传统的基于人格量表的人格评估方法的低效率问题,以及现有的多模态的深度学习人格评估方法对高质量的多模态输入的获取难度大的问题,本文提出的基于纯粹的视觉特征的人格评估方法,有效地解决了这些问题。
最后,总结本文以下两项主要贡献。首先,将TimeSformer 首次应用在人格预测特征提取领域,并提出了一种基于对抗学习的提取性别特征无关的方法,以减轻性别因素对于特征提取器提取的特征有效性造成的干扰。其次,提出了一种多粗细粒度损失结构的网络框架,以对视线注视方向进行估计,进一步得到注视分布以及视线序列特征,这在人格评估中也发挥了重要作用。
未来计划将基于对抗学习来优化特征提取器的思想应用在更多的领域,此外可以进一步地挖掘视线在人格评估领域中的深层次作用,以获得更好的大五人格预测结果。