基于卷积神经网络的三维动画表情生成及情感监督方法

2022-02-18 08:30庄美琪谭小慧1b樊亚春程厚森
关键词:强度动画情感

庄美琪,谭小慧,1b,樊亚春,程厚森

(1.首都师范大学 a.信息工程学院; b.交叉学科研究院, 北京 100048;2北京师范大学 人工智能学院, 北京 100875)

随着互联网教育的蓬勃发展,在线教学逐渐普及。特别是在新型冠状病毒肆虐期间,它已成为主流的教学模式,视频是在线教学常见的媒介之一。然而,在线教学在逐渐普及的过程中暴露出许多问题,如教师难于及时观测到学生的情绪状态[1],学生面部隐私易泄露[2]。因此,为在线教学提供一种解决无监督学习和课堂反馈不足的方法是有价值的研究方向。

人脸动画表情生成有很多研究工作,部分方法基于深度学习的驱动模型生成人脸表情,部分方法利用建模软件驱动模型变形。Ploumpis等[3]实现了基于3DMM对任意图像进行面部重建的高质量即时渲染。但这种方法对连续精细表情生成和硬件渲染要求很高。另一种流行的方法是通过建模软件实现动画生成。该类方法需要精细建模,最常见的模型是肌肉模型[4-6]。但该方法的主要局限性在于人工调节和输入驱动面部模型生成表情。肌肉模型基于面部动作编码系统[4](FACS),该系统由46个动作单元(AU)组成,它的提出是面部表情研究过程中的基石。在常用的AU识别方法中,Yong等[7]提出一种基于AU先验概率的知识驱动方法,可以在不添加AU注释的情况下联合学习多个AU分类器。Corneanu等[8]提出一种深度神经结构,该结构在初始阶段将学习到的局部和全局特征进行结合,并在类之间采用复制消息传递算法。Wang等[9]通过混合贝叶斯网络识别AU并估计强度。

针对情感监督问题,主要分为3种监督源:面部情感、文本情感[10-11]和语音情感[12]。然而学生是否回答问题和发表言论均属于不确定因素,可能会导致监督产生偏差。因此,面部情感监督更符合在线教学环境。Sharma等[13]提出了一个原型系统,可根据课堂上所表现出来的面部表情实时计算出学生的注意力集中程度。Soltani 等[14]从学生角度出发,提出一个基于面部动作编码系统的情感网络公开课反馈,旨在使学生意识到自己的情绪状态,计算机评估学生的情绪状态,从而提高学生的学习积极性、参与性、自律性和学习成绩。本文采用的方法是通过对面部表情进行监督,将其反馈给教师。

现有的研究缺乏同时解决情感监督与隐私保护问题的研究方案,大部分研究方法没有考虑到学生的面部隐私保护。本文提出一种基于学生情感的三维面部表情生成方法,包括三维表情动画生成和带有隐私保护的情感监督。该方法提供2种可视化反馈:一是虚拟替身的面部动画生成,二是学生学习过程的连续情感指数分析图。该反馈结果可应用于在线教学,解决在线教学缺乏情感监督问题。

1 方法概述

卷积神经网络是一种深度学习模型,常用来分析视觉图像[15]。在本文方法中,提出一种基于深度卷积神经网络的人脸动作单元识别方法,相对于传统方法无需进行人脸对齐剪裁等预处理,实现端到端的识别过程。本文方法的流程如图1所示,将视频作为输入,在深度学习的基础上,首先识别视频帧图像中的AU及其强度,并计算每帧图片的情感指数,实验提供4个虚拟替身,在预处理阶段通过建模软件对虚拟替身进行动画绑定。

1.1 AU及情感指数计算

AU是基于面部解剖学原理,将面部分为几个独立的动作单元。每个AU控制面部肌肉群的一部分,多个AU可以叠加产生多种面部表情。例如,AU4、AU9、AU10、AU15、AU17的叠加生成厌恶。每个AU从A到E有5个强度,不同的强度代表不同的变形程度。因此,驱动虚拟替身的表情生成或识别情感,需获得视频帧中的AU与强度。

图1 方法流程图

1.1.1AU及其强度识别

本文方法涉及的动作单元共计12个,包含:AU1、AU2、AU4、AU5、AU6、AU9、AU12、AU15、AU17、AU20、AU25、AU26。动作单元序列识别是基于Darknet-53实现,由多个卷积单元和残差单元组成。其中卷积单元由Con2d、批量归一化和Leaky ReLU激活函数构成,残差单元由2个卷积核分别为1×1和3×3的卷积层组成,这种结构会使网络结构更深入。卷积单元和残差单元的不同组合共计需53个卷积层。其中卷积单元和残差单元的连接及其网络框架如图2所示。在Darknet-53的基础上还需利用3个特征层进行预测,对卷积网络中不同层的特征图进行采样与融合,得到3种不同尺度的感受野。3次预测得到的感受野不同,分别适合预测不同大小的目标。对于输入图像进行下采样,这里的特征图的感受野较大,适合较大的对象。细化粒度检测后,将特征图同前面的进行特征融合得到较细粒度的特征图,再经过上采样得到的特征图具有中等尺度的感受野。第三类特征图经过上采样和特征融合,具有最小的感受野,适合检测尺寸较小的图像,本文共涉及到12个AU,分布在面部的额头、脸颊、嘴角等位置,在检测AU的过程中需要细粒度的特征图,使用最小的感受野。

图2 算法结构框图

识别中的损失函数主要采用二分交叉熵,其组成如下:

L(O,o,C,c,l,g)=λ1Lconf(o,c)+

λ2Lcla(O,C)+λ3Lloc(l,g)

(1)

包含3个部分,分别是:目标置信度损失Lconf(o,c)、目标分类损失Lloc(l,g)和目标定位偏移量损失Lcla(O,C),其中λ为平衡系数。

(2)

(3)

(4)

不同强度的AU可组合出不同情感的表情。根据FACS规定,强度分为5种程度。我们将AU的5种强度作为5种不同的类别。算法在识别过程中,会检测出同类AU但不同强度的概率值pi(i=1,2,3,4,5),规定取概率最高的强度作为最终的强度值,定义强度向量:t=max(pi),代表12个动作单元的强度向量。

1.1.2情感指数计算

将基础情感划分成19种,并进行权值定义,19种表情按照影响情绪指数强度从大到小顺序分别是:快乐、快乐惊讶、惊讶、快乐厌恶、惊讶厌恶、厌恶、中性、惊讶恐惧、厌恶恐惧、恐惧、惊讶愤怒、厌恶愤怒、恐惧愤怒、愤怒、惊讶伤心、厌恶伤心、恐惧伤心、愤怒伤心、伤心。

通过情感相关度矩阵F=[UTITR]的特征值和特征向量计算情感指数。不同AU对情感指数影响的具体程度用向量A19×1来表示,根据动作单元的发生概率建立表情相关度矩阵W19×12,其行向量则代表的是19种情绪中对应表情的动作单元组成。R=WT·A是情绪向量,是情绪和动作单元的映射关系,由表情相关度矩阵WT和表情权值向量A的数量积来表示。其中U1×12是12个动作单元的概率向量;I1×12是 12个动作单元的强度向量;情感指数的分布区间为[-1,1],指数的高低代表了不同的情感:1代表着快乐、0代表着中性、-1代表着伤心,情感指数的可视化分析图表(折线图、雷达图)可应用于在线课堂的课堂反馈,对其进行数据分析和处理。

由于情感相关度矩阵的每一行为同一动作单元在不同方面对情绪值强度的影响,因此情绪指数计算为矩阵行向量贡献的累积。在应用中,我们并不希望情绪指数是无限扩大的,这样不利于数据进一步推理及参与计算,因此需要一个光滑阈值函数对离散因变量进行连续值预估,而由于Sigmoid函数是一个具有多个优秀特征的阈值函数,其非线性及光滑特性满足了情绪相关度矩阵离散值到连续值的映射,因此以其为基础进行情绪指数计算,并保证积极情绪大于0,消极情绪小于0,分别分布在中性表情的两端。

(5)

映射过程如式(5),计算得到的情绪指数取值区间在[-1,1],符合消极情绪为负值,积极情绪为正值的表达,并且确保了中性表情介于正负值之间的客观事实。

1.2 模型建模与动画绑定

由于本文方法基于FACS标准,即通过AU及强度的组合驱动模型生成动画表情,因此模型需包含3层:骨骼层、肌肉层、皮肤纹理层。动作单元的实质即基于解剖学原理将脸部肌肉划分为独立的肌肉单元,因此需对3层关系的配置进行精细划分和建模。DAZ Studio是一款可简单高速地进行人物、动画设计的软件,通过该软件对人物模型进行动画创建,生成动画曲线和形变目标,为模型的表情生成创造条件。通过DAZ Studio实现建模与动画绑定,提供4种虚拟替身,虽然形象不同,但是表情生成效果相同,增加了动画表情生成方法的可选择性和可靠性。

分别对眉毛、眼睛、鼻子、嘴唇和脸颊肌肉进行了动画绑定。对选定的12个动作单元绑定动画生成对应的动画曲线。完成AU和面部的动画曲线绑定后,即可以通过AU的不同组合来生成三维表情。通过脚本进行套接字监听,实时获取AU参数,驱动对应的动画曲线和形变目标,从而生成面部表情。每个AU对应5个强度,每类强度驱动动画曲线的形变程度进而生成精细表情。

2 方法验证与分析

为证明本文方法在在线学习过程中的有效性,邀请了在在线教育中担任不同角色的被试者进行评估。共计19位被试者进行测试数据采集,被试者的男女比例约为1∶3,年龄分布在15~26岁。被试者提供一段视频,包含学习过程中会出现的情感表情。将视频作为方法的输入,得到情感指数并在视频中标注将其反馈给评估人员。

2.1 情感指数的评估

用户评估:每段测试视频由3组人员进行评估,对算法生成的情感指数同真实情感的符合程度进行评分。3组评估方式分别为被试者自我评价、其他被试者评价、教师小组评价三大类,其中教师组由3名有网络教学经验的教师组成。

评估的对象共3个:① 评估者挑选出整段视频中同真实情感符合度最高的情感指数,对其进行评分;② 评估者挑选出整个视频中最偏离真实情感的指数,对其进行评分;③对算法生成的情感指数同真实情感的整体符合度进行评分。评估分数区间为0-100,0代表情感指数同真实情感极不符合,100代表情感指数同真实情感完全符合。表1展示了19组测试视频经3组评估后加权平均的分数。

表1 19名被试者对视频中情感指数和真实情感符合程度的评估分数

2.2 情感指数的评估分析

基于标有情感指数的视频,被试者对情感指数与真实情感的符合程度打分,评分结果如表1所示。观察表中所示数据发现:同真实情感最符合的情感为快乐,最偏离的情感为嫌弃。经分析识别过程可知,由于不同个体在表达情感的过程中面部肌肉发生形变仅为表达方式之一,部分人通过眼球的转动表达情感,因此情感识别部分仍有完善的空间。

置信区间给定一个范围,该范围内的种群参数的真实值以一定的概率落在该范围内,种群参数落在该范围内的概率为置信水平。对于置信水平的选择,统计上一般认为95%置信水平的结果具有统计学意义。基于表1中的数据,对19个测试视频中情感指数与真实情感匹配度的得分进行置信度分析,如图3所示。视频评估分数的均值为83.97,均值的置信区间为[71.14,96.79](置信度95%)。区间[71.14,96.79]中包含情感指数总体评价得分的总体均值。结果表明,该算法生成的情感指数同真实情感基本一致。

图3 情感指数评估的正态分布

2.3 表情复现的评估分析

针对动画表情的生成效果,同样采用用户评估方式。被试者根据视频生成的表情动画进行整体符合度评判,评判共有4个标准:精准、基本符合、粗糙和偏离。统计结果表明:本文方法提供的表情生成方法有着较高的准确度,共计80%的用户认为本文方法生成的动画表情同真实表情符合。但仍有20%的用户认为表情生成粗糙,产生该问题的主要原因是动作单元数量的分布不匀与数量较少,嘴部动画可被精准生成,但是对于皱眉的刻画不够细微,导致个别用户的表情生成粗糙。针对此问题,可通过增加AU识别的数量,目前涉及到的是12个AU,主要分布在眉毛、面部与嘴角等位置,可驱动各种类型的表情生成,但FACS中还将眼周的肌肉进行了定义,因此若将模型表情刻画的更加精细,可增加AU的数量。

此外,将本文虚拟替身生成表情效果同FACSHuman[5]的表情生成效果进行对比。FACSHuman是一款用于非语言交流和面部表情研究的软件。它提供了AU强度调节界面,用户可以通过调整AU的强度灵活组合不同的表达式。在手动设置AU及其强度的情况下生成的表情是理想的表情生成效果,具有精细的优势,但该软件无法识别视频或照片中的AU组成。本文将视频中的图像识别AU及其强度作为驱动数据驱动AVATAR模型生成表情。将生成效果同FACSHuman进行对比,可以证明本文方法的表情生成效果精细程度是否能达到理想生成效果,图4为生成效果对比。第1行为带有标注的视频帧,使用算法识别出的AU及其强度驱动本文方法提供的虚拟替身与手动调节软件,生成动画表情。第2行为本文方法提供的虚拟替身经由AU驱动后的生成效果。第3行为手动调节生成动画表情软件FACSHuman的生成效果。从图4中可以看出,在确保AU及强度相同的前提下,本文模型动画表情生成效果同手动调节AU生成表情的软件生成效果极其相似,证明本文方法提供的动画表情生成方法具有准确的生成效果。

图4 三维表情生成效果对比

对学习者进行情感监督完成课堂反馈是本文方法的目标。Harks等[16]在研究中表明:“学生的学习状态会随着时间的推移发生变动,积极的学习情绪有助于学生进行密集的在线教学活动。”因此,若想致力于解决在线教学存在的课堂反馈欠缺问题,需对学生进行连续的情感监督。表2中将本文的方法同当前3种拟解决在线教学存在的问题的方法进行了要素对比。

表2 4种方法的要素对比

表2中分别对4种方法的要素进行对比,其中方法1和方法2通过对在线课程中学生的言论和聊天文本进行情感分析,从而达到反馈的目的。方法1通过对多语言学生反馈的教师绩效和课程满意度进行情感分析。方法2可帮助学生意识到他们的情绪,克服可能出现的悲伤情绪,提高学生预期和信任,并成功地完成学习任务。

但通过对评论和文本互动来判定学生的情感的方法具有局限性,学习过程中学生更多的情感流露在面部,并且由于在线教学的无监督问题对文字和评论的可靠性产生影响,因此,若想长期反应学生的学习状态,最优的方式是通过面部情感分析。同方法1、2相比,本文方法对学习过程中学生的面部情感进行分析,相比文字情感分析更加准确可靠。

方法3同样运用基于面部动作单元进行情感分析的模型,涉及8种基础情绪,该方法通过检测学生的情绪状态并反馈给学生,以帮助他们将消极情绪转变为积极情绪并提高参与度。与其相比,本文方法则通过虚拟替身对学习者的表情进行连续的复现,并对其进行连续情感监督,将其反馈给教师作为课堂实况反馈,解决课堂反馈不充足的问题。

3 实验结果

本文中提出的方法旨在解决在线教育的情感缺失问题,为教师提供两类课堂反馈方式。第一类为驱动虚拟替身生成的表情动画,即学生学习状态的表情复现。由于直播形式的在线课程会产生对学生肖像隐私的泄露问题,因此,本文提供虚拟替身对学习过程中的表情变化进行复现。对教师而言,可以通过虚拟替身的表情复现直观地观察学生的学习状态,了解到学生在学习过程中真实情感的流露。第二类为情感监督的可视化分析,即对学生学习过程的情感识别,可根据连续情感指数生成情感分布雷达图和情感波动图。对于教师而言,该反馈方式可更直观地反馈本堂课学生的情感变化和分布,对授课内容进行针对性地调整。

3.1 面部学习状态复现

本文基于DISFA 数据集[18]进行测试,将该数据集中的视频作为系统的输入。本文截取一组视频的表情复现过程进行对比展示,如图5所示。图5中展示了4种基础表情的生成效果,第1列为视频帧截取的图像,第2到4列为本文提供的4个虚拟替身的表情生成效果。本文方法可以将视频的帧图像生成动画表情,将其作为课堂反馈的一种形式提供给教师,教师可以通过生成的动画表情来判断该时刻的真实情感,可以解决在线教学中存在的无监督问题。

图5 课堂反馈I:动画表情生成

3.2 情感指数可视化

将情感指数映射到一维轴上,积极情绪与消极情绪分布在两端,以当前的人脸动作单元发生概率和强度识别为基础构造情感相关度矩阵,计算得到情感指数。由于连续的情感指数能波动且直观地反映出情感变化情况,因此对情感指数可视化可为学生的情感监督提供一种反馈形式。本文中展示了2种可视化形式:情感波动图与情感分布图,从连续与总体2个角度对学生的情感进行监督。

如图6展示的分析方法是学生连续情感指数折线图,直观地反映出学习过程中整体的学习状态变化,教师可针对本堂课学生最常出现的学习状态调整授课内容、难易程度和授课方式。

图6 课堂反馈Ⅱ:学生情绪波动曲线

除监控每个学生的情绪波动外,老师可以观察到每位学生的情绪分布情况。分析方法如图7所示,直观地反映出该学生在整个学习过程中的状态。教师可以根据学生在课堂上最常见的学习状态来调整教学内容和方法。

图7 课堂反馈Ⅲ:某学生的情感分布图

情感指数可为在线教育的课堂反馈提供基础数据,在此基础上可进行多种情感分析。除了上述2种可视化方式,还可以通过大数据分析的方式对学生进行情感分析,如将情感指数同学习成绩相结合,提出个性化的学习指导方案,提升在线教育的学习效率。

4 结论

为解决在线教学中无监督学习和课堂反馈不足的问题,提出了一种基于卷积神经网络从2D视频中生成3D动画表情并进行情感监控的方法。通过卷积神经网络识别人脸动作单元并预测视频每帧的情感指数,通过软件建模绑定面部骨骼和表情动画从而生成动画曲线。通过用户评估和实验对比,结果表明:该算法生成的情感指数同真实情绪基本一致,得到了被试者的认可;动画表情生成效果同手动调节软件的表情生成效果一致。本文方法可向教师提供两大类可视化反馈:学习过程的表情复现及情感指数分析。通过对课堂反馈方式分析,可以看出本文提供的2种可视化结果能为在线教学中存在的无监督问题提供一种解决方案,除此之外,虚拟替身的表情动画生成保护了学生的面部隐私。未来,将在更多的在线教育平台上部署该方法,进一步研究情感反馈。

猜你喜欢
强度动画情感
Clifford hits the big screen
我的动画梦
情感
《悦读·家》开播激发爱国爱家情感共鸣
诗歌与情感的断想
台上
计算电场强度常用的几种方法
电场强度叠加问题的求解
电场强度单个表达的比较
求电场强度的新方法お