于 博,陈 浩,胡东辉
(1.合肥工业大学 信息化建设与发展中心;2.合肥工业大学 计算机与信息学院,安徽 合肥 230009)
近年来,在新冠疫情防控背景下,越来越多课程采用线上教学方式。线上教学与传统课堂教学不同,教师无法在授课过程中与学生面对面进行交流,因此不能及时了解学生的学习效果。目前线上教学效果不尽如人意,其主要原因在于师生之间的情感交互效果差,即使在课上要求学生打开摄像头,也很难直观地从画面中判断出学生的听课状态和对讲授内容的情感反应。Chen[1]对线上教学效果进行研究,发现由于缺乏与教师之间的情感交互,仅有48.5%的学生认为目前线上视频教学效果“很好”或者“好”,有67.0%的学生认为教师应该关注学生在线上课堂中的听课状态。此外,如果教师要求学生在线上课堂中打开摄像头,学生的面部隐私存在泄露风险。因此,亟需提出一种既能加强师生情感交互,又能兼顾学生面容隐私保护的线上视频教学可行方案。
现有的线上教学情感分析和隐私保护研究工作存在较大局限性。针对线上教学情感分析,Wang 等[2]提出基于大数据的情感挖掘和情感共词分析算法,根据学生在线上课堂中文字形式的发言与评论分析学生对课堂讲授内容的接受程度;Fang[3]提出线上教学讨论社区模型,通过学生和教师在讨论社区的互动以加强师生的情感交互。然而,这些方法都没有解决视频教学实时场景中的师生情感交互问题。因此,在实际的线上教学中,师生情感交互效果仍然难以得到提升。对于线上教学的隐私保护问题,目前的研究仅局限于网络数据传输过程中的风险和互联网架构本身的缺陷,关注和解决的隐私泄露风险包括ARP缓存中毒、MITM 攻击、跨站点请求伪造、跨脚本攻击、SQL注入、会话劫持等问题。这些研究成果虽然能在一定程度上解决由网络系统结构缺陷造成的线上视频教学数据泄露问题,但是并没有关注到线上视频教学中学生面部信息的隐私保护问题。
YouTube[4]和微软Azure[5]分别开发了离线自动像素化工具,以保护主播或上传者无意中拍摄的人的面部隐私。离线自动像素化工具采用检测跟踪结构,由隐私敏感目标检测器和多目标跟踪器组成,其像素化的性能取决于检测器与跟踪器的性能。遗憾的是,由于缺乏训练样本和对视频上下文的理解,检测器的准确性并不令人满意。针对离线像素化工具存在的问题,Zhou 等[6]提出一种隐私敏感对象像素化(PsOP)框架,用于自动过滤实时视频流中的人脸隐私。该框架解决了视频流识别的准确度、精细度和过像素化问题,但其只能实现在线教育过程中的面部信息隐私保护,无法实现面部情绪分析与反馈。
传统面部情感识别方法基于面部特征提取,将其作为判别面部情感的依据。面部特征提取是指从输入的人脸图像中提取有用信息,主要包括图像的纹理特征或五官特征。该方法的准确性和有效性很大程度上取决于特征提取方法,其大致分为4 类:①基于纹理信息的特征提取方法,如小波变换、局部二值模式等;②基于边缘信息的特征提取方法,如线性边缘图、梯度方向直方图等;③基于全局和局部信息的特征提取方法,如主成分分析法、独立成分分析法等;④基于几何信息的特征提取方法,如局部曲线波变换等。
传统面部情感识别方法通过提取人脸显著特征来判别其面部情感,具有一定的准确率和有效性,但其鲁棒性较差。当人脸由于光照、角度等原因出现信息丢失时,传统面部情感识别方法的识别效能会大幅下降。
近年来,随着深度学习的发展,许多研究者提出基于神经网络的面部情感识别模型,极大地提高了面部情感识别的准确率和鲁棒性。Simonyan 等[7]提出VGGNet,通过增加卷积网络的深度来研究卷积网络对图像识别精度的影响。在VGGNet 中,首先使用1 个7×7 的卷积核和1 个5×5的卷积核进行网络结构设计,然后用3个3×3的卷积核和2 个3×3 的卷积核替代原始结构,由此保证了感知域相同,并且提升了神经网络性能。Krizhevsky 等[8]提出深度卷积神经网络AlexNet。AlexNet、VGGNet 等结构都是通过增加网络深度来达到更好的训练效果,但层数的增加会带来过拟合、梯度消失和梯度爆炸等负面影响。GoogleNet 是由Szegedy 等[9]在2014 年提出的神经网络结构,该结构通过优化计算资源,在相同的计算量下提取更多特征,从而提升训练效果。He 等[10]提出ResNet 神经网络结构,该结构将残差表示概念应用于CNN 模型构建,从而创建一个基本的残差学习块。实验结果表明,与一般意义上参数层的输入输出映射相比,直接学习残差收敛速度更快,也可获得更高的分类精度。
面部表情识别相关研究与应用主要基于下列常用的面部表情识别数据库:
(1)FER2013。FER2013 由Goodfellow 等[11]使用谷歌图像搜索API 收集,该数据集包含大约35 887 张不同表情的面部RGB 图像,大小限制为48×48。此数据集的主要标签可分为愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性7 种类型。
(2)AffectNet。AffectNet 由Mollahosseini 等[12]创建,该数据库通过3 大搜索引擎收集了超过100 万张人脸图像,是目前最大的面部表情和维度模型数据库。
(3)RAF-DB。真实情感人脸数据库(RAF-DB)[13]是一个人脸表情数据集,该数据集包含了29 672 张人脸表情。这些表情经过40 个独立标签,被标记为基本表情或复合表情。该数据集的图像在受试者年龄、性别、种族、头部姿势、光照条件、遮挡(眼镜、面部毛发或自遮挡)、后处理操作(各种滤镜、特效)等方面有很大的可变性。
(4)JAFFE。JAFFE 数据集包含10 名日本女性的213张面部表情图像,每人做出7 种表情,包括:愤怒、厌恶、恐惧、高兴、悲伤、惊讶、中性,并由60 个注释者对每个面部表情进行平均语义评分[14]。
(5)CK+。扩展Cohn-Kanade[15](CK+)数据集包含123个不同受试者的593 个视频序列,受试者来自不同性别、不同年龄的人群。每个视频以30 帧/s 的速度记录了受试者表情的转变,分辨率为640×490 或640×480 像素,其中327 个视频被标记为愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶7 种表情类型。该数据集是目前使用最广泛的实验室控制面部表情分类数据集之一。
针对目前线上教学情感识别研究领域存在的不足,结合不同教学场景下隐私保护的需求,本文基于情感识别神经网络、图像编辑、三维动画模型绑定的理论与技术,提出在视频教学中对学生面容进行替换与优化的方案,分别是emoji 表情替换方案、融合脸方案和三维动画模型方案。这3 种方案在隐私保护安全性和情感交互可用性方面的侧重点各不相同,适用于不同的线上教学场景。
emoji 表情替换方案整体架构如图1 所示,利用摄像头采集学生面部图像,经过预处理后分析学生面部情感,最后使用emoji 表情符号代替学生的真实脸。该方案的核心模块是一个预先训练好的面部情感识别神经网络,该神经网络输出学生面部情感的分析结果。emoji 表情以此为映射依据,代替学生在视频中的真实脸。emoji 表情表达了学生的情绪状态,可以帮助教师及时掌握学生在线上课堂中的情绪反应,从而增强师生之间的情感交互。学生屏幕上的真实脸被表情符号覆盖,因此学生的面部信息也得到了保护。
Fig.1 Overall architecture of emoticon substitution scheme图1 emoji表情替换方案整体架构
2.1.1 面部情感识别神经网络
emoji 表情替换方案的核心模块是一个预先训练好的面部情感识别神经网络,该神经网络结构约有60 000 个参数。具体网络结构如图2 所示,包括3 个模块:第1 个模块由两个普通卷积组成,卷积后进行批标准化操作和ReLU激活函数处理;第2 个模块包含4 个深度可分离卷积,每个卷积之后进行批标准化和ReLU 激活函数处理;第3 个模块包含一个常规卷积,最后使用全局平均池化和softmax 激活函数生成预测。
Fig.2 Structure of neural network for emotion recognition图2 情感识别神经网络结构
使用BatchNorm 是因为在非线性变换之前,深度神经网络的激活输入值会随着网络深度的加深或在训练过程中逐渐偏离或改变,而BatchNorm 可以强制神经网络每一层任意神经元输入值的分布回到标准正态分布,一方面可以避免梯度消失问题,另一方面,梯度越大,学习收敛速度越快,从而可以加快训练速度。
2.1.2 深度可分离卷积
本方案采用深度可分离卷积Sep-Conv2D 进行特征提取,相比常规卷积操作,其参数量与运算成本较低,适用于轻量级网络。具体实现分为两步:逐通道(Depthwise,DW)卷积与逐点(Pointwise,PW)卷积。
(1)DW 卷积。在DW 卷积中,一个卷积核负责一个通道,一个通道只被一个卷积核卷积。由于DW 卷积完成后的特征图数量与输入层的通道数相同,因此在DW 卷积之后,特征图无法得到扩展。此外,DW 卷积运算是对每个颜色通道进行独立卷积,无法有效利用相同位置中不同颜色通道上的特征信息。因此在DW 卷积之后,需要PW 卷积将上一步的特征图进行组合,生成新的特征图。
(2)PW 卷积。在PW 卷积中,卷积核尺寸为1 × 1 ×M(M为上一层通道数)。该卷积核会将DW 卷积生成的特征图在深度方向上进行加权组合,生成新的特征图。
融合脸方案整体架构如图3 所示。利用摄像头采集学生的人脸图像并进行预处理,将学生的真实人脸与styleGAN 神经网络生成的假脸(生成脸)进行融合,利用泊松融合算法生成融合脸,最后使用融合脸替换视频中学生的真实人脸。需要说明的是,学生可以自由选择自己喜欢的生成脸风格与样式,然后将其与自己的人脸进行融合。与emoji 表情替换方案将学生的面部完全用emoji 表情覆盖不同,该方案的融合面孔可以保留学生面部的某些特征,同时实现一定程度的面部隐私保护。因此,融合脸替代方案在保证学生面部信息安全与保留面部可识别性之间取得了较好平衡。
Fig.3 Overall architecture of facial blending scheme图3 融合脸方案整体架构
2.2.1 人脸生成神经网络
本方案采用的人脸生成神经网络是Karras 等[16]提出的styleGAN 神经网络,其结构如图4所示。
Fig.4 Structure of styleGAN neural network图4 styleGAN神经网络结构
该结构中的生成器G_style 由两个子网络构成,分别是映射网络和合成网络。生成器G_style 的具体结构为:参数验证、设置子网络、设置变量、计算映射网络输出、更新移动平均值、执行样式混合正则化、截断算法、计算合成网络输出。映射网络G_mapping 的具体结构为:输入参数、连接标签、归一化潜码、映射层、广播、输出。合成网络G_synthesis 的具体结构为:预处理、输入参数、输入噪音、层末调制、早期层、剩余层、网络增长变换、输出。判别器D_basic 的具体结构为:预处理、构建 block 块、网络增长变换、标签计算、输出。styleGAN 损失函数定义如式(1)所示:
训练该网络时,通过初始化dnnlib 和TensorFlow、载入训练集、构建网络、构建计算图与优化器、设置快照图像网格、建立运行目录、训练、保存最终结果,可以生成高质量的生成脸,然后通过人脸融合算法将生成脸与学生的真实脸进行融合,得到融合脸。
2.2.2 生成脸与真实脸融合
将系统的生成脸与学生的真实脸进行融合,人脸融合主要分为特征点检测、凸包检测、多边形填充、三角剖分、仿射变换、泊松融合几个步骤。首先对摄像头捕捉到的人脸进行人脸关键点检测,然后对68 个人脸关键点信息进行凸包检测和多边形填充,接着使用三角剖分算法完成人脸剖分,最后经过仿射变换和泊松融合算法实现两张人脸融合。
2.2.3 泊松融合算法
泊松融合[17]基于人眼天生对“突变”敏感,而对连续平滑的变化不敏感这一原理。要实现两张图片融合后不显得突兀,就需要保证图片边界平滑过渡。二阶偏导数有助于解决图像融合问题,可使两张图片融合为平滑的图像。这种使用二阶偏导数进行图像融合的方法就是泊松融合算法,即借助泊松方程,使其满足在所选区域的拉普拉斯条件和Dirichlct 边界条件下,方程的解唯一。经过泊松处理后合成的人脸非常自然,接近于真实人脸。
泊松方程如式(2)所示。其中,Δ 表示拉普拉斯算子,f和φ是流形上的实数或复数方程。当流形属于欧几里得空间时,拉氏算子通常表示为∇2,因此泊松方程通常如式(3)所示。在三维直角坐标系中,如式(4)所示,若f(x,y,z)恒等于0,式(4)可以变为齐次方程,即“拉普拉斯方程”。
设图像域S是R2上的闭子集,Ω 是S的闭子集,S的边界是∂Ω。设f*是定义在S上的已知标量函数,设v是定义在Ω 上的向量域。设f是f*在Ω 上满足最小化问题的插值函数。当二阶偏导数为0 时,梯度有一个极值,如式(5)所示,其中为梯度运算。最小值必须满足在Ω上的拉格朗日方程,如式(6)所示,其中为拉普拉斯算子。
由于引导向量域是向量域v在式(5)最小化问题上的扩展形式,因此式(5)可以表示为式(7)。式(7)的解是Dirichlet 边界条件下泊松方程在Ω 上的唯一解,如式(8)所示,其中divv=是v的散度。
因此在Ω 内,添加的修正函数即为边界∂Ω 上源图像与目标图像错误匹配(f*-g)的一个插值。
三维动画模型方案整体架构如图5 所示,利用摄像头采集学生面部图像并进行预处理,经过人脸关键点标定、三维动画模型绑定和人脸三维位姿估计后,生成学生面部三维动画替代视频中学生的真实脸。绑定的动画模型可以捕捉并跟随学生面部和头部的每一个细微动作,如皱眉、摇头、抬头、张嘴等。动画模型对学生的面部动作有放大效果,可以将学生的面部情绪更直观地呈现给教师,从而增强师生交互。由于学生的形象被三维动画模型所替代,因此不存在面部隐私泄露问题。此外,动画模型生动、形象,有助于活跃课堂学习气氛。
Fig.5 Overall architecture of 3D animated model scheme图5 三维动画模型方案整体架构
2.3.1 三维动画模型绑定
三维动画模型绑定是一种使三维动画模型能够跟踪被绑定脸部的每个细微面部动作的方法。三维动画模型方案采用的三维动画模型绑定流程如图6 所示,包括人脸检测、人脸关键点定义、模型绑定和三维姿态估计。使用Python 环境下CV2 库提供的LBF 算法,通过人脸检测器检测学生的真实人脸。为了在真实人脸上捕捉面部运动,需要在三维模型的人脸上定义面部关键点。本方案采用的3D 动画模型是Blender 提供的开源动画模型Vincent,使用Blender 中的Python 脚本,可以实现三维模型的人脸标记定义和真实人脸的人脸检测,从而建立三维模型与真实人脸之间的绑定关系。
Fig.6 Workflow of 3D animated model binding图6 三维动画模型绑定流程
2.3.2 三维位姿估算
现实场景中脸部的运动和动作是三维的(如摇头、抬头等),为了准确捕捉真实人脸动作,需要解决PnP 问题。典型的PnP 问题是借助N 个空间点的实坐标和这些空间点在图像上的投影计算摄像机在给定坐标系中的位置与姿态,已知量为空间点与图像坐标的实坐标,未知量(求解量)为摄像机姿态。本文采用LM 优化算法[14]求解PnP 问题,通过迭代算法求出重投影误差最小的解作为问题的最优解,经过罗德里格斯变换得到旋转矩阵和平移矩阵,从而解出旋转向量和平移向量。结合初始的参考坐标系,便可实现人脸的三维位姿估算。该算法可以在摄像机捕捉到的视频流中实现人脸的运动捕捉,并将其与Blender 三维动画模型绑定,获得具有面部运动跟随的三维动画人脸。
本文所述实验工作的计算机环境如下:CPU 为Intel(R)Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHz,Python 3.7,TensorFlow2.0,OpenCV4.1.2。实验采用的数据集为:FER2013、AffectNet、CK+数据集。
对emoji 表情替换方案的验证分别在FER2013、CK+和AffectNet 3 个面部情感识别数据集上进行,该方案采用的神经网络算法为“Sep-Cov2D”。基于FER2013 数据集,Sep-Cov2D算法与VGG19[18]、DL-LSTM[19]和 SESResNet18[20]进行情感识别准确率对比如图7(a)所示;基于CK+数据集,Sep-Conv2D 算法与AlexNet[21]、CSPL[22]和SE-SResNet18 进行情感识别准确率对比如图7(b)所示;基于AffectNet数据集,Sep-Conv2D 算法与AlexNet、gACNN[23]和DenseSANet121[24]进行情感识别准确率对比如图7(c)所示。
图7(a)表明,在FER2013 数据集上,Sep-Covn2D 的准确率在4 种神经网络中仅次于SE-SResNet18,达到了71.52%;图7(b)表明,在CK+数据集上,Sep-Conv2D 的性能表现不佳,仅高于CSPL 神经网络,准确率为89.93%;图7(c)表明,在AffectNet 数据集上,Sep-Conv2D 的准确率仅次于DenseSANet12,达到了59.32%。综合来看,虽然Seo-Conv2D 在面部表情识别准确率上并没有达到目前情感识别神经网络的最高水平,但其容错率处于可接受范围内,其综合性能可支持被应用到实际线上教学场景中。此外,虽然SE-SResNet18 在数据集上的测试取得了很好的结果,但因其网络结构过于庞大(参数过多),并不适合线上教学这种对实时性要求很高的应用场景。而Sep-Conv2D的另一个优势在于其参数规模很小,其特有的轻量性以及对计算性能要求不高的特点,在实时应用场景中可以降低情感分析延迟,适合投入到实际应用中并被广泛推广。Sep-Conv2D 与其他常用的面部情感识别神经网络参数数量对比如表1所示。
利用OBS 软件设置运行结果录屏、安装虚拟摄像头插件,并在腾讯会议中将摄像头选项设置为OBS virtual camera,便可实现将emoji 表情替换方案的运行结果作为学生摄像头画面的显示。实际运行效果如图8所示。
在实时开启摄像头的情况下,emoji 表情替换方案实现了学生的情感识别,并使用emoji 表情替代学生人脸。在学生端,学生面部被对应情绪的emoji 表情替代,因此可确保其面部隐私不被泄露;在教师端,教师可通过观察学生的emoji 表情直观地获知学生的听课情绪,而不再需要通过视频图像判断学生情绪,从而加强了师生之间的情感交互。此外,当有学生离座时,图像中显著的错误标志可及时提醒教师,避免因学生视频图像过多导致教师无法及时察觉到学生离开课堂的情况,提高教师对课堂纪律的掌控力。
Fig.7 Accuracy of different emotion recognition algorithm图7 不同算法的情感识别准确率
Table 1 Comparison of parameters amount of different neural network models表1 不同神经网络模型参数数量对比
与emoji 表情替换方案相同,在腾讯会议中将融合脸方案的运行结果作为学生摄像头画面的显示,实际运行效果如图9 所示。学生的真实脸与生成脸进行人脸融合之后,虽然保有一部分原来的特征,如脸型、肤色、发型等,但其五官与面部的一些特征有了部分改变,因此保护了学生真实脸的面部特征,从而实现了对学生面部信息的隐私保护。
Fig.8 Performance of 3D animation model scheme图8 三维动画模型方案运行情况
Fig.9 Performance of facial blending scheme图9 融合脸方案运行情况
虽然该方案不能像emoji 表情替换方案实时地将学生面部表情以emoji 表情的形式进行放大,但与emoji 表情替换方案中学生面部完全被emoji 表情遮挡不同,融合脸方案仍保留学生面部的一部分特征,因此该方案适合应用在需要学生面部身份认证的场景中(如线上考试等)。
三维动画模型方案为了呈现出3D 动画模型对人脸动作的捕捉效果,测试给出动画模型实时捕捉人脸动作的部分截图。实际运行效果如图10所示。
完成人脸绑定的3D 动画模型可以捕捉并跟随学生面部和头部的每一个细微动作,如摇头、抬头、张嘴等。一方面,学生在线上教学视频中的真实脸被动画模型替代,从而完成了对学生面部隐私的保护;另一方面,绑定的动画模型对学生面部动作进行放大,因此教师可以更直观地观察出学生的听课情绪,如惊讶、疑惑等。3D 动画模型生动、形象,有助于活跃课堂气氛,适合应用于线上小组讨论场景中。
Fig.10 Performance of 3D animated model scheme图10 3D动画模型方案运行情况
为了更好地了解学生群体对3 个方案的接受程度以及3 个方案适合应用的场景,以在线问卷调查方式收集部分学生的意见。有针对性地邀请具有线上视频教学、线上考试、线上答辩3 种经历的学生参与问卷调查,被调查的学生根据自己的线上学习经历对本文提出的3 种情感互动方案进行评价。调查问题如下:
方案一:emoji 表情替换方案;方案二:融合脸方案;方案三:三维动画模型方案。
(1)Q1:您最希望哪一个方案被应用到在线视频教学中?
(2)Q2:您认为哪一个方案的情感识别效果最好?
(3)Q3:您认为哪一个方案的面部隐私保护效果最好?
(4)Q4:在线上考试场景中(教师要求学生打开摄像头),您认为哪一个方案最合适?
(5)Q5:在日常线上教学活动中(如讲座、日常授课),您认为哪一个方案最合适?
(6)Q6:在线上小组讨论场景中,您认为哪一个方案最合适?
调查问卷结果如图11 所示。62.3%的学生希望方案一能够被应用于线上视频教学中;66.5%的学生认为方案一的情感识别效果最好;44.8%的学生认为方案二的隐私保护效果最好。对于线上考试的应用场景(教师要求学生打开摄像头),54.7%的学生希望使用方案二;对于日常线上教学活动的应用场景(如讲座、日常授课),61.8%的学生希望使用方案一;对于线上小组讨论场景,58.5%的学生希望使用方案三。
通过进一步分析可以得知,对于线上教学中的面部情感识别与面部隐私保护两个方面,学生更加重视能够加强与教师情感交互的面部情感识别,因此方案一的接受度最高。在线上考试场景中,学生更倾向于选择方案二,该方案可以保留学生的部分原始面部特征,同时保护学生的面部隐私,从而实现身份认证和在线考试中学生的面部信息保护;在在线小组讨论场景中,学生更倾向于选择方案三。方案三使用生动的3D 动画模型取代学生的真实脸,该模型可以捕捉学生的头部动作和面部动作,从而活跃课堂讨论氛围,因此适合线上教学中的小组讨论场景。
Fig.11 Result of questionnaire图11 调查问卷结果
表2 总结了3 种方案的情感交互效果、隐私保护程度、面部信息可用性和适用场景。
Table 2 Applicable scenarios of three schemes表2 3种方案的适用场景
在线上视频教学中,教师很难了解学生的情绪反应,师生情感交互效果差,同时学生面部信息面临泄露风险。针对以上问题,本文提出在视频教学中加入情感识别及隐私保护的3 个方案,能够在一定程度上满足在线上视频教学中加强师生情感交互和隐私保护的需求。然而,这些方案也存在一些缺陷。在emoji 表情替换方案中,面部情感识别网络的准确率不太理想,在实际应用场景中可能会导致学生面部情感识别出现错误,影响情感交互效果。产生这一结果的原因可能是神经网络结构的缺陷,因此未来的研究目标是优化面部情感识别神经网络结构,同时保持网络的轻量化,进一步提高师生情感交互效果。融合脸方案中的融合脸相对比较僵硬,影响视频中学生面容的真实性与美观性,可能与人脸融合算法的不足有关,因此在未来对人脸融合算法的有效性需要进行更多研究。由于目前开源三维动画模型数量有限,导致三维动画模型方案中的学生形象与表情比较单调,因此三维动画模型方案中三维动画模型的多样性还有很大的拓展空间。
受人脸数据隐私安全方面有关政策约束以及真实教学环境中软硬件设施的限制,本文提出的3 种方案主要基于开放数据集进行研究,或在很小规模的线上会议场景中进行了验证测试,还没有在真实、复杂的线上教学环境中进行大规模系统测试。若将方案应用于实际线上教学环境中,软硬件如何调优?系统的实时性、鲁棒性如何保证?这些都是今后可继续深入研究的方向。本文对于情感交互的研究也仅限于在线教育中学生面部表情的呈现和放大,如何在教师与学生之间实现虚拟空间中相互反馈的情感互动,同时解决面部隐私泄露问题,还有待进一步研究。