重庆师范大学计算机与信息科学学院 张领 朱原雨润 王晶仪
针对自闭症儿童鉴定在医疗方面没有具体的诊断标准等问题,提出了一种基于人脸表情识别的自闭症儿童辅助诊断模型。该模型以神经网络模型来提取表情特征,最终进行表情分类。首先创建图像采集模块,通过系统采集儿童面部表情视频序列,向网络模型提供采集数据集;利用神经网络模型的表情分类,对相应视频帧进行时间段数据检测,并保存相应表情强度数据;最终,将正常儿童与自闭症儿童表情强度数据细化对比。
面部表情是人体语言的一部分,是对心理情感的一种表露,是情感传递的重要方法。传播学家Mehrabian[1]通过实验提出在情绪的表达中,面部表情所占比重高达55%,由此可见,人脸表情识别(Facial Expression Recognition,FER)是非常具有现实价值的研究课题。1971年,由心理学家Ekman[2]和Friesen把基本表情划分为6种,分别为高兴、伤心、惊讶、恐惧、愤怒和厌恶。尽管不同人类之间有所差异,但这些表达情感的方式是人类共有的。
随着深度学习的崛起,卷积神经网络(Convolutional Neural Network,CNN)凭借自身强大的特征提取能力被广泛应用在计算机视觉领域,如图像分类、目标检测等任务。人脸表情识别也属于图像分类任务的一种,因此许多经典的卷积神经网络模型,如LeNet[3]、VGG[4]、ResNet[5]等常被作为基础网络用在人脸表情识别任务上,并在此基础上进行改进优化,从而达到提升模型识别表情准确率的目的。例如,文献[6]通过深度学习网络来提取特征,并用L2正则化和支持向量机结合的方式替代Softmax函数,提升了模型在人脸表情识别上的准确率。文献[7]提出了一种新的学习方法,即类间关系学习(IcRL),通过提取独立的表情特征来学习不同类别表情之间的相互关系,并扩大类间距离与类内距离之比。文献[8]基于残差网络ResNet18,将过滤器响应正则化(FRN)、批量正则化(BN)、实例正则化(IN)和组正则化(GN)进行组合分别嵌入网络之中,平衡和改善特征数据分布,提升模型性能。文献[9]提出了一种新的深度位置保持卷积算法神经网络(DLP-CNN)方法,目的是增强保留局部性来提高深层特征的判别能力,同时最大化类间分散。文献[10]提出了一种具有注意力机制的卷积神经网络(ACNN),可以感知人脸的遮挡区域,并关注最具鉴别性的未遮挡区域,为了考虑不同关注区域,提出了基于局部的ACNN(PACNN)和基于全局人脸区域的ACNN(GACNN)。文献[11]提出了一种新的深度嵌入方法,明确地设计来代表大量类内变化的表情特征,同时学习有区别的表情特征,目的通过最小化样本与其最近的子类中心之间的距离来形成局部紧致表示空间结构,最终提升模型性能。
由此可见,为了在自然场景下让模型具有良好的鲁棒性,必须让模型具有提取复杂特征的能力(如表情局部变化细微的特征以及面部表情遮挡的区域),以及能够提取反映表情变化的关键特征,抑制非表情特征。
模仿是社会学习的重要方式,理解和模仿他人行为是人类社会认知极为重要的组成部分,自闭症儿童在生命早期就表现出该方面的困难。自闭症者对他人情感表达感知能力和反应能力的障碍,导致社会交互方面表现出严重困难,说明其在与共情相关的加工中存在缺陷,如对情绪表达的快速而自发的模仿不足等。
自闭症儿童不能表达自己的情绪或者不能合理表达自己的情绪,对其社会交往能力损害较大,情绪障碍主要表现在自闭症儿童的情绪大多是短暂的应激反应,不能转化为持久的心境和情感;情绪大多由低级的生理功能引起,和心理感受无关;情绪体验简单,高级情绪出现很晚,而且浅表、短暂等。
自闭症组儿童在观看悲伤表情视频时,前4s内与正常组儿童并未表现出明显差别,但当刺激视频消失后,自闭症组的悲伤强度值开始显著低于正常组,从变化趋势图来看,这是因为正常组儿童仍然表现出对悲伤情绪的模仿,悲伤情绪值持续上升,而自闭症组的悲伤情绪强度值则表现出下降趋势。这提示正常组对于悲伤面部表情的模仿持续时间要高于自闭症组,尤其是当刺激情绪刚消失时,两者差异显著。这可能是因为自闭症儿童感受他人情感体验的能力不足,不能表达自己的情绪或者不能合理表达自己的情绪。他们主要通过观察他人的面部表情而获得即时感受,情绪大多是短暂的应激反应,和心理感受无关,不能转化为持久的心境和情感。另外,自闭症在表情理解方面存在障碍,在很难真正地去理解他人的悲伤,因而缺乏与别人建立相同情感的能力,无法将内心得情感体验与外界世界建立联系,所以当刺激情绪消失后,自闭症的相应情绪立刻随着减少,如图1所示为整个系统流程图。
图1 整个流程设计图Fig.1 The whole process design diagram
Record界面主要功能: 实验设计一个舒适的测试区,既能让孩子集中精力在屏幕上,又不会无聊到完全失去参与实验的意愿。为了监督实验,实践专家和我们团队的一员在场,以确保筛选过程正确进行。儿童面部数据主要来自于4~6岁儿童,主要分为正常儿童和自闭症儿童两类受访者。每一类受访者坐在电脑面前观看同一段时间长度的实验视频,采集该受访者在观看此视频下的面部表情变化视频数据。
如图2所示,左上角黑色区域属于视频播放区,右上角区域录制视频显示区,下方空白区域则为检测人脸是否出现在录制视频区,如果没有人脸出现,系统及时打印出相关检测数据报告,报告主要包含录制时间,受访者相关信息,以及打印出录制当中未检测到人脸关键时间段,时长多少等关键信息。
图2 视频数据采集界面Fig.2 Video data collection interface
Datas界面主要功能:加载已被采集的受访者面部表情视频数据,进行面部表情识别,保存已被处理的视频和生成相应的每帧表情类别文字性数据报告。
如图3所示,Open Video按钮加载受访者视频,其中Faces,Eyes,Emotion按钮分别是加载人脸检测、眼睛视线估计、面部表情检测三种已被训练好的神经网络模型。点击Run按钮则是进行受访者面部表情检测,默认对每1帧图像进行表情识别,CheckBox勾选则是每4帧图像进行表情识别。左下角为原受访者视频播放区域,右边则是已进行表情识别后的视频播放区域以及关键帧表情类别数据呈现。在点击Run按钮运行之后,会自动保存已被处理过的视频和文字性数据文档,如图4所示,例如01-emotion.mp4表示受访者01号已经经过面部表情识别处理,01-emotion.docx表示受访者01号时间序列关键帧表每种表情文档。
图3 视频数据处理界面Fig.3 Video data processing interface
图4 自闭症儿童视频处理生成数据Fig.4 Data generated by video processing for children with autism
Analyze界面主要功能:加载已被处理过的表情视频数据,分别加载正常儿童和自闭症儿童视频,处于同一环境下,对比双方视频中同一时间段面部表情反应情况,将正常儿童与自闭症儿童数据对比生成相对应PDF文档。
如图5所示,video one区域加载正常儿童表情视频(Data/正常儿童/01-emotion.mp4),并点击load加载每一帧表情文档(Data/正常儿童/01-emotion.docx)。video one区域加载自闭症儿童表情视频(Data/自闭症儿童/01-emotion.mp4),并点击load加载每一帧表情文档(Data/自闭症儿童/01-emotion.docx)。最后点击Run按钮,在右侧空白区域生成相应的表情对比文档。
图5 视频数据分析界面Fig.5 Video data analysis interface
综合来看,本研究主要得到如下结论:
(1)自闭症儿童能自发表现出模仿,但在模仿进程上表现出缺陷。
(2)自闭症儿童观看愉悦情绪视频,引起的情绪变化与正常儿童无显著差异,观看悲伤情绪视频时,当视频消失后,自闭症儿童的悲伤情绪立即降低,而正常儿童的悲伤情绪反而表现出升高的趋势。
(3)自闭症儿童与正常儿童均未随着悲伤情绪强度的改变表现出模仿方面的差异;愉悦情绪的强度越大,正常儿童越容易受到感染,而自闭症儿童在不同强度的愉悦情绪下表现出的模仿差异不显著。