姚鸿勋,邓伟洪,刘洪海,洪晓鹏,王甦菁,杨巨峰,赵思成
1. 哈尔滨工业大学,哈尔滨 150006; 2. 北京邮电大学,北京 100876; 3. 中国科学院心理研究所,北京 100083;4. 南开大学,天津 300071; 5. 美国哥伦比亚大学,纽约 10032,美国
情感(emotion) 一词源于希腊文“pathos”,最早用来表达人们对悲剧的感伤之情。情感在感知、决策、逻辑推理和社交等一系列智能活动中起到核心作用,甚至有研究显示“人类交流中80%的信息都是情感性的信息”。由于情感在人类信息沟通中的重大意义,情感计算是实现人机交互过程必不可少的部分,也是让机器具有智能的重要突破口。情感计算的概念由美国麻省理工学院媒体实验室Picard教授提出,并于1997年正式出版书籍《Affective Computing(情感计算)》。在书中,Picard教授指出“情感计算是与情感相关,来源于情感或能够对情感施加影响的计算”,开辟了情感计算研究的先河。情感计算与理解旨在赋予计算机系统识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高、更全面的智能。根据输入信号的不同,情感计算与理解包含不同的研究方向。
多模态情感识别通过提取图像、视频、音频、文本和生理信号等多种模态数据中的情感信号,完成情感的分类、回归、检测和检索任务。多模态情感识别发展的早期,主要通过进行引导参与者产生目标情感的实验,记录参与者的生理信号、声音和面部表情的方式收集数据,支持多模态情感识别的研究(Koelstra等,2012;Soleymani等,2012)。近几年,多媒体技术快速发展,越来越多的用户在社交平台上发表关于电影、餐厅和电子商品的评价内容。研究者们开始搜集这些有情感倾向的图像、视频、音频和文本评价内容来构造多模态情感研究的数据集(Zadeh等,2018c;Yu等,2020)。随着数据量的增长和计算能力的突破,研究者们开始使用深度神经网络来分析多模态情感。很多研究使用基于Transformer的网络进行识别任务(Rahman等,2020)。与之前的深度模型相比,基于Transformer的网络具有更好的并行计算效率和更好的建模远距离特征优势。多模态情感识别的研究可以进一步提升人们的生活质量。在舆情分析方面,可以分析用户对新冠疫情等事件的情感倾向;在商业智能方面,可以分析用户对于商品的满意度,设计引起用户积极情感的广告;在健康方面,可以分析驾车、上课等状态下的情感程度,针对性地给出警示,提高工作效率。
孤独症谱系障碍(autism spectrum disorder, ASD),又称自闭症,是儿童时期最常见的神经发育障碍疾病之一,其临床表现主要为社交沟通障碍、刻板行为和兴趣狭隘(Centers for Disease Control and Prevention,2016)。根据美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)2021年的调查报告,孤独症儿童患病率从2005年的1/166增长到了目前的1/44,且呈现逐年增加的趋势。《中国自闭症教育康复行业发展状况报告Ⅲ》指出,中国孤独症发病率约有1%,目前已约有超1 000万孤独症谱系障碍人群,其中12岁以下的儿童达200多万,而且孤独症儿童的数量每年以接近20万的数字递增。孤独症会严重影响患儿的日常生活,并给家庭和社会带来巨大的花销,据美国报道,孤独症儿童终身花销大约为200万美元到240万美元。目前,孤独症尚无特效治疗方法,主要以早期诊断、干预为主。然而,目前孤独症早期行为干预大多依赖于临床医师和专业人员通过行为学观察并制定相应的干预方案,这种诊疗模式以临床医师和临床专业人员为主导,其耗时较长,非常不利于该病的治疗。 美国早在1943年就对孤独症有了第1次确诊,但在中国,直到1982 年陶国泰教授才确诊了我国第1例孤独症,经过几十年的发展,我国孤独症临床和基础研究取得了一定的进步。但迄今为止,我国孤独症诊疗仍面临诸多困难:专业诊疗队伍缺乏、无基于国情行业标准和诊疗指南等。社交沟通障碍是自闭症的核心症状之一,主要体现在社交情境中患儿情感功能失调。根据《国际功能、残疾和健康分类(儿童和青少年版)》,孤独症患儿的社交情感功能可以界定为两大方面:情感识别与理解以及情感调节与表达。孤独症社交情感分析可为孤独症临床康复提供新的技术手段和科学方法,也为揭示孤独症病理机制奠定了基础。
Minsky(1970年图灵奖获得者)曾指出,“问题不在于智能机器是否会有情感,而是没有情感的机器能否智能”(Minsky,1986)。情感在机器和人工智能领域起到至关重要的作用,能够影响人们的判断与决策。随着移动相机和社交平台的广泛普及,人们习惯于用图像、视频和文字等多媒体数据在线分享和表达自己的观点(Zhao等,2020b)。识别这些数据中的情感内容,可以帮助理解用户的行为和情感。“一图胜千言”,图像可以传递丰富的语义信息。情感图像内容分析(affection image content analysis,AICA)的目标是理解认知层次的语义信息,识别图像对特定观看者或大多数人会诱发的情感(Zhao等,2021)。使用AICA自动地推断人们的情感状态,可以帮助检测他们的心理健康、发现情感异常,阻止他们对自己、甚至对整个社会进行的极端行为(Zhao等,2021)。
情感图像内容分析(AICA)在心理学和行为学的研究基础上出现,例如基于IAPS(International Affective Picture System)数据集研究视觉刺激与情感之间的关联(Lang等,1997;Mikels等,2005)。早期情感图像内容分析的方法多是基于手工设计的特征,例如低层次的全局Wiccest和Gabor特征(Yanulevskaya等,2008)、艺术元素(Machajdik和Hanbury,2010)、中层次的艺术原理(Zhao等,2014)和高层次的形容词名词对(Borth等,2013)。2014年,研究者将大规模数据集上预训练的卷积网络参数迁移到AICA领域(Xu等,2014)。为了解决情感感知的主观性问题,研究者们提出了个性化情感预测(Xu等,2014;Yang等,2013;Zhao等,2016;Rui等,2017)和情感分布学习(Zhao等,2015,2017c,2020a;Peng等,2015)策略。近几年,领域自适应(Zhao等,2018b,2019b;Lin等,2020)和零样本学习(Zhan等,2019)也应用到AICA领域,来解决情感标签缺失问题。
面部表情(facial expression)作为人类视觉最杰出的能力之一,是非语言交流的一种重要形式(Ekman,1965)。人脸表情分析(facial expression analysis, FEA) (Tian等,2011)则属于计算机识别和解释人类情感状态的多学科研究领域——即情感计算的一部分,并建立在计算机视觉技术的基础之上,通过分析不同来源数据(如静态图像和视频)中的人脸表情,来直观地揭示人物情绪状态。在医疗健康、刑侦检测、广告娱乐和在线教育等系列场景中均有着广泛的应用。
早在19世纪,关于人脸表情的研究就已经展开,早期主要集中在心理学和生物学方面。1862年,神经学家杜兴通过其著名的面部电流刺激实验,论证了面部肌肉是如何产生表情的(Emery等,2015)。紧接着,1872年,达尔文从进化论的角度出发,在其著作《人类和动物的情感表达》中指出,人和动物拥有与生俱来的情绪和共同的情感生物起源(Darwin,2015)。该研究对心理学家埃克曼产生了巨大的影响。他在20世纪60年代开展的首批跨文化实地研究中支持了达尔文的假说,即表情具有普适性(Ekman和Friesen,1971)。基于该研究,艾克曼定义了6种人类普遍表达的基本离散表情,即悲伤、恐惧、愤怒、开心、惊讶和厌恶(Ekman等,1987)。此外,还有一种基于局部外观的客观描述形式,即面部动作编码系统(facial action coding system,FACS)(Ekman和Friesen,1978)。该系统根据人脸解剖学的特点,将面部肌肉划分成若干动作单元(action unit,AU),来描述人脸表情的组成和变化。目前观察到的动作单元AU组合已经达到7 000余种。
虽然在心理学上已有长达半个多世纪的研究,但是在计算机视觉、人工智能领域却只有短短10余年的发展(Zhao和Li,2019)。2011年,芬兰Oulu大学团队提出了一种基于帧插值和多核学习(multiple kernel learning, MKL)的微表情识别方法,并建立了首个自发微表情识别数据集(Pfister等,2011)。自此以后,越来越多的学者尝试用计算机视觉的方法研究自动微表情分析。
在多模态情感识别中,可以根据多种模态的情感信号来分析人的情感。这些不同的情感模态可以分为显性和隐性两类,显性的模态从人的身体变化来表现情感,如人脸表情、眼球移动、声音、动作、步态和脑电图等,这些模态信号可以被观察并记录;隐性模态指从多媒体平台上获取的用户信息,如用户发表的图像、视频、音频和文本,这些模态信息在数字设备之间传输并存储。
多模态情感识别的数据集构建包括获取数据和情感标注两个步骤。获取数据的方法可以分为两类,第1类在特定的场景下记录实验信息作为多模态情感数据。例如英国伦敦大学的Sander团队构建的DEAP(database for emotion analysis using physiological signals)(Koelstra等,2012), 记录参与者观看音乐剧时的人脸视频、脑电图等信号。第2类直接从多媒体平台获取用户上传的图像、视频、音频和文本模态的数据。例如美国卡内基梅隆大学的Louis-Philippe Morency教授团队从YouTube收集用户上传的独白视频,构建了具有代表性的CMU-MOSEI(Carnegie Mellon University——Multimodal Opinion Sentiment and Emotion Intensity)数据集(Zadeh等,2018c)。情感标注通常由多位参与者在情感维度打分或报告感受的情感类别。另外,一些数据集并不需要进行情感的标注。例如,EMODB数据集(Burkhardt等,2005)中,演员表演的每个句子都对应一个目标情感、Multi-ZOL的每条用户评价都包含一个用户给出的打分(Xu等,2019)。
多模态情感识别面临来自多模态融合和情感识别两方面的挑战。多模态融合方面,第1个挑战是数据缺失,在获取数据的阶段,由于传感器的故障等难以避免的情况,经常出现特定模态的数据不完整的问题;第2个挑战是跨模态不一致,在社交平台上,例如用户发表的图像与文本信息有时并无语义上的关联;第3个挑战是跨模态信息不均衡,例如,新闻通常包含很大篇幅的文本内容和少数的几幅图像。情感识别方面,第1个挑战是情感的鸿沟,即从特定模态上提取的特征,缺乏情感上的区分性;第2个挑战是感知的主观性,由于文化、性格等因素的差异,不同的人感受到相同的刺激时,产生的情感可能差别很大;第3个挑战是标签的噪声和缺失,由于主观性,情感标注通常需要统计多位参与者的投票,因此通常自动地获取网络上的标记或关键词作为标注。这种情况下,标签通常包含很多噪声。
多模态情感识别的计算方法包括情感模态的表示方法和情感模态的融合方法、多模态情感识别的分类方法、多模态情感识别的领域自适应方法。情感模态的表示,是存储和利用模态信息的基础。关于文本信息,词语表示是分析文本内容的基础。目前主要通过词到向量(word to vector, word2vec)、全局向量(global vectors, GLOVE)和基于变换器的双向编码器表示技术(bidirectional encoder representations from transformers,BERT)等训练方法获取词语的表示向量(Xu等,2019;Poria等,2017;Zadeh等,2018b)。关于音频信息,先转换成频谱图等图形化的表示,再用卷积神经网络(convolutional neural network, CNN)提取特征的方法在很多大规模任务中有很好的表现;关于图像信息,关注图像情感区域的表示方法有很好的竞争力(Yang等,2018a)。另外,如果图像中包含人脸信息,那么人脸表情则是一个很有用的线索;关于视频信息,由于包含一段有序的图像,最近很多工作使用加入时序的3维卷积提取特征表示;关于生理信号,脑电图是其中最有代表性的一种信号。脑电图由多个通道组成,因此加入通道注意力的卷积神经网络可以更有效地提取表示信号的特征。
情感模态的融合是多模态情感识别的一个关键步骤,旨在结合不同情感模态的表示信息,完成情感识别任务。一般来说,情感模态融合包含模型无关融合、基于模型融合两类方法。模型无关的融合方法可以分为先融合、晚融合、混合融合3类。先融合也称为特征融合,将不同情感模态的表示在时间上同步后,连接为单个特征表示;后融合也称为决策融合,将每个情感模态的识别结果进行集成。与先融合相比,后融合具有更好的灵活性和鲁棒性。混合融合使用一个统一的框架将先融合与后融合结合起来并利用二者的优势,这种情况下进行计算的成本较高。目前,由于模型无关的融合方法难以表示多模态数据的复杂情况,基于模型的融合方法获得了更多的关注。针对浅层模型,基于支持向量机(support vector machine, SVM)等核函数和基于图的融合方法最具有代表性;针对深层模型,通常使用基于张量计算、注意力机制和神经网络的方法进行融合。
针对多模态情感识别的计算方法,本文在5个通用数据集上进行了非深度方法与深度方法的定量比较,在表 1中展示结果。比较的非深度方法包括支持向量机(SVM)、随机森林(random forest, RF)和三模态隐马尔可夫(tri-modal hidden Markov model, THMM),深度方法包括多视图长短期记忆(multi-view long short-term memory, MV-LSTM)、双向上下文长短期记忆(bi-directional contextual LSTM, BC-LSTM)、张量融合网络(tensor fusion network, TFN)、多注意力循环网络(multi-attention recurrent network, MARN)和记忆融合网络(memory fusion network, MFN)。观察表 1中的结果可以发现,与非深度的分类方法相比, MARN(Zadeh等,2018b)、MFN(Zadeh等,2018a)等5个深度的方法在多数情况下具有更好的表现。另外,数据集不同,性能最好的模型也不同。在YouTube(Morency等,2011)、ICT-MMMO(Wöllmer等,2013) 数据集上,MFN有明显的优势;在IEMOCAP(Busso等,2008) 数据集上,MARN更有竞争力。另外,在CMU-MOSI(Busso等,2008) 数据集上使用基于Transformer进行词嵌入的多模态情感分类方法进行定量实验,在表 2中展示结果,其中FT(fine-turning)和MAG(multimodal adaptation gate)分别代表微调和多模态适应门。表2采用了BERT、超长网络(extra long network, XLNet)两种词嵌入方法。与表1结果相比,基于Transformer的深度网络明显具有更好的性能,这是目前最有代表性的方法。通过进一步比较可以发现,基于XLNet的方法具有更稳定的优势。
表1 非深度方法与深度方法在5个常用多模态情感识别数据集的定量比较Table 1 Quantitative comparisons of some representative non-deep and deep methods on five widely-used multi-modal emotion recognition datasets
表2 在CMU-MOSI 数据集上分别使用BERT和XLNet作为词嵌入对多模态情感识别分类方法定量比较结果Table 2 Quantitative comparisons of some representative methods for multi-modal emotion recognition on the CMU-MOSI dataset using BERT and XLNet as word embeddings
多模态情感识别的领域自适应方法,旨在从经过标注的源域上学习模型,将模型迁移到无标注的目标域上同样可以有很好的表现。领域自适应的方法是用来解决标签噪声挑战的一个重要手段(Yu等,2021)。目前的工作致力于深度无监督领域自适应的方法,采用两条分支的结构。一条分支在标记的源域上训练多模态情感模型,另一条分支对齐源域与目标域的数据。
国际上比较有代表性的研究团队包括美国卡内基梅隆大学的Louis-Philippe Morency教授团队、英国伦敦帝国理工学院的Björn W. Schuller教授团队、美国罗彻斯特大学的Ehsan Hoque教授团队、新加坡南洋理工大学的Erik Cambria教授团队、新加坡科技设计大学的Soujanya Poria教授团队等。上述团队的研究方向各有侧重,例如Louis-Philippe Morency教授团队关注多模态情感识别的计算方法,Björn W. Schuller教授团队关注在开放环境的情感分析,Ehsan Hoque教授团队、Erik Cambria教授团队关注对话中的情感识别,Soujanya Poria教授团队关注情感模态的融合方法。
目前,孤独症情感识别主要集中在面部情绪识别。面孔是人类表达、认知情感的重要工具和途径,正确的表达和识别面部表情是人类生存的一项重要的技能,面部表情的识别和理解能力对于儿童有着重要的社会意义(Theeuwes和Van der Stigchel,2006;Tomasello等,2005)。与正常儿童相比,孤独症患儿在面部信息识别方面存在着障碍,例如孤独症患儿不能识别和理解表情,进而无法进行正常的社交或情感交流。随着计算机视觉技术的发展,目前已经存在多种情绪/情感分类算法,它们在孤独症筛查和干预方面发挥着重要作用。然而,这些算法主要是在成人数据集上进行训练的,因此无法推广到孤独症患者进行应用。为了解决上述问题,美国斯坦福大学Kalantarian等人(2019)通过一种移动猜谜游戏来收集和标记孤独症患儿的情感数据。实验结果表明,分类器在孤独症数据集上的识别能力能够得到较大提升。随后,通过与主流云提供商相互合作,Kalantarian等人(2020)将他们的面部情感分析模型提供给消费者以便进一步对模型进行迭代和优化。同样来自美国斯坦福大学,Washington等人(2019)认为目前的大多数工作都侧重于通过面部感知和学习来训练孤独症患儿的情感识别能力,较少有方法通过协作/交互的方式让孤独症患儿能够意识到情感的存在。因此,他们通过一个协作游戏告知孤独症患儿彼此间的情绪,以减轻患儿的压力,使其快乐参与游戏。与利用视觉进行情绪识别不同,美国斯坦福大学的其他一些学者(Nag等,2020)通过可穿戴智能眼镜分析孤独症患儿的凝视模式以识别他们的情绪,作者认为可穿戴技术或许能够将情绪识别带入自然的社交互动和环境中,因此能够更好地探索情绪对社交的影响。美国麻省理工学院的学者在孤独症筛查和干预方面也有很深入的研究,例如Rudovic等人(2018)利用深度学习技术定制了个性化的机器学习框架,用于在机器人辅助自闭症治疗期间自动感知儿童的情感状态和参与度。此外,Narain等人(2020a,b)围绕非语言发声(如叹息、咕噜声和单音节声音)进行研究,他们认为对于患有轻微孤独症的人,这些发声包含重要的个人情感和交流信息。英国伦敦学院Palser等人(2021)认为孤独症患者在理解情绪方面是有差异的。通过实验,他们发现孤独症儿童身体情感地图的潜在差异与内在的感受信号处理有关(如心跳),因此可以通过内在的生理信号分析这种差异化。美国匹兹堡大学Conner等人(2020)研究发现许多孤独症患儿在管理情绪(情绪调节)和焦虑方面存在问题。通过1 000份调查问卷,他们认为虽然情绪调节和焦虑是相互关联的,但情绪调节问题可能是治疗自闭症焦虑症的重要目标。英国纽卡斯尔大学Ola和Gullon-Scott(2020)研究发现感知和体验情绪共享相同的神经系统,因此能够识别自己的情绪可能有助于识别他人的能力。上述国际研究大都在探究影响孤独症患儿的外在和内在因素,进而分析导致孤独症典型症状的原因,为临床的筛查和干预提供依据。
情感图像内容分析一般包括数据集构建、情感特征提取和分类模型学习等步骤(Zhao等,2021)。在AICA研究初期,数据集通常来自于心理学或艺术学领域,数据集规模通常较小,例如IAPS(Lang等,1997)、Abstract (Machajdik和Hanbury,2010)、GAPED(Geneva affective picture database)(Dan-Glauser和Scherer,2011)和MART(Museum of Modern and Contemporary Art of Trento and Rovereto)(Alameda-Pineda等,2016)等。其中IAPS(Lang等,1997)是最常用的视觉情感刺激数据集,它来自于情感实验分析和心理学注意力研究中,包含1 182幅现实风格自然图像,由约100位本科生标注为9种情感等级。IAPS的一个子集IAPSa(Mikels等,2005)由20位本科生标注为8种离散情感类别。随着社交网络的快速发展,多个大规模数据集通过爬取网络数据的方式产生,例如FI(You等,2016)、VSO(Borth等,2013)、Emotion6(Peng等,2015)、T4SA(Twitter for sentiment analysis)(Vadicamo等,2017)和LUCFER(labeled University of Central Florida emotion recognition)(Balouchian等,2019)等。VSO数据集(Borth等,2013)用1 000多个形容词—名词对作为检索词从Flickr搜索并下载约50万幅图像。标注图像的ANP包含在图像对应的标题、标记或者描述等元数据中。采用Plutchik轮盘的8种基本情感和3种强烈程度作为情感模型。Emotion6(Peng等,2015)同样使用来自于Flickr的图像,基于优势度—激活度(valence-arousal,VA)分数和离散的情感分布两种情感模型进行标注。FI(You等,2016) 是一个基于Mikels的情感模型构建的常用的大规模情感图像数据集,其包含的图像通过使用8种情绪作为关键词在Flickr和Instagram搜索得到,并雇佣200余位AMT员工标注图像。
情感特征提取在AICA中起到至关重要的作用。研究者们提出了多种有效的视觉特征(从传统的手工特征到近期的深度特征)来表示情感。研究初期,各种低层次特征用来表示情感内容。例如,Machajdik和Hanbury(2010)融合了不同类型的特征,包括各种颜色和纹理表示,是低层次特征发展过程的一个里程碑; Lu等人(2012)系统地研究视觉形状对于图像情感的影响; Sartori等人(2015)基于Itten的颜色轮盘,研究了抽象画中不同的颜色组合与图像情感之间的关联。低层次特征容易从已有的计算机视觉特征中迁移而来,但却缺乏合理的解释,并且与情感之间的关联较弱。相较于低层次特征,中层次情感特征更易于理解,并且与情感之间的关联更加强烈。例如, Yuan等人(2013)提出了一个称为Sentribute的中层属性特征,并且考虑了检测到的人脸表情; Rao等人(2016)考虑了基于多尺度结构的情感特征挖局,使用不同的分割方法提取每幅图像的多尺度模块,然后提取图像的尺度不变特征变换(scale-invariant feature transform,SIFT)特征,使用视觉词包(bag of visual words,BoVW)的方法编码每个模块,结果证明BoVW可以较好地描述不同区域的情感信息。高层次特征指容易理解且可以直接使观看者产生情感的图义信息。最具代表性的高层特征是SentiBank,一个大规模视觉情感本体论。它包含1 200个概念,每一个概念表示一个形容词—名词对,例如可爱的小孩,这些概念包含很明显的语义信息。Jou等人(2015)对Sentibenk进行了扩展,提出了一个大规模多语言视觉情感本体论。
近年来,随着卷积神经网络的快速发展,基于学习的特征在AICI研究中越来越受重视。此类方法大致可分为两类:全局特征和局部特征。全局特征平等地处理和对待图像中每个区域;基于心理学中关于情感区域的研究,局部特征侧重于提取包含丰富信息的局部特征。Chen等人(2014)使用卷积神经网络对1 200个形容词—名词对进行分类,所提出的基于深度网络的DeepSentiBank 模型取得的性能明显好于不用深度网络的SentiBank。Xu等人(2014)将大规模数据集(ImageNet)训练的卷积神经网络参数迁移到情感预测任务,发现FC7层激活后得到的特征优于FC8层。You等人(2015)所提出的基于弱标记图像训练的渐进卷积神经网络极具代表性,将预测结果中情感极性有较大差异的训练样本保留到下一轮训练,使得噪声数据逐渐移除。Rao等人(2020)提出了一个包含AlexNet、美学网络、纹理网络3条并行分支的端到端网络结构,通过融合卷积神经网络生成多层深度特征,进而捕捉图像不同类型的信息。局部特征因其捕捉包含丰富信息的情感区域的能力,受到了越来越多的关注。Chen等人(2015)考虑细粒度的信息,利用不同尺度提取局部块的特征,然后通过Fisher Vector集成为一个统一的表示。Liu等人(2016a)在计算视觉显著性区域时检测人脸表情和情感的物体,一起构成情感因子。You等人(2017)在可描述的图像属性基础上,使用注意力机制发现引起观看者情感的局部区域,从这些区域中提取的特征提高了AICA的性能。Zhao等人(2019a)将基于空间注意力和通道注意力的特征连接后作为优势度—激活度—控制度(valence-arousal-dominance, VAD) 视觉情感回归任务的表示。为了有效地使用不同层得到的信息,Rao等人(2019)提出了一个多层次基于区域的卷积神经网络框架,找出局部区域的情感表示。研究表明,全局特征和局部特征都可以在一定程度上决定图像的情感,结合局部特征应该比全局特征会生成更具判别性的情感图像表示(Zhao等,2021)。
情感特征提取之后学习分类模型。在AICA领域,已有分类模型多数集中在大众化情感识别、个性化情感预测和情感分布学习,以及从噪声数据或少量标签中学习等任务。早期方法大多使用传统分类器对大众化情感进行识别,常用的分类器包括支持向量机SVM(Zhao等,2014)、朴素贝叶斯(Machajdik和Hanbury,2010)和非线性矩阵补全(Alameda-Pineda等,2016)等。例如,Ahsan等人(2017)通过训练的卷积神经网络模型检测活动概念,然后使用SVM分类器将视觉属性映射到具体的情感。近期研究大多通过设计各种各样基于学习的方法来识别图像情感。考虑到情感的特性,研究者通过改进传统的交叉熵损失函数和均方误差损失函数来改进AICA的性能。例如, Zhao等人(2019a)提出了极性一致的均方误差损失函数用于图像情感的回归。Fan等人(2017)提出一个称为焦点通道的第4条通道,用于图像中焦点物体的掩码,或者显著性图表示,结果证明消极情感主要是由焦点区域引出的,图像的其他区域很难造成影响,而积极情感则由焦点区域和其他区域一起决定。为了解决情感感知的主观性问题,Peng等人(2015)使用概率分布的标注方法构造了Emotion6数据集,并且使用卷积神经网络回归作为情感回归模型。Wang等人(2015b)根据视觉内容和相关文本信息的关系,在网络图像上进行无监督情感分析。领域自适应研究如何将有标注的源域数据上训练的模型,迁移到另一个稀疏标注或无标注的目标域。Zhao等人(2018b)首先研究了情感分布学习的域适应问题,所提出的EmotionGAN对抗模型通过生成与目标域相近的中间域来实现源域和目标域的像素级对齐。语义一致性约束保证了中间域的图像能够保留源域的情感信息。此外,Zhao等人(2019b)利用CycleGAN代替GAN,来解决传统GAN的不稳定性和容易训练失败的问题,在不需要匹配图像对的情况下,学习大众化情感的跨域迁移。Lin等人(2020)研究了图像情感二分类任务的多源域迁移问题,设计了一个多源域情感对抗生成网络,挖掘多源域、目标域图像具有相似分布的统一情感隐藏空间。Panda等人(2018)研究了情感图像内容分析的域泛化问题,以此解决不同数据集图像存在明显差异的问题。
国际上比较有代表性的研究团队包括美国哥伦比亚大学Shih-Fu Chang教授团队、美国加州大学伯克利分校Kurt Keutzer教授团队、美国宾夕法尼亚州立大学James Z. Wang教授团队、美国罗彻斯特大学Jiebo Luo教授团队、美国中佛罗里达大学Hassan Foroosh教授团队、美国康奈尔大学Tsuhan Chen教授团队、意大利特伦托大学Nicu Sebe教授团队、奥地利信息系统工程研究所Allan Hanbury教授团队、澳大利亚悉尼科技大学Min Xu教授团队、新加坡国立大学Tat-Seng Chua教授团队等。上述团队的研究侧重点各有不同,例如,Shih-Fu Chang教授团队和Jiebo Luo教授团队主要关注社交网络中图像情感的分析,James Z. Wang教授团队、Allan Hanbury教授团队和Nicu Sebe教授主要研究如何设计有效的手工特征,Tsuhan Chen教授团队主要关注情感分布的研究,Tat-Seng Chua教授团队主要研究情感在推荐系统中的应用,而Kurt Keutzer教授团队主要关注AICA中的领域自适应问题。
随着计算机视觉、模式识别和人工智能等学科的发展,目前领域在基本表情上真实世界中的识别结果已经可以达到很高的水平。例如在RAF-DB数据集上(Li等,2017;Li和Deng,2019b),最新技术已将7类基本表情分类结果提高到90%以上(Xue等,2021)。然而,越来越多的研究表明,基本表情并不能完整包含人类所有情绪。心理学研究中还有一些更为复杂且全面的情感描述形式。普拉切克的情绪轮盘模型指出,单个基本情绪具有不同的强度,并且可以互相混合,从而派生出更多复杂的情绪(Plutchik,2001)。另一种维度描述模型则是将大量不同类别的情感投射到一个连续的维度空间里(Mehrabian,1996)。这些研究都表明,传统的7类基本表情过于局限,无法涵盖自然交流场景中更多复杂的情绪。为了进一步拓展表情模型的描述范围,相关研究通过将不同基本表情组合起来,提出了混合表情的概念(Nummenmaa,1988;Martin等,2006)。其中,复合表情作为一项特例,指由两种不同基本表情组合而来的表情类别(Du和Martinez,2015;Du等,2014)。
国际上有很多广泛用于算法评估的真实世界人脸表情数据集和相应评估准则。FERPlus数据集(Barsoum等,2016)在FER2013(Goodfellow等,2013)的基础之上通过众包对其进行了更加精准的8类基本表情标注(7类基本表情和蔑视表情)。该数据集包含28 558幅训练图像,3 579幅验证图像和3 573幅测试图像。EmotiNet(Benitez-Quiroz,2016)是一个包含从互联网收集的一百万幅面部表情图像的大型数据库。其中有950 000幅图像由机器自动标注上动作单元(AU)标签,而剩余250 000幅图像则是由手动标注了11类 AU。该数据库所提供的23类基本表情和复合表情标签并非由标注者直接标注,而是由AU组合推断而来,因此存在较大误差。AffectNet数据集(Mollahosseini等,2019)包含从互联网收集而来的超过一百万幅图像,其中450 000 幅图像具有手动标注的8类基本表情标签(7类基本表情和蔑视表情)。此外,该数据库也对图像进行了维度空间的标注。AFEW 7.0(Dhall,2019)包含由电影片段剪辑而来的1 809个视频数据,其中分别用于训练、验证和测试的视频数分别为773,383和653,每一个视频也进行了7类基本表情的标签标注。ExpW (Zhang等,2018)数据集则包含了91 793幅从互联网收集而来的图像数据,每幅图像被标注上了7类基本表情标签。Aff-wild2(Kollias和Zafeiriou,2019)是第1个同时针对效价—唤醒2维连续情感估计、7类基本表情识别和面部动作单元检测这3种任务都进行标注的真实世界数据集。其中有558个视频包含了效价—唤醒度标注,63个视频包含了8类AU标签,84个视频包含了7类基本表情标签。
本节从数据库构建、微表情预处理方法、微表情检测和微表情识别几个方面阐述相关的进展。
2.5.1微表情数据库构建
考虑到微表情产生的机理以及相关研究目前仍然处于初期发展阶段,如何构建合理的数据集一直是研究者们关注的焦点问题。芬兰Oulu大学的团队在2013年扩展了此前的Pfister等所用的数据集(Pfister等,2011),并正式发布了SMIC(spontaneous micro-expression database)(Li等,2013)。Husk等人(2017)对视频网站上的扑克牌游戏视频进行标注,构建了MEVIEW(microexpression videos in the wild)数据集。Davison等人(2018) 构建了SAMM(the spontaneous actions and micro-movements dataset)数据集。
2.5.2微表情预处理方法
微表情存在动作幅度小、持续时间短的特点,往往需要专门的方法进行相应预处理。因此微表情预处理也成为微表情分析任务中一个显著技术难点。其中,拉格朗日视频运动放大法采用拉格朗日视角(Lagrangian view)对运动进行描述和操作并被引入微表情分析领域(Ngo等,2018)。
2.5.3微表情检测
在自动微表情分析系统中,在进行微表情识别任务之前需要先进行微表情检测(Li等,2018)。微表情检测,可以分为对于脸部整体运动的检测和基于脸部运动单元(AU) (Ekman等,2002)的检测。如局部描述子的差分(Moilanen等,2014)、图像区域的亮度变化(Husk等,2017)以及光流的运动向量(Patel等,2015)等都已经用于检测微表情。
2.5.4微表情识别
国际上早期微表情识别研究普遍使用手工设计特征,如局部二值模式(LBP)(Li等,2013)及其时域扩展LBP-TOP(Pfister等,2011)进行识别。除此之外,几何特征(Pfister等,2011)、基于光流特征的运动信息(Happy和Routray,2019)也受到了越来越多的关注。随着机器学习乃至深度学习在微表情分析领域的应用,Patel等人(2016)使用特征迁移将深度学习技术引入微表情识别,并基于特征选择技术选择在最坏情况下性能最好的特征组合以缓解深度学习模型在小样本微表情数据集上的过拟合问题。该工作一般被认为是深度学习在微表情识别领域的首次成功应用。Kim等人(2016)将卷积神经网路(CNN)和长短期记忆网络结合,分别利用CNN和LSTM提取空间和时间特征。早期的深度学习方法在性能上尚不能与传统方法性能相比。为此,研究者们持续改进基于深度学习的微表情识别方法与技术,使其发展迅速。
多模态情感识别在国内也引起了广泛的关注。多模态情感识别的数据集方面,中国科学院自动化研究所的毛文吉研究员团队从中关村在线网站收集了28 469条评论,构建基于汉语的Multi-ZOL图文情感数据集(Xu等,2019);清华大学的徐华教授团队从影视剧和综艺节目中搜集2 281个视频片段,构建基于汉语的CH-SIMS视频情感数据集(Yu等,2020)。这些数据集为基于汉语文本的多模态情感识别发展奠定了基础。
多模态情感识别的计算方法方面,毛文吉研究员团队结合情感倾向,提出基于深度网络的特征融合方法(Xu等,2019)。分别提取各模态的特征,送入多层交互记忆网络。在网络的每一层中都对不同模态的特征进行交互,实现跨模态的融合。为了解决长时间序列多模态融合的遗忘问题,中山大学的胡海峰教授团队将多模态情感数据按照时间划分为多个部分,并对每一个时间块的多模态数据进行显式融合(Mai等,2022)。哈尔滨工业大学的秦兵教授团队在Wu等人(2021)提出的以文本为主的多模态信息中融合新思路。与只使用文本信息进行情感识别的方法相比,非文本信息从共享语义、独享语义两个方面提高识别能力。一方面,图像、音频等模态的语义与文本提供的语义相同,这些重复的信息可以对原有语义进行增强,这是多模态信息的共享语义;另一方面,非文本模态可以提供与文本语义不同的信息,这些语义信息可以帮助模型更准确地进行情感识别,这是多模态信息的独享语义。基于这两种多模态的语义信息,提出一个以文本为中心的多模态融合框架。厦门大学的纪荣嵘教授团队在Ji等人(2019)提出双层的多模态超图情感识别方法中,显式地对不同模态之间的相关性建模。在模型的第1层学习数据的特征和相关性进行情感识别,在模型的第2层对各模态特征的相关性进行学习。清华大学的徐华教授团队在Yu等人(2020)研究中证明单模态的标签可以为多模态情感识别提供帮助。因此在Yu等人(2021)的研究中,徐华教授团队提出自监督训练单模态情感预测的方法。在训练的过程中,为多模态和每个单一模态分别维护标签中心,基于每个单一模态标签与中心的距离,应与多模态标签与中心距离一致的假设,为每个单一模态提供训练过程中的监督信息。在预测阶段单模态预测结果完成识别任务。
多模态情感识别的应用方面,毛文吉研究员团队提出了针对用户评价情感倾向分析的数据集和模型方法(Xu等,2019)。之前的工作全部使用单一文本模态进行情感倾向分析,这是首次使用多模态信息进行情感倾向分析的工作。厦门大学的纪荣嵘教授团队针对微博数据进行多模态的情感分析(Chen等,2018a)。使用数据中包含的表情符号作为噪声标签,使用概率图形模型提取具有情感区分性的多模态特征并过滤标签中的噪声。南开大学的杨巨峰教授团队提出了针对用户旅途情感倾向分析的数据集和模型方法(Wang等,2021a)。在这篇工作中,将旅途分为值机、等待、途中和延迟4种事件。使用深度模型分别提取文本特征、图像特征,经过先融合后,预测情感倾向和事件类型。
国内比较有代表性的研究团队包括清华大学的徐华教授团队、中国科学院自动化研究所的毛文吉研究员团队、哈尔滨工业大学的秦兵教授团队、厦门大学的纪荣嵘教授团队、中山大学的胡海峰教授团队和南开大学的杨巨峰教授团队等,其中各个团队的侧重点有所不同。如徐华教授团队关注多模态情感识别的分类方法、毛文吉教授团队关注多模态情感倾向分析、秦兵教授团队关注文本为主的多模态情感分析方法、纪荣嵘教授团队关注社交平台的多模态情感识别、胡海峰教授关注多种情感模态的融合方法、杨巨峰教授团队关注包含图文信息的多模态情感识别方法。
在国内,也有众多的学者对孤独症患儿的情感识别和理解进行研究,并提出了一些用于孤独症情感干预的方法和技术手段,他们大都认为孤独症患儿的情感表达和其社交障碍之间存在着关联。香港协康会提出“情感表达和互动”是孤独症干预比较困难的部分,因此将“情感表达”分解为多个次范畴,如面部表情、身体语言和恰当的情绪等,然后通过设计针对性的干预范式对不同的次范畴进行训练。台湾成功大学Tsai等人(2021)通过使用3D虚拟场景提高孤独症儿童正确识别情绪的能力。同时,他们使用第三人称视角角色扮演游戏来教授孤独症患儿社交技能并帮助他们加深理解6种(愤怒、恐惧、惊讶、厌恶、快乐和悲伤)基本情绪。中山大学附属第三医院邹小兵医生(邹小兵,2019)也曾指出矫正不良情绪和行为是突破自闭症社交障碍的重要一环,他呼吁家长对孤独症患儿进行情绪调控。南开大学王崇颖教授(Sullivan和Wang,2020)同样认为社交情绪干预是孤独症干预的核心问题之一。北京大学易莉研究员(Wang等,2018)探讨了孤独症患儿的眼睛回避是否会受到情绪表达的影响。实验结果表明当面对愤怒的面孔时,孤独症患儿比正常儿童对眼睛的注意力更少,而且持续时间长,这项研究不仅扩展了凝视厌恶假设,而且对孤独症的治疗和筛查也有影响。昆山杜克大学李明教授等人(Pan等,2021)设计了“社交性微笑”的筛查范式,他们通过集成语音识别和计算机视觉技术,提出了一个机器学习框架以实现在特定范式下对受试儿童的行为进行分析。华东师范大学陈靓影教授等人(廖梦怡等,2021)探索了融合多模态数据的孤独症患儿智能化识别方法,该方法可以根据数据来源和时间同步性将数据进行分层融合,因此可以提高孤独症患儿的识别准确率。同样适用多源数据融合,哈尔滨工业大学(深圳)刘洪海教授等人(Wang等,2021b;Liu等,2020)通过“五不(不看、不应、不指、不说、不当)”行为、社交情感等设计出了国内首台孤独症早期辅助筛查平台和机器辅助干预系统,实现孤独症早期筛查自动化评估和干预。
对于通过行为对孤独症患儿进行诊疗的方法,社交情绪/情感是其中非常重要的一环,它对提升孤独症患儿的社交能力非常重要。目前,如何捕捉和量化孤独症患儿社交情绪非常困难,国内外尚未出现针对孤独症社交情绪诊疗的机器智能辅助系统。
国内研究者针对情感图像内容分析的研究也涵盖了数据集构建、情感特征提取和分类模型学习等步骤。国内构造的数据集具有代表性的是哈尔滨工业大学姚鸿勋教授团队的IESN(image-emotion-social-net)数据集(Zhao等,2014)和南开大学杨巨峰教授团队的Comics数据集(She等,2019)、Flickr_LDL数据集和Twitter_LDL数据集(Yang等,2017b)。IESN数据集构建的目的是实现个性化的情感预测,包括从一万余位用户上传至Flickr的一百万余幅图像,并且收集了与图像相关的标记、描述、评论和上传者的社会背景等各种元数据。数据集的每幅图像都提供了上传者想表达的情感,以及观看者实际感受到的情感。基于关键字搜索,该模型使用VAD模型和Mikels模型进行标注。Comics(She等,2019)包括从海贼王、蜘蛛侠等70幅漫画中选出的11 821幅图像。10位参与者(平均年龄20.3岁)使用Mikels的8种情绪类别标注。将该数据集进一步分为两个子集:动漫子集包含欧洲、美国的现实风格动漫,漫画子集包含亚洲漫画风格的抽象图像。Flickr_LDL数据集(Yang等,2017b)和Twitter_LDL数据集(Yang等,2017b)是针对情感的模糊性和多义性提出的数据集。Flickr_LDL从VSO数据集抽取出10 700幅图像,11位参与者观看每一幅图像,然后根据Mikels情感进行标注。Twitter_LDL通过多个情感关键词在Twitter数据集上获取数据,8位观看者对10 045幅图像使用Mikels情感进行标注。
国内研究者很早就开始了低层次手工情感特征的设计,华南理工大学王伟凝教授团队研究了线条方向与图像情感之间的关联(Wang等,2004);基于心理学的颜色理论,他们在一个正交的3维情感空间中构造了亮度—冷系—暖系、饱和度—冷系—暖系—对比度以及对比度—锐度表示(Wang等,2006)。在中层特征提取方面,国内研究者也有涉及。例如,清华大学贾珈教授团队设计了一组可解释的、容易理解的特征(Wang等,2013),用于表示图像前景区域与背景区域的对比;哈尔滨工业大学姚鸿勋教授团队提出了基于艺术原理的特征(Zhao等,2014),通过量化平衡、强调、和谐、多样和渐变等艺术原理,改进了图像情感识别的性能。近年来,国内在深度情感特征提取方面也展开了系列工作。例如,中国科学院大学黄庆明教授团队使用卷积神经网络的不同层来提取多层次特征(Zhu等,2017),并且使用双向门控循环单元结构来捕捉不同层之间的依赖关系。南开大学杨巨峰教授团队在深度全局特征和局部特征提取上展开了多个原创性工作:提出了一个由不同层的Gram矩阵元素组成的情感表示方法(Yang等,2018b);提出了使用离线物体检测工具生成候选边界框,结合在去重后区域中提取的特征和全局图像的特征进行情感分类(Yang等,2018c);提出了一个包含分类分支和检测分支的统一结构,在检测分支通过结合所有基于类别的特征表示,生成弱监督的情感图,将全局特征和情感图耦合,得到完整的局部信息(Yang等,2018a);在低层次和高层次分别添加极性注意力和情感注意力,通过跨层次的双线性池融合不同层次的特征,生成最终的情感表示(Yao等,2019)。近年来,西安电子科技大学高新波教授团队在物体与情感关系的挖掘上作出了重要贡献:基于心理学“刺激—机体—反应”框架,提出了选择图像中可能诱发情感的不同刺激,并为这些刺激提取不同的深度特征(Yang等,2021b);提出了基于图卷积网络的场景—物体相关情感推理网络,来挖掘图像里物体与物体以及物体与场景之间的交互(Yang等,2021a)。
在大众化情感分类模型上,西安电子科技大学高新波教授团队提出了层次化的交叉熵损失函数来加大对错误分类样本的惩罚(Yang等,2021a)。国内研究者关于个性化情感预测和情感分布学习的研究走在了国际前列。具备代表性的关于个性化情感预测的两个工作出自清华大学朱文武教授团队和哈尔滨工业大学姚鸿勋教授团队。前者提出了基于用户兴趣和社会影响的个体情感预测模型(Yang等,2013)。用户的兴趣通过个性化词典构造和基本颜色特征聚类得到,社会影响通过计算不同用户对相同微博的情感相似度得到。随后,该团队使用概率图模型扩展了赋予权重的过程(Rui等,2017)。后者考虑了可能影响情感的多种因素(Zhao等,2016,2018a),如:图像的视觉内容、用户的社会背景、情感随时间的变化以及图像的位置信息等。结合这些因素,文章提出了迭代多任务超图学习方法,对用户、目标图像和历史图像集构建超边,通过半监督学习方法同时为多个用户进行个性化情感预测。图像情感分布学习任务上比较具有代表性的国内团队包括:南开大学杨巨峰教授团队、清华大学丁贵广教授团队、哈尔滨工业大学姚鸿勋教授团队和天津大学刘安安教授团队。例如,姚鸿勋教授团队将情感分布学习当做共享稀疏学习问题建模(Zhao等,2015);丁贵广教授团队提出了带权重的多模态共享稀疏学习(Zhao等,2017a)和带权重的多模态条件概率神经网络(Zhao等,2017b),自动学习不同特征的权重;杨巨峰教授团队提出了改进的条件概率神经网络BCPNN(binary conditional probability neural network)和ACPNN(augmented conditional probability neural network)(Yang等,2017a),分别使用二进制编码替换单个整数表示标签和向真实标签添加噪声,使得训练的模型更加鲁棒;杨巨峰教授团队还提出了一个同时计算Kullback-Leibler (KL)损失和softmax损失,并且将单个情感标签转变成概率分布的统一框架(Yang等,2017a);天津大学刘安安教授团队提出将低秩和协方差正则化加入一个框架中进行情感分布学习,确保了回归系数的结构稀疏性(Liu等,2018)。丁贵广教授团队和姚鸿勋教授团队在连续的情感空间中使用混合高斯模型建模连续分布(Zhao等,2017c),用期望最大化算法预测参数值,使用共享稀疏回归(shared sparse regression, SSR)作为学习的模型,并且扩展至多任务SSR来挖掘不同任务之间的相关性,通过使用合适的跨任务共享参数来预测不同测试图像的参数。
国内比较有代表性的研究团队包括哈尔滨工业大学姚鸿勋教授团队、清华大学朱文武教授团队、丁贵广教授团队和贾珈教授团队、南开大学杨巨峰教授团队、中国科学院大学黄庆明教授团队、西安电子科技大学高新波教授团队和李雷达教授团队等。上述团队的研究各有侧重,例如姚鸿勋教授团队侧重在中层情感特征设计和个性化情感预测,丁贵广教授团队主要关注图像情感的离散和连续概率分布学习,杨巨峰教授团队在图像情感的离散分布学习和深度局部特征挖掘等多个方向都有涉及,高新波教授团队近年来主要挖掘图像内不同物体之间的关系及其与情感之间的映射。
近年来,国内对人脸表情识别领域的发展有了很大的进展,包含一些广泛用于算法评估的真实世界人脸表情数据集和相应评估准则。如RAF-DB数据集(Li等,2017;Li和Deng,2019b)包含了从互联网下载的近3万幅高度多样化面部图像。通过手动的众包标注和标签可靠性估计,该数据库为样本提供了精确的7类基本表情标签和12类复合表情标签。RAF-ML(Li和Deng,2019a)是第1个真实世界混合表情数据集,其包含了类别更为丰富的4 908幅多标签表情图像样本。RAF-AU(real-world affective faces action unit)(Yan等,2020)则是在RAF-ML数据集的基础之上对其进行了26类AU标签的手动标注。
算法方面,也有一些具有代表性的算法。下面分别从不确定性学习、关系学习和解耦学习这几个方面对该领域内近年来具有代表性的表情分析算法进行介绍。
3.4.1 不确定性学习
表情标注具有主观性和差异性,因此数据集中的标签噪声难以避免。针对该问题,相关研究提出了样本的不确定性学习算法,通过自动纠正不确定性大的样本标签,提高模型的泛化能力。Wang等人(2020a)通过全连接层学习来计算出每个样本对应的权重,并将该权重作用到softmax指数部分,使得不确定性高的样本对应的重要性权重更低,从而降低噪声样本带来的负面影响。最后通过对不确定性高的样本进行重标注实现噪声清洗。She等人(2021)进一步考虑了标签分布来解决标注模糊的问题。通过依次dropout某一类别的样本,分别学习独立的网络分支,来获取每个样本的潜在标签分布,从而巧妙地分散噪声标签的影响。此外,不确定性的绝对数值很难定义,但相对大小比较好确定。Zhang等人(2021e)使用不确定度作为权重对图像的特征进行加权混合,通过对比进行不确定度的学习,设计了一种特征mixup的机制,利用损失函数“公平”地从混合特征中同时识别出两种表情。在降低损失函数的过程中,通过整个训练中大量pair的对比,自动学习到图像的不确定度值。
3.4.2 关系学习
各种情感类别或者所学情感特征之间存在着关联,利用这种内在关联知识,可以在小样本条件下获得更加稳定的情感识别性能。标签分布学习是一种典型的类别间的关系学习方法。不同情感类别之间存在着潜在的相关关系,对此Wang和Geng(2021)提出了标签分布流形学习算法,通过挖掘标签分布中隐藏的流形结构来同时编码标签之间的全局和局部关系。除了利用类别间的关系,还可以结合图神经网络来建模潜在动作特征之间的关系。例如,Ruan等人(2021)利用图神经网络来计算每幅图像包含的潜在表情成分特征之间的关系。Song等人(2021)则是结合了多种关系学习方法。首先引入了贝叶斯网络来建模面部动作之间的关系,然后将该习得的分布作为图卷积的输入邻接矩阵来进一步建模特征之间关系。此外,随着Transformer技术(Vaswani等,2017)在计算机视觉中取得的进展和优秀成果(Dosovitskiy等,2020;Liu等,2021b),部分工作也将其运用到了表情分析中。Jacob和Stenger(2021)直接提取各个AU的表示特征作为Transformer的输入,利用Transformer的自注意力机制建模了AU之间的关系。Xue等人(2021)则是在视觉变换器(vision transformer,ViT)网络(Dosovitskiy等,2020)中结合了dropout机制,取得了目前最佳的表情识别结果。
3.4.3 解耦学习
在情感识别中,存在着人物(身份、年龄、性别和种族等)、采集噪声(遮挡、低分辨率等)和姿态变化等与情感无关的干扰因素,如何在情感特征中解耦出这些干扰噪声,从而获得能够有效建模情绪的判别性特征,是情感识别的根本问题。Xu等人(2020)利用对抗学习分别获得了表情和各个人脸属性(种族、年龄和性别)的独有特征,通过人为去除人脸属性特征,获得了对各个属性公平的表情识别性能。Niu等人(2020)提出了生理信号与噪声解耦的交叉检验方法,在有效地从信号中分离出噪声信号的同时,可以生产伪信号,起到样本增广的作用。此外,姿态的整体变化会淹没面部的细微动作,而细微动作正是反映情感的有效特征。对此,Li等人(2022)提出了头部姿态变化与面部动作的分解方法,利用分解信号的合并验算以及姿态变化和面部动作分别构造正负变换,构造了一个基于视频的自监督AU学习框架。对于面部遮挡干扰, Wang等人(2020b)提出采用注意力机制让网络降低对遮挡度高面部区域的学习权重。人物身份也是另一项待解耦因素,不同个体表达情感的方式以及其面部身份信息对表情识别有着较大干扰。Zhang等人(2021d)采用偏差计算模块,直接从人脸特征中减去身份属性特征来获取身份不变特征。
3.5.1微表情数据库构建
国内方面,中国科学院心理研究所团队利用先后构建的CASME(the Chinese Academy of Sciences Micro-expression)(Yan等,2013)、CASME Ⅱ(Yan等,2014a)和CAS(ME)2(Qu等,2018)数据集,并与山东大学和复旦大学等的学者联合发布了MMEW(micro-and-macro expression warehouse)数据库(Ben等,2021)。从SMIC(spontaneous micro-expression database)到CASME(the Chinese Academy of Sciences micro-expression dataset)系列再到MMEW数据集,研究者们基本采用了一致的微表情诱发策略,即通过让被试在尽量保持中性表情的前提下观看带有较强情绪性的视频片段并伺机采集诱发的微表情。之前的数据库主要侧重微表情识别方面的验证,近期有一些工作也开始关注微表情检测(spotting)的数据和实验条件。由于CAS(ME)2和SAMM同时提供了包含宏表情和微表情的长序列,因此这两个数据集可以用来开展微表情检测的研究。近期Tran等人(2021)在SMIC数据集中长序列版本SMIC-VIS-E上进行了扩展和标注,提供了SMIC-E-Long 数据集,并对测试协议和性能评价方法进行了探讨。
3.5.2微表情预处理方法
国内,欧拉视频运动放大方法(Eulerian video magnification, EVM)(Wu等2012)在2015年被引入微表情识别任务(Li等,2015,2018)。Lei等人(2020a)进一步尝试了基于学习的视频运动放大方法(Oh等,2018),并取得较好的效果。在时域插值方面,基于图模型的插值方法(Zhou等,2011,2014)得到广泛应用。在基础上,研究者将运动放大和帧插值两个模块进行统一建模,形成了单一预处理模块。该方法不仅提高了运算速度,还进一步提升了识别性能(Peng等,2019;Hong等,2019)。Xia等人(2019a)使用了多种运动放大倍数的预处理方式。此外,基于数据生成的预处理方式也开始受到关注。Xie等人(2020)使用AU强度可控的生成对抗网络(generative adversarial network, GAN)生成。Liong等人(2020)则使用条件生成对抗网络对提取的光流图进行增强。
3.5.3微表情检测
国内关于脸部信息变化的有效刻画,如局部描述子的差分(Li等,2018)、光流的运动向量(He,2021)、光流主方向的模最大差分(Wang等,2017)以及光流的夹角和模信息(Guo等,2021b)等都已经被用来检测微表情。Yan等人(2014b)、Liong等人(2015)、Han等人(2018)以及Li等人(2021a)则尝试了针对峰值帧(apex frame)的检测方法。Li等人(2020a)分析了微表情发生时的局部时域模式,并提出了一种基于S-模式的微表情检测方法。基于动作单元AU的检测是近年来的热点,Zhang等人(2021d)根据不同AU活动的面部范围设计了新的面部关键子区域分割方法,再根据分割后的关键区域,将全脸AU检测这个大型的多标签分类问题转化为多个在各个关键子区域内的小型多标签分类问题。Li等人(2021b)引入attention机制进行AU的检测。
3.5.4微表情识别
早期的微表情识别研究者普遍使用手工设计特征。广泛使用如局部二值模式(local binary patter,LBP)(Li等,2013)、STLBP-IP(spatiotemporal local binary pattern with integral projection)(Huang等,2015)、STCLQP(spatiotemporal completed local quantized patterns)(Huang等,2016)、HSTLBP-IP(hierarchical spatiotemporal local binary pattern with integral projection)(Zong等,2018b)、DiSTLBP-RIP(discriminative spatiotemporal local binary pattern with revisited integral projection)(Huang等,2019)等。Hong等人(2016a)提出了TOP类特征的改进实现,加速了描述子的计算效率。Li等人(2015,2018)对LBP、HIGO(histograms of image gradient orientation)和HOG(histograms of oriented gradients)的时空变种进行对比,发现只体现梯度方向信息而不反映梯度能量信息的HIGO-TOP描述子在微表情分析上相比LBP-TOP和HOG-TOP更为高效。在此基础上构建了第1个完整的微表情检测与识别的系统,并进行了人机对战实验。该工作受到了MIT Technology Review等的专文报道(https://www.technologyreview.com/2015/11/13/10130/machine-vision-algorithm-learns-to-recognize-hidden-facial-expressions/)。除了基于梯度的直方图特征之外,颜色空间特征(Wang等,2015a)、协方差矩阵(Hong等,2016b)和基于光流特征的运动信息(Liu等,2016b,2021a;Xu等,2017)也受到了越来越多的关注。
综合国内外关于多模态情感识别的研究现状,1)从多模态情感识别的数据来看,目前国内缺乏大规模的数据集。多模态视频数据集中,基于汉语的CH-SIMS包含2 281个视频片段(Yu等,2020)。国际上常用的CMU-MOSEI数据集包含23 453个视频片段(Zadeh等,2018c)。随着深度模型的发展,对数据量有了更高的要求。2)国内缺乏包含显性模态信息的数据集。直接表示身体变化的物理信号是进行情感识别的一个重要模态。国际上的DEAP(database for emotion analysis using physiological signals)、MAHNOB-HCI(multimodal analysis of human nonverbal behaviour in real-world settings-human machine interaction)等数据集包含了丰富的身体信号(Koelstra等,2012;Soleymani等,2012)。3)在计算方法的创新上国内已经具有优势,如中国科学院自动化研究所毛文吉研究员团队提出多层交互记忆网络计算多模态情感倾向(Xu等,2019)、中山大学胡海峰教授团队在时间上分布进行多种情感模态的融合(Mai等,2022)、哈尔滨工业大学秦兵教授团队从共享语义、独享语义两方面设计情感模态的融合方法(Wu等,2021a)、厦门大学纪荣嵘教授设计双层超图模型计算情感模态之间的相关性(Ji等,2019)、清华大学徐华教授团队提出自监督单模态情感预测辅助多模态情感识别的方法(Yu等,2021)、南开大学杨巨峰教授团队提出用多模态注意力机制学习新闻内容的情感表征(Guo等,2021)。4)在多模态情感识别的应用上,国内也做出了更多的尝试,如分析手机评价的情感(Xu等,2019)、微博数据的情感(Chen等,2018a)、用户旅途的情感(Wang等,2021a)以及文本和图像构成的新闻情感(Guo等,2021a)。
国际上孤独症相关研究起步较早,因此孤独症患儿的诊断、干预以及生活都有专业的医疗团队提供帮助。然而,国内的孤独症专业诊疗队伍缺乏,相关医疗资源短缺,孤独症患儿的诊疗和教育状况不容乐观。此外,国外具有比较完善的评估量表、诊疗指南和干预手册,因此很方便进行家庭干预或社区干预。国内尚无专业和权威的孤独症诊疗手册,因此无法进行家庭和社区的全面推广。此外,国内缺乏具有资质的孤独症临床医师和专业诊疗机构。对于孤独症情感或情绪方面的研究,国外学者比较注重分析情感与社交能力、情感与内在生理信息以及情感与病理或干预机制之间的关系。国内学者大都关注于如何对孤独症患儿的情感识别和理解能力进行训练,常常忽略干预效果的评估,也缺乏对干预机制和机理的探究。因此,国内相关研究学者应该联合起来,建立符合中国国情的孤独症诊疗手册,并加大对相关领域的投入,培养专业医师队伍,鼓励相关产业的发展。在国内外,目前均缺乏有效的孤独症情感干预系统(设备),因此开发相关诊疗设备意义重大,不仅可以促进国内孤独症相关研究的发展,也可以为家庭和社会创造巨大的经济效益。
综合上述国内和国际关于情感图像内容分析的研究进展,可以发现国内研究者在AICA方向的研究开展相对较晚,但近年来国内在该方向上持续发力,与国际上的差距逐步缩小,甚至在某些具体任务上已经走在国际前沿。1)现有的大规模数据集主要是由国外研究者构造,例如FI、T4SA和LUCFER等。国内在百万级甚至更大规模数据集的构建上需继续发力。2)国内在个性化情感预测和情感分布学习任务上已经走在了国际前列。例如清华大学朱文武教授团队和哈尔滨工业大学姚鸿勋教授团队关于个性化情感的研究极具代表性;南开大学杨巨峰教授团队构建的关于情感分布学习的数据集FlickrLDL和TwitterLDL已经成为规模较大的标准数据集。3)国内在从噪声数据或少量标签数据中进行图像情感识别的工作有些滞后。现实场景中的数据很可能是有噪声的,并且由于标注的昂贵性和情感的复杂主观性,有标注的数据量可能是少量的,因此国内在这种特定情况下的AICA研究还需加强。4)国内基于AICA的具体应用较少。图像情感在很多实际应用中起到重要作用,如广告推荐、自闭症治愈和舆情监测等。Tat-Seng Chua教授团队和Jiebo Luo教授团队在基于情感的广告推荐和基于情感的COVID-19(corona virus disease 2019)舆情监测任务上取得了显著进展,而国内在开发基于AICA的应用上有待改进。
微表情检测与识别的研究是由芬兰Oulu大学Matti Pietikäinen和赵国英团队首倡。之后国内的中国科学院心理研究所、东南大学、复旦大学和山东大学等单位迅速跟进并始终与前者保持密切合作。而在该领域较为活跃的英国曼彻斯特城市大学和马来西亚研究组也均与上述机构保持合作。因此,在微表情分析领域国内外研究者一直紧密合作、相互促进,国内外研究进展基本上是同步进行的。这一点,通过国内外学者共同组织的MEGC(Facial Micro-Expressions Grand Challenge)和FME(Workshop on Facial Micro-Expression)系列挑战赛的发展可以更清楚地看到。该系列挑战赛是来自中国、英国、马来西亚、芬兰和中国台湾的学者联合组织的一项微表情识别与检测挑战赛,从2018年开始,已经举办了4届。在该系列挑战赛和相关的报告(Yap等,2018;See等,2019;Li等,2020b,2021d)上可以了解微表情研究领域中比较前沿的测试方式与方法。
1)从研究方法的角度考虑。多模态情感识别的发展可以加入一些创新的思维。例如,人感受的情感可以由对话场景和年龄、文化等先验信息影响,因此将先验信息建模到模型的学习过程是一个可以尝试的途径。结合显性和隐性情感模态的方法也是一个有意义的思路。显性模态容易被抑制且难以获取,隐性模态难以实时反映情感信息,利用两类模态信息对情感识别的优势进行互补是一个有趣的研究方向。
2)从应用的角度考虑。多模态情感识别的发展可以做一些更贴近现实场景的探索。例如,由于手机、摄像头等边缘设备计算能力的不足,将多模态情感识别的大模型进行部署时会出现计算资源的限制。因此考虑对多模态情感识别模型的量化是一个很有意义的发展趋势。
最近的很多国内外工作开始关注孤独症情感功能与社交能力之间的关系。例如,电子科技大学成都脑科学研究院临床医院(Zhang等,2021b)设计了一系列电脑训练游戏来帮助提高孤独症患儿的面部表情识别能力以及社交能力。作者发现通过相关程序的干预,孤独症患儿的表情识别能力可以得到显著的提升。与控制组的患儿相比,孤独症患儿的社交能力也能够得到相应的提升,但是对于提升的程度以及所持续的时间作者并未分析。此外,美国哈佛大学医学院(Zagury-Orly等,2022)也指出孤独症患者人脸处理能力的缺陷和社交能力紧密相关,但是这种关系会受到年龄、性别和智商的影响。在孤独症研究领域,大多数工作还是主要关注患儿的认知能力或社交行为,如怎么识别表情、如何回应他人的指令和如何表达需求等。虽然这些工作研究如何教会孤独症患儿识别和理解他人的情感,但是较少有工作关注孤独症患儿如何体验和表达自己的情感。可能正是由于孤独症患儿对自己的情感体验和表达不足或异常导致了他们的社交沟通障碍,因此研究孤独症患儿的情感体验和表达机制非常重要。未来的研究趋势应该是探究孤独症患儿的情感体验和表达机制,并分析孤独症情感与社交能力之间的联系。同时,目前缺乏有效的孤独症情感干预系统,这也是未来国内研究者竞相争逐的一个热点。
尽管情感图像内容分析已经取得了显著的进步,但仍然有一些开放的问题和方向,值得心理学、认知科学、多媒体和机器学习等各行各业的人一起努力考虑和研究。1)图像内容和上下文理解。准确分析图像内容可以改进AICA的性能,使用手工特征指导生成可解释的深度特征值得研究。2)观看者上下文和先验知识建模。观看者在看图像时的上下文信息可以影响情感,结合这些背景因素可以改进AICA的性能。3)群体情感聚类。一些兴趣爱好相似、背景相似的用户群体,可能对同一幅图像产生相似的情感反应,群体情感识别在推荐中起到很关键的作用。分析用户自己提供的性别、背景、兴趣和爱好等个人资料,将用户分为不同类型的群体,然后使用概率图模型或图卷积网络来表示不同因素的复杂关系值得尝试。4)观看者与图像交互。除直接分析情感内容外,还可以记录并分析观看者在看图像时的视听和生理反应(例如面部表情、脑电信号),并结合图像内容和观看者的反应进行综合建模可以更好地弥合情感鸿沟。5)高效的AICA学习。高效性问题在AICA领域尚处于开放阶段。基于计算机视觉中已有方法(例如剪枝、神经网络搜索等),结合AICA的特性(例如情感层次),或许有效。如果在边缘设备上训练的模型可以在线增量式地学习,将会更有意义。
面部表情数据集的识别精度在稳步提升,除了提高数据集上的准确率外,真实世界的情感感知还有很多准确率之外的实际挑战。
1)数据采集和标注问题。例如,在诸如自闭症孤独症之类的心理疾病筛查应用场景中,数据采集条件与真实应用场景仍存在较大差距。在进行采集环境的设置时,必须结合心理学知识,才能获得有效的数据和相应标注(Zhang等,2021c;Tang等,2020)。目前该方面的数据采集量仍无法满足大规模神经网络训练的要求。
2)实时表情分析问题。目前的训练数据大都是切分好的片段序列或者单幅图像,而情绪往往可能隐藏在某个瞬间(Ben等,2021)。如何采用高效检测手段来进行实时化的情感识别也是目前待解决的一项问题。从面部行为推断该个人明显情绪的线索通常是稀疏且不规则地分布在感兴趣的时间窗内,收集这种分布的上下文线索对进行实时化情绪判断是至关重要的(Sanchez等,2021)。
3)混合表情识别问题。由于细粒度混合表情的复杂性和模糊性,其表情类别数也远远超过6类基本表情,因此传统方法无法很好地区分混合表情。目前领域仍缺乏精心设计的算法对混合表情进行精准识别。
4)个体情感表达差异问题。由于不同被试个体之间在生理(性别、年龄等)和心理(种族文化等)方面上的差异,在相同诱发条件下,不同个体表达同一情感的面部方式也会存在较大的鸿沟(Xu等,2020;Chen和Joo,2021)。可以考虑采用迁移学习或增量学习的方法来减小这些差异,从而构建出具有更佳泛化能力的表情分析模型(Li和Deng,2020;Kara等,2021)。
5)用户隐私问题。随着各项表情识别应用的普及,用户的视觉隐私也成为了不可避免的问题。人们对于个人信息隐私保护关注的日益增长,视觉摄像头在生活场景中的实施也会受到阻碍(Rahulamathavan和Rajarajan,2017)。因此,目前领域还需要可靠准确的面部表情识别隐私保护方法。这方面的研究仍不足 (Nakashima等,2015;Chen等,2018b;Ullah等,2021)。
智能微表情分析在刑侦测谎、商业谈判以及治疗有效性评估等领域具有十分广阔的应用的前景。在美剧《别对我撒谎》(Lie to me)中,主角Cal Lightman的故事即以Paul Ekman博士的诸多案例和事迹改编而成。尽管经过10年左右的发展,在微表情的检测和识别方面都取得了一些进展,但也应该看到,目前绝大部分微表情分析的工作都是针对在实验室或者受控环境下采集的微表情样本来进行的。如何设计出可以检测、识别与分析自然产生的微表情的有效方法,仍然是一个亟待解决的研究方向。其次,在微表情数据集构建方面,仅仅使用诱发的范式进行采集很难创造大规模的数据集,因此一种潜在的趋势是提出更为科学的方法,充分利用来自社交媒体如bilibili等的大量视频并对其存在的微表情进行标注。再者,动作单元AU与微表情之间是否有AU与宏表情类似的对应关系?对这个问题的探索将有助于进一步理解微表情和人类情感表达之间的关系,并为自动微表情分析提供进一步的依据。此外,如何充分利用相对来讲更为容易获得的宏表情数据提升微表情识别系统的性能,也是一个很有意义的研究方向。最后,微表情分析在应用落地方面,仍然存在诸多障碍,面临不少难题,这些都有待学术界和工业界的同行共同去努力应对。
致 谢本文由中国图象图形学学会情感计算与理解专业委员会组织撰写,专委会更多详情请见链接:http://www.csig.org.cn/detail/3186。