王甦菁 王俨 李婧婷 东子朝 张建行 刘烨
摘 要 长久以来, 微表情的小样本问题始终制约着微表情分析的发展, 而小样本问题归根到底是因为微表情的数据标注十分困难。本研究希望借助面部肌电作为技术手段, 从微表情数据自动标注、半自动标注和无标注三个方面各提出一套解决方案。对于自动标注, 提出基于面部远端肌电的微表情自动标注方案; 对于半自动标注, 提出基于单帧标注的微表情起止帧自动标注; 对于无标注, 提出了基于肌电信号的跨模态自监督学习算法。同时, 本研究还希望借助肌电模态, 对微表情的呈现时间和幅度等机理特征进行拓展研究。
分类号 B841
1 问题提出
正如俗语“知人知面不知心”所说, 要洞察他人的心理状态是十分困难的。随着深度学习技术的发展, 人脸识别技术的性能得到了显着提升, 其准确率已经超过了人类的能力。除了人的身份识别之外, 通过面部的微表情分析他人的心理状态的研究在近些年正在兴起, 并且具有很高的挑战性。微表情可以被广泛地应用于国家安全、公安审讯、心理疾病预诊、学校教育、卫生防疫等领域。
微表情产生机理可以追述到1872年查尔斯·达尔文(Charles Darwin)在他的著作《人与动物的情感表达》(Darwin, 1872)中指出, 一些面部表情是无法抑制的, 即便有极大的主观努力也无法做到完全抑制。后来神经心理学研究发现, 自主和非自主表情受两种不同的神经通路控制。同时, 心理学家Paul Ekman (Ekman & Friesen, 1969)也假设微表情是自主表情与非自主表情之间对抗的产物(Rinn, 1984)。它可能是表达情绪之前的自主抑制过程中的泄漏, 或者是在表情呈现后的截断。因此, 从理论上讲, 微表情(Micro-expression)是一种短暂、微小且局部的面部表情, 通常会在强烈的情绪体验下出现(Yan et al., 2013)。这使得微表情具备出现时间短、运动幅度小和不对称性的三个特征。
当前标注微表情的时间成本和人力成本都非常高, 并且需要编码人员接受面部动作编码系统(Facial Action Coding System, FACS)的专业知识训练。该面部动作的编码系统由Paul Ekman制定, 基于解剖学相关知识对面部运动进行分析, 可用于描述任意面部运动并定位其动作单元, 是当前最为常用的面部编码系统。为了提高人们检测和识别微表情的效率, Paul Ekman还在2002年开发了一个微表情训练工具(Micro-Expression Training Tool, METT) (Ekman, 2004)。然而, 即使是经过专业培训的专家, 其在识别微表情方面的人工准确率也不到50%。因此, 为了在实际场景中充分发挥微表情的潜在应用价值, 当前迫切需要进行智能微表情分析的研究。
对于微表情分析算法来说, 需要大量的、有标注的微表情数据来训练模型。而对微表情数据进行标注, 不仅需要专业知识, 而且耗时耗力, 这导致的小样本问题一直束缚着微表情分析的快速发展。提高微表情数据标注的效率已经成为微表情分析领域中迫切的需求。本研究通过计算机和心理学的交叉研究, 基于面部肌电生理信号和面部表情视觉信号进行跨模态分析, 从自动标注、半自动标注和无标注三个方面, 来提高微表情数据标注的效率。
2 研究现状
2.1 国内外微表情智能化分析研究现状及发展动态分析
近10年来, 除了在大众媒体领域获得关注, 微表情研究也逐渐受到科学领域的重视。如图1所示, 通过计算机科学与心理学的结合, 学者们不断研发智能微表情分析技术, 从而帮助人们更有效地通过微表情来识别其中的隐藏情绪。
然而, 由于微表情样本的人工标注十分费时费力, 目前常用的自发微表情数据库只有7个, 分别是中国科学院心理研究所发布的CASME系列(Li, Dong, et al., 2022; Qu et al., 2018; Yan et al., 2014; Yan et al., 2013, April), 芬兰奥卢大学发布的SMIC (Li et al., 2013, April)以及最新的4DME (Li, Cheng, et al., 2022), 英国曼彻斯特城市大学发布的SAMM (Davison et al., 2018)和山东大学发布的MMEW (Ben et al., 2021), 总样本量超过2600个。然而, 目前大数据驱动的深度学习在许多领域被广泛使用, 但是基于深度学习的微表情分析却受限于微表情小样本问题, 相关算法/应用的性能的提升十分有限。
因此, 本研究針对微表情数据标注问题, 分别从自动标注、半自动标注和无标注三方面来解决这一问题。本节将首先介绍微表情检测与识别的相关方法的研究现状, 然后对微表情标注的困难进行分析, 最后对本研究中应用到的技术理论和方法的国内外研究现状进行综述。
2.1.1 微表情分析的研究现状
微表情分析一般包括微表情检测和微表情识别两部分, 也就是对微表情数据的标注与分析。微表情检测是在长视频中准确定位微小短暂的微表情片段。微表情识别是指根据特定的情绪类别, 对微表情片段进行分类。无论是微表情检测, 还是微表情识别都离不开大量的、有标注的数据。微表情检测方法的研究主要的两个思路是比较视频帧的特征差和机器学习对表情帧分类。
基于特征差的微表情检测方法在早期的研究中占据主流, 该方法通常通过滑动窗口划分长视频, 然后在整个视频中设定合适的阈值, 从而检测出较为明显的面部运动。当前常用的特征包括:芬兰奥卢大学赵国英团队提出的时空局部二值模式(LBP?TOP) (Moilanen et al., 2014, August)、马来西亚多媒体大学的梁诗婷团队提出的使用光流以及光应变的特征(Liong et al., 2016, November)、笔者使用的主方向最大光流特征(MDMO) (Wang et al., 2017)、英国曼彻斯特城市大学Moi Hoon Yap团队使用的3D?HOG (Davison et al., 2018, May)等。基于特征差的微表情检测方法可以在微表情持续时间的时间窗口内对帧特征进行比较, 但特征差异方法并不具备区分微表情和其他头部动作的能力。这就导致在较为复杂的长视频中, 基于特征差的检测方法会检测到许多宏表情或头动等高于阈值的面部动作, 最终误检率较高。
为了提升检测方法区分微表情与其他面部动作的能力, 基于机器学习/深度学习的微表情检测方法逐渐得到了研究人员的关注。刚刚兴起的深度学习的微表情检测方法目前只有20余篇相关论文发表。例如本文作者在2021年提出的长视频中多尺度检测微表情片段的神经网络(MESNet) (Wang et al., 2021)、电子科技大学李永杰团队提出的双流卷积神经网络(Yu et al., 2021, October)、北京科技大学谢伦团队提出的时空卷积注意力神经网络(Pan et al., 2021, October)、中国电子科技集团电子科学研究院谢海永团队构建的基于光流的LSTM网络(Ding et al., 2019, September)以及KDDI综合研究所杨博等人提出的基于面部动作单元(Action Unit, AU)的微表情检测神经网络(Yang et al., 2021, October)等。但当前基于机器学习/深度学习的微表情检测方法仍面临着小样本的限制, 导致近年来该方法的性能提升并不显著, 而难以运用到实际场景中。
同时, 结合深度学习的微表情识别技术已经成为了主要趋势, 并且识别率在不断提升, 开始有研究团队通过引入迁移学习的方法来增强神经网络提取微表情下特征的性能, 这在一定程度上解决了微表情小样本问题对深度学习微表情识别的限制。例如, 本文作者通过迁移长期卷积神经网络来解决微表情的小样本问题(Wang et al., 2018)、中国科学技术大学陈恩红团队将宏表情训练得来的网络用于微表情的识别任务, 也提升了神经网络的识别性能(Xia et al., 2020, October)。北京师范大学孙波等人提出的从AU中提炼和转移多只是用于微表情识别的知识迁移技术(Sun et al., 2020; Xia et al., 2020, October)。然而, 引入迁移学习的方法也只能对微表情的识别性能做到一定程度的提升, 并不能从根本上解决微表情小样本问题的限制。若要将微表情检测与识别的性能进一步突破, 还是需要大量的微表情样本以供训练, 足见该研究方向对解决微表情数据标注难题的迫切期望。
2.1.2当前微表情数据标注面临的困难
对于微表情数据标注是非常费力费时的。由于微表情是一种短暂的、微小的、局部的面部运动, 微表情的标注者需要通过慢放或者回放等操作对视频逐帧观察并进行标注。特别是标注起始帧和终止帧时, 需要反复观看相应时间段, 同时反复对比帧与帧之间的细微变化。因为相较于宏表情来说, 微表情并不明显, 很难通过肉眼检测到。微表情的标注者需要经过专业培训。前人的研究(Torre et al., 2011, October)中也表示对于表情样本的起始帧和终止帧的標注用时, 会占总体用时的一半, 可见微表情数据标注的困难。针对这个难题, 在本研究拟采用:
(1)使用面部肌电信号, 对微表情数据进行自动标注;
(2)借鉴时序动作定位的思想, 对微表情数据和的起始帧和终止帧进行定位, 从而实现对微表情数据进行半自动标注;
(3)把自监督学习引入微表情分析, 实现微表情分析中对无标注的微表情数据的应用。
下面几节, 本文分别介绍面部肌电的研究现状, 时序动作定位的研究现状和自监督学习的研究现状。
2.1.3面部肌电的研究现状
面部肌电的一种常见用途是研究由面部表情体现的情绪反应。一般来说, 评估面部表情的方法可以分为两类, 一类是人为主观评估, 包括表情分类、表情维度评分和基于FACS系统的肌肉运动单元编码; 另一类是客观评估, 包括基于肌电测量的表情评估方法(Hess, 2009)。Mehrabian和Russell提出的情绪维度模型PAD对情绪从愉悦度(Pleasure)、激活度(Arousal)和优势度(Dominance)的三个维度描述, 并编制了PAD量表以测量情绪状态。李晓明等人对该量表进行了汉化, 编制了中文版PAD量表(李晓明 等, 2008)。其中愉悦度(Pleasure)也叫效价(valence), 可以通过对不同部位的面部肌电信号进行度量, 并以此确定面部肌电数据与情绪效价、激活度以及优势度之间的联系(H?fling et al., 2020)。早在2014年, Gruebler等人设计了一款可穿戴的面部肌电采集设备来通过面部肌电信号判断正性表情(Gruebler & Suzuki, 2014)。最近, 日本京都大学的Sato等人也设计可穿戴面部肌电采集设备来测量情绪的效价(Sato et al., 2021)。与传统的使用8组电极的面部肌电测量相比, Schultz等人只用4组电极(前额皱眉肌、额肌、颧骨大肌和咬肌), 而表情的识别率只减少了不到5% (Schultz & Pruzinec, 2010)。虽然识别率有所降低, 但是减少一半的电极数量, 可以让更多的表情展示出来, 这使得使用面部肌电对微表情数据进行自动标注成为可能。进而Hamedi等人(2013)通过3组电极, 分别放在额肌和颞肌上, 使用通用椭圆基函数神经网络来区分10种面部动作, 准确率达87%。这些面部动作包括对称或不对称的微笑, 扬起眉毛, 皱起眉头等。Monica等人(Perusquía-Hernández et al., 2021, December)在电极完全不遮挡面部的情况下, 利用远端(distal)肌电信号实现对微笑的检测。
2.1.4时序动作定位的研究现状
时间动作定位(Temporal action localization, TAL)需要在视频中检测包含目标动作的时间区间。对于一个未经修剪的长视频, 时间动作定位主要解决两个任务, 即识别和定位。它提供了计算机视觉应用所需的最基本信息, 即是什么动作, 且动作何时发生。时间动作定位与我们的生活息息相关, 在很多领域具有广泛的应用前景和社会价值, 例如视频摘要(Lee et al., 2012, June)、公共视频监控(Vishwakarma & Agrawal, 2013)和技能评估(Gao et al., 2014, September)等。
2014年之前, 时间动作定位的方法主要基于传统的手工特征提取。之后, 随着深度学习的发展, 时间动作定位的相关研究有了显著的进展。目前主流的两种方法主要是分别基于全监督学习和弱监督学习。基于全监督学习的TAL主要是基于视频级别和帧级别的标注, 对模型进行训练(Chao et al., 2018, June; Long et al., 2019, June)。与此同时, 由于在实际生活中, 帧级别的标注十分困难而且容易受到标注者的主观影响, 基于弱监督学习的TAL方法逐渐受到研究者们的欢迎(Lee et al., 2020, April; Liu et al., 2019, June)
2.1.5自监督学习的研究现状
LeCun、Bengio和Hinton于2015年联合在“Nature”杂志发表的关于深度学习的综述文章(LeCun et al., 2015)中指出, 实现像人类视觉系统那样的无监督深度学习是未来的一个重要方向。其中, 自监督学习作为无监督学习的一种(Jing & Tian, 2020), 已经成为一个热门的研究方向。自监督学习利用大量无监督数据, 通过设计辅助任务来获取监督信号, 并用它来训练网络, 使网络能够学习到有利于下游任务的特征信息。自监督算法相比手工构建特征和标注数据, 能够节省时间和人力, 提高深度学习网络的效率和实用性。自监督学习已经在许多任务中实现了利用无监督数据构造自身监督信息, 并取得了可以和监督学习媲美的性能表现(Doersch et al., 2015; Fernando et al., 2017, July; Larsson et al., 2017, July; Li et al., 2019; Pathak et al., 2016, June)。
2.2本文贡献
随着近年来深度学习技术的发展, 很多理论研究已经开始落地应用, 例如人脸识别已经从消费级别应用扩展到安全级别的应用, 而这些应用的背后有着大量的标注数据作为支持。对于人脸识别的标注, 其技术含量低, 标注时间快, 标注人员不需要过多的专业知识培训。而对于微表情数据标注, 标注人员需要具有FACS编码的专业知识, 同时在标注时, 标注人员需要逐帧进行观察, 耗时耗力。为了解决微表情数据标注困难这个问题, 本研究尝试使用自动标注、半自动标注及无标注的方法。
在理论方面, 本研究通过面部肌电信号对微表情的表达机理进行进一步的研究, 对微表情的三个特征进行更加客观的量化, 还为之后使用肌电和脑电之间的相关性来进一步研究微表情的脑机制提供支持, 并有望将结果应用在表情识别、行为识别等领域。同时, 在实践方面, 针对微表情数据标注困难的问题, 本研究从微表情数据自动标注、半自动标注和无标注三个方面各提出一套解决方案, 从一定程度上缓解微表情数据标注困难。
3 研究构想
3.1 基础理论和模型的研究构想
针对微表情动作幅度不明显导致的数据标注困难这一问题, 本研究从生理心理学方法和模式识别相结合, 开展基于面部表情图像和面部肌电跨模态分析的微表情数据标注问题研究。具体研究路线如图2所示, 首先对心理学实验中的面部肌电信号进行微表情机理研究, 为计算机自动识别算法提供理论基础; 其次, 在自动识别算法中分别从自动标注、半自动标注和无标注三个方面进行深入的研究; 最后推广应用以缓解微表情数据标注的困难。
3.1.1 研究基于面部肌电信号的微表情机理
本文通过生理心理学方法, 将面部肌电生理
信号和行为认知心理实验相结合, 来研究微表情机理。具体的, 研究记录了面部肌肉或肌肉群组收缩时的信号频率和振幅, 并用相关指标来对微表情的三个特征(呈现时间短、运动幅度小和不对称性)进行更精确的量化, 为后续研究提供理论基础。
在采集设备方面, 肌电采集设备在面部放置时, 电极会对面部造成一定程度的遮挡, 进而影响传统的FACS编码。为解决这一问题, 本研究在研制多通道、可穿戴的面部肌电采集设备同时, 还提出了一个远端面部肌电电极的部署方案。在不遮挡面部表情表达和对面部表情采集的情况下, 把肌电电极部署在脸部周围, 使其可以重构出其邻近区域特定的肌肉收缩情况, 从而实现对微表情数据的自动标注。同时本研究设计诱发面部肌肉运动的心理学范式, 并以微表情的肌电信号机理为基础, 设计基于远端面部肌电的微表情数据自动标注的算法。
3.1.2 研究基于单帧标注的微表情起止帧自动标注
本文研究微表情的时间动作定位, 为基于单帧标注的微表情起止帧自动标注算法找出可以借鉴的知識。本文从研究微表情视频片段内部帧与帧之间的距离度量, 使用具有单调性的度量去构造损失函数, 搭建微表情起止帧自动标注的深度学习网络。
微表情的动作强度在从起始帧到高峰帧的区间上是单调增加的, 而从高峰帧到终止帧的区间上是单调下降的。构造出符合这种规律的帧之间的距离度量, 即可实现基于单帧标注的微表情起止帧自动标注。
3.1.3研究基于肌电信号的跨模态自监督学习算法
本文研究了面部肌电与面部表情的对应关系, 为无标注的人脸视频提供时域监督信息; 设计一个基于Transformer的跨模态对比学习无监督模型, 利用肌电信号增强网络学习针对微表情动作变化模式的特征。具体而言, 利用面部肌电信号和面部表情的对应关系, 通过Transfomer网络有效学习面部动作的时空特征; 并在样本有限的情况下, 通过对比学习, 利用大量的宏表情、其余头部动作以及中性人脸等样本作为负样本对, 增强模型对微表情的辨别能力。
3.2关键技术的研究构想
3.2.1基于面部肌电信号的微表情机理的研究
面部肌电的一种常见用途就是研究与面部肌肉动作相关的情绪反应。与人为的主观评估方法相比, 面部肌电是对面部肌肉活动的测量, 是更加客观的评估面部表情的方法。在本研究通过面部肌电对微表情的三个特征(呈现时间短、运动幅度小和不对称性)进行进一步的量化考察, 为后续研究提供理论指导, 研究框图如图3所示。
本文设计了一个心理学实验, 以有效诱发微表情, 记录肌电信号并以此研究微表情的机理。在刺激材料方面, 该实验使用高情绪效价的视频片段作为诱发表情的刺激材料, 包括7种情绪(高兴、厌恶、悲伤、恐惧、生气、惊讶和中性)。每种情绪2~3个视频, 每个视频长度为1~3分钟。这些视频均为CASME数据库系列中所使用的诱发材料。为了尽量减少电极对微表情的影响, 本研究还针对不同的刺激材料, 制定不同的电极放置方案。该方案根据CAS (ME)3数据库中已诱发和编码后标注出的AU统计结果来制定。比如:经过统计, 某个刺激材料诱发最多的是颧肌运动引起的AU12。那么, 在使用此刺激材料诱发微表情时, 我们只在被试的颧肌上放置电极。
实验过程中, 被试被要求观看刺激材料, 刺激材料由实验者按预定顺序呈现, 呈现顺序在实验被试间进行平衡。通过摄像机记录下被试在观看刺激材料时所产生的面部动作, 同时记录面部肌电。被试在实验过程中被要求尽可能保持中性表情, 眼睛不要离开屏幕, 头尽量保持不动。被试还被告知, 他们的薪酬与表现直接相关。这些操作被用来增强被试隐藏真实面部表情的动机, 并减少无关的动作。被试坐在一个显示器前, 一台摄像机被放置在显示器后面, 记录被试正面的全脸。主试根据刺激材料所诱发的情绪对应AU选择肌电电极的贴片位置。每段视频结束1 s后, 被试需要对视频刺激所诱发的情绪进行二分评价, 如果感觉这一段视频是整体积极、正性就按下键盘中F键, 如果感觉视频整体消极、负性就按下键盘中J键。基于内心感受进行的自我报告, 是情绪编码的重要参考资料。被试对每个视频都做完二分评价后, 显示器会有500 ms空屏, 然后进入下一段视频。在整个实验过程中的任意时间, 要求被試密切注视屏幕并保持中立的表情, 一旦察觉到自己出现表情, 立刻按键记录。实验流程如图4所示。
该实验中, 面部电极的放置会造成部分面部会被一定程度遮挡的情况, 这种情况下如何进行传统的FACS编码, 进而确定是否有微表情的出现, 即如何对部分遮挡的面部进行微表情编码, 这一直是微表情研究中要考虑的技术问题。为解决这个问题, 在本研究中, 我们对不同情绪刺激制定了不同的电极方案, 将电极对微表情编码的影响尽可能降低。本研究引入肌电模态对微表情进行分析, 确定微表情和肌电信号的对应关系, 即研究面部表情表达肌肉的基线, 确定肌电信号的振幅、频率等指标, 与微表情的呈现时间、运动幅度等的对应关系。
3.2.2基于面部远端肌电的微表情自动标注的研究
微表情数据标注的困难一直限制着微表情分析的发展。对于这种情况, 本文提出了基于面部肌电的微表情自动标注的研究。拟在不遮挡面部微表情采集的情况下, 把采集肌电的电极分布在面部周围, 采集远端肌电信号来实现对微表情的自动标注, 研究框图如图5所示。
(1)采集设备的硬件设计与评测方案
针对面部区域的神经、肌肉较多的情况, 我们自行设计了一款可以获取更多面部肌肉的肌电信号的多通道肌电采集设备, 并将其用于采集面部周围肌肉的串扰信号。本研究使用德州仪器生产的ADS1299作为肌电信号采集设备的信号采集芯片, STM32F429IGT6芯片作为控制器单元, ESP32芯片作为无线传输模块。其中, ADS1299芯片具有8通道低噪声、高分辨率同步采样的ADC模数转换器、内置可编程增益放大器、输入复用器、内部基准电压、时钟振荡器、偏置放大电路、内部测试源以及导联脱落检测电路, 内部器件噪声低于1 ?V, 具备肌电采集所需的全部常用功能。STM32F429核心板包含了更高性能的Cortex M4内核, 其操作频率最高达到180 Mhz, 同时拥有256 kB的片内SRAM、6个串行外设接口(Serial Peripheral Interface, SPI)、两个DMA控制器(共16个通道)等。此外, 板载32MB的SDRAM且又体积小巧, 仅65 mm × 45 mm, 方便应用到各种项目里面, 满足我们的数据缓存空间和数据快速转换的需要。ESP32C3?MINI1芯片作为无线传输设备, 根据手册指示重新对其进行固件烧录, 将wifi通信接口由串口更改为SPI接口, 可以达到更高的数据传输速度。在实际应用中, 该无线传输器的最大稳定数据传输速度可以达到3 M/s。此外该模块具有尺寸小、功耗低等优点, 满足无线数据传输的需求。为了避免市电对采集信号的干扰, 采集装置配有电源管理模块, 并采用锂电池供电。本设备需要32通道, 所以本研究采用4块ADS1299芯片进行菊花链串联成32通道。
对于自行设计的设备, 需要验证其性能指标。本研究将自行设计的设备与Biopac生理多导仪的肌电模块进行比较。用两套设备分别采集额肌、皱眉肌、眼轮匝肌、鼻唇提肌、颧大肌、口轮匝肌、降口角肌和颏肌的肌电信号, 即最大肌肉收缩力量(maximal voluntary contraction, MVC)。为了度量两个设备记录的MVC相似性, 本研究分别使用Spearman相关性(Spearmans correlation)、能量比(Energy ratio)、线性相关系数(Linear correlation coefficient)和互相关系统数(Cross- correlation coefficient)。
在数据采集过程中, 通过数码管的亮灭来同步肌电和视频数据采集的开始时间。由于肌肉间的信号传播, 一个通道可能会包含多块肌肉源的串扰信号, 所以我们使用盲源分离算法进行肌肉运动源成分的分离。为了得到更好的信号波形并且去除噪声干扰, 进行20~450 Hz的带通滤波、去除直流电、全波整流等操作, 最后得到信号的线性包络。此外, 我们设计了一个算法提取包络信号发生波动的开始和结束时刻, 然后根据数码管由暗变亮的时间, 就可以精准地定位视频中微表情发生的开始时间和结束时间。最后, 我们整合这个过程, 设计一款自动化标注交互软件, 可以极大地节约了微表情的标注时间, 减少标注人员的工作量, 且在一定程度上解决了微表情数据库的小样本问题。
(2)基于情绪诱发的数据采集方案
微表情自动标注模型的建立需要大量面部肌肉运动时的肌电样本, 所以在确定好采集设备与采集肌肉位置后, 我们需要采集这些部位运动状态下的肌电信号, 而面部肌肉运动有两种诱发方式。第一种是通过指导语让被试做面部指定肌肉的收缩, 这种方式容易引起指定肌肉周围的肌肉的运动, 而使得用于建模的肌电信号生态效度不高。另一种方式是通过诱发特定的情绪, 使得被试面部出现自发的表情, 从而获得和特定情绪相关的面部肌电信号, 其具有较高的生态效度。所以在本研究中使用心理学实验手段诱发出自发产生的表情。为采集到可供建立模型的肌电数据, 我们用到了前文提到的情绪诱发的方式设计的心理学实验。即使用高情绪效价的视频片段作为诱发表情的刺激材料, 每段视频结束后, 被试填写量表, 对内心感受进行自我报告, 这被用作情绪编码时的重要参考资料。由于本研究提前操纵控制了诱发材料本身的情绪类型, 因此所产生的面部动作较为纯粹且易于区分。
3.2.3基于单帧标注的微表情起止帧自动标注的研究
不同于单张表情图片, 微表情的数据是以视频片段的形式出现的。这就意味着微表情的标注, 还需要在时间维度上标注微表情视频片断的起始帧和终止帧。本研究要研究问题是, 假设微表情视频片断有一帧已经被标为一种微表情, 那么如何去自动的推断该微表情片断的起始帧和终止帧, 如图6所示。
对于这个问题, 本文提出一个基本解决思路和对应的算法设计, 即在一个包含微表情片段和背景帧的长视频中, 对每个视频帧进行分类, 确
定其是否为微表情帧、背景帧或未标记帧。在初始阶段, 每个微表情片段中只有一个帧的标签被标记为1, 其余帧的标签记为0, 并随机选择一些不属于任何微表情片段的帧标记为?1, 即背景帧。然后, 使用深度学习网络对已标记帧进行训练, 计算未标记帧的微表情得分和背景得分, 并根据微表情动作变化的局部时空模式推断出其所属类别。最后, 重复这个过程直到所有帧都被标记为微表情帧或背景帧, 输出每个视频帧的标签。
算法中用到的深度学习模型:CS?Net网络结构如图7所示, 其包括三个模块:特征抽取模块、分类模块和得分模块。特征模块使用AlexNet网络或ResNet网络把帧抽取为特征向量, 其中AlexNet与ResNet网络是基于深度学习的图像分类任务常用的骨架模型。分类模块把特征按微表情的类别进行分类。得分模块则计算其属于微表情的得分和属于背景的得分。
在算法結果的推断中, 本研究不仅考虑CS?Net网络的输出结果, 另外还使用能够体现微表情特征的局部时空模式(S?Pattern)来进一步的加以约束。S?Pattern体现了微表情在面部局部区域的变化特征, 即从起始帧到峰值帧的区间内, 微表情的动作模式呈现一个递增的趋势, 而在峰值帧到终止帧这个区间, 由于受到头部动作或者表情不一定恢复原位等因素的影响, 动作模式可能呈现下降趋势或者趋于平缓。具体来讲, 通过主成分分析的方法, 在时间维度上对人脸兴趣区域视频进行特征分析。在保留前两列的视频主成分之后, 根据微表情的时间特征设定滑动窗口, 计算窗口内每一帧的欧式空间距离, 从而得到可以体现微表情动作变化模式的特征, 即S?Pattern。
图8显示了一个微表情片断的S?Pattern, 其曲线相对于时间(帧)具有单调性。这种单调性可以对CS?Net网络的输出结果加以进一步的约束。相关的方案在SAMM微表情数据库上预实验结果如图9所示。
3.2.4基于肌电信号的跨模态自监督学习算法
由于已标注的微表情样本有限, 本研究提出在大量的无标注人脸及表情视频中进行自监督学习。具体而言, 利用体现微表情的动作信息的肌电信号, 构建肌电的跨模态自监督学习模型, 通过Transformer和对比学习的结合, 学习针对微表情的动态变化信息, 从而实现微表情检测, 网络框架如图10所示。其中, Transformer是一种基于注意力机制的深度学习序列模型, 可以较好地解决序列传导问题。
首先, 通过采集到的肌电信号与基准肌电信号的差异来去除静态状态下的肌电噪声, 然后对差分信号进行滤波平滑和归一化处理, 得到振幅随时间变化的曲线。这个曲线即为面部动作变化肌电信号的包络信号。该信号在简化原始肌电信号波形变化的基础上, 可以很好地体现面部动作变化。
其次, 通过计算包络信号每个时刻的斜率和波幅变化来确定区域信号变化时长。由此, 将时间维度上连续的波形变化分割为符合微表情时域变化特征的片段和其他類型片段。同时, 根据包络信号的时刻划分波形, 得到对应不同面部动作的视频片段。这些符合微表情特征的肌电包络信号和对应视频片段被用于构建对比学习中的正样本对, 其余阶段的视频和肌电信号被用于构建负样本对。
随后, 通过跨模态的Transformer编码器, 以表情图像特征和肌电信号特征作为Token Embedding (代表微表情的特征), 以上特征对应的时刻作为Positional Embedding (代表序列的顺序性)。传统的卷积神经网络或者循环神经网络在提取时空特征的过程中, 往往关注的是相邻区域或者相邻时刻的特征。而Transformer通过自注意力机制, 关注不同位置的特征, 从而学习对应不同肌电包络信号波形的面部动作模式。
在得到Transformer编码器输出的两种模态的特征后, 根据正负样本对两两组合, 本研究将跨模态的特征输入到对比学习的模型中, 对4种模态组合方式的对比学习。通常情况下, 在涉及人脸分析的深度学习模型中, 模型往往会优先学习到人脸的个体信息, 而忽略面部细小的动态变化。因此, 微表情的类内差异是在算法优化中需要处理的一个问题。通过对比学习, 模型可以很好地缩小类内差异, 增大类间差异, 使得模型具备区分微表情动作特征和其他类型动作特征的能力。同时, 肌电信号的引入可以增强对比学习模型对面部时域微弱动态变化的捕捉。
这种结合肌电信号的自监督学习模型, 一方面可以增强模型对视觉特征的理解能力, 另一方面可以通过跨模态的学习使得模型学习到更加泛化的特征, 增强系统的鲁棒性。
4 理论构建与创新
自从1966年心理学家Haggard和Isaacs发现微表情以来, 其心理学研究方法一般是通过FACS编码对微表情进行研究。随着机器学习等技术的发展, 近十几年来也开始有计算机专家对智能化微表情分析进行初步探索。10年前两个微表情数据库的公开发表, 极大地推动了微表情自动分析的发展。虽然近10年来公开发布的微表情数据库已有7个, 超过2600个样本。随着GAN的技术的推广, 也有学者通过生成微表情样本来缓解微表情小样本的问题。但目前为止的微表情样本量还相对较少, 阻碍了微表情自动分析进一步的发展。这主要因为微表情数据标注十分耗时耗力。针对这个问题, 本研究开展多学科交叉研究, 主要创新点包括:
对心理学研究方法做出了变革性的创新。基于面部表情系统编码的人为主观评估方法已经被广泛用于微表情研究中, 其中多数是使用FACS系统对面部表情进行编码研究, 而本研究使用面部肌电信号去研究微表情, 使得对微表情研究更加精确, 更加客观量化, 打破了微表情标注方法完全依赖于人工编码的制约, 极大地提高了建构微表情数据库的效率和可靠性。
在计算机科学方面, 本研究创新性地提出“基于面部肌电的微表情自动标注的研究”和“基于单帧标注的微表情起止帧自动标注的研究”, 凭借客观的面部肌电信号, 优化设计了“基于肌电信号的跨模态自监督学习算法”。从样本标注层面上提出新问题, 探索新方法, 来解决微表情小样本的问题。
参考文献
李晓明, 傅小兰, 邓国峰. (2008). 中文简化版PAD情绪量表在京大学生中的初步试用. 中国心理卫生杂志, 22(5), 327?329.
Ben, X., Ren, Y., Zhang, J., Wang, S.-J., Kpalma, K., Meng, W., & Liu, Y.-J. (2021). Video-based facial micro- expression analysis: A survey of datasets, features and algorithms. In IEEE Transactions on Pattern Analysis and Machine Intelligence (Vol. 44, pp. 5826?5846). Singapore.
Chao, Y.-W., Vijayanarasimhan, S., Seybold, B., Ross, D. A., Deng, J., & Sukthankar, R. (2018, June). Rethinking the faster r-cnn architecture for temporal action localization. Paper presented at the meeting of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1130? 1139). Salt Lake City, UTAH.
Darwin, C. (1872). The expression of the emotions in man and animals. London, UK: John Marry.
Davison, A., Merghani, W., Lansley, C., Ng, C.-C., & Yap, M. H. (2018, May). Objective micro-facial movement detection using facs-based regions and baseline evaluation. In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018) (pp. 642?649). China.
Davison, A. K., Lansley, C., Costen, N., Tan, K., & Yap, M. H. (2018). SAMM: A spontaneous micro-facial movement dataset. IEEE Transactions on Affective Computing, 9(1), 116?129.
Ding, J., Tian, Z., Lyu, X., Wang, Q., Zou, B., & Xie, H. (2019, September). Real-time micro-expression detection in unlabeled long videos using optical flow and lstm neural network. In International Conference on Computer Analysis of Images and Patterns (pp. 622?634). Springer, Cham.
Doersch, C., Gupta, A., & Efros, A. A. (2015). Unsupervised visual representation learning by context prediction. In Proceedings of the IEEE international conference on computer vision (pp. 1422?1430). Chile.
Ekman, P. (2004). Emotions revealed. British Medical Journal, 328(Suppl. 5), 0405184.
Ekman, P., & Friesen, W. V. (1969). Nonverbal leakage and clues to deception. Psychiatry, 32(1), 88?106.
Fernando, B., Bilen, H., Gavves, E., & Gould, S. (2017, July). Self-supervised video representation learning with odd-one-out networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3636?3645). Hawaii, Hawaii Convention Center.
Gao, Y., Vedula, S. S., Reiley, C. E., Ahmidi, N., Varadarajan, B., Lin, H. C., ... Hager, G. (2014, September). Jhu-isi gesture and skill assessment working set (jigsaws): A surgical activity dataset for human motion modeling. Paper presented at the meeting of MICCAI workshop: M2cai (Vol. 3). New York, NY.
Gruebler, A., & Suzuki, K. (2014). Design of a wearable device for reading positive expressions from facial emg signals. IEEE Transactions on Affective Computing, 5(3), 227?237.
Hamedi, M., Salleh, S.-H., Astaraki, M., & Noor, A. M. (2013). EMG-based facial gesture recognition through versatile elliptic basis function neural network. Biomedical Engineering Online, 12, 73.
Hess, U. (2009). Facial EMG. Methods in social neuroscience (pp.70?91). NY: The Guilford Press.
H?fling, T. T. A., Gerdes, A. B., F?hl, U., & Alpers, G. W. (2020). Read my face: Automatic facial coding versus psychophysiological indicators of emotional valence and arousal. Frontiers in Psychology, 11, 1388.
Jing, L., & Tian, Y. (2020). Self-supervised visual feature learning with deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11), 4037?4058.
Larsson, G., Maire, M., & Shakhnarovich, G. (2017, July). Colorization as a proxy task for visual understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6874?6883). Hawaii, Hawaii Convention Center.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436?444.
Lee, P., Uh, Y., & Byun, H. (2020, April). Background suppression network for weakly-supervised temporal action localization. In Proceedings of the AAAI conference on artificial intelligence (Vol. 34, pp. 11320?11327). Vancouver, Canada.
Lee, Y. J., Ghosh, J., & Grauman, K. (2012, June). Discovering important people and objects for egocentric video summarization. In 2012 IEEE conference on computer vision and pattern recognition (pp. 1346?1353). Providence, USA.
Li, J., Dong, Z., Lu, S., Wang, S.-J., Yan, W.-J., Ma, Y., Liu, Y., Huang, C., & Fu, X. (2022). CAS (ME) 3: A third generation facial spontaneous micro-expression database with depth information and high ecological validity. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(3), 2782?2800.
Li, X., Cheng, S., Li, Y., Behzad, M., Shen, J., Zafeiriou, S., Pantic, M., & Zhao, G. (2022). 4DME: A spontaneous 4D micro-expression dataset with multimodalities. IEEE Transactions on Affective Computing Early Access, 1?18. https://doi.org/10.1109/TAFFC.2022.3182342
Li, X., Liu, S., de Mello, S., Wang, X., Kautz, J., & Yang, M.-H. (2019). Joint-task self-supervised learning for temporal correspondence. Advances in Neural Information Processing Systems, 32.
Li, X., Pfister, T., Huang, X., Zhao, G., & Pietik?inen, M. (2013, April). A spontaneous micro-expression database: Inducement, collection and baseline. In 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China. https:// doi.org/10.1109/fg.2013.6553717
Liong, S.-T., See, J., Wong, K., & Phan, R. C.-W. (2016, November). Automatic micro-expression recognition from long video using a single spotted apex. In Computer Vision?ACCV 2016 Workshops: ACCV 2016 International Workshops (pp. 345?360). Taipei, Taiwan.
Liu, D., Jiang, T., & Wang, Y. (2019, June). Completeness modeling and context separation for weakly supervised temporal action localization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1298?1307). Long Beach, USA.
Long, F., Yao, T., Qiu, Z., Tian, X., Luo, J., & Mei, T. (2019, June). Gaussian temporal awareness networks for action localization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 344?353). Long Beach, USA.
Moilanen, A., Zhao, G., & Pietik?inen, M. (2014, August). Spotting rapid facial movements from videos using appearance-based feature difference analysis. In Proceedings-International Conference on Pattern Recognition (pp. 1722?1727). Stockholm, Sweden. https://doi.org/ 10.1109/ICPR.2014.303
Pan, H., Xie, L., & Wang, Z. (2021, October). Spatio- temporal convolutional attention network for spotting macro-and micro-expression intervals. In Proceedings of the 1st Workshop on Facial Micro-Expression: Advanced Techniques for Facial Expressions Generation and Spotting (pp. 25?30). New York, NY.
Pathak, D., Kr?henbühl, P., Donahue, J., Darrell, T., & Efros, A. A. (2016, June). Context encoders: Feature learning by inpainting. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2536? 2544). Las Vegas, Nevada.
Perusquía-Hernández, M., Dollack, F., Tan, C. K., Namba, S., Ayabe-Kanamura, S., & Suzuki, K. (2021, December). Smile action unit detection from distal wearable electromyography and computer vision. In 2021 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021) (pp. 1?8). Jodhpur, India.
Qu, F., Wang, S.-J., Yan, W.-J., Li, H., Wu, S., & Fu, X. (2018). CAS (ME)2: A database for spontaneous macro-expression and micro-expression spotting and recognition. IEEE Transactions on Affective Computing, 9(4), 424?436.
Rinn, W. E. (1984). The neuropsychology of facial expression: A review of the neurological and psychological mechanisms for producing facial expressions. Psychological Bulletin, 95(1), 52?77.
Sato, W., Murata, K., Uraoka, Y., Shibata, K., Yoshikawa, S., & Furuta, M. (2021). Emotional valence sensing using a wearable facial EMG device. Scientific Reports, 11(1), 5757.
Schultz, I., & Pruzinec, M. (2010). Facial expression recognition using surface electromyography (Unpublished doctoral dissertation). Karlruhe Institute of Technology.
Sun, B., Cao, S., Li, D., He, J., & Yu, L. (2020). Dynamic micro-expression recognition using knowledge distillation. IEEE Transactions on Affective Computing, 13(2), 1037? 1043.
Torre, F. D. l., Simon, T., Ambadar, Z., & Cohn, J. F. (2011, October). Fast-FACS: A computer-assisted system to increase speed and reliability of manual FACS coding. In Affective Computing and Intelligent Interaction: 4th International Conference (pp. 57?66). Springer Berlin Heidelberg.
Vishwakarma, S., & Agrawal, A. (2013). A survey on activity recognition and behavior understanding in video surveillance. The Visual Computer, 29(10), 983?1009.
Wang, S.-J., He, Y., Li, J., & Fu, X. (2021). MESNet: A convolutional neural network for spotting multi-scale micro-expression intervals in long videos. IEEE Transactions on Image Processing, 30, 3956?3969. https://doi.org/10.1109/tip.2021.3064258
Wang, S.-J., Li, B.-J., Liu, Y.-J., Yan, W.-J., Ou, X., Huang, X., Xu, F., & Fu, X. (2018). Micro-expression recognition with small sample size by transferring long-term convolutional neural network. Neurocomputing, 312, 251?262.
Wang, S.-J., Wu, S., Qian, X., Li, J., & Fu, X. (2017). A main directional maximal difference analysis for spotting facial movements from long-term videos. Neurocomputing, 230, 382?389.
Xia, B., Wang, W., Wang, S., & Chen, E. (2020, October). Learning from macro-expression: A micro-expression recognition framework. In Proceedings of the 28th ACM International Conference on Multimedia (pp. 2936?2944). Lisbon, Portugal.
Yan, W.-J., Li, X., Wang, S.-J., Zhao, G., Liu, Y.-J., Chen, Y.-H., & Fu, X. (2014). CASME II: An improved spontaneous micro-expression database and the baseline evaluation. Plos One, 9(1), Article e86041.
Yan, W.-J., Wu, Q., Liang, J., Chen, Y.-H., & Fu, X. (2013). How fast are the leaked facial expressions: The duration of micro-expressions. Journal of Nonverbal Behavior, 37(4), 217?230.
Yan, W.-J., Wu, Q., Liu, Y.-J., Wang, S.-J., & Fu, X. (2013, April). CASME database: A dataset of spontaneous micro-expressions collected from neutralized faces. In 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China.
Yang, B., Wu, J., Zhou, Z., Komiya, M., Kishimoto, K., Xu, J., Nonaka, K., Horiuchi, T., Komorita, S., Hattori, G., Naito, S., & Takishima, Y. (2021, October). Facial action unit-based deep learning framework for spotting macro-and micro-expressions in long video sequences. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 4794?4798). Chengdu, China.
Yu, W.-W., Jiang, J., & Li, Y.-J. (2021, October). LSSNet: A two-stream convolutional neural network for spotting macro-and micro-expression in long videos. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 4745?4749). Chengdu, China.
Cross-modal analysis of facial EMG in micro-expressions and data annotation algorithm
WANG Su-Jing1,2, WANG Yan1,2, Li Jingting1,2, DONG Zizhao1,2,ZHANG Jianhang3, LIU Ye2,4
(1 CAS Key Laboratory of Behavioral Science, Institute of Psychology, Beijing 100101, China) (2 Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049, China) (3 School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China) (4 State Key Laboratory of Brain and Cognitive Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100039, China)
Abstract: For a long time, the issue of limited samples has been a major hindrance to the development of micro-expression analysis, and this limitation primarily stems from the inherent difficulty in annotating micro-expression data. In this research, we aim to address this challenge by leveraging facial electromyography as a technical approach and propose three solutions for micro-expression data annotation: automatic annotation, semi-automatic annotation, and unsupervised annotation. Specifically, we first present an automatic micro-expression annotation system based on distal facial electromyography. Second, we propose a semi-automatic annotation scheme for micro-expression onset and offset frames based on single-frame annotation. Finally, for unsupervised annotation, we introduce a cross-modal self-supervised learning algorithm based on electromyographic signals. Additionally, this research endeavors to explore the temporal and intensity characteristics of micro-expressions using the electromyography modality.
Keywords: image annotation, micro-expression analysis, distal facial electromyography, micro-expression data annotation