面部视觉特征在抑郁症诊断中的研究进展

2022-03-03 13:46杜铭浩刘潇雅张文荃

小型微型计算机系统 2022年3期

杜铭浩，刘爽，刘潇雅，张文荃，明东，2

1(天津大学医学工程与转化医学研究院，天津 300072) 2(天津大学精密仪器与光电子工程学院生物医学工程与科学仪器系，天津 300072)

1 引言

抑郁症是最常见的精神心境障碍，属神经官能病症之一.根据国际疾病分类(ICD-10)[1]，抑郁症患者多表现出精神不济、情绪低落、兴趣和愉悦感减退、进而产生自杀观念与行为等极端症状.目前，抑郁症已是全球疾病负担的重大因素之一.据世界卫生组织统计[2]，截至2017年全球抑郁症患者已多达3.22亿人，占世界人口的4.4%；预计到2030年，抑郁症将超过心血管疾病而上升为第一致残诱因.同时，据中国精神卫生调查显示[3]，我国抑郁症患者数量已超过9500万，其终身患病率达6.9%.显见，抑郁症已经造成了严重的社会健康问题.然而在高患病、高增长率背景下，我国的抑郁症诊断能力并不乐观.一方面，目前我国精神科医师仅4万余人，医生病患比例不足已成为精神卫生健康工作面临的一大难题.另一方面，抑郁症病因尚未明确、缺乏客观诊断生理指标，目前临床应用中对抑郁症的诊断多以主观量表为主，其测试结果的准确性依赖于医生的熟练性以及患者的配合度，故其误诊率目前居高不下[4，5].因此需要寻找客观的参数指标，以帮助提升抑郁症诊断的准确率.

近些年来已有大量研究尝试利用生理信号、面部视觉特征、生化指标等寻求抑郁症的客观诊断指标.其中，生理信号主要有心率[6，7]、脑电[8，9]、脑磁[10]等，具有客观、不易伪装的优点；但心率和脑电等测量设备穿戴过程颇为复杂，信息采集过程还需被试高度配合，增加了临床检测实施难度.随着计算机视觉技术的发展，基于面部视觉特征的抑郁症诊断方法逐渐兴起.该方法通过分析患者面部展现的抑郁相关信息对其抑郁程度进行客观评估，并可以进一步总结抑郁症患者的行为特点以指导医生的临床诊断.而且该方法的采集设备仅需要摄像头，成本较低便于普及推广；尤其信息采集过程中被试无需接触设备，可使之始终保持无需防范的自然心态，易于展现真实的精神心境数据，这对于兴趣或愉悦感减退的患者十分友好，具有较高研究价值和发展空间.

早在20世纪中期，Ekman[11]发现不同地区居民的面部表情具有共性情感特点，指出了表情在情感表达中的通用性.1997年，麻省理工学院媒体实验室首次提出情感计算概念，从静态或动态的表情自动识别情绪变化[12].2013年，视听情感挑战赛(Audio/Visual Emotion Challenge，AVEC)将情感计算与精神疾病的诊断结合，推出了抑郁识别亚挑战赛，主要内容是通过被试访谈时的面部表情和音频数据自动诊断抑郁症，吸引了世界各地多支队伍参加，极大推动了该领域的快速发展.近些年来，基于面部视觉特征的抑郁症诊断技术凭借其便捷的优势受到广泛关注，同时特征提取和模式识别技术的不断发展也使其具有巨大的发展潜力.本文将从抑郁症患者的面部行为特点入手，综述常用的情绪诱发实验范式、面部视觉特征公开数据库及基于面部视觉特征的抑郁症诊断的最新研究成果，最后讨论其存在问题与发展动向.

2 抑郁症患者的面部特点

抑郁症患者有广泛的潜在特征，包括情绪低落、认知能力障碍以及强烈的负性认知.针对其面部特征而言，早期已有文献证明，抑郁症患者的表情变化与其精神状态有一定关联，并且患者的面部有阴沉、凄凉、木讷和郁闷，眼神躲闪的特点[13].由此，相关研究通过肌电、特征点、神经网络和眼动等技术探究抑郁症患者异于常人的面部特点.

早在1976年，Schwartz等[14]从肌电的角度分析了抑郁症患者和健康人在想象任务时的面部肌肉强度变化，结果表明，抑郁症患者的皱眉肌、眼轮匝肌、额肌、下唇降肌的强度存在显著性差异，从这些肌肉的位置(如图1所示)可以看出，差异集中于眼睛和嘴部区域.但是肌电采集过程或对被试造成干扰，Wei等[15]和Scherer等[16]通过分析患者和正常人的访谈视频从而避免了接触干扰，其通过提取面部特征点之间距离的变化以表示表情变化的幅度，结果发现抑郁症患者嘴角、脸颊和眼睛特征点间的变化幅度与持续时间显著降低，说明患者表情相比于正常人变化迟缓，且持续时间短.由于提取面部特征点的过程会丢弃其他位置信息，Zhou等[17]从面部整体的角度进行分析，利用神经网络中全局平均池化层保留空间信息的优势，提出了DepressNet架构并在186名被试访谈视频上进行自适应训练，将结果可视化后发现眼睛区域对预测结果的影响较大，进而得出眼睛区域包含着大量与抑郁相关信息的结论，这与之前研究的结论相一致.

图1 呈现特殊行为表现的抑郁症患者面部肌肉Fig.1 Facial muscles of depression patients with special behavior

目前研究认为抑郁症患者会呈现出特殊的面部行为特点，并且眼睛区域的差异性较为突出.针对于患者眼睛区域，Stolicyn等[18]和Shen等[19]指出眼部的微妙变化可直观反映个人情绪状态，可作为诊断疾病或检测治疗效果的生理学指标.抑郁症患者思维迟缓以及具有负性认知偏向的特点在瞳孔反应和眼睑活动中同样有所体现.Siegle等[20]对比了24名抑郁症患者和24名健康人在情绪处理任务时的瞳孔反应，发现抑郁症患者瞳孔扩张更滞后并且持续时间更持久.Stolicyn等[18]和Li等[21]分别对比了抑郁症患者和健康人在观看情感图片以及情感词汇时的眼球运动数据，发现抑郁症患者面对负性刺激时双眼注视次数和注视时间都有增加，而正性刺激时并没有显著变化.另外，眨眼频率与抑郁程度也有潜在关联.Mackintosh等[22]对23名在治疗过程中的抑郁症患者做了纵向追踪实验，发现抑郁症患者的眨眼频率相比于正常人较高，且在病情好转过程中逐渐恢复正常.

由此可见，抑郁症患者情绪低落、思维迟缓的特点在面部的肌肉运动和眼球运动方面有所体现，表现出较健康人负性反映强烈、变化迟缓等特点，这论证了基于面部视觉特征的抑郁症诊断方法的可行性.

3 常用诱发实验范式及公开数据库

抑郁症患者面部数据的质量直接决定了由其训练得到的诊断模型性能的好坏.但文献[23]指出，抑郁症患者在自然状态下与正常人的面部差异并不显著，且采集过程中的情绪波动会增加面部特征的辨识难度，从而影响数据质量.针对这一问题，目前研究通过情绪诱导实验范式将患者和正常人诱发至特定的情绪状态，采集相同情绪状态下二者的面部表情数据，以此建立抑郁症面部特征数据库.

3.1 情绪诱导实验范式

根据刺激方式不同，常用的诱发范式可分为诱导和访谈两种.

诱导法：通过图片、短文、单词等方式诱发被试的情绪.已有研究指出，抑郁症患者具有负性情绪反馈增强、正性情绪反馈减弱的典型症状[15，24].因而患者在面对不同情绪刺激时，容易呈现出与健康人不同的表情特征.由此，胡斌[25]设计了图片诱导方式，从中国面孔表情系统中选择3种带有正、负和中性的图片让被试在限定时间内进行描述，同时记录被试的面部变化.图片诱导与心理学中的主题统觉测验过程相似，而后者更具有规范性和系统性，Valstar等[26]选取了主题统觉测验中的部分环节作为诱导材料，激发效果明显.此外，短文和单词也常作为诱导材料以朗读的方式激发被试的情绪[26-28].常用于朗读的材料来源有寓言《北风和太阳》、情感本体语料库和汉语情感词极值表等.Simantiraki等[29]认为被试在朗读过程中可以更好理解短文或词语的含义，从而提高诱发水平.同时，刘振宇[30]认为朗读固定的文本可以减少其他混淆因素，进而提高分析结果的可信度.此外，认知测试[18]、发元音[26，31]、排序[32]、计数[26，33]、问题解决任务[34]等多种诱导方式也被用于诱发患者情绪.抑郁症患者在这些任务中会反应出特殊的认知能力和心理活动，进而产生差异性特征.需要注意的是，诱导法具有流程简单、耗时短的优势，但只能反应短时间内被试的情绪变化，而患者的抑郁症状通常是动态、持续性变化的，从文献[15]和文献[35]的比较结果可以看出，当诱导材料之间的关联性较小或任务量少时，诱导效果并不明显.并且刺激过程会增加患者的压力和焦虑，应慎重选择刺激材料.

访谈法：通过模仿临床交谈的过程以检测被试的社交能力和认知水平.Girard等[36]指出，抑郁症患者普遍存在社交功能障碍，在交谈过程中会呈现出眼神回避、焦虑不适等特征，由此可以捕获患者特殊的面部行为模式.通常交谈话题由普通平稳过渡到更为私密的内容，由精神科医师、虚拟人物或者幻灯片来呈现.Pampouchidou等[37]通过与专业医师视频连线的方式对被试进行访谈(如图2(a)所示)，医师会根据被试的反应对问题做出调整，并引导被试在话题间放松从而避免情绪干扰.Dibeklioglu等[38]采用面对面交谈的形式对被试进行了汉密顿抑郁量表评测.汉密顿量表是临床上评定抑郁状态时最常用的量表，包括是否存在有罪感、自杀想法、体重减轻等心理和生理指标，患者的回答以及行为表现可以有效反应其抑郁严重程度.王刚[39]直接记录了门诊医生的问诊过程，交谈内容包括最近身体状况是否良好、让患者述说自己最近碰到的比较烦心事情等.通过精神科医师进行访谈的形式可以根据被试的回答或行为表现及时做出反馈，增强被试的互动感从而更好诱发情绪，但访谈的内容和时长会因人而异，增加了后续数据分析的难度.相比之下，通过虚拟人物或幻灯片按照固定次序呈现问题的方式更具有标准性.Scherer等[40]和Ringeval等[41]都设计了虚拟人物对被试进行访谈，访谈场景如图2(b)所示，虚拟人物Ellie用提前录制好的问题音频与被试交谈，并对被试的回答做出点头、拍手等肢体回应.Cai等[27]利用幻灯片将问题呈现给被试，并要求被试在规定时间内做答.目前，访谈过程是否需要专业医师的引导仍存有争议.Fridlund等[42]研究发现观众在场时，抑郁症患者的非言语信号会增强.而Scherer等[43]认为虚拟人物可减少监视带来的恐惧和压力，降低被试的心理负担，从而增强被试的交流意愿.因此访谈法的问题呈现方式还有待进一步讨论.

图2 访谈形式 Fig.2 Forms of interview

诱导法具有快速诱发、效果直接的优势，访谈法具有由浅入深、结构性强的特点.由于抑郁症患者的生活经历存在差异，刺激效果不尽相同，因此采集过程可以将两种方法相互结合，优势互补.

3.2 现有公开数据库

表1展示了目前国内外相关研究常使用的抑郁症视觉特征数据库，并对其招募的被试人数、采集到的样本数量、诱发范式、展现方式、量化标准及其可用性做了说明.其中AVEC2013[26]、AVEC2014[44]、DAIC-WOZ[40]、E-DAIC[41]数据库分别是第3届、第4届、第6届、第9届视听情感挑战赛提供的数据库.Pittsburgh数据库[38]是匹兹堡大学记录了57名确诊抑郁症患者在治疗期间进行汉密顿量表测评过程的访谈视频.MODMA数据库[27]是兰州大学记录了23名门诊患者和29名健康人在完成特定任务时的视频和音频.鉴于被试的个人隐私，AVEC2013和AVEC2014是目前唯一提供原始视频文件的数据库.DAIC-WOZ和E-DAIC提供原始音频文件及其视频处理后的特征文件.MODMA数据库仅提供原始音频文件.获取以上数据库都需要签署最终用户许可协议(EULA).

表1 抑郁症视觉特征数据库Table 1 Visual characteristics database of depression

4 基于面部视觉特征的抑郁症诊断研究进展

提取并量化抑郁相关的面部视觉特征是建立模型的关键，目前研究运用计算机图像处理、机器学习等技术手段分析面部数据，提出了适用于不同区域的特征量化和建模方法.以下分别从目前关注度最高以及识别效果最好的眼睛区域和面部整体区域，评述抑郁症自动诊断研究的现状和取得成果.

4.1 基于眼睛区域特征的抑郁症诊断研究进展

正如前文所说，抑郁症患者面对刺激时会呈现出异常的注视方向、眼睑活动.由此，一些研究提出多种方法提取注视角度、眨眼频率，瞳孔运动等眼动特征，并建立分类或回归模型进行抑郁症的自动诊断.

眼部区域常用的特征提取方法是利用主动外观模型(Active Appearance Model，AAM)、ZFace工具包、MultiSense集成系统等工具分析视频数据，或是通过眼动仪设备直接进行采集.其中，AAM可以通过训练自动获取感兴趣的眼睛区域特征点的位置信息，并通过分析特征点坐标的变化提取出眨眼频率、注视角度等行为信息，以此进行抑郁诊断.AAM因其保留了运动的细节信息，可以反映出被试面部细微的变化，在抑郁识别上取得良好效果，受到广泛关注.Alghowinem等[19]利用AAM对60名被试(抑郁症患者和健康人各30名)的访谈视频进行分析，提取眼睛、眉毛和虹膜中心在内74个特征点的坐标，分布如图3所示，再计算坐标点之间的位移变化从而提取睁闭眼时间、注视方向和眨眼频率特征，并通过高斯混合模型和支持向量机分类器进行二分类，达到了70%的抑郁识别率.Wang等[35]同样利用AAM提取到访谈中眼睛区域特征点的时间序列，并根据坐标点之间的位移变化提取到瞳孔、眼角和眉毛运动的特征用于抑郁识别，结合其他模态识别率达到78%.AAM模型在训练前需要进行标注，而标注的质量会影响到识别精度，Al-Gawwam等[45]使用ZFace工具无需训练、直接获取特征点的位置坐标，其通过计算眼睑之间的位移变化提取眨眼频率特征并进行二分类，在AVEC数据集上的识别率达到88%.此外，有研究利用集成系统直接获取眼动特征.Lucas等[46]利用MultiSense系统从访谈视频数据中提取患者的注视方向，并以此得到眼睛交流次数的特征，通过分析其与抑郁程度之间的相关性得出眼睛交流次数是抑郁症诊断的潜在指标.Pan等[47]利用眼动仪提取被试在图片刺激下的注视次数、持续时间和扫描路径等特征，并通过支持向量机分类达到86%的识别率.

图3 眼睛区域特征点Fig.3 Eye region feature points

从目前研究结果可以看出，眼睛区域凭借其范围较小、可借助鼻梁、额头等参照物快速定位以及不宜伪装的优势，在抑郁症自动诊断中展现出较高的精确度.但受样本量的限制，各诊断模型的泛化能力以及其性能还有待进一步优化.

4.2 基于面部整体区域特征的抑郁症诊断研究进展

抑郁症的特征并不局限于眼睛区域，一些研究利用人脸识别、目标检测和追踪的技术手段分析脸部区域，同样取得优异识别效果.所用的特征提取方法大致可以分为动作单元法、特征点标记法和面部整体法.

动作单元法是使用心理学家Ekman[48]提出的面部行为编码系统(Facial Action Coding System，FACS)对46个独立的面部动作单元(Action Unit，AU)在强度和持续时间上量化，将面部表情编码成特定单元的组合.Stratou等[49]和Girard等[50]分析了被试的访谈视频，找到了抑郁症患者独特的AU特征，并发现AU特征的强度与被试的抑郁严重程度呈正相关，证实了动作单元法在抑郁症检测方面的意义.由此，徐璐[51]分析了患者与正常人在访谈过程中AU的出现频次、变化速率、强度等特征，发现二者存在明显差异，并以此通过支持向量机进行分类，抑郁识别率男性达到73.48%、女性达到68.43%.同样，Nasser等[52]提取了访谈视频中的18个面部AUs，通过分析发现只有6个特征(AU 4，5，6，7，10，12)与抑郁相关，在此基础上利用KNN和LDA分类器进行分类，识别率达到85%.AU特征不仅可以建立二分类模型，Williamson等[53]利用AU特征建立了抑郁程度评估的回归模型，其在AVEC数据库上提取视频中AU的时间序列，并通过高斯混合模型和极限学习机分类器识别，最终其均方根误差为8.12、平均绝对误差为6.31(标签为0-63的贝克抑郁量表评分).动作单元法凭借其可解释性在抑郁诊断或者程度评估上应用广泛，但需要注意的是，动作单元本质上是由面部肌肉运动产生，因而一些不与情绪相关的肌肉运动(如咀嚼、挤眼睛等)会对模型带来不必要的干扰.

图4 面部区域特征点Fig.4 Facial feature points

特征点标记法是通过提取面部固定位置点的坐标，从而得到包含距离和面积特征的面部拓扑结构.图4展示了特征点分布以及常用的划分方式，可以看出，距离特征包含了张嘴和闭嘴、睁眼和闭眼、提眉等信息，面积特征包含了面部区域的几何变化.抑郁症患者特殊的面部行为模式在距离和面积特征上会有所体现.Dibeklioglu等[38]提取了Pittsburgh访谈数据库中被试68个面部特征点的时间变化序列，并通过堆叠3层降噪自动编码器构建了轻、中和重度抑郁症程度的三分类模型，识别率达到72.59%.此外，在特征点时间变化序列基础上，通过求导数以及求二次导数可以获得速度和加速度等高级特征，而抑郁症患者表情变化迟缓的症状可以在这些特征上展现.魏巍[15]通过获取特征点变化的速度和加速度特征来分析被试嘴角幅度、眨眼次数、眼睛面积、脸颊膨胀的情况，并建立机器学习模型达到了男性81.4%和女性80.0%的抑郁识别率.抑郁特征是在动态变化中体现出来的，而循环神经网络具有记忆功能，可以有效处理抑郁的动态特征.Wang等[54]利用长短期记忆网络(Long Short-Term Memory，LSTM)提取特征点的时间序列中与抑郁相关的动态特征并进行二分类，在DAIC数据集上测试达到81.8%的识别率.Haque等[55]通过比较发现时序卷积网络(Temporal Convolutional Network，TCN)比LSTM在处理时间信息上效果更好，更适合抑郁识别模型的构建.相比于动作单元法，面部特征点法可以获取到面部拓扑结构的变化，提取到的信息量更大，更有助于后续搭建诊断模型.

面部整体法是直接从整张脸中提取面部特征，避免了在提取AU和特征点的过程中丢失其他部位信息，是目前最流行的方法.该方法可以提取到面部的几何特征和纹理特征(如边、角、方向等)进行分析，其中包含了与抑郁相关的细节特征.Dhall等[56]利用局部二值模式(Local Binary Pattern，LBP)处理视频数据并使用Fisher向量进行编码，有效捕捉了面部细微的几何特征，其在AVEC2014数据集上建立回归模型，均方根误差为8.91优于基线水平9.98.为进一步提取面部动态信息，Pampouchidou等[37]先根据访谈视频生成运动历史图像(Motion History Image，MHI)，再利用LBP提取其纹理特征，并根据运动的梯度方向生成方向梯度直方图(Histogram of Oriented Gradients，HOG)作为高级特征，提取过程如图5所示.该方法在AVEC2014数据集上测试平均绝对误差为7.83优于基线水平8.86.此外，卷积神经网络可以自适应提取图片中的信息，在处理面部整体抑郁特征上具有潜在优势.He等[57]提出了LGA-CNN架构提取视频帧图像中的全局和局部信息，其在AVEC2013和AVEC2014数据集上测试均方根误差分别为8.39和8.30，展现了卷积神经网络在提取抑郁信息上的优势以及泛化能力.Zhou等[17]在卷积神经网络基础上加入残差结构搭建了DepressNet结构，该结构有效解决了网络退化的问题可进一步提升模型性能，其在AVEC2013上测试取得了均方根误差8.28的优异结果.

图5 面部整体特征提取结果Fig.5 Results of full-face feature extraction

目前，多数基于面部视觉特征的抑郁症诊断研究是利用不同的特征提取方法对抑郁症眼神呆滞、视觉回避、少笑等面部行为进行提取和量化，也有研究利用神经网络直接提取高维度特征.由于面部表情复杂多样，单一的提取方法无法准确全面地提取抑郁信息，从文献[18]和文献[58]的结果来看，融合多个特征之间有效利用特征间的互补信息，从而提升抑郁症诊断水平.

5 讨论与展望

基于面部视觉特征的抑郁症诊断技术提供了一套无接触式、普及性强、客观、便捷的抑郁症检测方式.该技术有望缓解临床诊断面临的医生患者比例偏低以及误诊率偏高的压力，有广阔的应用场景.但目前由于抑郁症患者情况复杂多样，该技术走向临床仍有较远距离.结合目前研究进展和临床应用场景，考虑基于面部视觉特征的抑郁症诊断研究可有以下几方面的发展方向：

1)实验范式的改进推广.能有效诱发抑郁症患者产生面部特征是设计有效实验范式的首要前提.但目前所采用的诱发题材和展现方式仍存有不少争议，需要从诱发方式、设备选择以及量表评定等角度研究出一套完整标准、适用临床场景并便于推广应用的实验范式.

2)数据集的完善.近年来，AVEC数据库因其样本量大、支持多模态的优势备受青睐，但其抑郁与健康样本数量不平衡的问题会对识别模型造成偏差，虽然已有研究提出了随机抽样[59]、数据增强[60]和生成对抗[61]等数据平衡方式，但仍没有解决根本问题.此外，被试的性别、年龄、受教育经历等因素同样会对模型带来偏差，但因样本数量较少，这些因素并没有得到重视.因此，构建各因素平衡的完善的数据集是今后研究的方向之一.

3)诊断模型的优化.当前研究大多利用了人脸识别技术中面部特征的提取方法，而抑郁检测并不同于个体身份的识别，因而这样方法可能会忽视对身份鉴别帮助不大但与抑郁相关的信息.因此，结合抑郁症的面部特点，构建出受个体差异影响小且包含抑郁信息量大的特征提取以及识别模型是未来发展方向.此外，利用大数据量的优势，构建端到端的识别模型自适应学习的方法同样值得探索.同时，如何对抑郁诊断模型做出解释，帮助临床医生进一步理解抑郁症同样有研究价值.

4)多模态融合实施诊断.已有研究表明，抑郁症患者的声音及其语义特征与正常人存在显著差异[62，63].实验采集视觉特征的同时可以采集到语音信号，融合视频、音频和文本信息进行多方位、多模态的诊断是值得今后深入探究的发展方向.

6 结束语

本文从抑郁症患者的面部行为特点入手，综合介绍了目前常用的诱发实验范式、现有面部视觉特征公开数据库及基于面部视觉特征的抑郁症诊断的最新研究成果，最后简要讨论了存在问题与发展动向.相信随着生物医学以及计算机视觉技术的不断发展，具有高效识别能力、低廉成本特色的基于面部视觉特征快速检测抑郁症诊断新方法能够及早面世，给医生和患者双方带来快捷方便.