机器学习在抑郁症患者面部特征研究中的应用进展

2022-12-06 04:37李欣，范青

上海交通大学学报（医学版） 2022年1期

李欣，范青

上海交通大学医学院附属精神卫生中心，上海 200030

抑郁症（major depressive disorder，MDD）是一种以持续情绪低落、快感丧失、思维迟缓为主要临床表现的常见精神疾病，还会伴随认知和行为的变化［1］，严重影响患者的生活质量。根据WHO 的报告，到2030年抑郁症的疾病负担将升为全球第一［2］。所以，对抑郁症患者进行早期识别、精确诊断并及时治疗是十分重要的。

目前传统的抑郁症评估方法主要依赖于自我报告和医师观察，但人工评估往往存在主观误差，还存在耗时、临床工作人员数量紧张等问题［3］。人们越来越意识到，现在需要一种客观有效的抑郁症检测方法。

抑郁症会改变多种非语言行为［4］，其中面部呈现了人们的大部分非语言信息，因此面部表情在抑郁症诊断中是具有高信息量的特征指标。抑郁症属于一种情绪障碍，研究表明抑郁症可能导致患者对情绪刺激不敏感，降低积极和消极的情绪反应［5-6］，有较少的面部表情变化［7］，某些无意识的面部表情变化可能与抑郁症高度相关。所以，抑郁症研究领域开始通过面部特征来解决临床问题。

现今人工智能已开始应用在精神医学领域。而机器学习作为人工智能的核心技术有着突出优势，可以对已有数据进行学习后提高决策的准确性，达到自动化、规模化的效果。许多机器学习架构已在数据集上进行了图像识别与分类的试验［8-12］，也逐渐与心理健康结合［13-14］。这项技术可以为抑郁症领域中的多个临床研究方向提供支持，比如基于面部特征差异的智能化诊断、症状严重程度变化跟踪、治疗效果检验等，为抑郁症的自动化检测提供可能。

因此，本文以IEEE Xplore 数据库为数据来源，通过关键词“facial expression”“facial features”“depression”“machine learning”进行检索，梳理了2016—2021 年基于机器学习的抑郁症面部特征研究，并对未来研究方向进行展望，以期为日后抑郁症智能化检测的研究与临床应用提供参考。

1 面部特征识别的常见算法类型

机器学习可以根据模型结构的深度分为传统机器学习和深度学习，现在常被应用在视觉、语音等任务上。传统机器学习算法适用于少量数据，深度学习则在较大数据集中具有更高的性能。机器学习在面部特征研究中主要用于特征提取及分类；不同的算法，性能也有所不同。临床研究者可以根据研究目的和数据特点选择合适的算法。

1.1 传统机器学习

支持向量机（support vector machine，SVM）［3，15-17］、朴素贝叶斯（naive Bayes，NB）［17］和随机森林（random forest，RF）［17］是抑郁症患者面部特征研究中最常用的分类器。逻辑回归（logistic regression， LR）和梯度提升决策树（gradient boosting decision tree，GBDT）也可以用于分类［15］：LR 常用于二分类的分类模型；GBDT 则适用于发现多种有区分性的特征及组合，可以在研究指标为多个组合特征时发挥更好性能。

1.2 深度学习

卷积神经网络（convolutional neural networks，CNN）是近几年面部识别研究最常用的深度学习网络。许多研究［15-16，18-27］基于CNN及其创新架构如三维CNN （C3D）、模态分离网络（modality separation networks，MSN）、深度残差回归卷积神经网络（deep residual regression convolutional neural networks，DRR-CNN）等进行识别、分类、预测人类情绪，以及探索面部动作强度如何从低水平情绪变化到高水平情绪等。也有研究［28］在CNN基础上，将期望损失嵌入到ResNet-50 这一残差神经网络中进行分布学习，这种分布学习允许探索面部图像和抑郁程度之间的顺序关系，更好预测抑郁水平。

循环神经网络（recurrent neural network，RNN）则适用于针对时间序列的学习［29］，更好模拟特征变化以提高分类准确率，结合CNN 后还可以处理包含序列输入的计算机视觉问题。其中的长短期记忆网络（long short-term memory，LSTM）也常用于面部识别研究［30-31］，适合处理和预测时间序列中间隔和延迟非常长的重要事件，更加符合连续变化的情绪的检测，贴近临床实际情况。

深度置信网络（deep belief network，DBN）［32］、自动编码器（auto encoder，AE）［31-33］和稀疏编码（sparse coding，SC）［34］等深度算法也可用于特征提取和分类。除此之外，有研究结合传统学习和深度学习，并在算法上进行创新以提高计算效率和临床分类准确率。例如，有研究团队提出了中值鲁棒局部二值模式—3D正交平面（median robust local binary patterns from three orthogonal planes，MRELBP-TOP）这一新的动态特征描述符进行特征提取，采用随机映射（random projection，RP）对帧级特征进行降维，去除冗余信息，然后采用稀疏编码来表征高层模式信息，最后则通过支持向量机进行抑郁程度的估计［35］。

2 基于机器学习的抑郁症患者面部特征识别研究

目前基于机器学习的抑郁症患者面部特征研究主要集中在辅助识别与诊断抑郁症这一临床应用上，来增加诊断的客观性，减轻医师工作压力。

2.1 抑郁症与其他群体分类

鉴别诊断是临床医师面临的重要问题。比如处于抑郁期的双相情感障碍（bipolar disorder，BPD）患者与抑郁症患者有相似症状，所以有研究者试图发现这2 种疾病患者的面部差异以减少误诊。该研究［31］调查了抑郁症患者（12 名）、双相情感障碍患者（12 名）和健康对照者（12 名）由情绪视频引起的面部表情变化，使用LSTM 学习不同情绪障碍类型的长期变化并建模，以更好模拟其特征变化；但这一研究只将每个面部帧分割成12 个面部区域进行分析，特征指标较少，最终只有健康对照组达到了67.7%的准确率，对抑郁症患者的分类效果最差，后续需要在此基础上加入更多指标开展进一步的研究。

除双相情感障碍外，其他精神疾病症状与抑郁症相似度不高，所以通过面部特征进行抑郁症鉴别的对象主要为健康群体。LI等［17］采用36名抑郁症患者和36 名健康对照者的临床数据集进行实验，通过图片描述、文本阅读、视频观看、访谈等任务提供情绪刺激，提取了位置特征、距离特征、区域特征、角度特征和动作单元（action unit，AU）这5 个类型的面部特征，并针对女性和男性分别建立分类模型，采用支持向量机、朴素贝叶斯和随机森林这3 种广泛使用的分类器进行分类。结果发现在视频观看这一任务上实现了最佳分类准确率（女性86.8%，男性79.4%）；在不同情绪刺激下，中性情绪刺激是比正负性刺激更好的数据收集选择，眉毛和嘴巴在中性情绪刺激中比面部其他部分有更多的贡献。而GUO 等［32］则是利用深度置信网络构建了一系列基于面部标记点（facial feature point，FFP）和动作单元的模型来描绘面部特征，在抑郁症患者（52 名男性、52 名女性）和健康对照者（52 名男性、52 名女性）中分析了不同情绪刺激任务和性别差异的实验结果，发现正负情绪刺激下抑郁识别的表现高于中性情绪刺激，与LI等［17］的研究结果相反；对于女性的识别准确率普遍高于男性，这一结果两个研究一致。抑郁症面部特征研究常使用上述情绪刺激范式进行实验，由此得来的数据可用于分析抑郁症在不同表达状态下的面部特征变化；但不同的实验材料、数据集、研究指标都会导致结果差异，该类研究需要更大的样本量和更统一的研究范式来提高结果质量。

2.2 抑郁症亚型和严重程度

还有研究关注了抑郁症亚型问题。BHATIA等［3］在39 名受试者（13 名忧郁型抑郁症患者、13 名非忧郁型抑郁症患者、13 名健康对照者）中探索了基于面部特征进行抑郁症亚型分类的敏感度和特异度；通过梯度下降法和3 个正交平面中的局部二值模式提取了被试的面部几何特征和纹理特征，并用支持向量机进行了分类，根据面部特征区分了这3 组人群，在码本大小为200 的组合特征比较中，忧郁组相对于非忧郁组、忧郁组相对于对照组、非忧郁组相对于对照组的敏感度分别为0.75、0.86、1，特异度分别为0.61、0.63、0.57，分类准确率为69%。这些研究结果可作为更细粒度的抑郁症分类和分析的基线，为临床中的亚型区分难题提供了解决方向。

抑郁症状的严重程度划分是临床工作的重要内容。有研究［16，19，22］基于贝克抑郁量表Ⅱ（Beck Depression Inventory Ⅱ，BDI-Ⅱ）和面部视频，通过CNN 实现抑郁水平检测。2017 年，JAN 等［19］利用CNN 从研究对象面部表情图像中逐帧提取视觉特征，并提出了新的特征提取方法——特征动态历史直方图（feature dynamic history histogram，FDHH）来捕捉特征空间上的时间运动，根据计算的特征对BDI-Ⅱ得分进行回归分析，达到通过人们的视觉表达来预测BDI-Ⅱ得分的目的。2020 年，ZHOU 等［22］则提出了名为DepressNet的深度回归网络来提高识别性能，他们将CNN 中的softmax 层替换为GAP 层，并且基于BDI-Ⅱ得分生成抑郁激活图（depression activation map，DAM），可以更直观地查看抑郁严重程度。上述研究通过算法实现对抑郁症状的时空计算和直观图像，这将极大提高临床诊断的准确率和便捷度。

机器学习研究会使用不同的量表作为划分依据。DIBEKLIOĞLU 等［33］通过汉密尔顿抑郁量表（Hamilton Depressive Scale，HAMD）在抑郁症社区中进行临床访谈，将患者分为中重度抑郁、轻度抑郁和缓解，使用堆叠降噪自动编码器（stacked denoising auto encoder，SDAE）来编码面部和头部运动的有效帧。SWAMY 等［23］则是根据患者健康问卷9（Patient Health Questionaire-9，PHQ-9）将被试分为无、轻度、中度、中重度和重度抑郁症5 个类别，通过CNN 实现了抑郁症自动化分类与筛查。不同的量表和程度划分方式侧重点不同，是抑郁症诊断方法多样化的体现；但各研究间的程度分类结果是否可以相互转化暂未得到验证，后续临床研究可检验不同划分依据下的结果一致性。

同时，机器学习算法及面部特征应用在不断更新。在二维CNN 基础上，C3D 被构建。2019 年，CARNEIRO DE MELO 等［24］在大规模数据集（AVEC2013、AVEC2014）上通过C3D 学习时空特征，并使用回归模型来预测抑郁水平分数。同年，YANG 等［25］首次将C3D 应用于面部动作单元检测。2021 年，有研究［29］设计了RNN-C3D 的新框架，使用C3D 自动学习人脸区域2 个不同尺度的时空特征，然后使用RNN 从时空信息序列中进一步学习以预测抑郁程度。这些应用为临床智能化奠定了重要基础，也可以帮助临床医师了解患者的更多特征变化，有利于临床实践。

2.3 临床治疗效果分类

临床治疗效果的评估往往存在主观问题，比如患者对医师隐瞒真实情况等，医师评估过程费时费力，所以客观的检验方法显得尤为重要。2016 年，HARATI 等［36］尝试量化脑深部电刺激疗法（deep brain stimulation，DBS）对面部表情的影响，并通过区分抑郁、改善及其之间的过渡阶段（主观抑郁症状恢复，但情绪反应保留）来优化临床管理决策；他们在7 名抑郁症患者（男性6 名，女性1 名）中开展了为期8 个月的研究，以HAMD-17 分数较治疗前下降50%作为临床反应标准，将受试者状态分为抑郁、过渡和改善，并通过非结构化临床访谈视频记录了患者在DBS 治疗中的演变，以多尺度熵（multiscale entropy，MSE）捕捉像素强度水平在多个时间尺度上的时间变化，以深度隐变量模型（dynamic latent variable model，DLVM）学习动态因素。结果表明从这些视频中学习到的无监督特征可以区分医师所定义的临床变化阶段，并在此基础上于2020 年构建了预测模型［37］。JIANG 等［15］于2021年也针对抑郁症的缓解情况及患者对DBS 治疗的反应进行了分类，临床医师在治疗前后8 个月内每周对12 名受试者进行评估和非结构化访谈录像，然后使用区域CNN 检测器和ImageNet 预训练的CNN 从中提取了7 种基本情绪，通过Openface2.0 提取了动作单元强度；最终发现分类准确率排名前三的特征为“快乐”出现概率的最大值、“快乐”出现概率的平均值、面部动作单元AU4 幅度的最大值；只通过基本情绪进行分类的表现在统计学上优于只通过动作单元进行分类；既分析情绪也分析动作单元的预测准确率与只分析情绪相似。后续的临床治疗研究可参考上述结果对研究指标进行优化，让治疗效果评估更加准确、省时。

此类研究进行了长期数据采集，与临床实际联系紧密，能更好记录患者的面部特征变化；并且JIANG等［15］使用的区域CNN 检测器和ImageNet 预训练的CNN之前都已在大规模公共数据集（包含超过100万张图像）上进行了训练，由此得出的结果更为可靠。但上述研究样本量较小，缺少性别比较，后续研究可以继续完善。

3 未来发展方向

机器学习已广泛应用到抑郁症研究领域，为解决临床问题奠定了基础；但许多研究忽略了抑郁症患者情绪变化的时间特点等问题，且有临床样本量小的局限性，这些都影响了研究质量。而且面对复杂的生理特征，目前的研究指标也相对单一。以下是对未来研究方向的展望。

3.1 面部特征跟踪研究

抑郁症的情绪变化具有“晨重暮轻”的特点，所以实验的测试时间是影响抑郁程度判断的重要因素。现有的研究暂未对这一变量进行控制。同时，面部特征的变化十分丰富，只对单个时间点的数据进行分析无法达到精准诊断抑郁症的程度。所以未来有必要增加跟踪研究，设置随访次数，并控制测试时间，以使结果更符合抑郁症患者的临床特点，使自动化检测更加准确。

3.2 面部特征差异研究

目前的机器学习研究直接聚焦于分类和识别的结果，而其中被忽略的具体面部特征差异同样很有价值。例如动作单元变化、表情出现频次、微笑时长等，可以为基础心理学提供支持，也可以丰富未来临床应用的检测指标。比如曾有研究［38］比较了与精神分裂症患者、抑郁症患者和健康对照者的情感缺陷相关的面部表情行为，探索了精神疾病中情感钝化的具体表现。也有研究［39］探索了不同程度抑郁症患者在访谈中各个类别面部表情的出现频次，以及具体的动作单元变化差异，验证了抑郁症的“社会风险假说”。

3.3 多模态研究

有研究［40］融合了说话行为、眼睛活动和头部姿势等多种模态进行抑郁症预测，结果显示多模态特征融合表现最佳，与单峰系统相比有显著改进。这预示着多模态研究的发展趋向。目前除面部特征外，机器学习也已在语音［41-43］、身体姿势［44］、生理信号［45］等研究中发挥作用，有研究开始尝试面部表情与其他指标的结合［25，46-48］。未来应在高质量、大规模的数据集上开展多模态研究，从而更精准地检测抑郁状态。

3.4 结合临床治疗研究

抑郁症治疗方法包括药物治疗、心理治疗，以及一些物理治疗如重复经颅磁刺激（repetitive transcranial magnetic stimulation，rTMS）、电休克疗法（electroconvulsive therapy，ECT）等。这些治疗的临床效果是科研人员和临床人员共同关注的内容，然而目前的抑郁症面部特征研究中只有少数与rTMS相关的治疗效果研究［15，36-37］，日后可以更多地与临床治疗结合，这将是更客观、无侵入性、省时省力的方法。

3.5 增加临床实践率

目前的抑郁症自动化检测研究缺乏可运行的平台或者应用程序。虽然2018 年有人尝试将3D 面部表情和语言融合起来设计成在手机上运行的抑郁严重程度测量系统［49］，2019 年有团队基于图像处理和语音助手设计了无需精神科医师帮助的抑郁症检测网站［23］，但这些平台不够完善和普及。日后临床中心间可以尝试患者信息共享来收集更多临床数据进行分析，也可以开发有面部采集授权的手机治疗应用程序，提供更贴合个人特点的报告或预警。这些真实、大规模的临床数据将提高检测模型的准确率，不断优化临床应用。

总之，目前基于机器学习的抑郁症患者面部特征研究在辅助识别和诊断抑郁症方面还在积极发展中。为了更好服务于临床实践，后续研究者需要在未来增加面部特征跟踪研究、差异研究、多模态研究、结合临床治疗研究，并增加临床实践率，真正在临床中实现抑郁症自动化检测。