姬广军,王宁,魏栋帅,彭尚飞,位彦鸽,张锡哲,王菲,侯钢,刘荣勋
抑郁症是一类以心境低落、快感缺失、精力疲乏、精神运动迟滞为主要临床特征的精神疾病,终生患病率约为16%,在所有精神疾病中自杀风险最高[1],减低患病率和自杀率的关键在于提高抑郁症的早期识别率并作出精确临床诊断。但目前抑郁症的诊断主要依据临床症状,诊断与筛查方法单一,缺乏客观指标进行有效识别。随着生物特征识别技术的不断发展,语音作为一个相对客观、可量化的指标在抑郁症的识别方面具有潜在的价值[2]。语音是人的身体状态和心理的综合反应,语音特征与说话人的情绪密切相关。由于语音具有容易采集和成本低的特点,采用语音特征作为客观指标对抑郁症进行辅助识别成为近些年来研究的热点。然而,语音信息中包含频谱、节奏和频率等多种元素,属于一种高维数据,如果直接对语音信息进行特征提取分析将会非常复杂,使得语音的识别性能下降。因此,采用以机器学习和深度学习为代表的人工智能技术,结合临床量表信息和语音特征进行抑郁症的辅助识别,成为解决问题的关键途径。
临床研究发现,抑郁症患者常表现为声音低沉、语速缓慢、音调低、停顿时间长。和正常人群相比,抑郁症患者的语音声学特征存在一些显著改变,这些语音特征大致分为:韵律特征、共振峰特征、频谱特征和声源特征。
1.1 抑郁症患者的韵律特征 韵律特征是指说话人的音量、音高及语速,对应的是发生的音位在压力、语调和节奏方面的变化。基频和能量参数是研究中最常用的韵律特征。研究发现,抑郁症早期患者的韵律特征会出现异常,表现为音量减小、音高范围减小、语速减慢、语调降低[3]。听音人能够感知到抑郁症患者在临床治疗前后音量、音调、语速及发音的变化[2]。基频是声带振动频率的参数,可以反映说话人声带发声的物理状态,也能反映其情绪状态的发生变化[4]。抑郁症患者基频的变化受自身情绪状态的影响,早期患者基频范围缩小以及均值降低与症状严重程度相关[5]。抑郁症患者精神运动迟滞会引发患者肌肉张力的细微扰动,引起基频变化[6]。音量是语音的能量参数,其高低变化与症状严重程度相关,在抑郁症早期,音量可以反映说话人的运动协调能力。抑郁症患者经过临床治疗前后音量会显著变化,而且患者的病情缓解程度与其音量有关。
1.2 抑郁症患者的共振峰特征 共振峰是指声音在经过声道时产生共振的频率,一般可以提取4~5个共振峰,最常用的是前3个共振峰参数。共振峰会随着声道的状态而变化,因此共振峰可以作为判断个体情绪状态的一个重要语音特征。抑郁症患者表现为在第一共振峰的显著上升以及第二共振峰的下降,主要在元音上,如在第二共振峰英文ai的发音上和健康人群存在显著差异,同时,这种共振峰的异常与症状的严重程度相关[7]。有研究发现抑郁症患者在第一、二、三共振峰的组合特征上存在组间差异[8]。与之相反,Mundt等[5]发现,第一共振峰的改变与抑郁症无关。目前抑郁症共振峰的研究结果不相一致,可能原因在于语音产生过程以及语音和共振峰关系复杂;另外,可能与语音特征采集的设备、流程和标准不一致有关。
1.3 抑郁症患者的频谱特征 频谱特征体现了发生运动和声道形状变化的相关性,包含了丰富的声道变化信息,与其他语音特征相比,频谱特征更能反映人在说话时的情绪状态。常用的频谱特征参数包括梅尔倒谱系数和功率谱密度,其中梅尔倒谱系数使用一组从低频到高频、由密到疏交叠排列的三角形带通滤波器构建特征,这种特征对输入信号未做任何限制,充分结合了人耳的听觉感知特征与语音的形成机制,很好地模拟了人耳听觉系统,因此梅尔倒谱系数常用于抑郁症语音识别研究中[9]。
1.4 抑郁症患者的声源特征 声源特征主要用于评估声音是否清晰,具有一定的辨识度。与抑郁症有关的声源特征中常用的参数是振幅微扰和频率微扰,它们共同反映声带振动的稳定性,与抑郁症患者精神运动迟滞相关,运动迟滞降低了喉部肌肉的张力,使声门更加开放,振幅微扰随之增加。抑郁症患者的振幅微扰和频率微扰与抑郁症状的严重程度有关[6]。相对其他语音特征,声源特征的研究相对较少。
随着人工智能技术发展,研究重点逐渐从语音特征与抑郁的相关性到模式识别。以机器学习和深度学习为代表的人工智能技术可以准确地对海量高维的语音数据进行处理分析建模,客观量化抑郁症语音特征异常的程度,从而有效辅助抑郁症的早期诊断。
2.1 机器学习 机器学习的核心是模式识别方法,目前对语音特征进行分类识别的过程包括:对原始语音信号进行预处理,构建语音数据库;然后进行抑郁症组间的差异分析和相关分析,筛选出差异有统计学意义的语音特征作为分类特征;利用降维技术对向分类器输入的数据进行特征选择与特征提取;从而构建分类系统并进行模型评估。机器学习常见的分类方法包括K-最邻近分类器、支持向量机、高斯混合模型、决策树[10]。K-最邻近分类器主要是基于某种距离度量,在分类任务中使用投票法,选择K个样本中出现最多的类别标记作为分类结果。K-最邻近分类器适用于多分类问题,其方法简单易于实现,但分类任务执行速度比较慢。支持向量机利用带类标签的训练数据构造函数模型,通过搜索最大边缘超平面来搭建学习器[10]。在语音特征处理研究中,常用高斯径向基核函数支持向量机,通过核方法来发现输入空间中的非线性决策边界,对于抑郁症语音识别具有较好的分类结果。支持向量机降低了对数据的维度以及训练过程的敏感性,具有一定的泛化能力。但在数据维度较大时,执行速度比较慢。高斯混合模型是一类有监督的学习算法,具有计算精度较高、计算复杂度较低和稳定性较好的优势。总之,机器学习方法的优点在于可以在不需要大样本的情况下进行模型训练,同时可能会丢失一些关键特征,难以判断特征的质量。
2.2 深度学习 深度学习是一种基于特定的网络结构以及训练方法对数据进行表征学习的算法,它可以模仿人体神经网络结构的架构层次,使用多重非线性变换构成的多个处理层对数据进行高层抽象,使得模型能够揭示数据的内在规律和表示层次[11]。常用的分类方法包括卷积神经网络、生成式对抗网络、深度神经网络、深度置信网络、递归网络等[10]。卷积神经网络由输入层、卷积层、池化层、全连接层以及输出层等组成[11],旨在建立一个输入变量与输出变量相对应的模型映射,在建立模型的过程中通过卷积池化过程学习到这种映射的能力并使模型不断完善,深度学习算法可以使得卷积层对输入的语音特征进行卷积的基础之上完成特征信息的分级表达,使模式识别更加精确。深度学习神经网络模型是根据系统所提供的原始数据,通过训练和学习的方式,表达语音输入和输出之间的内在联系,语音识别可以借助深度学习神经网络和数理统计方法,基于人脑的活动基理和组织架构,建立对语音信号处理的生物神经网络模型。这种以神经网络为基础的语音识别系统可以模仿神经元的活动机制,通过不同的机制采用多种算法对语音特征进行提取[12]。深度学习具有强大的特征学习能力,只需要一组经过预处理的语音数据就能够进行自主特征学习;而且特征提取、选择、分类可以在同一个最优化的深层结构中实现,提高了分类结果的准确率。
近些年来,随着语音建模方法的不断更新,研究的重点问题由 “音随抑郁严重程度的变化规律”演变为“基于语音特征的抑郁症识别”。越来越多的研究利用机器学习或深度学习的方法对抑郁症患者的语音特征进行研究,探讨语音这一客观生理指标在抑郁症辅助识别中的可行性。
3.1 国外研究进展 国外研究发现,语音特征可以有效识别抑郁症。在横断面研究中,抑郁症患者共振峰和功率谱密度是分类模型中的有效特征[13]。基于共振峰特征参数, 采用支持向量机和高斯混合模型构建的抑郁症分类器,准确率分别为73%和70%。也有研究以基频和基频微扰作为输入特征,采用多元最大似然值方法,选取 30 例抑郁症患者和 30 名健康对照建立语音识别模型,其模型准确率高达90%[14]。Shin等[15]通过对抑郁症患者按病情程度(高、中、低)进行分类,通过半结构式访谈获取其语音数据,并提取其中21个语音特征,发现抑郁症患者语音特征与正常人之间存在明显差异;利用多层感知器方法对抑郁症患者语音数据进行分析发现,通过语音特征来检测轻度抑郁症患者效果较好。在不同性别的抑郁症患者研究中,Lee等[16]使用增强学习法对所收集的语音进行分析,发现男性患者语音特征中的能量特征对于抑郁症的辨别能力较好,而女性患者中与韵律相关的语音特征辨别能力较强。由于语音特征的多样性,使用单一类别的语音特征无法捕捉具有一定辨识度的信息来辅助临床进行抑郁症识别。Cummins等[4]使用梅尔倒谱系数和共振峰,构造高斯混合模型,分类准确率为77%和74%,将两类语音特征进行融合后分类准确率高达79%。在纵向的研究中,Ooi等[17]对青少年进行随访,基于4种语音特征建立多通道音频信号分类器,一共识别出15例抑郁症患者,并通过两年随访进行验证,其分类模型准确率为73%。
3.2 国内研究进展 国内学者针对抑郁症患者的语音发声特点,采用改进性谱减算法进行语音增强,发现基频、前三共振峰、能量可以作为识别抑郁症的有效特征[18]。潘玮等[19]收集45例抑郁症患者和58名健康对照的语音数据,采用分类算法逻辑回归构建抑郁症识别模型,其预测准确率为82.9%,召回率为73.9%。谭彪等[20]基于支持向量机-递归特征消除算法对语音特征进行评级排序,然后将前N维评级特征通过多层感知器进行分类识别,该模型具有较高的抑郁识别率。兰州大学团队基于样本概率的集成剪枝算法建立抑郁症识别模型,通过结合多语段数据融合的分析方法构建结合多个学习器,提高了语音识别的准确性。针对不同性别的语音研究中,王田阳等[21]选取132例,使用高斯混合模型在多个特征集上建立多特征集决策系统,通过模型训练发现男性和女性数据的分类准确率分别为70%和75%。李金鸣等[22]基于一种新的网络模型框架,利用上下文情感信息的多尺度音频差分归一化特征构建了抑郁回归预测网络,结果发现语音特征的变化与贝克抑郁量表分数显著相关,提高了模型预测贝克抑郁量表分数的准确度。
综上,随着研究领域不断扩大,数据量以及方法不断增多,研究一致性地发现了语音特征和抑郁症状的严重程度相关;语音特征可以作为区分抑郁症患者和健康人群的客观生物学指标;选取具有抑郁症代表性的语音特征和不同的分类方法,能够提高抑郁症的识别准确率。不一致的地方在于:不同的研究中心发现的有效语音特征不同;通过不同方式收集到的抑郁症患者语音信息,其预测结果的准确性存在差异;基于不同的语音特征,采用不同的机器学习或深度学习方法对于抑郁症识别具有不同的效果。语音特征能否作为客观有效的生理指标用于抑郁症的辅助识别有待于进一步研究证实。
4.1 抑郁症语音数据集的适用性 抑郁症语音数据库的质量决定了由它训练得到的分类模型的准确率。目前语音识别技术可以用到的语音公开数据库较少,国内现阶段还没有已经公开的、统一的、具有代表性的抑郁症患者汉语语音数据库。
4.2 语音特征选取的有效性 不同个体在声音的音量、音调、语速等方面具有各自不同的特征,不同语音数据集上最为有效的可以区分是否抑郁的语音特征也有所不同。在建立分类模型前,关键在于能够选取有显著差异的有效语音特征,然而现有研究尚未一致性地找到这一语音特征应用于临床。
4.3 抑郁症识别结果的准确性 目前语音数据采集的方法不统一,如麦克风特性及安置、语音种类、言语方式以及评估的类别等都会影响结果的一致性。
抑郁症是一类复杂精神疾病,从语音特征中提取与患者情绪状态相关的信息,判断说话人是否患有抑郁症以及症状的严重程度,是近些年来医工交叉学科研究的热点;然而单一的语音信息不足以反映疾病的全部特征。在今后研究中,采用统一标准化的语音数据采集过程,结合语义特征、面部表情特征、脑影像特征以及可穿戴设备采集到的生理指标,对多元化数据引入和挖掘,将有利于提高人工智能模型识别抑郁症的准确率,最终为抑郁症的辅助识别提供客观指标和依据。