,,
肿瘤病人由于受到病情、治疗水平、护理水平和家庭环境等多方面因素影响,通常会呈现出多种心理情感状况,如部分病人由于身体疼痛、情绪应激等原因,容易出现害怕、恐惧等心理,甚至出现轻生现象;部分病人受到家人关心,性格开朗,对康复持乐观态度,能积极配合医护人员治疗[1]。及时分析肿瘤病人心理情感状况,针对病人不同心理特点,针对性地进行护理干预,有利于促进肿瘤病人身心健康恢复、提高其生活质量[2]。语音情感分析系统可以实时检测肿瘤病人心理状态,及时判别出病人心理情感,当病人负面情绪较为强烈时,可以提示护理人员加强对病人的心理干预;当病人处于正面情绪时,可以适当降低对其的心理干预,从而降低护理人员工作负担。
心理情感识别主要分为3个方面:病人语音特征提取、构造情感特征向量和对特征向量进行分类判断。要想对病人心理情感进行正确判断,就需要按照一定规则对心理情感进行分类,由于人类的心理情感较为复杂,目前业内还未形成定论,因此针对分类方法和种类数目存在多种版本[3]。
人类语音产生的机制较为复杂,需要人体多个器官密切配合,其中包括口腔、咽喉、肺部和鼻腔等器官,这些器官根据其作用原理又可分为发声部分(前庭襞、喉室、声襞)、管道部分(上鼻道、咽鼓管圆枕、咽鼓管咽口、软腭、会厌)、共鸣腔体部分(额窦、蝶窦)[4],见图1。其中,喉部肌肉声带之间有裂缝,叫声门裂。由于声带松紧程度不同,声门裂的长短、大小存在差异。当肺部呼出的气体经过声门裂时,声带发生振动,且受其影响喉腔空气流动,从而发出声音。
1—前庭襞;2—喉室;3—声襞;4—上鼻道;5—咽鼓管圆枕;6—咽鼓管咽口;7—软腭;8—会厌;9—额窦;10—蝶窦
为了使声音变成计算机可以识别、处理的信号,通常需要将语音转换成数字信号,再从数字信号中提取出心理情感特征,即语音预处理。具体流程为:采样-分帧、加窗-端点检测-特征提取[5]。
语言信号虽是一种时变非平稳信号,但在短时间内(10 ms ~30 ms)状态相对平稳,从而为分帧加窗提取,将一段较长的语音信号分成若干帧提供了可能[6]。
利用端点检测技术可以判断一段语音的起始点和结束点,将提取的语音先后通过杂声过滤、降低杂声数据量、剔除冗余数据,可以有效提升系统的反应速度和心理状态判断准确率。检测结果见图2。
图2 语音端点检测
不同肿瘤病人说话内容、语境等均不相同,这些因素均会对心理状态判断准确率造成影响,因此在语音情感分析过程中通常需要对语音特征提取后再进行判断。
本研究主要提取了基于韵律学的短时语音能量和基于谱特征的Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC),并通过计算其统计量来表征情感特征,包括均值、方差及差分的 MFCC(D-MFCC)[7]。
语音能量是语音信号中较为基本的特征,其计算方式为:
其中,En为语音能量,n为语音帧数,χ为语音信号。
MFCC以人耳听觉特性为基础,与频率成非线性对应关系,其提取流程见图3[8]。
图3 MFCC提取流程
心理情感识别模型主要分为两部分:训练部分和测试部分。训练部分主要是将心理情感特征和情感标签输入到分类器模型中进行训练,得到相应的分类规律,目的是利用训练得到分类模型,对测试语音的心理情感特征进行分类,通过模型计算、判断,给出相应的分类结果。
本研究采用的模型主要为支持向量机(support vector machine,SVM)[9]。SVM模型利用概率统计的思想,以结构风险最小为基石,不仅可以解决线性问题,还可以应用于小样本、高维度、非线性场合[10]。该模型通过二次规划方式将训练数据分割在最优分类平面两侧,实现了数据分类,其训练过程就是寻找最优划分平面,分类平面间距最大的分类即最佳分类[11]。详见图4。
图4 SVM最优分类法示意图
若X={(x1,y1),(x2,y2),…(xN,yN) },i=1,2,…,N,xi∈Rd为数据集,yi∈{1,-1}为种类的标签。在线性可分的d维空间中,线性判别表达式为:g(x)=wTx+b,其中w为分类器的法向量,因此超平面的方程为:
g(x)=wTx+b(2)
上式中,b即为阈值。对判别函数进行归一化处理,使训练集中两类数据都满足|g(x) |≥1,此时即可求得两者之间的间距2/‖w‖。每个向量xi都存在与之对应的w和b,且二者满足下列不等式:
yi(wTx+b)-1≥0 (3)
当以上不等式成立,且‖w‖的二范数为最小值时,该分类平面即为最优分类平面。如图4所示,实线即为最优分类平面,与实线平行的两条虚线上的数据即为支持向量,此时公式(3)中等号成立。
在训练数据集可分的情况下,可将最优平面求解转换为下式约束优化函数问题:
s.t.yi(wTx+b)-1≥0,i=1,2,…,N(5)
本研究实验验证主要采用中科院自动化研究所情
感语料库(CASIA),该语料库的录音人员为4人,语音为汉语,包含高兴(happiness)、中性(neutral)、惊讶(surprise)、愤怒(anger)、悲伤(sadness)5种情感,每种情感语句均为200句。基于语音的心理情感识别原理见图5。实验流程为:①准备训练数据;②对数据集进行相应整理;③选取对应的核函数;④交叉验证选择最佳模型参数;⑤利用最近参数对全部数据进行训练,得到模型;⑥利用获得的模型对心理情感进行判断。
图5 心理情感识别系统原理
首先通过对原始语音进行的分帧、端点检测等预处理方式获取有效语音信号,为后续的特征提取和分类识别提供数据基础;在特征提取时,主要采用12阶的MFCC及短时语音能量;选取径向基(RBF)为核函数对多个分类器进行训练,该函数具有训练速度快、精度高等特点,数学表达式为[12]:
K(x,y)=e-g‖x2-y2 ‖(6)
采用未参与训练的语音特征进行识别实验,检测模型的泛化能力。将测试语音的特征参数输入到这10个模型中,由于这10个SVM模型都有唯一的输出,因此可以获得10个识别结果。将这10个识别结果进行投票,得票最多的情感即为最终情感结果。
利用 MFCC 参数进行SVM模型的心理情感识别实验,结果显示:当将生气的语音特征输入到模型中时,判断生气的概率为70%,开心的概率为22%,中性的概率为2%,悲伤的概率为0,惊讶的概率为6%,以此类推。基于MFC的心理情感判断准确率较高,能够较好地识别出说话人的心理情感状况,但在开心、生气的情感判断中,准确率仍有较大提升空间。各心理情感判断结果见表1。
表1 基于MFCC的心理情感判断结果
将判断特征中加入短时语音能量后,心理情感判断准确率得到一定程度提高,其中悲伤的判断准确率可以达到96%。各心理情感判断结果见表2。
表2 基于MFCC+短时语音能量的各心理情感判断结果
由于之前的实验部分只考虑到语音信号各帧的静态特性,未考虑MFCC动态变化对心理情感判断准确率的影响,因此在实验中可加入D-MFCC特征进行分类实验。通常D-MFCC对情感分类没有MFCC敏感,但D-MFCC能够从另一个角度反映情感的不同状态,同时采用D-MFCC及短时语音能量可以提高心理情感判断的准确率,详见表3。当加入特征D-MFCC后,生气和开心判断准确率均有一定程度提高,悲伤和惊讶判断准确率略微下降,总体判断准确率由84.4%上升为84.8%,证明加入D-MFCC对整个系统的判断准确率有一定的促进作用。
表3 基于MFCC+D-MFCC+短时语音能量的心理情感分类实验结果
肿瘤病人情绪多变,如不能及时发现病人过多的负面情绪并加以疏导,容易导致病人生理、心理病情双重恶化,不利于进一步康复治疗[13]。本研究采用SVM模型通过提取语音特征进行心理情感判断,判断准确率较高,有利于医护人员及时把握病人心理状态,进行情感信息反馈,对病人心理健康及医学治疗的顺利实施有一定意义。
但本系统也存在一定缺陷,如病房等较为嘈杂的环境容易对系统判断产生消极影响;本系统仅通过语音判断病人心理状况,形式单一,未来可考虑对图像、文本内容等多方式进行融合,全面对病人的心理状态进行实时检测。