基于语音的情感变化研究

2018-05-08 13:20赵慧娟辛丽华
电子技术与软件工程 2018年22期

赵慧娟 辛丽华

摘要 随着人机交互对智能化、个性化以及和谐化需求的不断提升,情感因素在交互中扮演着越来越重要的角色。情感计算包含情感识别、情感表达以及情感交互等,情感识别是情感表达和情感交互的基础,情感变化的识别是情感识别的扩展和延伸,是研究情感调适的基础。本文从情感变化的概念和衡量方法出发,对情感变化检测的主要研究思路和研究方法以及异常情感变化的识别进行了研究和归纳,并对情感变化研究的应用场景进行了总结和展望。

【关键词】语音情感识别 情感变化 情感状态转移 异常情感检测

1 引言

情感计算(Affective Computing)的概念由美国MIT媒体实验室的R.Picard于1995年提出,并于1997年正式出版专著“AffectiveC omputing(情感计算)”。在书中她定“隋感计算是于情感相关、来源于情感或能对情感施加影响的计算”。情感计算研究人们的情感,包含情感的识别,情感的表达以及与具体应用情感的结合,在人机交互领域有着重要的意义,比如对于智能化设备,我们不仅需要考虑其“智商”需求,还要对其有“情商”要求,以真正的实现人机和谐、自然的交互。若在交互时能准确识别出用户当前的状态,可以根据用户的情感状态、用户的年龄、性别等其他信息提供符合用户当前需求的服务,实现交互的个性化要求。

根据不同应用场景的现实条件约束和系统要求,在交互时,有多种模态的数据如语音、表情、姿态或者通过可穿戴设备采集的生理等信号均可以获取用户的情感信息,目前基于语音、表情、视频以及生理信号的情感识别均吸引了较多研究者的关注。语音交流是人与人最自然的一种交互方式,数据的采集以及识别在不考虑背景噪音的情形下,相比其他模态数据均具有一定的便捷性,且具有对用户的干扰小等优点。基于语音的情感计算是目前研究的热门课题,而对于情感的研究,目前较多的集中在情感类别的识别或者情感在不同维度的值的预测,重点关注识别的准确率和识别的效率。对于异常情感的检测,是将类别中的焦虑或者愤怒等个别的类别作为异常情感来识别,而对于情感的变化则研究较少。众所周知,语音信号是动态变化的,具有非平稳、非线性等特点。人类的情感包含动态的信息,难以使用静态信息描述人们的情感交互。将语音信号抽象为一个动态过程,是研究说话人特点、情感预测和情感变化的基础。

研究说话人的情感状态,对于了解用户的精神状态、心理状况以及将康状况有着重要的影响。在中医理论中,早有“怒伤肝,喜伤心,思伤脾,忧伤肺,恐伤肾”的论断。人的喜怒哀乐直接影响到生理健康状态。研究指出许多心理疾病是由于人们情志不调引起的,正确认识情绪与健康的关系,是保持人体健康的一个重要因素。心理学也指出长期处于消极、悲观的状态会引起抑郁情绪,若长期得不到有效的调节,则会加重并发展为抑郁症、焦虑症等心理疾病。研究表明,当人受惊吓、焦虑不安时语速会变快,声音频率会加快,声音会时有颤音。当人愤怒时声音会变高。当人开心时声音会表现的很爽朗、明快。语音信号会随着情感状态的变化而产生相应的变化,声音信号可以很大程度上反映出人们的情绪状态,因此可以根据用户的语音信号识别出情感状态。随着社会老龄化进程的加快,老年人特别是独居老人的情绪情感更加需要及时的情感监控和调适。情感变化的检测是情感识别的扩展和延伸,是情感调适的基础,是实现个性化和谐化人机交互的重要课题之一。

2 情感变化的理论研究

2.1 情感变化的概念和衡量

情感的研究模型可以分为离散情感模型和维度情感模型。前者将情感定义为离散的、有限的几种情感类别,后者将情感定义为维度模型空间中的一个点,该点唯一确定了用户当前的情感状态信息。情感的变化是指两个时刻语音帧对应的情感状态的差异。根据情感模型的不同,对于情感变化的研究方法也存在差异。

首先,对于情感变化的定义,离散情感模型研究的是从一种情感到另一种情感的状态变迁,通常是判断相邻两帧数据或者两个不同时刻的情感变化;而对于连续情感模型来讲,情感变化则定义为从情感空间的一个点移动为另一个点,从向量的角度来看,可视为向量的减法,对于多维的连续情感模型,则可以用张量的概念来表示。前者明确给出了情感状态的变化,从什么状态变迁到什么状态,但无法量化变化量的大小。后者从向量的角度,可以根据向量的夹角和向量的长度衡量情感变化量的大小。研究人员提出从离散情感向维度情感的转换,将离散情感类型映射到维度空间模型中,二者建立起来联系。图1以二维情感Valence-Arousal模型为例,给出情感变化衡量的示意图。Es、Et分别表示两个不同时刻的情感,8E表示情感的变化值。图2是离散情感和维度情感的映射表示。

2.2 情感变化的规律统计

离散情感的变化主要体现在的情感状态的变迁以及变迁的条件和可能性。比较典型的研究方法是基于马尔科夫链的方法及其改进思路。该方法将情感的状态转移建模为马尔科夫链,表示情感的状态转移,根据历史转移数据得到历史统计概率,然后选择少量的当前数据作为测试数据,获取当前的瞬时转移概率,比较概率的不同。研究者Thornton M根据被试将自己的精神状态上报以统计出其转移规律,提出一种精神状态转移模型,文中表示人们的精神状态的转移也是符合一定规律的,与马尔科夫模型一致。文章从心理学角度分析用户的精神状态转移,为研究人们的情感状态提供了有意义的理论支撑。Huang Z基于检测说话人变化的方法,提出一种利用先验知识采用滑动窗口计算情感相似值的方法。如果相似值在指定的阈值以外,则认为情感发生了变化。接着并對此方法进行了改进,采用鞍方法的情感变化检测框架,不同于大多数采用滑动窗口的检测情感变化的方法,鞍方法提供了一种新的检测思路。王志良等则提出一种基于有限状态自动机的方法来研究情感的转移。

维度情感方面Huang等采用Kalman滤波模型,分别研究了V、A两个维度的情感变化预测,先获取观测值再在下一时刻进行更新,并引入一种延迟机制。从连续维度的角度来分析情感变化了多少以及变化的方向。在情感调适模型中,也是基于调适前和调适后的情感数据来衡量调适的效果。

2.3 异常情感变化的检测

相比于正常的情感识别,异常情感检测的研究更具有深远的价值,同时也只有掌握了正常情感的转移规律

才能更好的识别异常情感,正常情感的识别和异常情感的检测相辅相成。目前异常情感的检测也主要基于历史数据的统计,识别规律并建立模型,然后根据此模型识别新的情感,并判断情感转移是否是异常情感转移。

对于离散情感模型,Sun等研究者获取情感转移矩阵即得到情感转移模型,然后根据此模型判断是否是异常情感转移。采用神经网络建立异构模型识别用户的情感,并通过采样统计了日常对話场景中交互的双方情感转移的规律,将当前的瞬时转移规律与历史统计规律比较,并参照阈值的大小判断是否是异常情感转移。建立一种动态的情感转移模型。Thomton指出人们的精神状态的转移时,对于极性相反的转移一般需要经过中间状态的过渡,比如从积极状态先转移到中性的情感状态后再转移到负向的情感状态,而直接发生情感突变的情形较少。维度情感模型,重点在于阈值的确定即相邻两帧数据情感的变化达到什么程度时可以定位为异常的情感变化,同时还应考虑其变化的方向。

3 语音情感变化的典型应用

基于语音的情感变化的检测有着较为广泛的应用前景。首先,异常情感变化的识别即是一项典型的应用场景。对于独居老人,远方子女或者亲属参照老人日常的语料的收集,根据与老人的电话、在线语音聊天等应用中的数据检测可以及时识别老人的情感变化,比如突然失落或者暴怒,此时及时给予干预触发其情感超积极情感转移,必要时请专业人士辅助进行心理和情绪调适,或者采用智能设备比如使用情感机器人等作为老人的精神陪伴。再者,对于飞行员、火车、地铁驾驶员、海底探险等特殊任务中,对人的情绪状态监控,也有着非常重要的意义。另外,在心理咨询和心理治疗中,可以监测咨询者的情感变化给予辅助诊断,辅助咨询师做出心理调适的引导和辅助治疗,随着调适和辅助效果的提升,可以推广在线智能咨询,减少心理咨询师的工作压力,并为患者提供更加便捷的服务。语音情感的监控以及语音情感变化的识别。总之,语音情感监控和情感变化的检测,在面向老年人的健康监护、驾驶员、飞行员、探险和事故救援、在线心理援助以及心理咨询等方面有着日益广泛和深入的应用。

4 结束语

本文从情感模型入手,研究了基于语音的情感变化模型以及异常情感检测的研究思想和主要方法,并对情感变化的典型应用场景进行了展望。随着情感识别技术的不断改进、情感识别准确率和算法性能的不断提升以及多模态情感研究的持续推进,基于多模态的情感识别和情感变化检测、实时的情感检测将给用户带来更加便捷和个性化、智能化的人机交互体验。

参考文献

[1]韩文静.语音情感识别关键技术研究[D].哈尔滨工业大学,2013.

[2]Li M, Han K J,Narayanan S. Automaticspeaker age and gender recognitionusing acoustic and prosodic levelinformation fusion [J]. ComputerSpeech&Language, 2013. 27 (1): 151-167.

[3] Schuller B W. Speech EmotionRecognition: Two Decades in aNutshell, Benchmarks, and OngoingTrends [J]. Communications of theAcm, 2018, 61 (5): 90-99.

[4] Ma X, Lin W, Huang D, et al.

Facialemotion recognition [C],/ IEEE,Internat ional

Conference on

Signaland Image Processing. IEEE, 2017.

[5]段立娟,葛卉,杨震.一种基于核超限学习机的多模融合视频情感识别方法:,CN105512609A [P]. 2016.

[6] Liu S, Chen L, Guo D, et al.Incorporation of Multiple-Days Information to Improve theGeneraliza tion

of

EEG-Ba sed

Emot ionRecognition Over Time: [J]. Frontiersin Human Neuroscience, 2018, 12.

[7]牛腊红,刘涛,情绪与健康[J].中华中医药学刊,2007, 25 (03):544-545.

[8] Schuller B W. Speech EmotionRecognition: Two Decades in aNutshell, Benchmarks, and OngoingTrends [J]. Communications of theAcm, 2018, 61 (5): 90-99.

[9] Moataz M. H. El Ayadi, MohamedS. Kamel, Fakhri Karray: Surveyon speech emotion recognit ion:Features, classification schemes, anddatabases. Pattern Recognit ion44 (3):572-587 (2011)

[10] Sun X, Zhang C, Lian L I. DynamicEmotion Modelling and AnomalyDetection in Conversat ion Based onEmotional Transition Tensor [J].Informat ion Fusion,

2018.

[11] Thornton M A, Tamir D I. Mentalmodels accurately predict emotiontransitions [Psychological andCognitive Sciences] [J] .

Proceedingsof the National Academy of Sciencesof the United States of America.2017, 114 (23) : 5982.

[12] Huang Z. An investigation ofemotion changes f rom speech [C] //Internat ional Conference on AffectiveComputing & Intelligent Interaction.IEEE Computer Society, 2015.

[13] Huang Z, Epps J. DETECTING THEINSTANT OF EMOTION CHANGE FROM SPEECHUSING A MARTINGALE FRAMEWORK [C] //IEEE International Conference onAcoustics. IEEE. 2016.工程 , 2010, 36 (18) : 24-25.

[15] Zhaocheng Huang, Julien Epps: AnInvestigation of Emotion Dynamicsand Kalman Filtering for Speech-Based

Emo tion Prediction. INTERSPEECH2017: 3301-3305

[16] Zhaocheng Huang, Julien Epps:Prediction of Emotion Change FromSpeech. Front. ICT 2018 (2018)

[17]Cirakman 0. Gunsel B. Online speakeremotion tracking with a dynamic statetransition model [C] //

Interna tionalConference on Pattern Recognition.IEEE, 2017.

[18] Thornton M A. Tamir D I. Mentalmodels accurately predict emotiontransitions [Psychological andCognitive Sciences] [J]. Proceedingsof the National Academy of Sciencesof the United States of America,2017, 114 (23) : 5982.

[19] S. Lugovic, I. Dunder, M.Horvat: Techniques and applicat ionsof emotion recognition in speech.MIPR0 2016: 1278-1283