基于多模态融合的情绪检测研究

2019-11-15 10:23崔冠军
电子技术与软件工程 2019年19期
关键词:语料库分类器语义

文/崔冠军

1 研究背景与现状

你的情绪,现在正变成一场情绪经济。当你疲劳驾驶,走神或焦躁的情绪将被车识别警告;用平板学习产生困难,它将读取你困惑的情绪,并放慢教学速度;当售出一个商品,你可以通过消费者面部情绪快速评估产品的效果……《卫报》称,情绪识别已经成为规模 200 亿美元的行业,且还在持续扩充中。早在2009年,第一家营销人工情绪智能的公司Affective就已经将情绪检测技术作为市场研究产品出售。包括检测机械员工损伤、视频游戏用户体验、协助医护人员评估患者健康等各行各业,围绕它的领域都在持续增长,亚马逊、微软和 IBM 也将情绪分析作为他们情绪识别产品的主要功能进行宣传。Affective 创始人Kaliouby 预测,不久的将来,当这项技术无处不在并融入我们所有的设备中时,能够利用我们的内心、潜意识做出瞬间的反应。Karan[1]等人提出一种在无约束环境下自动检测情感的方法,利用多核学习将提取的特征组合起来,使用支持向量机进行分类。Liu[2]等人提出一种基于视频的人类情感识别方法。对于每个视频片段,所有帧表示为一个图像集合。在决策层对从两种模态(视频和音频)学习到的分类器进行最佳融合。Samira[3]等人针对不同的模态结合多个深层神经网络进行情感识别。Sun[4]等人对于每个视频片段,提取SIFT、LBP-TOP、PHOG、LPQ-TOP和音频特征,为每一种特征训练不同的分类器,并针对所有提取的特征提出了一种新的分层分类器融合方法。Liu[5]等人研究了核支持向量机、logistic回归和偏最小二乘三种分类方法进行比较。最后,在决策层对不同核和不同模态(视频和音频)的分类器进行优化融合,进一步提高分类性能。Chen[6]等人提出一种新的特征描述子,研究视觉和听觉特征,并采用多核学习方法寻找最优特征融合。Yao[7]等人采用表情特定动作单元(AUs)提取面部特征。Kaya[8]等人开发了一组常用的时空建模方案,并进行了多模态融合。Kahou[9]等人将混合CNN-RNN体系结构用于面部表情分析。Sarah[10]等人建立系统,以视频流作为输入,产生情感标签。Fan[11]等人使用递归神经网络(RNN)和三维卷积神经网络(C3D)相结合的混合网络,采用后期融合方式进行情绪识别。Yan[12]等人提出了一个多线索情感融合框架(MCEF)。Yao[13]等人提出了HoleNet框架进行情绪识别。Kara[14]等人建立影像模型,将视听特征与基于最小二乘回归的分类器和加权评分融合相结合。Hu[15]等人在深度卷积神经网络上加入监督评分集成机制。当前,使用AFEW数据集的研究主要集中于表情模态、语音模态。原因在于可用于深度学习的情感分析语料库的情感标注基本都为情感倾向标注,而不是AFEW数据集的基本情绪标注。因此,为了使语义模态在AFEW数据集上发挥作用,花费大量的时间和精力对原有的Twitter情感分析训练语料库中的每条推文重新人工进行情感标注,使其与AFEW数据集一致。本论文将语义模态、表情模态、语音模态相融合,采用后期融合的策略对三种模态的结果进行融合。

2 研究方法

2.1 表情模态

2.1.1 人脸检测-多任务卷积神经网络MTCNN

MTCNN是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。和很多处理图像问题的卷积神经网络模型,该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。

2.1.2 表情情感分析模型-深度残差网络Resnet

在一些场景下,网络层数的增加反而会降低正确率。这种本质问题是由于出现了信息丢失而产生的过拟合问题。解决思路是尝试着使他们引入这些刺激的差异性和解决泛化能力为主。深度残差网络的设计就是为了克服这种由于网络深度加深而产生的学习效率变低,准确率无法有效提升的问题,它允许网络尽可能的加深。残差网络将前若干层的数据输出直接跳过多层而引入到后面数据层的输入部分,后面的任何一层向量的内容会有一部分由其去前面的某一层线性贡献。

图1:残差网络

图2:傅里叶频谱图

残差网络提出两种mapping:一种是identity mapping,指的就是图1中“弯弯的曲线”;另一种是residual mapping,指的就是除了“弯弯的曲线”那部分,最后的输出是y=F(x)+x。identity mapping指代本身,也就是x,而residual mapping指的是“差”,即y-x,残差指的就是F(x)。理论上,对于“随着网络加深,准确率下降”的问题,Resnet提供了两种选择方式,也就是identity mapping和residual mapping,如果网络已经到达最优,继续加深网络,residual mapping将被push为0,只剩下identity mapping,这样理论上网络一直处于最优状态了,网络的性能也就不会随着深度增加而降低了。

2.2 语音模态

2.2.1 短时傅里叶变换(STFT)

为了提取音频特征,使用短时傅里叶变换(STFT)得到傅里叶频谱图。如图2所示。

短时傅里叶变换是一个用于语音信号处理的通用工具。它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度。实际上,计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换,即傅里叶频谱。

2.2.2 语音情感分析模型

将每个音频片段的频谱图像输入到VGG19模型中。

2.3 语义模态

2.3.1 Elmo动态词向量

Elmo由艾伦研究所开发,被称为时下最好的通用词和句子嵌入方法,来自于语言模型的词向量表示,也是利用了深度上下文单词表征。ELMo是双向语言模型biLM的多层表示的组合,基于大量文本,ELMo模型是从深层的双向语言模型中的内部状态学习而来的,而这些词向量很容易加入到QA、文本对齐、文本分类等模型中。

2.3.2 TextCNN

TextCNN由Yoon Kim提出,将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。

2.4 多模态融合策略

我们认为后期融合能产生更好的结果。表情、语音及语义三个模态的分类器置信度得分分别为SA、SB及SC,使用权重rA、rB及rC,其中 rA+rB+rC=1,且0

与其他的超参数一样,融合的相关参数也在训练过程进行了优化。

3 实验

3.1 AFEW数据集

实验采用的是AFEW数据集,该数据集为Emotion Recognition In The Wild Challenge(Emotiw)系列情感识别挑战赛使用的数据集,内容为从电影中剪辑的包含表情的视频片段,表情标签为高兴、悲伤、生气、惊讶、恐惧、中性六类基本表情。

3.2 Twitter情感分析训练语料库

Twitter情感分析训练语料库,该情感分析数据集包含31962条分类推文。原有的语料库每行标记为1表示积极情绪,0表示负面情绪,用来训练语义情感分析模型。为了使得语义模态可以与表情模态、语音模态相融合,我们对原语料库的每条推文重新人工进行情感标注,与AFEW数据集一致,分为高兴、悲伤、生气、惊讶、恐惧、中性六类基本情绪。

3.3 实验结果

如表1所示。

4 总结

表1

AFEW数据集中的内容为从电影中剪辑的包含表情的视频片段,分为六种基本情绪,真实性很高。当前,可用于深度学习的情感分析语料库的情感标注基本都为情感倾向标注,无法在该数据集上使用语义模态。因此,使用AFEW数据集的研究主要集中于表情模态、语音模态。为了使语义模态在AFEW数据集上发挥作用,花费大量的时间和精力对原有的Twitter情感分析训练语料库中的每条推文重新人工进行情感标注,与AFEW数据集一致,也分为六种基本情绪。本篇论文在AFEW数据集上,初次将表情、语音及语义三个模态相融合,在视频片段情感识别的准确率上有所提升。但融合的策略相对简单,今后的研究将集中与融合策略方面。

猜你喜欢
语料库分类器语义
语言与语义
《语料库翻译文体学》评介
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
“上”与“下”语义的不对称性及其认知阐释
基于JAVAEE的维吾尔中介语语料库开发与实现
认知范畴模糊与语义模糊
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
语义分析与汉俄副名组合