冯月华 魏若岩 朱晓庆
摘 要:为解决基于视觉的情感识别无法捕捉人物所处环境和与周围人物互动对情感识别的影响、单一情感种类无法更丰富地描述人物情感、无法对未来情感进行合理预测的问题,提出了融合背景上下文特征的视觉情感识别与预测方法。该方法由融合背景上下文特征的情感识别模型(Context-ER)和基于GRU与Valence-Arousal连续情感维度的情感预测模型(GRU-mapVA)组成。Context-ER同时综合了面部表情、身体姿态和背景上下文(所处环境、与周围人物互动行为)特征,进行26种离散情感类别的多标签分类和3个连续情感维度的回归。GRU-mapVA根据所提映射规则,将Valence-Arousal的预测值投影到改进的Valence-Arousal模型上,使得情感预测类间差异更为明显。Context-ER在Emotic数据集上进行了测试,结果表明识别情感的平均精确率比现有方法提高4%以上;GRU-mapVA在三段视频样本上进行了测试,结果表明情感预测效果相较于现有方法有很大提升。
关键词:情感识别; 背景上下文; 多标签分类; GRU; 情感预测
中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2024)05-043-1585-09
doi:10.19734/j.issn.1001-3695.2023.08.0388
Visual emotion recognition and prediction based onfusion of background contextual features
Abstract:To address the problems of inability to capture the impact of environmental factors and interaction with surrounding individuals on emotion recognition in vision-based affective computing, limitations of describing emotions with a single category, and inability to predict future emotions, this paper proposed a visual emotion recognition and prediction method integrating background context features. This method consisted of an emotion recognition model that integrated background context features(Context-ER) and an emotion prediction model based on GRU and continuous emotion dimensions of Valence-Arousal(GRU mapVA). Context-ER combined facial expressions, body posture, and background context(environment, interaction behavior with surrounding people) features to perform multi-label classification for 26 discrete emotion categories and regression for 3 continuous emotion dimensions. GRU mapVA projected the predicted values of Valence-Arousal onto the improved Valence-Arousal model based on the proposed mapping rules, making the differences between sentiment prediction classes more pronounced. Context-ER was tested on the Emotic dataset, and the results show an average precision improvement of over 4% compared to the state-of-the-art methods. GRU-mapVA was tested on three video samples, and the results demonstrate a signi-ficant improvement in emotion prediction compared to existing methods.
Key words:emotion recognition; background context; multi-label classification; GRU; emotion prediction
0 引言
情感識别与情感预测在日常生活和社交活动中有着广泛的应用,例如驾乘人员疲劳检测[1]、测谎仪[2]、学生学习状态监测[3]以及人机交互[4]等。
常见的情感表示分为粗粒度和细粒度两类。粗粒度只包括几种常见的情感表达,关注整体倾向性;细粒度包括更多情感类别,涵盖更具体的情感表达。在粗粒度表示中,一些研究[5~7]对常见的5~7种情感进行识别,因为情感是复杂、多维的表达,仅将其分为几种离散类别无法涵盖所有情感的细微差别。因此一些研究[8~10]还使用VAD三个连续维度描述情感:V(效价,valence),衡量情感的积极愉快程度,从消极到积极;A(唤醒度,arousal),衡量人物的激动程度,从不活跃、平静到激动、准备行动;D(支配性,dominance),衡量人物对局势的控制程度,从顺从、不控制到支配、控制。在细粒度表示中,文献[11,12]对26种离散情感分类,包括confusion、embarrassment、sympathy等复杂的情感类别。通过识别复杂情感类别,可以捕捉更细微的差别,更好地理解情感的复杂性和多样性。受文献[11,12]的启发,本文对26种离散情感类别和3个连续情感维度进行分类和回归。
在基于视觉的情感识别研究中,面部表情通常被认为是表征情感最好的方式[13],通过分析面部表情进行情感识别,在近些年来已经取得很多成果,例如文献[3,14~17]通过设计高效的面部特征提取网络,解决了干扰、遮挡等问题,提高了面部表情识别的准确性。除此之外,部分研究考虑了其他的视觉线索。文献[18,19]结合面部特征和身体姿态特征进行情感判断实验,发现参与者会猜测与身体姿态特征相匹配的情感。文献[19]对环境背景信息的必要性进行了实验,发现即使在无声且参与者的面部和身体被遮住的视频中,观众也能成功推断出正确的情感。因此结合面部特征、身体姿态特征和环境背景特征进行情感识别能够更全面地理解和分析人物情感。文献[20]将面部、身体姿态和环境背景特征进行晚期融合,并使用K近邻分类器识别在群体水平上表达的唤醒度和效价。文献[11,21,22]提出了相似的双流架构,一个分支提取身体关键部位特征,另一个分支提取环境背景特征,再将两种特征直接拼接进行情感识别。文献[23]在双流架构的基础上提出多标签焦点损失,还指出在多任务学习中损失函数之间协同作用的重要性。然而上述方法都只是将不同特征进行直接简单的拼接,忽略了特征间的关联性。除此之外,有研究表明,人物之间的社交互动也会影响参与主体间的情感[24]。一些研究利用步行速度、距离和接近性等特征对个体之间的社交互动建模,以解释不同个体的行为特点,从而提高情感识别的准确性,但目前对人物之间社交互动影响人物情感的研究较少。
预测未来情感的研究主要聚焦于文本数据,如影评、留言等,并且基于文本分析进行情感预测。例如文献[12,25]提出基于文本的情感倾向预测模型,并把模型应用到销售预测、流行趋势预测领域。但预测结果一般是正向倾向或负向倾向两类,不会预测出具体的情感类型。针对此问题,一些研究[26,27]通过对唤醒度和效价进行预测,来掌握未来连续情感维度的变化趋势,但是并没有将连续情感维度与具体情感种类相结合,也不会预测出具体的情感类型。
通过上述描述可总结出现有方法存在的三个主要问题:a)情感种类少且单一,难以体现人物更多的情感信息;b)基于视觉的情感识别以关注身体关键部位特征为主,例如面部、身体姿态等,但是忽略了人物所处环境和与周围人物互动行为的影响;c)情感预测方法以分析文本预测情感倾向为主,预测结果只有正向和负向两类,不能预测出具体的情感类型。
为解决上述问题,本文提出了融合背景上下文特征的视觉情感识别与预测方法。针对问题a)和b),提出了融合背景上下文特征的情感识别模型(Context-ER),该模型同时提取人物身体特征、所处环境语义特征和与周围人物互动的深度图特征,如图1所示;利用自注意力机制和混合级融合对三种特征进行融合;对融合特征进行26种离散情感的多标签分类和3个连续情感的回归,使得情感识别更加精确。针对问题c),提出了基于GRU和Valence-Arousal连续情感维度[28]的情感预测模型(GRU-mapVA),该模型制定改进的Valence-Arousal模型和映射规则,将Valence-Arousal的预测值依据映射规则投影到改进的Valence-Arousal模型上,得到对应的预测情感种类,使得情感预测类间差异更明显。
1 本文方法
本文方法可完成情感识别任务与未来情感预测任务,总体流程如图2所示。
1.1 情感识别
1.1.1 融合背景上下文特征的情感识别
情感识别网络模型Context-ER如图3所示。身体特征提取模块以人物身体为中心,提取人物面部信息、身体姿态等重要线索。身体特征提取模块的主干网络为ResNet18,使用迁移学习技术,通过微调Krizhevsky等人[29]提出的预训练模型,将其应用到本文身体特征提取任务上,提取到身体特征向量后再引入一个自注意力机制关注人物身体对情感识别有利的区域。
Bolei等人[30]提供了场景分类效果较好的各种基线CNN,识别效果如表1所示。环境语义背景为场景中存在的物体以及正在进行活动的理解关键字,如表1中“室外”“悬崖”“阳光明媚的”“攀岩”等构成了一组环境语义成分,“室内”“办公室”“工作”“封闭的区域”等构成了另一组环境语义成分。从图像中识别环境的语义背景,提取环境语义成分,可能影响对人物的情感判断。环境语义特征提取模块以环境为中心,主干网络为ResNet18,使用迁移学习技术通过微调Bolei等人[30]的预训练模型,将其应用到本文环境语义特征提取任务上。
除了环境背景会影响对人物的情感判断外,人物背景也是一种判断情感的有利辅助信息,受文献[31]的启发,采用提取深度图的方法模拟人物之间的互动和接近性。本文提取深度图的步骤如下:a)进行数据预处理,将数据集中所有的图像规范化到RGB三通道;b)使用MegaDepth深度估计模型[32]得到原图像的单目深度图;c)对得到的深度图进行彩色渲染以加深效果;d)计算深度图的深度矩阵信息D,如下所示:
其中:D表示M×N的矩阵;D(i,j)表示深度图中第i行第j列的深度值,如图4所示,该图为经过彩色渲染的深度图。将单通道深度图变成三通道彩色深度图后,采用由三个卷积层、三个池化层和三个全连接层构成的网络提取深度图特征。
1.1.2 背景上下文特征與情感识别的相关性分析
从以下三种情况分析环境背景与情感的相关性(表2中“原图”列图片来自Emotic数据集[11]):a)完全无法获取面部信息时,如表2中第①组示例图片所示。此时无法根据面部、姿态识别情感,但依据环境背景特征可以推断出相应的情感表达。b)面部不完全或存在遮挡时,如表2中第②组示例图片所示。此时依据不完整的面部信息推断出的情感为neutral,但结合人物所处环境可得到真实准确的情感表达,如在婚礼场景下,人物更准确的情感为affection、esteem、happiness。c)可获取到完整的面部信息但相同的面部表情处于不同的环境中时,如表2中第③④组示例图片所示。以第③组为例,只依据面部表情,两张示例图片中的情感都为pain,然而一张在医院背景下,一张在体育场比赛背景下,故结合环境背景信息来分析,体育场比赛场景下的真实情感为disquietment、engagement、excitement。
故当无法从面部信息中获取情感时,可依据环境背景特征来推断情感;当面部信息不完整或存在遮挡时,结合人物所处环境可得到更准确的情感表达;当面部表情相同但处于不同的环境中时,结合环境背景信息可进一步分析和理解真实的情感表达。通过结合环境背景特征,可更全面地把握情感表达的细微变化,从而更好地理解人物的情感状态。
从以下两种情况分析与周围人物互动背景和情感的相关性(表3中“原图”列图片来自Emotic数据集[11]):a)当一个人与其他人有共同身份或是彼此熟知进行互动时,其情感趋向可能会趋于一致,如表3中第①组示例图片所示;b)当一个人与其他人身份不同或是陌生人时,其情感倾向可能会不同,如表3中第②组示例图片所示,篮球比赛中的运动员和观众、课堂中的教师和学生情感倾向不相同。
故情感可通过社交互动迅速传播,人物的情感会受与周围人的互动和接近性的影响,当与他人互动时,可能会受到其他人情绪的影响,从而改变自己的情感状态。
1.2 情感预测
情感预测GRU-mapVA流程如图5所示。将一段视频数据输入到上文所述的情感识别模型中,可识别出人物的离散情感种类和连续情感VAD值;现取得到的连续valence和arousal预测值作为门控循环单元(GRU)的输入,使GRU学习序列的时序特征,预测未来时刻的valence和arousal值;再将valence和arousal的预测值依据所提映射规则投影到改进的valence-arousal模型上,得到对应的预测情感种类。
1.2.1 情感预测映射规则
在VAD连续情感维度中,valence衡量情感的积极程度或愉悦程度,0~10代表从消极到积极;arousal衡量人物的激动程度,0~10代表从不活跃、平静到激动、准备行动。现定义情感预测映射规则,映射规则步骤如下:
a)取一个二维平面直角坐标系,横纵坐标分别为效价V和唤醒度A,取值均为0~10。
b)在所取二维平面直角坐标系上,定义四个区域五个端点,如图6所示。
c)若现有一段长为n的VA预测序列(t1,t2,t3,…,tn),每个ti表示一个坐标对,ti=(Vi,Ai),i∈[1,n],则将ti投影到二维平面直角坐标系的对应位置。
1.2.2 改进的valence-arousal模型
Hanjalic提出了效价-唤醒度空间理论[33],表示连续情感维度valence、arousal与16种离散情感类别之间的关系,如图7[33]所示。
由于本文先对视频进行情感识别得到连续的valence和arousal值,在此基础上再进行未来情感预测,而情感识别部分涉及了26种情感(valence-arousal模型只涉及了16种情感),为保持前后一致,且26种情感可以更全面地涵盖各种情感状态和表达方法,提高情感预测的准确性和适用性,故需要对valence-arousal模型进行改进。
改进的具体步骤如下:
a)保持原模型中五个端点(高唤醒度点、低唤醒度点、高效价点、低效价点、居中点)对应的情感不变。
b)使用word2vec词嵌入模型[34]捕捉情感词语之间的语义关系,再使用t-SNE降维算法[35]对高维情感词向量进行降维,结果如图8所示,含义相近的词语相互间的位置更接近。依据降维结果和语义接近性,扩展原模型中四个区域(高效价-高唤醒度、高效价-低唤醒度、低效价-高唤醒度、低效价-低唤醒度区域)对应的情感。例如高效价-高唤醒度区域由excited、roused、delighted扩展为anticipation、engagement、excitement、pleasure、yearning。
c)将改进后的四个端点、五个区域的情感放置在图6所示的二维平面上,得到改进的Valence-Arousal模型,如图9所示。将长为n的VA预测序列(t1,t2,t3,…,tn),ti=(Vi,Ai),i∈[1,n]中每个点投影到改进的Valence-Arousal模型的对应位置,得到预测情感。
2 实验
2.1 情感识别实验
2.1.1 数据集
实验使用的数据集为Emotic[11,12],注释结合了26种离散情感类别和3个连续情感表示。数据集中图片来源有两个,一是来自两个公共数据集COCO和Ade20k,一是来自谷歌搜索引擎,如图10所示。所有的图片都具有背景广泛多样、不同的地点与环境两个特点。这些特点保证了Emotic数据集的丰富多样性,同时也给情感识别任务带来了一定的挑战。
2.1.2 损失函数和评价指标
损失函数为两个单独损失的加权组合,即L=λ1L1+λ2L2,L1和L2分别为26种离散情感损失之和和3个连续情感损失之和,λ1和λ2分别为离散情感损失的权重和连续情感损失的权重。离散情感损失L1使用多标签焦点损失(multi-label focal loss,MFL)[23],連续情感损失L2使用Huber损失[23],定义为
2.1.3 实验结果
情感识别模型在Emotic数据集上得到的情感精确率和情感识别定性结果如图11和12所示,连续情感平均绝对误差如表4所示。
由实验结果可得最终的平均精确率为32.517%,anticipation、engagement、confidence、excitement和happiness这几种情感识别精确率较高,都在70%以上;embarrassment、doubt/confusion、sensitivity等这几种情感识别精确率较低,都在20%以下。原因之一为数据集中前者所占比重大,后者所占比重小;另一个原因为embarrassment、doubt/confusion、sensitivity等特征不明显,本身识别就有一定的难度。
2.1.4 消融实验
进行不同分支组合的消融实验,保证实验其他参数一致,得到的平均精确率(AP)和平均绝对误差(MAE)如表5所示。由实验可得,融合环境语义信息和深度图信息后,平均精确率提高了8.773%左右,平均绝对误差降低了0.005左右。
进行不同融合策略的消融实验,保证实验其他参数一致,得到的平均精确率(AP)和平均绝对误差(MAE)如表6所示。由实验可得,混合级融合较特征级融合和决策级融合的平均精确率分别提高了2.7%和5%左右。平均绝对误差分别降低了0.004和0.018左右。图13为精确率提高5%以上的六种情感。
进行有无注意力模块的消融实验,保证实验其他参数一致,得到的平均精确率(AP)和平均绝对误差(MAE)如表7所示。由实验可得,加入注意力模块后,平均精确率提高了1.8%左右,平均绝对误差没有明显变化。图14为精确率提高5%以上的五种情感。
2.1.5 对比实验
将Context-ER与文献[11,21~23,36]的模型进行对比,得到的AP和MAE如表8所示。由实验可得,Context-ER模型的平均精确率比文献[11,36]的模型提高了5%和13%左右,比文献[21]的模型提高了12%左右,比文獻[22,23]的模型提高了4%左右。
2.2 情感预测实验
2.2.1 实验数据
选取三段长为800 s的电影片段命名为video1、video2、video3进行情感预测实验,如图15所示。先将三个样本数据输入到情感识别模型中进行情感识别,得到连续时刻的VA序列,再按3∶1划分训练集和测试集,将训练集输入到情感预测模型中进行情感预测,在测试集上测试预测效果。
2.2.2 损失函数和评价指标
在情感预测模型中,使用均方误差函数(MSE)作为损失函数,评价指标为平均绝对误差(MAE)、可解释方差得分(EVS)和决定系数(R2)。
2.2.3 实验结果
由情感预测模型预测三个样本数据未来200 s的VA值,预测结果如图16所示。
截取每个样本未来200 s中1~20 s、70~80 s、180~200 s三个时间段的状态,最终的预测效果如图17所示。以video1为例,由预测结果可得出,在1~20 s时,V,A∈[7,9],推断可能的情感是excitement、pleasure等;同理可得在70~80 s时,V,A∈[5,6],推断可能的情感是neutral;在180~200 s时,V,A∈[4,5],推断可能的情感是fatigue、pain、sensitivity等。
2.2.4 对比实验
对比LSTM、GRU、SAEs三个网络模型对三个样本预测的平均结果,三个模型得到的可解释方差得分(EVS)、决定系数(R2)和平均绝对误差(MAE)如表9所示。由实验可得,GRU模型在EVS和R2上比LSTM和SAEs模型高,在平均绝对误差上比LSTM和SAEs模型低。
将GRU-mapVA与文献[25]、基于文本数据的预测方法[26]、基于视频数据的预测方法[37]进行对比,结果如表10~12所示。由实验可得,文献[25,26]的方法只能得到情感倾向,且与真实结果相差较大;文献[37]只能得到效价和唤醒度的预测值;GRU-mapVA模型能预测出具体的情感类别,但预测范围较大。
3 结束语
本文为解决基于视觉的情感识别无法捕捉人物所处环境和与周围人物互动对情感识别的影响、单一情感种类无法更丰富地描述人物情感、无法对未来情感进行合理预测的问题,提出了融合背景上下文特征的视觉情感识别与预测方法。该方法首先提取人物身体特征、所处环境语义特征和与周围人物互动的深度图特征;其次利用自注意力机制和混合级融合对三种特征进行融合,对融合特征进行26种离散情感的多标签分类和3个连续情感的回归;最后利用GRU模型预测VA序列的未来值,将预测值按所提映射规则投影到改进的valence-arousal模型上进行未来情感种类的预测。为验证本文方法的有效性,分别进行了情感识别实验和情感预测实验。在情感识别中,与各方法进行了消融实验对比,结果表明,Context-ER的平均精确率均高于其他方法。在情感预测中,GRU-mapVA也能准确预测出未来情感的种类。但是该模型仍有以下问题尚未解决:a)embarrassment、fatigue、sensitivity等情感的识别精确率较低;b)情感预测模型的预测结果范围较大。今后将围绕该问题,在本文方法的基础上开展后续研究。
参考文献:
[1]Liu Jinfeng, Li Guang, Zhou Jiyan et al. Research on fatigue driving monitoring model and key technologies based on multi-input deep learning[J]. Journal of Physics: Conference Series, 2020,1648(2): article ID 022112.
[2]Jordan S, Brimbal L, Wallace B D, et al. A test of the micro-expressions training tool: Does it improve lie detection?[J]. Journal of Investigative Psychology and Offender Profiling, 2019,16(3): 222-235.
[3]Long T D, Tung T T, Dung T T. A facial expression recognition model using lightweight dense-connectivity neural networks for monitoring online learning activities[J]. International Journal of Modern Education and Computer Science, 2022,14(6): 53-64.
[4]Nie Zexian, Yu Ying, Bao Yong. Application of human-computer interaction system based on machine learning algorithm in artistic visual communication[J]. Soft Computing, 2023,27(14): 10199-10211.
[5]Babu S P, Kumar S K, Manjur K, et al. Efficient Net-XGBoost: an implementation for facial emotion recognition using transfer learning[J]. Mathematics, 2023,11(3): article ID 0776.
[6]Jia Ziyu, Lin Youfang, Cai Xiyang, et al. SST-EmotionNet: spatial-spectral-temporal based attention 3D dense network for EEG emotion recognition[C]//Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2909-2917.
[7]Liu Xia, Xu Zhijing, Huang Kan. Multimodal emotion recognition based on cascaded multichannel and hierarchical fusion[J]. Computational Intelligence and Neuroscience, 2023, 2023: article ID 9645611.
[8]Sebastian J, Pierucci P. Fusion techniques for utterance-level emotion recognition combining speech and transcripts
[C]//Proc of InterSpeech 2019. 2019:51-55.
[9]Soumitra G, Asif E, Pushpak B. VAD-assisted multitask transformer framework for emotion recognition and intensity prediction on suicide notes[J]. Information Processing and Management, 2023, 60(2): article ID 103234.
[10]Mollahosseini A, Hasani B, Mahoor H M. AffectNet: a database for facial expression, valence, and arousal computing in the wild[J]. IEEE Trans on Affective Computing, 2019,10(1): 18-31.
[11]Kosti R,Alvarez J M,Recasens A,et al. Context based emotion recognition using EMOTIC dataset[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 42(11): 2755-2766.
[12]Kazuyuki M, Reishi A, Minoru Y, et al. Trend prediction based on multi-modal affective analysis from social networking posts[J]. Electronics, 2022, 11(21): 3431-3431.
[13]Yacine Y. An efficient facial expression recognition system with appearance-based fused descriptors[J]. Intelligent Systems with Applications, 2023, 17: article ID 200166.
[14]Siqueira H, Magg S, Wermter S. Efficient facial feature learning with wide ensemble-based convolutional neural networks[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2020: 5800-5809.
[15]Ren Hanchi, Hu Yi, Myint S H, et al. A real-time and long-term face tracking method using convolutional neural network and optical flow in IoT-based multimedia communication systems[J]. Wireless Communications and Mobile Computing, 2021, 2021: article ID 6711561.
[16]Wang Kai, Peng Xiaojiang, Yang Jianfei, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Trans on Image Processing: A Publication of the IEEE Signal Processing Society, 2020, 29: 4057-4069.
[17]Liao Jun,Lin Yuanchang,Ma Tengyun,et al. Facial expression recognition methods in the wild based on fusion feature of attention mechanism and LBP[J]. Sensors, 2023, 23(9): article ID 4204.
[18]Aviezer H, Trope Y, Todorov A. Body cues, not facial expressions, discriminate between intense positive and negative emotions[J]. Science, 2012, 338(6111): 1225-1229.
[19]Martinez A M. Context may reveal how you feel[J]. Proc of the National Academy of Sciences of the United States of America, 2019, 116(15): 7169-7171.
[20]Mou Wenxuan, Celiktutan O, Gunes H. Group-level arousal and valence recognition in static images: face, body and context[C]//Proc of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway,NJ: IEEE Press, 2015: 1-6.
[21]Lee J, Kim S, Park J, et al. Context-aware emotion recognition networks[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2019: 10142-10151.
[22]Zhang Minghui, Liang Yumeng, Ma Huadong. Context-aware affective graph reasoning for emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ:IEEE Press, 2019: 151-156.
[23]Ilyes B, Frederic V, Denis H, et al. Multi-label, multi-task CNN approach for context-based emotion recognition[J]. Information Fusion, 2020, 76: 422-428.
[24]Dong Yaojia, Sheng Xiongzou. Driver fatigue monitoring based on head and facial features using hierarchical Bayesian method[J]. Applied Mechanics and Materials, 2014, 548-549: 1093-1097.
[25]Hao Zhihao, Wang Guancheng, Mao Dianhui, et al. A novel method for food market regulation by emotional tendencies predictions from food reviews based on blockchain and SAEs[J]. Foods, 2021,10(6): article ID 1398.
[26]張帅, 傅湘玲, 后羿. 基于投资者情感倾向的P2P市场成交量预测模型[J]. 计算机科学, 2019, 46(S1): 60-65. (Zhang Shuai, Fu Xiangling, Hou Yi. A predictive model for P2P market trading volume based on investor sentiment bias[J]. Computer Science, 2019, 46(S1): 60-65.)
[27]Meng Hongying, Bianchi-Berthouze N, Deng Yangdong, et al. Time-delay neural network for continuous emotional dimension prediction from facial expression sequences[J]. IEEE Trans on Cybernetics, 2016, 46(4): 916-929.
[28]Joshi T, Sivaprasad S, Pedanekar N. Partners in crime: utilizing arousal-valence relationship for continuous prediction of valence in movies[C]//Proc of the 2nd Workshop on Affective Content Analysis Co-Located with the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2019:28-38.
[29]Krizhevsky A, Sutskever I, Hinton E G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[30]Bolei Z, Agata L, Antonio T, et al. Places: an image database for deep scene understanding[J]. Journal of Vision, 2017, 17(10): 296-296.
[31]Mittal T, Guhan P, Bhattacharya U, et al. EmotiCon: contextaware multimodal emotion recognition using Freges principle[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press, 2020: 14222-14231.
[32]Li Zhengqi, Snavely N. MegaDepth: learning single-view depth prediction from Internet photos[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2041-2050.
[33]Yu L C, Lee L H, Hao Shuai, et al. Building Chinese affective resources in valence-arousal dimensions[C]//Proc of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016:540-545.
[34]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07). https://arxiv.org/abs/1301.3781.
[35]Laurens V D M, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605): 2579-2605.
[36]Kosti R, Alvarez J. M, Recasens A. Emotion recognition in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2017: 1960-1968.
[37]Omar I J, AnaMaria C, Stéphane B, et al. Prediction of continuous emotional measures through physiological and visual data[J]. Sensors, 2023, 23(12): article ID 5613.
[38]McFarland J D, Parvaz A M, Sarnacki A W, et al. Prediction of subjective ratings of emotional pictures by EEG features[J]. Journal of Neural Engineering, 2017, 14(1): article ID 016009.