蔡宇扬 蒙祖强
摘 要:基于全局语义交互的粗粒度注意力机制不能有效利用各模态间的语义关联提取到模态信息中的关键部分,从而影响分类结果。针对这个问题提出了一个模态信息交互模型MII(modal information interaction),通过细粒度注意力机制提取模态的局部语义关联特征并用于情感分类。首先,模态内信息交互模块用于构建模态内的联系并生成模态内交互特征,随后模态间信息交互模块利用图像(文本)的模态内交互特征生成门控向量来关注文本(图像)中相关联的部分,从而得到模态间的交互特征。考虑到特征中存在的冗余信息,模型加入了自适应特征融合模块从全局特征层面对特征进行选择,增强了包含情感信息的关键特征的表达能力,弱化了冗余信息对分类结果的影响。在MVSA-Single和MVSA-Multi两个公开数据集上的实验结果表明该模型优于一系列基线模型。
关键词:多模态; 情感分析; 信息交互; 注意力机制
中图分类号:TP391 文献标志码:A
文章编号:1001-3695(2023)09-006-0000-00
doi:10.19734/j.issn.1001-3695.2023.02.005
Multimodal sentiment analysis based on modal information interaction
Cai Yuyang, Meng Zuqiang
(School of Computer, Electronics & information, Guangxi University, Nanning 530004, China)
Abstract:Coarse-grained attention mechanisms based on global semantic interactions cant effectively use the interconnection between modalities to extract the key parts of modal information, which affects classification results. Aiming at this problem, this paper proposed a modal information interaction model, which extracted the local semantic association features of the modality through a fine-grained attention mechanism and used them for sentiment classification. First, the intra-modal information interaction module constructed intra-modal connections and generated intra-modal interaction features. After this, the inter-modal information interaction module used intra-modal information interaction features to generate gating vectors, which focused on the appropriate parts of the text (image) , thereby obtaining inter-modal information interaction. Finally, considering the redundant information in the features, the model also added an adaptive feature fusion module to select features from the global feature level, enhanced the expression ability of key features containing emotional information, and weakened the impact of redundant information on classification results. Experimental results on two public datasets MVSA-Single and MVSA-Multi demonstrate that the model outperforms a series of baseline models.
Key words:multimodality; sentiment analysis; information interaction; attention mechanism
0 引言
情感分析是對含有情感信息的数据进行分析、处理,进而得到情感极性的过程[1,2]。传统的情感分析研究主要集中于文本单模态,即通过对一段文字进行分析来判断其所包含的情感极性。随着Twitter、微博等社交媒体的快速发展,用于表达情感极性的媒介日益呈现多样化趋势,尤其是图文多模态数据已经成为承载用户情感观点的主流媒介[3]。对富含情感信息的多模态数据进行情感分析已经成为发现网络用户情感趋向的主要途径。多模态情感分析在应对社会突发事件舆论监控和新闻谣言检测等实际应用方面有着重要研究意义[4,5],能帮助政府机构高效监管网络内容,正确引导舆论并树立科学价值观。
由于单一模态的信息难以反映真实的情感,越来越多的用户选择通过图像和文本等多模态形式表达情感和观点,但这样的转变也给情感分析领域带来了挑战。传统的文本情感分析难以辨别多模态数据的情感极性,多模态情感分析逐渐成为情感分析领域的重要方法。
早期的多模态情感分析大多先独立地从文本和图像信息中提取特征,然后使用特征拼接和线性加权等方法对两种模态的特征进行融合[6,7],最后输入全连接网络进行分类。例如文献[8]提出了新型跨媒体词袋模型,用词袋表示微博中图像和文本的特征,使用逻辑回归训练模型从而实现情感分类,实验结果表明使用多模态数据进行分类的准确率比使用单模态数据分类的准确率要高。
同一用户在社交媒体中发布的图像与文本在语义上是存在着某种联系的,然而对图像和文本独立地提取特征忽视了模态之间固有的语义关联对各模态特征学习的影响。基于全局信息的粗粒度交叉注意力构建的模态间的联系缺少跨模态的深层信息交互,无法高效构建局部语义特征关联。若直接拼接模态交互后的特征进行分类,其中包含的冗余信息可能会影响最终情感分类结果。本文的主要贡献如下:
a)提出了用于情感分类的多模态情感分析模型,在模态交互过程中能通过模态间的局部语义关联精准地选择相关性高的特征,并自适应地选择其中用于情感分类的部分特征。通过在两个公开数据集MVSA-Single和MVSA-Multi上的实验结果证明了模型的有效性。
b)提出了基于门控注意力机制的模态间信息交互模块,能够利用模态间的联系精准地学习模态间的局部语义关联,利用文本(图像)的模态内交互特征捕捉图像(文本)中相关联的信息,实现细粒度交叉注意,获得融合了文本(图像)信息的图像(文本)模态间交互特征。
c)提出了自适应特征融合模块,可以灵活地从模态内和模态间输出的图文全局特征中选择富含情感信息的特征。模块从全局特征角度对图文特征之间的关系进行建模,进而自适应地调整特征中用于情感分类的部分,增强包含情感信息的关键特征的表达能力并过滤部分冗余信息。
1 相关研究
多模态情感分析包括两个方面:分别处理单模态数据;将处理后的数据进行融合。对单一模态数据处理不好,会影响多模态情感分析的结果;融合方式的性能不好会破坏多模态系统的稳定性[9]。Borth等人[10]使用Sentibank提取了1 200个形容词—名词对(ANP)作为图像特征,再通过SentiStrength计算文本情感得分,然后将二者结合起来得到最终情感极性。Cai等人[11]提出了一种基于卷积神经网络的多模态情感分析方法,用两个独立的CNN分别学习文本特征和图像特征,输入全连接层得到最后分类结果。Yu等人[12]先使用预训练CNN和DNN分别对文本和图像进行情感分析,然后通过训练逻辑回归模型得到分类结果。Zadeh 等人[13]引入多模态字典,帮助理解人在表达情感时面部表情与话语之间的关系,并建立一个多模态情感数据集CMU-MOSI。虽然多模态情感分析的研究取得了一定的进展,但这些基于神经网络模型的工作通常是独立地从图像和文本提取特征,并将图文特征输入分类器得到分类结果,忽略了图像与文本之间的联系。
随着注意力机制研究的发展[14,15],基于注意力的特征提取可以根据上下文选择显著特征,从而实现有效地模态间信息交互。Xu等人[16]考虑了图像对文本的单向影响,对图像分别提取场景特征和对象特征,在提取文本特征过程中使用场景和对象特征进行引导,得到图像引导的文本特征。郭可心等人[17]利用文本引导的空间注意力分别关注图像高层实体特征和中低层视觉特征,从而加强模态间的关联。刘琦玮等人[18]利用图片信息引导关注文本中的关键信息,增强了文本中影响情感分类的特征,使模型能够关注到文本中贡献度较大的词汇。上述研究都考虑到了模态之间的单向交互,使用其中一个模态引导关注另一个模态中的信息,但没有充分考虑模态之间的相互影响。Zadeh等人[19]考虑到模态内部信息以及模态之间的交互作用提出了一种基于张量融合的特征融合网络TFN,在MOSI 数据集上得到了较高的准确率。Ghosal 等人[20]提出一种使用成对注意力的方法MMMU-BA,不仅能学习一个视频段落的文本—語音、语音—视觉、文本—视觉两两模态间的交互关系,也能充分利用当前视频段与其上下文信息的在不同模态对内部的跨模态交互作用,在MOSI和MOSEI两个公开数据集上都取得了出色的表现。Xu等人[21]提出了一种Co-Memory网络迭代地利用文本信息找到图片中的关键内容、利用图片信息定位文本关键词,从而对图像和文本之间的相互影响进行建模分析。Zhang等人[22]利用新型编码器提取图像和文本特征,然后通过多模态交叉特征融合模块相互学习模态内部的特征,最后将学习后的图像和文本特征拼接后输入全连接层进行分类;但他们使用的是对全局语义信息进行交互的粗粒度注意力机制,不能高效关注模态间局部语义关联,特征会包含冗余信息,对分类结果造成影响。
社交媒体中,图文模态之间存在局部相关性并且这种相关性会影响多模态情感分析的结果。针对处理单模态数据过程中没有充分考虑模态之间的相互联系以及拼接模态特征带有冗余信息的问题,本文提出了基于注意力机制的模态信息交互模型MII用于社交媒体图文多模态情感分析任务。模型先使用自注意力和门控交叉注意力分别挖掘模态内和模态间的联系。基于门控细粒度交叉注意力的模态间信息交互模块可以准确地捕捉模态间的局部语义关联,然后将模态内和模态间的交互特征输入自适应特征融合模块。自适应特征融合模块对模态内和模态间拼接后的交互特征进行选择,模块的思想与通道注意力类似,先对图像区域和文本中字的特征进行建模,学习特征之间的关系,最后从全局特征层面选择包含情感信息的特征进行情感分类。
2 模态信息交互模型
为了提取各模态的特征并过滤拼接特征中对情感分类贡献较小的冗余信息,本文提出了一个模态信息交互模型。模型整体结构如图1所示,由模态特征提取、模态信息交互、特征融合和情感分类四个部分组成。
3.2 数据集
本文实验所用的数据集为MVSA多模态数据集[25]。该数据集从Twitter上收集了大量图文对,通过人工标注的方式对数据赋予情感标签。MVSA数据集包括两个独立的数据集MVSA-Single和MVSA-Multi。MVSA-Single包含5 129个图像文本对,并且每一组数据由一名人员分别对图像和文本标记积极、中性、消极三种情感标签中的一种;MVSA-Multi包含19 600个图像文本对,但与前者不同的是每组图像文本对由三名独立的人员进行标记,因此每组数据的图像和文本都会包含三个标签。为了确保数据的高质量,本文采用与文献[11]中相同的方法对数据集进行预处理。
a)针对MVSA-Multi中单模态包含多个标签的情况,以相同分类数量最多的标签作为单模态的真实标签,此时情感标签分类标注与MVSA-Single相同,图像和文本分别有唯一标签;b)若图像与文本的标签相反,即一个为积极而另一个为消极的情况下,弃用该数据进行实验,若图像与文本标签相同,则将其标签作为该图像文本对的最终标签,若图像与文本中一个为中性而另一个为积极或者消极,则将该图像文本对标记为积极或者消极;c)得到处理后的MVSA-Single和MVSA-Multi。对数据进行筛选和处理后的数据集标签信息如表1所示。
3.3 基线模型
本文选择了八个多模态情感分析模型与MII进行对比。
a)SentiBank+SentiStrength[10]。通过Sentibank提取了1200个形容词—名词对(adjective-noun pairs)作为图像特征,然后计算文本和图像的情感得分,进而判断图文对的情感标签。
b)CNN-Multi[11]。先通过文本CNN和图像CNN分别提取文本特征和图像特征,然后将拼接后的特征送入另一个CNN学习图文之间的联系,得到最终情感标签。
c)DNN-LR[12]。在预训练词向量的基础上训练了一个用于文本情感分析的CNN模型,然后使用一个深度卷积神经网络对图像进行情感分析,最后通过逻辑回归预测文本和图像的情感标签。
d)MultiSentiNet[16]。考虑到图像对文本的影响,提出了一个用于多模态情感分析的深度语义网络,先识别图像中的物体和场景作为图像的深层语义特征,然后训练一个图像特征引导的LSTM模型来寻找文本中对情感分析有影响的关键词,最后将物体、场景、关键词的特征组合后预测多模态数据的情感标签。
e)MLSA[17]。考虑到文本对图像的影响,使用具有多层分支结构的文本引导的空间注意力模块,针对CNN不同层次卷积的输出进行空间注意力加权;从图像中获取和使用与文本相关的高层语义特征和中、低层视觉特征,加强了图文之间的情感关联。
f)TSAIE[18]。考虑到图像对文本的影响,利用组合注意力特征融合模块计算出文本信息中每一个词与图片包含情感的相似度,从而增强文本中能够影响情感极性分类的特征,使模型能够关注到文本中贡献度较大的词汇,然后与图片特征融合,最后将融合特征输入全连接层进行分类。
g)COMN[21]。考虑到图像与文本之间存在的相互联系,提出了一个新的协同记忆网络,在特征提取过程中迭代地对图像内容和文本之间的相互联系进行建模分析。
h)CFF-ATT[22]。通过使用去噪自动编码器更准确地提取原始文本特征,同时提出了一种注意力模型使图像和文本对称地学习内部特征,生成融合特征用于最终分类。
i)MII。用模态內信息交互和模态间信息交互模块获取图像和文本的模态内交互特征。与COMN不同的是,在特征提取过程中加入了门控机制实现细粒度注意力交互,挖掘图像文本间的局部语义关联。COMN和CFF-ATT忽略了拼接特征中包含的冗余信息,MII同时对模态内和模态间交互的输出特征进行自适应特征融合,从全局特征层面有选择地保留包含情感信息的关键特征进行情感分类,从而达到更好的分类效果。
3.4 实验结果及分析
3.4.1 定量分析
为了直观地证明本文提出的模型能有效利用模态间的联系提升情感分类的结果,以准确率和F1值为指标,将本文提出的MII模型与一系列基线模型在两个公开数据集MVSA-Single和MVSA-Multi上进行量化对比,表中直接引用了这些方法文献中的实验结果。MII与一系列基线模型在MVSA数据集上的实验结果如表2、3所示。
由表2、3中数据可以看出SentiBank+SentiStrength的效果最差,因为使用形容词—名词对的图文特征不能准确提取图像和文本模态的信息。CNN-Multi和DNN-LR由于使用了深度学习模型,通过卷积神经网络获取图像文本的特征,取得了较好的结果,但忽略了图像文本之间的联系。MultiSentiNet考虑到了图像对文本的影响,训练了一个图像特征引导的深度学习模型来寻找文本中的关键部分,提升了模型性能;MLSA利用文本来获取图像不同层次特征中的关键部分;TSAIE则利用图像特征增强文本,寻找文本特征中的关键部分。但它们只考虑了模态之间的单向影响,没有考虑到注意力机制和特征融合中的冗余信息对分类结果的影响。
COMN是在图像和文本特征提取过程中对模态间的联系迭代地建模分析,因为考虑到了模态间的相互影响而非图像对文本的单向影响,取得了比MultiSentiNet更好的结果。但对图文特征使用全局特征的粗粒度注意力交互,可能会使网络关注部分冗余信息;最后直接拼接图像和文本记忆网络中的输出会使得冗余信息对分类结果产生影响。CFF-ATT考虑到噪声对特征提取准确性的干扰,通过自动编码器更准确地提取单模态特征,并加入注意力机制利用图像和文本交互学习各模态内部特征。分别将图像和文本特征作为主输入和二次输入,用交叉特征融合模块融合两个模态的特征后,得到用于分类的输出特征;但其没有考虑到用于分类的特征中所包含的冗余信息对分类结果的影响。MII模型采用预训练模型提取图像和文本特征,模态信息交互模块关注模态内的联系和模态间的相互影响,先在模态间交互中使用门控细粒度交叉注意力准确地提取与另一模态相关的特征,然后使用模态内和模态间的输出进行自适应特征融合,从全局特征层面对特征之间的关系建模,有选择地调整用于最终情感分类的特征,取得了最好的效果。
3.4.2 定性分析
为了更为直观地观察门控交叉注意力所起到的作用,对粗粒度交叉注意力和门控交叉注意力分别进行可视化,结果如图4所示。如图4(a)(d)所示,图像及其对应的文本为“我可以很容易地搬到维多利亚渔夫码头的一艘游艇上,多么明亮和快乐!(译文)”。对图像和文本进行注意力交互,模型除了关注图中码头上停放的游艇以外,有部分注意力集中在了水中的倒影以及天空中的白云上,如图4(b)所示;图4(c)展示了图像和文本通过门控交叉注意力进行交互后的注意力,模型的注意力主要集中在图中的游艇和码头上,有少量注意力关注水面和白云。通过图4(e)(f)可以看出,用图像交互引导后模型更为关注与图像相关的“游艇”“码头”等单词。综合来看,本文模型能构建图像和文本中局部信息关联,并能在情感分类实验中取得更好的效果。
3.4.3 消融实验
为了验证本文所提出的带门控注意力模态间信息交互模块和自适应特征融合模块的有效性,本节通过消融实验进行对比。
消融实验结果如表4所示,其中MII-1设置为使用粗粒度交叉注意力进行模态间交互,然后直接拼接特征进行分类;MII-2为使用了带门控注意力的模态间交互模块,但不考虑拼接特征可能带有的冗余信息,直接进行分类;MII-3为使用粗粒度注意力进行模态间交互,但在特征融合阶段使用自适应特征融合模块选择包含情感信息的关键特征进行分类。
从表4可以看出MII-1情感分类的结果最差,没有有效利用模态间的相互联系提取特征,拼接特征中过多的冗余信息干扰了最终分类结果的准确性。由于MII-2使用了门控机制对交叉注意力中输入的特征进行约束,以文本引导图像为例,先将图像和文本模态内交互特征映射到公共空间来表示模态特征之间的相关性,然后选择图像中相关性较高的特征进行细粒度注意力交互,从而准确地挖掘图像文本之间的局部语义关联,关注图像中与文本相关的特征。所以MII-2的结果表现较之MII-1更好,从而证明了模态间交互模块中门控交叉注意力的有效性。MII-3中加入了自适应特征融合模块对图像和文本特征之间的依赖关系进行建模,从全局角度选择其中用于情感分类的特征。MII-3的结果表现较之MII-1更好,证明了自适应特征融合模块的有效性。
4 结束语
本文提出了一个用于多模态情感分类任务的社交媒体多模态情感分析模型MII,使用了预训练BERT和ViT模型提取文本和图像特征。为了挖掘学习图像和文本之间存在的联系和相互影响,模型加入了模态信息交互模块用于关注模态内和模态间信息的联系;在模态间信息交互模块中使用门控细粒度交叉注意力准确地选择与另一模态相关联的特征,并且利用自适应特征融合模块选择交互特征中包含情感信息的部分进行分类,通过在两个公开数据集上的实验结果证明了本文提出模型的有效性。后续工作将对图文模态信息交互模型MII进行改进,对图像、文本和音频三模态之间的信息交互进行深入研究。
参考文献:
[1]张亚洲,戎璐,宋大为,等.多模态情感分析研究综述[J].模式识别与人工智能,2020,33(5):426-438.(Zhang Yazhou,Rong Lu,Song Dawei,et al.A survey on multimodal sentiment analysis[J].Pattern Recognition and Artificial Intelligence,2020,33(5):426-438.)
[2]钟佳娃,刘巍,王思丽,等.文本情感分析方法及应用综述[J].数据分析与知识发现,2021,5(6):1-13.(Zhong Jiawa,Liu Wei,Wang Sili,et al.Review of methods and applications of text sentiment analysis[J].Data Analysis and Knowledge Discovery,2021,5(6):1-13.)
[3]孫影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10.(Sun Yingying,Jia Zhentang,Zhu Haoyu.Survey of multimodal deep learning[J].Computer Engineering and Applications,2020,56(21):1-10.)
[4]陈志毅,隋杰.基于DeepFM和卷积神经网络的集成式多模态谣言检测方法[J].计算机科学,2022,49(1):101-107.(Chen Zhiyi,Sui Jie.DeepFM and convolutional neural networks ensembles for multimodal rumor detection[J].Computer Science,2022,49(1):101-107.)
[5]Wu Yang,Zhan Pengwei,Zhang Yunjian,et al.Multimodal fusion with co-attention networks for fake news detection[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2021:2560-2569.
[6]任泽裕,王振超,柯尊旺,等.多模态数据融合综述[J].计算机工程与应用,2021,57(18):49-64.(Ren Zeyu,Wang Zhenchao,Ke Zunwang,et al.Survey of multimodal data fusion[J].Computer Engineering and Applications,2021,57(18):49-64.)
[7]何俊,张彩庆,李小珍,等.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(5):1-11.(He Jun,Zhang Caiqing,Li Xiaozhen,et al.Survey of research on multimodal fusion technology for deep learning[J].Computer Engineering,2020,46(5):1-11.)
[8]Wang Min,Cao Ddonglin,Li Lingxiao,et al.Microblog sentiment analysis based on cross-media bag-of-words model[C]//Proc of International Conference on Internet Multimedia Computing and Service.New York:ACM Press,2014:76-80.
[9]劉继明,张培翔,刘颖,等.多模态的情感分析技术综述[J].计算机科学与探索,2021,15(7):1165-1182.(Liu Jiming,Zhang Peixiang,Liu Ying,et al.Summary of multi-modal sentiment analysis technology[J].Journal of Frontiers of Computer Science & Technology,2021,15(7):1165-1182.)
[10]Borth D,Ji Rongrong,Chen Tao,et al.Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]//Proc of the 21st ACM International Conference on Multimedia.New York:ACM Press,2013:223-232.
[11]Cai Guoyong,Xia Binbin.Convolutional neural networks for multimedia sentiment analysis[C]//Proc of the 4th CCF International Conference on Natural Language Processing and Chinese Computing.Cham:Springer,159-167.
[12]Yu Yuhai,Lin Hongfei,Meng Jiana,et al.Visual and textual sentiment analysis of a microblog using deep convolutional neural networks[J].Algorithms,2016,9(2):https://doi.org/10.3390/a9020041.
[13]Zadeh A,Zellers R,Pincus E,et al.Multimodal sentiment intensity analysis in videos:Facial gestures and verbal messages[J].IEEE Intelligent Systems,2016,31(6):82-88.
[14]Niu Zhaoyang,Zhong Guoqiang,Yu Hui.A review on the attention mechanism of deep learning[J].Neurocomputing,2021,452(9):48-62.
[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc,2017:6000-6010.
[16]Nan Xu,Mao Wenji.Multisentinet:a deep semantic network for multimodal sentiment analysis[C]//Proc of ACM on Conference on Information and Knowledge Management.New York:ACM Press,2017:2399-2402.
[17]郭可心,张宇翔.基于多层次空间注意力的图文评论情感分析方法[J].计算机应用,2021,41(10):2835-2841.(Guo Kexin,Zhang Yuxiang.Visual-textual sentiment analysis method based on multi-level spatial attention[J].Journal of Computer Applications,2021,41(10):2835-2841.)
[18]刘琦玮,李俊,顾蓓蓓,等.TSAIE:图像增强文本的多模态情感分析模型[J].数据与计算发展前沿,2022,4(3):131-140.(Liu Qiwei,Li Jun,Gu Beibei,et al.TSAIE:text sentiment analysis model based on image enhancement[J].Frontiers of Data & Domputing,2022,4(3):131-140.)
[19]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[EB/OL].(2017-07-23).https://arxiv.org/abs/1707.07250.
[20]Ghosal D,Akhtar M S,Chauhan D,et al.Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:3454-3466.
[21]Xu Nan,Mao Wenji,Chen Guandan.A Co-Memory network for multimodal sentiment analysis[C]//Proc of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval.New York:ACM Press,2018:929-932.
[22]Zhang Kang,Geng Yushui,Zhao Jing,et al.Sentiment analysis of social media via multimodal feature fusion[J].Symmetry,2020,12(12):https://doi.org/10.3390/sym12122010.
[23]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.
[24]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16 words:transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/2010.11929.
[25]Niu Teng,Zhu Shiai,Pang Lei,et al.Sentiment analysis on multi-view social data[C]//Proc of the 22nd International Conference on Multimedia Modeling.Cham:Springer,2016:15-27.
收稿日期:2023-02-06;
修回日期:2023-04-06
基金項目:国家自然科学基金资助项目(62266004)
作者简介:蔡宇扬(1998-),男,贵州遵义人,硕士研究生,主要研究方向为多模态情感分析;蒙祖强(1974-),男(通信作者),广西河池人,教授,博导,博士,主要研究方向为跨媒体智能、多模态情感分析、粒计算(zqmeng@126.com).