一种基于图文融合的跨模态社交媒体情感分析方法

2019-06-07 15:08申自强

软件导刊 2019年1期

申自强

摘要：情感分析是目前人工智能与社交媒体研究的热门领域，具有重要的理论意义和实用价值。为了解决由于社交媒体具有随意性、情感主观性等特点造成文本与图像之间的情感互斥问题，提出一种基于图文融合的跨模态社交媒体情感分析方法。该方法不仅可以学习到文本与图像之间的情感互补特性，而且通过引入模态贡献计算，可避免情感表达不一致问题。在Veer和Weibo数据集上的实验结果显示，相比于现有融合方法，采用该方法的情感分类准确率平均提高了约4%。基于图文融合的跨模态社交媒体情感分析方法能够很好地处理模态间的情感互斥问题，具有较强的情感识别能力。

关键词：社交媒体;情感分析;图文融合;贡献计算;跨模态

DOI：10. 11907/rjdk. 181783

中图分类号：TP301文献标识码：A文章编号：1672-7800（2019）001-0009-05

Abstract： Sentiment analysis is a hot field in artificial intelligence and social media research， which has a very important theoretical and practical value. In order to solve the problem of emotional mutual exclusion between texts and images caused by the randomness and emotional subjectivity of social media， a cross-modal social media sentiment analysis method based on the fusion of image and text is proposed. This method can not only learn the emotional complementarity between texts and images， but also avoid the problem of the inconsistency of emotional expression by introducing the modal contribution calculation. Experimental results on Veer and Weibo datasets show that this method is about 4% more accurate than the existing fusion methods. The cross-modal social media sentiment analysis method based on the fusion of image and text can deal with the problem of modal mutual emotional exclusion well， and has strong recognition ability.

Key Words： social media; sentiment analysis; fusion of image and text; contribution calculation; cross-modal

0 引言

隨着互联网的发展与普及，公众参与社会活动的机会也逐渐增加。如今人们不仅从网上获取信息，而且积极参与信息传播和舆论表达，如QQ、微信、微博、百度贴吧、知乎等社交媒体已成为人们日常生活中不可或缺的一部分，也是互联网信息传播的重要途径。每天，数以亿计的人们在这些社交媒体平台上发布自己的心情、状态、观点及评价等数据信息[1]。对这些媒体数据进行有效的情感分析可以帮助企业机构掌握用户对于某产品的评价，了解公众的情感与意见倾向，为产品改进与商业决策提供科学依据[2]。此外，对于政府机关，分析公众在某个事件或重大热点问题上持有的态度有利于政府领导体察民情，从而及时、有效地进行舆论引导，积极主动地预防各种突发事件和危机[3]。因此，对于社交媒体情感分析的研究具有重要意义。

目前，对于社交媒体情感分析的研究大多集中在对文本数据的情感分析上，主要方法可分为两类：基于词典的方法与基于机器学习的方法。基于词典的方法以情感词典作为判断情感倾向的主要依据，同时兼顾语法结构，设计对应的判别规则。陈国兰[4]基于开源情感词典与微博文本的语义规则特点提出微博文本的情感计算方法，对于微博情感分析具有较强的适应性;李晨等[5]采用一种将情感词典与语义规则相结合的情感关键句抽取方法，对段落内的句子进行情感分析。基于词典的方法虽然操作简单，但其效果很大程度上取决于人工设计与先验知识，适用范围较窄。基于机器学习方法的思路是首先采集一个规模庞大的训练集，由人工对文本样本进行情感标签标注，然后从文本中提取特征，输入到模型中进行训练学习，最后利用训练好的模型预测新文本的情感倾向;赵刚等[6]通过研究情感分析领域若干机器学习模型设计了餐饮领域网上评论情感分析模型，用于判断客户情感倾向;Giatsoglou等[7]提出一种快速、灵活、通用的情感检测方法，其中文本文档由向量表示，并采用机器学习方法进行模型训练。此外，随着社交媒体的多元化发展，人们在社交媒体上已不满足于仅采用文字形式发布自己的状态，而更倾向于采用文本与图像相结合的方式表达情感。在情感分析中，图像中往往蕴含着用户情感信息，与文本情感可起到互补作用。例如张耀文等[8]首先提取文本特征和图像的颜色及纹理特征，然后将两模态特征映射到同一特征空间里进行情感类别预测;蔡国永等[9]则利用卷积神经网络分别对文本和图像特征进行情感极性预测，然后再将两者结果进行决策融合;罗杰波等[10]提出一种跨模态一致性回归（Cross-modality Consistent Regression，CCR）模型用于图文融合情感分析，其主要思想是对相关但不同的模态特征进行一致性约束。这些方法主要集中于将两种模态信息进行融合，或对两种模态之间的相关性进行学习融合，但均未考虑实际应用中由于社交媒体的随意性、情感主观性等因素造成的文本和图像之间的情感互斥问题。针对该问题，本文提出一种基于图文融合的跨模态社交媒体情感分析方法，该方法不仅可以学习到不同模态之间共同的情感特征，还能对模态间的情感互斥问题进行分析处理。具体而言，在模型训练中，可通过计算每个模态对整体的贡献判别最终情感倾向，从而避免情感表达不一致的问题。

1 社交媒体情感分析方法

近年来，随着社交媒体的广泛应用，针对社交媒体的情感分析已成为研究热点。其中，文本与图像数据是社交媒体情感分析研究中两种重要的模态数据。图文融合社交媒体情感分析的一般过程可分为：文本与图像情感特征提取、融合特征学习以及情感分类3个过程。

1.1 情感特征提取

文本的情感特征提取方法主要有两种模型：传统模型与深度学习模型。传统模型一般是基于简单的统计学技术，而深度模型则是基于神经网络技术。常用的传统模型主要包括TF-IDF（Term Frequency-Inverse Document Frequency）、词性标注（Part-of-Speech Tagging）与N-gram模型。此外，一些研究还表明，通过对传统文本特征提取方法进行改进，可以获得更好的结果。如Martineau等[11]使用正反两个训练语料库中TF-IDF分数的差异衡量单词，将评论分为正和负，其实验结果显示，采用Delta TF-IDF特征显然比采用TF-IDF或单词频数特征效果更好;神经概率语言模型是由Bengio等[12]基于神经网络思想创建而成的，学者们对其作了大量研究，目的是通过学习一种分布式词向量表示，以对抗由于训练数据增大而产生的维数灾难问题;Mikolov等[13]于2013提出两个新模型CBOW和Skip-gram，用于學习大规模语料库的词向量特征表示。

关于图像情感特征的提取，一直以来都是图片情感分析领域的研究热点。图像特征一般分为：低级特征、中级特征与高级特征。低级特征主要指颜色、形状、线条、纹理、亮度等特征，中级特征一般指图像中存在的对象、目标等特征，而高级特征则是指行为、场景与情感等语义特征。显然，图像情感特征属于高级语义特征。为了提取图像情感特征，需要提取图像相关特征后建立模型，以学习图像本身与情感之间的情感鸿沟映射关系。例如，Mayank Amencherla等[14]通过心理学理论中色彩与情感之间的相关性对图像中的色彩进行检测分析，用于图像情感预测;Stuti Jindal等[15]则是利用迁移学习与卷积神经网络方法建立图像情感预测框架。

1.2 融合方法

在情感计算领域已有许多关于图文融合情感分析的研究成果，其中大多集中于将两种模态信息进行融合，此外还有一些研究集中于对两种模态之间的相关性进行学习融合。其常用融合策略可分为3种：特征层融合、决策层融合以及一致性回归融合。例如，林鸿飞等[16]利用Logistic回归分别对文本与相关图像进行情感预测，最后将两个预测概率进行加权平均，得出最终结果。无论是特征层融合还是决策层融合方法，都忽视了文本与图像两模态特征之间的相互关系，而一致性回归融合则充分考虑了模态之间的相关性。

一致性回归融合模型的主要思想是认为不同模态在描述同一事物时所表达的情感应该是一致的[10]。在图文融合社交媒体情感分析中，首先采用不同的特征提取方法分别对文本与图像进行特征提取，然后将两模态串在一起作为初始融合特征，接着把文本和图像特征以及初始融合特征输入一致性回归模型中进行训练学习，采用KL散度度量不同特征预测标签分布之间的相关性，最后将学习到的模型参数用于情感判断。KL散度的计算公式其实是熵的变形计算，在原有概率分布p上，加入近似概率分布q，计算它们每个取值对应的对数差，具体公式如下：

其中，[Dkl（p||q）]的值越大，表明两概率分布的差异性越大，反之表示差异性越小，差异相同时值为0。虽然一致性回归融合模型可以很好地学习到不同模态间的一致性情感，但没有考虑实际应用中由于社交媒体的随意性、情感主观性等特点造成的模态间情感互斥问题。

2 跨模态社交媒体情感分析方法

本文提出一种跨模态社交媒体情感分析方法（Cross-modal Social Media Sentiment Analysis Method，CSMSA），其完整框架如图1所示，该框架分别由以下4个阶段组成：数据输入、特征提取、特征融合以及情感分类。首先利用CBOW和CNN提取文本与图像特征，接着通过计算各模态对整体的贡献选择合适的融合策略，然后利用跨模态回归模型训练学习模态之间的情感相关权重，最后通过训练好的分类器进行情感分类。

2.1 文本与图像特征提取

输入样本是指从微博、Veer社交媒体平台抓取到的文本和图像数据，每个样本被定义为[S（ti，vi）]，[ti]、[vi]分别表示第[i]个样本的文本和图像。通过CBOW与CNN分别学习提取到文本及图像的情感特征[Xt（xt1，xt2，？，xtm）]和[Xv（xv1，][xv2，？，xvn）]，式中[m]、[n]分别代表文本与图像特征的维度。

2.2 模态特征融合

对于文本和图像的特征融合，本文通过计算每个模态对整体的贡献选择合适的模态融合策略。首先，采用[pθ（Xi）]表示输入特征[Xi]在参数[θ]下的预测函数，使用Sigmoid函数计算概率分布，公式如下：

2.3 跨模态回归模型训练

经过综合考虑融合特征预测概率与真实标签之间的损失，以及图文两个特征分别与融合特征预测概率之间的损失构建损失函数，其公式为：

3 实验及结果分析

为了评估与验证所提方法的有效性，本文分别在Veer和Weibo两个媒体数据库上对几种方法进行对比实验。接下来将从实验数据库、实验设置、结果分析以及可视化4个方面介绍具体实验过程。

3.1 实验数据库

虽然从社交媒体平台上可以轻松获取到大量文本与图像数据，但公开的可用于实验研究，且带有真实情感标签的图文数据样本非常稀少。本文利用文献[17]中的相关技术和思路建立了两个图文组合的情感分析数据库：Veer和Weibo，如表1所示。

其中，Veer平臺可在线提供正版照片、插画、矢量图等优质图像资料。首先通过平台搜索功能，利用带有积极与消极情感的关键词进行搜索，并下载对应图像，以及图片描述与标题数据，即可获得带有弱标签的文本与图片数据集;然后请3名专业研究生通过情感标签投票方式对这些弱标签数据进行情感投票;最终保留情感票数统一的数据样本。Veer数据库总共包括8 650个积极样本与8 674个消极样本。对于Weibo数据库的建立，首先利用爬虫技术在Weibo平台上采集大量文本与图像数据;然后通过张华平博士及其团队研发的NLPIR汉语分词系统中的情感分析功能对文本情感进行打分，即为这些数据加上弱标签;接下来选取并整合其中评分排名靠前的数据，建立弱标签数据集;最后请3名专业研究生对这些弱标签数据进行情感标签投票。Weibo数据库总共包括4 572个积极样本与4 415个消极样本。

3.2 实验设置

实验分别采用CBOW和CNN对文本与图像进行特征提取。在文本特征提取中，设置词向量维度为300，句子长度为140，学习率为0.025;在图像特征提取中，图片初始化大小为227*227，卷积核个数为32个，大小是11*11，Pooling层大小为2*2。此外，模型中超参数[γ]、[λ]的取值分别为1和3。

3.3 实验结果分析

（1）基于文本和图像的单模态与多模态情感分类结果比较。表2展示了单模态的文本和图像以及多模态图文融合情感分类的结果比较。其中，对于单模态，分别使用CNN和Logistics Regression对其进行模型训练与分类[18-19]。由表2可以看出，文本模态的情感分析结果普遍高于图像模态的情感分析结果，这是由社交媒体的特点决定的，虽然图像也蕴含发布者的情感，但其主观性和随意性较强，因此仅从单一图像模态预测发布者情感倾向的结果并不理想。图文融合情感分类的结果高于单模态文本和图像的情感分类结果，说明本文所提方法可以有效结合文本和图像两个模态特性，在情感上进行互补，从而提高了情感分类效果。

3.4 可视化

图2、图3分别展示了本文提出模型在Veer和Weibo数据库的分类结果中，排名靠前的部分消极与积极数据预测结果可视化图，其中使用浅色矩形标记消极样本，深色矩形标记积极样本。从图中可以清晰看出样本的情感分类结果，消极图像多与“哭”、“一个人”有关，且色调偏灰暗，积极图像则相反。其中，有些文本与图像的分类结果相反，这是由于模态间的内容差异以及社交媒体具有主观性、随意性等因素导致的，但根据各模态的贡献度选择合适的融合策略，可以在一定程度上提高识别准确率。

4 结语

本文对社交媒体情感分析现状进行了研究，针对由于社交媒体具有随意性、情感主观性等特点造成文本与图像之间的情感互斥问题，提出一种基于图文融合的跨模态社交媒体情感分析方法。其核心思想是在训练跨模态回归模型时，通过计算每个模态对整体的贡献选择合适的融合策略，从而避免情感表达不一致问题。为了验证所提方法的有效性，分别在Veer和Weibo两个社交媒体数据集上进行对比实验，结果表明，本文方法的情感分类准确率优于现有融合方法。此外，由于社交媒体数据过于随意且不规范，单一模态的情感分析可能无法从中挖掘出足够的信息。通过综合考虑文本、图像及音视频等多种模态信息进行分析，则可能有效地弥补单模态的缺陷。社交用户的情感倾向也与个人性格、生活习惯、社交关系及周围环境等因素有关，在进行情感分析的同时，融入个性化分析也是一个重要研究方向。

参考文献：

[1] SEVERYN A，MOSCHITTI A. Twitter sentiment analysis with deep convolutional neural networks[C]. 38th Annual International ACM SIGIR Conference on Research and Development on Information Retrieval， 2015： 959-962.

[2] 肖红，许少华. 基于句法分析和情感词典的网络舆情倾向性分析研究[J]. 小型微型计算机系统，2014，35（4）： 811-813.

[3] YANG Y. Research and realization of internet public opinion analysis based on improved TF-IDF algorithm [C]. Vienna： International Symposium on Distributed Computing and Applications to Business， Engineering and Science，2017.

[4] 陈国兰. 基于情感词典与语义规则的微博情感分析[J]. 情报探索，2016（2）：1-6.

[5] 李晨，朱世伟，魏墨济，等. 基于词典与规则的新闻文本情感倾向性分析[J]. 山东科学，2017，30（1）：115-121.

[6] 赵刚，徐赞. 基于机器学习的商品评论情感分析模型研究[J]. 信息安全研究，2017，3（2）：166-170.

[7] GIATSOGLOU M，VOZALIS M G，DIAMANTARAS K，et al. Sentiment analysis leveraging emotions and word embeddings [J]. Expert Systems with Applications，2017，69：214-224.

[8] ZHANG Y， LIN S， JIA X. Sentiment analysis on Microblogging by integrating text and image features[C]. Pacific-Asia Conference on Knowledge Discovery and Data Mining，2015： 52-63.

[9] 蔡國永，夏彬彬. 基于卷积神经网络的图文融合媒体情感预测[J]. 计算机应用，2016，36（2）： 428-431.

[10] YOU Q，LUO J，JIN H，et al. Cross-modality consistent regression for joint visual-textual sentiment analysis of social multimedia[C]. San Francisco： ACM International Conference on Web Search and Data Mining， 2016.

[11] MARTINEAU J，FININ T. Delta TFIDF： an improved feature space for sentiment analysis[C]. California： International Conference on Weblogs and Social Media， 2009.

[12] BENGIO Y， DUCHARME R， VINCENT P， et al. A neural probabilistic language model[J]. Journal of Machine Learning Research， 2003， 3： 1137-1155.

[13] MIKOLOV T，CHEN K，CORRADO G，et al. Efficient estimation of word representations in vector space[J]. Computer Science，2013（1）：1-12.

[14] AMENCHERLA M，VARSHNEY L R. Color-based visual sentiment for social communication[C]. Taiwan： Information Theory，2017.

[15] JINDAL S， SINGH S. Image sentiment analysis using deep convolutional neural networks with domain specific fine tuning[C]. International Conference on Information Processing，2015：447-451.

[16] YU Y， LIN H， MENG J， et al. Visual and textual sentiment analysis of a Microblog using deep convolutional neural networks[J]. Algorithms， 2016， 9（2）： 41.

[17] CORCHS S， FERSINI E， GASPARINI F. Ensemble learning on visual and textual data for social image emotion classification[J]. International Journal of Machine Learning & Cybernetics，2017（4）：1-14.

[18] XIAO K， ZHANG Z， WU J. Chinese text sentiment analysis based on improved convolutional neural networks [C]. IEEE International Conference on Software Engineering and Service Science，2017： 922-926.

[19] TRUONG Q T， LAUW H W. Visual sentiment analysis for review images with item-qriented and user-oriented CNN[C]. Mountain View： ACM on Multimedia Conference，2017：1274-1282.

[20] CHEN F， JI R， SU J， et al. Predicting Microblog sentiments via weakly supervised multi-modal deep learning[J]. IEEE Transactions on Multimedia， 2017， 99： 1.

[21] PORIA S， CAMBRIA E， HOWARD N， et al. Fusing audio， visual and textual clues for sentiment analysis from multimodal content[J]. Neurocomputing， 2016， 174： 50-59.