李凌霄, 李绍滋,曹冬林
(1.厦门大学 智能科学与技术系,福建 厦门 361005; 2. 厦门大学 福建省仿脑智能系统重点实验室,福建 厦门 361005)
基于多情绪源关联模型的中文微博情感分析
李凌霄1, 2, 李绍滋1, 2,曹冬林1, 2
(1.厦门大学 智能科学与技术系,福建 厦门 361005; 2. 厦门大学 福建省仿脑智能系统重点实验室,福建 厦门 361005)
社交媒体信息的爆炸式增长,使得依据其对公众舆论情感的分析受到越来越多的关注。与传统文本不同,新浪微博中存在包括情感词、表情、图片和视频等特征在内的多情绪源,本文针对中文社交短文本情感分析中情感词典时效性问题和多情绪源间的关联性问题,提出了一种多情绪源关联模型。该模型考虑微博中的情感词和表情特征及其之间的关联关系,在经典的词典规则投票方法基础上,引入多情绪源以及关联概率,通过概率建模的方式对情感词和表情两类情绪源建立关联模型,实现对微博情感的判别。实验表明,在6 171条微博数据集中,多情绪源关联模型分类准确率达到了85.3%,强于包含情感词和表情的传统投票模型(83.4%)以及包含同类多特征的SVM方法(82.9%)。
多模态情感分析;多情绪源;社交媒体;关联性
中文引用格式:李凌霄,李绍滋,曹冬林. 基于多情绪源关联模型的中文微博情感分析[J]. 智能系统学报, 2016, 11(4): 546-553.
英文引用格式:LI Lingxiao, LI Shaozi, CAO Donglin. Emotional multi-source correlation model for chinese micro-blog sentiment analysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 546-553.
时下,社交媒体正成为人们生活中不可或缺的一部分,通过微博、微信等工具,人们可以随意发表对电影、商品的喜恶,对社会事件的个人观点,甚至对国家政策的看法。如何从包含这些信息的大规模数据中获取诸如情感倾向在内的潜在信息,对于产品导向、广告精确投放、国家舆情控制等领域都具有重要意义,社交信息的数据挖掘与分析正成为研究者们关注的热门课题。
对英文社交媒体(如Tweet)的情感分析已经有很多进展,分析的方法主要分为有监督方法[1-5]和基于词典或逐点互信息(PMI)[7]的无监督方法。而类似针对中文社交媒体的情感分析工作则仍处于起步阶段,所使用的方法大都源于英文情感分析方法,但由于社交媒体表现形式的多样化和中文网络语境多变性等原因,传统分类方法仍存在很大改进空间,本文针对目前存在的两个问题进行建模:
1)情感词典时效性差,中文新词的出现更为频繁,基于统计的方法在短周期内难以判断其情感;
2)传统方法未考虑多情绪源之间的关联。
这里的多情绪源是指微博中可能出现的能够体现其情感的多种异构特征,如情感词、表情符号、图片和视频等。并且这些情绪源之间存在以下在情感分析上可以进行互补利用的关联关系:
1)不同情绪源表达的情感强度可能不同,强情绪源可以对弱情绪源进行极性加强;
2)同一情绪下不同情绪源之间存在较强的关联性,例如在“哈哈”表情下出现正情感词的概率较大。
根据以上分析,我们提出了一种多情绪源关联模型,该模型对微博中的情感词和表情符号两种情绪源及其之间的关联进行建模。我们的实验结果显示,该模型在微博数据上优于经典分类算法,并且该模型具有拓展性,可以继续加入诸如图片和视频在内的其他情绪源。
文本情感分析近几年逐渐成为热门研究课题,其内容主要包括情感极性分析和主客观分析等,本文主要关注情感极性分析。目前情感极性分析的方法主要分为两类:有监督的分类器学习方法和无监督的基于情感词典或者PMI的方法。
1.1有监督方法
有监督方法大多通过机器学习技术从文本中选取合适的特征构建分类器,包括朴素贝叶斯、最大熵和支持向量机等,进而对不同情感进行分类。
分类器选择上,Pang等[1]用以上3种分类器将影评分为正、负两类极性,引入了一元语法特征、二元语法特征、词性特征和词位置特征等8种组合特征,最终使用基于出现与否的一元语法特征SVM分类器效果最好,在其语料集中达到83%的准确率。
特征选择上,D.Kushal 等[2]对语法规则、n-gram特征进行了分析;Hatzivassiloglou等[3]使用了情感词作为特征,对句子级别的情感倾向进行了分析;J.C.Na等[4]对指定词语和否定短语特征进行了分析。
这类机器学习方法,例如多特征SVM情感分类方法,并未考虑到不同特征之间的关联关系。
1.2无监督方法
无监督方法利用文本中带有情感的词汇的情感倾向,综合考虑文本的语法规则、句法构成等要素对文本进行情感极性的判别,通常采用投票的方法。在该类方法中,主要依靠文本分析,并未关注社交媒体信息中情绪源多并且不同情绪源之间存在关联性的特点。
基于情感词方法的基础是判断词的情感,对词汇的情感判断方法包括:基于情感词典、基于监督学习[5]和基于种子词[7-9]的方法等。
常用的中文情感词典有知网情感分析用词语集、台湾大学中文情感极性词典(NTUSD)和大连理工大学中文情感词汇本体库等。基于情感词典的方法主要缺陷在于覆盖面窄、无法包含网络新词。
Wilson等[5]提出了一种二步分类的有监督方法判断短语的极性:1)判断将短语分类为有极性和中性;2)将第1步中得出的有极性短语进一步划分为4类极性,每一步使用不同的特征进行分类,分类器相同(BoosTexter AdaBoost.HM[6])。最终在其数据集上准确率达到75.9%。
Turney[7]提出了一种判断单词情感的方法,通过在大规模语料集中分别计算目标单词与正负极性种子词(正种子词:excellent;负种子词:pool)的逐点互信息,将两个结果进行对比得出目标单词的情感,最终在其数据集中达到82.8%的准确率,缺点是需要大规模语料集,运算量大。
此外,Xia H.等[9]研究了英文社交媒体中出现的情感标记信号在无监督情感分析中的应用,取得了良好的效果。
1.3中文微博情感极性分析研究现状
中文微博情感极性分析主要方法来源于上文提及的英文文本情感分析相关方法[10]。
目前,由中国中文信息学会(CIPS)主办的中文倾向性分析评测(The Fifth Chinese Opinion Analysis Evaluation, COAE)聚集了该领域大量研究成果。COAE评测由2008年开始每年举办一次,发布中文倾向性分析的相关任务,包括情感识别、新词发现、观点句提取和评价对象识别等。表1给出了COAE2013 http://ccir2013.sxu.edu.cn/COAE.aspx 任务1(基于否定句的句子级倾向性分析)的最佳评测结果。
表1 COAE2013任务1最佳评测宏平均结果
最佳结果[11]使用了集成学习的方法,通过多次欠采样训练NB、ME、SVM基分类器,通过product rule融合多个基分类器。该方法针对标注数据集较少的情况,提高了分类器的鲁棒性和泛化能力。
在中文微博情感分析的多种方法中,SVM方法虽然引入了不同特征,但是认为特征之间相互独立;基于规则投票的方法主要依赖情感词典和语法规则,也有引入表情符号等情绪源的方法,但未考虑不同情绪源之间的关联。
此外,谢丽星等[12]提出了基于层次结构的SVM分类方法,选取主题相关特征构建分类器对微博情感进行三分类。通过分句考虑了3类极性的句子数目以及首尾句情感极性,并且依据主题选取了多种特征训练分类器,在其数据集上达到67.283%的准确率。但通过对我们的6171条微博进行分析发现,句子数目大于2的微博仅占12%,因此分句对情感分析效果不大。此外由于本文针对没有主题标签的微博,因此最终在实验中选择文献[12]中与主题无关的不分句最佳特征SVM以及无关联多情绪源模型作为对比方法。
多情绪源关联模型受基于词典投票的情感分析方法启发,对包括情感词在内的多情绪源及其间的关联进行建模(本文只考虑情感词和表情两种情绪源)。因此本章从基于词典投票的分类模型,到加入表情特征进行改进,近而引入后验概率联合建模3个过程来介绍模型的产生原理,最后介绍多情绪源关联模型的构建方法(算法将微博分为负面、中性和正面3种情感)。
2.1原理框图
图1~3分别展示了3种情感分类模型的组成原理,可以看出相比其他两类模型只考虑单一或者相互独立的情绪源特征,本文提出的多情绪源关联模型综合考虑了不同情绪源及其之间的关联进行建模,并且在第2.4节的实验中证明了这种关联对于情感分析的作用。
图1 情感词投票模型Fig.1 Word voting model
图2 无关联模型Fig.2 Uncorrelated model
图3 多情绪源关联模型Fig.3 Emotional multi-source correlation model
2.2基于词典投票的情感分类模型
本节介绍了传统方法中基于情感词典投票的情感分类模型,并对其进行了概率转换,再依据否定词和感叹句对情感词极性进行了修正。
2.2.1情感词典概率模型
基于情感词典的分析方法将情感词典中标注为正负极性的情感词作为特征,先对文本进行分词(本文中涉及的分词工具使用了中科院计算所开发的ICTCLAS50分词系统 http://www.ictclas.org/),将正负情感词在文本中出现次数的差值作为文本正负情感判断的依据。根据式(1)进行极性投票判断。
(1)
如果将以上判断方法用概率模型进行表示,可以得到式(2)。
(2)
2.2.2否定词和感叹句分析
针对中文微博里存在否定词、感叹句等语法结构的特点,本文对情感词的极性权值进行了修正。
与文献[12]中类似,模型对否定词的出现进行了处理,自定义了24个常用否定词,如表2所示,将以否定词为中心,大小为3窗口的中出现的情感词极性反转。
表2 自定义否定词表
感叹句通常起到的是加强语义的作用,而对于语句的情感影响也会起到类似的加强效果。我们认为出现感叹句的句子中,情感词表达效果翻倍,因此使用了最为直接的处理方法,将感叹句中的情感词个数在原基础上乘以2。
2.3无关联的情感词和表情模型
很多情况下,单独使用情感词难以判断微博所表达的极性,因此可以通过引入其他情绪源来综合判断极性,我们考虑了表情符号作为联合特征,因为表情和情感词在微博情感分析中具有如下优势互补的特性。
1)微博中情感词分布广泛,一条微博中往往包含多个情感词。但仅利用情感词进行情感判别的缺点在于情感词典时效性差:情感新词出现较频繁,但刚出现时数量少,使用基于统计的新词极性判别方法在新词出现初始周期内难以对新词进行识别和判断。
2)微博上表情符号的使用相对固定,但利用表情进行情感判别的缺点在于一条微博中表情个数不多,同时并非所有微博都包含表情。
此外,经过试验表明,微博表情特征的以下特点也能够提升情感分类效果:
1)微博表情对情感的表达比文本更为直接和显著;例如微博“终于通关了”,文本中并未出现情感词,仅通过词典将其判断为中性情感,加入表情特征后判断为正面情感。
因此我们对情感词和表情符号联合建模,以综合利用二者在微博情感判断中的互补优势,和表情特征的自身判别优点,具体模型如式(3)~(5)所示:
(3)
(4)
(5)
2.4多情绪源关联模型
2.3节模型认为情感词与表情之间是相互独立的,没有考虑情感词和表情之间的关联关系,以及这种关系对情感极性判断的影响,因此这里引入了后验概率对其进行修正。
表3给出了一个例子,在该例中,虽然出现的情感词都为正极性,但表情符号却只有负面表情,通过2.3模型进行判断,将这条微博错分成负极性。
表3 无转折词的转折句实例
(6)
(7)
(8)
式中:normal为归一化因子。
(9)
类似地
(10)
在表3所示的示例中,使用2.3节中的方法进行极性判断,结果如下:
Sp-Sn=0.14>0,最终结果为正性(本数据集下,取ωw=1,ωf=1.5)。分类正确的原因是通过“泪”与上述情感词之间的关联性,考虑了“泪”与上述情感词出现情况下,分类为正极性的概率。
多情绪源关联模型不限于情感词和表情符号两个情绪源,可以通过加入更多的情绪源,例如图片、视频等,来拓展关联模型。
3.1实验数据及验证方法
上文中提及的COAE评测给出了公共数据集,但由于其数据集中所包含的有表情微博数量十分稀少,不适合测试本方法,因此本文通过新浪微博API爬取微博信息,并对爬取的6 171条微博进行了人工标注,经过统计,微博数据来自社会、电影、电视剧、美食、娱乐八卦、科技等多个领域。
所选择数据集中正极性微博所占比例偏大,中极性比例偏小,并且含有表情的微博较多(主要分布于电影、电视剧、娱乐八卦和美食等领域),但用于比较的各个分类方法所用数据集相同,不会对结果比较造成影响。
我们所使用的情感词典为大连理工大学中文情感词汇本体库http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx?以及自定义的少量新词(如坑爹、给力等),一共27 488个(正极性词13 556个,负极性词13 932个)。在分词时,使用ICTCLAS50自定义词典接口,调用了情感词典和否定词典。
模型中,使用表情符号和情感词进行了联合建模,表情符号选择微博常用表情中默认的50个表情符号,如(正性)和(负性)。如表4。
表4 实验数据极性分布
3.2对比实验说明
对比实验1采用文献[12]中一步三分类最佳特征组合(去除了情感短语和中文是否出现这两个特征),此外因为本文数据集中的微博包含的多句子情况少,因而不考虑分句的情况进行第2次分类;同时本文的情感极性分析针对无主题标签的微博,因此不考虑主题特征。在文献[12]所做的实验中,url特征与主客观分类对最终效果有负面影响,因此也不将这两个因素考虑在内。此外,选用的情感词典和表情符号、标点符号也与之不同。最终使用的特征表示如表5所示,用词袋模型(BOW)表示。其中否定词采用与3.2.2中相同处理方法。对比实验二采用3.3节中方法。实验采用五折交叉验证。
表5 对比实验特征表示
3.3实验结果及分析
分类器说明:
1)关联模型:多情绪源关联模型(情感词、表情关联建模);
2)NB:朴素贝叶斯模型,所使用的特征与对比实验一的SVM方法相同,使用BOW表示特征;
3)传统词典:传统的基于情感词典以及规则进行投票的方法(2.2中的方法);
4)词典+表情:传统基于情感词典及规则进行投票的方法,辅以表情特征(2.3中的方法)。
5)SVM:文献[12]中一步三分类方法。
从表6的实验结果可以看出,本文提出的多情绪源关联模型分类效果最佳,达到85.3%,比传统基于情感词加表情投票的方法高出了1.9%,比同类多特征SVM高出了2.4%。说明了对情绪源进行关联性建模,能够有效提高情感分类效果,表明不同情绪源之间的关联关系与情感极性也是相关的。缺点在于对情绪源单一的微博(例如无表情的微博)则主要依赖于传统情感词典分类方法。
表6 总体结果
注:P、R分别表示准确率(Precision)和召回率(Recall)。
3.4 错误分析
本节中对混合概率模型的错误分类样本进行了分析,研究了造成分类错误的原因,如表7所示。
表7 错误类别及相关示例
实验结果表明,在缺乏表情符号特征的微博中分类效果较差,主要原因还是由于当没有表情特征时,分类器只依赖于情感词以及简单规则进行分类。此外,对转折句、反讽句等句式的判断存在不足,原因是微博中很多反讽句式的出现往往是伴随着网络新词出现的,并且没有明显的句式标识词(例如,“这小偷真是太机智了”),使得对反讽句和转折句的判断比较困难。
4.4对比分析
通过在同一数据集上对不同模型的实验表明,多情绪源关联模型能够很好地解决基于情感词判别方法时效性差的问题,并且在分类时综合考虑了不同情绪源之间的关联性,提高了分类效果。相对于对比实验2的普通情感词和表情建模的方法,多情绪源关联模型通过引入后验概率,利用情感词与表情符号之间的关联性,加强情感判断性能。另外,使用对比实验1中的SVM分类器时,虽然加入了包括表情、否定词在内的多特征,但认为不同特征之间相互独立。多情绪源关联模型所能解决的一些错分类问题如表8所示。
表8 关联模型分类正确样本
新浪微博作为时下最为流行的社交网站之一,不仅是民众钟爱的社交工具,更是研究者挖掘数据的天堂,其商业价值和学术价值都不断升温。本文对微博数据挖掘领域的情感分析进行了研究,提出多情绪源关联模型,针对传统基于词典的方法重新进行了关联性建模,使得分类准确率相比传统模型(3.3节模型)提高了1.9%;相比多特征SVM提高了2.4%。但该方法仍是较为简单的情感分析方法,就方法本身而言,也存在很大的提升空间,可以对以下几个方面进行改进:
1)拓展模型,引入更多情绪源,包括图片和视频等,使模型更适合于微博语境。
2)在概率模型中引入更加复杂的语法规则分析,例如祈使句式、多重否定、反讽句等;
3)挖掘微博用户之间的社交网络关系对情感分析的影响,通过有关联用户来参与判断情感。
[1]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2002, 10: 79-86.
[2]DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut gallery: opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th International Conference on World Wide Web. Budapest, HU: ACM, 2003: 519-528.
[3]YU HONG, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2003: 129-136.
[4]NA J C, SUI H, KHOO C, et al. Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews[C]//MCILWAINE I C. Knowledge Organization and the Global Information Society: Proceedings of the Eighth International ISKO Conference. Wurzburg, Germany: Ergon Verlag, 2004: 49-54.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2005: 347-354.
[6]SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168.
[7]TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: ACM, 2002: 417-424.
[8]朱嫣岚, 闵锦, 周雅倩, 等. 基于HowNet的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1): 14-20.
ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese information processing, 2006, 20(1): 14-20.
[9]HU Xia, TANG Jiliang, GAO Huiji, et al. Unsupervised sentiment analysis with emotional signals[C]//Proceedings of the 22nd international conference on World Wide Web. Rio de Janeiro, Brazil: ACM, 2013: 607-618.
[10]赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8): 1834-1848.
ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment analysis[J]. Journal of software, 2010, 21(8): 1834-1848.
[11] 魏现辉, 任巨伟, 何文译, 等. DUTIR: 中文短文本倾向性分析及要素抽取方法研究[C]//第五届中文倾向性分析评测研讨会论文集. 太原, 2013: 116-129.
WEI Xianhui, REN Juwei, HE Wenyi, et al. DUTIR: method research of sentiment analysis and elements extraction of Chinese short text[C]//Proceedings of the Fifth Chinese Opinion Analysis Evaluation. Taiyuan, 2013: 116-129.
[12]谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报, 2012, 26(1): 73-83.
XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical structure based hybrid approach to sentiment analysis of Chinese micro blog and its feature extraction[J]. Journal of Chinese information processing, 2012, 26(1): 73-83.
李凌霄,男,1990 年生,硕士研究生,主要研究方向为跨媒体舆情分析。
曹冬林,男,1977 年生,博士,厦门大学智能科学与技术系助理教授,主要研究方向为自然语言处理、信息检索、跨媒体舆情分析、计算机视觉、模式识别。
李绍滋 ,男,1963年生,博士,教授,博士生导师,主要研究方向为人工智能及其应用、计算机视觉与机器学习、运动目标检测与识别、跨媒体舆情分析等。主持过多项国家、省市级项目研究,获得省科学技术三等奖两项,发表学术论文200余篇,其中:27篇被SCI检索、171篇EI检索。
Emotional multi-source correlation model for chinese micro-blog sentiment analysis
LI Lingxiao1, 2, LI Shaozi1, 2, CAO Donglin1, 2
(1. Cognitive Science Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain-like Intelligent Systems, Xiamen 361005, China)
With the explosion of social media information, sentiment analysis of public opinion is attracting more and more attention. Compared with traditional text, the Sina micro-blog contains a variety of emotional sources, including sentiment words, emoticons, pictures, etc. To solve the problem of the poor timeliness of lexicons in Chinese social short messages and to utilize the correlation between different emotional sources, an emotional multi-source correlation model (EMCM) is proposed to carry out sentiment analysis on a micro-blog. In particular, it takes advantage of the correlation between sentiment words and emoticons. It imports the multi-sources and correlation probabilities, and then builds a correlation model between the two emotional sources, emotional words and emoticons, based on a voting model using sentimental words. Experimental results show that this model achieved an accuracy of 85.3% in 6 171 micro-blogs, higher than either the traditional method based on voting (83.4%) or the SVM method based on similar multi-features (82.9%).
multi-modal sentiment analysis; emotional multi-sources; social media; correlation
10.11992/tis.201605019
网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.002.html
2016-05-19. 网络出版日期:2016-08-08.
国家自然科学基金项目 (61202143, 61305061, 61402386,61572409);福建省自然科学基金项目 (2013J05100).
曹冬林. E-mail:another@xmu.edu.cn.
TP391
A
1673-4785(2016)04-0546-08