微博话题中的情感分析研究

2017-10-21 02:59:38张顺香
关键词:子句表情符号连词

王 银,张顺香

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

微博话题中的情感分析研究

王 银,张顺香*

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

微博话题的情感分析是分析出微博话题中隐含的情感并实现对微博消息的分类,该研究可以帮助网络监管人员和政府机关人员针对网络舆情及时做出积极有效的决策。微博话题情感分析的核心任务是分析微博话题中每条微博消息的情感倾向。本文提出的中文微博话题的情感分析是在基础情感词典之上,通过提取并构建程度副词、网络用词和否定词等相关词典,实现对基础情感词典的扩充,最后通过权值计算得到微博消息的情感极值,达到对微博消息进行情感分类的目的。实验结果证明所提出的方法的有效性。

情感词典;微博话题;情感分析

随着社会网络的迅速发展,越来越多的人通过网络来发表对当前一些热点话题的看法,而微博则成为用户广泛使用的数据平台之一。在微博上,用户发表的消息的数量正以指数的趋势在不断增长,而这些消息涉及到社会、生活、科技、娱乐等诸多领域。在大数据时代,这些包含用户主观情感信息成为非常宝贵的信息资源,而且越来越多的机构把网络上的情感观点信息用于决策。

然而,如何从海量的微博消息中快速提取出关键、有价值的情感信息成为当前的研究热点。微博消息的情感分析之所以受到众多学者的高度关注,主要是因为其与传统的文本分析有许多不同的特性,如具有信息元素多样化,语言灵活等特性。微博的以上特性也给情感分析方面也带来了新的挑战。

微博消息中可以表达情感的信息元素较多,尤其是微博表情。基于机器学习的情感分析方法不能很好地应用这些信息元素。情感词典中可以将这部分特殊的信息元素单独区分起来。当然,建立的情感词典的质量和数量也会影响得微博消息的情感判断。将更多的微博消息的特征元素应用到情感词典的建立上,则可以有效地提高微博消息情感分析的准确率。因此,本文提出一种基于情感词典的中文微博话题的情感分析方法。该方法的核心任务是在基础情感词典之上,根据微博的特征,建立相关词典。建立的词典包括基础情感词典,程度副词词典,网络用词词典,否定词词典,表情符号词典和关系连词词典,并将这些词典导入到分词系统中。最后根据每一部情感词典的权值计算来对微博消息的情感倾向进行打分并分为正面,负面以及中立三类。其目的是帮助网络监管人员和政府机关人员及时采取有效的决策以防止舆论的变相发展。基于情感词典的中文微博话题的情感分析的过程如下图1所示。

图1 基于情感词典的中文微博话题的情感分析的过程

1 相关工作

情感分析是指分析说话者在传达信息时所隐含的情绪状态,对说话者的态度、意见进行判断或者评估[1]。基于语义词典的情感计算方法主要是以开源的情感词典或是扩充的情感词典为基础,再结合一些自定义的语义规则来进行情感计算。朱嫣岚等人基于Hownet词典,提出两种词汇语义倾向性计算方法,即基于语义相似的方法和基于语义相关场的方法[2]。Jose R等人基于Senti-WordNet词典和具有词义消歧的WordNet词典在Twitter数据上实验,提出一种词义消歧(WSD)的情感分类器来高情感分类的准确性[3]。Huang等人使用滑动窗口结合检测和情感短语词典的方法解决隐喻,转折,多重否定和讽刺的语义识别问题[4]。Park等人通过在三个不同英文在线词典来收集同义词和反义词来扩充词集,建立一个分类词典进行情感分类[5]。

基于机器学习的情感分析方法,是采用机器学习的方法,通过对标注语料的训练生成倾向分类器,对测试文本进行分类。李爱萍等人将句子划分为简单句和复杂句,对简单句采用贝叶斯算法,复杂句采用情感判断规则判别情感[6]。Shahheidari等人通过自动收集的微博建立微博语料库,再利用朴素贝叶斯模型,建立一个简单的情感分类器[7]。欧阳纯萍等人提出一种基于多策略融合的细粒度情绪分析方法,结合朴素贝叶斯和支持向量机将微博分类[8]。在基于深度学习的情感分析方面,较多的学者使用的是神经网络方面的知识来进行情感分析[9,10],然而也有学者使用如模糊运算等方面的知识进行相关分析[11]。

2 情感词典的构建

我们首先对获取的关于某一话题的微博消息进行预处理,然后再构建相关的词典。就目前而言,微博文本情感分析领域还没有一部通用且完整的情感词典。因此,本章节基于微博消息的信息元素多样化和语言灵活等方面的特征,来构建相关的词典。构建的词典包括基础情感词典,程度副词词典,否定词词典,网络用词词典,表情符号词典和关系连词词典。

2.1 微博文本的预处理

微博文本不同于普通文本,具有许多普通文本没有的特征。为了方便研究,需要对微博文本进行预处理。

(i)去除网页链接、动画、视频及图片。这些内容可能对微博消息本身有一定的影响作用,但目前还没有较好的方法将这些内容运用到微博中去,故将其去除。

(i)去除“@+用户名”。微博中的“@+用户名”符号是用来告诉某个人或是引起某人的注意,对情感分析没有实质性的作用,故将其去除。

(i)去除“#+话题+#”。此段内容为该微博主要谈论对象。因为本次收集的微博都是关于某一话题的,所以此段内容可忽略不计,去除即可。

(i)繁体转换为简体,英文转中文。微博中偶有繁体和英文出现,为了让后续工作简便,可将文中的繁体字转换为简体字,英文使用翻译软件“有道翻译”译成中文。

(i)保留表情符号。表情符号对于情感计算有极大的用处,且有规律可寻,故将表情符号予以保留。

2.2 构建相关情感词典

本文所构建的情感词典是在已有的基础情感词典之上,再根据微博消息的特征构建其他的相关词典,实现对情感词典的扩充。本文的情感词典主要包括基础情感词典,程度副词词典,网络用词词典,否定词词典,表情符号词典和关系连词词典。其中基础的情感词典来自于开源的大连理工大学的中文情感词汇本体库;程度副词词典来自于HowNet中英文情感词典;否定词词典部分来自于前人整理的否定词[12];网络用词词典主要是网络搜索得到的;表情符号词典主要来自于新浪微博提供的可选表情符;关系连词词典则从大量已标注情感极性的微博文本中提取获得。

定义1 基础情感词典(Basic Sentiment Dictionary,BSD)。

基础情感词典是大连理工大学中文情感词汇本体库中收录的27 476个词。这些情感词根据极性分为正面词,反面词和中性词。正面词以1表示;反面词以2表示;中性词以0表示;具有正面和反面的词以3表示。情感词的极性强度分为1、3、5、7和9五个层次,9表示最大,1表示最小。为了方便后续的计算,我们将强度改为权值,并将极性为0的词语的权值都设为0。具体基础情感词典的示例如表1所示。

表1 基础情感词典示例

定义2程度副词词典(Degree Adverb Dictionary,DAD)。

程度副词词典使用的是HowNet词典中提供的程度副词词典,共计219个词,并将这些程度副词分为6个等级。等次分别是超、极其最、很、较、稍和欠,但是没有给出程度的权值。因此,本文结合中文语义规则,根据这6个等级的副词对所修饰的情感词的情感强度扩大的倍数,分别设为为3倍、2.5倍、2倍、1.5倍、1倍和0.5倍。具体程度副词词典的示例如下表2所示。

表2 程度副词词典示例

定义3否定词词典(Negative Words Dictionary,NWD)。

否定词词典包括两部分,一部分是否定副词,另一部分是反问词。否定副词来源于已有工作整理的31个否定词;反问词主要是人工整理的10个词。由于否定词和反问词均表示与原句相反的意思,但反问词语气更为强烈,所以将否定词权值设置为-1,反问词权值设为-2。具体的否定词词典示例如下表3所示。

表3 否定词词典示例

定义4网络用词词典(Network Term Dictionary,NTD)。

网络用词具有随着时间推移而逐渐增多的特点,本文中的这些网络用词主要是网络搜索“2016年最新网络用词”和“常用网络用词”得到的,共计146个词。我们将获取的网络用词分为4个量级,并赋予相应的权值。具体的网络用词词典示例如下表4。

表4 网络词词典示例

定义5表情符号词典(Expression Symbol Dictionary,ESD)。

表情符号词典主要是网络微博平台上提供的表情符号。本文从中选取了高频使用部分的表情来构建表情符号词典,主要分为默认浪小花和心情三类,去除重复的表情符号,共计217个表情。再将这些表情符分为五个量级,并赋予相应权重。具体的表情符号词典示例如下表5所示。

表5 表情符号词典示例

定义6关系连词词典(Relational Conjunction Dictionary,RCD)。

关系连词词典主要是对微博整句的情感分析起到辅助作用。微博消息中有时整个句子的前后情感极性相同,有时也不同。若整句中用关系连词连接前后句子,则可以借助关系连词的辅助作用来分析句子的情感。本文通过对大量已标注情感极性的微博消息进行分词处理,得到若干具有词性的词,根据相连词之间的极性关系,抽取出相应的连词。得到的关系连词分为四个部分,即递进、转折、因果和让步,并为相应的部分赋予权值。具体的关系连词词典示例如下表6。

文本的情感倾向大多是通过情感词和一些辅助元素语来体现,而情感词典能否囊括全面情感词在一定程度上影响着情感分析的结果。因此,情感词典的构建就成为情感分析的重要基础。本文构建的六部词典共同组成了微博情感词典,在对具体的微博消息进行分词时,可以将情感词典导入ICTCLAS分词系统的自定义词典,这样得到的分词结果更为准确。

3 情感倾向的加权计算与分类

3.1 单个子句的情感值计算

一条子句中也可能会包含多种信息元素,根据一般句子的规律,我们对一条句子可能出现的组合情况做出相应的处理。对并列的情感词或表情的权值采用加法法则;对有修饰词的情感词采用乘法法则;对不同组合的情感权值采用加法法则。用S表示相应句子组合情况的情感值,用O表示单独某种情况的情感值,用W代表每个基础情感词的权值,用D代表每个程度副词的权值,用N代表每个网络用词的权值,用E代表每个表情符号的权值。具体应用公式如下所示。

表6 关系连词词典示例

情况一:子句的情感值仅依靠基础情感词的加权权值,则该子句情感值的计算公式如下:

其中,k表示该子句中基础情感词的个数。

情况二:子句的情感值仅依靠表情符号的加权权值,则该子句情感值的计算公式如下:

其中,k表示该子句中表情符号的个数。

情况三:子句的情感值仅依靠网络用词的加权权值,则该子句情感值的计算公式如下:

其中,k表示该子句中网络用词的个数。

情况四:情感词前面出现否定词,则句子的情感值与否定词的个数有关。若否定词的个数为单数,则情感值与情感词的极性相反,否则与情感词极性一致。因此,该子句情感值的计算公式如下:

其中,k为否定词的个数。

情况五:情感词前面出现反问词,则该子句情感值的计算公式如下:

情况六:情感词前面出现程度副词,则该子句情感值的计算公式如下:

情况七、八:情感词前既有否定词又有程度副词分两种情况,一种是“否定词+程度副词+情感词”,这对情感值起到减弱的作用;另一种是“程度副词+否定词+情感词”,这对情感值起到增强的作用。这两种情况对句子情感值有一定的影响。如“不太吉祥”和“太不吉祥”,第一句比第二句的情感弱的多。因此两种的计算公式分别乘上不同的系数来加以区分。

否定词+程度副词+情感词

综上所述,若一个句子包含上述8种情况,则情感值计算公式如下:

3.2 带有连词的两个子句情感值计

由连词连接的两个句子,其整体情感极性往往都是与连词后的子句极性相同,但情感值根据连词不同有所加强或是减弱。所以,有连词连接的两句话,都只计算有连词的句子的情感值。若有子句l-1和连词子句l,其中子句l-1的情感值为Sl-1,子句l的情感值为Sl,则两子句的情感值计算公式为:

其中,C为关系连词的权值。

根据上述的详细讨论,可以设计一个算法来帮助计算一条微博消息中若干子句的情感值。微博消息中子句的情感值的算法如下算法1。

算法1:微博消息中子句的情感值算法

输入:一条微博消息

输出:该条微博消息中每个子句的情感值

算法1主要包括了若干条判断语句和一条循环语句:

(i)判断语句,第6-21步,用来分析微博消息中单个子句的不同情况。根据上述的描述情况,将微博消息的子句分为8种情况,针对每种情况设置对应的情感值计算方法。

(ii)判断语句,第24-26步,用来计算微博消息中有连词连接的两个子句的情感值。有连词连接的两个子句,则只对有连词的子句进行情感计算。

(iii)循环语句,第2-26步,是用来计算微博消息中单个子句的情感值。通过对每一个子句的构造情况进行分析,综合得到该子句的情感值。

3.3 整条微博信息的情感值计算

在现实的微博中,一条消息可能会包含多方面的情感元素。有的微博消息可能既有情感词,也有表情符号,也可能包含各种修饰词,甚至更为复杂。若一条微博包含有n个子句,则微博消息的最终情感值的?计算公式为:

其中,V代表该条微博消息的最终的情感值;Sj代表该条微博中每条句子的情感值。最终的情感值V会出现三种情况:当V>0时,表示该条微博的情感为正面的;当V=0时,表示该条微博的情感为中立的;当V<0时,表示该条微博的情感为负面的。

算法2:微博消息的情感分析的算法

输入:一条微博消息

根据上述的详细讨论,可以设计一个算法来帮助分析一条微博消息的情感倾向。微博消息的情感分析的算法如下算法2:

算法2主要包括了一条嵌套的循环语句和一条判断语句:

(i)嵌套循环语句,第3-4步,用来计算一整条微博消息的情感值。通过单个子句的情感值的相加,即可得到该条微博消息的整体情感值。

(i)判断语句,第5-12步,用来判断微博消息的情感极性。当V>0时,则微博消息的情感倾向是正面的;当V<0时,则微博的情感倾向是负面的;当V=0时,则微博消息的情感倾向是中立的。

4 实验

4.1 实验方法

本文对微博消息的情感分析采用的是基于构造情感词典的方法。为了验证基于情感词典的中文微博话题的情感分析的效果,本文从新浪微博上获取了两个话题的相关微博消息。具体的实验步骤如下:

(i)实验数据获取。实验的具体数据来源于我们之前的研究工作[13]中获取的两个话题微博,即话题“空气污染能导致肥胖”和“天价救护车”。

(i)人工标注情感极性。由于获取的数据没有标注其情感极性,所以我们首先对这两个话题进行了人工标注情感极性。人工标注的方法是随机选取三名实验者对着两个话题的微博消息进行主观判断,最后统计相应的结果。

(i)构建情感词典。接下来根据上述第3节的方法分别构建出六部情感词典,即基础情感词典,程度副词词典,否定词词典,网络用词词典,表情符号词典和关系连词词典。

(i)对获取的话题微博进行情感分析。在构建的六部相关的情感词典的基础上,对每个话题的微博消息进行情感分析并分类。

本次实验的环境为联想笔记本电脑、MySql 5.0和Python 2.7。为了能验证所提出的方法的有效性,我们将实验结果与只有一部基础情感词典的实验结果进行对比。

4.2 实验分析

根据上述的实验步骤,做作了以下两组实验:

第一组实验:结合上述的六部情感词典对微博话题“空气污染能导致肥胖”的1 642条微博消息进行情感分析,并进行微博消息分类。最后将实验结果与只有一部基础情感词典的实验结果进行比较。实验结果如下图3所示。

图3 话题“空气污染能导致肥胖”的微博分类

通过实验一的结果,可以清楚的看到话题“空气污染能导致肥胖”的微博消息分别基于一部基础情感词典和构建的六部情感词典上的分类正确率。从图中可以看出,基于六部情感词典的实验方法比基于一部基础情感词典的实验方法的正确率有较大的提升。

第二组实验:结合上述的情感词典对微博话题“天价救护车”的1 839条微博消息进行情感分析,并进行微博文本分类。最后将实验结果与只有一部基础情感词典的实验结果进行比较。实验结果如图4所示。

由实验二的结果,可清楚地看到话题“天价救护车”的微博消息分别基于一部基础情感词典和构建的六部情感词典上的分类正确率。从图中可看出,基于六部情感词典实验方法比基于一部基础情感词典实验方法的正确率有较大的提升。

图4 话题“天价救护车”的微博分类

上述的两个实验表明,对微博消息进行情感分析时,不能仅仅只依靠微博消息中带有情感色彩的词语(即上述的基础情感词),因为微博还具有其它文本不具有的特征,如信息元素多样化,语言灵活等特点。因此,在对微博消息进行情感分析时还要考虑结合微博消息的特点,以此来提高微博消息情感分析的正确率。本文结合微博消息的特征,构建了相关的情感词典,如程度副词词典,否定词词典,网络用词词典等多部词典。将六部词典应用到微博消息的情感分析上,通过上述的实验,证明了该方法的有效性。

5 总结

基于情感词典的中文微博话题的情感分析能够帮助微博平台的管理人员以及政府机关有效的进行舆情监管以及做出最佳的决策。实验结果表明,基于情情感词典的中文微博话题的情感分析能够有效地对微博信息进行分类,更有助于舆情监管人员做出相应的决策。在未来,情感词典的中文微博话题的情感分析也可以为其他的相关研究,如话题跟踪,话题预测等方面打下了良好的基础,以便于更有效的研究。

[1]周胜臣,瞿文婷,石英子,等.中文微博情感分析研究综述[J].计算机应用与软件,2013,30(3):161-164,181.

[2]朱嫣岚,闵 锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20.

[3]Jose R,Chooralil V S.Prediction of election result by enhanced sentiment analysis on Twitter data using Word Sense Disambiguation[C]//International Conference on Control Communication&Computing India,2015:638-641.

[4]Huang S,You J P,Zhang H X,et al.Sentiment analysis of Chinese micro-blog using semantic sentiment space model[C]//PROCEEDINGS OF 2012 2ND INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY(ICCSNT 2012),2012:1443-1447.

[5]Park S,Kim Y.Building thesaurus lexicon using Dictionary-Based approach for sentiment classification[C]//2016 IEEE/ACIS 14TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING RESEARCH,MANAGEMENTANDAPPLICATIONS(SERA),2016:39-44.

[6]李爱萍,邸 鹏,段利国.基于句子情感加权算法的篇章情感分析[J].小型微型计算机系统,2015,36(10):2252-2256.

[7]Shahheidari S,Dong H,Bin Daud M N.Twitter sentiment mining:A multi domain analysis[C]//2013 SEVENTH INTERNATIONAL CONFERENCE ON COMPLEX,INTELLIGENT,AND SOFTWARE INTENSIVE SYSTEMS(CISIS),2013:144-149.

[8]欧阳纯萍,阳小华,雷龙艳,等.多策略中文微博细粒度情绪分析研究[J].北京大学学报:自然科学版,2014,50(1):67-72.

[9]梁 军,柴玉梅,原慧斌,等.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161.

[10]Hu Z K,Hu J Q,Ding W F,et al.Review sentiment analysis based on deep learning[C]//2015 IEEE 12TH INTERNATIONAL CONFERENCE ON E-BUSINESS ENGINEERING(ICEBE),2015:87-94.

[11]Mouthami K,Devi K N,Bhaskaran V M.Sentiment analysis and classification based on textual reviews[C]//2013 INTERNATIONAL CONFERENCE ON INFORMATION COMMUNICATION AND EMBEDDED SYSTEMS(ICICES),2013:271-276.

[12]郝雷红.现代汉语否定副词研究[D].北京:首都师范大学,2003:3-11.

[13]Zhang S X,Wang Y,Zhang S Y,et al.Building associated semantic representation model for the ultra-short microblog text jumping in big data[J].Cluster Computing,2016,19(3):1399-1410.

Research of sentiment analysis for Chinese micro-blog topic

WANG Yin,ZHANG Shun-xiang*

(School of Computer Science and Engineering,Anhui University of Science&Technology,Huainan Anhui 232001,China)

Micro-blog topic sentiment analysis is to analyze the connotative sentiment from the micro-blog topic and to achieve the classification of micro-blog massages.This research can help network supervisors and government officials to make a positive and effective decision for network public opinion.The core task of micro-blog's sentiment analysis is the analysis of sentiment tendency from micro-blog messages.In this paper,the sentiment analysis of Chinese micro-blog topic is based on the sentiment dictionary.Afterwards,the basic sentiment dictionary can be extended by extraction and construction of degree adverbs,network terms,negative words and other related dictionaries.Finally,the sentiment extreme value of micro-blog message is obtained through the calculation of the weight,which achieves the purpose of sentiment classification of micro-blog massages.Experimental results prove the effectiveness of the proposed method.

sentiment dictionary;micro-blog topic;sentiment analysis

TP274.2

A

1004-4329(2017)02-050-07

10.14096/j.cnki.cn34-1069/n/1004-4329(2017)02-050-07

2016-12-16

安徽省教育厅自然科学基金重点项目(KJ2015A111);上海市信息安全综合管理技术研究重点实验室(上海交通大学)开放课题(AGK2013002)资助。

王 银(1991- ),女,硕士生,研究方向:信息提取、文本表示与分析。

张顺香(1971- ),男,博士,教授,研究方向:语义Web、信息检索与信息提取。Email:sxzhang@aust.edu.cn。

猜你喜欢
子句表情符号连词
你会用连词吗?
命题逻辑中一类扩展子句消去方法
微信表情符号写入判决:你发的每个表情都可能成为呈堂证供
消费电子(2022年6期)2022-08-25 09:43:52
连词that引导的宾语从句
命题逻辑可满足性问题求解器的新型预处理子句消去方法
西夏语的副词子句
西夏学(2018年2期)2018-05-15 11:24:42
这个表情符号,你用对了吗
大作文(2016年7期)2016-05-14 11:13:25
西夏语中的对比连词 djij2
西夏学(2016年1期)2016-02-12 02:24:02
命题逻辑的子句集中文字的分类
表情符号玩上瘾 时尚爱尝鲜
Coco薇(2015年10期)2015-10-19 01:01:58