基于话题的微博多特征情感极性分类

2017-09-04 00:31刘志远高俊波
网络安全与数据管理 2017年16期
关键词:博文极性分类器

刘志远,高俊波

(上海海事大学 信息工程学院,上海 201306)

基于话题的微博多特征情感极性分类

刘志远,高俊波

(上海海事大学 信息工程学院,上海 201306)

通过对新浪微博特点的分析与研究,利用话题下微博文本的多特征,建立微博情感极性分类模型,运用机器学习的分类方法对微博情感极性进行判定,应用微博的转发、评论、点赞、粉丝数与关注数等的关系进行图优化,提出一种基于话题的微博多特征情感极性分类方法。实验结果表明,该方法对微博情感极性分类具有良好的效果。

多特征;机器学习;微博;情感极性

0 引言

随着科学技术的快速发展,人与人之间的社交活动逐渐偏向于网络,大众慢慢地习惯了在网上浏览新闻,互动交流,表达对生活中某些事情的观点。微博,作为一个社会网络平台,用户可以获得丰富的实时信息,也为用户提供了方便的交流方式。根据统计表明,截止到2016年8月,每个月微博有2.82亿使用者,每天有1.26亿使用者。如此多的活跃用户量使微博拥有很多的数据,在这样多的数据中,其中的大部分是带有情感倾向的文本数据,这样的情感文本数据是特别有用的意见资源,对这些话题下的微博内容使用文本情感分类的方法进行情感极性的分类研究。

与传统的文本相比,微博内容相对简单,它的文本短小,其内容不能超过140字。而且微博用户会使用网络用语、表情符号与链接,每个用户关注事情的角度非常广泛,这些都增加了微博情感分析的难度。

近年来,对于微博情感的研究引起了许多学者的兴趣,国内外研究者已在文本情感分析方向做了许多的研究工作,并取得了很多的成果。目前,对文本的情感分类常用的研究方法大致概括为两种:第一种是使用情感词典分类的方法,第二种是使用机器学习分类的方法。基于情感词典的方法是通过利用词典获得文本的情感。基于机器学习的方法重点是文本特征的准确判定,利用选择的特征进行组合计算文本的情感极性。

本文通过观察微博的特征提出了利用话题下微博内容的多特征,建立话题下微博情感分类模型,运用机器学习的分类方法对微博情感极性进行判定,应用微博的转发、评论、点赞、粉丝数与关注数等的关系进行图优化,提出一种基于话题的微博多特征情感极性分类方法。

1 相关工作

近年来,微博的情感分类已经成为自然语言研究的热门方向,关于文本情感分类方法的研究学术界已经取得了丰富的成果。总的来说,情感分类的途径可以概括为下面的两种常用的方法。

1.1 基于情感词典的分类方法

基于词典的分类方法通常采用WordNet、HowNet词典来判断词语的相同的程度。文献[1]使用WordNet计算特征词在积极种子词与消极种子词之间的距离,判断情感极性。文献[2]建立情感知识库使用WordNet,对评论中的词语的情感极性进行选取并确认,判别评论的全体的情感极性。文献[3]使用PMI方法,计算出微博内容中与规则短语的语义倾向相符合的,判断微博内容的整体倾向。

1.2 基于机器学习的分类方法

基于机器学习方法的步骤:先人工识别文本情感类别并进行标注,把这些标注了的语料作为训练集,然后运用合适的方法进行文本特征的表示,最后利用机器学习的方法建立可获得待测文本的情感类别的分类器,得到希望的效果。文献[4]使用朴素贝叶斯、最大熵和SVM的算法,实验结果显示,SVM分类器在几种分类方法得到了最理想的效果。文献[5]使用语义特征和机器学习结合的方法,对褒贬词、否定词、程度副词这几种词汇迭代递增选取特征集,使用SVM分类器与对词的频率进行加权统计的方法,对实验的数据进行褒贬分类。文献[6]在特征的提取方法上进行了改进,提出了将词性、词组内部组成形式、词语上下文语境多种语法特征结合的方法。文献[7]在分类方法的角度上进行了研究,提出了一种组合的思路,即将不同的分类器进行组合来提高情感分类的性能。

1.3 微博情感分类方法

微博是一个人们获取消息,表达观点的快速交流的信息平台,现在对微博内容的情感分类研究已有了较多的方法。文献[8]提出了对Twitter上的微博内容使用距离监督的方法来进行情感判断,把表情符当成标签,训练集为采集到的英文语料,没有了人工识别标注语料的步骤。文献[9]提出一种在微博文本上利用与评价目标有关系的特征,以此增加情感分类精度。文献[10]使用词、词性与句法模式利用CRF模型获得评论句里评价对象,然后用SVM分类器对评论句中的情感进行分类。文献[11]选择并自行标明大规模微博没有标注的语料,把自动标注的语料运用为训练集建立微博情感分类器,自动对微博情感类别分类。

由于微博中存在转发、回复等评论转发方式,加上用户可同时参与多个话题的谈论,这种相互联系,形成基于评论文本的交互信息网络。通过网络爬虫等工具可以获取文本内容及相互间交流的过程,这些信息也可以加入到对微博短文本分析过程中。文献[12]将微博使用者的社会关系聚类,将聚类所得作为特征用以提高分类的效果。文献[13]针对文本特征向量的维度,对获取信息的文本结构以及情感表达特点进行分析,使用一种改进的KNN算法进行文本情感分类。

与以上文献的工作不同的是,本文利用话题下微博文本的多特征,建立微博文本情感分类模型,运用机器学习的分类方法对微博情感极性进行判定,应用微博的转发、评论、点赞、粉丝数与关注数等的关系进行图优化,提出一种基于话题的微博多特征情感极性分类方法。

2 情感极性分类器设计

本文主要研究微博文本情感极性的分类。本文的输入是话题下所有采集的微博内容,输出是微博文本的情感极性。运用3个步骤进行情感极性分类的研究。第一步进行主观性分类,判断输入语料库中的文本是主观的还是客观的。第二步进行情感极性判断,判断第一步中被分类为主观的文本的情感极性是积极的还是消极的。第三步性能优化,提高分类的性能。本文使用LIBSVM分类器进行研究。

对于文本情感分类的途径已经有许多有效的方法,例如:词性特征、表情符号特征、上下文关系。在本文的实验中,有些特征被使用。但是这些特征都是文本本身的特征,忽略了微博文本的特殊性,微博的转发、评论、点赞、粉丝数与关注数等的多因素是微博文本相对于其他文本特有的特征,本文将这些特征应用于微博文本情感分类。

通常人们表达他们对于某个主题的情感,不是对主题本身,而是对跟主题有相关性的事情。例如,某个人表达对一部电影的评论,他可能选择电影里面的一个片段或者背景音乐进行评论,读者可以从这些评论中得到他对于主题的观点。

本文,文本多的特征一共有5个,分别是:副词加动词(例如:我很喜欢这电影,“很”加“喜欢”作为一个特征)、及物动词加主语、及物动词加宾语、及物动词单独出现和形容词单独出现。利用一个二元关系表示这些特征,如果有某个特征即为1,否则为0。

主题通常模糊不清,把主题的外部关系考虑进去可能有更好的效果。本文考虑了微博的转发、评论、点赞、粉丝数与关注数等。转发别人的微博,通常不改变别人的内容,通常表达了相同的情感。评论可能支持也可能反对本微博的情感。点赞大多数表达对微博的赞同,表达了相同的情感。粉丝大部分都对作者的微博认同,也表达了相似的情感。

情感极性分为积极、消极和中立3种,本文利用下面的公式进行图优化:

(1)

3 实验结果及分析

3.1 实验设置

本实验使用了“2017再出发”、“汽车”、“美联储加息”、“考研”、“雾霾来袭”这5个主题下的数据,利用微博爬虫从网络上采集实验需要的数据,每个主题采集500个微博,然后进行人工标注微博的情感极性,最终得到实验使用的数据集,正向情感有1 056条微博,负向情感有856条微博,中立情感有553条微博,如表1所示。

表1 实验数据

3.2 主客观性分类

用不同的特征来对比主客观性分类的效果,为了进行对比,加入了Hownet词典的分类方法作为对比。实验中,选取正向与负向的1 912条微博为主观性的微博,中立的553条微博为客观性的微博,选取1 400条的主观性微博与410条客观性微博为训练集,余下的512条主观性微博与143条客观性微博作为测试集。实验结果如表2所示。

表2 主客观性分类的准确性

从表2可以看出,只用文本特征得到的准确率最低,为62.8%,情感词典对提高准确率有帮助,本文提出的方法的准确率最高,为69.3%。结果表明,本文的方法对情感极性分类的准确率有所提高。

3.3 情感极性分类

选取每个主题每个极性下的2/3作为训练集,剩下的1/3作为测试集,选择不同的特征,利用SVM方法分类。

表3 情感极性分类的准确性

实验结果如表3所示。

从表3可以看出,只用文本特征得到的准确率最低,为76.6%,情感词典对提高准确率有帮助,本文提出的方法的准确率最高,为86.3%。结果表明,本文的方法对情感极性分类的准确率有所提高。

3.4 结果的优化

主题下有的微博没有转发、评论、点赞关系,使用拥有这些关系的微博进行试验,得到的实验结果如表4所示。

表4 优化的准确率

从表4可以看出,优化方法对极性分类的准确率有所提高。

4 结论

微博情感分类吸引了很多人去研究,本文提出结合微博文本本身与文本上下文的特征微博情感极性分类方法,并利用微博的转发、评论、点赞、粉丝数与关注数等的关系进行图优化。与之前的利用微博文本方法不同,本文提出了利用文本上下文特征的方法进行微博情感极性分类。实验结果表明,本文方法分类的准确度优于使用微博文本。

在本文方法中,有许多地方有待改进,如将联系比较紧密的名词或名词短语作为扩展目标,添加到话题词的集合中,提高情感极性分类的效果,这是今后的研究方向。

[1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.

[2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.

[3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.

[4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.

[5] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):98-102.

[6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.

[7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.

[8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.

[9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.

[10] 包亮,张莉,许鑫. 苏州园林网络评论意见挖掘研究[J]. 微型机与应用,2016,35(13):86-89.

[11] 庞磊,李寿山,周国栋.基于情绪知识的中文微博情感分类方法[J]. 计算机工程,2012,38(13):156-158,162.

[12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.

[13] 刘晓菲,丁香乾,石硕,等.基于改进KNN的消费者评价信息情感分类研究[J].微型机与应用, 2014,33(24):81-83,86.

Multi-feature based sentiment orientation identification for micro-blog topics

Liu Zhiyuan, Gao Junbo

(College of InformationEngineering,Shanghai Maritime University,Shanghai 201306, China)

Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.

multi-feature; machine learning; micro-blog; sentiment polarity

TP391

A

10.19358/j.issn.1674- 7720.2017.16.017

刘志远,高俊波.基于话题的微博多特征情感极性分类[J].微型机与应用,2017,36(16):60-62,66.

2017-02-25)

刘志远(1992-),通信作者,男,硕士研究生,主要研究方向:数据挖掘。E-mail:liu770105275@163.com。

高俊波(1972-),男,博士,副教授,主要研究方向:计算智能、数据挖掘。

猜你喜欢
博文极性分类器
第一次挣钱
跟踪导练(四)
红葱不同极性提取物抑菌活性研究
谁和谁好
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
香椿子不同极性部位对糖尿病周围神经病变的保护作用
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
基于层次化分类器的遥感图像飞机目标检测
一种基于置换的组合分类器剪枝方法