吴敏
摘 要:本文通过三个步骤对网络热点的评论文本进行文本情感极性分析。首先是情感词汇的选择提取,本文的文本情感分析是从《知网》情感词典选取关键词;其次是将词语的情感极性进行计算;最后是通过情感极性值来确认网络热点的舆情走向是正面还是负面偏多。网络监管部门可以根据网络热点的舆情分析来进行实时监控和管理。
关键词:文本情感分析;网络热点;舆情分析
一、网络热点舆情分析
舆情作为现代社会中体现民意的重要途径,越来越成为各国关注的焦点。舆情不仅反映民意,同时也影响民意。在互联网高度发达的今天,社会舆情不可避免的会在互联网空间有所反应[1]。随着互联网时代的到来,对舆情的监测与研究逐步实现了动态化、实时化[2]。
对热点网络舆情进行文本挖掘及各演化阶段的情感倾向判断,从根本上解释演化的原因及规律,从而为相关部门有效监控网络舆情的发展、引导网民情感传播提供理论支持,具有比较深刻的研究意义[3]。
二、评论文本的情感极性分析
按照处理文本的力度不同,情感分析可分为词语级、短语级、句子级、篇章级几个研究层次[4]。网络热点的评论主要是词语级和短语级文本,通常在进行文本情感倾向分析时,无论是句子级还是篇章级的数据都依赖于情感词典。所以,情感分析判断的准确性直接依赖于情感词典的好坏。在很多评论中,不同的情感程度也会出现不同的结果。因此,在选取情感词典的同时还需要对程度副词的情感强弱做定量计算。本文的情感词典建立在现有的《知网》的情感分析用语词集上,利用现有情感词典的极性分类,统计情感词典中出现的每个程度副词的情感强度值,将这个数据结合情感词的组词匹配特点,进行加权统计计算现有情感词典中每个极性词的情感强度。
(1)提取否定副词
否定词是副词的一种,它这一类表示否定意义的词语,在文本中具有独特的语法意义和影响,在情感倾向分析中,否定词具有转折性的意义,因此处理转折词汇非常重要。研究表明,当句子中褒义词语被否定副词修饰时,那么整句话的意思就会完全相反,转化为贬义情感。本文通过从《知网》词典选取具有否定意义的词语组成了一个常用否定词表,主要有(不,不是,不得,不让,不能,不应该,没,没有,无,未,未必)。在评论中,通过关键词匹配方法,检测是否存在否定词,从文本内容中提出否定词,如果单次匹配中存在一个否定词,则情感倾向取反,如果存在两个否定词,则保留本身的极性,如果存在三个否定词,则情感倾向再取反,以此类推。
(2)提取程度副词
程度副词,是对一个形容词或者副词在程度上加以限定或修饰的副词。一般位置在被修饰的形容词或者副词之前,用汉语举例:“尤其”,“非常”,“特别”,“有点”,“不怎么”等等,至于语气和感觉是由后面的情感词决定,程度副词只是说明它的情感强烈度。本文通过《知网》中的程度级别词语集,并对其进行整理筛减,最后将其分为5级,分别为极量、高量、中量、低量、超低量。如下表2-1是常用程度副词分类集合。
不同程度副词表达的情感强度是不一样的,在每个等级都有相对应的取值。根据程度副词和情感词汇的匹配得出情感词的极性,最终得出整条评价的情感倾向。不同程度副词的取值如表2-2表示:
(3)提取情感词
在评论文本中存在许多情感词汇,大多数词语都具有明确的情感倾向,也存在一部分词语很难辨别其所属的情感类。在本文中,我们把情感词汇作为一个模糊的对象,对于其中一些关键词,比如“漂亮”和“糟糕”,它们具有非常明确的情感,属于情感核心词汇。但是有些词汇針对不同热点所表达的情感可能是大不相同的。本文主要通过基于词典的方法结合评论语境数据获取情感词汇,如表2-3所示:
(4)情感极性加权统计算法
本文分析情感极性算法来自于文献[12]中的算法,情感分析模块中情感极性研究的是句子级别的情感分析技术,通过评论预处理以及分词技术,得出评论中的个别情感词汇,如果句子匹配中存在程度副词修饰情感词,那么该情感词汇的情感极性的计算公式如下所示:
经过(2.1)-(2,4)的处理,最终获得情感极性,该极性为整条评论的情感极性。从而为用户提供正负面识别的用户舆情服务。
三、结论
本文通过对舆情进行实时的情感极性分析的信息监测,也可以对热点进行监测和预警,实时掌握舆情,从而能够在必要时,对舆情导向做一个控制,进而维护社会的稳定。
参考文献
[1]杨志国.基于WEB 挖掘和文本分析的动态网络舆情预警研究[D] .武汉:武汉理工大学计算机科学与技术学院,2014 .
[2]罗怡薇,张科伟.基于文本挖掘的网络热点舆情分析[J].内蒙古科技与经济.2018,(21):18,101.
[3]李黎.基于文本挖掘的网络舆情情感倾向及演化分析[D] .湘潭:湘潭大学,2017 .
[4]来亮,钱屹.文本情感分析综述[J].计算机光盘软件与应用,2012,15(18):74-75.
[5]杨彪.基于电子商务的评价文本情感极性等级分析[D].重庆:重庆交通大学,2014