面向突发事件倾向性分析的情感词典自动构建方法

2021-10-28 02:14王学贺
关键词:词典突发事件情感

王学贺, 赵 华

(1.菏泽医学专科学校 计算机教研室,山东 菏泽 274030; 2.山东科技大学 计算科学与工程学院,山东 青岛 266590)

近年来,世界各地频繁发生各种突发事件,互联网慢慢成为继报刊、广播、杂志、电视等最大的传播媒介,移动终端也飞速地在世界各地普及.移动终端的迅猛发展,逐渐改变了民众的交流方式,使网络用户可随时随地接收网络上的消息并进行回应和传播.突发事件一旦发生,有关突发事件的信息便会在互联网上的各类平台急剧增加,从而对事件的发展产生影响,甚至引发新的突发事件.网络映射着我们的现实社会,它像一面放大镜,现实社会的一些事件在网络上被讨论的越多就越会被放大,这就有可能反作用于我们的物质社会.突发事件所带来的极端负面情绪会误导公众对事件的真实看法,从而产生负面影响.如果能够及时发现并阻断不良信息的网络传播,不仅能够稳定公众的情绪,还能减少经济损失,因此对于突发事件的应急处置工作具有重要意义.对突发事件相关的在线评论进行情感倾向性分析,已经引起了国内外研究者的广泛关注,并取得较好的研究成果[1].其中,基于情感词典的意见挖掘方法是比较重要的一类研究方法,而情感词典是该类方法成败的关键因素.笔者以新浪微博为研究平台,首先以利用微博API接口爬取有关突发事件的微博评论作为数据集,经过微博的噪声过滤去除与突发事件无关的大量广告微博.然后基于词性标注和snownlp进行情感词典的自动构建,并将其应用于突发事件在线评论的情感倾向性分析中.实验结果表明,文中构建的方法有效.

1 国内外研究现状

基于情感词典的情感倾向性分析研究需要一个高质量的情感词典作为支撑.情感词典的构建主要包括:情感词的提取、情感词倾向性的分类、情感词情感极性强度的计算、情感词典的维护和保存.目前,构建情感词典的主要方法是从已有的词典和标注语料库中提取情感词[2],或者利用这些资源通过一定的规则派生出新的情感词典.表1总结了常见的基本情感词典.

表1 常见的情感词典

目前,常规的情感词典是通过人工筛选、标注大量情感词构建的[2].虽然人工标注花费的代价很大,但构建的情感词典有较强的通用性.通用的情感词典具有规模大、准确率高的优点,但对不同领域的语料库和情感词的涵盖还不够.因此,面向特定领域的情感词典的自动构建成为学术界关注的焦点.

国内外学者在情感词典的构建方面进行了积极探索.Hassan等首先挑选情感种子词,然后基于WordNet中单词之间的关系,计算待判断的情感词与情感种子词之间的移动步数,从而得到待判断单词的情感倾向[3].Baccianella等使用半监督机器学习,先通过WordNet扩展初始标注的种子情感词集和客观词集,然后使用已知情感作为训练集,构造分类器判定未知情感词的情感倾向[4].柳位平等通过计算种子情感词和HowNet之间的语义相似性,建立中文基础情感词典[5].徐琳宏等通过对汉语情感词进行分类和标注,构建中文情感词汇本体库,从词类、情感类、情感强度、极性等不同角度对汉语词汇或短语进行描述[6].张成功等构建包括基础词典、领域词典、网络词词典和修饰语词典在内的极性词典[7].马秉楠等提出利用表情符号提取文本情感词典的方法[8].

2 突发事件评论数据的获取和预处理

笔者以新浪微博为平台,将其平台内有关突发事件的微博评论作为研究数据,主要选取事态紧急、影响力较大、涉及范围较广、讨论人数较多的微博评论,通过官方指定的微博API进行数据的爬取.文中分别爬取“2019年5月16日的凉山木里县森林火灾”“2019年4月16日的巴黎圣母院火灾”及“2018年12月14日的武汉医生坐诊时被男子刺伤生命垂危,行凶者坠楼身亡”3个突发事件的微博数据,获得的微博数量分别为6 862,9 018,5 620条.

微博数据作为一种UGC数据,其中包含较多的噪声数据.为此,首先对微博数据中的噪声和垃圾信息进行过滤等预处理操作,主要是删除“@用户”信息和URL链接.“@用户”有效反映了用户之间的社交关系,但并不能描述突发事件的相关信息,为此文中将其删除.微博中的URL链接大多数是为了能够更清楚地表达用户的观点,虽然链接的Web页面可能会更详细地描述微博的事件,但是对评论中情感词的提取意义不大,这种情况下反而产生更多噪声,为此将其删除.这2种信息都具有较固定的格式,所以可采用正则表达式进行有效过滤.用于删除“@用户”信息的正则表达式为“@.*?+{1}”,删除URL链接的正则表达式为“http://(w+.)?w+.com”.

为更好地了解爬取的数据内容,笔者首先采用标签云对预处理后的数据进行可视化展示(图1~图3).

图1 “凉山森林火灾”微博评论词云

图2 “巴黎圣母院火灾”微博评论词云

图3 “武汉医生坐诊时被男子刺伤”微博评论词云

图1中出现较多的词是平安、归来、希望、保佑等,可以看出,大多数人对此事件表达了祈祷与祝福.图2所示的词云中出现较多的词是伤心、惋惜、可惜、允悲,这表达了一部人对该事件的遗憾和惋惜情绪,但还有一部分人表达出“无所谓”或“幸灾乐祸”的情绪.图3所示的词云中出现较多的词是医生、患者、学医、医疗等.

3 情感词典的构建与应用

3.1 情感词典的构建

情感词的提取分2个步骤:

1)识别突发事件评论中的情感词;

2)为每一个情感词标记情感倾向(正向和负向).

分析大量的评论数据,发现情感词的词性比较固定,一般为形容词和副词.为此,基于词性标注结果识别情感词.Jieba分词工具在分词的同时提供了词性标注结果,其采用的标注集和ICTCLAS的标注集是一样的,比如“a”是形容词,“d”是副词,“n”是名词,“v”是动词等.Jieba分词的词性标注只需要使用jieba.posseg功能words=pseg.cut()即可实现.

在基于上述方法抽取得到情感词后,使用snownlp的情感分析功能比较每个词的sentiments值,判断每个情感词的正负倾向,并分别将其放入正负情感词词典中.表2给出了部分sentiments值.

表2 基于snownlp的词语sentiments值

3.2 情感词典的应用

为验证上述构建的情感词典的有效性,采用基于情感词典的方法实现微博评论的情感分析,方法如下:

(1)

式中:s(comment)表示评论comment的情感得分;si表示comment中包含的情感词;w(si)表示si的情感倾向.如果si是正向的,则w(si)=1,否则w(si)=0.如果s(comment)>0,则评论是正向的,否则评论是负向的.

为对比本文所构建词典的有效性,设计以下2个模型:

1)BaseSenti:该模型是本文的baseline模型,采用基础情感词典(hownet情感词典)作为情感分析时的词典.

2)ModiSenti:该模型是本文改进后的情感分析模型,采用更新后的情感词典作为情感分析时所采用的词典.

4 实验与分析

为分析文中面向突发事件的情感词典构建方法的有效性,首先从所获取的突发事件微博评论中随机抽取2 000条微博评论,然后由3名学生对其中的情感词及其倾向进行标注,并采用准确率和召回率作为本文构建方法的评测指标.经过评测,文中采用的基于词性标注进行情感词典构建方法的准确率为87.14%,召回率为84.35%.因此,文中的构建方法是简单有效的词典构建方法.

表3为文中方法识别出的情感词(限于篇幅,只列出部分情感词,其中下划线标记的情感词是原有情感词典没有的).由表3可知,民众在评论不同突发事件时,往往采用不同的情感词表达不同的情感.

表3 面向突发事件的情感词典自动构建示例

为进一步显示文中词典方法的有效性,随机抽取500条微博评论,同样让3名学生对每条评论的情感倾向进行标记(正向或者负向).然后对基于情感词典的2个情感分析模型(Basesenti,ModiSenti)进行评测,结果见表4.由表4可知,由于加入了从突发事件评论数据中识别的情感词,ModiSenti系统的准确率和召回率(计算方法见式(2)~式(3))均增加,进一步证明文中词典构建方法的有效性.

表4 基于情感词典的情感分析 %

a=n/n1,

(2)

r=n/n2,

(3)

式(2)~式(3)中:a为准确率;n为事实属于此类且被系统判定正确的微博条数;n1为系统标记的属于此类的微博总数;r为召回率;n2为事实属于此类的微博总数.

为更好地展示情感分析结果,将不同突发事件的部分微博评论的情感值进行可视化(图4~图6),图中横坐标是情感值(s),纵坐标是取得该情感值的微博数量(n1).

图4 “凉山森林火灾”情感值分布

图5 “巴黎圣母院火灾”情感值分布

图6 “武汉医生坐诊时被男子刺伤”情感值分布

由图4可知, BaseSenti模型中微博的情感值为0.2~0.4,ModiSenti模型中微博的情感值为0.25~0.5,说明总体情感值变得积极,但是群众对此事件的情绪大多还是偏向消极和中性.

由图5可知, BaseSenti模型中微博的情感值在1.0附近,这与实际情况并不相符,ModiSenti模型的情感值比较平均(0~0.4),说明大多数群众对此事的发生还是感到惋惜的.

由图6可知,BaseSenti模型中微博的情感值在0附近,ModiSenti模型中数值反映出群众的情感倾向变分散,但大多数仍集中在0~0.5,且情感值偏低,说明群众在此事中表达的负面情感较多.

5 结语

对面向突发事件的情感词典自动构建方法进行研究探讨.在分析大量突发事件评论后,基于词性标注的方法识别情感词,并基于snownlp判定情感词的情感倾向.为验证所构建词典的有效性,将构建的词典应用于突发事件评论的情感分析中.结果表明,不同的突发事件评论中,采用的情感词具有一定的差异,通过添加面向突发事件的情感词典,可有效提高突发事件评论数据的情感分析性能.

猜你喜欢
词典突发事件情感
如何在情感中自我成长,保持独立
米兰·昆德拉的A-Z词典(节选)
米沃什词典
情感
词典引发的政治辩论由来已久 精读
诗歌与情感的断想
台上
突发事件的舆论引导
清朝三起突发事件的处置
漫画词典