基于机器学习与情感词典的文本主题概括及情感分析

2019-06-09 10:36宋祖康阎瑞霞辜丽琼
软件导刊 2019年4期
关键词:情感分析

宋祖康 阎瑞霞 辜丽琼

摘 要:作为社交网络重要载体,微博成为信息传播的重要平台,承载着公众情感表达及舆论传播的重要功能。对微博博文及评论作出主题概括及情感分析在网络管控、舆情监测及公众情绪引导方面具有重要的实践意义。提出一种基于机器学习与文本分析的主题概括及情感分析模型。以武汉理工大学研究生坠亡事件为话题,利用Word2vec将文本转化为词向量,并且通过机器学习聚类方法对舆情各个生命周期过程进行主题概括,采用基于词典文本分析方法,对评论文本进行多元情感分析,对表现突出的情感大类作细粒度分析,最终实现基于主题与情感分析的多元细粒度公众情感变化分析模型。该分析模型可在特定舆情事件下得出公众在各阶段的关注中心及情绪变化规律,实现舆情主题与情感变化的协同演化研究。

关键词:主题概括;Word2vec;K-Means;情感分析

DOI:10. 11907/rjdk. 182107

中图分类号:TP301文献标识码:A文章编号:1672-7800(2019)004-0004-05

0 引言

作为社交网络的重要载体,微博以简洁、短小的特点爆发式成长,截至2017年年底,微博已发展至4亿用户。微博的特点在于可以即时分享,信息传播不受时间、空间影响,因此成为热点舆论产生及传播的重要平台。平台上信息传播深度、广度及速度均有惊人潜力,若不能及时对公众情感作出更加准确的分析与把握,可能会使其成为国家与社会不安定的潜在因素,甚至引起极大恐慌。因此,对舆情事件下公众情绪进行细粒度多元情感分析刻画,对于维护社会稳定、消除社会潜在不稳定因素有深远影响与意义。

1 研究现状

国内外学者在短文本主题概括与情感分析方面积累了大量有意义的成果。在微博博文主题概括方面,目前常用模型为LDA主题抽取模型,李保利等[1]通过LDA模型自动抽取一个时间间隔里的话题,得到不同话题,然后通过简单的启发式规则找出种子话题,并根据种子话题语义相似度将其进行关联,得到话题演化趋势。然而,由于LDA模型采用的是词袋方法,每篇文档被视作一个词频向量, LDA模型并没有考虑词与词之间的关系,因此会漏掉一些关键特征。近年来,随着机器学习、深度学习的研究不断深入,越来越多的实例证明,基于神经网络模型的Word2vec开源算法在提取微博主题上显著优于LDA主题模型,其中,安璐等[2]通過Word2vec模型对微博主题进行提取,取得了较好结果;薛炜明等[3]使用Word2vec算法,通过大量实验将其与传统词袋模型、经典KNN算法及其改进方法进行效果对比,证明了算法优良性。然而,以上研究大多数关注Word2vec模型应用及中文短文本分词,仍使用传统聚类方法进行中文主题概括,不能有效地对短文本进行分析。因此,本文通过Word2vec工具集将词语转化为词向量,并引入无监督学习下的K-Means均值聚类算法,力求对各个时序阶段的微博博文主题准确抽取。

针对文本情感分析的研究方法有两种:一种是基于机器学习,另一种是基于情感词典。基于机器学习方面,李岩等[4] 基于短文本聚类及评论情感分析,在一定程度上解决了由于关键词稀疏特征引起的相似度漂移问题;王宏伟等[5]在分析用户评论后对其中隐含的情感信息进行识别,并研究了用户情感演化过程;张小倩[6]将微博文本极性转移分为强调、否定、转折3种类型,根据该研究,王文凯[7]设置了一种注意力机制以解决非连续词情感相关性导致的极性转移现象,并且引入卷积神经网络,通过注意力机制捕获长距离上下文之间的相关性。然而,由于机器学习十分依赖标注的训练集,但在海量数据的情况下又难以实现,因此机器学习方法存在一定局限性。在基于字典的研究方面,国内现在较为成熟的字典有大连理工大学情感词汇本体库[16]、台湾大学“NTUSD”中文情感极性字典[11]及知网HowNet情感字典[12]。

综上所述,本文参考大连理工大学情感词汇本体库[16],以武汉理工大学研究生跳楼事件为实验案例,建立一个基于Word2vec与K-Means均值算法的细粒度多元情感分析模型。该模型可更加细致地掌握公众情绪发展走向,并对各阶段博文主题进行主题概括,有助于在各个阶段更好地把握舆论中心走向,对公众言论作出更有效的辨别和管控,为有关部门更加精准地遏制谣言及更加全面地掌握公众情感提供参考意见。

2 研究框架

2.1 Word2vec算法

Word2vec是Google公司在2013年开源的一款将词表征为实数值向量的工具,其基本思想来源于Mikolov提出的CBOW及Skip-gram模型。最早提出的前馈神经网络模型NNLM由4个主要层级构成,分别为输入层、映射层、隐藏层及输出层,主要计算障碍是从映射层到隐藏层的计算,为提升计算效率,Mikolov提出CBOW及Skip-gram模型,本文主要使用Python开源库Gensim工具包的Skip-gram模型进行求解。

Skip-gram是一个简单的神经网络模型,主要思想是根据当前单词预测前后文语境,其输入层为一个输入单元,输入值为当前单词,输出层是前后文单词,输出层数量为用户设置的窗口数, 将Skip-gram模型的前向计算过程携程数学形式,为方便叙述,定义以下符号:文本集合为[T],当前单词为[w],语境[c]定义为以单词[w]为起点,向前[k]个数量、向后[k]个数量所包含的单词,模型参数设为[θ],在[w]确定的情况下,上下文单词[c]出现的概率设为[pc|w;θ],在文本中,单词[w]所有上下文单词[c]的集合设为[Cw],切分后的文本词汇表设为[V],所有[w]及相对应[Cw]的集合设为[D],Skip-gram目标函数利用随机梯度下降最大化以下条件的概率乘积为:

2.2 K-Means均值算法

将得到的词向量作为训练文本,使用K-Means聚类方法进行聚类。聚类分析是一种无监督学习的方法,与分类不同的地方在于分类目标已预知,但聚类类别是没有定义的,聚类分析试图将相似的对象归入同一簇中,在本文K-Means聚类中,相似度由两个词向量之间的欧氏距离决定。

K-Means主要目的是发现给定数据集的[k]个簇。首先随机选定[k]个质心,然后将数据集中的每个点按照欧氏距离计算其与[k]个质心的相似度,将各个点分配到离它们最近的质心所在簇中,遍历整个数据集后,将每个簇的质心更新为该簇所有点的平均值,然后重复上述过程。K-Means算法迭代过程在算法迭代到指定步数或其误差值小于设定阈值时停止,K-Means误差值为簇中每个点到质心的距离之和,该误差值也可用来对聚类效果进行评价,本文根据聚类结果得到相应阶段的舆论中心话题。

3 文本情感分析——基于情感词典

通过博文得到各阶段的主题后,本文对各阶段评论的情感进行分析,获得舆情发展过程中公众情感变化。本文参考大连理工大学情感词汇本体库,对各阶段微博评论进行细粒度多元情感分析。

在文本预处理方面,由于微博具有短文本特点,其行文风格偏向口语化,因此本文在去除停用词的步骤中,不仅去除常用停用词,还根据词频统计,去除出现较多的词汇,以保证高频词汇情感取值不会影响本文情感分析。

本文参照大连理工情感词汇本体库[16],根据武汉理工大学研究生坠亡事件的语境基础,将其情感分类略作修改,将情感分为七大类,分别为乐、信、讽、哀、惧、恶、惊,具体分类见表1。

在传统文本情感分析中,否定词的研究是一个重要环节,传统情感分析往往是极性分析,分析判断目标仅是二元极性,而本文情感分析为细粒度多元分析。当分析文本为微博短文本时,否定词会产生丰富的语义内容,若一概而论,仅将其作反向转变情感处理,则有失偏驳,因此本文设定规则,根据实际情况,若在情感大类敬这类词语前3个窗口内出现否定词,则将文本情感极性转换为“恶”,若在其它情感大类的词语向前3个窗口内出现否定词,则削减其情感强度,见公式(4)。

程度副词表及各个程度副词赋分情况部分截取见表2。

最后将各情感大类的情感得分相加,并画出直方图,对情感分析结果进行可视化。

通过对各个情感大类的划分,可得出情感比较集中的几个类,再对几个类中的各个小类进行同样的情感判别分析,通过细粒度划分出公众此时具体情感。

4 案例分析

4.1 文本主题概括

本文以武汉理工大学研究生跳楼事件为实验案例,搜集3月29號开始一个月内4 849条博文,经去重操作后剩 1 941条。按照时间对其进行聚类分析,最终得到9 607个词语分类结果,根据贾亚敏等[10]结合城市突发事件的特点及具体案例划分的舆情传播生命周期(起始阶段、爆发阶段、衰退阶段和平息阶段),结合数据特征,得出各阶段微博发文数量分布,如图1所示。

结合微博热点时效短、公众注意力容易被转移且言论管控严的特点,将本事件分为3个阶段,分别为起始阶段(3.29-4.2)、爆发阶段(4.3-4.10)与平息阶段(4.11-4.30),并提取相关微博博文主题词,见表3。

从整个舆论主题演化过程来看,此次事件从起始阶段寒门学子不堪重负自杀开始,两天后事件当事人王某作出回应,此时公众热点已经形成,事件走向爆发,直至武汉理工大学在4月8号作出回应时达到高潮,公众大多表达了愤怒及质疑的情绪,并且由此次事件深挖到北京大学沈阳当年性侵女生致其自杀的新闻,而当事件发酵到一定时期后,网络上便开始出现了一些虽没有根据、但逻辑却很通顺的谣言,由此事件开始转化为社会不稳定因素,相关危机管理部门为了防止谣言扩散及事态进一步恶化,开始对微博大量用户删帖禁言,使事件很快进入了衰退阶段,这也与前段时间的“北电侯亮平”、“三色幼儿园”等事件的发展轨迹相似。

4.2 文本情感分析

本文对网友评论进行情感分析,根据爬虫爬取一个月内15 523条有关评论推演公众各阶段情绪变化。

首先本文对各阶段公众情感进行情感大类分析,见图2。

从图2中可以看出,这起事件引起的公众情感大多集中于恶及讽刺,并且无论在哪一个阶段,恶的情绪都处于高涨阶段;在第二个阶段,即爆发阶段,公众对该事件恶的情感达到最大值,因此本文对恶的情绪再作细粒度情感分析,见图3。

从图中可以看出,公众情感大多集中于憎恶与贬责,在事件爆发前期,公众大多持贬责及憎恶的情绪,对导师压榨学生一事,这些情绪是正常表现,公众一方面是憎恶该事件,另一方面,根据聚类主题可看出,公众同时也在谴责学校及领导管理不善,谴责导师师德沦丧。在事件演化到舆论中期时,憎恶的情感愈演愈烈,贬责的情感虽有所下降,但仍然高居不下,在此期间,导师王某以及武汉理工大学相继发表申明,这也导致了憎恶情绪不断攀升,怀疑的情绪也到达了周期峰值。在事件末期,除憎恶外,所有情绪都出现了相当程度的衰退,再加上有关部门网论管控,其它更新鲜的事件发生,此时微博热点效应已经过去,然而从情感大类的分析图中可看出,此时公众情绪并没有从恶、讽转向哀、信,恶、讽这两种负面情绪依然占据主流,此时公众依然对该事件怀有强烈的不信任,对整个导师制度及对校方处理方式不满,因此在这种情况下事后相关部门进行追罚、完善制度才是引导舆论导向积极情绪,防止该类悲剧再次发生的根本办法。

由此可以看出,分析舆情事件下的公众情感态度可以帮助有关部门更加准确地把握各时段公众情绪,制定符合当前状况的有效措施。在事件起始阶段,有关部门应当及时分析公众情感,对事件有关人员作出处罚,缓和公众与政府、有关单位之间的紧张关系,避免引发大规模不满情绪;在时间爆发阶段,有关部门应当及时公布事件处理进程,分析网民情绪构成,避免谣言传播,通过社交媒体等多个途径使事件调查结果公开化、透明化;在事件末尾阶段,有关部门应该分析公众此时主要情感,有针对地安抚公众情绪,做好善后工作,并且将结果反馈给相关部门,避免该类影响社会安定的事件再次发生,而如果此时公众情感仍处于偏激、负面状态,有关部门更应该反思该周期内工作是否到位,分析是由于措施有效性不足,还是自身权威性已有所下降或其它原因造成了不良后果。

5 结语

本文构建了一个基于主题及细粒度文本分析的公众情感分析模型,使用机器学习方法,用構建词向量聚类分析的构想,得到了不同周期下舆情事件的主题概括,并在不同周期下对公众情感基于词典进行细粒度分析,结合武汉理工大学研究生坠亡事件,论证了结合各阶段主体及情感演化,可有效把握公众情感变化趋势。本文建立的模型可为有关危机管理部门提供借鉴,有助于有关部门在认知舆情事件中实现有效舆情管控及情绪引导。

由于本研究是基于词典的情感分析,对词典依赖性较强,在实践中发现,大连理工大学情感词汇本体库仍有许多不完善之处,并且由于中文的复杂性,对有些反讽、一词多义现象处理得还不够完善,在下一步的工作中需完善情感词汇本体库,提高情感分析有效性及准确性。

参考文献:

[1] 李保利,杨星. 基于LDA模型和话题过滤的研究主题演化分析[J]. 小型微型计算机系统,2012,33(12):2738-2743.

[2] 安璐,吴林. 融合主题与情感特征的突发事件微博舆情演化分析[J]. 图书情报工作,2017,61(15):120-129.

[3] 薛炜明,侯霞,李宁. 一种基于Word2vec 的文本分类方法[J].  北京信息科技大学学报2018,33(1):72-75.

[4] 李岩,韩斌,赵剑,等. 基于短文本及情感分析的微博舆情分析[J]. 计算机应用与软件,2013,30(12):240-243.

[5] 王宏伟,刘勰,尹裴,等. 基于语义分析的微博搜索[J]. 情报学报,2010(5):931-938.

[6] 张小倩. 情感极性转移现象研究及应用[D]. 苏州:苏州大学, 2012.

[7] 王文凯,王黎明,柴玉梅,等. 基于卷积神经网络和Tree-LSTM的微博情感分析[J/OL]. 计算机应用与研究,2019,36(5):1-7.2018- 03-09.http://www.arocmag.com/article/02-2019-05-007.html.

[8] 杜振雷. 面向微博短文本的情感分析研究[D]. 北京:北京信息科技大学,2013.

[9] 冯成刚,田大钢. 基于机器学习的微博情感分类研究[J]. 软件导刊,2018,17(6): 58-61.

[10] 贾亚敏,安璐,李纲,城市突发事件网络信息传播时序变化规律研究[J]. 情报杂志,2015,34(4):91-96.

[11] 台湾大学NTUSD中文情感极性字典[EB/OL].  https://download.csdn.net/download/huixion/9470816.

[12] 知网. HowNet情感字典[EB/OL]. http://www.keenage.com/.

[13] 韩忠明,张玉沙,张慧,等. 有效的中文微博短文本倾向性分类算法[J]. 计算机应用与软件,2012,29(10):89-93.

[14] DAVISON B D. Structural link analysis and prediction in Microblogs[C]. Proceedings of the 20th ACM Conference on Information and Knowledge Management, 2011 :1163-1168.

[15] HANNON J,BENNETT M,SMYTH B. Recommending Twitter users to follow using content and collaborative filtering approaches[C]. Proceedings of the 2010 ACM Conference on Recommender Systems, 2010:199-206.

[16] 大连理工大学. 大连理工大学情感词汇本体库[DB/OL].  http://ir.dlut.edu.cn/group/detail/4.

(责任编辑:江 艳)

猜你喜欢
情感分析
基于双向循环神经网络的评价对象抽取研究
在线评论情感属性的动态变化