基于文本挖掘的网络舆情主题发现与情感分析

2021-03-18 02:46邱泽国贺百艳
对外经贸 2021年2期
关键词:博文词典舆情

邱泽国 贺百艳

(哈尔滨商业大学,黑龙江哈尔滨 150028)

一、引言

随着近几年互联网和信息技术的飞速发展,微博微信等社交平台已经成为人们获取新闻信息的重要来源。据中国互联网络信息中心(CNNIC)发布第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,我国网民规模为9.04亿,较2019年底新增网民7508万,互联网普及率达64.5%,手机网民规模为8.97亿,网民使用手机上网的比例达99.3%[1],越来越多的人通过网络获取新闻等热点事件。如新浪微博、微信等已经成为人们社交生活中不可或缺的一部分。在社交平台上,用户可以通过点赞、评论、转发等形式参与到发生的热点事件中,不受约束的与众多用户互动沟通。由于社交平台具有开放性、便捷性和匿名性等特点,导致新闻信息在社交网络中的传播广度、传播深度和传播速度都有着惊人的潜力,舆论会在短时间内发酵达到最后形成网络舆情,引起社会大众的广泛关注。因此,十分有必要动态跟踪网民对舆情事件话题讨论内容以及情感的变化,了解网民对于舆情事件的主观看法和情感倾向性,对于整体把握舆情事件的发展方向,引导和控制舆情有重要的意义。

二、研究现状

关于微博话题发现,学者们的研究主通过计算机领域,改进经典聚类算法来提高主题发现的有效性。Chen等人设计开发了一个增量聚类框架来检测识别新的主题,并利用文本的内容和时间特征来及时发现热门主题[2];Stilo等人基于时间序列的相似性,提出了一种在微博中用于词聚类的新方法[3];Hu等人从用户评论中挖掘用户的观点看法[4];李亚星等人改进了Single-Pass算法,提出一种基于实时共现网络的微博话题发现模型[5];宋莉娜等人提出了SOM聚类方法用于微博的话题发现,研究表明该方法可以有效改善传统文本聚类不准确的缺点,从而有效的发现微博话题[6]。

情感分析,又被称为观点挖掘,是一种分析、处理、归纳和推理具有情感色彩的主观文本的过程[7]。情感分析主要包括机器学习和基于情感词典两种方法。分析研究用户发布的观点看法在很多领域有着非常重要的作用,对于用户情感的挖掘研究具有广泛的应用价值,目前对此国内外已有诸多学者开展了研究。在国外,对于网民情感态度的研究主要集中于Twitter、Facebook等社交平台上,Bollen等人对发布在Twitter平台上的推文进行情感分析,并以日为单位计算时间轴上的情绪向量,进而对网民的情感态度进行分析与预测[8]。由于基于中文环境的微博与基于英文环境的Twitter在语言表达习惯上存在着很大的差异,因此用于微博文本的情感分析工具与Twitter平台上的情感分析相比有很大不同。刘智等人从集成学习的角度出发,设计了一种基于样本空间动态划分的机制,在此机制上构建了微博文本情感分类器,通过实验实现了大规模评论集的情感分析以及用户观点挖掘[9]。史伟等人提出了一种基于KBANN的情感分析方法来解决没有情感关键词存在的文本,通过构建隐性知识来推测文本的情感状态[10]。

众多研究学者为微博话题发现和舆情文本情感分析注入了新的研究方法和思想理念。而基于多源数据挖掘与融合来研究舆情文本情感与舆情演化规律的研究很少。故本文从多源数据角度出发,利用文本情感分析技术,对不同数据源中的网络舆情情感状况进行分析,实现对网民情感的挖掘,为网络舆情的引导和控制提供有益借鉴。

三、数据采集与预处理

(一)数据源选取

在中文语言环境中,舆情案例的数据源一般都来自新浪微博。它是一个为大众提供信息交流共享和娱乐休闲的平台。据央视财经统计,截止 2020年第三季度,微博的月活跃用户数达5.11亿。因此,以新浪微博为数据源进行的研究具有一定的代表性。

(二)数据采集

在明确研究对象和数据来源后,要对舆情案例的相关数据进行采集。根据新浪微博平台的数据开放程度和网页结构特点,采用Python软件通过网络爬虫的方式获取文本数据,并且有针对性的编写Python脚本抓取微博文本数据。

利用新浪微博的高级搜索功能,选定时间范围为2019年3月1日到2019年8月30日,以“经贸磋商”为搜索关键词,编写Python爬虫程序进行数据采集,采集的主要字段包括:用户名、发布内容、发布时间。共采集到17436条微博文本数据。

(三)数据预处理

由于微博平台具有大众化,不受任何的时空限制,灵活度较高的特点,用户在发表博文的过程中,不会受到文字格式的约束,因此文本内容中往往包含大量噪声数据,如网址HTML标签、话题标签、无用的表情符号等。这些噪声数据对文本的分词和词频统计都会造成影响,所以在数据预处理阶段要对这些无意义的信息进行清洗。

使用正则表达式对文本内容数据进行清洗,删除重复的文本数据,删除@、数字、无用网址、表情等无关内容,提取文本内容,再将清洗后的数据进行分词处理,利用python中的JIEBA分词工具包,对文本内容逐条进行分词,去除停用词、标点符号等无意义的词。对处理好的数据进行高频词统计并绘制词云图,其结果如表1和图1所示。

表1 微博文本词频Top10

由高频词可以看出,网民支持国家做出的决定,纷纷为国家加油打气,表示中国绝不会被此事件吓倒,此事件的发生会让国家变得越来越强大,不畏惧对方提出的挑战,表现出了网民的爱国主义情怀。

三、情感词典构建

情感词典包含基础词典和基于特定事件情境下的情感词典。利用大连理工大学开发的情感词典作为基础词典,但在针对某一特定事件的研究,只利用基础词典中的情感词往往不够准确,因此在研究特定事件中网民的情感态度时,需要加入有关于该事件情境下的高频词汇。因此,通过人工筛选,对比大连理工大学情感词典本体库对情感词的打分情况,构建经贸磋商事件情境下的特定情感词典。最终统计得到情感词包括“中国”、“中美”、“经贸磋商”等在大部分文本中都出现的词语,权重较高,因此需要去除这些词语。利用大连理工大学情感词典本体库进行对比,如词库中某个词为积极情感词,而计算后为消极情感词,则对其分数进行校正。若校正之后大于0,则归入积极情感词典中,若校正后仍然小于 0,则继续留在消极情感词典中。将校正后的分数作为该词的最终情感分数。表2中序号1~10为排名前十的积极情感词,序号11~20为排名前十的消极情感词。

表2 积极情感词Top10(1~10)与消极情感词Top10(11~20)

四、文本情感分析

(一)微博文本情感强度计算

基于中文文本情感词典,计算17436条微博文本数据的情感得分。情感得分取值范围为[-1,1],若情感得分大于0则判定该文本情感为积极倾向,情感得分小于0则判定该文本情感为消极倾向,情感得分等于0则判定该文本情感为中性。根据计算结果,最终得到13526条积极情感微博,占比为77.6%;消极情感微博3298条,占比为18.9%,中性情感微博612条,占比为3.5%,图2为微博情感极性分布结果。

图2 微博情感极性分布结果

(二)微博发文趋势分析

图3为微博积极情感强度时序图,可以从图中看出2019年5月~2019年8月期间网民对经贸磋商结果的情感强度高于2019年2月~2019年5月期间的情感强度。且网民的积极情感强度在2019年5月15日达到峰值,当天积极情感博文为2669条。次高峰发生于2019年5月23日,博文数量为2352条。

图3 微博积极情感强度时序图

图4为微博消极情感强度时序图,整体的变化趋势与积极情感强度时序图呈现的效果一致,同样在2019年5月15日消极情感强度到达低谷,当天发文数量为1130条。次谷值同上也发生在2019年5月23日,发文数量为1091条。但消极情感强度的分值低于积极情感强度分值,大约为积极情感强度分值的一半,经分析得到在经贸磋商期间,微博上网民表现出的积极情感占多数,并且积极情感强度要远大于消极情感强度。

图4 微博消极情感强度时序图

五、网络舆情主题聚类分析

(一)主题的确定与发现

通过上述分析可以发现在微博平台上网民的积极情感占多数。由整个事件可以看出,随着事件的发展在主要时间节点上网民的情感状态会产生波动,由于两国之间存在着文化差异,导致双方的观点立场不同,造成情感倾向的主要原因也会不尽相同。

通过对情感分析之后的文本进行主题聚类分析,挖掘每种情感下的子主题。通过构建 LDA主题模型,将有关“经贸磋商”的文本进行聚类和主题提取。LDA主题模型是通过给出每个主题下的高频词来确定当前的主题内容,利用每个主题的主题词还原网民讨论的热点话题。由于LDA主题模型没有明确的主题个数,因此要经过不断调试与对比分析才能得出最优的主题数量。经过调试最终确定积情感为5个讨论主题。表3为LDA主题模型提取的各个主题关键词。

表3 微博各主题关键词

从微博积极情感主题1可以看出,国民表示支持华为、华为加油等,为民族企业加油打气。主题2反映了鼓励大众进行创新,不畏惧挑战。主题3反映了中国不断优化对外贸易环境,营造了良好的对外贸易氛围,塑造了大国形象。主题4反映了中国可以克服自身不足,摆脱对其他国家的技术依赖,在世界经济体系中更加自信自强。主题5反映了中国的产业结构因此会做出调整,使得企业可以快速发展。

(二)微博信息分析

对爬取到的数据分析发现,原创微博的占比为39.7%,转发占比为60.3%。其中39.7%的网民利用微博平台,发表原创信息表达对此事件的看法和意见。对网民的情感分析可以发现,大部分网民能够理性看待该事件发生的前因后果,60.3%的网民通过转发官方微博的方式表达自己对该事件的态度,将该事件话题传播的范围扩大,并引导其他网民支持自己国家所做的决定,进一步提高了该事件的积极影响力和传播效果。

六、结论

通过对网民的情感分析可以得到,网民对于事件的情感变化会受到主流媒体报道、周围用户和新闻内容的影响,因此相关部门和政府应该充分利用主流媒体,把控好网民情感变化的节点,有针对地对网络舆情进行引导管控。舆情信息爆发快、蔓延广、消散期后舆情信息不断,相关管理部门要加强对突发事件网络舆情的信息管理。在事件舆情突发期,把握舆论信息导向,引导网民参与正向的、积极的舆论讨论中;在蔓延期应发挥意见领袖作用,主流媒体应及时发布信息资讯,避免舆情传播的过程中谣言的产生;在消散期应重视各大网站的信息推送,保证推送信息的准确性,避免出现衍生舆情。

猜你喜欢
博文词典舆情
第一次挣钱
米沃什词典
谁和谁好
评《现代汉语词典》(第6版)
词典例证翻译标准探索
舆情
舆情
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
舆情
微博的舆情控制与言论自由