基于文本挖掘技术的网络舆情特征研究

2019-12-10 09:48骆明王含含盛博廖安灵
电脑知识与技术 2019年28期
关键词:文本挖掘情感分析网络舆情

骆明 王含含 盛博 廖安灵

摘要:随着互联网时代的到来,新媒体产业发展迅速,移动互联网成为网络舆情传播的主要媒介。而网络通信的日渐发达也给网络社会安全带来了很大的隐患。该文拟通过对在线社交网络中的舆情传播问题进行研究,并对传播数据的进行特征分析,揭示舆情传播的内在规律。该文首先利用Python网络爬虫技术对新浪微博“#温州11岁男孩失联5天# 家人重金50万求线索”这一事件的转发数据和评论数据进行了爬取。然后,针对评论数据进行预处理,并利用情感得分算法算出每条评论的情感得分,绘制出情感得分随时间变化的情感极性图,从理论上论证了舆情被证实前后,用户评论的情感极性逐渐由积极变为消极。最后,针对转发数据绘制了转发时间的频率分布直方图,进一步论证了舆情传播的两大特点——高效性和时效性。

关键词:网络舆情;网络爬虫技术;文本挖掘;情感分析

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2019)28-0010-03

1 网络舆情概述

1.1 舆情

舆情是社会个体民众基于某个社会热点问题,在特定的社会范围内,对社会所持有的针对热点事件的发生和发展所产生的对某个特定群体具有重要意义的观点和看法,也是个体民众对社会中某个热点问题的态度。

1.2 移动互联网下的网络舆情

近年来,新媒体时代的到来改变了网络舆情信息传播的主流方式,主要体现在移动互联网在信息传播方面占据更重要的地位。当前舆论传播模式主要有两种,传统传播媒体(如电视、报纸等)和新兴传播媒体(如互联网和手机)。传统的舆情传播模式是 20 世纪的主流传播模式,随着 web2.0 的到来,人们从公众变成网民,在移动互联网平台上浏览舆情信息、发表评论,使舆情得到了比传统传播媒体更快速的发展,成为舆情信息传播的主要力量。

2 数据的获取与处理

2.1 数据源的选择

本文以移动互联网环境下新浪微博中的热点话题“儿童拐卖”为例,进行了样本数据的采集及其信息传播特点研究。

2.2 采用的技术手段

2.2.1 网络爬虫技术

网络爬虫就是模拟用户对网页进行访问,接受请求响应,然后根据需求设计相应的提取规则,自动地抓取互联网信息的程序。

在设计爬虫算法时,首先需要对网页的内容进行分析,分析出所需要提取信息的加载方式,然后针对不同的加载方式设计不同的爬虫算法。

针对静态加载方式,只需要对网页的源码进行分析,找到所需信息的存储位置,设计相应的XPath提取规则,利用Selenium模块进行提取即可。

2.2.2  特征词词频分析技术

目前做词频分析的方法有多种,主要思想都是先将非结构化的文本内容进行分词处理,然后构建词袋模型,进行词频统计分析。本文首先通过Python中的jieba分词对文本评论进行分词处理,随后调用CountVectorizer函数将文本评论向量化,并根据特征词构建词袋模型,统计特征词词频进行词云图分析。

2.2.3 文本情感分析技术

文本情感分析的根本是识别文档中重要的文本特征,如词性和词频率、情绪词、词语强度以及否定词等。本文采用基于朴素贝叶斯模型的SnowNLP情感得分算法对文本评论进行情感分析。

2.3 数据说明

在此本文利用Python网络爬虫技术对新浪微博“#溫州11岁男孩失联5天# 家人重金50万求线索”的评论数据和转发数据进行了爬取,选取的爬取字段如表1和表2所示。

3 评论数据的分析

3.1 评论数据的预处理

3.1.1 原始数据处理

由于评论数据中存在大量的空白评论、表情评论以及重复评论等杂数据,为了有利于后文对文本数据的处理,本文首先对评论数据进行了清洗,去除空白评论、表情评论等杂数据,得到了9316条有效评论数据。

然后统计出每个分词出现的频数即为该词的词频。针对特征词词频的分析,本文采用比较直观的词云图分析法(词频越高,该词在词云图中的字体越大)进行研究。

本文以时间作为分析维度,对证实为舆论前后的数据分别进行特征词词频分析,并将结果保存为Excel文件格式。然后,利用Python中的wordcloud模块绘制词云图如图2和图3所示。

从词云图来看,证实为舆论前,“希望”“孩子”“平安”等词出现的频率较高,表明人们对孩子安全的关注,希望孩子平安无事。而证实为舆论后,词云图中出现了“造谣”“传谣”“家里人”等词,表明了人们对利用这种事件来制造舆论的做法的普遍不满。

3.2 情感分析

主观性的评论文本包含着一些情感色彩,情感是一种态度、思想,是一种感觉引发的判断。

情感分析也被称为意见挖掘,用来研究人们对某些实体的情绪。情感分析相比于传统的市场研究方法,例如调查或民意调查,具有在成本和时间上的优势,它是通过非侵入性的方法来提取用户的意见和情绪的。本文基于朴素贝叶斯模型,运用SnowNLP进行评论的情感分析。

3.2.1 基于文本的朴素贝叶斯算法

朴素贝叶斯算法适用于独立的特征属性之间,它的基本思想是通过特征属性对样本进行分类,包括待分类项、分类器、类别这三要素,其中分类器的质量和分类器的构造方法、样本特性和样本数量有关。

基于文本的朴素贝叶斯算法描述过程为:

3.2.2 数据集的构造

在所有数据中随机抽取出出了1000条数据进行人工标注,一共得到了710条积极情感和248条消极情感评论,其余42条评论无法确定其情感倾向。(如表4所示)

3.2.3 模型的训练

得到标注的数据后,将其中766条作为训练集,192条作为测试集,带入模型进行训练,并利用测试集测试模型进度为83.33%。

情感得分示例如图4和图5所示,评论“假的。虚假报警。央视新闻刚讲”,很明显这是一个消极评论,利用模型计算其情感得分为0.046852330033,与实际相符。评论“希望孩子平平安安,赶快回家”为积极评论,利用模型计算其情感得分为0.919668529778,同样与实际情况吻合。

3.2.4 舆情情感极性分析

利用模型计算得到每条评论的情感得分,并与时间绘制成情感极性变化图(如图6),图中虚线部分表示该条舆论被证实的时刻。

4 转发数据的分析

转发行为,是微博用户之间进行信息传播一种方法。本文通过研究用户发生转发行为的时间来研究移动互联网下的舆情传播的特点。

从图中可以看出,在该条舆论发布时,较短时间内发生了大量的转发体现出了舆情传播的高效性;并且一经被证实后转发数量骤减,体现出了舆情传播的时效性。

5 总结与展望

5.1 总结

本文利用Python网络爬虫技术进行数据的获取,得到了两种数据,一种是微博的转发数据,另一种是微博的评论数据。并分别利用这两种数据对移动互联网下的网络舆情传播的特点进行了研究。

①评论数据

从文本挖掘、情感分析方面出发,构建情感得分算法,计算出每条评论的情感得分,研究情感极性随时间的变化。研究发现在舆情被证实前后用户评论的情感极性逐渐由积极变为消极。

②转发数据

绘制转发时间的频率分布直方图。研究证实了,移动互联网下的网络舆情传播的特点:高效性、时效性。

5.2 展望

①本文采用的是基于朴素贝叶斯模型的情感得分算法,得到的模型精度只有83.33%。后续研究可以考虑采用一些其他的深度学习模型来提高模型的预测精度,例如:卷积神经网络。

②本文虽然获取了两种数据,但是主要利用的确是评论数据,后续研究将利用转发数据构建微博信息传播网络,深入的分析移动互联网下的网络舆情传播特点。

参考文献:

[1] 王永友,黄扬琦.网络舆情异质种群对大学生价值观形成的影响及消解机制[J].重庆邮电大学学报(社会科学版),2018,30(06):80-87.

[2] 邢云菲. 移动环境下网络舆情信息传播特征及路径研究[D].吉林大学,2016.

[3] 崔树娟,宾晟,孙更新,等.基于大数据分析的多关系社交网络舆情传播模型研究[J].中南民族大学学报(自然科学版),2018,37(02):114-120.

[4] 张硕.基于复杂网络的舆情信息传播机制研究[D].首都经济贸易大学,2018.

[5] 付璐.新浪微博传播机制研究[J].科教导刊(中旬刊),2018(05):138-139.

[6] 张岚岚.新浪微博的网络舆情分析研究[D].华东师范大学,2011.

[7] 刘敏,王向前,李慧宗,等.基于文本挖掘的网络商品评论情感分析[J].辽宁工业大学学报(自然科学版),2018,38(05):330-335.

[8] 封丽.面向微博短文本的情感分析和特征抽取[J].农业图书情报学刊,2018,30(09):56-60.

[9] 刘贵香,蔡永明,刘璐,英玉超.社交网络信息传播机制研究——以新浪微博为例[J].经贸实践,2018(06):69-70.

[10] 孙海燕.网络舆情传播模型研究[D].山东大学,2014.

[11] 邢长征,李珊.文本情感分析的深度学习方法[J].计算机应用与软件,2018,35(08):102-106.

[12] 王晰巍,张柳,李师萌,等.新媒体环境下社会公益网络舆情传播研究——以新浪微博“画出生命线”话题为例[J].数据分析与知识发现,2017,1(06):93-101.

[13] 吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报,2014,37(04):735-752.

[14] 孔杏,林庆.主观性文本情感分類研究综述[J].信息技术,2018,42(08):126-130+134.

【通联编辑:代影】

猜你喜欢
文本挖掘情感分析网络舆情
在线评论情感属性的动态变化
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
慧眼识璞玉,妙手炼浑金