基于改进KNN算法与SIR模型的舆情处理研究

2021-11-17 08:38肖思瑶杨泽来王家琪
计算机仿真 2021年5期
关键词:严重性舆情负面

张 雷,肖思瑶,杨泽来,王家琪

(1.重庆交通大学数学与统计学院,重庆 400074;2.重庆交通大学信息科学与工程学院,重庆 400074)

1 引言

伴随着全球移动互联网络的快速发展,网民数量爆炸式增长,舆情得以快速和广泛的传播。网络舆情是社会舆情在互联网空间中的映射,但网络作为虚拟社会,同时也是完全开放的平台,潜伏着各类人群和各种思潮[1], 因而网络舆情相对其它舆情形态更为复杂,这种情况为舆情的调控带来了新的挑战[2]。一个有效的网络舆情的检测及调控机制可以更好的维持社会稳定、维护企业声誉。对于舆情的检测和调控涉及到舆情严重性划分和对舆情进行合理有效干预两个主要工作。同时,近年来各种智能算法在分类问题[3]、情感分析等任务上取得突破,这为重大舆情的发现和调控提供了新的手段。

对网络舆情的严重等级判断可以筛选出需要重点关注的对象,提高网络舆情的调控效率。罗平等人将舆情按照负面情感大小将舆情分为四类[4];王宁等人综合网络舆情的各方面因素[5],将舆情分为“蓝色”、“黄色”、“橙色”和“红色”四类,并基于灰色系统理论对舆情进行预测。

综合考虑网络舆情的各个元素,准确的模拟网络舆情,可以形象的讨论各调控手段对网络舆情的影响。Wang Y等人和姚翠友等人[6-7]基于元胞自动机,分别对网络信息的传播和舆情下个体之间的影响进行了研究;连淑娟等人[8]利用KNN算法在舆情模拟的基础上,对舆情的扩散倾向进行预测;Tian R Y等人基于传染病模型,模拟了社交网络中谣言的传播[9];Li S等人利用传染病模型[10],准确的模拟了社交网络中话题传播中的行为特征。

Zhang L以及Zhao Y等人[11-12]的研究阐述了意见领袖对于舆情的影响,周晔等人的研究肯定了微博问政对于网络舆论的积极影响[13],另外还有多个研究指出负面文章限流、敏感词汇限制等方法可以有效干预舆情走向。

网络舆情主要以文本形式体现,而文本情感分析技术可以从舆情中提取群众的情感,用于判断舆情的严重性。文本情感分析近年来取得了巨大突破,基于长短期记忆网络的模型[14]、添加注意力机制的模型[15]都取得了很好效果。韩开旭等人[16]优化了卷积神经网络的内部计算结构,基于分段卷积神经网络进行文本情感极性分析,使得其精度相比一般模型有明显提高;Google提出的BERT[17],大幅打破了SST-2情感分类任务的纪录;百度于19年提出的ERINE模型[18]将中文文本情感极性分析的精度提升到95.4%。

综上所述,对于舆情模拟,过往的研究已提出一些准确可行的模型,并通过定性分析,提出了多个舆情调控手段。然而,这些研究过于零散,对于重大舆情,不能构建一个完整有效的反应机制;同时,对于网络舆情严重性的划分研究以及各调控手段对网络舆情的调控效果的研究,大多都是从定性的角度出发,鲜有研究进行定量分析。

对于这种现状,本文提出了一种融合智能算法的舆情调控机制。首先基于KNN算法[19],配合文本情感极性分析技术,对网络舆情的严重性进行划分,然后对于严重的负面网络舆情进行有效调控。为了探讨调控手段的有效性,本文尝试利用基于传染病模型的仿真探讨各干预手段对于网络舆情的调控情况。

相较于以往的研究,本文的主要创新点总结如下:

1) 借鉴机器学习和数据科学的发展成果,提出了一套较为完整的重大网络舆情发现及调控机制,为网络舆情的处理提供了理论手段。

2) 以往研究大多从定性分析角度对舆情进行严重性划分,本文利用融合文本情感分析的改进KNN算法定量的将网络舆情按照严重性划分等级,筛选出严重舆情,为舆情的调控集中力量。

3) 以往研究大多从经验和定性角度分析舆情的调控手段,本文基于精细划分的拓展SIR模型,对舆情的传播机制进行仿真模拟,并定量研究各网络舆情调控手段对于舆情的整体影响。从理论上探究了各调控手段的有效性和调控力度。

2 网络舆情处理方法

首先利用情感极性分析配合KNN算法对网络舆情进行严重性等级划分,筛选出严重舆情,再对其进行相关调控。为了验证相关调控手段的有效性,本文进一步基于拓展SIR传染病模型,探究了调控手段有效性和调控力度。

2.1 舆情严重性划分

本文借鉴王宁等人的研究将舆情按照严重性划分为“蓝色”、“黄色”、“橙色”和“红色”,如表1,并借助网络舆情的负面影响大小来描述舆情的严重性。

表1 网络舆情的严重等级划分

为判断网络舆情的负面影响大小,本文从网络舆情中提取出三个指标,即“传播时间”、“传播规模”和“网民的情感”,通过融合文本情感分析利用该三个指标KNN算法进行舆情负面影响严重性分类。

2.1.1 特征提取

分类前先需要对舆情信息严重性特征进行提取。

对于网络舆情的传播时间。可以借助从舆情开始时间到舆情发展到顶峰时间之间的时间间隔,用如下公式表示

Gu=Tpeak-Tbegin

(1)

其中Tpeak为舆情顶峰的时间,Tbegin为舆情开始时间。

对于网络舆情的规模。多个指标可用于描述,本文选取如表2的三个指标描述网络舆情规模。

表2 舆情规模的量化指标

(2)

其中Nr,Nc,H分别为归一化处理后的总阅读数,总评论数和总热度指数。

对于网民的情感。通过随机抽取网络舆情下网民的评论,基于文本情感极性分析深度学习算法可获得文本的情感极性预测,将单个文本情感做如表3映射。

表3 情感与打分映射关系

2.1.2 严重性划分

KNN算法即为k临近算法,对于给定的数据,考虑在整体数据集中与该数据距离最近(即最相似)的k个数据,包含此k个数据最多的类别即判断为给定数据的类别。

数据间的“距离”可以用数据归一化后的欧氏距离来描述。即

(3)

其中xi,yi分别为两组数据中第i维的数据。

k值的选取对模型的精度影响较大,故实验中要充分考虑各k值下的分类精度。

综上,本文的严重性分类方法整体流程可以总结如图1。

图1 严重性分类流程图

首先抓取互联网舆情信息,利用文本情感分析等手段提取舆情特征,得到舆情特征向量,再计算训练集中和待判断点欧氏距离最小的k个数据,包含这些数据最多的类即为目标舆情的预测类。

2.2 调控方法有效性及调控力度探究

过往的研究从定性的角度分析了各调控手段对于网络舆情的积极影响,如官方账户互动、负面文章限流、建立虚拟积极意见领袖、对于消极意见领袖封号限制和教育等手段。本文将舆情下的群众精细划分为六类,分析各类人群间的转换关系以及调控手段对人群转换的影响,从而构建拓展SIR模型,进行仿真,探讨各手段对网络舆情的影响。

2.2.1 模型准备

根据社交网络的评论人群的特点,可将群众分为六类,如表4展示。

表4 群众分类

为界定群众对于舆情的整体态度,本文利用Bad描述舆情的负面影响大小

Bad=i(t)+t(t)

(4)

分析各类人群间存在转化关系如图2所示。

图2 舆情中各人群转化示意

其中,g为正面舆情传播力度,b为负面舆情传播者的传播效率,β为负面领袖转化率,r1为负面舆情领袖被封号隔离的速率,r2为负面意见领袖解封后成为I人群的概率,r3为负面舆情领袖解封后成为B人群的概率,r4为负面领袖解封后成为R人群的概率。

对各种调控手段对上述参数的影响进行分析,可以得到分级影响示意图如图3所示。可以观察到,虚拟积极意见领袖数量Y与g、r3和r4正相关;官方账户互动程度W与g正相关;负面文章限流程度X与b负相关,与r2正相关;封号限制程度F与r1正相关,与b负相关;对负面意见领袖进行教育的程度J与r4正相关。

图3 外加调控手段的分级影响

(5)

2.2.2 舆情的仿真模拟

基于SIR传染病模型,对舆情下每一种人群的转化率进行分析,可以得到如下的舆情传播模型的动态微分方程。

以人群B为例,在Δt时间内,人群的变化为

N(Δt)B=N(S)+N(P)r3-N(B)R-N(B)t

(6)

其中,N(S)为S人群转化而来的人数,N(P)r3为P人群以概率r3转化来的人数,N(B)R为B转化为R人群的人数,N(B)I为B转化为I人群的人数。

整个过程中,从S转化为B的总人数为

N·[i(t)+t(t)]·b·s(t)·Δt

(7)

单位时间内由P人群转化为B人群的人数为P(t)·N·r3,则P人群以概率r3转化为B的总人数为

N(P)r3=p(t)·N·r3·Δt

(8)

总结得到动态微分方程组如式(9)。且满足

s(t)+r(t)+b(t)+i(t)+t(t)+p(t)=1

(9)

利用该微分模型,模拟舆情中各人群的变化情况,描述舆情的发展。进一步加以调控手段,观察调控手段对于模型各变量的影响,即可探讨舆情调控手段的有效性和调控力度大小。

3 实验与分析

3.1 基于融合文本情感分析的改进KNN算法进行舆情严重性划分

3.1.1 数据准备和预处理

利用合法数据抓取的手段,从微博平台抓取72个舆情数据样本,其中56个舆情数据样本作为训练集,16个作为测试集,并进行人工标注,抓取时注意数据集中四种严重程度的舆情数据占比相同。

主要从网络上抓取到以下几方面舆情数据:舆情的开始时间Tbegin和发展到顶峰的时间Tpeak;网络舆情话题的总阅读量Nr,总讨论量Nc;百度指数提供的舆情热度指数;随机抓取的30条舆情评论文本。

对于文本的情感极性分析,为简化实验,本文借用百度基于ERNIE的文本情感极性分析接口。

3.1.2 模型的训练结果和分析验证

将56个训练数据全用于训练KNN模型,利用16个数据进行测试,因为数据量不够充分,测试集的不同选取会带来较大精度测量误差,于是将原始72个数据随机打乱,再构建测试集。

测量模型在不同乱序情况下,及不同k值下的精度如图4,三维坐标系间中做出模型对于训练集的聚类图如图5,其中Timenorm、Emonorm和Scalenorm皆为归一化后的数据。

图4 不同乱序情况下以及不同 k值下的模型精度

图5 模型对于训练集的聚类图

由图4可以观察到,三种不同的测试集选取情况下,模型精度分别为88%、56%和69%。模型的精度最高可达88.0%,模型平均精度为71.0%。由图5可以观察到测试集明显的聚类为4类,可以判定模型较好的取得了分类效果。综上可以判断在该数据量上,模型已达到不错的舆情严重性划分效果。

为测试模型的实际效果,本文尝试利用本文模型对2020年8月的舆情“浙大通报努某某留校察看事件”进行严重性等级划分。首先从新浪微博爬取到该舆情的阅读量 1.6 亿,讨论数 10.4 万,百度热度指数5702,估算舆情从出现到舆情顶峰的持续时间为1天,并合法地随机爬取了微博话题“#浙大通报努某某留校察看事件#”下的30条评论。通过情感极性分析接口得到每个评论样本的情感正负,得到该30个文本的情感极性,其中4个正面文本,26个负面文本。

计算得到

(10)

再将数据包装为向量(53369900,1,-0.73)加入总样本中,数据归一化后得到(1.0,0.0,0.135)。

基于已训练好的分类模型,对样本进行类别判断。得到该向量被判断为第4类,即为该舆情属于红色重大舆情。而分析舆情本身,“浙大通报努某某留校察看事件”近几日引起了互联网上各种不好的评价,确实对单位有巨大的不利影响,需引起重点关注,应该立马采取相关调控手段。

3.2 基于拓展SIR模型的舆情仿真和调控方法研究

3.2.1 模型实现

为简化实验,初始化模型各初始变量:

S=950;B=40;I=10;T=0;P=0;R=0

(11)

假设各参数初始值为b=0.1;g=0.3;β=0.05;r1=0.05;r2=0.25;r3=0.25;r4=0.5。当时间t∈[0,40]时,得到结果如图6 (a)所示;当时间t∈[0,1]时,得到结果如图6 (b)所示。

图6 各人群人数随着时间的变化

考察t∈[0,40]时,可以观察到随着时间t的增长,最终R人群数量最终会逼近总人数数量,其他人群数量趋近于0。最终群众会对一个话题失去兴趣,并不再传播。这与实际情况是相符的。

考察t∈[0,1]时。结合实际考虑,舆情初期时,由于负面舆情的传播,不知舆情者减少,S人群在最初阶段总人数迅速减小,最终趋于0,和图象中一致。后由于舆情的进一步传播,部分负面舆情者成为传播者,而在图象中B人群在t=0.2左右出现一个高峰,B人群总人数因为转化为I或R人群总人数初期阶段减少,二者是一致的。I人群呈现迅速上升趋势,随后其总人数缓慢减少也和实际相符,人们刚得知负面舆情时容易被负面情绪感染,从而开始传播舆情,后由于对该舆情市区兴趣或本身冷静的认识到了舆情的实际情况,便不再传播负面舆情,并想向其他人群转化,所以I人群在达到高峰后开始缓慢下降。

3.2.2 实验结果

模型中有多个参数,b、g、β、r1、r2、r3和r4。

固定其它参数,观察Bad关于各参数的变化规律,如图7。

图7 Bad关于变量g、b、β和r1的变化规律

假设所有被封号者最后都会解封,则有r2+r3+r4=1;若将r2与r3作为自由变量,则只需满足r2+r3=0.5。

固定其它参数,观察Bad关于变量r2的变化规律,结果如图8 (a)。固定其它参数,观察Bad关于变量r3的变化规律,结果仍如图8 (a)。

图8 Bad关于变量r2、r4的变化规律

3.2.3 结果分析

通过上述实验现象,可以观察到:

在一个舆情周期内,Bad值对参数g、β最敏感,其次是r1与r4,而b、r2与r3的变化对产生的影响不大。结合本文2.2节部分中的模型,虚拟积极意见领袖数量度量指标Y和g、r3、r4正相关,官方帐户互动程度W与g正相关,负面文章限流程度X与b正相关,与r2负相关,封号限制程度F与r1正相关、与b负相关,对负面舆情领袖进行教育程度J与r4呈正相关。

综上,政府或企业对舆情进行干预时,应优先选择措施Y(增加虚拟积极意见领袖数量)和W(加强官方账户互动),其次选择措施J(对负面意见领袖进行教育)甚至F(对负面意见领袖封号),X(负面文章限流)需要搭配其余四种使用以求取得更好的舆情调控效果。

结合实验结果,可以总结:对于互联网舆情的处理,可以先利用融合文本情感分析的KNN算法筛选出严重舆情,继而加大力度进行官方帐户互动、增加虚拟的积极意见领袖,进一步还可以对负面舆情领袖进行封号教育,这三者对于网络舆情调控的作用较为显著。这种方法从定量分析的角度给网络舆情处理提供了理论支持,是一种值得实践的有效手段。

4 结语

本文提出了一种简单有效的网络舆情检测和调控机制,借鉴基于深度学习的文本情感分析技术,对KNN算法进行改进,用于舆情的严重性划分,并利用有效手段对严重舆情进行调控。同时,本文利用对人群精细划分的拓展SIR模型模拟舆情的传播,探究了调控手段的有效性和调控力度。综上得到结论:

1) 本文提出的舆情严重性分级模型精度最高可达88.00%,对网络舆情的处理有较大的意义。

2) 官方帐户互动和虚拟积极意见领袖对舆情调控力度较大,同时,对舆情的消极意见领袖进行封号教育也能取得不错效果。

3) 本文提出的仿真探究方法,为舆情调控手段的有效性探究提供了一定理论基础。

猜你喜欢
严重性舆情负面
不该被遗忘的天地
正面的人和负面的人
浅谈无线电干扰及其常用的预防、排查方法
11个自由贸易试验区将启用新版负面清单
消费舆情
月度最热舆情事件榜11月
月度最热舆情事件榜9月
细菌耐药性的严重性