高慧
摘要:由于网络舆情多维动态实际分类中,分类结果与实际情况存在一定误差,比值比(odds ratio,OR值)较小,为此提出基于大数据的网络舆情多维动态分类研究。通过对网络舆情概念、网络舆情特点等进行分析,构建网络舆情多维动态分类指标体系、基于大数据的事件类型多维度指标聚类分析、网络舆情数据分类判别,提出一种全新的分类方法。通过对比实验证明,该分类方法OR值明显增加,说明网络舆情多维动态分类结果与实际情况更接近,分类更加精确。
关键词:大数据;网络舆情;多维;动态分类
中图分类号:D523 文献标识码:A
文章编号:1009-3044(2021)14-0015-03
当前网络技术的快速发展,使得网络环境逐渐开放,随着网民数量的快速增加,产生了一系列由于网民广泛参与和传播造成的重大社会影响事件发生[1]。一旦突发事件上传到网络当中,极易引发网民的舆论热潮。网络媒体是自报纸、广播、电视之后出现的第四媒体。网络已经成为反映人类社会舆情的主要载体[2]。只有在充分把握好事件发生时的本体特性和引发舆论特征之间的关系,才能够在舆论发生及其后续产生的舆情波动方向进行更精准的分析。因此,对于网络舆情的准确识别和分类,可以有助于为网络恐怖主义的预防和控制提供实践指导。基于此,本文結合大数据技术,开展对网络舆情多维动态分类研究。
1 网络舆情分析
1.1 网络舆情概念
网络舆情可以看作是,在各类事件发生后,通过互联网形式的传播,使得群众对此次事件的所有认知、态度等言论的集合[3]。在网络舆情爆发的初级阶段,由于发布言论者的身份在网络中是隐蔽的,因此网络平台在发帖的过程中缺乏对内容的合理监督,网络平台成为网民发泄情绪、沟通交流的空间环境[4]。在现实生活当中,人们可以通过网络与他人进行沟通和交流,因此在网络环境中,极易出现各类不同的言论内容。这些信息会在网民集聚的互联网络中得到迅速地传播,从而使新的网民在群体效应下,加入传播舆情的队伍当中,从而使舆情的影响范围进一步扩大,不仅在极大程度上影响着社会平稳发展的秩序,同时还会增加网络管理部门对网络舆情处理难度。
1.2 网络舆情特点
结合可视化分析软件,将网络中进行传播的关键词汇,屏蔽词频为10以下的内容,得到如图1所示的网络舆论关键词可视化图谱示意图。
当前网络舆情的特点可从图1中六个角度分析。图中A区域主要从信息学的角度对网络舆情当前发展过程中的潜伏期、扩散期和消退期进行分析;图中B区域从新闻传播学角度,对网络舆情的特征度进行打分并分析;C区域是从心理学角度出发;D区域是从政治学角度分析;E区域是从社会学角度出发;F区域是从计算机角度出发。通过六种不同角度,得出网络舆论具备多元性、自由性、交互性、偏差性和突发性等特点[5-6]。
2 基于大数据的网络舆情多维动态分类方法
2.1 构建网络舆情多维动态分类指标体系
本文根据网络舆情的自身特点以及具体变化规律,遵循公正性的原则,从事件发生类型和舆情特征两个维度上,确定网络舆情多维动态分类指标[7]。结合k-means聚类分析软件,将事件发生类型分为以下三种:常态特征指标中包含的不同主体其行为准则与社会容忍度均不相同;事件客体是具有一定知名度或一定社会地位的人群,在社会当中具备更高的关注度;异常特征是在常态特征的基础上,与同类型事件相比具备的特征点;网络信息特征主要用于描述网络舆情在爆发时所处的环境特征。
将舆情特征分为以下两种:信息叙述形式特征主要用于描述网络舆情的质量指标;信息传播方式特征主要用于衡量网络舆情在传播过程中的具体规模和爆发速度。
2.2 基于大数据的事件类型多维度指标聚类分析
将上述各项指标量化作为观测值,并进行聚类分析得到聚类统计量。假设当前共有x个网络舆情案例,结合大数据技术,采用SPSS2.0版进行聚类计算。首先,将所有涉及的x个网络舆情案例分析出其对应的特征值[8]。其次,每项特征值分别进行量化,利用k-means对所有网络舆情案例进程列表进行合并,最终以谱系图形式输出。将各个指标按照不同的特征值进行分类,对事件类型多维度指标聚类可利用如下公式表达:
[δ(l)=p(l)p(m+χn)/p(a)] (1)
公式(1)中,[δ(l)]为多维度指标相度,l的取值范围为l=1,2,3,...,x ;[p(a)]为多维度指标的聚类系数;[p(l)]为网络舆情中待分类的多维度指标个数;[p(m+χn)]为相关指标个数。解读输出结果,合并相关性大的属性,根据特征值确定谱系图的分类距离,得到最终的分类方案[9]。
2.3 网络舆情数据分类判别
在完成对事件类型多维度指标聚类分析后,还需要将所有网络舆情案例的事件类型特征进行量化处理,并以每个案例具备的不同属性作为观测数值判别分析的统计量。具体操作步骤为:首先,对特征值进行量化处理,并将量化结果存储在案例库当中。其次,将案例库当中的案例按照上述聚类方式进行分类,对分类结果依次按照A、B、C、D等命名,将实施案例的组别设置为“3”,即3组为空白变量组,采用分析—计算—判别的方式,将其他分组变量的组别分别送入相应位置,并点击定义范围,填入从1到最大的分组数[10]。再次,将变量全部放入到独立分组框当中,将实施案例的特征值选入选择变量,并单击分类。利用网络舆情案例及数据处理摘要表,查看有效处理的案例内容;利用特征值表,查看描述分类方案中具体指标的判别力;利用判别系数表,查看用于分析的判别系数;利用分类图,查看描述聚类结果。
3 实验验证分析
3.1 实验条件
实验随机选取中华网舆情案例库中的10个舆情案例为实验对象,利用此次设计方法与传统方法对该10个舆情案例进行多维动态分类。首先根据表一对各个舆情的主体、客体、时间类型进行划分;然后对舆情的多项指标进行聚类分析,设置舆情案例特征值,将特征值输入到spss,并利用公式(1)计算多维指标相度,表1为舆情案例特征值及多维指标相度值。
根据表1内容为各个舆情案例数据判别分析,得到最终的分析结果。比较分析结果与实际值,利用GJIF软件计算出OR值,OR值大于1,则说明分析结果与实际情况相符,OR值小于1,则说明分析结果与实际情况不符。将OR值作为实验结果,对两种分析方法对比。
3.2 实验结果解读
实验根据OR值结算结果,对两种方法进行对比,实验结果如表2所示。
从上表可以看出,此次设计方法OR值均大于1,平均值为1.624,而传统方法OR值平均值为0.681,十个网络舆情多维动态分析,仅有两个案例分析结果与实际相符,因此实验证明了此次设计的基于大数据的网络舆情多维动态分析在准确性方面优于传统方法。
4 结束语
本文结合大数据技术,设计了一套新的网络舆情多维动态分类方法,并通过实验验证了该分类方法具有良好的可行性和适用性,有助于实现复杂的网络舆情问题数字化,为网络舆情分析提供有利数据依据。但是此次研究尚且存在一些不足之处,从网络舆情发展的潜伏规律来看,建立的指标体系不够全面,在该方面还有待完善。
参考文献:
[1] 张京坤,王怡怡.基于Spark的均值漂移算法在网络舆情聚类中的应用[J].软件导刊,2020,19(9):190-195.
[2] 王晰巍,邢云菲,韦雅楠,等.大数据驱动的社交网络舆情用户情感主题分类模型构建研究——以“移民”主题为例[J].信息资源管理学报,2020,10(1):29-38,48.
[3] 胡欣杰,路川,齐斌.基于SOM神经网络的网络舆情信息分类模型[J].兵器装备工程学报,2019,40(3):108-111.
[4] 贾隆嘉,张邦佐.高校网络舆情安全中主题分类方法研究——以新浪微博数据为例[J].数据分析与知识发现,2018,2(7):55-62.
[5] 杜少波.基于Hadoop平台的并行kNN网络舆情分类算法[J].电视技术,2018,42(3):58-62.
[6] 穆亭钰.媒介融合与网络舆情的多维生成——基于“视觉中国”事件的样本考察[J].视听,2020(6):185-187.
[7] 夏立新,陈健瑶,余华娟.基于事理图谱的多维特征网络舆情事件可视化摘要生成研究[J].情报理论与实践,2020,43(10):157-164.
[8] 陈思诗.新冠肺炎疫情公共危机事件网络舆情治理的多维审视[J].西部学刊,2020(9):131-133.
[9] 毕宏音.网络舆情的基本共识及其动态规律再认识:多维视角考察[J].重庆社会科学,2019(1):6-16.
[10] 连芷萱,兰月新,夏一雪,等.面向大数据的网絡舆情多维动态分类与预测模型研究[J].情报杂志,2018,37(5):123-133,140.
【通联编辑:张薇】