大数据环境下网络舆情演化规律及预警模型问题探讨

2019-12-28 07:20侯学慧
四川警察学院学报 2019年5期
关键词:突发事件舆情峰值

侯学慧

(新疆警察学院 新疆乌鲁木齐 830001)

一、问题提出

在大数据环境下网络信息和舆论信息的监管及正确引导是非常重要的,保护好我们祖国、人民群众的安全是我们警察的使命和义务。网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。我们生活在一个突发事件频发的大数据网络时代下,突发事件是指突然发生,造成或可能造成严重的社会危害,需要采取应急处置措施予以应对的公共事件[2]。突发事件的网络舆情演化是指“没有对事件源和次发生事件进行人工应急干扰的原扩散路径”[3]。突发事件爆发后,一定会引起网络舆情发生,在各种网络平台上信息快速传播和蔓延下,政府部门要发挥常规的传播模式的效力,还要积极有效的给予矫正型的传播影响作用,才能更好有效地控制网络舆情发酵。为此,必须要做到日常网络舆情的预警、完善舆情监管监督机制、加强舆情的导控。

目前对网络舆情的预警机制的定量研究,更多是注重网络舆情的构成因素和因素之间的关系方面,没有对时间序列模式与网络舆情的变化规律上研究更深入。在大数据的网络环境下,只有定量、深层次地分析网络舆情的动态演化过程,分析其函数特征和演化规律,才能针对将要发生的网络舆情做出预警应对。针对现有的网络上热门案例,通过信息提取工作包GooSeeker等信息提取软件,对案例建立事件发生的时间与每天新闻发布数量做函数拟合,得到网络舆情随时间周期的发生、发展、扩散、消亡的动态演化过程,从而建立网络舆情导控和预警机制。

研究者们运用不同的模型和方法对网络舆情演化阶段和构成因素进行分析,建立预警机制,主要包括三方面的研究。一是建立预警指标因素体系,注重于影响舆情变化的关键指标讨论。二是基于情感倾向性分析,这里包括群众的态度是“赞同”“中立”“反对”,从海量信息中,发现潜在的危机隐患。三是基于数据挖掘的预警,这种方法是从网络中提取和目标相关的数据,构成数据集。本文就是基于真实数据,从数据挖掘中找到规律,从而做到更加精确的预警。

大数据环境下网络舆情具有突发性、群体性、不确定性等特征,本文从其特征分析,建立数学模型符合基于多项式函数的数据特征。可以通过已有的国内热门网络舆情案例与实际数据挖掘,建立网络舆情演化模型,分析、量化舆情动态,做好预警模型。分析事件的真实性、敏感度、主题吸引力、发布者影响度、主题聚焦度、舆情观点倾向度、参与度、容忍度、变化频度、突变度等。在大数据环境下建立基于多项式函数的网络舆情预警机制,并用MATLAB软件对预测数据作仿真实验。从而建立网络舆情随时间发展,每个时间段的预警信号及相关参数、关键词、事件的动态演化预警模型。

二、研究方法与模型

持有、接受、表达某种相同、相似的观点的人在社会人群中所占的比例超过一定的阀值,这时候这种观点就上升为舆论[1]。我们从定量的、模型化的分析大数据环境下网络舆情的演化规律:

(一)分析网络平台(微博)得到相应的数据背景

我们主要针对互联网上的网络舆情进行研究、分析。关注的新媒体网络平台主要是新闻网站-微博等。也通过相应的舆情观测平台和软件得到相应的数据和图表。利用数据挖掘和分析突发事件随时间的演化规律和普通民众对突发事件的关注度等指标因素,从而做到下一阶段的舆情预警机制,并且对下一次发生的相同突发案件有应对的预警模型。

(二)数据挖掘、分析方法

对于大数据背景下,已有的网络突发案件的客观数据,利用网络爬虫、信息提取工具包Goo-Seeker中的抓取规则和网页信息抓取工DataScraper等,抓取网站的新闻报道数量和相应的时间分布,以及频繁出现的关键词等指标因素[4]。通过DataStudio定义搜索信息属性为url(网页链接地址)、title(新闻标题)、time(新闻发布时间)、num(新闻机构名称以及新闻关注条数)

(三)函数拟合方法-基于多项式函数的网络舆情演化规律

对通过信息抓取的获得的数据进行挖掘、分析,我们知道突发事件的网络舆情新闻报道数量(普通民众关注、评论程度)是分布在事件发生时间轴上的一些离散的点,制止整个事件最终消亡。在网络热门事件影响力较大、关注度较高的突发事件,往往这些离散点成规律性的变化,假定任何事件的真实发展都可以被看成是时间的连续函数。在网络的大数据背景下,从已经发生的突发事件案例挖掘的数据入手,量化的去分析网络舆情的演化和发展。根据散点图的规律,拟合相应的多项式函数,找到其函数分布规律,从而做好更好、更早、更加正确的预警机制和应对手段。

笔者采用根据大数据背景下具体真实案例的数据进行挖掘和分析,做出相应的散点图,通过MATLAB软件进行函数拟合,得到与网络舆情的动态演化最贴近的连续曲线-多项式函数拟合,建立数学模型,分析其演化特征。在考虑是否符合相应的函数拟合时,采用最小二乘法[5]来分析误差,找到离散点的最佳的函数逼近,在有限数据的基础上建立合适的、合理化的数学模型。利用变量之间的相关系数R,分析拟合的多项式函数的预测值与真实值之间的具体的相关性。

分析突发事件的舆论数据是一些在时间轴上离散的数据点。根据其图像,规律的发现散点图符合基于最小二乘法的多项式函数拟合。下面给出一些定义:

最小二乘法:通过最小化误差的平方和找到数据的最佳拟合函数,对挖掘出的真实数据再取定相应的多项式函数Px(x),使得误差的平方和E2达到最小值,定义:

E2=,其中Yi为数据的真实值、p(xi)为数据预测值,我们称pn(x)为拟合函数或最小二乘解。

由最小二乘法原理,可以知道拟合函数应该满足:

(四)突发事件网络舆情演化的函数特征分析——基于概率的指数型分布、多峰值高斯分布函数演化规律

我们通过分析案例的散点图,得到拟合多项式函数图像,发现突发事件网络舆情的演化规律,从概率和统计学上分析,服从指数分布(突发型)和多峰值高斯函数分布特征(持续型),函数分布成分段函数型(混合型)。

指数分布(突发性):在概率论和统计学中,指数分布是一种连续概率分布,可以用来表示独立随机事件发生的时间间隔。一个指数分布的概率密度函数是:

p(x,a)=a*e-a*x(x>0)X是时间变量;其中a>0是分布的一个参数,常被称为率参数,即每单位时间发生该事件的次数。其中我们定义a是影响因子,a决定着突发事件网络舆情的开始影响程度,a的值越大,整个事件的影响力就越大,所以在预警时一定要关注影响因子的值。

多峰值高斯分布模型(持续型):高斯分布又称为正态分布,根据具体的案例分析,我们不难发现持续型舆情案例,呈现峰多值的高斯分布,其函数如下:

p(x)=;其中n是指峰的个数决定。当n=1时,是一次单峰的持续型舆情案例,当n=2时,是双峰的持续型案例;ai是第i个峰值的影响因子,ai决定着突发事件网络舆情该峰值的影响程度,ai的值越大,整个事件的影响力就越大。βi是事件的关注因子,当βi的值说明在该峰值内的关注时间长短,越大时,说明事件关注时间较长。

分段概率分布函数(混合型):根据分析具体的舆情案例,有些较为复杂的突发事件舆情演化,呈现出前段图像走势呈指数函数分布,后段呈多峰值高斯分布函数模型,其函数如下:

三、模型的分析与建立、求解

(一)模型的分析、建立概述-网络舆情随时间序列函数的特征分析

按照关于社会治理、公共安全服务类、法制信息化、刑事案件等四类典型舆情案例进行分析,具体分析其动态变化情况。

1.“天津毒瘤造假”事件——突发型。2017年1月16日,在天津市静海区独流镇的一些普通民宅里,每天生产着大量假冒名牌调料,雀巢、太太乐、王守义、家乐、海天、李锦记等市场知名品牌几乎无一幸免。这些假冒劣质调料,通过物流配送或送货上门的方式,流向北京、上海、安徽、江西、福建、山东、四川、黑龙江、新疆等地区。监测关键词[(天津+独流)*(造假+假冒+劣质+制假)*(调料+窝点)]

我们在大数据环境下,通过数据爬虫得到1周之内新闻网站、大型媒体传播情况。如图1、图2:

图1 天津毒瘤造假舆情监测传播数据

图2 多项式拟合——天津毒瘤造假舆情传播

建立基于最小二乘法的多项式函数拟合,新闻报道量与时间序列的函数关系满足:

2.“怕冷哥”事件——持续型(单峰值)。2016年1月央视记者大闹冬运会的安检口的视频,全长1分44秒。根据视频显示,该名携带央视“媒体记者”证的黑衣男子在某安检口和安检人员发生冲突,安检人员让其脱掉外套配合安检,男子态度嚣张,回复八个“我冷”,并质问“省领导需要安检吗?”因男子拒不配合工作,安检人员要求其从安检仪上下来,对此,男子回应“我冷,怎么了,小心我投诉你”,这类社会公共服务类舆情事件。监测关键词[(新疆+安检)*(央视+记者)*冬运会]

通过对微博信息数据爬虫抓取,得到一周之内微博网友的传播情况。

图3 多项式拟合——怕冷哥事件舆情传播

微博发表转帖数与时间序列的函数关系满足:

3.“法制信息化建设”舆情——持续型(双峰值)。2017年2月23日,由中国社科院法学研究所和社科文献出版社共同发布的《法治蓝皮书·中国法院信息化发展报告》指出,借助法院信息化的应用和发展,中国法院的司法透明度得到全方位提升,信息化为司法公开提供了平台,拓展了司法公开的广度与深度。监测关键词[法院信息化发展,法院*信息化,法院*智慧,法治*蓝皮书,社科院*法治]。

通过舆情观测软件,得到15天新闻媒体的传播情况。

图4 法制信息化建设舆情监测传播数据

图5 多项式拟合——法制信息化建设舆情传播

新闻报告量与时间序列的函数关系满足:

4.“杭州保姆纵火案”事件——持续型(双峰值)。2017年6月22日,杭州小区保姆纵火案是于北京时间6月22日凌晨5点左右在杭州某小区发生的纵火案。该事件造成4人死亡(1位母亲和3个未成年孩子)。23至24日,受害人家属林生斌的家庭生活细节、作案保姆的嗜赌欠债背景曝光,由此,夹杂着群众对消防部门和物业部门的救援行动的质疑,以及对保姆、家政行业深入反思的舆情呈井喷之势。

通过舆情观测软件,得到30天新闻媒体的传播情况。监测关键词[保姆*家政,小区*物业,消防设施*消防]。

图6 多项式拟合——杭州保姆纵火案舆情传播

新闻报告量与时间序列的函数关系满足:

(二)模型的分析、建立概述——网络舆情演化的概率分布特征分析

我们把大数据背景下的突发事件网络舆情事件分成三种类型:突发型、持续型、混合型。突发型:“天津独流造假”事件属于突发型舆情事件,函数满足:p(x,a)=a*e-a*x。

根据研究基于多项式函数拟合的图像分析,符合指数型分布的特征。该类事件的突发性强、破坏性大、社会影响大。事件发生频率低,具有很大的轰动性,事发后引起数量大的报道,但随着网民对该事件的了解和解决,网络舆情呈现出递减趋势,直至消亡。

持续型:“怕冷哥”事件、“法制信息化建设”“杭州保姆纵火案”事件都属于持续型网络舆情。均满足多峰值的高斯分布函数特征;其函数表达式:

p(x)=;具有持续型特征的网络舆情事件,从事件发生到高涨,一般经历一段时间的发展过程,从而达到第一次峰值,通过社会、政策、公安等采取一定措施后,在舆情生命周期内达到平缓,但由于信息传播的波动性或者应对舆情处理措施等,可能会再一次达到峰值,最终消亡。

混合型:既包含“突发型”特征,也包含“持续型”网络舆情特征,我们用分段函数表示这一类舆情演化:

四、模型的推广与评价

综上,本项目研究的主要脉络是,在大数据条件下选取网络上的热点事件进行分析,利用了网络爬虫、信息提取工具包等手段,抓取了网站的新闻报道量和相应的时间分布以及在热门事件中出现的关键词,以网络舆情演化特征为标准,将舆情事件分为突发型、持续型、混合型,对网络舆情每一种类型进行了数据挖掘,分析相应的新闻报道量和时间分布的离散点,构造出合理的多项式函数。由此探索网络舆情演化规律,有助于对网络舆情事件的监控和预警,为引导网络舆情提供参考。由于案例样本量有限,成果的推广价值尚有待进一步验证。对数据的抓取,也可能存在一定程度的误差,这可能影响舆情演化规律探索的精确性。而且影响网络舆情的因素很多,本文中考虑的因素未及全面,研究还需要继续深入。

猜你喜欢
突发事件舆情峰值
“四单”联动打造适龄儿童队前教育峰值体验
消费舆情
舆情
舆情
突发事件的舆论引导
宽占空比峰值电流型准PWM/PFM混合控制
基于峰值反馈的电流型PFM控制方法
清朝三起突发事件的处置
舆情
突发事件