汪 鹭,陆朝阳
(武警工程大学 理学院,陕西 西安 710086)
基于马尔可夫模型的网络舆情热度趋势分析
汪鹭,陆朝阳
(武警工程大学 理学院,陕西 西安 710086)
针对网络舆情热度趋势的特点,利用基于马尔可夫模型的网络舆情热度趋势分析方法对巴黎恐怖袭击事件进行分析,该方法可有效预测热点网络舆情的走势,为后续建立网络舆情预警体系和网络舆情引导机制提供了理论支撑.
网络舆情; 马尔科夫模型; 趋势分析; 恐怖袭击
网络舆情(Internet Public Opinion)是指个人或者各种社会群体、组织,通过网络渠道对自己关心或与自身利益紧密相关的各种公共事物所表达的情绪、态度和意见的总和[1].网络舆情是社会网络舆情在互联网空间的映射,是社会网络舆情的直接反映.
近年来,由于互联网的普及与社会化媒体(如微博、MSN等)的快速发展,网民的网络活跃度日益提高,网络舆情的影响力与日俱增,随之而来的负面网络舆情极有可能诱发民众的不良情绪,引发违规或过激行为,进而严重影响社会稳定.因此,研究网络舆情的传播特征及规律,对网络文化和社会环境的健康发展会起到重要作用.
现有的研究技术主要有利用文献计量学方法进行定量分析[2]、基于马尔可夫链的网络舆情热度趋势分析[3]、应用不确定理论处理网络舆情的不确定性[4]、基于博弈模型的突发事件网络舆情演变研究[5]、基于Single-pass聚类算法的识别跟踪[6]、SOM神经网络聚类分析[7]、基于元胞自动机模型的小世界网络病毒传播研究[8]等.
由于网络舆情热度是随机过程并且针对时间和状态都是离散的,所以可建立马尔可夫模型来分析和预测网络舆情热度的发展趋势.通过分析事件在主要新闻网站、论坛、博客中的点击数、回复数及博客转载数,剔除重复值后利用极值化得到网络舆情热度值,求出网络舆情热度趋势值并划分热度趋势状态区间,最后运用马尔可夫链构造状态转移矩阵得到预测结果并进行精度比较.
1.1网络舆情热度的描述及计算
网络舆情热度是指当政府的负面事件被爆出后,互联网上媒体对事件的报道、网民对事件的讨论,以及政府疏导事件在网络上交错所形成的网络舆情的高涨程度.
2015年11月13日晚,法国巴黎市短时间内共发生5次爆炸与5次枪击,事件共造成至少132人死亡,震撼全球.发达的现代传媒进一步放大恐怖袭击效应,使负面网络舆情引起民众较大的出行恐慌和对政府安全工作的不信任.
该事件的舆情热度趋势可用马尔科夫模型做预测分析,主要原因如下:
第一,该网络舆情的发展趋势可以看作一个非平稳的时间序列,其时间和状态划分都可描述为离散的过程;第二,网络舆情热度发展的状态空间可以看作随机变量中的一个数集,并且网络舆情的发展只依赖当前时刻的状态,即t+1时刻的状态只与t时刻的状态有关;第三,从一个热度值到另一个热度值是随机的,也就是说,这个转移过程的转移概率是随机的,这些条件大致符合马尔可夫链的基本要求.
本课题关于网络舆情热度的计算结果,是通过各大网站、社区、论坛等对关键词为 “11·13巴黎恐怖袭击事件”所引发的新闻、发帖等信息的点击数、回复数、转载数等指标综合计算得出的.在具体的建模过程中,为了更可靠地反映网民对网络舆情事件的态度与看法,采用极值法对网络舆情热度评价指标进行了无量纲化处理.
表1为巴黎恐怖袭击事件数据统计表,以天为单位进行数据采集.其中,T表示天数,T=(1,2,…,t);A表示新闻采集数量,A=(a1,a2,…,at);B表示网页采集数,B=(b1,b2,…,bt);C表示论坛采集数,C=(c1,c2,…,ct);D表示社区采集数(博客、微博等),D=(d1,d2,…,dt).第t天网络舆情热度
(1)
为使数据具有可比性和可靠性,消除指标之间变异程度的差异,采用极值法对网络舆情热度指标进行无量纲化处理.为了将极值化后的网络舆情热度控制在[0,100],在公式中将极值化后的指标值乘以100,得到网络舆情热度Ht,计算公式如下:
(2)
将网络舆情热度时间序列向量记为H,则
H=(H1,H2,H3,…,Ht).
(3)
1.2状态空间的划分
因网络舆情热度随时间推移呈现离散状态,首先依据公式(3)得出的热度向量,计算出各个时刻网络舆情热度的趋势值
(4)
1.3状态转移矩阵的构造
1.3.1构造状态转移表
首先,统计趋势值从当前状态到下一刻状态的数量.设从当前状态Si(i=1,2,3,4)转移到状态Sj(j=1,2,3,4)的数量为nij次,状态转移频数如表2所示.
表1 巴黎恐怖袭击事件数据统计表
表2 状态转移频数
1.3.2构造状态转移矩阵
根据趋势状态区间构造马尔可夫状态转移概率矩阵,设从前一时刻趋势值状态Si转移至下一时刻趋势值状态Sj的概率为pij:
(5)
因此,可得一步转移概率矩阵
P=(pij), i=1,2,…,n, j=1,2,…,n,
(6)
式中:nij为状态Si经过1步转移到状态Sj的次数,Ni为Si出现的总次数.
为充分利用近期数据、减少随机误差的影响,在构造状态转移概率矩阵时,可进行多步转移.设w步转移概率为pij(w)(w=1,2,…),记为
p(w)=(pij(w)),i=1,2,…,n, j=1,2,…,n.
(7)
1.4网络舆情热度趋势分析
设π(i)表示i时刻的状态向量,P为一步状态转移矩阵.若网络舆情热度的趋势最终达到一个稳定状态,那么可以计算出网络舆情趋势相对稳定后各状态可能的概率.设稳定以后的状态向量为π=π(1),π(2),…,π(n),则根据马尔可夫链的稳定条件有
(8)
式中:
π(i)=π(i-1)P,
(9)
(10)因此,利用状态向量和状态转移矩阵,结合马尔可夫链系统稳定条件预测将来时刻网络舆情热度的状态概率,即可预测出将来时刻的状态向量π.最后,以稳定状态下的热度预测值与实际值是否一致来评价模型的优劣.
2.1案例的选取和数据的采集
从相关主流网站上获取2015年有关“11·13巴黎恐怖袭击事件”的相关数据,结合“巴黎暴恐”“叙利亚恐怖分子”等相关信息,筛去不相关与重复的事件,得出有用数据作为本次研究的实例.
采集的数据主要来源于各大网站、社区、论坛等对关键词为“11·13巴黎恐怖袭击事件”所引发的新闻、发帖等信息的点击数、回复数和转载数.在百度新闻、百度网页、搜狗网页、天涯论坛上以“巴黎暴恐”和“叙利亚恐怖分子”为搜索关键词获取数据,数据抓取时间为2015年11月10日至2015年12月5日,共获取有效数据样本760 485条.将该事件发布的数据以天为单位进行汇总,从1~26编号,得到时间跨度内每天发布的数据量,见表3.根据公式(2)计算网络舆情热度值,结果如表4所示.
表3 原始数据的采集
注:数据来源于网络.
表4 巴黎恐怖袭击事件的网络舆情热度
从表4可看出,该网络舆情事件基本符合网络舆情的生命周期特点,即11月10日至11月13日为形成期、11月13日至11月14日为短暂的加速期、11月14日至11月20日为成熟期、11月21日后为衰退期.但可看到,11月24日至11月25日有异常高值,原因可能是继巴黎恐怖袭击之后,相继接连发生了马里人质事件和喀麦隆自杀性袭击;欧盟所在地布鲁塞尔因面临着严重而紧迫的恐怖袭击威胁,在11月21日将安全等级提至最高;11月22日法国海军“夏尔·戴高乐”号核动力航空母舰已经抵达地中海东部海域,舰载机或于23日开始打击极端组织“伊斯兰国”(ISIS)的行动.这些可能致使网民的搜索热度再次攀升.
2.2热度趋势的计算及状态空间的划分
根据公式(4)计算本次事件网络舆情热度趋势值及每天网络舆情所处状态空间,得到2015年11月10日至12月4日该事件的网络舆情热度趋势值和所处状态空间,如表5所示.
表5 巴黎恐怖袭击事件的网络舆情热度趋势值及所处状态
表5中,S1,S2,S3,S4为热度趋势值的4个状态空间,分别为S1=[48.059 5,96.118 9],S2=[0,48.059 5],S3=[-18.123 2,0],S4=[-36.246 3,-18.123 2].
表6 热度状态转移频数统计表
2.3热度趋势状态转移过程的构造
统计表5中的数据从当前状态转移至下一刻状态空间的频数,可得该网络舆情热度状态可能的转移过程.例如,表5中由编号1到编号2的转移状态,可看作由T时刻状态S2到T+1时刻状态S2的转移,在所对应热度状态转移表中第二行第二列的状态转移次数加1,如表6所示.
2.4网络舆情热度趋势分析
由于不确定因素的存在,为了排除异常点造成的趋势波动,选择尾段数据进行预测.选取11月29日(即编号20)作为初始时刻,检验本模型的准确程度.初始时刻的网络舆情热度趋势值对应的状态向量是π(0)=(0,0,1,0).利用初始状态向量和状态转移概率矩阵,预测后5天的网络舆情热度趋势值在每个状态的概率,将得到的预测值与事件发展的真实数据进行对比.
利用表6中热度状态转移的次数和公式(5),得出一步转移概率矩阵
将任意状态转移至Si的预测转移概率记作pi,i=1,2,3,4.根据马尔可夫模型进行预测,利用公式(9)可有π(1)=π(0)P,得出下一刻的状态向量π(1),预测结果见表7.
将表7中的预测结果与后来事件发展的真实数据对比并进行误差分析,得到的结果如表8所示.可以看到,预测的网络舆情热度趋势区间有4个与实际相符,只有第3个区间的预测稍有偏差,准确率为80%.分析可知,12月2日的预测空间为S3,而实际所处空间为S2,但由于12月2日的舆情热度很接近S2和S3的临界处,故利用该模型对网络舆情热度趋势进行预测仍是有效的.
表7 预测结果
表8 热度趋势预测区间与实际趋势区间
以2015年的网络舆情热点事件“11·13巴黎恐怖袭击事件”为例,进行了网络舆情热度实证分析.通过研究,希望网络舆情事件热度的预测可以为情报部门及时捕捉网络热点中的敏感信息并为负面网络舆情的疏导提供决策支持.网络舆情热度趋势的研究为情报部门提出以下两点建议:第一,当负面网络舆情正处于缓慢上升区时,监测者必须及时发现并加以控制,防止舆情趋势出现急速上升;第二,在舆论状态处于缓慢下降区时,要继续实时监测数据,防止后期再次出现反弹.
本课题存在的不足和需要改进的地方如下:第一,采集的数据不够完整,不能充分考虑到网络舆情事件的复杂性和突发性,仍需要大量案例检验和完善该模型;第二,还需要不断创新和优化该模型,提高精确度;第三,需要结合数据的波动更为精确地进行预测.
[1]刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007,35(1):11-12.
[2]崔薇,曾润喜,王国华.中国网络舆情研究文献计量分析[J].情报科学,2011,29(1):131-135.
[3]刘勘,李晶,刘萍.基于马尔可夫链的舆情热度趋势分析[J].计算机工程与应用,2011,47(36):170-173.
[4]苏创,彭锦,李圣国.基于不确定微分方程的网络舆情传播模型研究[J].系统工程理论与实践,2015,35(12):1-9.
[5]宾宁,张成科,庄佳弟,等.突发事件网络舆情演变过程中的演化博弈行为分析[J].情报探索,2015,19(7):15-20.
[6]王猛,李斌,孙春奇.基于频繁模式挖掘的网络舆情热点发现技术研究[J].微计算机信息,2010,26(36):35-37.
[7]杨于峰,余伟萍,田盼.基于SOM神经网络的品牌丑闻微博传播分类预测研究[J].情报杂志,2013,32(10):23-28.
[8]周彬镔,陈雪波.基于元胞自动机的小世界网络病毒传播研究[J].计算机与现代化,2015,20(1):8-14.
Trend analysis of public opinion based on Markov model
WANG Lu,LU Zhaoyang
(School of Sciences, Engineering University of Chinese Armed Police Forces, Xi' an 710086, China)
According to the characteristics of the network public opinion trend, we can analyze Paris terrorist attacks through the network public opinion trend method based on Markov model. The hot spots trend of network public opinion can be effectively predicted, and the results in this paper can offer theoretical support for the subsequent establishment of early warning system and the guiding mechanism of network public opinion.
network public opinion; Markov model; trend analysis; terrorist attack
2016-04-20
汪鹭(1993-),女,云南文山人,硕士研究生,研究方向为网络舆情传播.
O213
A
1674-330X(2016)03-0059-05