王飞
(甘肃政法学院 信息工程学院,甘肃 兰州 730070)
计算机技术研究
基于贝叶斯网络的应急预测算法在群体性突发事件网络舆情中的优势研究
王飞
(甘肃政法学院 信息工程学院,甘肃 兰州 730070)
随着网络社会的逐渐发展,群体性突发事件可以通过互联网形成网络舆情,并对政府及企业处理群体性突发事件带来极大挑战.网络舆情的变动机制、阻动机制、启动机制与驱动机制分别在爆发、终结、形成与扩散阶段起到了引导作用.论文阐述了贝叶斯网络应急预测算法在网络舆情中群体事件性能方面的优势.
群体性;突发事件;网络舆情;演变
依据网络舆情中群体性事件的词语群体度计算、群体事件词语权重计算和群体词的提取结果,并且按群体性事件的演化过程,核心是网络舆情的群体性事件中的状态变化,构造出以下三种子网络,依次为输入-状态、状态-状态、状态-输出子网络,根据三个子网络里面的公共变量把以下三种子网络连接起来,就组成了对网络舆情的群体性事件进行预估出的一个齐备的网络系统.
(1)输入-状态子网络.该网络由输入变量和状态变量以及控制输入变量互相作用关系构成.设定网络舆情中群体事件的环境输入变量集合用EI={eii|1≤i≤m}表示,控制输入变量集合表示为XI={Xik|1≤k≤m},事件状态变量集合描述成MP={mpj|1≤j≤n},承载体状态变量集合用IP={ipj|1≤j≤m}描述.MP为列变量,EI为行变量,关联矩阵X=(Xij)m×n根据专家经验构造得出,若Xij≥α,那么eii和mpj经过有向边进行连接;针对XI里面的所有控制措施Xik,基于目的与控制对象,Xik与mpj或ipj经过有向边进行连接,建立了输入-状态子网络.
可以通过条件概率将网络中的因果关系描述成:P (mpj|eii)能够体现出网络输入对事件状态的影响程度;P(mpj, ipj|Xik)能够体现出控制输入对时间和承载体的影响程度.
(2)状态-状态子网络.用于对状态变量之间的因果关系进行一定程度的反映.假如事件形态变量的集合为MP;承载体状态变量的集合为IP;事件生命周期变量为lc.依据输入-状态子网络所体现出的模式,把MP看成列变量与行变量,构建出的关联矩阵是Y=(bij)n×n,行变量为MP,列变量是IP,所建立的关联矩阵是C=(cij)n×m;如果bij≥α或cij≥α,则通过有向边连接相关变量;最终,把变量lc和承载体状态ipj及事件状态mpj(描述事件生命周期)连接在一起,建立了状态-状态子网络[2].
可通过条件概率将该网络中的因果关系描述成:令mpj∈MP,p(mpj|mpi)能够体现事件状态变量之间的影响程度;p(ipj|mpi)能够体现事件状态变量对承载体状态变量的影响程度;P(lc|mpi,ipj)能够体现不同的事件状态与承载体状态相应的事件生命周期.
(3)状态-输出子网络.事件状态变量集合用MP来描述;该网络能够表达输出变量和状态变量之间的因果关系.使用IP表示一个集合,该集合包括承载体的状态变量;输出变量集合表示为O={oj|1≤j≤m};与事件有关的外部环境变量集合描述为EO={eoj|1≤j≤p};事件损失变量集合用LO={lok|1≤k≤q}描述,并且,O=EO∪LO.假如群体性事件的状态变量为S=MP∪IP,行变量为S,列变量为EO,建立的关联矩阵D为(dij)(m+n)×p,将IP作为行变量,将LO作为列变量,塑造关联矩阵E=(ejk)m×q;假设dij≥α或者eij≥α,那么经过有向边把相关变量进行连接,建立了状态——输出子网络.
通过条件概率将该网络含有的因果关系描述成:p (oj|mpi和p(oj|ipj),依次用于描述当事件或承载体在某一状态时,群体事件对外部环境的影响或导致损失的概率.
(4)基于(1)—(3)所构造的子网而形成的网络舆情中基于群体事件预测的贝叶斯网络:把承载体状态变量与事件状态变量当做公共节点,把前述的三个子网组合起来,建造了网络舆情中群体性事件的整体预测网络.
用以下公式表示:
网络舆情群体性事件的所有变量之间相互依赖的条件间关系用公式(1)表述,同时表达了群体性事件全部要素的联合概率的分布可能性,经过分析式(1),可以求得网络里全部节点的边缘概率,最终活动先验与后验的概率统计网络.
网络舆情群体性事件的贝叶斯网络推理用以下公式表示:
该公式的前提是重要状态变量和输出变量作为目标变量,经过对式(2)的分析可以知道,网络舆情群体性事件贝叶斯网络的推理式为正向推理,因此可以预测在某环境输入的状态情况下群体性事件生成的影响和重要状态的取值.
进行相关的实验分析并验证文章中提出的算法.实验中将新浪微博,通过新浪微博XPI和网络爬虫,10天内共204252条新浪微博,对原始微博数据中的微博文本信息、传播信息和用户信息进行采集,将其作为本文实验数据.
对网络舆情中群体性事件进行应急预测的传统聚类算法和本文算法进行比较,重点比较两种不同算法时间性能,使用图1表述.
图1 传统算法与本文算法执行时间情况比较
分析图1看出该文章提出的算法在时间性能方面比传统聚类算法优越很多,传统聚类算法上升的梯度增加明显,前提是数据规模慢慢扩大,算法效率明显比较低;但论文所提出的算法在执行时间梯度方面比较平稳,所以论文提出的算法效率比较高.
除了以上描述,论文提出算法的优势还有准确率、召回率方面,得到的结果如图2所示.
图2 传统算法与本算法性能结果比较
由图2得出结论,论文提出算法的准确率和召回率都比传统聚类算法高,原因是本论文提出的算法把用户的影响力权重值加入考虑范围,也有效提取了群体词,这样的到的群体词可以更准确地表达网络舆情中群体性事件;并且传统聚类算法准确率很低,因为没有办法准确定位一个最优化的群体词序列.
论文构建了一种有关群体性公共事件的应急预测算法,该算法重建了网页内容,并进一步计算得出网络词语的基础权重值,同时依据来自网页中的传播特性与计算出的网络词语的基础权重值求出一段时期内的词语的权重值.结合总体考虑词语权重信息和用户的影响力,同时给群体性一个准确概念,之后再依据其断定一个词是否是群体词.依照群体性公共事件变化的过程,把基础变成网络舆情的群体性事件的状态,按次序分别建立三种子网络,构建网络舆情的群体性公共事件预测的整个网络结构.论文最后以先验与后验概率网络为前提,计算得出了上述网络中全部节点的边缘概率值,由此推论出了网络舆情中群体性事件的贝叶斯网络模型,由此得出了网络舆情中群体性事件的应急预测方案.仿真后的实验结论得出论文建立的贝叶斯方法准确性比较高.
〔1〕保罗·拉扎斯菲尔德,伯纳德·贝雷尔森,黑兹尔·高德特.人民的选择:选民如何在总统选战中做决定[M].北京:中国人民大学出版社,2012.1-15.
〔2〕周耀明,张慧成,王波.网络舆情演化模式分析[J].信息工程大学学报,2012(03):334-341.
〔3〕Shang Y. An Agent Based Modelfor Opinion Dynamics with Random ConfidenceThreshold[J]. Communications in Nonlinear Science and NumericalSimulation.2014,19(10):3766-3777.
〔4〕陈桂茸,蔡皖东,徐会杰,等.网络舆论演化的高影响力优先有限信任模型 [J].上海交通大学学报,2013(01):155-160.
〔5〕周耀明,王波,张慧成.基于Emd的网络舆情演化分析与建模方法[J].计算机工程,2012(21):5-9.
〔6〕熊熙,胡勇.基于社交网络的观点传播动力学研究[J].物理学报,2012(15):104-110.
〔7〕王根生.网络舆情群体极化动力模型与仿真分析[J].情报杂志,2012,31(3):20-24.
〔8〕陆安,刘业政.基于连续影响函数的群体观点演化模型与仿真[J].管理学报,2014,11(2):283-287.
〔9〕夏玲玲.基于在线社交网络的谣言控制策略研究[D].南京邮电大学,2013.
〔10〕顾亦然,夏玲玲.在线社交网络中谣言的传播与抑制[J].物理学报,2012(23):544-550.
〔11〕李青,朱恒民.基于BA网络的互联网舆情观点演化模型研究[J].情报杂志,2012(3):6-9+35.
〔12〕刘小波.基于Netlogo平台的舆情演化模型实现[J].情报资料工作,2012(1):55-60.
〔13〕Cioffi-Revilla C.Introduction to Computational Social Science:Principles and Applications[M].Springer.2014: 358.
〔14〕刘怡君,周涛.社会动力学[M].北京:科学出版社,2012. 23-25.
〔15〕MarchiS, Page S E. Agent-Based Modeling[J]. Annual Review of Political Science.2014,17(1):1-20.
TP311.134
A
1673-260X(2017)08-0011-02
2017-05-17
教育部人文社会科学研究西部和边疆地区项目资助(NO.14XJC840002);甘肃省社科规划项目(NO.YB098);甘肃省高等学校科研项目资助(NO.2014B-064);甘肃政法学院校级科研资助重点项目(NO.GZFXZDLW008);甘肃省教育科学“十二五”规划课题资助(NO.GS[2014]GHBZ019);甘肃政法学院教改重点项目(NO.GZJG2015-A04)