王努努,张伟佳,钮 亮
(中国计量学院 经济与管理学院,浙江 杭州 310018)
基于ARIMA和BP神经网络模型的舆情情感预测
王努努,张伟佳,钮亮
(中国计量学院 经济与管理学院,浙江 杭州310018)
摘要针对重大事件网络舆情数量的激增,网络舆情安全监管和预警形势严峻的情况,提出一种基于ARIMA和BP神经网络组合模型的网络舆情情感预测模型,进而对新浪微博上采集的"余姚水灾事件"进行文本情感值计算,并对其情感变化趋势进行综合分析和预测。预测结果表明,也组合预测方法相对于单一预测方法具有更高的精度,进而说明该模型在网络舆情情感预测中的应用是可行的。
关键词网络舆情;情感值;组合模型;预测
随着互联网的快速发展,网络媒体已经被公认为是继报纸、广播、电视之后的“第四媒体”,成为反映社会舆情的主要载体。网络舆情是由于各种事件的共同刺激产生的通过互联网传播的,民众对于该事件的认知、态度、情感和行为的倾向[1]。近年来,由于社会突发事件不断地增加,网络舆情在很大程度上引导着大众对某一舆论事件的认知。大量学者开始研究网络舆情的传播及引导机制[2]。如果网络舆情突发事件处理不当,容易诱发民众的不良情绪,引爆舆情危机。面对与日俱增的网络舆情事件,如何建立合适的预测模型,实现对网络舆情的预警并加以适当的引导,对于维护社会稳定具有一定的意义。
对网络舆情的建模研究主要是研究评判舆情的指标,在此基础上通过分析过去和现在值来实现舆情预警,其中主要用到的方法有灰色预测方法[3]和时间序列方法[4]等。随着计算机网络的迅速发展,网络舆情情感分析引起了越来越多学者的广泛关注和兴趣,相关的研究工作不断涌现,如王青等从舆情热度、强度、倾度、生长度4个维度构建了网络舆情监测及预警指标体系[5]。刘雯等以雅安地震为例,将情感分析和时间序列分析共同引入到对灾害舆情的分析中,在博文情感值计算的基础上,运用ARIMA时间序列模型,建立不同情感舆情走势的时间序列模型并进行预测[6]。ARIMA模型由于简单性、可行性和灵活性,已经成为时间序列分析预测最常用的一种方法。但是,ARIMA模型中,时间序列变量的未来值被认为是变量过去观测值和随机干扰误差的线性函数。然而,在实际生活中,舆情的演变受到许多因素制约,这些因素既包含线性关系又包含非线性规律。因此,单纯采用ARIMA模型对舆情预测会产生较大的误差。另一方面,由于神经网络模型能够较好地挖掘时间序列的非线性规律,也有一部分学者将神经网络模型运用到舆情预测中。例如,薛圈圈[7]引入BP神经网络的数学模型,建立指标预警模型,来定量地评判网络舆情的安全态势。
网络舆情情感时常受到多种因素的制约,且这些因素之间呈现比较复杂的关系,这些关系既有线性规律又有非线性的规律,单纯用一种模型进行情感预测很难同时考虑到线性和非线性变化。本文提出了一种基于ARIMA和BP神经网络组合模型的舆情情感预测方法,运用ARIMA模型描述历史舆情情感数据的线性关系,运用BP神经网络模拟舆情演变过程中由随机干扰因素产生的非线性规律,然后再对两种建模结果进行综合分析,给出实证结论。最后以新浪微博“余姚水灾事件”为例进行实证分析,验证了基于ARIMA模型和BP神经网络组合模型的舆情情感预测方法的有效性和可行性。
1组合模型的构建
1.1ARIMA模型
ARIMA模型的全称是差分自回归移动平均模型(Autoregressive Integrated Moving Average Model),是20世纪70年代博克思(Box)和詹金斯(Jenkins)建立的线性时间序列预测方法。ARIMA模型的基本原理:把时间序列看做一个随机过程,用数学模型来模拟或描述;如果该模型可以确定,就可用此时间序列的过去值和现值来预测未来值。其表达式为
xt=φ1xt-1+φ2xt-2+…+φPxt-P+εt-θ1εt-1-θ2εt-2-…θqεt-q
(1)
式中,P和q分别为自回归阶次和移动平均阶次;φ1,φ2,…,φP和θ1,θ2,…,θq分别为自回归系数和移动平均系数;{εt}是{xt}的随机误差项,是相对独立的白噪声序列。一般情况下,该模型可以表示成ARIMA(P,D,q),D为差分阶次。ARIMA模型的具体建模步骤如下:
(1)序列平稳性检验。ARIMA模型法的前提条件是:预测对象的时间序列是零均值的平稳随机序列。如果序列是非平稳的,则对序列进行差分处理;
(2)模型识别与定阶。根据ARIMA模型自相关函数和偏相关函数的截尾性质,进行模型的初步识别。
表1 模型识别
初步识别模型之后,根据AIC准则定阶,AIC准则函数为
(2)
(3)
则k0是最佳的模型阶数;
(3)参数估计与诊断检验。根据确定模型的阶数,参数估计采用极大似然估计方法。在对模型的初步识别与参数估计后,检验残差序列是否为白噪声以判断模型的适应性。若模型残差通过白噪声检验,可以认为模型是适应的;若模型的残差存在自相关,模型有拟合不足的问题,需进一步改进模型。所以在选择模型时应该反复试探,这是一个识别——建模——再识别——再建模的过程;
(4)模型预测分析。若模型残差序列通过白噪声检验,可用该模型预测。
1.2BP神经网络模型
BP神经网络的全称为误差反向传播神经网络(Error Back Propagation),该网络的训练特点是信号向前传递,从输入信号至输入层、隐含层再至输出层进行逐层传播计算;若输出层误差大于期望误差,通过误差的反向传递不断调整权值和阈值使误差趋于极小化,即通过该网络的预测输出接近于期望输出[9],从而达到建模的目的。BP神经网络的拓扑结构如图1所示。
图1 BP神经网络拓扑结构
图1中,x1,x2,…,xn是网络的输入值;y1,y2,…,yn是网络的期望输出值;wij和wjk为BP神经网络权值。BP神经网络预测前首先要通过样本训练网络,其训练过程包括以下4部分[10]:
(1)网络初始化、样本输入x和期望输出y。初始化输入层—隐含层和隐含层—输出层之间的权值wij和wjk,隐含层阈值a,输出层阈值b。输入训练样本及期望输出的预测值。根据样本输入和期望输出序列(x,y)确定该网络的输入层和输出层节点数n和M,计算隐含层节点数L
(4)
其中,i=1,2,…,n,j=1,2,…,l,k=1,2,…,m;
(2)隐含层和输出层输出计算。连接各层的权值和阈值,由输入层输入信号计算隐含层Hj,再由隐含层计算输出层Ok
(5)
(3)误差计算及权值、阈值的调整。根据预测输出Ok和期望输出y计算预测误差ek,并不断调整初始设定的权值和阈值。
(6)
(4)不断地进行计算的顺传递与误差的逆传播,计算全局误差e,通过判断全局误差是否趋于极小值来判断训练是否结束。
(7)
1.3组合模型
由于网络舆情情感演变既有线性规律又有非线性规律,所以使用单一的模型建模会造成较大的误差。考虑到ARIMA模型和BP神经网络模型各自的特点,可以用ARIMA模型来预测网络舆情情感的线性变化,再用BP神经网络模型预测ARIMA模型产生的误差,即非线性变化的规律。最后将ARIMA模型的预测值与BP神经网络模型的预测值相加得到组合模型的预测值,组合模型结构如图2所示。
图2 组合模型结构
2实证分析
2.1数据采集及情感值计算
本文以新浪微博上发表的博文为数据资源,以“余姚水灾事件”为例,随机采集从2013年10月7日18时至10月15日24时的微博数据。利用Excel将连续6 h的数据处理成一个时间段并重处理,得到33个时间段16 680条微博正文数据。使用Rost CM文本挖掘软件对33个时间段的微博正文数据进行情感值计算,分别取其三均值,得到每一时间段的综合情感值,形成情感时间序列如表3所示。该综合情感值可以代表对应时间段微博网民对余姚水灾舆情的整体情感倾向。
2.2ARIMA模型建立过程
(2)模型识别与定阶。分析序列的自相关函数(ACF)和偏相关函数(PACF),如图3所示,初步识别模型。从图中判断该序列自相关和偏相关函数皆拖尾,由此确定p>0,q>0。运用AIC准则定阶,大量实验和应用表明,当序列长度不大时,参数p和q的值≤3,因此在定阶时分别选用p、q值为1,2,3,不同p、q值下AIC的大小如表2所示。当p=1,q=1时,AIC值最小,由此初步确定用ARIMA(1,0,1)模型对情感时间序列进行模拟和预测;
表2 不同p、q值下AIC值
图3 自相关与偏相关图像
(3)参数估计与诊断检验。根据确定的ARIMA(1,0,1)模型,采用极大似然估计进行参数估计,得到φ1=0.795 3,θ1=-1,预测模型表示为xt=0.053 9+
0.795 3xt-1+εt-εt-1,其中,εt为当期随机干扰项,在实际模拟和预测时不予考虑,模型进一步表示为xt=0.053 9+0.795 3xt-1εt-1。
根据检验残差序列是否为白噪声来判断模型的适应性,若不适合,应对模型进一步改进。经过检验,可得残差的均值的0.084 5,可近似看成残差序列为零均值;且残差呈正态分布,模拟残差通过白噪声检验,认为模型是适应的,可用于后续预测;
(4)ARIMA模型预测。利用ARIMA(1,0,1)模型对舆情情感进行拟合、预测,结果如表3所示。
2.3BP神经网络预测ARIMA误差过程
采用ARIMA模型建模预测网络舆情情感,结果表明预测值与测试值之间存在较大误差,因而根据滚动预测方法,采用BP神经网络进一步对ARIMA模型的误差进行预测[11]。计算得到的ARIMA模型误差的时间段为2~33,即BP神经网络的总样本量n=32。以下对32个误差样本量进行输入和输出分组(x,y):(2~4,5)、(5~7,8)、…(29~32,33)。因此BP神经网络的输入层节点数为3,输出层节点数为1,计算得隐含层节点数的范围为[3,12],对此逐个实验,发现当隐含层的节点数为10时,网络性能最佳。将BP网络参数目标误差设置为le-6。经过13次训练,可达到预设目标误差,预测结果如表3所示。
表3 ARIMA和BP神经网络组合模型预测结果表
(8)
结果如表4所示,考虑到体网络舆情情感倾向的时间序列既有线性趋势,又有非线性趋势,单一的使用ARIMA模型存在较大误差,而运用ARIMA和BP神经网络组合模型运算出的结果能减小误差,结果更接近测试值。
3结束语
(1)针对新浪微博上某一网络舆情事件进行数据采集与预处理,运用ROST CM对正文进行情感值计算,形成情感时间序列;
(2)通过ARIMA模型来预测舆情情感的线性变化,引入BP神经网络来预测其非线性的随机变化部分,即预测ARIMA模型的预测误差,形成组合预测模型。该模型能够同时预测线性和非线性变化,结果表明相比于单一模型其具有较高的精确度;
(3)本文提出的ARIMA和BP神经网络组合模型能在一定程度上预测某一舆情事件整体网民言论的情感倾向,预测结果有助于政府及时采取应对措施。但是网民情感受多种突发因素的干扰,如真相的出现、事件的转机、意见领袖的恶意煽动等。这些突发的随机干扰因素可能会使得预测结果与实际情感存在较大的误差,而这些突发干扰却不是人为能够左右的,因而能够及时计算出当前网民的整体情感倾向对于政府把握舆情走向显得尤为重要。
参考文献
[1]曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009(18):79-82.
[2]陈纯柱,敖永春.网络环境下高校舆情的传播及引导机制研究[J].重庆大学学报:社会科学版,2011(2):154-159.
[3]杜智涛,谢新洲.利用灰色预测与模式识别方法构建网络舆情预测与预警模型[J].图书情报工作,2013(15):27-33.
[4]钱爱玲,瞿彬彬,卢炎生,等.多时间序列关联规则分析的论坛舆情趋势预测[J].南京航空航天大学学报,2012(6):904-910.
[5]王青,成颖,巢乃鹏.网络舆情监测及预警指标体系构建研究[J].图书情报工作,2011(8):54-57,111.
[6]刘雯,高峰,洪凌子.基于情感分析的灾害网络舆情研究——以雅安地震为例[J].图书情报工作,2013(20):104-110.
[7]薛圈圈.基于BP神经网络的网络舆情危机预警研究[D].南昌:江西财经大学,2010.
[8]Box G E P,Jenkins G M.时间序列分析预测与控制[M].3版.顾岚,译.北京:中国统计出版社,1997.
[9]徐黎明,王清,陈剑平,等.基于BP神经网络的泥石流平均流速预测[J].吉林大学学报:地球科学版,2013(1):186-191.
[10]史峰,王小川,郁磊,等.Matlab神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.
[11]雷可为,陈瑛.基于BP神经网络和ARIMA组合模型的中国入境游客量预测[J].旅游学刊,2007(4):20-25.
Emotion Prediction of Public Sentiment Based on ARIMA and BP Neural Network Model
WANG Nunu,ZHANG Weijia,NIU Liang
(College of Economics and Management,China Jiliang University,Hangzhou 310018,China)
AbstractAs the number of significant events of public opinion surged in recent years,it is extremely serious to keep the security of the Network public opinion and to warn early.Thus,it is important to grasp the trend of public opinion in the macro.This paper presents a network public sentiment forecast based on ARIMA and BP neural network.The emotional value of the text of "the flood incident in Yuyao" on Sina Weibo is calculated.Then the comprehensive analysis and forecast of the trend of emotional change are given.Forecast results show that relative to,method of combined forecasting is more precise than the single forecast method,indicating the application of this model in the emotion forecast of Internet public sentiment is feasible.
Keywordspublic opinion;emotional value;combined model;forecast
doi:10.16180/j.cnki.issn1007-7820.2016.05.023
收稿日期:2015-09-12
基金项目:2014年度国家级大学生创新创业训练计划基金资助项目(201410356019);2015年浙江省大学生科技创新活动计划暨新苗人才计划基金资助项目(2015R409005)
作者简介:王努努(1994—),女,本科。研究方向:信息管理与数据挖掘。
中图分类号G206;TP393.08
文献标识码A
文章编号1007-7820(2016)05-083-05