基于支持向量机的网络舆情混沌预测

2013-07-20 02:34黄敏胡学钢
计算机工程与应用 2013年24期
关键词:相空间维数舆情

黄敏,胡学钢

1.安徽广播电视大学,合肥 230022

2.合肥工业大学计算机与信息学院,合肥 230009

基于支持向量机的网络舆情混沌预测

黄敏1,胡学钢2

1.安徽广播电视大学,合肥 230022

2.合肥工业大学计算机与信息学院,合肥 230009

1 引言

网络舆情是社会舆情的重要组成部分,相对于传统新闻媒体,它的互动性更强,用户既是信息接收者,又是信息发起者,使得信息在网络上传播更加及时和迅速,负面的网络舆情将会对社会公共安全形成较大威胁,因此对网络舆情变化进行分析和建模,并对其发展趋势进行预测,可以帮助有关部门制定正确的舆论引导策略,对维护社会和谐稳定具有重要的现实意义[1-2]。

当前网络舆情预测方法主要分为两类:传统统计学预测方法和机器学习预测方法。传统统计学预测方法有自回归(AR)、滑动平均(MA)、差分自回归移动平均(ARIMA)等[3-5]。该类方法简单、易实现,尤其是ARIMA极具弹性,它可表示各种不同种类的时间序列模型,融合了时间序列分析和回归分析的优点,在网络舆情变化预测应用最为广泛,然而ARIMA是一种线性预测模型,网络舆情变化受到多种因素的影响,具有非线性,ARIMA无法捕捉网络舆情变化的非线性变化特点,从而影响了预测精度[6]。机器学习算法主要有人工神经网络(ANN)、支持向量回归机(SVR)等。该类方法基于非线性理论建模,可以更加准确地描述网络舆情变化,较传统的线性预测模型,预测精度得到进一步提高,结果更加理想[7-10]。由于网络舆情有人的参与,用户有自己的偏好和思想,导致网络舆情具有较强混沌性,当前机器学习算法均忽略了网络舆情的混沌特性,因此建立的模型不能全面、准确描述网络舆情变化,预测准确性有待进一步提高[11]。

针对网络舆情变化的混沌性,将混沌理论引入到网络舆情建模预测中,并与SVR相结合,提出一种基于相空间重构和支持向量回归机相融合的网络舆情预测模型(PHR-SVR),并通过仿真实验验证PHR-SVR的有效性。

2 网络舆情相空间重构及混沌性识别

相空间重构是混沌理论的基础,主要思想是:系统任一分量的演化是由与其相互作用的其他分量决定的,它的相关分量的信息隐藏在这一分量的演化过程中,因此可以通过分析某一分量的时间序列,了解原系统的动力学特性,提取和恢复出原系统的规律[12]。

设时间序列为:x(t),t=1,2,…,N,通过选择合适的嵌入维数m和延迟时间τ,就可以对其进行重构,得到一个多维向量序列X(t),从而挖掘隐藏于时间序列的信息,恢复原动力系统。

式中,M=N-(m-1)τ,M为相点个数。

2.1 样本数据来源

选择“长春婴儿随车被盗案”作为网络舆情的源事件,由于天涯社区是凤凰网和艾瑞咨询集团共同发布的“全球中文论坛100强”中排名第一的论坛,在知名度和影响度上具有优势,其数据具有代表性,因此选择天涯社区中的论坛数据作为网络舆情的数据源。从2013年3月4日上午10时天涯社区中出现第一个关于“长春婴儿随车被盗案”事件的源帖开始,到2013年3月8日10时为止,共采集96小时的帖子数作为研究对象,具体如图1所示。

图1 收集的网络舆情数据

2.2 数据预处理

从图1可知,网络舆情变化范围比较大,为了避免取值范围大的数据淹没了取值范围小的数据;且SVR核函数的值依赖于特征向量的内积,数据过大会对训练过程产生不利影响,为此,在数据输入到SVR之前对其进行归一化处理,归一化公式为:

式中,x′表示归一化后的值,xmax和xmin分别表示最大值和最小值[13]。

2.3 网络舆情相空间重构

2.3.1 互信息法计算延迟时间

(1)构建网络舆情量时间序列{x(t)}的二维相图,令(x,y)=[x(t),x(t+τ)],τ=1。

(2)在二维相图中画出吸引子的矩形框,并将矩形框划分成等间距的小格子,x0和y0是格子的起始点,Δx和Δy分别是x和y方向上小格子的长度,Mx和My分别是x和y方向上格子的数目。

式中,H(X)代表X的不确定程度,P(xi)是xi发生的概率,q为状态总数,H(X,Y)为X和Y的联合信息熵,P(xi,yi)为事件xi与yi同时发生的联合概率。

(4)令τ=τ+1,返回步骤(2)。

网络舆情时间序列的互信息函数变化曲线如图2所示。从图2可知,当τ=3时,互信息函数达到第一极小值,所以网络舆情时间序列的τ=3。

图2 网络舆情的延迟时间计算

2.3.2 G-P法选择嵌入维数

(1)根据互信息法求出τ=3,嵌入维数的初值为m=1。

(2)选择合适的临界距离r,根据式(6)计算Cn(r),向量距离采用∞范数计算,即两个向量最大分量差作为向量距离。

式中,M为相点的个数,r为临界距离,θ为Heaviside单位函数。

(3)用最小二乘法拟合lgC(r)n~lgr曲线中的直线段,直线的斜率为关联维数D。

(4)增加嵌入维数,即m=m+1,返回步骤(2)。

网络舆情时间序列在不同嵌入维数下的关联维数,如图3所示。从图3可知,当嵌入维数m=5时,关联维数达到饱和状态,这表明网络舆情时间序列的最优m=5。

图3 网络舆情的嵌入维数计算

2.4 网络舆情时间序列的混沌性识别

混沌系统具有对初始值敏感的特性,若系统的最大Lyapunov指数λ1>0,则该系统一定是混沌的。基于小数据量法求取最大Lyapunov指数计算步骤如下:

(1)对时间序列x(t),t=1,2,…,N,进行快速傅里叶变换,计算出平均周期p。

(2)利用互信息法计算延迟时间τ。

(3)根据延迟时间τ和嵌入维数m重构相空间X(t),t= 1,2,…,M。

(4)找相空间中每个点X(t)的最近邻点X(tˆ),并限制短暂分离,即

式中,t=1,2,…,M。

(5)对相空间中每个点X(t),计算出该邻域点对的i个离散时间步长后的距离dt(i)。

式中,q为非零dt(i)的数目,并用最小二乘法做出回归直线,该直线的斜率为最大Lyapunov指数。

通过计算得到网络舆情时间序列的平均周期p=1,嵌入维数m=5,延迟时间τ=3,利用最小二乘法拟合直线,其斜率为最大Lyapunov指数,得到λmax=0.001 52>0,这表明,网络舆情时间序列具有弱混沌特性。

2.5 支持向量机算法

2.5.1 支持向量机回归

支持向量机是一种基于统计学习理论的机器学习算法,在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力[14]。SVR的回归估计函数为:

式中,w表示权向量,b表示偏置向量。

使得预测的期望风险函数最小:

在求解实际问题时,只需利用支持向量进行求解,于是回归估计函数为:

式中,σ为径向基核函数的宽度。

2.5.2 支持向量机回归的网络舆情预测模型

给定网络舆情时间序列的数据集D={x(t),t=1,2,…,N},取延迟时间τ=3,嵌入维数m=5,按照上述的相空间重构方法,就可以得到相空间域中的数据集为:Dˆ={X(t), Y(t)},t=1,2,…,M,其中X(t)={}x(t),x(t+τ),…,x[t+(m-1)τ],Y(t)=x(t+1+(m-1)τ),t=1,2,…,M,写成矩阵形式为:

相空间域的预测模型就是用相空间中的点X(t)预测出Y(t),即找到一个映射函数F,使得:

本文通过利用SVR来求取该映射函数,基于PHR-SVR的建模过程如图4所示。

图4 PHR-SVR的网络舆情预测流程

3 预测实验

3.1 仿真环境

在PIV 3.0 GHz CPU,2 GB RAM,操作系统为Windows 2000环境,通过VC++编程实现算法。采用ARIMA、SVR(没有相空间重构)、PHR-BPNN作为对比模型。采用均方误差(RMSE)和平均相对百分比误差(MAPE)作为模型优劣评价标准。它们定义如下:

式中,xt和分别为实际值和模型预测值,n为样本数。

3.2 结果与分析

3.2.1 一步预测

由于原始训练样本为65,而且最优嵌入维数为m=5,那么重构后就得到66-5=61个新的训练集。首先采用含有61个数据进行训练,并进行一步预测,然后将预测点的真实值加入到训练集中,再进行一步预测,依此类推,最后得出30个测试集的一步预测值,再将最后预测值与测试集的真实值进行比较,并计算相应的RMSE和MAPE。BP神经网络的结构为5-11-1;通过粒子群算法得到SVR最优的C=100,σ=1.715,ARIMA模型选择ARIMA(3,2,2)。各模型对网络舆情测试集的预测结果如图5所示,它们相应的RMSE和MAPE见表1。

图5 网络舆情一步预测结果

表1 各模型的一步预测性能对比

从表1和图5的结果进行分析,可以得到如下结论:

(1)相对于ARIMA,PHR-SVR的网络舆情预测精度大幅度提高,这主要由于ARIMA无法捕捉到网络舆情时间序列的非线性变化特点,而PHR-SVR利用SVR的非线性预测能力有效提高了网络舆情的预测精度。

(2)相对于SVR,PHR-SVR的网络舆情预测误差值更小,预测值与真实值十分接近,这主要由于PHR-SVR通过采用PHR挖掘隐含于网络舆情时间序列的信息,可以更加准确、全面地对网络舆情变化趋势进行描述,得到更加可靠的预测结果,进一步提高了网络舆情预测精度。

(3)相对于PHR-BPNN,PHR-SVR的预测结果始终比较稳定,且预测结果的RMSE、MAPE值远远小于PHR-BPNN,这主要由于SVR很好地克服了BP神经网络过拟合、局部极小和网络参数难以确定的难题,泛化能力更强,预测精度更高。

3.2.2 多步预测

网络舆情预测时间一般要求有较大的提前量,采用一步预测(即仅对当前时间下一小时网络舆情进行预测),既不能有效反映网络舆情变化趋势,也无法针对一些负面网络舆情作出有效和及时的应对,因此,有必要将一步预测扩展到多步预测方法,于是采用多步预测法预测未来24 h的网络舆情,所有模型均采用迭代法的多步预测法,即重复使用一步向前预测若干次,并把上一次的预测值视做系统输出真值,应用于下一次预测中[15]。各模型的预测结果真实值与预测值对比见图6。它们的RMSE和MAPE见表2。

从图6和表2可以看出,ARIMA、SVR、PHR-BPNN网络舆情的多步预测精度较低,误差相当高,预测结果不可靠,预测结果实际应用价值较低,而PHR-SVR预测误差明显小于对比模型,而且PHR-SVR对网络舆情变化的趋势预测比较准确,预测性能要优于对比模型,预测结果具有较大的实际价值。

图6 多步预测法的预测结果对比

表2 各模型的多步预测性能对比

3.2.3 其他网络热点话题预测

为了使模型的性能更具说服力,采用2013年4月最热门的话题“解放军新式军车号牌曝光”、“苹果公司向中国消费者致歉”、“美媒体称中国向中朝边境调军队”、“浙江大姐中国式过马路被罚,追着交警吐口水”、“日本允许台湾渔船在钓鱼岛捕鱼”、“刘志军被曝光涉嫌受贿6千万元”进行测试实验,得到的一步预测误差见表3。从表3可知,PHR-SVR获得较好的预测精度,预测误差控制在有效的范围(5%)以内,结果表明,PHR-SVR是一种预测精度高、通用性好的网络舆情预测模型。

表3 PHR-SVR对其他网络热点话题一步预测误差

4 结束语

网络舆情受到多种影响因素的综合影响,具有时变性、混沌性,是一种复杂的变化系统,传统预测算法难以建立准确的预测模型。针对网络舆情的混沌变化特点,采用混沌理论和SVR建立了一种基于PHR-SVR的网络舆情预测模型。结果表明:相对于对比模型,PHR-SVR提高了网络舆情预测精度,预测结果更加稳定,更加准确描述了网络舆情复杂的变化趋势,预测结果有助于正确把握网络舆情的发展,从而有助于科学合理地引导、管理各种网络舆情传播平台,促进和谐社会构建工作的开展。

[1]王来华.舆情研究概论——理论、方法和现实热点[M].天津:天津社会科学院出版社,2007.

[2]方薇,何留进,宋良图.因特网上舆情传播的预测建模和仿真研究[J].计算机科学,2012,39(2):203-207.

[3]刘常昱,胡晓峰,司光亚,等.基于小世界网络的舆论传播模型研究[J].系统仿真学报,2006,18(12):608-6l0.

[4]钱爱玲,瞿彬彬,卢炎生,等.多时间序列关联规则分析的论坛舆情趋势预测[J].南京航空航天大学学报,2012,44(6):904-910.

[5]高辉,王沙沙,傅彦.Web舆情的长期趋势预测方法[J].电子科技大学学报,201l,40(3):440-445.

[6]张虹,钟华,赵兵.基于数据挖掘的网络论坛话题热度趋势预报[J].计算机工程与应用,2007,43(31):159-161.

[7]方薇,何留进.采用元胞自动机的网络舆情传播模型研究[J].计算机应用,2010,30(3):751-755.

[8]刘勘,李晶,刘萍.基于马尔可夫链的舆情热度趋势分析[J].计算机工程与应用,2011,47(36):170-173.

[9]周耀明,李弼程.一种自适应网络舆情演化建模方法[J].数据采集与处理,2013,28(1):69-75.

[10]Zeng J P,Zhang S Y,Wu C R,et al.Predictive model for Internet public opinion[C]//Fourth International Conference on Fuzzy Systems and Knowledge Discovery.Haikou:IEEE Press,2007:7-11.

[11]Zeng J P,Zhang S Y,Wu C R,et al.Modeling topic propagation over the Internet[J].Mathematical and Computer Modeling of Dynamic Systems,2009,15(1):83-93.

[12]张春涛,马千里,彭宏.基于信息熵优化相空间重构参数的混沌时间序列预测[J].物理学报,2010,59(11):7623-7629.

[13]黄虎,蒋葛夫,严余松,等.基于支持向量回归机的区域物流需求预测模型及其应用[J].计算机应用研究,2008,25(9):2738-2740.

[14]赵云,肖嵬,陈阿林.基于加权支持向量回归的网络流量预测[J].计算机工程与应用,2012,48(21):103-106.

[15]洪贝,胡昌华,姜学鹏.基于证据理论的迭代多步预测方法研究[J].控制理论与应用,2010,27(12):1737-1742.

HUANG Min1,HU Xuegang2

1.Anhui Radio&TV University,Hefei 230022,China
2.School of Computer and Information,Hefei University of Technology,Hefei 230009,China

In order to improve the prediction accuracy of internet public opinion,this paper proposes an internet public opinion prediction model based on chaotic theory and Support Vector Regression.The internet public opinion time series proves to be with chaos characteristics,and then delay time and embedding dimension are calculated using mutual information method and G-P method respectively according to takens theorem,and the internet public opinion time series is reconstructed in phase space. The internet public opinion forecasting model is established using Support Vector Regression,and the simulation experiment is carried out with comparison models.The experimental results show that,compared with other models,the proposed model has improved the prediction accuracy and stability of internet public opinion and the prediction results have practical value.

internet public opinion;Support Vector Regression(SVR);phase space reconstruction;chaotic theory

精确预测网络舆情发展趋势,对防止负面网络舆情对公共安全威胁具有重要意义,针对网络舆情变化的时变性、混沌性,提出一种基于支持向量机的网络舆情混沌预测模型(PHR-SVR)。证明了网络舆情具有混沌特性,根据Takens定理分别采用互信息法和G-P法确定延迟时间和嵌入维数重构网络舆情时间序列相空间;在相空间中,利用支持向量回归机(SVR)建立网络舆情预测模型,与其他预测模型进行对比实验。结果表明,相对于对比模型,PHR-SVR提高了网络舆情的预测精度和可靠性,预测结果具有一定实用价值。

网络舆情;支持向量回归机;相空间重构;混沌理论

A

TP393

10.3778/j.issn.1002-8331.1307-0248

HUANG Min,HU Xuegang.Internet public opinion chaotic prediction based on Support Vector Regression machine. Computer Engineering and Applications,2013,49(24):130-134.

安徽省教育厅自然科学基金(No.KJ2013B091)。

黄敏(1977—),女,讲师,研究方向:数据挖掘;胡学钢(1961—),男,教授,博士生导师,研究方向:知识工程,数据挖掘,数据结构。

2013-07-19

2013-09-04

1002-8331(2013)24-0130-05

CNKI出版日期:2013-10-17http://www.cnki.net/kcms/detail/11.2127.TP.20131017.1529.020.html

猜你喜欢
相空间维数舆情
β-变换中一致丢番图逼近问题的维数理论
束团相空间分布重建技术在西安200 MeV质子应用装置的应用
一类齐次Moran集的上盒维数
舆情
关于齐次Moran集的packing维数结果
舆情
非对易空间中的三维谐振子Wigner函数
涉及相变问题Julia集的Hausdorff维数
舆情
基于相空间重构的电磁继电器电性能参数预测研究