基于改进混沌理论的网络舆情短期预测策略方法研究

2019-07-16 12:29:10
关键词:相空间训练样本舆情

高 颖

(1.南开大学 周恩来政府管理学院, 天津 300000;2.内蒙古民族大学 人事处, 内蒙古 通辽 028000)

舆情是一定时期、一定范围内民众对社会现实的主观反映,是群体性的思想、心理、情绪、意见和要求的综合表现[1]。随着互联网的迅速发展和智能手机的广泛使用,网络已成为一种主导性的信息传播方式。国内外的重大事件都可能在互联网上快速传播,引发社会公众的广泛关注和讨论,从而造成极大的舆论压力,成为任何国家和部门都必须面对的社会问题。

从一定程度上看,互联网已成为新时代社会舆论的放大器。一方面,网络能够起到社会监督的作用;但另一方面,如果引导和监管不善,负面舆情可能对公共安全造成威胁。网络舆情具有突发性、隐蔽性和多元化等特点,因此相关部门对网络舆情的处理可能滞后。加强对网络舆情的监控和疏导,提前预测舆情发展趋势,尽最大可能化解矛盾,对维护社会稳定、保障国家安全具有重大意义[2]。

从当前研究看,舆情预测的方法总体可分为两类:一类是传统的时间序列预测方法,如指数平滑法[3]、灰色预测法等[4-5];另一类是现代智能机器学习方法,如小波理论[6]、神经网络及其改进方法等[7-9]。指数平滑法适合时间序列平稳情况的预测。灰色预测法适用于具有指数变化趋势的原始样本,对随机波动较大的样本效果不佳。神经网络能够逼近复杂的非线性关系,但是存在网络结构难以确定、过拟合等问题。

最小二乘支持向量机(least squares support vector machine,LS-SVM)是近年发展起来的一种机器学习方法,能够避免标准SVM训练时间长,神经网络存在的过拟合等问题,具有较强的泛化能力[10-11]。在LS-SVM建模中,传统的训练样本和模型参数选取依靠预测者自身经验,导致训练时间长,并且一旦选定训练样本就只能通过模型参数优化来反复修正模型,直到达到满意的训练效果。粒子群算法[12-13](particle swarm optimization,PSO)是由J.Kennedy和R.C.Eberhart等提出的一种进化算法,具有计算过程简单、优化精度高、收敛速度快等优点,适用于对LS-SVM参数进行优化。本文在混沌理论相空间重构的基础上,用LS-SVM拟合网络舆情相空间中相点的演化趋势,通过PSO算法寻找最优LS-SVM参数,最后以“8·25”事件为案例进行仿真实验,对模型进行验证。

1 相关理论

1.1 相空间重构理论

相空间重构(phase space reconstruction,PSR)是根据有限的数据在重构的相空间中把混沌吸引子恢复出来以研究系统动力学特性的方法。在进行相空间重构时,通常只考虑一个变量,然后将该变量在固定时间延迟点上的测量作为一个新维,进而确定多维状态空间中的一个点。通过重复上述过程,就可用一个分量重构出原动力系统模型。

对于混沌时间序列{xi,i=1,2,…,n},n为样本个数。根据Takens定理,重构相空间为:

(xi,xi+τ,…,xi+(m-1)τ),i=1,2,…,M

(1)

式中:xi表示相空间的点;m表示嵌入维数;τ为延迟时间;M为重构相空间中相点个数,M=n-(m-1)τ。重构相空间的吸引子矩阵为:

(2)

相空间重构结果的好坏取决于m和τ。目前,确定m和τ的方法主要包括两种思路:一种是两者独立确定;另一种是联合确定。依据Takens定理,对于无限长、无噪声的时间序列,τ可以是任意值。但事实上真实时间序列往往都有噪声,同时不能保证时间序列的长度足够长。C-C法[14]基于嵌入窗的思想,在确定τ的过程中同时得到合适的m,并且该方法计算量小、具有较强的抗噪声能力,因此采用C-C法进行相空间重构。

1.2 LS-SVM

给定一组训练样本D={(xk,yk)|k=1,2,…,N},xk∈Rn,yk∈R。xk为输入向量,yk为输出向量,n为训练样本数。

最小二乘支持向量机回归模型可表示如下:

y=wTφ(x)+b

(3)

式中:φ(·)为映射函数;w为特征空间的权向量;b为偏置量。

根据结构风险最小化原则,LS-SVM函数估计问题可描述为:

(4)

式中:γ为误差惩罚参数;ek为误差变量,ek∈R。

满足以下约束:

yk=wTφ(xk)+b+ek

(5)

通过构建非线性映射函数,能够提取原始空间的特征,因此原始的线性不可分问题得到解决。定义拉格朗日函数如下:

L(w,b,e;α)=J(w,e)-

(6)

式中:αk为拉格朗日乘子,αk∈R。

根据KKT条件,对式(6)进行优化,即:

(7)

消去特征空间的权向量w和e,得到矩阵方程如下:

(8)

其中:

e=[e1,e2,…,eN],lv=[1,1,…,1]

y=[y1,y2,…,yN],α=[α1,α2,…,αN]

Ωkl=φT(xk)φ(xl),l=1,2,…,N)

根据Mercer条件,存在映射φ和核函数K(·,·)使:

K(xk,xl)=φT(xk)φ(xl)

(9)

由式(8)和式(9)联立求出α和b后,得到最小二乘支持向量机回归算法的函数估计式为:

(10)

式(10)取不同的核函数生成不同的支持向量。径向基核函数(RBF)在时间序列预测中取得了较好的效果,本文选取RBF核函数为LS-SVM的核函数。确定核函数以后,需要寻找最优的核函数参数σ和误差惩罚参数γ。

1.3 PSO算法

粒子群算法是基于鸟类个体之间的协作和信息共享寻找最优解,非常适用于连续域优化问题的解决。粒子群算法初始化为一组随机粒子,然后通过不断迭代寻找最优解,各粒子的优劣度用适应度函数表示。种群中每个粒子表示一个可能的解向量,通过跟踪个体极值和全局极值实时更新位置和速度,实现最优目标。设粒子的位置和速度分别是Xi和Vi,则其更新策略为:

(11)

(12)

(13)

为了减少依靠主观经验选取参数的盲目性和工作量,提高训练效果,本文采用粒子群算法选取LS-SVM的最优参数σ和γ,基本流程如图1所示。

步骤1初始化粒子的初始位置和速度等。

步骤2用初始粒子对最小二乘支持向量机训练样本进行学习,从而获得当前位置的训练误差,将其作为粒子适应度值。对比粒子的当前适应度值和最优适应度值,若结果更优,则当前位置即为该粒子的最优位置。

步骤3计算惯性权重,并用式(11)和式(12)更新粒子的速度和位置。

步骤4计算适应度值,判断是否符合寻优终止条件(最大迭代次数或设定的精度要求),如果满足则得到最优解,否则转至步骤3。

图1 PSO算法优化LS-SVM参数的基本流程

2 混沌理论和LS-SVM结合的网络舆情预测模型

2.1 数据预处理

网络舆情具有非线性、随机性的特点,原始数据之间相差比较大。因此,在将数据输入到LS-SVM训练之前,将原始样本进行归一化处理:

(14)

式中:xi表示原始样本;ximin、ximax分别为原始样本的最小值和最大值。

然后,对网络舆情的预测结果进行反归一化,即:

(15)

2.2 LS-SVM预测器的输入输出结构

混沌相空间中,任一相点xi演变到下一相点xi+1可用函数表示如下:

f:xi+1=f(xi)

(16)

2.3 预测步骤

基于改进混沌理论的网络舆情短期预测步骤如下:

步骤1对舆情原始数据进行预处理;

步骤2相空间重构。用C-C法确定最佳延迟时间τ和嵌入维数m,建立网络舆情时间序列的多维相空间;

步骤3构造输入输出向量,形成训练样本和预测样本;

步骤4用PSO算法对LS-SVM参数进行优化,寻找最优的参数σ和γ;

步骤5在上述基础上,代入预测样本用已训练好的学习机器进行预测,获得网络舆情的预测值。

2.4 预测精度评价

当前用于表征预测结果精度的指标主要有:平均绝对值相对误差(MAPE)、相对误差(RE)和均方根误差(RMSE)等。本文采用MAPE作为预测结果精度评价指标:

(17)

3 仿真实验

3.1 数据来源与预处理

为验证所建舆情预测模型的有效性,对2018年哈市发生的“8.25”火灾事件进行预测分析。通过对百度新闻、搜狐网、腾讯网、今日头条等网站进行跟踪调查统计,得到“8.25”事件发展过程中的点击量、评价量和转载量,用式(14)对网络舆情历史数据进行归一化处理。由于篇幅限制,仅以事件发生后10天内的点击量预测为案例进行仿真,如表1所示。

表1 “8.25”事件点击量

3.2 模型的训练结果与分析

3.2.1相空间重构

基于混沌理论进行相空间重构,用C-C法确定最优延迟时间τ=1,最优嵌入维数m=4。相空间重构后得到6组样本集,属于典型的小样本预测问题。用前4组样本作为训练样本,用于训练支持向量机模型,后两组样本作为预测样本,用于检验模型的预测能力。

3.2.2LS-SVM参数寻优

用LS-SVM对重构的网络舆情预测样本进行训练,构建训练样本的适应度函数如下:

(18)

粒子群算法基本参数设置为:种群数N为20,学习因子c1为1.5,c2为1.5,惯性权重ω为0.5,最大迭代次数Gmax为80。在Matlab2014下进行仿真,得到最优的误差惩罚参数γ=744,最优的宽度参数σ2=0.51。粒子群算法的参数寻优过程如图2所示。

图2 PSO参数进化过程

3.2.3模型训练和分析

对网络舆情训练样本进行训练,结果如图3所示。可以看出网络舆情训练样本的真实值和输出值基本上重合,说明所建模型训练精度较高。

图3 模型训练结果

3.3 模型的预测结果与分析

在建立上述学习机器的基础上,对网络舆情第9天和第10天的点击量进行预测,并与未进行PSO参数优化的预测结果对比,结果见表2。

表2 网络舆情的预测结果

从表2可以看出:参数经过优化后的预测结果更加接近真实值,第9天、第10天的预测结果相对误差绝对值均小于5%。计算得MAPE=3.50%,说明基于改进混沌理论和LS-SVM的预测模型对网络舆情短期预测能够取得较好的预测效果,具有广泛的应用前景。

4 结论

1) 针对网络舆情数据随机波动大、小样本的特点,通过引入混沌理论对网络舆情时间序列进行相空间重构,用C-C法确定最佳嵌入维数和延迟时间,避免了依靠预测者主观经验的盲目性。

2) PSO算法用于LS-SVM参数寻优具有计算简单、运算速度快的特点,能够寻找到最佳的LS-SVM参数,避免了主观选择参数的盲目性,提高了建模精度。

3) 通过对网络舆情第9天、第10天的预测结果分析,MAPE值为3.50%,并且每天的预测值相对误差绝对值都小于5%,说明本文所提方法具有较高的预测精度和广泛的应用前景。

猜你喜欢
相空间训练样本舆情
束团相空间分布重建技术在西安200 MeV质子应用装置的应用
人工智能
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
电视技术(2016年9期)2016-10-17 09:13:41
舆情
中国民政(2016年16期)2016-09-19 02:16:48
基于稀疏重构的机载雷达训练样本挑选方法
舆情
中国民政(2016年10期)2016-06-05 09:04:16
非对易空间中的三维谐振子Wigner函数
舆情
中国民政(2016年24期)2016-02-11 03:34:38
基于相空间重构的电磁继电器电性能参数预测研究