基于KPCA优化IHS-RVM的小时间尺度网络流量预测模型

2017-11-01 17:14
计算机应用与软件 2017年10期
关键词:网络流量时间尺度维数

杨 波

(昆明理工大学质量发展研究院 云南 昆明 650093)

(云南省计量测试技术研究院 云南 昆明 650228)

基于KPCA优化IHS-RVM的小时间尺度网络流量预测模型

杨 波

(昆明理工大学质量发展研究院 云南 昆明 650093)

(云南省计量测试技术研究院 云南 昆明 650228)

网络流量时间序列具有高维度、非线性和时变性等特征,针对传统时间序列模型预测精度较低的问题,提出基于KPCA(Kernel Principal Component Analysis)优化IHS-RVM的小时间尺度网络流量预测模型。首先对网络流量时间序列进行相空间重构,确定嵌入维数和延迟时间。然后利用KPCA对网络流量样本进行核主成分特征提取,降低嵌入维数,并获取核主元矩阵。在此基础上,通过改进HS(Harmony Search)算法(IHS)确定RVM核参数。最后利用参数优化的RVM模型进行小时间尺度网络流量预测。为了交叉验证模型的性能,采用实际数据进行性能对比分析。结果表明,本模型性能优于KPCA-IHS-ESN、KPCA-IHS-SVM和IHS-RVM模型,取得了良好的效果。

小时间尺度 网络流量 改进和声搜索算法 KPCA RVM

0 引 言

我国网民数量世界第一,网络服务质量成为当前网络管理和优化的重要内容[1]。网络流量是记录和反映网络用户活动的重要载体,其预测和控制优化问题备受关注[2]。

大时间尺度网络流量预测已经取得了较好的结果,但所得结论无法对网络流量实现实时优化与控制[2-3]。因此,近年小时间尺度(采样时间小于1 s[4])网络流量预测问题备受青睐。小时间尺度网络流量时间序列建模往往是一个多输入的高维、非线性建模问题[1],传统的线性回归模型如ARMA、ARIMA模型等都难以获得令人满意的预测精度,且诊断时间较长,难以满足实时诊断的要求。人工神经网络(ANN)、支持向量机(SVM)和相关向量机(RVM)等技术[3-6]在小时间尺度网络流量预测和网络安全诊断得到了大量应用。但ANN需要大量训练样本,易出现过拟合并且泛化性能差[7];SVM泛化性能强但是核函数需满足Mercer条件并且处理大数据集训练速度慢[8];RVM泛化能力强并且训练速度快,但RVM模型的精度和泛化能力都受其核函数参数的影响,需要进一步优化[7-8]。和声算法HS具有比GA、梯度算法更加优异的寻优性能,但HS算法中的HMCR、PAR和BW三参数获取方法直接影响其寻优性能,为了更好地满足小时间尺度网络流量预测实时性要求,进而对HS进行改进。因此采用IHS进行RVM超参数优化[9]。由于小时间尺度网络流量具有高维度、非线性特征,如果直接进行RVM预测不仅嵌入维数较多,且计算时间较长。因此,引入核方法的核主成分分析KPCA可实现非线性问题的高效求解[3]。另外,可以利用相空间重构理论还原小时间尺度网络流量时间序列的非线性动力特性。

鉴于上述分析,本研究首先利用相空间理论对网络流量样本数据进行空间重构,然后利用KPCA提取网络流量时间序列的核主成分信息,实现降维;将获得主元矩阵作为训练样本集利用IHS算法进行RVM训练优化,获取参数优化的RVM网络流量预测模型。为了交叉验证模型的性能,采用实际数据进行性能对比分析。结果表明,本模型优于KPCA-IHS-ESN、KPCA-IHS-SVM和KPCA-IHS-RVM模型,能够满足小时间尺度网络流量预测的性能要求。

1 基本理论方法

1.1 相空间重构

小时间尺度网络流量影响因素(网络利用率、网络协议等)较多,在进行网络流量预测之前,需要找出网络流量混沌时间序列中隐藏的混沌吸引子的演化规律,使现有的小时间尺度网络流量数据纳入某种可描述和预测的系统框架之下。这样不仅可以减少训练时间,还可以提升小时间尺度网络流量训练精度。对于小时间尺度网络流量时间序列S=[s1,s2,…,si,…,sM],假设si与si-1,si-2,…,sMi-r的非线性映射关系如下式所示:

si=ξ(si-1,si-2,…,si-r)i=r+1,…,M

(1)

式(1)中:r为小时间尺度网络流量嵌入维数;ξ(·)为小时间尺度网络流量非线性映射函数。

1.2 KPCA降维过程及步骤

小时间尺度网络流量具有高维、非线性特征,直接进行预测不仅预测时间较长,且预测精度难以保障,不能满足实时要求。因此,在相空间重构后有必要进行网络流量数据的降维。KPCA是从数据集中提取非线性特征的有效方法,能够有效处理网络流量时间序列变量之间的非线性耦合问题,通过将输入空间映射到高维特征空间实现非线性变换,最终转化为求核矩阵的特征向量和特征值,使之变为线性问题,再在特征空间中利用PCA提取网络流量主元[3]。因此,采用KPCA提取小时间尺度网络流量序列的有效信息,降低RVM预测模型复杂度,将有效减少训练时间,提升训练精度。KPCA降维过程及步骤主要如下:

Step1对输入样本X进行标准化,并按式(2)计算核矩阵K;

(2)

其中1≤i≤n,1≤j≤n,l1为核宽度。

Step2根据式(3)中心化核矩阵K,中心化结果为K*,其中η为元素全为1的n维向量;

(3)

Step3计算中心化核矩阵K*的特征值λ和特征向量V;

Step4对特征值λ以及对应特征向量V按降序重新排序;

Step5按累计贡献率选取前p个特征值和对应特征向量;

Step6按式(4)将p个特征向量V规范化:

(4)

Step7按式(5)计算数据重构后得到的主元矩阵元素为:

(5)

其中1≤i≤n,1≤j≤p。

2 IHS-RVM

2.1 RVM

RVM是一种基于稀疏贝叶斯框架的机器学习算法,既可以用作分类器,也可以建立回归模型[7],其基本原理如下:

p(tn|xn)=N(tn|y(xn),σ2)

(6)

均值y(xn)可由如下线性模型表示:

(7)

其中w=(w1,w2,…,wM)T为权值向量,φ(x)=(φ1(x),φ2(x),…,φM(x))为核函数。

w和σ2的似然函数为:

(8)

其中t=(t1,t2,…,tN)T,Φ是N×(N+1)维由核函数构成的矩阵,RVM核函数同样选取RBF核函数,计算式如式(9),其中l2为RVM核参数,且1≤i,j≤N。

(9)

模型回归就是估计权值w,而对式(11)式直接最大似然估计求w和σ2会导致过拟合,因此引入超参数α,αi和wi一一对应,w满足均值为0的高斯分布,其先验、后验分布分别为:

(10)

N(w|μ,Σ)

(11)

后验分布的均值和协方差矩阵为:

(12)

其中α=(α0,α1,…,αN),A=diag(α)。

至此权值的估计转化为超参数估计,用第二类最大似然估计超参数α和噪声方差σ2,其边缘似然为式(13),式中C=σ2I+ΦA-1ΦT。对式(11)取对数再分别对α和σ2求偏导并令偏导为0,得到式(14)中的超参数和噪声方差迭代式。

N(t|0,C)

(13)

(14)

式(14)中γi≡1-αi∑ii,μi、∑ii分别是式(16)中μ的第i个元素、Σ对角线的第i个元素。

对于新的网络流量测试数据x*有:

(15)

那么估计值为式(16):

y*=wTφ(x*)=μTφ(x*)

(16)

结合式(12)、式(14)的迭代以及式(9),可以发现αi的迭代式与t、N、Φ、σ2有关,目标值t和样本数N为常量,σ2和αi相互作用,Φ则为核函数矩阵。当σ2为最优值时,Φ可以影响αi的取值,继而影响wi是否为0,即核函数(核参数)最终影响到相关向量数量和估计精度,因此需要选取合适核参数。

2.2 HS算法改进(IHS)

受音乐演奏启发,Geem等[10]模拟音乐演奏中乐队和声调谐的原理,提出了和声搜索算法。HS算法原理简单、可控参数少、易于实现、具有很强的全局搜索能力。影响和声搜索性能的关键环节在于HMCR、PAR和BW3个参数的控制和设计[11-12]。在基本HS算法中,HMCR、PAR和BW值是固定的,这影响了算法的搜索性能。本文优化HMCR、PAR和BW的方法[11-13]如下:

1)HMCR调整策略。由于HMCR决定新和声的产生方式,HMCR值大有利于算法的局部收缩,HMCR值小有利于群体的多样性。因此,HMCR的改进策略如下式所示:

(17)

式(17)中,NId表示当前迭代次数,HMCRmax和HMCRmax分别为HM内搜索概率最大和最小值。

2)PAR调整策略。PAR控制局部搜索过程,PAR值小可以增强算法的局部搜索能力,值大则有利于优化搜索区域;PAR的改进策略具体如下式所示:

(18)

式(18)中PARmax和PARmin分别为调节概率最大和最小值。

3)BW调整策略。BW为和声微调幅度,在HS算法执行前期,BW值大有助于HS算法容易跳出局部最优,获得全局最优解;在HS算法执行后期,BW值小则有利于算法在局部区域精细搜索。BW的改进策略具体如下式所示:

(19)

式(19)中BWmax和BWmin分别为音调调节带宽的最大和最小值。

4) 寻优信息共享策略。为提高HS算法的收敛性,减少无效迭代的次数。在搜索过程中进行异或操作,实现寻优信息共享,如下式所示:

x(j)=xbest⊕x(j)

(20)

其中,xbest是HM中的最优和声;“⊕”为异或操作符号。

2.3 IHS优化RVM超参数

RVM算法具备处理高维度、非线性问题的能力,但其性能受到核参数(γ)的影响。Geem提出HS算法具备比遗传算法更好的搜索能力[10]。采用IHS搜索算法寻找RVM预测模型最优的核参数(γ),使得RVM预测模型具有更好的预测性能。和声所对应的目标函数值反映了该组参数下的算法性能,本文选取预测误差f(x)作为目标函数,目标函数如下式所示:

(21)

HIS优化RVM核参数的步骤如下:

Step1设置HMCR、HMS、PAR、BW、NImax、y和N(体和声向量维数)的初始范围。

Step3从HM中随机选取一个新的和声,按更新HMCR和PAR产生随机数rand1;根据HMCR产生新和声;如果不满足rand1

Step4若迭代次数达到NImax,则算法终止,输出RVM预测模型的最优核参数。否则,继续执行直到算法迭代终止。

Step5在获得最优核参数后,输出超参数最优解向量,构造核参数优化的RVM预测模型。

3 实例分析

3.1 实例数据来源

本文的网络流量数据来源于云南省某招投标企业网络服务中心服务器的流量数据。数据采集时间为2016年9月1日,数据采样时间单位为秒(ms),数据采集时间为11:00-11:10,共采集到数据598 362个。聚类后得到的600个单位为KB的流量序S*,序列号(Serial Number,S/N),测聚类时间为1.0 s的网络流量序列如图1所示。

图1 测聚类时间为1.0 s的网络流量序列

3.2 相空间重构参数确定

首先基于Matlab2009a编程计算小时间尺度网络流量的互信息函数,延迟时间τ和嵌入维数r1计算结果如图2所示。

图2 时间延迟(τ)

由图2可知,当τ=5时可以得到互信息函数第一个极小值,即表明τ=5时为小时间尺度网络流量的最佳延迟时间,在确定最佳延迟时间后,运用虚假最近邻点法求嵌入维数,计算结果如图3所示。

图3 虚假邻点法计算网络流量的嵌入维数

根据图3可知,当嵌入维数r1为6时,假邻近率变化趋于稳定,即表明r1为小时间尺度网络流量的合适嵌入维数。

3.3 网络流量预测

经过相空间重构后,为进一步降低计算复杂度,缩短计算时间,采用KPCA 提取有效信息、降维减少运算复杂度,将 KPCA 算法中的选取百分比E取为 85%[3]。对输入的600组样本数据进行相空间重构和KPCA处理,计算获得4个核主成分的特征值以及其方差贡献率如表1所示。

表1 样本网络流量数据的主特征值及方差贡献率

从表1可看出前4个主元的方差累积贡献率已经超过了90%,且特征值均大于1。因此,根据KPCA判断原则选定前4个主元构建降维后的主元矩阵,即将嵌入维数最终确定为r=4。由此可知,经过KPCA后,RVM预测模型的嵌入维数6减少到4。KPCA处理更加符合小时间网络流量预测的实时性要求:为了更好地验证本文模型预测性能以及KPCA的作用,同时参照文献[14-17]构建了IHS-ESN、IHS-SVM、IHS-RVM进行对比分析。在训练过程中随机选取2/3相空间重构后的样本数据作为训练集,即400组数据作为训练集。训练后结果为:IHS-ESN的权谱半径SR=0.3、储备池规模N=260、储备池输入单元尺度IS=0.38、稀疏程度SD=0.6;IHS-SVM的惩罚系数C=68,核函数关联参数g=0.28;IHS-RVM的嵌入维数r为4,核宽度l为9.85。确定模型优化参数后,利用剩余样本量进行小时间尺度网络流量测试,测试结果如图4所示。

图4 实例仿真测试结果对比图

3.4 模型性能评价

为了综合评价不同模型的性能,选用均方根误差(RMSE)、平均相对误差(MAPE)、最大相对误差(MAXE)和寻优运行时间(Time)作为衡量各预测模型性能的评价指标,具体计算结果如表2所示。

表2 预测性能指标

根据表2可知,KPCA-IHS-RVM模型预测性能最为优异:RMSE=0.234 88、MAPE=0.127 1、MAXE=0.467 5和Time= 199.57。同时对比KPCA-IHS-RVM和IHS-RVM发现,KPCA不仅能够降低预测计算时间,还能够很好地提升预测精度。因此,本文所构造算法的优越性得到验证,能够满足小时间尺度网络流量预测中的实时性和精度高的要求。这主要是由于SVM从样本出发,通过最大化类间距离求解分类面,解决了利用神经网络存在的过学习与欠学习问题、局部极小点问题等,大幅度减少了SVM的计算开销[18-19],但SVM的计算开销受限于其稀疏性弱的缺点,容易样本的增大造成计算开销增大;RVM是基于SVM改进的一种更稀疏的机械学习方法,其利用一系列超参数对模型权值或基函数进行独立支配,使得RVM具备更小的计算开销和更好的实时性能[20],本文采用IHS进一步解决限制其性能的超参数。因此,改进后的RVM 非常适合对于小时间尺度网络流量这样分类速度有较高要求的快速在线分类处理。关于在线快速性能也在能源[21]、机械工程[22]等领域中得到验证,更加说明了RVM模型的优异性。

4 结 语

小时间尺度网络流量预测数据具备小样本、高维度等复杂特性,针对传统模型难以获得优异的预测精度的问题,本文提出了KPCA-IHS-RVM网络流量预测模型。该模型充分发挥KPCA处理高维度数据的能力,实现了嵌入维数的降低,同时发挥了RVM在处理小样本数据计算速度快,非线性处理能力强的特点,并嵌入到改进和声算法中优化了其核参数。实例分析表明,该模型优于KPCA-IHS-ESN、KPCA-IHS-SVM、IHS-RVM等模型,预测性能评价指标十分优异:RMSE为0.234 88、MAPE为0.127 1、MAXE为0.467 5和Time为199.57。同时,通过交叉对比分析发现,KPCA不仅能够降低计算时间,还能够很好地提升预测精度,有效地提升了本模型的综合性能。本模型较好地提升了小时间尺度网络流量预测的精度和计算速度,能够为优化网络流量服务和优化管理提供新的思路和方法。

[1] 姜明,吴春明,张旻,等.网络流量预测中的时间序列模型比较研究[J].电子学报,2009,37(11):2353-2358.

[2] 温祥西,孟相如,马志强,等.小时间尺度网络流量混沌性分析及趋势预测[J].电子学报,2012,40(8):1609-1616.

[3] 田中大,李树江,王艳红,等.基于KPCA优化ESN的网络流量预测方法[J].电机与控制学报,2015,19(12):114-120.

[4] 田中大,李树江,王艳红,等.基于混沌理论与改进回声状态网络的网络流量多步预测[J].通信学报,2016,37(3):55-70.

[5] 田中大,高宪文,李树江,等.遗传算法优化回声状态网络的网络流量预测[J].计算机研究与发展,2015,52(5):1137-1145.

[6] 顾成杰,张顺颐.基于改进SVM的网络流量分类方法研究[J].仪器仪表学报,2011,32(7):1507-1513.

[7] 肖汉杰,桑秀丽.相关向量机超参数优化的小时间尺度网络流量非线性预测方法[J].计算机应用研究,2016,33(6):1882-1885.

[8] Zhang J,Xiang Y,Wang Y,et al.Network traffic classification using correlation information[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(1):104-117.

[9] Hao S,Hu J,Liu S,et al.Improved SVM method for internet traffic classification based on feature weight learning[C] //Control,Automation and Information Sciences (ICCAIS),2015 International Conference on.IEEE,2015:102-106.

[10] Geem Z W,Kim J H.A New Heuristic Optimization Algorithm:Harmony Search[J].Simulation,2001,76(2):60-68.

[11] Mahdavi M,Fesanghary M,Damangir E.An improved harmony search algorithm for solving optimization problems[J].Applied Mathematics & Computation,2007,188(2):1567-1579.

[12] 韩红燕,潘全科,梁静,等.改进的和声搜索算法在函数优化中的应用[J].计算机工程,2010,36(13):245-247.

[13] 王英博,王琳,李扬,等.基于BtW的和声搜索算法在BP网络优化中的应用[J].计算机工程与应用,2012,48(28):52-56,76.

[14] 周鹏,陈宇峰.基于多尺度熵方法的网络流量复杂度分析[J].计算机应用研究,2015,32(12):3782-3785.

[15] 柏骏,夏靖波,赵小欢,等.一种基于EMD和RVM的自相似网络流量预测模型[J].计算机科学,2015,42(1):122-125.

[16] 王秋平,赵木来.基于改进和声搜索算法的支持向量机参数优化[J].化工自动化及仪表,2015(11):1237-1241,1249.

[17] 李洁,张兆薇.基于和声搜索算法和相关向量机的网络安全态势预测方法[J].计算机应用,2016,6(1):199-202,232.

[18] 刘学军,陈松灿,彭宏京,等.基于支持向量机的计算机键盘用户身份验真[J].计算机研究与发展,2002,39(9):1082-1086.

[19] 田盛丰,黄厚宽.基于支持向量机的数据库学习算法[J].计算机研究与发展,2000,37(1):17-22.

[20] 柏骏,夏靖波,鹿传国,等.基于RVM的网络流量分类研究[J].电子科技大学学报,2014(2):241-246.

[21] Yan J,Liu Y,Han S,et al.Wind power grouping forecasts and its uncertainty analysis using optimized relevance vector machine[J].Renewable and sustainable energy reviews,2013,27:613-621.

[22] Yang B S,Gu F,Ball A.Thermal image enhancement using bi-dimensional empirical mode decomposition in combination with relevance vector machine for rotating machinery fault diagnosis[J].Mechanical Systems and Signal Processing,2013,38(2):601-614.

SMALLTIMESCALENETWORKTRAFFICPREDICTIONMODELBASEDONKPCAANDOPTIMIZEDIHS-RVM

Yang Bo

(QualityDevelopmentInstitute,KunmingUniversityofScienceandTechnology,Kunming650093,Yunnan,China)(YunnanInstituteofMetrologyandTestingTechnology,Kunming650228,Yunnan,China)

Network traffic time series is high-dimensional, non-linear and time-varying. To deal with low prediction accuracy of traditional time series models, we propose a small time scale network traffic prediction model based on KPCA and optimized IHS-RVM. Firstly, phase space reconstruction of network traffic time series was carried out to explore the relation between input variants and output variants. Then, KPCA was adopted to make a feature extraction of nuclear components of network traffic samples and obtained the valid key information. On that basis, Improved HS (IHS) algorithm was used to determine the embedding dimension and nuclear parameters. Finally, RVM model with hyper parameter optimization was adopted to make the prediction of network traffic. To verify the performance of the model, actual data were collected to make a comparative analysis of performance. Results have shown that, it enjoys better performance than KPCA-IHS-ESN model, KPCA-IHS-SVM model and IHS-RVM model.

Small time scale Network traffic Improved harmony search KPCA RVM

TP274

A

10.3969/j.issn.1000-386x.2017.10.032

2016-10-14。云南省科技支撑项目(KKSTJ201358015)。杨波,高工,主研领域:数据挖掘与质量管理。

猜你喜欢
网络流量时间尺度维数
基于多元高斯分布的网络流量异常识别方法
β-变换中一致丢番图逼近问题的维数理论
大数据驱动和分析的舰船通信网络流量智能估计
时间尺度上带超线性中立项的二阶时滞动力方程的振动性
CaputoΔ型分数阶时间尺度Noether 定理1)
交直流混合微电网多时间尺度协同控制
时间尺度上完整非保守力学系统的Noether定理
实值多变量维数约简:综述
AVB网络流量整形帧模型端到端延迟计算
3月CERNET网络流量同比略高