钱 渊,宋 军,傅 珂
(1.空军工程大学电讯工程学院,陕西 西安 710077;2.机电动态控制重点实验室,陕西 西安 710065)
随着网络技术的发展,互联网业务量急剧增长,用户对网络服务质量提出了更高的要求。网络流量是影响网络运行质量变化的内在动因,在网络资源有限的条件下,网络流量的测量、分析和预测等方法对于减少网络拥塞、合理分配资源、提高服务质量、发现网络异常等行为具有十分重要的作用。
互联网中网络流量数据呈现出非平稳动态随机变化,具有非线性、分形、长相关、自相似性、突发性等特征,研究人员利用网络流量的不同特征进行预测,但是单一模型很难实现更准确的要求,预测的误差比较大。组合预测模型预测网络流量可以结合单项预测模型的优点,能够更准确地刻画流量特性[1-4]。本文采用组合预测模型,综合灰色模型和支持向量机(Support Vector Machines,SVM)预测的优点,提出基于支持向量机残差补偿的灰色模型网络流量预测模型,取得较为精确的预测效果。
灰色系统理论[5]是一种研究“小样本、贫信息”不确定性问题的方法,通过对杂乱无章的、有限的、离散数据的研究,找出潜在规律,建立相应的灰色预测模型,其短期预测比较准确[6]。
1.1.1 GM(1,1)模型预测
常用灰色模型的是单变量一阶灰色模型GM(1,1),该模型通过对原始数据作一次累加生成,使生成的数列呈一定规律,建立微分方程模型,求得拟合曲线,实现预测。
原始序列 {x(1)(i)}进行 GM(1,1)预测的过程如下:
1)通 过 一 次 累 加 生 成 (1-AGO)获 得 序 列{X1(i)}。
2)对累加后的序列{X1(i)}用线性动态模型来模拟和逼近,建立一阶常微分方程。
3)通过最小二乘法计算式(1)中参数a、u,其中a为发展系数;u为灰色作用变量。
式中,B为累加矩阵,Yn为向量。它们的构造形式分别为:
4)通过式(2)获得a和u值后,式(1)的离散解为:
5)预测值
1.1.2 新陈代谢灰色模型
使用GM(1,1)进行预测时,在保持建模数据长度不变的条件下,增加一个新信息x(1)(n+1)的同时,丢弃最老信息x(1)(1),这种方法称为新陈代谢灰色模型,对于预测的精度有明显的提高。
1.1.3 残差补偿
GM(1,1)只有原始数列本身存在指数变化规律时其预测才比较准确,对于网络流量这样随机性较大的数据预测容易产生较大的误差。在灰色预测中将预测误差序列称为残差序列,残差补偿是提高预测精度的有效手段。
支持向量机是基于统计学习理论的新一代机器学习技术,使用结构风险最小化原则替代经验风险最小化原则,具有小样本、推广能力强、强大的非线性处理能力和高维处理能力等特点[7]。
1.2.1 支持向量机回归原理
支持向量机应用到非线性回归估计和曲线拟合中,称为SVM回归机。假设训练样本为 {xk,yk}l,其中xk∈Rn为n维样本输入,yk∈R为样本输出,回归预测就是通过样本训练找到合适的函数f(x),对于样本外的x,通过函数f找到对应的y。在线性条件下SVM 回归机使用线性函数f(x)=(w·x)+b进行拟合。非线性条件下利用非线性映射φ(x)将样本映射到一个高维特征空间,建立线性模型f(x)= (w·φ(x))+b,SVM回归机表示为:
其中,‖w‖2代表与模型复杂度相关的因素,模型采用ε不敏感损失函数,松弛变量表示样本偏离ε不敏感区域的程度,C为惩罚系数。
使用SVM回归机运算时,核函数的选择对于运算结果有重要的影响,径向基核函数与其他核函数相比,不仅具有较少的参数还具有良好的性能[8],因此本文采用径向基函数(RBF)核函数构造SVM回归机。
RBF核参数g和惩罚参数C是SVM回归机需要确定的两个参数,粒子群优化算法[9]计算径向基函数参数最优解,具有不容易陷入局部最小、算法简单、计算量小、寻优时间短等优点。
1.2.2 混沌与相空间重构
混沌模型中相空间重构方法将非线性序列映射到高维空间,把非线性序列中的动力学特性信息显示出来,该方法与SVM回归机组合可以有效提高预测精度[10]。
相空间重构的关键是时延τ和嵌入维数m的确定。在得到时延和嵌入维数以后计算Lyapunov指数,正的Lyapunov指数表明系统具有混沌性,可以进行预测。
本文将灰色预测和支持向量机有机融合,提出基于支持向量机残差补偿的灰色模型网络流量预测模型。根据实时数据建立灰色模型预测,预测结果反映了网络流量序列的总体变化趋势,但由于网络流量序列的波动性较大,仅采用灰色模型预测对于数据拟合较差。针对预测的残差补偿是提高灰色模型预测精度的有效手段,本文证明残差序列具有混沌特性,提出采用支持向量机进行残差序列预测,有效提高预测精度。
基于支持向量机补偿的灰色模型网络流量预测模型如图1所示。
图1 基于SVM补偿的灰色模型网络流量预测模型Fig.1 The model of Network Traffic prediction Based on GM and SVM compensation
预测步骤为:
1)使用GM(1,1)模型构建网络流量灰色预测模型,实现对网络流量基本规律的预测,并得到预测的残差序列;
2)利用SVM模型建立残差序列预测模型,实现对于残差序列的预测;
3)将基于GM(1,1)的预测结果与基于SVM的残差序列预测结果相加,实现对于GM(1,1)预测结果的修正,完成网络流量预测。
本文使用Abilene网络的实际流量数据验证模型的预测精度,所用数据采样间隔为5min,一共600个采样值(流量曲线如图2所示,数据单位为100B)。
图2 原始流量数据曲线Fig.2 Original traffic flow curve
采用新陈代谢灰色预测模型,建模数据长度为5,预测步长为1。预测结果如图3所示。预测性能如表1所示,灰色模型较好地实现对网络流量基本规律的预测。
对残差序列数据(如图4所示)进行相空间重构,选择重构参数时,采用互信息法得到的流量序列时延为τ=2;采用假近邻法得到的嵌入维数为m=4;采用小数据量法得到的最大Lyapunov指数λ=0.096 5,该值为正值,证明了残差序列具有混沌特性,可以进行短期预测。
图3 GM(1,1)模型预测数据曲线Fig.3 The traffic flow curve predicted by GM(1,1)
图4 GM(1,1)预测后的残差序列曲线Fig.4 Residual sequence curve after GM(1,1)prediction
采用Libsvm工具箱实现残差序列SVM回归模型,使用前400个数据作为已知数据训练模型,后200个数据作为预测数据用以校验模型的预测效果。SVM回归模型采用径向基核函数,通过粒子群优化算法确定C=0.1,g=12.082 6作为模型参数值,利用训练好的模型对残差数据进行预测。最后将基于GM(1,1)的预测结果与基于SVM的残差序列预测结果的相加,预测效果如图5所示。
图5 SVM补偿灰色预测模型预测结果Fig.5 The traffic flow curve predicted by GM and SVM compensation
为了验证本文提出模型的预测效果,将对比四种预测模型,分别是灰色系统预测模型,支持向量机预测模型、采用灰色预测残差补偿的预测模型和本文提出的预测模型。采用平均相对误差MAPE和相关系数rXY两个值来评价模型的预测功能。
式中,xi为原始数据为预测数据。
式中,xi为原始数据为原始数据序列均值,yi为预测数据为预测数据序列均值。
四种预测模型预测的指标结果如表1所列。
表1 四种预测方法性能比较Tab.1 The performance comparison of four kinds of prediction
由表1可知,本文提出的基于支持向量机的残差补偿灰色预测模型的平均相对误差最小,说明预测准确,相关系数最大,说明与原数据更加相似,因此与其他三个模型相比预测效果最好,更适合网络流量预测。
本文提出了基于支持向量机残差补偿的灰色模型网络流量预测模型。使用灰色预测GM(1,1)进行流量趋势的预测,根据混沌理论证明残差序列具有混沌特性,采用支持向量机进行残差序列预测,实现残差补偿,完成对网络流量较为精确地预测。实验结果表明:该模型能有效预测网络流量,具有预测模型样本小,预测精度高等优点。下一步工作可将模型应用于网络入侵检测预测,提高入侵监测准确率。
[1]MORATO D,ARACIL J,DIEZ L A,et al.On linear prediction of internet traffic for packet and burst switching networks[C]//Scottsdale,Arizona,USA:ICCCN,2001:138-143.
[2]胡俊,胡玉清,肖中卿.基于小波变换的网络流量预测模型[J].计算机工程,2008,34(19):112-114.HU Jun,HU Yuqing,XIAO Zhongqing.Network traffic prediction models based on wavelet transform[J].Computer Engineering,2008,34(19):112-114.
[3]陈晓天,张顺颐,田婷婷.基于BP神经网络的IP网络流量预测[J].南京邮电大学学报,2010,30(2):16-21 CHEN Xiaotian,ZHANG Shunyi,TIAN Tingting.Internet traffic forecasting based on bp neural network[J].Journal of Nanjing University of Posts and Telecommunications,2010,30(2):16-21
[4]姜明,吴春明,胡大民,等.网络流量预测中的时间序列模型比较研究[J].电子学报,2009,37(11):2 353-2 358.JIANG Ming,WU chunming,ZHANG Min.Research on the comparison of time series models for network traffic prediction[J].Acta Electronica Sinica,2009,37(11):2 353-2 358.
[5]刘思峰,郭天榜,党耀国.灰色系统理论及其应用[M].北京:科学出版社,1999.
[6]王春健,马亮,吴刚,黄海.基于灰色理论的发射筒油雾浓度预测方法[J].探测与控制学报,2011,33(2):15-18 WANG Chunjian,MA Liang,WU Gang,HUANG Hai.Oil mist concentration forecasting of launcher based on grey theory[J].Journal of Detection & Control,2011,33(2):15-18
[7]TAREK HABIB,JORDI INGLADA,GREGOIRE MERCIER,et al.Support vector reduction in svm algorithm for abrupt change detection in remote sensing[J].IEEE Geoscience and Remote Sensing letters,2009,6(3):606-610.
[8]Hsu Wei,Chang Chung,Lin J en.A practical guide to SVM classification[EB/ OL][2008207203].http:∥www.csie.nt u.edu.tw/~cjlin/papers/guide/guide.pdf.
[9]金晶,王行愚,罗先国,等.PSO-ε-SVM 的回归算法[J].华东理工大学学报,2006,32(7):872-875 JIN JING,WANG Xingyv,LUO Xianguo,WANG Bei.Regression algorithm of PSO-ε-SVM[J].Journal of East China University of Science and Technology,2006,32(7):872-875
[10]罗赟骞,夏靖波,王焕彬.混沌-支持向量机回归在流量预测中的应用研究[J].计算机科学,2009,36(7):244-247. LUO Yunqian,XIA Jingbo,WANG Huanbin.Application of chaos-support vector machine regression in traffic prediction[J].Computer Science,2009,36(7):244-247.