李慧敏
(福建交通职业技术学院信息技术与工程系,福建 福州 350007)
随着计算机网络的迅速发展,网络规模日益庞大和复杂,发生各种故障的可能性也越大,为了给用户提供优质的服务,网络的维护与管理显得尤为重要.传统的响应式网络管理方法是在告警之后,解决潜在的问题,这时候网络服务很可能已经受到影响.这就使得网络流量预测技术备受关注,因为它使得提前发出预警成为可能.人们最初主要借鉴PSTN的流量模型,用Poisson模型来描述数据网络的流量模型.随着网络的发展,Paxson V与Floyd S指出这种传统的Poisson模型已经不适于Internet的流量描述与预测[1].大量研究表明,实际的网络流量具有自相似性,是指统计意义下的自相似性,即它的统计特性独立于时间范围.在这方面国内很多学者进行了大量的研究工作.例如,丛锁等给出了基于小波技术的网络流量特性刻画[2],并提出一种基于小波变换的网络流量多重分形模型[3],用于分析网络流量的自相似特征;很多学者也把人工神经网络应用到流量预测中[4-5]并取得了一定预测效果.
如何提高预测的准确度一直是网络流量预测的主要难题.本文就此问题展开研究.在本文的研究中,采用了从实际网络上收集的实时网络业务数据,实验结果表明该模型与比传统单一的预测模型相比有较高的预测精度.
小波变换理论[6]是上世纪80年代后期发展起来的应用数学分支,近年来被广泛地应用于信号处理、图像处理、模式识别等科学领域.它具有多分辨率(Multi-Resolution)即多尺度的特点,可以由粗及精地逐步观察信号.小波变换能有效处理非平稳时间序列,通过小波分解将时间序列一层一层分解到不同的频率通道上,得到的结果在频率成分上比原始信号单一,并且对时间序列做了平滑.小波包(waveletpacket)的概念是由M.V.Wiekerhauser,R.R.Coifman 等人在小波变换的基础上进一步提出来的,小波包借助于小波分解滤波器在各个尺度上对每个子带均进行再次降半划分,从而得到比二进离散小波变换更精细的信号分解.
小波包的基本思想是对多分辨分析中的小波子空间也进行分解.令
式中g(k)=(-1)kh(1-k),即两系数也具有正交关系,其等价表示为
对离散信号S,采用(2)式和(3)式构造的小波包序列进行3层分解,分解结构如图1所示.
图1 小波包的三层分解结构树
信号f(t)的正交小波分解可以表示为
式中
正交小波的重建公式为
设
小波包系数的重构可表示为
式中g0(l-2k),g1(l-2k)分别为小波包重构的低通和高通滤波器组.
根据(10)式,信号可以通过小波包分解系数重构出各个子频带内的时域信号.重构后的时域信号可以表示为
其中 x(t)表示原始信号;x0(t),x1(t),…,x2j-1(t)表示经过小波包分解系数重构后在各个子频带内的时域信号.可见,小波包分解系数重构后的各个子频带时域信号的叠加和就是原始信号,分解的频带个数由分解尺度决定.
网络流量[7]具有较高的复杂性、非线性、不平稳性,可以通过小波包变换对其进行多尺度分解和单支重构获得多个近似信号和细节信号.通过分解和重构可以使信号的平稳性得到改善.近似信号和细节信号变换特点各不相同:近似信号保持了与原始流量完全相同的变化趋势而且数值很接近,体现了它对原始序列长期的、根本性影响,较好地体现了流量的周期性,可以采用LMMSE估计方法来预测下一时刻网络流量的近似信号;细节信号比较平稳,由于小波可以近似地去除流量过程的长相关,所以细节信号体现了短时间依赖关系,可以通过对细节信号先建立AR模型,然后再通过AR模型实现对下一时刻的细节信号的预测.最后,把各个预测的信号通过组合就可以生成流量的预测结果.
2.1.1 LMMSE 估计
文献[8]中给出了一种基于线性最小平均平方误差估计(LMMSE)的网络流量预测方法.令预测值^f(n+1)为已测量的前n个流量值的加权和:
式中,R(n)是时间序列的协方差函数,一般可以通过经验公式获得,n是一个可变的参数,表示序列采样数.
2.1.2 对近似信号的预测
由于近似信号有较强的周期性,属于非平稳信号,对逼近信号进行LMMSE估计必须满足是零均值平稳随机过程的假设,可将待预测的原始信号序列进行零均值化处理.设x(t)表示原始序列,λ表示序列x(t)的均值,y(t)表示零均值化后的序列,则
通过上式处理后,y(t)可以看作近似平稳序列,用LMMSE对序列y(t)进行预测的结果加上λ就可以得到原始序列的预测结果.
通过对原始序列进行小波包多尺度分解和重构可以得到一系列细节信号,这些信号比较平稳,而且表现为短时间依赖关系,可以采用经典的自回归(AR)模型进行预测.
对模型参数的估计通常有矩估计、最小二乘估计、极大似然估计等.本文采用矩估计方法.
用AR模型进行预测分析时,通常要经过模型定阶、参数估计、适应性检验、利用模型递推法预测等几个主要步骤.
对各序列分别进行分析和预测后,通过(11)式组合预测的各个近似信号和细节信号就可以生成原始流量的预测值.
基于小波包分析的网络流量组合预测模型的实现过程描述如图2所示.其中,LMMSE估计需要先采用AIC准则来确定模型的阶数,再利用(12)~(14)式计算就可得到预测值.而使用AR模型对一个单独序列进行预测的实现过程主要包括模型定阶、参数估计、适应性检验、利用模型递推法预测这4个阶段.
图2 基于小波包分析的网络流量组合预测模型的实现过程
本文采用Cricket(基于SNMP协议的监控网络流量和主机资源的开放源代码的管理工具)对中国教育科研网福建主节点上一台高端路由器(Cisco 7609)某端口流出流量进行监测,监测时间为3天,采样时间间隔为5分钟,所得流量数据曲线如图3所示.从图3中可以看出它具有很强的不规则性,而同时又表现出一定的周期性因素.
图3 实际流量曲线图
对实际流量数据序列进行零均值化.采用双正交小波bior6.8,用小波包分解算法对序列Y进行3层分解,并对近似部分和细节部分分别进行重构,得到的结果数据图形如图4所示.
图4 D0~D7
其中,D0~D7分别是第3层各部分分别重构到原级别的序列.比较可以看出,近似部分的重构结果明显比原序列平滑.对于这些分解重构后的各个序列,可以再次用其它的方法进行平稳化,从而能得到更高的预测准确度.但是,为了体现出本文基于小波包变换的预测效果,我们不再对它们做其它平稳化处理,而是直接通过建立组合模型进行预测.
对D0进行LMMSE估计预测,对D1~D7采用AR模型进行预测,所得预测结果如图5所示.由图5可以看出,这种预测方法对急剧变化的点掌握得不好(这些点的误差较大,在定量误差分析时会对误差参数产生较大影响),并且可以看出虽然预测结果的趋势跟实际流量一致,但随着流量值的增大,误差也相应变大.
图5 预测图和预测误差
在分解层数2和3下,使用本文介绍的方法,对原始流量数据进行预测,预测结果的误差数据如表1所示.其中,MAE(Mean Absolute Error)为平均绝对误差,MRE(Mean Relative Error)为平均相对误差.表1中数据表明,随着分解层数的增加,预测误差变小,即预测准确度提高,因为分解层数越多,分解后的各部分在频率成分上越单一.这也在一定程度上反映了小波包变换在本文预测方法中所起的作用.
表1 变换层数为2和3时的预测误差
表2 不同方案的预测误差对比表
为了查看本文方法的预测效果,我们分别使用本文介绍的方法和文献[8]介绍的方法对图3所示原始流量数据进行预测,预测结果的误差数据如表2所示.
由表2中数据可以看出,本文方法的预测误差比另一种方案的预测误差有了大幅减小,这表明小波包分解和重构在预测过程中的作用是非常明显的.这个结果说明了,基于小波包分析的网络流量组合预测模型,对网络流量预测是可行、有效的,并且比常用的预测方法具有更高的预测准确度.
本文提出一种基于小波包分析的网络流量组合预测模型,实验结果表明,该方法比传统的预测方法具有更高的预测精度,这表明小波包变换在网络流量预测中的作用是显著的.在对预测结果的分析中发现,本文的方法对急剧变化的点掌握得不好,并且可以看出虽然预测结果的趋势跟实际流量一致,但随着流量值的增大,误差也相应变大.所以下一步的主要研究工作就是针对这一块做改进.
[1]Paxson V,Floyd S.Wide-area traffic:the failure of poissonmodeling[J].IEEE/ACM Transactions on Networking,1995,3:226 -244.
[2]韩良秀,丛锁.基于小波技术的网络流量特性刻画[J].小型微型计算机系统,2001,2(9):1110 -1113.
[3]丛锁,韩良秀.基于离散小波变换的网络流量多重分形模型[J].通信学报,2003,24(5):3 -8.
[4]程光,龚俭.CERNET流量行为季节预测模型[J].小型微型计算机系统,2002,23(11):1321 -1324.
[5]冯海亮,陈涤,林青家,等.一种基于神经网络的网络流量组合预测模型[J].计算机应用2006,26(9):2206 -2208,2228.
[6]杨建国.小波分析及其工程应用[M].北京:机械工业出版社,2005:17-63.
[7]李小航,刘渊,刘元珍.基于小波多尺度分析的网络流量组合预测方法研究[J].微电子学与计算机,2008,25(1):130 -133.
[8]Gao Yuan,He Guanghui,Hou JC.On exploiting traffic predictability in active queue management[M].In Proc.of the INFOCOM 2002.New York:IEEE Communications Society,2002:1630 -1639.