自相似流量的时间序列模型研究

2021-08-09 02:06鄂晓晨刘立士
科技资讯 2021年12期

鄂晓晨 刘立士

摘  要:网络流量预测对于设计新一代网络协议、实现网络规划和流量管理以及提升网络的高质量服务具有重大意义。该文研究了网络流量的自相似特性,并在此基础上采用FARIMA时间序列模型进行流量预测。首先对网络流量进行平稳化预处理,其次估算Hurst系数来确定差分次数,最后通过AIC准则确定该型阶数并进行预测。比较结果表明,虽然FARIMA模型相对于传统的ARMA模型建模和计算复杂度较高,但是可以对非平稳数据预测且受流量突发性影响较小,预测精准度较高。

关键词:自相似性  流量预测  ARMA模型  FARIMA模型

中图分类号:TP393                         文献标识码:A文章编号:1672-3791(2021)04(c)-0062-04

Research on Time Series Model of Self Similar Traffic

E Xiaochen   LIU Lishi*

(Shenyang Ligong University, Shenyang, Liaoning Province, 110159  China)

Abstract: Network traffic prediction is of great significance for the design of new generation network protocol, the realization of network planning and traffic management,and the improvement of network quality service. In this paper, the self similarity of network traffic is studied, and on this basis, FARIMA time series model is used for traffic prediction. Firstly, the network traffic is smoothed. Secondly, the Hurst coefficient is estimated to determine the difference times. Finally, the AIC criterion is used to determine the order of this type and predict it. The comparison results show that although FARIMA model has higher modeling and computational complexity than traditional ARMA model, it can predict non-stationary data with less impact of traffic burst and higher prediction accuracy.

Key Words: Self-similarity; Traffic prediction; ARMA model; FARIMA model

隨着网络业务量的增长和互联网环境的日益复杂,网络拥塞现象也在不断发生。网络拥塞可能会导致网络的性能降低、网络中间节点丢弃大量的数据包等问题。网络流量是网络规划的重要指标,反映了网络的运行状态,为了保证信息传输的有效性和精准性,必须采用适宜的手段对网络流量进行监控。通过研究发现,网络流量也呈现出自相似性[1]以及可预测性,因此可以通过选择合适的预测模型实现对自相似网络流量的预测,并根据预测得到的数据流量提前进行网络规划和流量管理,如果将预测结果引入到其他网络管理机制,将会极大地提高网络性能和服务质量。

1  自相似流量特性与预测模型

在实际测量研究中发现,现实中的网络流量普遍具有自相似性(或长相关性)。网络流量的自相似性实际上就是局部特征和整体相似。长相关特性的问题可以同时存在于多个网络时间点的范围内,并且对于整个网络的时延、丢包率以及网络吞吐量都有很大程度的影响。为了更好地满足网络流量的长相关特征(Long range dependence,LRD),于是通过增加计算Hurst系数和差分过程,得到基于分形自回归差分滑动平均模型(Fractional Auto-regressive Integrated Moving Average,FARIMA)[2]。虽然提高了复杂度和运算量,但也极大地提高了精准度。该文采用基于FARIMA时序模型的自相似流量预测方法,通过改进使其能够准确预测网络流量趋势。

2  FARIMA时序模型原理和预测

2.1 原理

FARIMA(p,d,q)即分形自回归差分滑动平均过程,该模型可以能够同时描述自相似网络流量的短相关结构和长相关特性,但在实际应用过程中会受到一定的限制。FARIMA可以用式(1)来表示,其中d是分数差分阶数,p是自回归项数,且是p阶自回归(AR)多项式,q是滑动平均项数,且是q阶滑动平均(MA)多项式。其中d,。

(1)

设定为差分算子,分数差分算子为?d,可用式(2)表示。

(2)

FARIMA模型是基于ARMA预测,并进行相关参数的判定,唯一的区别就是FARIMA模型存在分数差分过程。因此,分形自回归差分滑动平均过程在满足p,q不同时为零的前提下,可以看作是一个基于ARMA(p,q)预测上增加了d阶分数差分FARIMA(0,d,0)的过程。

2.2 预测过程

(1)对原始数据进行预处理,因为实际情况下的时间序列不一定完全是平稳的,如果序列非平稳,则需要进行相应的平稳化处理,并通过ADF和KPSS单位根检验[3]来判断平稳性。该文采用ON/OFF源模型模拟产生自相似流量,数据具有随机性,因此选择添加一个周期性函数来平滑其随机性。

(2)计算Hurst系数,并进行d阶分数差分。通过R/S分析法求得Hurst系数[4],即计算不同时刻的极差R(n)和标准差S(n),并求出R(n)和S(n)的比值。R/S与Hurst的关系如式(3)所示。

loglog(3)

在对数坐标下进行拟合并用最小二乘法来近似估算曲线斜率,即为近似估算的Hurst系数值,且d=h-0.5,即可求出FARIMA模型分数差分系数。

(3)基于ARMA模型的项数定阶,可通过ACF和PACF来确定p,q项数,但会存在系数过大计算复杂的问题,所以该文采用AIC(赤池信息准则)和BIC(贝叶斯信息准则)自动惩罚判决获得p、q项数。其中参数k为模型设定参量的数量,参数n为样本总体数量,参数L为极大似然函数。

AIC(4)

BIC(5)

在测试模型过程中,针对可能出现的过拟合问题,两种信息准则都增加与参量相关的惩罚判决项,并有效防止因样本总体数量过大和模型高精度判决而导致的模型过于复杂的问题。

(4)判断残差检验是否为一段白噪声信号,确保有用的信号都已经提取到ARMA模型中,也可以通过Durbin-Watson针对时间序列数据检验回归分析中统计量残差的一阶自相关性,该统计量值越接近2越好,一般在(1,3)之间说明没问题。

(5)通过ARMA模型对差分滤波后的数据进行预测,并对预测结果进行差分还原处理得到预处理后的流量序列,并去掉预处理时添加的周期函数来获得通过基于FARIMA模型实际预测流量。通过和原始流量对比分析,对FARIMA模型预测效果进行评估[5-7]。

3  仿真结果与分析

该文基于ON/OFF源模型模拟产生自相似流量,并使用Matlab软件进行仿真,参数设置如下:信源到达过程服从泊松分布(λ=0.5),信源时间间隔服从指数分布(μ=2),持续时间服从帕累托分布gprnd(0.01,1.5,1),传输速率R=30(packet/s)。仿真结果:图2、图3为传统ARMA模型预测效果对比图,图4、图5为FARIMA模型预测效果对比图。

图2、图3中随机抽取了6个点作为数据对比依据,在时间轴坐标为10 s、46 s、87 s、92 s、142 s、152 s时,产生的自相似流量数据包个数为240、180、240、180、180、270,经过ARMA预测过得数据包个数约为246、185、246、185、185、275,相对误差百分比为2.5%、3.3%、2.5%、3.3%、3.3%、2.5%。

图4、图5中随机抽取了6个点作为数据对比依据,在时间轴坐标为128 s、410 s、722 s、1 091 s、1 174 s、1 608 s时,产生的自相似流量数据包个数为600、240、300、420、300、450,而经过FARIMA预测过得数据包个数约为603、243、303、423、303、453,其相对误差百分比为0.5%、1.25%、1%、0.71%、1%、0.67%。

选择使用MAE、MAPE、RMSE、NMSE這4种误差指标对预测效果评估。传统ARMA模型和FARIMA模型预测结果误差率见表1。

通过上述指标来量化误差,ARMA模型和FARIMA模型的MAE分别为3.275和1.417,均小于预设值4,且MAPE和NMSE都远小于1,接近于0,误差较小,因此ARMA和FARIMA均可以实现对网络流量的预测,并通过误差分析FARIMA预测模型各项数据均优于传统的ARMA模型,因此有相对更高的精确度。

4  结语

该文基于ON/OFF模型产生自相似网络流量,并选择FARIMA时序模型对网络流量进行预测,通过多次改进验证以及多项量化指标论证,虽然FARIMA模型建模以及分数差分计算过程较为复杂,但能反映流量的长相关特性,并相对于传统的ARMA模型预测具有相对更高的精准度。下一步的研究重点是针对FARIMA模型更准确计算Hurst系数值,以及优化分数差分过程来消除流量的长相关性,更为准确地预测网络流量趋势。

参考文献

[1] 王晓婷,王忆文,李平.一种自相似网络流量生成器的设计与实现[J].微电子学与计算机,2016,33(8):54-58.

[2] 史明虎.基于FARIMA模型的自相似业务流量预测[D].西安电子科技大学,2013.

[3] 翟静,曹俊.基于时间序列ARIMA与BP神经网络的组合预测模型[J].统计与决策,2016(4):29-32.

[4] 付钰,刘立士,胡俊超,等.一种基于Matlab仿真模拟估计Hurst参数的方法[J].科技资讯,2017,15(23):241-242.

[5] 邱艳,张洪.一种有效的网络流量预测算法[j].成都大学学报:自然科学版,2016,35(2):150-152.

[6] 孙强,周洋,张治鹏.基于FARIMA的铁路数据网流量趋势预测[J].铁道学报,2019,41(2):84-88.

[7] 耿传鑫.基于自相似流量预测的AOS拥塞控制技术研究[D].沈阳理工大学,2019.

①作者简介:鄂晓晨(1997—),男,硕士,研究方向为现代通信技术与系统。

通信作者:刘立士(1973—),男,硕士,副教授,研究方向为无线通信,E-mail:liulishi2005@sina.com。