姜剑青
摘 要 本文针对电信网络负载均衡指标扩容的问题,在相关数据量有限的情况下,对其进行数据的描述性统计分析,利用传统的ARIMA模型对负载均衡指标HLR和VLR进行了时间序列预测模型的构建,精准预测HLR和VLR指标在天级以及小时级以及节假日上的变化趋势,帮助通信公司提前扩容以应对网络压力,丰富了ARIMA模型在实践应用上的场景。
关键词 ARIMA模型;电信数据;负载均衡;指标预测
1预测指标简介
本次分析数据一共选取了2016年1月至今以及2016年五一前后共10天的两期数据,HLR和VLR两个关键性指标。
1.1 指标概述
HLR(home location register)保存的是用户的基本信息,如你的SIM的卡号、手机号码、签约信息等,和动态信息,如当前的位置、是否已经关机等;
VLR(visiting location register)保存的是用户的动态信息和状态信息,以及从HLR下载的用户的签约信息。
2基于月度与日度的指标时序分析
2.1 基于HLR/VLR日维度数据
(1)基于日维度数据数介绍
Hlr:共429条记录,没有缺失值,3个维度变量,分别是账期,取值范围20160101-20170301,HLR利用率(HLR生成用户数/HLR容量),取值范围0.694-0.335(0-1),HLR生成用户数(HLR生成用户数/HLR容量),取值范围178-368(万户)。
Vlr:共429条记录,少量缺失,3个维度变量,分别是账期,取值范围20160101-20170301,VLR利用率(VLR登记用户数/VLR容量),取值范围0.211-0.928(0-1),VLR登记用户数(VLR登记用户数/VLR容量),取值范围66-291。
(2)异常点检测与分析
通过作箱线图,从箱线图可以看出有不少异常点,其中HLR离群点约73个,对此本文看一下这些点对应的日期:2016年2月18个、3月28个、4月17个、6月1个、7月1个、10月3个、11月1个;2017年1月4个。所以可以得出初步结论是从2月到4月中旬指标连续都处于一个很低的水平,可能跟吉林这段时间的电信政策有关系。
(3)基于月度的时序图分
从HLR看出随着月份的增加,HLR有一个缓慢的增加趋势,但是异常值影响明显(异常值都是下偏数据),可以着重分析一下异常数据的原因,因为量还不少,为73/426(17%)左右。从VLR可以看出随着月份的增加,VLR利用率小幅度稳定增长,可以根据这个趋势来设立阀值,如果是节假日可以关注那些远高于正常值的异常值,并在异常值长做好容灾,设立扩容指标(预警值)。
2.2基于HLR/VLR小时维度数据
(1)基于小时维度数据数介绍
HLR:数据共335条,4个维度变量,其中账期、HLR利用率、hlr生成用户数与前文相同,无缺失值,新增小时变量,取值0-23.
VLR:数据共335条,4个维度变量,其中账期、HLR利用率、HLR生成用户数与前文相同,无缺失值,新增小时变量,取值0-23.
(2)异常点检测与分析
通过分别绘制HLR\VLR的箱线图可以得出HLR利用率上有2个异常点,VLR利用率上有1个异常点,可以查看一下异常点的原因,因为是下偏所以对于扩容来说意义不大。
(3)基于日度的时序图分析
从上图可以看出HLR整体稳定,有异常值,而且异常值呈现某种规律,可以留意,下偏,对扩容没意义。VLR周期性波动趋势明显,4点到10点呈现稳步上涨趋势,10点到7点稳定,7点以后急剧下跌,且五一前后呈现出一种节前节后的利用率高于节日期间的现象[1-5]。
3基于节假日的指标时序分析
3.1 基于2015年“五一”数据的时序图分析
(1)异常值检验与分析
通过绘制箱线图可以得出从年份来说,HLR和VLR的利用率整体都在稳健上涨,VLR涨幅远大于HLR,但是2016年较2015年异常数据过于异常,没有15年稳定。
(2)基于五一节假日的时序图分析
通过绘制时序折线图,可以看出规律相同,HLR每天的利用规律都是0点到1间有个稳定的增长,达到峰值后开始保持平稳,直到第二天0点断崖式下降,再重新在第二天的0点到1点间稳增长。节假日期间HLR呈现稳定增加,或者先增加再减少的趋势。而VLR则每天都是在凌晨的3点多达到最低值,在5点以后稳定增长,在10点以后达到峰值,并保持稳定到6点多下班时间,之后稳定下降,呈现一种稳定周期的特性,而在节假日期间呈现节假日前中期波动,甚至节假期期间下降,节后上升的情况,这有点符合人们节假日后进入工作,交流变多的一种生活常态。
3.2 基于2015-2017“春节”数据的时序图分析
(1)异常点检测与分析
通过分别绘制2015、2016、2017指标箱线图可以看出:
1)2015年至2016年HLR利用率上涨很多,但是从2016年到2017年,其实HLR利用率并沒有沿着之前的趋势上涨,反而下降了。
2)不同于HLR,VLR指标从2015年到现在呈现出了一个稳定增长的情况,且区间稳定,没有过于异常的异常值。
(2)基于春节假日的时序图分析
通过分别绘制HLR2015、2016、2017的时序图可以看出2015年春节期间,HLR呈现节前节后稳定增长的态势,2015到2016年HLR稳定增长,2016年春节期间节前稳定,节后下降的趋势,且2016年到2017年,HLR利用率不增反而小幅度减少。
通过分别绘制VLR2015、2016、2017的时序图可以看出相对于HLR指标,VLR指标呈现,节假日前高,节假日期间下降,节假日后波动,或者小幅度回升的趋势,从2015年到2017年,整体的VLR指标利用率稳增长,并且已将近6个点的速度增长,且波动区间也在6个点左右。
3.3 探索性分析结论
通过选取了2016年到2017年16个月每天上午10点的数据,以及2015、2016年五一节假日期间,以及2015年到2017年节假日期间的数据,通过一些描述性分析,我们可以得出一些整体的情况:HLR指标在2015年到2016年是稳定增长的,但在2017年则小幅度下降,并且,2016、2017年的异常数据过于异常(可能数据质量差,或者业务出现了问题造成了波动),尤其是2016年的2月到5月期间,对于每天的HLR指标进行分析,发现除了从凌晨0点到1点期间有个断崖式的增长,其他时间整体稳定,而在节假日期间也无明显稳定规律,整体是波动的态势,这应该跟节假日期间的政策有关,因此HLR指标对扩容的相和性不是很好,可以不做考虑。
VLR指标随着月份年份的增加,是稳定的一個增长趋势,且节假日期间呈现,节前节后高,节假日期间反而低的常态,但是基于其稳定的增长率,以及稳定的日规律性,可以用来作为扩容的一个指标预测,预警。
4基于AIRIMA模型的时间序列预测模型研究
基于以往的VLR数据,商榷一个VLR预测值为(月,日,小时)(根据业务需求),然后依据影响的因素(时序等),以及影响的系数(年,月,日),其中时间精度越大,准确率越大。以此构建一个预测模型,并设立一个阈值,来鉴别是否扩容[6-10]。
4.1 预测指标数据来源介绍
HLR:2016.01.01-2017.03.06每天10点数据和2016.04.25-2016.05.08每天24小时数据。
VLR:2016.01.01-2017.03.06每天10点数据和2016.04.25-2016.05.08每天24小时数据。
ARIMA模型的构建顺序通常是:①先划出时序图;②做自相关和偏自相关分析以确定是否需要做差分和阶数;③最后做白噪声检验。
(1)基于ARIMA的HLR日维度时间序列模型
5总结与展望
基于节假日的指标预测,维度单一,简单但却复杂,本文主要采用的是ARIMA模型进行的拟合预测,在没有明确精度要求的情况或者对比下,结果良好,后续可以考虑加法组合模型来对ARIMA进行残差优化,提高精确度,由于数据的局限性,本案例并不继续深入研究探讨,文章按照了数据分析的一般流程进行的分析,后续一些描述性分析的代码会放入附录里面,希望本案例对其他学者以后的分析有参考和借鉴意义。
参考文献
[1] 刘芹,邹波,朱平华,等.基于时间序列自回归移动平均模型的湖北省卫生技术人员需求预测[J].医学与社会,2020,(2):266-269.
[2] 周亮.机器学习融合ARIMA模型的离岸人民币汇率预测[J].统计学报,2020,(2):48-56.
[3] 杨雨芳,赵慧峰.基于ARIMA模型的河北省肉牛生产波动分析与预测[J].黑龙江畜牧兽医,2020,(6):16-19.
[4] 刘忠广,刘德欣.河南省城镇居民人均消费支出预测[J].北方经贸,2020,(3):31-33.
[5] 耿献辉,安宁.基于ARIMA模型的梨果价格波动及市场行情预测[J].北方果树,2020,(2):1-4.
[6] 陶艳丽.基于ARIMA模型的河北省居民消费价格指数实证分析[J].河北企业,2020,(3):66-67.
[7] 吴荣火,欧诗德,农品玉.基于乘积季节模型的我国流通中现金预测[J].中国市场,2020,(7):43-46.
[8] 高岚岚,张雪莉,段占祺,等.基于ARIMA模型对四川省医疗机构卫生资源需求预测分析[J].预防医学情报杂志,2020,(2):197-202.
[9] 李媛,郑安刚,谭煌,等.基于时间序列的电能表月故障数预测方法[J].中国电力,2020,(2):51.
[10] 周友维,姚建刚,王欣,等.基于时间序列模型的劣化绝缘子红外热像检测方法[J].电瓷避雷器,2020,(1):149-155.