杜洁
(云南电网公司信息中心,昆明 650217)
基于神经网络的带宽需求分析预测
杜洁
(云南电网公司信息中心,昆明 650217)
提出了一套应用 “十二五”期间应用系统的流量数据预测 “十三五”期间电力数据通信网络带宽需求的方法,该方法基于BP神经网络对管理信息化业务系统建模,在考虑假设与限制条件的前提下,应用建立的模型分析出分析出“十三五”期间通信数据网络的带宽需求,为未来通信网络的建设提供参考。
BP神经网络;带宽需求;业务流量模型
随着电力行业信息化建设的不断深入,IT集约化建设管控的不断加强,云计算、物联网、智能电网、大数据、商业智能等先进技术发展及日趋广泛应用,如何有效预测信息系统的带宽需求,进而开展数据通信网络的建设是当前必须系统安排的问题。
1.1 网络带宽预测模型技术分析
通过Internet传输的信息量正在不断地呈现出以指数速率方式增加[1]。目前,线性预测方法[2-4]是最常用的方法,例如简单的基于业务的平均值、最大值累加,也有基于过去很长一段时间的统计趋势预测。业务流量累加是流量估算中最常想到和使用的方法,就是将每个业务每天的平均值或最大值进行累加,估算某接口上的平均值或最大值,但由于某一业务在一天中的流量分布情况和另一业务在这天中的流量分布情况不一定相同,因此这种方法的准确性不高。泊松模型是根据电话业务的特征提出来的,可以较为准确的描述电话网中业务特性并得到广泛应用,同时该模型也用于研究网络流量,在网络的设计、维护、管理和性能分析等方面发挥了很大作用,但数据通信流量的突发性并不像语音通信那样平滑,因此泊松模型不适合用于数据网络流量分析。业务流量累加的技术采用各业务最大或平均流量估值相加的方式,流量的预测具有很大的不准确性,只能定性的判断链路的带宽需求,无法定量的判断带宽需求,更无法用于指导网络建设和投资。Poisson模型则更多用于传统的电话交换网,不适用于流量评估预测中。ARIMA等自相似模型基于统计规律,采用历史值预估未来值,是网络流量预估分析中最常用的方法,但是其缺点也很明显,即无法反映业务的发展对网络流量造成的影响。
BP神经网络模型首先可以根据业务,建立每个业务的流量模型;其次,只要激活函数选取合理,就能模拟出最优方程;此外,基于样本的自学习与自修正,与实际情况相比误差小。
因此,BP神经网络适用于对数据网络的网络流量预测研究中。
1.2 BP神经网络模型
BP(Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成[5]。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
BP神经网络模型BP网络模型包括其输入输出模型、作用函数模型、误差计算模型和自学习模型。
1.2.1 节点输出模型
f-非线性作用函数;q-神经单元阈值。
1.2.2 作用函数模型
作用函数是反映下层输入对上层节点刺激脉冲强度的函数又称刺激函数,一般取为 (0,1)
1.2.3 误差计算模型
误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数:
tpi-i节点的期望输出值;Opi-i节点计算输出值。
1.2.4 自学习模型
神经网络的学习过程,即连接下层节点和上层节点之间的权重矩阵Wij的设定和误差修正过程。BP网络有师学习方式-需要设定期望值和无师学习方式-只需输入模式之分。自学习模型为
h-学习因子;Фi-输出节点i的计算误差;Oj-输出节点j的计算输出;a-动量因子。
2.1 预测方法
“十三五”期间的通信网络带宽需求将基于“十二五”期间的业务系统建模开展分析,总体方法如图1所示:
图1 网络带宽预测方法
首先,根据业务的特性,对综合数据网所承载的业务进行分类分析,经过对现有综合数据网承载的业务进行分析和梳理。在明确业务类型的基础上,以尽量覆盖重要业务为原则,选取现网中的业务流量采集范围和采集点,利用流量分析工具,采用Netflow方式对综合数据网流量进行采集和分析。基于采集到的流量特征数据,分别针对纳入采集范围的重要业务进行建模分析,重点针对管理信息化业务系统,利用BP神经网络模型对关键业务系统的单用户带宽流量需求进行建模。基于 “十三五”业务流量估算的假设,梳理“十三五”期间业务的范围;根据具体业务在峰值带宽需求等方面的特征,将业务系统与现网业务系统所建立的单用户带宽需求模型相对应,选取相应的模型进行分析;分析业务系统的用户情况,提出某一时刻内的活跃用户比例;在上述几个步骤的基础上,用单用户的流量与活跃用户数相乘,可以得到业务系统在工作时段内的总体流量情况。根据已建立的各业务的模型,分别按业务流经的路径,对综合数据网主干网、省级综合数据网以及地区综合数据网的带宽需求进行估算,同时考虑一定的裕量,提出 “十三五”期间的带宽流量需求。
2.2 假设及限制条件
1)假设业务应用系统的用户访问习惯和业务模式基本是不会变化的,从而可以大致确定活跃用户分布情况以及单用户的流量分布情况;
2)假设新增加的业务系统能给出平均流量值或与现有某系统非常相似,如用户群体相同、架构相近、业务内容基本相同等。
3)在业务量的增长方面, “十三五”期间,原有的企业信息系统将会根据业务的发展需求,提供更丰富的业务应用,例如是营销管理系统,可能将会引入面向终端用户的电动汽车充电、分布式能源管理等业务,预计业务量将大幅增长,假设业务的增长量为30%。此外,随着业务的进一步发展,可能会涌现出新的业务系统,假设在“十三五”期间,公司将新建五个业务系统,用户覆盖网省地市等分子公司。
4)在系统的部署模式方面,假设 “十三五”期间,将实现集团化部署。
5)根据现有数据测算,系统的活跃用户数一般为0.5%~0.6%,按0.6%进行估算,特殊业务 (OA和营销)活跃用户比例达到10%。
6)网络带宽需求分析应考虑企业信息化系统对网络带宽的需求、互联网访问业务、语音视频、FTP等业务。
2.3 业务带宽需求建模
2.3.1 建模方法
本次分析采用BP神经网络来模拟出流量的方程,流量方程的模拟过程是用样本学习、修改的过程。最终,当方程模拟结果和样本值误差小于定义的误差时,就认为得到一个描述业务系统流量的最佳方程。一个完整的流量估算步骤如下:
图2 建模方法
完整的流量估算过程是学习->修改->验证->修改的过程。一个模型的好坏取决于样本的质量和BP网络的设计参数,通过使用新样本来验证之前推导出的模型是否工作良好,如果误差不在可忍受的范围,则需要重新调整BP网络的设计参数。
2.3.2 模型数学推导
流量模型用于将来的流量预测,即要将业务的发展反映到流量模型中,需要推导出流量和用户数、时间的关系。即:
设y为某业务的流量,x为业务的并发用户数,t为一天中的某时刻。
而并发用户数x是一个和总用户数及时间相关的函数:
其中A是业务的总用户数
经验可知,某业务的总用户数A在一定时间内是不会变化的,所以A是一个常数。因此x是一个只和时间t相关的函数。
综上,业务的流量y是一个和时间相关的函数:
所以我们整个运用BP网络解决流量模型的过程就是推导出流量和时间的关系方程。
当我们需要测量某一接口上的流量时,只需要将接口上各种业务的流量累加,即:
2.3.4 单系统模型
用MATLAB的BP神经网络工具集设计一个二层的BP网络,以某系统的流量估算为例,首先将前期采集的数据进行归一化处理。
图3 归一化处理前后数据
经过归一化处理后,流量曲线未发生任何变化,但流量已经收敛到-1到1的范围内,这将大大减少后面计算公式的计算量。
经过3 038次计算后,误差已经收敛到0.01;绘制出的函数曲线如下图所示,这条曲线代表了此业务从早上9点到18点的流量情况,可以用作估算此业务的流量。
图4 流量模型与原流量对比
有了这些权值参数后,就可以根据前面选取的激活函数推出代表此流量的方程:
其中,
选取了8个典型系统进行建模,这些模型为网络带宽需求分析的基础。
2.3.5 模型匹配及网络带宽需求
1)已上线的系统采用现有数据建模。
2)未上线且与现有业务高度匹配的系统,采用现有系统的模型。
3)未上线且与现有业务不匹配的系统,将提取这些系统的覆盖范围以及单用户峰值带宽数据,选取与这些特征相似的现有系统的流量模型。
4)对于预留考虑的新增业务系统,使用现有业务系统中流量较高的模型进行预估。
选取得到的模型是基于业务的单用户流量模型,在此基础上,需要考虑网络所承载的活跃用户数,通过单用户的流量与活跃用户数相乘得到该业务系统的网络带宽需求。根据对现网业务数据的分析发现,一般业务活跃用户的比例基本在0.5%~0.6%,因此按最大0.6%进行预估,特殊业务 (OA和营销)活跃用户比例达到10%。
在获得单用户带宽需求模型以及活跃数量后,可以预测出管理信息化业务在 “十三五”期间对是通信网络带宽的需求。
除了管理信息化业务外,还需要考虑互联网访问业务流量、FTP流量以及视频会议、语音业务的流量。对于互联网访问业务,可以采用管理信息化业务相同的方法建模进行预测;对于FTP业务,由于其业务有较大的不确定性,故应该将其考虑累加到带宽的峰值上,对于视频语音业务,由于视频会议流量大小相对固定,业务时间有非常大的不确定期性,故应将视频会议与语音业务流量带宽需求直接累加到网络通信带宽的峰值上。
综上,通过利用BP网络对现网业务系统建模,预测出 “十三五”期间管理信息化业务对带宽的需求,同时考虑互联网访问业务、FTP业务和视频语音业务的带宽需求。
对于管理信息化的流量,根据业务流量建模,将流量曲线乘以用户数,并按时间节点进行合并,即可得到管理信息化业务的带宽要求的流量曲线。在总体考虑50%的冗余后,可得到各层级网络带宽需求如下所示:
图5 主干综合数据网管理信息化流量模型
根据以上通信网络带宽需求分析,可以预测出网-省-地-县-所四级综合数据网的网络通信带宽需求。
本文通过对电网业务系统进行分析,应用神经网络模型对业务带宽需求进行建模,在此基础,估算出 “十三五”期间综合数据网的带宽需求,为 “十三五”期间总和数据网的建设提供参考。
[1] 李小航.网络业务流的特性分析及预测技术研究 [D].江南大学,2008.
[2] Y Baryshnikov,et al.Traffic Prediction on the Internet[R]. New York:Columbia University,2002.
[3] D Morato,et al.On linear prediction of internet traffic for packet and burst switching networks[C].ICCCN,Scottsdale,Arizona,USA,2001:138-143. [4] M Lee.Video traffic prediction based on source information and preventive channel rate decision for RCBR[J].IEEE Transactionson Broadcasting,2006,52(2):1-11.
[5] Y Liang,X Liang.Improving signal prediction performance of neural networks through multi-resolution learning approach [J].IEEE Trans Systems,Man,and Cybernetics-Part B:Cybernetics,2006,36(2):341-352.
[6] 面向Matlab工具箱的神经网络理论与应用 [M].清华大学出版社.
[7] 张立明.人工神经网络的模型及其应用 [M].复旦大学出版社.
Analysis of Network Bandwidth Requirement Based on Neural Network of Integrated Data Network in Power Grid
DU Jie
(Yunnan Power Grid Co.,Ltd Information Centre,Kunming 650217,China)
This paper analyzes the network bandwidth estimation model,and proposed method of network bandwidth demand analysis of power data communication.On the basis of this,BP neural network is used to modeling of bandwidth demands of information system.The bandwidth requirement of communication data network is analyzed,and the reference for the construction of communication network is provided.
BP neural network;bandwidth requirement;traffic model
TM76
B
1006-7345(2015)06-0083-04
2015-09-03
杜洁 (1985),女,工程师,硕士,云南电网公司信息中心,主要从事电力信息化的规划建设 (e-mail)dujie1430@sina.com。