基于宽带远程接入服务器的成分流量分析

2015-05-30 19:46尹粤宁
中国新通信 2015年4期
关键词:验证数据采集引言

尹粤宁

【摘要】 近年来随着宽带市场的蓬勃发展,使得各类IP运营商对其城域网容量进行了不断地扩充。然而这种扩充更多的具有盲目性,如何有效的对城域网各类流量进行充分评估,对业务进行精细化推广成了摆在IP运营商面前的重点和难点。本文将重点讨论如何利用最精简的手段,通过采集分析城域网实际数据,建立相关分析模型,并验证模型的可行性。相关方法和结论对提高城域网网络扩容的准确性、降低扩容预算成本以及推进业务精细化管理具有现实的指导意义。

【关键词】 IP运营商 宽带远程接入服务器 数据采集 验证 建模一、引言

宽带远程接入服务器(Broadband Remote Access Server,简称BRAS,下同)是面向宽带网络应用的新型接入网关。各城域网中接入层设备汇聚后上联到BRAS,BRAS上数据通过出口路由器再跟骨干或者其他的城域网进行通信。IP运营商可以BRAS为单位,分析获取BRAS各业务类型的各类带宽下的用户平均流量,以此为基础数据,建立模型,如地域片区模型、链路模型、设备模型等,按照模型分析出地域片区、链路、设备等的流量状况,形成网络扩容,业务推广的分析依据。

二、数据采集及分析

2.1通过在线用户数分析

目前IP运营商的网管系统已经实现了对BRAS上连中继流量的周期性采集功能,假设采集周期为5分钟。同时也实现了BRAS分业务类型的在线用户数的采集功能,假设采集周期为10分钟。两者的采集时间点在10分钟的整数倍重合,因此可以按照相同的采集时间点对两者进行对应,作为分析样本。

在对实际数据进行分析之前,经过初步分析,认为:

公众互联网及电视互动流媒体的在线用户数对BRAS上连中继流量(下行流量,以下提及的流量都是指BRAS上连中继的下行流量)有较大影响,所以假定一个模型为:BRAS流量=a×公众互联网在线用户数+b×电视互动流媒体在线用户数+c,其中a和b分别表示公众互联网和电视互动流媒体的每用户流量,c代表其他流量。

因为不同区域的用户的上网行为可能存在较大差别,在不同区域,甚至不同BRAS上两者的相关性可能存在较大不同,因此考虑建立区域模型,区域内选择多台BRAS设备进行抽样分析。

进行精细化的在线用户数采集,预先采集城域网活跃用户的带宽情况(可参考抽样采集各带宽用户流量方案),在每个采集周期中叠加上带宽情况,即可得出在线用户的带宽分布情况,则上述的模型将变为:

BRAS流量=a1×公众互联网在线用户数+a2×公众互联网在线用户数+a3×公众互联网在线用户数+b1×电视互动流媒体在线用户数+b2×电视互动流媒体在线用户数+b3×电视互动流媒体在线用户数+c。

其中a1,a2,a3代表各带宽的公众互联网用户平均流量,b1,b2,b3代表各带宽的电视互动流媒体用户的平均流量,c代表其他流量。

此模型可通过多点数据形成线性方程组,最终解出a1,a2,a3,b1,b2,b3等各带宽下的平均用户流量。

根据实际数据的采样,经过初步分析,可以发现:

流量与总的在线用户数存在明显的线性关系。

如果综合分析三者的关系,可以发现对公众互联网用户数在绝大多数情况下都是正线性相关(a>0),对电视互动流媒体用户数有时正相关(b>0)有时负相关(b<0)。

无论是对总用户数还是公众互联网用户数,线性分析得到的截距都是负数(c<0),意味着用户数为0的时候,是负流量。可能是因为某些用户挂在网上但是不占用流量。

2.2抽样采集各带宽用户流量

采集公众互联网用户带宽

目前BRAS主流设备为华为的ME60,可在设备上执行查看相应业务类型的所有在线用户,并获取到用户详细的用户名称,带宽,接入端口等信息。

随机挑选在线的各种带宽的用户进行流量采集

针对要分析的BRAS, 每台BRAS的指定业务类型上每种带宽抽选用户进行流量采集,将用户按带宽划分带宽等级,如2M:2,4M:4,6M-6,8M-8,10M-10,12M-12,20M及以上20,以10分钟为一个粒度,设备内按业务类型(公众互联网以及电视互动流媒体)以每个等级的带宽随机挑选100个用户进行流量采集,排除掉中途下线以及掉线重新上线的用户,每次进行采集时用户不足100个时在同等级带宽用户中随机补齐,采集到原始10分钟粒度的用户带宽数据。

上述采集的是用户流量计数器的值,以两个采集点之间差值为采集点间的总流量,总流量/采集点时间差得出采集点间的平均流量,并且采集当前公众互联网业务的总在线人数。

原始数据采集完成后进行数据的汇总:

将10分钟原始数据按区域、带宽类型、业务类型等十分钟粒度时间点进行汇总,汇总出十分钟粒度的地市带宽平均上下行流速以及最大上下行流速;将10分钟汇总数据按区域、带宽类型、业务类型、小时粒度时间点进行汇总,汇总出小时粒度的区域带宽平均上下行流速以及最大上下行流速。

三、数据分析验证

3.1通过在线用户数分析

经过持续的数据采集以及分析,实际发现通过上述方法获取的带宽平均流量值的波动情况跟实际设备上联整体流量的波动情况吻合,并且根据历史数据推测的预测流量也较为准确。

3.2抽样采集各带宽用户流量

对上海地区某IP运营商的公众互联网用户与电视互动流媒体用户24小时流量实测,随机选取了30台BRAS测量2类用户的上/下行平均流速,公众用户总数约30万,电视互动流媒体用户数约10万。

公众互联网用户流速测量:针对3类区域30台BRAS流量进行24小时实测,采样间隔为30分钟(抽样率5%,覆盖20万用户)。互联网用户晚间峰值平均下行速率约908kbps,峰值平均上行速率约403kbps。

电视互动流媒体用户流速测量:针对2类区域20台BRAS中的20万户电视互动流媒体的用户帐号进行24小时监测,采样间隔15分钟。电视互动流媒体用户晚间下行速率基本稳定在3Mbps(为互联网用户的3倍),上行平均速率70kbps。

以上可以认为两种方法分析出来的结果基本可反应现网实际的流量状况,数据有一定参考价值。

四、流量模型建立

区域模型

区域模型的制定目的是分析区域内业务类型下的带宽分布状况,以及各带宽的平均流量状况。以确定区域内宽带提速所带来的区域流量变化影响,调整扩容指标。

采集方案基于原有的按设备、业务类型、带宽等方式采集,仍然是单独设备上各业务类型的各带宽的用户随机挑选100个左右,下线的用户进行同业务类型同带宽的用户填补。并且需要获取用户账号信息跟区域的对应关系。

在采集数据完成后针对用户确定其营销中心,区域分公司,并且进行营销中心,区域分公司的数据存储,汇总时以业务类型、区域分公司、营销中心进行带宽汇总,在区域分公司为营销中心的上层,汇总时增加按区域分公司的营销中心方式汇总。在挑选设备时注意按设备分布挑选,每个中心大约挑选 2 -3 台BRAS做采集。

链路流量模型

此模型需获取用户账户跟设备端口的绑定关系,并且前期做了一些分析,分析出绑定设备端口的账号在所有用户中的占比关系,下面是其中的一次分析:

设备IP 用户总数 绑定用户总数 绑定占比

1xx.xxx.xxx.xxx 4564 3579 78.42

在绑定占比较高的设备上做抽样分析,获取绑定用户较多的端口:

设备IP 端口 端口用户总数 端口用户总数占比

1xx.xxx.xxx.xxx 1/0/2 479 13.38

1xx.xxx.xxx.xxx 1/0/3 38 1.26

1xx.xxx.xxx.xxx 1/0/4 17 0.47

1xx.xxx.xxx.xxx 2/0/2 1092 30.51

1xx.xxx.xxx.xxx 2/0/3 1065 29.76

1xx.xxx.xxx.xxx 2/0/4 881 24.62

从上表可知,设备端口绑定用户数较多,绑定占比达到78%,可以挑选有代表性的设备下的端口1/0/2,2/0/2,2/0/3,2/0/4对应的用户。采集时跟踪此批用户,分析出用户的带宽分布情况,按带宽类型分析各带宽的平均流量,以统计出端口对应链路的流量状况,再按占比层层递归,递归出设备的流量状况,统计出链路内的带宽平均流量、设备内的带宽平均流量,分析当进行带宽提速对链路的流量增加的影响。从网管系统获取端口链路的相关信息,分析当前流量利用率,根据带宽扩容时链路的流量利用率推算,再按占比倒推出扩容对设备流量的需求。

五、结束语

从上述的分析可知,通过获取BRAS上的成分流量,分析出公众互联网与电视互动流媒体等业务的各带宽的平均流量状况,以此数据为基础建立各种应用模型,可以反映出城域网流量整体流量状况,并且可反映出城域网整体流量增长趋势,也能体现出业务类型下各带宽的用户行为,可为宽带大提速提供依据。区域设备链路流量模型符合精细化管理要求,可精细化的进行网络调整以及业务推广。此方法的成本较低,除了需要支撑系统的(PC)服务器之外,不需要额外购买设备,具有较好的推广价值。

猜你喜欢
验证数据采集引言
药用植物野外实践体系构建研究
小题也可大做
弹药保障需求分析实验模型输出数据的验证研究
汽车外后视镜抖动问题模型的试验验证
HPGe γ谱仪无源效率刻度软件验证
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
基于思维导图的线性代数复习策略
提高小学低段课堂写字有效性的研究