李 勤 中国移动通信研究院项目经理王 磊 中国移动通信研究院传送与接入网研究室经理
PTN流量控制方案研究与应用
李 勤中国移动通信研究院项目经理
王 磊中国移动通信研究院传送与接入网研究室经理
针对PTN网络中资源利用率不高,流量不均衡的现象,本文提出了基于流量监测系统的SDN解决方案。进行流量控制,一方面可以优化PTN的QoS配置,例如动态配置CIR、PIR、提高业务链路利用率;另外一方面调整全网流量分布,实现整网的负载均衡,此方案将会显著提高PTN网络效率和稳定性。
PTN;流量监测系统;SDN;流量控制
随着业务的多样化、IP化和宽带化需求增大,中国移动从2009年开始大规模引入PTN(PacketTransport Network,分组传送网)技术,用于基站回传、专线和部分家庭宽带业务承载,目前在国内部署的PTN设备已经超过100万。PTN网络已经初具规模,如何充分利用网络资源,更好地发挥PTN的弹性带宽优势,一直是目前业界研究的热点。
现有PTN网络下,CIR(保证带宽)和PIR(峰值带宽)配置几乎均采用统一的配置,而没有对各基站、各时段进行区分对待,结果导致大部分基站始终处于流量轻载状态,业务链路利用率不到30%,甚至在大型城市的部分LTE基站平均流量仅占CIR配置的3%。而小部分基站或者专线在某些时段会出现流量突发情况,又会由于配置不合理引起链路峰值速率受限。
另一方面,城市存在商务、居住的区域特点,以及数据业务在时间和空间的不均衡性导致全网流量负载不均衡,网络资源利用率较低。
面对流量控制的挑战,首先需要在现网流量监测系统的基础上研究PTN网络的QoS优化配置,提高业务链路利用率和峰值速率,其次引入SDN(Software DefinedNetwork,软件定义网络)的先进理念和架构,与PTN电信级可靠性、业务高质量的优势融合,对QoS配置进行动态调整,再根据适合现网的流量均衡算法调整流量负载,最终实现链路级和网络级的流量控制。
2.1QoS配置优化
在LTE以及政企专线性能测试时,经常遇到链路下载速率远低于预期速率的情况,为分析从无线、PTN、到核心网整个业务端到端的配置对传输速率产生的影响,我们在中国移动现网进行了下载速率的测试。
2.1.1LTE场景
在LTE现网进行外场测速时,无线环境很好,但速率无法达标,例如核心网SAEGW(System Architecture Evolution Gateway,LTE核心网网关)下带基站存在FTP下载速率低的问题,最低速率在6~8Mbit/s。众所周知,FTP下载测速会受到软件发送窗口、RTT时延、丢包率,流数目,终端能力等因素影响。图1描述了业务端到端的组网图。
核心网SAEGW以10G的端口速率突发大量数据到PTN,瞬时速率甚至达到1Gbit/s,PTN网络L2转L3设备LSPPIR为440Mbit/s的情况下,缓存不住的报文会丢弃。
而丢包造成TCP慢启动,从而影响业务的吞吐量。某些场景下,流量突发还会超过PTN缓存能力导致丢包,引起速率下降。TCP丢包对下载速率的影响如图2所示。
应对突发流量,可以采用提高PIR值,也可以采用流量整形(Shaping)来实现业务流量分布相对均匀。
流量整形是限制流出某一网络的某一连接的流量与突发,使这类报文以比较均匀的速度向外发送。处理过程如图3所示,通常使用缓存区和令牌桶来完成,首先对报文分类,若不需要进行流量整形处理,则继续发送,不经过令牌桶处理。若需要流量整形处理,同时报文长度小于令牌数,则被发送。报文长度大于令牌数时,报文被缓存入队列,缓存报文超过队长时被丢弃,再按一定周期从队列中取出报文进行发送。流量整形需要缓存队列大小来保证,可以考虑在核心网设备或者PTN网络上实现。PTN网络的流量整形选择在核心层L2转L3 PTN设备,实现对基站的流量控制。L2转L3PTN设备上应更换大缓存板卡,无法更换板卡的更换新的设备。但是,PTN为了确保传输时延指标,不能大幅度增加端口缓存深度,另外更换板卡也导致建网成本增加,因此也可选择核心网设备采用流量整形。
图1 端到端组网图
图2 TCP丢包对下载速率的影响
在现网测试中,选择为支持下行2CC(Component Carrier成员载波)的载波聚合终端,需要3个终端同时测试,每个终端使用1对小区的资源,在无线极好点的测试终端上安装Avalanche Virtual、CDS、移动通讯大师等软件来进行ftp速率测试。
图4所示为CIR固定(CIR=40M),提升PIR设置值时,3个小区的总的下载速率变化趋势图。数据表明单纯增加PIR值对单用户的ftp下载峰值提升效果有限,当PIR在440M往上时,提升PIR几乎没有作用,440M往下调整,可以有限流作用。
图4 ftp下载速率与PIR关系图
图5所示为CIR固定(CIR=40M),PIR值也固定(440M),对核心网流量整形功能进行关闭和打开,单个小区的下载速率对比图。数据表明在流量整形功能打开时,速率有较大提升。
此外,在对某省LTE网络进行测试的过程中发现,在流量整形功能未开启前,速率仅能维持在20~30M之间,流量整形功能开启后平均速率达69.2M,提升2倍以上。而采用提升PIR设置值的方法,从320M提升到550M时,速率仅有3M左右提升。
因此,建议在无线网开启载波聚合后,大多数区域PIR值仍然设置为440M,打开核心网流量整形来应对突发流量,将会显著提高网络利用率。2.1.2政企专线
中国移动PTN政企专线已经覆盖全国,以太网专线业务质量优于传统的SDH专线,北京到武汉的时延仅为18ms,但是在专线测试中,也存在一些QoS配置没有优化而影响ftp速率的现象。
如图6所示,在测试过程中,PTN专线的配置为CIR= 220Mbit/s,PIR=220Mbit/s,以太网业务测试正常,但是ftp业务存在重传,最初武汉到北京方向仅为105Mbit/s。此外,在测试过程中发现,当报文较大时,会发生TCP报文重传的现象。
随后根据政企专线的特点,优化了QoS配置和其他配置,例如优化端口缓存适应突发流量、调整合适的CBS和PBS、端口MTU设置成9600,以适应大数据包传输。之后测试速率有较大提升,可达到184Mbit/s (23MB)。
政企专线也建议客户路由器开启流量整形,并采用优化TCP协议的软件。
2.2SDN与PTN融合
2.2.1基于流量监测动态调整配置
图6 专线ftp业务测试
目前,PTN系统预留带宽是静态的,例如将CIR统一设置为40M,没有根据不同基站流量模型而确定。同一站型的两个位于不同地域的基站,其中一个基站的业务流量明显高于另一基站,此时将两个基站的预留带宽设为一样将会导致流量小的基站处带宽资源浪费,流量大的基站处带宽资源相对紧缺。即使是对于同一个基站,一般情况下,在一定的时间段内(如一天),基站的流量也是波动的,且每天的流量也有差异性。例如,居民小区晚上的业务流量要高于白天,因此晚上的带宽要求相对于白天较高。
另外,由于环内业务CIR之和不能超过物理带宽,因此PTN汇聚节点所带PTN接入点数量,也就是基站数量由CIR值确定,如果CIR为40M,10GE汇聚环最多只能带250个基站。但是,通过流量监测系统的统计数据,却发现大部分区域利用率较低。
面对CIR等固定配置带来的资源浪费现象,可以通过流量监测系统数据得到接入基站的实际流量,然后运用相应的数学工具对流量进行分析,推算出平均带宽、峰值带宽,动态调整CIR值,流量少的基站需要降低配置,满足不同时间和地域的业务需求,实现网络资源价值最大化,还可定制化客户流量使用和分析功能和报表功能,满足不同客户的需要。
而动态调整配置依靠现有的网管系统难度较大,如果跨多个厂家域,更是无法实施,需要引入新的技术SDN。
2.2.2SPTN实现流量智能管控
SPTN指将SDN理念用于PTN网络,将SDN的集能力、电信级的高可靠性、端到端的QoS保障结合起来的全新网络系统,SPTN架构如图7所示。SPTN网络由PTN设备、控制器、管理平面以及应用组成。控制器支持层次化控制能力,包括域控制器(Domain Controller,D-Controller)以及层次化 超 级 控 制 器(Super Controller,S-Controller)。在SPTN系统中,由控制器对中化智能控制与PTN面向数据优化的高效多业务传送网络进行集中控制。上层S-Controller通过调用D-Controller或下层S-Controller提供的控制器间接口,完成全网的协调和管理,实现网络资源跨域的协同控制、网络抽象、路径计算、策略管理等功能,根据业务诉求为每个设备节点生成转发控制数据,并下发到各设备节点,控制网络的业务转发、保护恢复等行为。
SPTN网络采用了标准化的北向接口和控制器间接口,对跨厂家、跨域的资源可进行统一的配置优化以及流量调度。流量监测系统属于APP的一种,目前国内主要PTN设备厂家已具有流量监测和分析系统,与EMS通过北向接口进行信息交互,将来可扩展与D-Controller进行交互。
流量监测系统对网络节点以及各链路上的流量信息进行实时监测,然后与D-Controller交互数据后。控制器获取到整个网络节点的流量信息后,根据拟定策略进行分析,动态调整配置(CIR、PIR、缓存大小等),从而实现网络节点的动态配置及调整。
由于控制器集中控制全网资源,获取到流量负载信息后,控制器分析网络中各个路径的带宽信息,采用优化的路由算法,根据实际网络带宽利用率和已配置带宽,把业务分摊到不同的路径,防止网络中的流量不均衡,最大化利用网络资源。控制器还会根据工作和保护路径的分布情况,将不同的工作和保护路径分摊到不同的物理链路上,提高网络的安全性。
当一个新的业务要开始传输时,控制器会评估该业务所需要的带宽,并根据当前网络中各链路的负载信息,通过路由算法为它选择一条最优路径(如负载最轻,而且路径最短),然后把隧道、PW等配置下发到相关的PTN设备中,从整体上使链路带宽利用率达到最优。
图7 SPTN总体架构图
控制器的路由算法是关键,传统的动态Dijkstra路由算法在计算大规模网络时耗时较大,主要有几个方面,一是深度搜索找出因权重变化距离可能发生变化的节点集合P;二是遍历P集合中的节点,找出距离得到更新的节点放到临时标记节点集合Q中;三是更新Q集合中的节点的邻接节点,此过程中被更新的节点又会被放入到Q集合中。中国移动PTN团队尝试进行了多方面的算法优化:一是利用PTN网络的汇聚型特点减少深度搜索时间;二是尽量减少距离更新时的遍历次数,也即是减小Q集合的大小。经过相关的测试,跨多个厂家域的路由计算的时间已经从最初的分钟级减少了一倍以上,大大提高了系统路由效率。
本文针对现有PTN网络中资源利用率低,下载速率低于预期等情况进行了分析,提出基于流量监测系统的SDN流量控制解决方案来动态调整QoS配置、智能选路从而实现流量均衡,提高网络资源利用率。
[1]李勤.LTE-A回传网解决方案研究[J].电信技术,2016(1):23-27.
(2016-06-28)