张丽娟 中国联通安徽省分公司运行维护部工程师
IPRAN本地网络优化研究
张丽娟 中国联通安徽省分公司运行维护部工程师
随着新技术的发展,传统的SDH网络在现网中逐步减少乃至消失,IPRAN/PTN等新型传输网络的建设、扩展以及承载业务量不断增加,如何安全、稳定、更优质地保障业务网络的需求,解决网络隐患,优化网络性能,则成为当务之急。本文以某本地网为例,对IPRAN网络的优化方法进行了研究探讨,以期抛砖引玉,为IPRAN网络的维护优化添砖加瓦。
IPRAN;组网结构优化;参数优化
传送网络是整个通信网络的基础,随着移动通信网络技术的不断演进,业务网络不断向IP化、集中化、宽带化、软件化的方向发展,以实现移动用户的高速移动上网。移动通信的快速发展进对传送网带宽要求越来越高,很显然传统SDH/MSTP独享刚性管道传输网络无法满足条件。而新型分组传送网的出现,分组交换和统计复用大大提高网络利用率,大带宽问题得到了有效解决。随着IPRAN/PTN等新型传输网络的建设、扩展以及承载业务量的增加,如何安全、稳定、更优质地保障业务网络的需求,解决网络隐患,优化网络性能,则成为当务之急。本文以某本地网为例,对IP RAN网络的优化方法进行了研究探讨,以期抛砖引玉,为IPRAN网络的维护优化添砖加瓦。
(1)基本概念
IP RAN中的IP指的是互联协议,RAN指的是RadioAccessNetwork。相对于传统的SDH传送网,IP RAN的意思:“无线接入网IP化”,是基于IP的传送网。具有多业务承载、超高带宽、完备的QoS(服务质量)、高可靠性的承载能力,其特点是端到端的IP化大大降低了网络复杂度、具有更高效的网络资源利用率、能实现多业务承载、具有成熟的标准和良好的互通性。
PTN(分组传送网,PacketTransportNetwork)是指这样一种光传送网络架构和具体技术:在IP业务和底层光传输媒质之间设置了一个层面,它针对分组业务流量的突发性和统计复用传送的要求而设计,以分组业务为核心并支持多业务提供,具有更低的总体使用成本,同时秉承光传输的传统优势,包括高可用性和可靠性、高效的带宽管理机制和流量工程、便捷的OAM和网管、可扩展、较高的安全性等。
(2)某本地网的组网方式
某本地网采用的是IPRAN/PTN设备混合组网,IPRAN设备组建成核心汇聚层,PTN组建接入层。PTN设备形态大多是在传统二层交换机基础上改进而成,基于MPLS-TP技术,静态寻址,提供二层以太网业务服务;而IPRAN设备形态大多是在传统路由器+交换机基础上改进而成,基于IP/MPLS动态技术,采取动态寻址理念为初衷,可以直接承载各类IP三层业务。
(3)某本地网IPRAN网络现状
建网初期,谨慎起见,结合技术和设备的成熟情况,IPRAN设备组网根据厂家技术建议的采用了相对保守的全静态技术组网。当IPRAN设备升级至新的版本后,设备对动态三层技术有较好的支持,即实施了IPRAN静转动态部署调整割接。随着技术进步,IPRAN设备再次升级,优化了动态路由计算算法优化,提高了动态路由收敛效率。在IPRAN设备继续升级后,增加了动态隧道自动1:1等新功能,结合ECMP的应用,实现核心设备—汇聚设备之间上/下行流量负载分担、提高带宽资源利用率。
随着网络的扩展、业务承载量的增加以及维护经验的积累,发现现网有很多不足和有待改进优化之处。为打造更安全稳定、效率更高的网络,提升服务质量,用户感知,降低投诉,网络优化势在必行。优化内容不仅包括设备自身硬件、组网结构,也包括各种动态技术应用优化。优化主要方式是结合工程建设大量设备入网,按照设计目标拓扑图,通过调整汇聚环、接入环下沉等割接来动态调整优化组网结构,同时割接调整过程中,逐步优化IPRAN网络中各种动态技术。
3.1 IPRAN网络多层次划分组网
建网初期,IPRAN设备较少,每个县仅有2台IP RAN汇聚设备,通过本地城域波分不同的方向的两个10GE波道,直连两个核心机房的核心设备——两台汇聚设备,形成单层口子型组网(见图1)。初期组网设备少,承载接入环少,可以快速满足业务需求。但随着网络扩展,在此种组网模式的弊端逐步显现。
图1 优化前单层次口子型拓扑
一是县里所有接入环都必须双挂这两台汇聚设备,物理覆盖范围较广,光缆纤芯物理资源的有限,造成县内接入环网元数量庞大,极易造成超大环。
二是接入环网元越多,意味着接入环业务量会越来越多,而接入环链路带宽是固定的,极易造成接入环带宽资源占用过大,发生接入环流量拥塞。
三是一旦相关光缆中断,造成接入环开环的风险更大。
3.2 结合工程建设优化组网结构
后期网络建设新增41台IPRAN设备,主要投入县分使用。在原来的接入环中,选择较重要的机房建设综合业务接入点,利旧光缆或新增光缆资源,完成2级、3级的IPRAN汇聚环网的组建(见图2)。具体构架方案为将分布在不同区域的41台PTN接入设备被成功替换成IPRAN设备,多个超大接入环被裂环,3层业务下沉割接。在1级汇聚环下,基本不会再出现接入环上挂的现象,超大接入环自然消失,且后期的新建的接入环可以双跨就近的综合接入点IPRAN汇聚设备,双跨2级或3级汇聚环,物理范围大大缩小,光缆资源更加充裕,容易组建,可以提高接入环的成环率。
图2 优化后多层次环型拓扑
3.3 优化业务路径实现上下行流量负载均衡
早期IPRAN核心——汇聚设备采用VPNFRR主备模型配置,手工指定主备核心或主备汇聚设备,在正常无故障时,业务流量路径在主用核心——主用汇聚设备的LSP工作隧道路径之间完成数据转发(见图3)。
以LTE基站业务上/下行流量路径为例,对于下行流量流向分析:两台承载网B网AR—两台IPRAN核心口子型组网,下行流量负载分担(通过承载网B网AR设备控制策略实现),因而核心1、核心2都能收到对应B网AR设备发来的LTE基站的下行流量。在本地IPRAN网络内部,核心1—2级汇聚1设备的IGP路由方向是:核心1—1级汇聚1—2级汇聚1;核心2—2级汇聚1设备的IGP路由方向是:核心2—核心1—1级汇聚1—2级汇聚1。2级汇聚1主设备—到对应PTN设备之间是静态LSP1:1二层隧道,通常主用方向也是按照习惯,从左到右的顺序,人工指定配置而成。因此,2级汇聚1主用设备收到的汇总下行流量会按照PTN1—PTN2…PTNN的方向,送给对应LTE基站,完成整个接入环LTE下行流量的转发。对于上行流量分析:同理LTE基站上行流量同样要先沿着静态2层主用LSP方向PTNN—PTN2—PTN1;上行流量汇总到2级汇聚1主设备,再经1级汇聚1设备转发给核心1设备,核心1设备收到的汇总上行流量,直接通过直连接口,转发给AR1设备,完成LTE上行流量的转发。从业务流量在IPRAN网络中的流转路径中可以看到,IPRAN内部流量正常情况下全部承载在主用侧,备用侧基本不参与流量处理,仅在应急情况下发生作用,网络资源带宽未能得到充分利用。在组网初期或业务轻载时弊端不明显,但随着业务量增长,网络需要承载大流量负荷时,则会出现主用侧不堪重负发生丢包、时延大、拥塞等问题,而备用侧依然闲置的不均衡问题。优化方案:取消了VPNFRR的主备模型组网,采用ECMP负载分担模型部署后,核心设备去往对应LTE基站的下行路由的下一跳会指向对应的两台汇聚设备,汇聚设备去往EPC核心网的上行路由下一跳会指向两台核心设备。并严格了核心—汇聚设备之间动态隧道LSP的严格路径(见图4)。优化后的网络带宽资源利用率得到了充分的利用,流量路径实现负载均衡,大大降低了核心—汇聚设备之间上下行流量拥塞的可能,保障网络安全,提升用户使用业务感知。
图3 优化前业务流路径
图4 优化后多层次环型拓扑
4.1 IGP路由控制优化
IGP是内部网关协议,是一类协议的统称,工作一个AS系统内部,具体协议主要包括RIPOSPFISIS等。RIP用于小型网络;OSPF和ISIS动态路由协议比较相似,都属于链路状态动态路由协议,使用SPF最短路径优先算法,通常用在较大型网络中应用。早期由于IPRAN设备较少,网络拓扑层次简单,分组传送网IGP使用了ISIS协议,基本上采用默认配置,未做任何优化。此类配置较适合纯1层口子行拓扑结构组网,对于后期规模较大的IPRAN网络则很快出现弊端。
每个本地网通常至少部署两台核心设备,图5举例5台IPRAN设备环型组网,所有IPRAN全部启用ISIS协议,单进程、单区域、宣告各自的互联接口和L0环回口(全是10GE接口,COST为默认都为10,仅启用BFDFORISIS,其他未做配置),第1次全网ISIS路由学习完成后,IGP邻居自动建立,发现拓扑,自动学习到全网IGP路由。根据ISIS最短路径优先算法原则,即路由开销最小的被写入路由表,很明显汇聚1—核心12设备的LO环回口路由的出接口都是7/1口,IGP路由有交集部分,存在一定的安全隐患,若出现汇聚1—核心1设备光缆中断,会造成汇聚1—核心12两台设备的L0环回口路由全部中断。等ISIS路由震荡,重新收敛计算后恢复。为加快链路故障时的快速恢复,主要从IGP的收敛速度和减少路由开销这两个方面着手优化。
(1)加快ISIS路由震荡收敛速度
优化SPF的功能算法。ISIS是周期性传递LSA(链路状态通告)的方式,路由器在收到整个LSA的时候再向邻居扩散LSP。因而在网络规模扩大时,LSDB(链路状态数据库)随之增大,SPF的计算时间就更长。SPF计算方法是否更优是直接影响收敛效率快慢的主要原因之一。实现SPF的功能算法有多种多样,各厂家设备计算的方法的可能各有不同,但最终的计算结果应当都相同,通过厂家研发新的软件版本,优化了SPF算法,大大提高了收敛效率。
启用LSP快速扩散功能。当LSP发生变化而导致SPF重新计算,在SPF重新计算前,把导致SPF重新计算的定量LSP快速扩散出去,加快LSDB同步的过程,可以提高快速收敛性能。
图5 5台IPRAN设备环型组网拓扑
启用SFP智能定时器。如果触发路由计算的间隔较长,同样会影响网路的收敛速度。使用毫秒级定时器可以缩短这个间隔时间,但如果网络闪断故障比较频繁,又会造成过度占用CPU资源。SPF智能定时器既可以对少量的外界突发事件进行快速响应,又可以避免过度的占用CPU资源,助力提高收敛效率。
(2)减少ISIS路由开销
ISIS是根据SPF最短路径优先算法,以自己为根,到达目的网络路由开销最小路由。COST值是决定路由开销的主要因素,合理优化COST值,可以优化相关IGP路由选路方向。早期的IPRAN网络拓扑仅存在1个级别层次结构,在1级IPRAN设备下面直接下挂PTN接入层设备,且所有的1级汇聚环基本上都是口子型直连核心设备,拓扑网络很简单,COST默认配置即可满足。
随着网络扩展新增了41台IPRAN设备后,设备总数量近60台。按照目标设计,边调整边割接,拓扑最终成型,1级设备下挂了2级甚至3级网络,且下级别的汇聚环上网元的数量基本上是3~6个。而ISIS初期配置都是单进程单区域应用,大量重要的IGP路由会有重叠路由现象,包括下一级别的IPRAN设备——上级双跨的两台IPRAN设备的L0环回口IGP路由,会造成走同一个方向。一旦出现相关链路光缆中断,会重新计算全网相关的大量IGP路由,震荡面大,对现网影响也大。
结合现网拓扑结构,重新规划IPRAN全网COST值设计并在现网中应用后,登录到任何一台下一级别IPRAN设备,查看IGP路由表,去往上一级别的重要IGP路由的出接口方向是不同的,路由震荡面可以减小,完成IPRAN全网ISIS路由开销的优化。如果本地IP RAN数量上升到更庞大的时候,还必须要考虑全网ISIS多进程或多区域划分应用。
4.2 BGP路由控制优化
BGP是边界网关路由协议,用于不同AS(自治系统)之间的互联,称为EBGP;工作在同一个AS内部,称为IBGP。BGP并不能像IGP那样自动发现计算路由,建立BGP邻居前提条件需要有IGP提供路由支撑,通过Network/Redistribute方式将IP路由表中的真实存在路由条目通告或引入进BGP路由表中,利用BGP的丰富路由策略,控制BGP路由的传播和最佳路由选择,BGP支持路由表的条目远远大于IGP路由表条目,采用增量更新机制,适用于Internet上传播大量路由信息,在互联网骨干路由器中广泛应用,而在IPRAN网络中,BGP主要用于传播三层VPN私网路由的作用。
(1)1LTE基站EBGP路由汇总优化
众所周知,LTE网络结构更加扁平化,eNodeB直接与EPC核心网互通,物理简化拓扑如图6所示。
本地网的核心IPRAN设备,直连对接承载网AR设备,口子型组网,通过互联接口直连路由建立EBGP邻居关系。初期构建网络时,本地网IPRAN核心设备通过EBGP邻居向承载网AR设备发布该本地网LTE基站的明细路由(通过携带BGP的AS-PATH属性,以防环路);承载网AR设备将学习到的EPC核心网100多条路由条目+其他本地网的LTE基站明细路由条目,通过EBGP邻居向各本地网IPRAN核心设备方向发布,从而建立全省LTE网络。
初期建网时LTE基站数量少,平均每个本地网100多,大多数本地网LTE基站的IP地址按照30位掩码规划,相当于1个LTE基站占用1条路由,即全省LTE基站路由条目总和+EPC核心网路由不超过2000条,总路由条目较少。随着网络第二期、第三期的建设,总路由条目激增,可能达到1~2万条路由。对于BGP而言,传播几万条路由条目也没问题。但是随着网络继续扩张,路由表越来越大,对每次路由查表所需时间相应增加,数据包转发效率便会有所影响。就全省规划而言,全省LTE基站IP地址有各本地网的规划,可通过各本地网核心IPRAN设备——对承载网AR设备发布LTE基站EBGP汇总路由,就可以极大缩小LTEVRF虚拟路由表,提高数据包转发效率,惠及全省网络。
图6 LTE业务承载简化拓扑
优化效果:该本地网通过EBGP路由汇总的优化后,LTE基站的管理和业务各几百条路由,汇聚成2条汇总路由对外发布,全省本地网全部照此优化后,承载网B网AR设备学习到的全省LTE总路由表的条目在200条以内,大大减小LTEVRF路由表,LTE上网数据包在经过承载网AR设备的转发效率得到有效提高。
(2)RR的应用,减轻核心IPRAN设备——汇聚设备IBGP连接压力
在同一个AS内部,通常都是利用IPRAN设备的L0环回口的IGP路由可达,就可以建立IBGP邻居,无需要求形成IBGP邻居的设备必须物理直连。早期的IPRAN设备并不多,单层次口子行组网,网络拓扑层次简单,采用的是核心IPRAN设备——所有的IPRAN汇聚设备都要组建IBGP对等体关系,如果全网采用IBGP全互联的模型,那么全网要建立的IBGP对等体数量就为n(n-1)/2个,这种模型不适用于后期较大的IPRAN网络,大量的IBGP连接数量,会造成网络资源和设备的CPU资源消耗更大,为了解决该问题,引用了RR路由反射器的应用。
根据现网IPRAN拓扑结构和IPRAN路由器的数量,来合理规划RR和它的Client。RR和它归属的Client组成一个集群(Cluster),RR-Client之间反射BGP路由信息,而Client之间不需要建立BGP连接。在多级别层次网络的中,可对RR进行分级管理:将一级IP RAN设备,定义成一级RR,两台核心IPRAN设备和对应下挂的二级汇聚IPRAN设备都定义成对应一级RR的Client;将相关的二级IPRAN设备定义成二级RR,将对应下挂的第三级IPRAN设备定义成对应二级RR的Client,以此类推。为防止单节点RR故障,增强网络的可靠性,通常在一个Cluster集群中配置两个RR,共同工作,又起到互为备份的作用,这两个RR同时作为上一级RR的Client。Cluster集群内的所有Client同时与这两个RR建立IBGP连接。按照这样的思路去部署应用后,1级汇聚环网络本已经构成,后期基本不需调整;网络扩展新增的IPRAN设备,基本在二级或更低级别的网络层次,相应不会增加IPRAN核心设备的IBGP连接的数量,大大减轻IPRAN核心设备处理大量IBGP连接的压力。
本地分组传送网从组建至今,通过持续的网络优化调整,网络结构兼具安全和效率,设备功能逐步完善,参数设置更趋合理。相较初期网络,通过优化,网络更加智能、高效、安全稳定。随着新技术的发展,传统的SDH网络在现网中逐步减少乃至消失,将完全被IPRAN/PTN所替代。在日常维护工作中,主动学习研究相关网络新知识,夯实理论基础,把握网络优化的正确方向,结合现行网络,多思考、多实践,继续努力打造精品网络。
2016-11-10)