沈铭
(中国移动通信集团福建有限公司厦门分公司,福建 厦门 361008)
从2011年至2014年底,经过3年多的持续建设和发展,中国移动TD-LTE基站数量已达70万个,在部分城市已超过了GSM(2G)和TD-SCDMA(3G)网络。由于LTE网络结构集中化和扁平化的特点,以及业务对承载网的IP化和宽带化需求,PTN网络在规划和运维上面临着更大的压力,其中很重要的一方面就体现在对网络可靠性的要求较以往大大提高。
作为TD-LTE的基础承载网,只有全面提高PTN网络的传输质量和整体可靠性,才能体现出4G的技术革新所带来的优势以及更好的用户体验。PTN网络整体保护方案的规划和研究目前尚在不断完善中,其不仅涵盖了从城域网的接入、汇聚、核心到省干等各个层面,还包括了L2 VPN(Virtual Private Network,虚拟专用网络)、L3 VPN两个部分各自的保护配置以及相互的配合,同时也涉及到容灾应急恢复手段的设计,是移动通信网络当前最重要的工作内容之一。
目前各城市已完成了PTN网络的建设,并实现了GSM、TD-SCDMA、TD-LTE和集客专线等业务的统一承载。由于PTN网络的建设时间早于TD-LTE,而L3路由转发功能是TD-LTE对承载网的新需求,故早期建成的PTN城域网均为L2网络,主要满足TD-SCDMA业务的承载,采用类SDH的接入、汇聚以及核心3层网络结构,以环形拓扑为主。自TD-LTE试验网阶段起,为满足S1-Flex和X2接口的复杂业务流向转发需求,PTN网络在核心层引入了静态L3功能,从而在城域核心层通过新增L3 PTN设备实现了L3网络,而原有2G、3G业务保持原有的承载方式。
中国移动TD-LTE的PTN承载采用“L2 VPN+静态L3 VPN”的解决方案,即在接入汇聚层采用以太专线的组网技术,在核心PTN节点上批量终结接入汇聚层的以太专线业务,由设备内部完成L2到L3的桥接,进入到静态L3 VPN转发处理。当前传输网络各个层面的业务承载及保护功能实现简述如下:
城域网汇聚接入层通过PTN PW(Pseudo Wire,伪线)的承载方式对2G、3G、TD-LTE和集客专线等业务统一承载,然后在接入到核心层时进行分流。其中,2G、3G和集客专线等原有类型业务上行到早期建设的L2 PTN核心层,保护方式为端到端的隧道Tunnel 1:1保护;TD-LTE业务上行到后期新建的L3 PTN核心层,在L2 VPN层面的保护方式为MC-PW APS(Multi-Chassis Pseudo Wire Automatic Protection Switching,跨设备伪线自动保护开关)配合MC-LAG(Multichassis Link Aggregation Group,跨设备链路聚合组)的双归节点保护。接入环和汇聚环需采用双上联的方式分别接入到汇聚节点和核心节点,以应对单上联节点失效的风险。
城域网核心层及省干层实现L3的功能。城域网核心层通常使用L3 PTN设备组成“口字形”结构以实现L3 VPN网络,在与汇聚层对接的L3节点(具有L2和L3的功能,又称为L2/L3节点)上,终结汇聚层上行的L2业务,接入L3 VPN,进行L3转发。若LTE核心网EPC(Evolved Packet Core network,演进型分组核心网)部署在地市,城域网核心层L3 PTN设备可直接与EPC对接;若EPC集中部署在省会城市,在省干层使用L3 PTN设备搭建L3 VPN网络与EPC对接,省干与地市的L3 VPN则采用Native IP方式连接。L3 VPN层面的保护通过隧道Tunnel 1:1与VPN FRR(Fast ReRoute,快速重路由)实现,Tunnel APS用于保护节点之间的隧道路径,VPN FRR则用于保护节点。而省干与地市的L3 VPN之间,以及L3 PTN设备与EPC的Native IP业务对接的保护方式均为IP、VPN混合FRR保护。
当前PTN承载TD-LTE业务的总体网络方案如图1所示。
经过近几年的网络建设,各省的城域网及省干网基本采用上述方案完成了TD-LTE业务的承载和保护。通过多种网络保护技术的配合应用,可实现L2 VPN、L3 VPN、对接EPC等场景下的链路中断、节点失效,乃至多点故障的业务保护倒换,安全保障能力相对较高。
但由于L3功能属于PTN网络上的新技术应用,不同厂家、同厂家不同型号的设备成熟度发展不一,导致设备在组网和对接的保护倒换配合上可能因某种软硬件缺陷而发生倒换异常、保护失效的问题。主要有几种较极端的情况:如L3 PTN设备/单板故障不倒换、2台L3 PTN设备同时故障或EPC故障等,此时将造成整个区县乃至整个地市的LTE业务全阻,目前尚无有效手段可以实现快速的业务恢复。以某省2014年的TDLTE故障统计情况为例,因传输原因引起现网100个以上LTE基站阻断的重大故障共有9起,涉及多个地市城域网、多个厂家设备,平均历时超过1h。其中6起故障原因为L3 PTN设备软硬件缺陷或其它BUG,均发生在L2/L3节点上,占了故障总数的2/3。
由此可见,为了大力发展4G业务和取得更好的用户体验效果,需要对现有的LTE承载网进一步优化和改进,进一步提高承载网的可靠性和安全性。
基于PTN网络的TD-LTE业务承载方案优化,主要着眼于上述几类网络风险点的应对和解决,并制定重大故障时的业务快速恢复手段,力求将业务影响降到最低。
图1 PTN承载TD-LTE业务的总体网络方案图(当前主流方案)
针对L3节点(区别于L2/L3节点的其它L3 PTN节点)的PTN设备/单板故障不倒换、两台L3节点PTN设备同时故障的风险点,可以结合EPC POOL的建设,将L3 PTN组网改造为“双口字形”结构,实现L3节点故障时LTE业务流量的切换,确保业务不中断。调整优化的实现如图2所示。
以EPC部署在地市的网络为例,只需新增一对L3 PTN设备与另一套EPC对接,而原有的各个L2/L3节点再增加到新L3 PTN的链路,形成“双口字形”的网络结构。EPC集中部署在省会城市的网络与此类似,城域网新增一对L3 PTN设备实现地市双出口,省干层面则新增一个L3平面与另一套EPC对接。
当网络正常时,TDLTE业务通过基站PTN设备接入L2 VPN,流量上行到L2/L3节点后,根据高优先级的目的IP地址查找L3 VPN的路由表,经主用的L3节点转发到主用的EPC。当出现L3节点故障不倒换、2台L3节点设备同时故障或者EPC故障等情况时,基站感知到主用EPC的连接中断(即高优先级的目的IP不可达),业务流量上行到L2/L3节点后,根据低优先级的目的IP地址通过另一个L3平面路由转发到备用EPC上,实现业务的恢复。
针对L 2/L 3节点的PTN设备或单板发生故障时倒换失败的风险点,可以通过业务规划配置的手段使接入汇聚层的L2业务以负荷分担的方式分别接入到2个L2/L3节点,使节点倒换失败时的业务影响面降低一半。调整优化的实现如图3所示。
早期的TD-LTE业务配置大多为全程主备分担,当任一主用节点异常故障无法倒换时,将造成整个区县以上级别的LTE业务全阻。由于上述“双口字形”组网结构可以解决L3节点的异常故障无法倒换问题,且由近年的故障统计分析来看,L2/L3节点因其配置复杂,故障发生率高于L3节点,故需要规划业务接入L2/L3节点的负荷分担配置。规划原则为L2业务基于节点设备负荷分担,不同网段的基站分别归属L2/L3的左节点和右节点;L3业务按主备路由分担,均以左节点为主用路由,右节点为备用路由;接入EPC按主备路由分担,均以左节点为主用路由,右节点为备用路由。以图3为例说明,假设某县的2个L2/L3节点下挂10.10.1.0/24~10.10.4.0/24一共四个网段的LTE基站,可规划10.10.1.0/24和10.10.2.0/24两个网段的基站以左L2/L3节点作为主用桥接点,10.10.3.0/24和10.10.4.0/24两个网段的基站以右L2/L3节点作为主用桥接点,而两个L2/L3节点上行流量则均以左L3节点作为主用出口。网络正常时流量如图3箭头所示。
此规划配置方案的优点是L2业务负荷分担,避免因节点故障而导致区县以上业务全阻的风险。而L3业务路由规划清晰,上下行路由一致,便于后期维护,同时进行现网调整优化、割接的工作量较小,有效避免了事故的发生。
图2 “双口字形”结构组网简图
图3 LTE业务负荷分担配置优化示意图
为进一步解决L2/L3节点异常故障时无法倒换的风险,确保阻断的业务(即“口字形”子网下挂的一半LTE基站)在最短的时间内得到恢复,可利用现有L2 PTN核心层网络的通道资源,制定跨“口字形”子网的业务应急恢复方案,如图4所示。
方案主要思路为PTN网络中增加应急调度通道的配置,当基站所属的L2/L3节点异常故障倒换失效时,通过批量修改相关参数,LTE业务流量可以快速切换到应急调度通道,实现和EPC的重新连接。方案的实现需要各专业的配合,提前完成4项规划和配置工作的部署。
图4 跨“口字形”子网的应急恢复方案
一是进行LTE基站的业务和网管路由分离配置。在中国移动的TD-LTE承载方案中,每个基站可以分为业务和网管2类流量,分别使用1个IP和1个VLAN(Virtual Local Area Network,虚拟局域网)配置在不同的PW上,然后在L2/L3节点上批量终结,接入到静态L3 VPN。目前大多数城域网中通常将业务和网管2类流量的PW配置在相同路由上,在同一L2/L3节点上批量终结,这样当L2/L3节点故障时,会同时影响基站的业务和网管。因此需要将基站的业务和网管优化配置为路由分离方式,可利用原有的L2 PTN核心层网络资源进行PW路由分离,再用另外的设备(L3 PTN或路由器)终结网管PW。这样当终结业务PW的L2/L3节点故障时,基站网管可通,仍可监控和修改配置;当终结网管PW的设备故障时,不会影响业务。
二是规划每个基站的业务应急IP地址和VLAN。因为启动应急恢复方案后,LTE业务流量将切换到其它的L2/L3节点上,原来的IP地址和VLAN将无法使用,此时需要预先规划好业务应急IP地址和VLAN,如基站业务正常IP为10.10.1.3,VLAN为200,则应急IP可设为10.20.1.3,VLAN可设为2 200,并形成规划表文档,方便网络配置使用。
三是每对L2/L3节点下挂的每个基站除配置正常L2+L3业务外,还需根据规划好的应急IP和VLAN,提前配置接入PTN到另一个“口字形”子网L2/L3节点的PW链路及相应L3路由作为应急通道,PW链路利用原有的L2 PTN核心层网络资源完成配置。应急网络参数配置方法和正常网络配置一样,但对应急通道不需要配置带宽参数,如CIR(Committed Information Rate,保证信息速率)、PIR(Peak Information Rate,峰值信息速率)等,只需要保证链路的通达,这样可以提高网络带宽的利用率,避免网络正常时应急通道对带宽的占用。
四是无线专业需要根据规划好的应急IP和VLAN提前准备基站IP/VLAN的修改脚本,并进行相关验证工作。容灾应急脚本要求定期更新,如有大量基站的割接时,还需要对脚本进行实时更新。脚本以一对L2/L3节点为单位制作,每对L2/L3节点均要有应急切换和倒回2个脚本。同时,还可以进行脚本批量导入运行程序的开发,实现故障时的一键切换和倒回。
以图4的网络为例说明业务应急恢复方案的运行过程。当区县1的L2/L3节点故障时,有一半或全部基站阻断,此时立即启动应急恢复方案。由于基站网管可通,下发无线容灾应急脚本批量修改基站的IP/VLAN为应急IP/VLAN,基站业务流量通过应急PW链路到达区县2的L2/L3节点,再通过应急L3路由转发到核心L3节点,实现与EPC的重新连接。整个业务恢复时间为故障发生至发现时间、批量导入脚本时间以及基站重启时间之和,与原先的先抢修后恢复业务相比,业务中断时间大大缩短。
PTN承载TD-LTE业务的整体保护方案实施前后的差异对比如表1所示,可充分体现方案实施后在业务保护上的优势。
方案的实施按照上述“双口字形”组网改造、L2业务负荷分担以及业务应急恢复手段配置的步骤进行,需要在现网中增加相应的L3 PTN设备以及用于跨“口字形”子网连接的光口板件投资,并对现有配置的L2业务进行割接调整,优化过程需要1~2个月。应急恢复手段的配置需要为业务增加应急调度通道,对电路调度和业务配置人员的要求较高,配置时间也较长,但随着业务配置熟练程度的提高,不会影响基站的开通效率。
目前该方案已在福建移动省内应用部署,各地市已完成了相关的城域PTN网络的优化调整,各层面的倒换测试均不会中断业务,并且定期组织传输、无线、核心网专业进行LTE业务的故障应急恢复演练,涉及华为、中兴、烽火、贝尔和诺西等主流通信设备厂家的产品,演练过程中业务恢复时间基本上不超过10min,业务阻断的时长较无容灾应急方案时缩短了90%以上。
表1 保护方案实施前后的差异对比
随着4G时代的到来,LTE将是各个运营商新的机遇和挑战,只有更稳定更安全的网络才能吸引更多的用户,获得更大的效益。由于TD-LTE的网络架构不同于以往的2G和3G网络,从城域传送网到省干网都需要不断演进以满足LTE业务对承载网的新需求,网络保护方案也比原有的SDH、L2 PTN更加复杂和灵活。目前承载方案和保护方案都在不断地优化和完善中。L3 PTN“双口字形”组网、L2业务负荷分担配置、基站业务和网管路由分离、跨“口字形”子网业务应急恢复等保护方案新思路已在现网中得到了验证,能够更好地保障网络安全,提升TD-LTE的网络质量,对LTE时代的PTN组网具有参考意义和推广价值。
[1]沈铭,黄莉莺,郑斯佳,等. 基于城域PTN的TD-LTE承载网方案研究[J]. 电信技术, 2013(1): 83-86.
[2]王牧云. PTN支持L3 VPN技术的研究与验证[J]. 电信科学, 2012,28(4): 119-123.
[3]白炳樘,叶卫明,齐志刚,等. LTE核心网与PTN组网方案研究[J]. 电信工程技术与标准化, 2014(11): 15-17.
[4]李志强,邢守壮,刘锐. TD-LTE省干回传网络保护方式探讨[J]. 移动通信, 2014(14): 46-51.
[5]陈孟奇. PTN L3组网承载TD-LTE业务的可靠性规划探讨[J]. 移动通信, 2011(21): 22-26.
[6]龚倩,邓春胜,王强,等. PTN规划建设与运维实战[M]. 北京: 人民邮电出版社, 2010.
[7]陆源. 基站业务割接至分组传送网的方案研究[J]. 电信技术, 2014(5): 88-91.
[8]王义涛,郭晓非,袁秀森. PTN承载LTE业务适应性分析[J]. 邮电设计技术, 2012(8): 57-62.
[9]张华荣,蚁泽纯,李勇. 省干PTN网络部署场景模型探讨[J]. 移动通信, 2014(12): 93-96.
[10]王晓义,李大为. PTN网络建设及其应用[M]. 北京: 人民邮电出版社, 2010.