孙兵
摘要:随着IP网络承载业务的不断丰富,网络接入业务高可靠性成为关键需求。为达到电信级可靠性要求,用户接入网关设备高的可靠性保证成为关键。通过系统研究用户网关电信级可靠性保证方案,包括端口级/单板级/设备级1+1、N+I、N+M备份方案,设计基于二层网络的冗余检测备份协议(L2SP)与用户网关业务的热备份机制,解决用户典型接入协议(PPPOE/802.1X/DHCP)设备间用户信息与业务状态热备份难题,使设备在一年的连续运行中因各种可能原因造成的停机维护时间少于5分钟,达成网络设备99.999%的高可用性目标。相较于传统设备级不带用户业务热备的可靠性方案,可靠性能力提升50%以上。
关键词:IP网络设备可靠性;L2SP;用户业务热备份;业务可靠性
DOI:10.11907/rjdk.201172开放科学(资源服务)标识码(OSID):
中图分类号:TP393文献标识码:A 文章编号:1672-7800(2020)006-0244-04
0 引言
随着Internet业务和IP网络技术的不断发展,基于Internet网络承载电信级业务成为IP网络发展演进的必然趋势。IP网络可靠性、服务质量控制技术要求越来越严格,IP网络电信级业务可靠性主要包括3个层面:设备可靠性、链路可靠性和网络可靠性,其中链路可靠性和网络可靠性技术日趋成熟,但IP设备级可靠性技术还不完善。目前行业标准IETF VRRP(Virtual Router Redundancy Protoc01)技术是基于OSI(Open System Intereonnect ReferenceModel)三层网络协议的设备级冗余备份检测技术,并且VRRP仅是设备主备状态检测和倒换触发协议,并未系统地定义设备间业务状态实时备份机制。实际IP网络中汇聚层用户接人网关设备(如运营商网络边缘业务路由器、BRAS/企业网络用户网关)所处位置较低,基于建网成本规划考虑,用户终端大多通过二层网络接人至汇聚层用户网关设备。因此本文基于OSI二层网络研究新一代设备级冗余检测备份技术,以填补业界空白。
现有相关研究主要分为3种类型:①设备可靠性模型研究。文献进行了设备可靠性场景假设并给出了模型定义,但未针对电信级实际应用场景和承载的用户业务跨设备间热备给出方案设计和流程机制定义;②设备内模块级可靠性研究。重点是制定模块级备份机制和方案,如电源模块、微波通信模块、传输模块等,局部硬件级备份是关键,包括电源模块的N+I备份、硬盘磁盘阵列M+N备份,但不涉及整个IP通信设备级及承载的业务备份;③设备可靠性应用场景及业务备份案例研究。文献提出的通用网络设备可靠性备份场景考虑了OSI网络分层的抽象备份,但未就电信级IP网络设备承载的用户业务(认证协议、地址分配协议等)、设备间业务级备份模型扩展及实际IP承载网场景提出可靠性方案。
1 相关技术
1.1 基于二层网络的设备冗余检测技术
本文研究基于二层网络的设备冗余检测协议(LaYer-2Standby Protocol,L2SP),实现用户接入网关设备单板内端口间/设备内单板间/设备间的3级l+1、N+1、N+M冗余备份,管理控制用户网关设备在二层接入网络中相应冗余状态联动,包括主备倒换和回切。
1.2 用户业务热备份技术
IP网络广泛存在的PPPOE/DHCP/802.1X终端接人协议业务相关技术包括:
(1)DHCP用户业务热备份。通过二层冗余检测技术L2SP触发用户网关设备单板间和设备间的DHCP用户热备份,关键是DHCP用户信息设备间备份和同步更新机制,实现DHCP在线用户冗余热备,对DHCP用户备份协议一致性检测性能要求较高。
(2)PPPOE/802.1X用户热备份,即通过二层冗余检测技术L2SP触发用户网关设备单板间和设备间的PPPOE/802.1X用户热备份。相对于DHCP用户热备份,该技术主要有两个难点:首先PPPOE/802.1X用户属性可从AAA(Authentication,Authorization and Accounting)服务器动态下发,设备间热备机制需考虑与AAA服务器链路联动切换;其次PPPOE和802.1X会话以序列号进行标识,会话序列号由用户网关设备自行分配,设备间热备需考虑两台或多台用户网关设备的PPPOE或802.1X会话序列号可能冲突的问题。因此对于PPPOE/802.IX用户接人,设备间用户业务热备在解决DHCP热备问题的基础上,还需解决上述两个难题。
1.3 关键挑战、技术创新点与技术难点
基于二层网络的用户网关设备级冗余检测,在1+1冗余备份基础上可扩展支持N+I、M+N冗余备份,填补国内外电信设备级可靠性空白,解决运营商或企业网用户网关设备通过二层网络接人用户的高可靠性难题。
用户网关常用业务和协议包括:用户终端接人PPPOE或802.1x协议、用户终端地址动态分配DHCP(v4/v6),用户网关设备间热备需实时备份802.1x/PPPOE/DHCP协议会话状态,并解决备份过程中会话ID冲突的难题。
PPPOE/802.1X和DHCP用户接人在网关设备内单板间倒换切换时间小于50ms,在网关设备间倒换切换时间小于200ms。
2 用户网关设备高可靠性组网方案与技术流程
2.1 二层冗余备份检测技术L2SP
用户接入网关最基本的可靠性要求是设备内单板级与端口级冗余检测和备份。例如对于Internet上网业务,为便于基于用户会话的灵活计费策略(时长/流量计费、预付费等),电信网络一般采用PPPOE接人方式(也可能是DHCP方式直接IP接人),用戶接人后,终端和用户网关之间建立PPP或IP会话,如果用户网关端口或单板发生故障,用户将不能正常上网。
本文研究的二层冗余备份检测协议(Layer-2StandbyProtocol,L2SP)可用于网关设备端口间备份方案,如果主端口发生故障,则用户业务被切换到备份端口,保证用户PPPOE和DHCP业务不中断、不丢包。主端口和备份端口可不在网关设备的同一块单板上,需实现设备内单板间的用户业务状态备份,保证用户接人业务可靠性和组网灵活性。
L2SP基于二层网、采用二层组播协议承载用户网关设备间冗余备份机制。对于VOIP和IPTV业务,为了实现“即插即用”,一般采用DHCP接人方式。用户接入网络后,终端和用户网关之间建立IP会话(session)。如果网络设备或链路由于发生故障而切换到新的网关设备上,此时用户终端必须与新的网关设备建立会话。在这种情况下,用户须重启认证客户端软件才能恢复业务,用户体验较差。本文技术方案可有效改进用户业务体验问题,用户网关设备上采用L2SP+BFD联动,对用户业务进行实时热备份,一旦发生设备或链路故障,主备网关设备间会进行平滑切换,做到用户零感知,并且借助于BFD检測方式,保证故障检测时间小于50ms,实现设备平滑切换。用户网关设备L2SP+BFD方案要点如图1所示。
2.2 用户与业务热备技术
用户接入网关设备间的PPPOE/802.1X/DHCP用户信息备份是实现用户业务热备的关键,考虑两种用户会话热备份模式:积极(Active)和消极(Pasive)模式。
(1)积极模式。备用设备主动获得与主用设备同步的用户会话信息,立即更新建立自己的用户会话信息;一旦主备切换事件发生,将根据已建立的用户会话信息进行用户接人业务处理。
(2)消极模式。备用设备获得与主用设备同步的用户会话信息并进行存储,只有当主备切换事件发生时,根据L2SP协议切换模型,找不到转发路径的用户报文将被发送至备用设备处理,若备用设备判断是原故障主用设备的用户报文,则将先前缓存的主用设备用户信息更新到自己的会话信息表中,此后原故障设备所有用户业务报文均可被备用设备接管处理。
积极模式可应用于1+1备份的环境中,备份设备能容纳两台设备转发表,主备切换时不会丢包;消极模式可用于N+l备份的环境中,一台设备可作为多个设备备份,一旦主设备切换,新主用设备只会将发生故障设备转发表下发至自己的数据转发平面。
PPPOE/802.1X/DHCP用户信息备份协议和备份机制的工作流程为:①用户接入网关通过二层冗余协议L2SP协商检测获得主备状态;②主设备通过用户表项备份协议将PPPOE/802.1X/DHCP用户信息备份到备用设备;③二层冗余检测协议L2SP基于BFD进行减速检测,以达到50+ms级故障检测能力;④发现用户网关设备或接人链路故障、启动主备切换;⑤故障消除后进行按需回切用户业务,同时备份用户信息,故障恢复后用户业务是否回切的策略可被预先配置。
在网关设备用户热备协议工作过程中,由于软件异常、链路通信异常等问题,主设备上的用户信息不可避免地会出现不一致,因此用户信息设备间实时同步是用户信息备份协议的重要组成部分,可灵活配置实时同步时间间隔。
对于PPPOE/802.1X用户,如果会话ID由各网关设备自主分配,则可能使不同网关间会话ID冲突,导致用户信息异常、影响用户正常业务。这是用户业务跨网关设备热备份面临的重大挑战,需采用集中资源管理服务器对用户与会话ID进行统一分配管理,各用户网关不再自主分配会话ID,防止因用户网关会话ID资源冲突造成PPPOE用户热备异常。
2.3 N+I与M+N备份扩展技术
在l+l冗余备份协议基础上,研究扩展成N+1、M+N备份方法。
首先介绍N+1的方案。1台备用设备与N台主用设备分别建立L2SP二层冗余检测关系,任何一台主用设备出现故障,均会将其它业务切换到备用设备上,如图3所示。
备用网关设备与各个主用网关分别进行L2SP+BFD协议检测,任何一个主用网关设备或链路故障均会触发倒换动作,使其用户业务切换到备用网关上。
M+N冗余备份技术在N+I备份基础上进行扩展,多个备份设备组成一个备份组(Standby Group),对多个主用设备进行备份。备份组通过算法给每个备份设备标识出优先级,高优先级备用设备与各个主用设备分别进行L2SP检测,当主用设备出现故障时,备用设备立即接管其业务,此时该备份设备主动降低自己的优先级(如降低到最低值0),备份组中其它高优先级的备份设备会与剩下的各主用设备进行L2SP冗余检测。
如果备份组中最后一个备用设备接管了故障主用设备业务,则不降低自己的优先级,继续与其它主用设备进行L2SP冗余检测和备份,该情况下对于备份组中最后一个备用设备,衍化为N+2备份模式。设备间M+N备份方案如图4所示。
备份组中的最高优先级网关设备分别与各个主用网关进行L2SP+BFD协议检测,任何一个主用网关设备或链路出现故障,均将其业务切换到备份组最高优先级网关设备上。备份组中各个网关间通过选举算法确定最高优先级设备,由其对各主用网关进行L2SP+BFD检测和用户业务备份。
3 结语
随着IP技术的飞速发展,各种增值业务在互联网上广泛应用,对IP网络电信级可靠性提出了很高要求。由于大量用户通过二层网络接人到用户网关设备,虽然业界利用以太OAM等技术解决链路可靠性问题,但接入网关设备级可靠性无法得到根本保证。本文L2SP协议填补了业界用户接入网关设备的设备级二层冗余检测协议空白,可将接人二层用户网络的用户网关设备可用性提高至99.999%,相当于设备连续运行一年,因各种可能原因造成的停机维护时间少于5分钟。按照一个中大型企业7000台用户接入网关计算,每年累计可节约因设备软硬件故障导致用户业务中断时间233小時。由此可见,二层设备冗余检测和用户业务热备技术可提高IP网络接人可靠性,提升运营商和企业用户满意度,蕴藏着巨大商机。