王贤锋,刘 涛
(中国电信股份有限公司徐州分公司 徐州 221000)
宽带远程接入服务器 (broadband remote access server,BRAS)是一种智能化的多业务控制网关设备,它将用户管理、安全控制以及业务控制等各种功能有机地集成在一起,实现对各类业务的用户鉴别、呼叫控制、策略控制、QoS保障、网络资源分配以及安全保障等功能。用户在上网过程中接入会话的识别、认证、计费、授权、IP地址分配以及所使用业务的策略控制等,均可在BRAS上完成。
BRAS设备是宽带城域网中不可缺少的部分,起着承上启下的作用,其设备的可靠性关系到用户的上网感知度,必须保证BRAS安全可靠。
BRAS设备在中国电信股份有限公司徐州分公司 (以下简称徐州电信)城域网中处于第二层接入控制层,如图1所示。徐州电信城域网典型的3层网络拓扑结构由宽带接入层、业务控制层和核心层组成。核心层由两台高端路由器华为NE5000E组成,采用2+4集群方式,通过40 Gbit/s链路上联到省公司的骨干城域网ChinaNet以及CN2网络。BRAS处于网络结构中的第二层业务接入控制层,采用双10 Gbit/s链路上行到不同的核心层设备,它收集接入层的用户数据分组,转发给核心层设备,起到承上启下的作用。
图1 徐州电信城域网拓扑结构
徐州电信城域网每台BRAS下挂大约40多台汇聚交换机和OLT设备,规划每台BRAS最大承载用户2万线,因此保证BRAS设备的安全可靠至关重要。从网络拓扑结构中可以看出,BRAS设备实现了双链路上行到不同的核心层设备,保证了单链路故障下用户业务的正常使用,如果BRAS出现整台宕机故障,将导致该BRAS下挂所有关键用户(如网吧、政府企业等固定IP地址的专线用户)业务无法使用(由于宽带接入层中汇聚交换机采用双挂上联到不同的BRAS,因此采用PPPoE拨号的部分普通用户,还可以拨号到另外一台BRAS上进行正常的业务使用),引起重点客户群大面积障碍。
在出现BRAS整台设备网络瘫痪的情况下,如何保证用户业务的正常使用,保障用户的利益不受损坏,正是本文要讨论的问题。
徐州电信经过网络实践,采用BRAS双机热备份的方式解决了单BRAS故障情况下用户业务的正常使用问题。
整台BRAS出现故障,将对重点关键客户造成业务中断,根据工作中的实践经验总结出造成BRAS出现整机故障的关键原因有以下4点。
此种类型的故障最易发生。由于BRAS设备的集成度越来越高,命令条数越来越多,操作需要更谨慎。虽然徐州电信对设备配置脚本有严格的审核流程,但也存在操作失误的情况。如在一次省公司安排的网络安全加固专项工作中,在配置BRAS设备上的BGP安全密钥时,需要BRAS和核心层设备都要配置相同的密钥,当BRAS侧按省公司下发的脚本配置好密钥时,由于对端核心层没有做相应的配置,导致了整台设备脱网故障的发生。
如果BRAS的供电系统出现问题,设备将无法工作。虽然现在BRAS设备在电源可靠性设计上有了很大的提高,最新的设备都是采用6路独立供电,但在极端情况下(如机房停电、设备着火),也可能使设备掉电,导致宕机,退出服务。
BRAS的主控单位是整个系统的控制核心部分,主控单元出现问题,必将导致设备瘫痪。目前,城域网现网中每台BRAS都配置2块主控板,采用一主一备的方式,平时主用主控板在工作,备用主控板同步主用主控板的信息,以备在主用主控板出现问题时能够无缝地切换到备用主控板。但在现网中出现过一种特殊情况:因主用主控板出现故障,备用主控板不能够同步主用主控板信息而且没有触发主备倒换,导致整台设备出现故障。
虽然BRAS设备在入网之前,都进行了严格的测试,但现实工作中,各种需求情况都有,往往由于操作系统自身的不足造成设备整机瘫痪。例如,维护人员在实际的配置工作中,事前根据需求整理好配置脚本,统一往设备上进行大批量粘贴,以便提高效率。徐州电信某种类型的BRAS在一次性粘贴大量配置脚本 (180条左右)时导致CPU利用率长时间过高而引起协议中断,造成用户业务异常,而且由于CPU利用率处于高位,整机设备很卡,很难进行操作。经过分析定位,是由于设备操作系统自身bug造成,通过升级到更高级别版本彻底解决了此问题。
徐州目前有文化路出口核心和铜山路出口核心NE5000E两台,实现双机冗余热备份的BRAS选取目前主流的华为技术ME60,采用10 Gbit/s链路分别上联到两台出口核心;两台设备之间采用2条GE链路捆绑做trunk相连接,用来部署MPLS TE隧道,以便把备份信息和承载保护流量发送给备用BRAS,保证主备设备信息同步,实现网络到用户流量的牵引。
汇聚层设备采用中兴通讯T64G交换机,分别通过4条GE链路上行到主备用BRAS。
规划ME60-1作为T64G-1的主用设备,同时作为T64G-2的备份设备;ME60-2作为T64G-2汇聚层交换机的主用设备,同时作为T64G-1的备份设备。具体网络结构如图2所示。
图2 BRAS冗余热备份结构
根据图2设计,T64G交换机分别采用2条GE链路上联到 BRAS ME60-1和 ME60-2,ME60-1为 T64G-1的主用设备,ME60-2为T64G-2的主用设备,具体规划见表 1。
表1 主备BRAS链路设计
为实现BRAS ME60的冗余热备份,在完成链路开放后,还需要采用VRRP和BFD等协议进行软件保障。
(1)VRRP 部署
VRRP部署在BRAS下挂交换机的下联口上,一个VRRP保护组包括主、备链路,该组独占一个VLAN,根据VRRP组的状态决定每一个链路接入用户的主、备状态,处于主状态时才接入用户,备状态时不接入用户,VRRP设计见表2。
(2)BFD 设计
BFD双向流检测技术可以加速故障检测,缩短对于一些实时性、抖动和分组丢失等指标要求高的业务的检测时间,以便VRRP能根据BFD状态变化快速重新确定链路主备关系。BFD的规划设计见表3。
表2 VRRP规划设计
表3 BFD规划设计
在主备BRAS状态发生切换后,新主用BRAS设备的BAS口立即主动下发免费ARP,刷新下游二层设备的MAC地址表,引导用户的上行流量切换到该设备。但从网络到用户侧的回程流量需要通过合理部署牵引方案,才能使之顺利到达用户。本冗余热备份方案采用目前成熟的共享地址池+隧道重定向方案进行部署。
隧道重定向既克服了利用地址池路由进行流量牵引时对上层设备路由表稳定性的冲击,又解决了路由重定方式向对直连链路的要求,节省了工程成本。当主用BRAS的下行链路发生故障时,流量利用其完好的上行链路流到主用BRAS后,主用BRAS利用其上层网络通过主备之间隧道牵引流量到备份BRAS设备,再由备份BRAS设备的BAS口转发给用户,在设备正常工作时,交换机下挂用户从各自的主BRAS上进行流量来回,具体如图3所示。
图3 正常情况下双机热备份后的流量路径
当交换机通往主BRAS的链路发生故障时,备用BRAS的BAS口主动下发免费ARP,刷新下挂交换机的MAC地址表,引导用户流量到该备用设备,该BRAS把流量发送到城域网出口核心设备,完成用户上行流量的发送;当外部流量流向用户时,还是利用原有BRAS设备的上行链路,通过主备BRAS之间的互联隧道,流向备用BRAS,通过备用BRAS流向用户,如图4所示。
当整台主用BRAS出现故障时,用户侧和网络侧流量都通过备用BRAS进行上行和下行发送,如图5所示。
图4 倒换后双机热备份后的流量路径(场景1)
图5 倒换后双机热备份后的流量路径(场景2)
(1)设备序列号添加
部署热备份后,每个热备份用户上线后在两台BRAS上都有转发表项,会各占一个序列号,所以设备接入序列号数量需参考割接前设备上的用户数量提前做好添加。
(2)调整DHCP服务器租期
徐州电信城域网中有很多OLT是下挂到汇聚交换机上的,当汇聚交换机上连ME60链路切换后,ONU不能自动感知链路通断,ONU上的语音业务会有影响,需要DHCP服务器配置为短租期功能,使设备割接后ONU能在尽量短的时间内发起续租,从而重新申请到IP地址恢复通信,待用户稳定后(用户量回升到正常),再将租期修改为正常租期。
(3)RADIUS绑定及 NAS信息配置
按照 RADIUS协议规定,BRAS上报RADIUS计费报文中必须包含NAS信息,对于同一份账单,这个信息必须一致,否则会造成计费失败。所以必须使互为主备份的设备发送给RADIUS和DHCP服务器的报文中的NAS等信息保持一致。同时实施此操作前需要提前完成RADIUS用户的解绑定及后续重新绑定的工作。
(4)主备ME60地址池路由控制
采用共享地址池方式时,通过配置路由策略,使主用BRAS发布的地址池网段路由开销小(或优先级高),使备用BRAS发布的地址池网段路由开销大(或优先级低),这样核心层设备NE5000E上优选指向主设备的路径。
本文设计的BRAS冗余备份技术,是一项解决整台BRAS出现故障情况下保证用户宽带业务正常使用的重要技术。该方案通过在徐州电信城域网中的运行,取得了良好的经济效益和社会效益,减轻了维护人员的工作压力,提高了用户对电信产品质量的认同感,为徐州电信业务的发展提供了可靠的技术支持。
1 韦乐平.电信网发展的战略趋势与挑战.电信科学,2011(1)
2 马昊,余劢.谈移动运营商IP城域网与宽带接入网的协调发展.中国高新技术企业,2010(4)
3 Cui A,Hertoghs Y.Multi-service Broadband Network Functional Modules and Architecture.Broadband Forum TR-145,2011
4 钱春巍,陈建业.IP城域网业务开展及技术.现代电信科技,2006(7)