遆艳萍
【摘要】 本文针对临汾IPRAN网络由于二层交换功能出现环路导致承载的部分3G基站数据业务闪断故障进行了专题分析,提出了解决该类故障的措施以及网络规划布局时需要注意的问题,总结了处理IPRAN网络故障的一般方法,与大家共同学习。
【关键词】 IPRAN RSG 环路
一、引言
1.1 IPRAN技术引入背景
随着移动通信2G向3G技术的演进,以话音为主的移动业务向着话音和数据业务并重的方向发展,且移动互联网的新型业务爆发增长,这些需求推动着移动业务、承载网络的IP化进程。进入LTE等4G时代,无线网络演变为软交换架构,基站的业务流向由3G基站到RNC的汇聚型变为4G时代动态的MESH网型。传统MSTP技术,在三层支持、灵活高效的组播能力、与骨干层标准的IP网VPN和PW等业务无缝对接等功能实现上,都存在障碍。路由型的IPRAN技术,是基于标准的全IP承载技术,具有对IP承载更加灵活、功能更加全面的优势。全面支持IPTV组播,大客户全网的2、3层VPN业务,动态高效的PW功能,可与已有的IP城域网进行业务的无缝对接,是未来高QoSIP业务在接入层的最佳解决方案。
1.2临汾IPRAN承载网概述
中国联通临汾分公司分组传送网络主要定位于3G移动回传FE业务,兼顾少量2G/3G移动回传TDM业务;该网络采用集团推荐的B方案(PW+L3VPN,即L2+L3方案)来进行设计和建设。2013年6月,临汾联通开始IPRAN规模组网,至2013年底已新建IPRAN设备300多端,承载3G基站FE业务283个,运行期间,各项业务运行稳定,性能符合要求,解决了临汾联通SDH网络容量不足及3G基站FE业务带宽不足的问题,提升了网络质量。网络组网涉及CX600设备43台,ATN950B设备86台,iManagerU2000网管2台。其中核心CX600-X8设备2台,同时为每台核心CX600-X8设备配置2台扩展网元CX600-X8,单独提供CPOS端口用于RNC/BSC设备接入。ATN950B设备做为低速业务落地扩展设备。U2000网管负责业务发放、日常管理和故障处理。RSG设备使用CX600-X8,本网共涉及4台RSG,包括一枢纽RSG1、一枢纽RSG2、二枢纽RSG1、二枢纽RSG2。
随着移动业务的发展,ipran网络承载的业务量也急剧增加,由于ipran网络故障影响的业务范围也越来越大,因此总结IPRAN网络故障类型、分析IPRAN网络故障原因及总结出行之有效的处理方法是目前维护中重中之重的工作。本文针对2015年6月8日临汾联通尧都区40多个基站数据业务同时出现闪断的故障分析,得出临汾IPRAN网络由于二层交换功能出现环路导致承载的部分3G基站数据业务闪断的结论,总结出IPRAN网络规划布署合理的重要性,当二层功能出现环路时处理故障的一些经验。
二、故障策略分析
2.1故障现象
2015年6月8日15:00临汾市基站网管发现尧都区46个3G基站数据业务同时出现闪断,故障基站所在子网为尧都区农话SDH10G环、城域环SDH10G以及华为ASON环,涉及中心局620-14EGS4、700-13EGS4、700-15EGS4、208-02EGS4四个GE汇聚光口,故障基站为每个汇聚光口中的部分基站。传输SDH网管查看基站传输设备、中心局SDH汇聚GE单板无告警,故障基站传输EFT单板RMON性能正常,收发包流量正常,无坏包,错包;ipran网管查看一枢纽RSG扩展设备无告警,但登录至RSG02上ping基站ip地址有丢包现象;RNC侧无异常告警。网络图如图1。
2.2故障排查及处理
(1)故障定位
根据以上故障现象,定位故障范围:查询基站资料,发现故障基站都是通过SDH承载与ipran对接传输至RNC,通过ipran网络承载的基站没有中断现象。而SDH上承载的基站也只有部分闪断,并且不在同一个传输环中,与ipran对接传输也在不同设备、不同板卡上,基本排除由SDH传输引起网络故障。由于登录至RSG02上ping故障基站ip地址有丢包现象,排除RNC侧故障,故障可能在ipran上或基站侧设备上或是RSG二层有环路。
(2)故障排查及处理
1.核查资料后发现故障基站都单归于RSG02设备4槽位单板,怀疑该槽位单板可能有故障,由于没有备板,且4槽位单板上带有很多基站,并且大部分基站都正常,无法进行插板或更换。2.用交换机和笔记本模拟一台基站,在交换机上配置基站VLAN,在笔记本电脑上配置基站ip地址,接至一枢纽机房ASG上,ping此基站不丢包。让接入维护人员拿至故障基站上,将基站设备替换,看是否有丢包来排除是否是基站侧设备故障。3.IPRAN网管、SDH网管及RNC基站侧同时将一个故障基站和一个正常基站的VLAN、ip地址进行互换,互换后所有闪断站全部恢复。将互换的两个基站配置恢复后,基站业务也正常,其他基站也没有闪断出现。
(3)故障处理结果
基站业务恢复但故障恢复原因不明。为了进一步定位故障原因,采集数据华为研发进行分析。
2.3具体原因分析
研发人员调用数据库日志发现,在故障时间点范围内RSG02 Virtual-Ethernet4/0/1.500接口14:46检测到环路,环路一直到19:04分才彻底消除,与基站业务闪断恢复时间点相吻合。VE 4/0/1.500接口环路之后,设备收到了大量的ARP攻击报文导致4槽位单板ARP CPCAR报文通道丢包;由于单板上ARP CPCAR通道带宽是基于单板的,所以单板上一个端口或者一个VLAN出现ARP攻击会导致整个单板的ARP通道拥塞,从而导致正常端口的ARP报文会被攻击报文挤掉,造成正常的业务端口在ARP攻击期间无法正常学习ARP,导致业务出现闪断。
根据端口描述,环路的端口是连接视频监控的设备。
interface Virtual-Ethernet4/0/1.500
control-vid 500 dot1q-termination
dot1q termination vid 500 to 600
ip binding vpn-instance ShiPinJianKong
ip address 172.17.160.1 255.255.255.0
由以上数据分析,得出故障原因:
1)RSG02设备VE4/0/1.500接口有环路,设备收到了大量的ARP攻击报文导致4槽位单板ARP CPCAR报文通道丢包,从而导致正常端口的ARP报文会被攻击报文挤掉,造成正常的业务端口在ARP攻击期间无法正常学习ARP,导致业务出现闪断。2)检查视频监控交换机在故障时间点内并未出现硬件环回,造成交换机出现环路的原因及解开环路的原因不明,已经联系中兴厂家对交换机出现环路的原因进行进一步分析。中兴厂家登录中兴交换机未能采集到故障时间段内的数据,未能进行分析。
解决措施:(1)排查视频监控二层设备环路的源头,在二层设备上部署防环检测和破环协议。将视频监控交换机网关下沉至ASG设备上,并检查现网ipran核心层和汇聚层是否仍有二层交换机接入,将有二层交换机的网关下沉至ipran接入层上,避免由于环路造成批量业务闪断。(2)CX600设备计划在V6R6SPH037补丁中优化防攻击方案,优化为当设备检测到一个接口或者一个VLAN出现攻击或者环路后,针对这个环路的接口或者VLAN子接口自动下发防攻击策略,避免整个单板的ARP CP-CAR通道拥塞影响其它正常端口的业务。
三、经验总结
移动业务的IP化和宽带化发展趋势,推动着移动承载网络向IP化演进。未来承载网应具备网络智能化、结构扁平化、带宽GE化等特点。随着移动数据流量不断增大,承裁网只有提供更高的带宽才能满足用户需要。而IPRAN支持丰富的路由协议、动态转发、L3VPN、组播等动态网络部署,都能很好地满足上述要求。最近几年,IPRAN产品在OAM、网络保护能力、建设成本方面都有了很大的提高,在运营商网络中得到了大规模的部署,在未来的承载网中,IPRAN将会是最重要的传送技术,同时,基于传统传送网的故障处理办法也将发生深刻变化,出现逐步IP化的变化趋势。
本次ipran网络故障历时较长,影响范围较大,事后对本次故障的处理方法进行了总结,以便以后出现类似故障时能迅速定位,减少故障处理时间,大概为如下几点:
1)基站网管人员发现有批量基站中断时应立即通知传输网管人员和属地维护人员,并上报至相关主管领导。
2)传输网管人员接到故障通知后,根据告警对故障进行初步定位,如无法定位通知相关技术人员及厂家技术支援。
3)遇有基站数据业务闪断的告警并且网管查看无任何异常告警的情况下,可以登录RSG扩展对故障基站进行ping测试,如果有丢包可排除RNC侧故障,故障可定位至传输通道或基站侧设备。
4)查看传输路由,查找故障基站是否经过相同的路径或板卡,如果有,则可定位故障为相同的路径或板卡有故障。如果不是,继续查找原因
5)网管上无法定位故障时可以用交换机和笔记本模拟一台故障基站,将故障基站替换进行测试,可以排除基站侧设备故障。
6)将故障基站和正常基站的数据进行对换,如果正常的基站发生故障,故障的基站恢复,可以定位为基站数据配置有故障,如果故障基站仍旧有故障,正常的基站也仍然正常,则可以定位为传输通道有故障。
7)检查ipran网络对应故障板卡是否有环路或arp攻击,有环路时可能会造成网络出现丢包或中断。