顾牡丹+周辉奎
摘要:IP网络基本承载所有核心网业务,IP网络故障是否能够快速定位直接影响到业务的恢复时间,该文根据日常出现的故障进行总结整理,形成一个通用的排错思路,为读者能够快速定位是否为IP问题以及提供一种IP问题的排错思路。
关键词:CDMA网络;故障定位;问题排查
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)30-0017-02
1 概述
随着电信CDMA项目业务的大量部署,作为承载所有核心网业务的IP网络起着至关重要的作用,能否快速定IP网络故障位直接影响到业务的恢复时间。IP网络故障管理难主要因为两点:第一,告警数量泛滥,每天告警数量相当多,并且一些告警定位后,又不需要作恢复工作,这时维护人员不堪重负。第二,如果当故障发生了却无任何的告警,只能依赖摸索排查,定位时间长,这主要依赖人的经验。这两种现象是故障管理工作者的最大困扰,作者通过深入诊断其根源,根据现网出现过的故障进行总结,形成一个通用的排错思路,供各现场参考。
2 故障应急研究
IP网络运行的基础是物理链路和SPF(Shortest Path First)算法,链路规划比较简单,路径预期就比较清晰。如在绝大多数的中小型城域网络设计中,网络层次少和层次之间采用主备双链路进行保护,路径非主即备。对于类似这种网络,维护网络拓扑图至关重要,就可以满足故障处理的需要。
登陆设备后,现场先做一个tech-support,隔15分钟后,再做tech-support;故障问题处理流程如下:
图1
2.1 查看IPBH 7750 log 99中有哪些告警信息
1)IPBH 7750上联CN2 CE的端口、下联CDMA网元是否出现中断告警;
2)板卡CPM、MDA、IOM板卡的告警;
3)Pchip Memory Parity的告警;
4)Show port/mda/card XXXX detail可以查看端口、板卡的last change时间
5)Show system cpu查看系统cpu利用率;正常idle为80-90%
图2
2.2 检查传输侧问题
主要是检查BTS和IPBH之间的E1链路是否为正常:
图3
如果Admin、Oper的状态是down,说明IPBH7750至BTS 2M链路没有起来,请查找传输,如果状态谁up则表明IPBH7750至BTS 2M链路正常,排除传输问题。
IPBH与BTS IPCP协议封装是否正常:
如果IPCP状态不是opened状态,说明IPBH7750至SDH链路不正确,请查找传输问题,用户可以通过自环进行测试,如果IPCP状态是opened,并且分配和本地相同的地址给对端,说明IPBH7750至SDH链路没有问题,请查找SDH至BTS 2M链路。
图4
2.3 检查路由问题
首先排查CN2 CE和IPMUX之间链路是否正常,再确保两端port是否为100和FULL;直连地址互ping,查看是否能够ping通,确认IPBH 7750是否有注册MMC的汇总路由网段;因本地IPBH 7750和MMC不在同一地市,是需要跨CN2才能进行互通,可以以本地IPBH接BTS的地址作为源地址ping注册的MMC地址;如果Ping不通,则检查CN2 CE路由问题。
IPBH和CN2 CE ospf邻居是否建立;IPBH是否向CN2 CE发布该局点的汇总路由网段,检查IPBH上静态条目和发布CN2 CE的前缀掩码看是否匹配,如过不匹配,则修改配置,确保两者匹配;连接MMC侧的IPBH判断是否有BTS的汇总路由网段;以IPBH接MMC的地址作为源地址同IPBH接BTS的地址相ping;检查端口状态是否为100M和FULL,以及是否可ping通直连网段。
3 小结
IP网络故障的快速定位直接影响到业务的恢复时间,通过常用的排错思路,根据现网出现过的故障进行总结,为读者能够快速定位是否为IP问题以及提供一种IP问题的排错思路。
参考文献:
[1] 白炎. IP承载网分布式网络质量监测和故障定位技术的研究[D]. 天津: 天津大学, 2013.
[2] 梁艳花, 王佳. 链路聚合在IP承载网中的应用及优化研究[J]. 电脑与信息技术, 2015(1).
[3] 赵季红. 多层传送网的故障定位算法[J]. 南京邮电学院学报:自然科学版, 2003(3).
[4] 鲁蔚锋. 两跳中继TDD-CDMA蜂窝网络容量分析[J]. 东南大学学报:自然科学版, 2013(4).