陈晓辉 张磊
【摘 要】在传输故障处理中,误码故障是较为常见、同时又较难处理的一种。本文通过一个实例阐述了此类故障处理的方法,着重提出依靠信号流来梳理传输网络、处理故障的思路。
【关键词】单向通道保护环;VC4;误码;打环
我们知道传输误码的产生主要包括几类:光功率过高、光功率过低、光纤头不清洁、单板故障、板间配合不好、时钟故障、母版故障以及接地不良、温高等。解决此类故障的方法主要包括:告警性能分析法、逐段环回法和替换法等。下面简要介绍一下最近我部门处理的一起接入环误码故障,本次故障的处理基本涵盖了大多数此类故障的处理方法。通过对信号流的分析准确定位故障区间,最终排除了故障,其处理过程也为我们今后的工作提供了宝贵的经验。
该环(拓扑图)是由华为Optix 155/622光端机组成的单向通道保护环,富邦大厦为SNCP节点,全环为集中型业务,东方医疗为中心站,其他各站分别对东方医疗配置了32个2M。业务配置均为“西收东发”,如图中箭头所示。
1.故障现象
我们通过详细的查询告警和性能,发现了大量低阶误码上报:乔马公司支路板个别通道上报BIP-EXC(误码过量),所有在用通道均有误码上报;北国商城支路板的8、9、10三个通道上报BIP-EXC;建华商场支路板有远端误码上报;东方医疗对应乔马公司的相应通道上报远端误码,收建华商场的业务通道上报误码、误码秒,对应北国商城的3条通道有远端误码上报。
此外,我们注意到光板性能正常,没有高阶误码(光缆线路故障可能性小)和指针调整(时钟故障可能性较小)等,其他各站均无异常。
通过查询业务配置,我们发现出现告警的业务均为第2个VC4,顺时针时隙占用为:东方医疗到建华商城占用1~29个2M时隙;东方医疗到富邦大厦占用30~32时隙;东方医疗到乔马公司占用33~63时隙。
通过分析故障现象及业务配置,我们可以初步定位于建华商场、维尔康和富邦大厦三站之间,交叉板、光板的可能性最大。
2.处理过程
由于本次故障的处理过程比较复杂,也经历了多次定位,以下分四个步骤,力图阐述一个完整的处理过程:
2.1通过更改配置的方式恢复在用业务
由于乔马公司收东方医疗报误码,且主用接收方向为西向,因此将乔马的主用接收方向改为收东向,查询性能,误码不再上报。
由于北国商城收东方医疗的3个通道报BIP-EXC,该时隙在富邦大厦(SNCP节点)接收的也是主环西向光板,因此在富邦大厦将该时隙主用接收方向改为东向。查询性能,误码也不再上报。而建华商场收东方医疗没有误码,由此可以看出富邦大厦的东向、建华商场的西向应该都没有问题。(可见故障点应该在建华商场、维尔康和富邦大厦三站之间)
由于东方医疗收建华商场的2板位报误码,主用方向为收西向,因此将主用方向改为收取东向。
至此,全环误码消失,业务恢复。
2.2选取2条业务跟踪监测来缩小定位范围
选取第2个VC4的17和38两个时隙(均没有在用业务)分别配置到维尔康和富邦大厦,另一端仍在东方医疗,其余各站穿通,端站信号方向均为“西收东发”,时隙占用如下:东方医疗2-PD1-17到维尔康1-PD1-20占用第17时隙;东方医疗6-PD1-38到富邦大厦1-PD1-20占用第38时隙。
通过网管查看这两条电路的性能,维尔康收东方医疗报远端误码;富邦收东方医疗报本端误码块、误码秒;东方医疗收维尔康报本端误码秒;东方医疗收富邦报远端误码。由此可见,故障定位于维尔康东向光板、富邦大厦西向光板以及两站交叉板之间。
维护人员首先到维尔康更换了东向光板,无效;从网管硬复位主用交叉板,交叉板倒换后(从网管做交叉板的倒换,并没有引起相应网元支路通道的PS倒换告警),误码仍没有恢复。然后赶到富邦大厦,同样得,更换单板以及倒换交叉板后均无效。最后检查了机房环境温度和接地情况,未发现异常。
难道是故障定位错误?还是两块交叉板都坏了(可能性很小)?
2.3通过对VC4打环,进行精确定位
由于只选择了两条电路进行测试,我们对结论的可靠性产生了怀疑,于是决定分别在各端站对整个第2个VC4进行打环,具体操作如下:
通过步骤1,我们已经将相应端站的主用接收方向做了更改,东方医疗-乔马公司、东方医疗-北国商城、东方医疗-建华商场三端路由的主用方向已经改为了一致路由,即已经“化环为链”了,因此具备了打环的条件(否则如果打环时业务配置仍为“西收东发”,就会中断许多业务,这也是我们开始并没有采用打环操作的原因)
我们首先将乔马公司不在用的十条业务主用“收”配回到西向(用作测试),这十条通道的误码重新上报。然后在富邦大厦的东向光板对第2个VC4打外环(此时东方医疗收建华的业务已改为东向,不受影响,北国商城的业务因收取备环方向而受到了影响,操作前已经过用户同意),查性能,乔马的误码不再上涨,观察15分钟后误码完全消失;接着在富邦大厦的西向光板对第2个VC4打内环,乔马的误码再次上报。至此,我们认为故障点就在富邦大厦,由于已经换过西向光板,因此主用交叉板有重大嫌疑。
维护人员携带交叉板到站后,首先拔除了主用交叉板,让备板工作。这时东方医疗、乔马和富邦的支路板上报了许多PS告警(而在网管上做交叉板倒换操作,支路板是没有PS告警的),等PS告警消失后,查询性能,误码不再上报。
此时我们有了疑问,为什么在网管对交叉板进行复位倒换时,业务并没有恢复,而拔除了主用交叉板后,业务就恢复了呢?是不是由于设备上“坏板”对好的备板产生影响,使得备板也不能正常工作呢?
带着疑问,我们将带去的交叉板插到主用交叉位置上。这时网管马上又出现了大量误码(产生误码的通道并没有变化),可见不是交叉板的问题。接着我们拔出了主用时钟板,误码依旧,看来也不是时钟板的问题。最后拿手电筒查询了母板槽道,“没有倒针现象”。
此时我们还注意到,原主用交叉板为“SS13GTC”,而备用交叉板为“SS12GTC”,这两种单板工作模式出厂默认都设为“12模式”,即支持“时分交叉”,可以完全互为备份。虽然如此,由于原备用交叉为SS12GTC,而我们更换的交叉板均为SS13GTC,会不会出现版本不匹配而不能协调工作呢?我们本地网曾经上过一批交叉板,由于该板电源模块的问题导致一块单板不在位,整个网元单板脱管。
2.4再次更换两块交叉板后,更换母板子架
我们再次携带两块版本一致的交叉板替换了子架的单板,误码仍没有消除。此时,我们认定为母板问题。更换母板子架后,插回原来各单板,业务完全恢复。
3.故障原因及处理建议
我们再次检查了母板的9槽位,发现最下面倒数第二行的几根针确实“歪了”,上次没有看清楚,以为是灰尘。由于某些针的接触不良,导致通过此处的第二个VC4的传输错误。母板故障需要更换子架,所以这是我们最不希望看到的结果。而在传输故障定位中,母板问题又往往是最后考虑的。
通过本次故障我们看到误码故障的产生原因有很多,处理的方法又极为复杂。误码故障的处理集中体现了对传输系统的理解和对信号流走向的把握。以小见大,传输故障的处理乃至传输网络的构建都需要对传输系统有深入的了解,具有“全程全网”的概念,要站在全局的角度来处理个别问题;同时也要把理论吃透,把SDH网络的信号流和基本模块搞清楚,在处理问题时能够定位到模块,而不仅仅是单板。我们在实际的工程建设和维护过程中,一些被忽视的细节往往会导致今后网络的不稳定,甚至造成无法估量的经济损失。比如在工程建设时,不佩戴防静电手镯,身上的静电就有可能击穿单板;在拔插单板时,插入的不牢靠就有可能造成母版倒针和接触不良。还有些不良习惯,当时并没有产生告警,也没有任何性能事件上报,可在几个月后,甚至几年后对网络运行产生严重影响,而在一个环路多个故障的同时发生就有可能是灾难性的故障。这些都要求我们的工程和维护人员在工作中要严格要求自己,严格按照操作规程实施,并不断提高自己的专业理论知识,积累故障处理的经验。