张 平
张 平:北京铁路局北京通信段沧州车间 助理工程师 061000 河北沧州
随着光纤通信设备的快速增长和通信业务量的急剧膨胀,光传输网中的各类故障也不断出现,已成为影响通信质量的主要因素。有些故障相当复杂,需要维护人员具有扎实的理论知识和实践技巧,才能做到迅速、准确、安全排除故障,把影响和损失降到最低。为此,总结故障维修的原则和分析思路,并举例说明。
定位故障的基本原则是先外部、后传输;先单站、后单板;先线路、后支路;先高级、后低级。
在定位故障点时,先排除外部的可能因素,比如光纤线路、交换机、电源的故障,以及设备接地不良、周围工作环境恶劣等,再考虑传输设备的问题。要遵循由大到小,逐步缩小故障范围的查找方法。首先,判断是哪个单站的问题,然后查找是哪个单板问题。由于线路板的故障常常会引起支路板异常告警,在定位时应按照“先线路、后支路”的顺序去查找。在分析告警时应先分析高级别的告警,如危急告警和主要告警,再分析低级别的告警,因为高级别的告警常常会引起低级别的告警。遵循以上原则,可以少走弯路,节省时间。
当故障发生时,要尽快掌握现场设备与网管终端的告警信息,以及相关部门或人员提供的情况,掌握得越详细越好。然后对这些信息进行分析,初步判断故障范围,为下一步工作奠定基础。
环回法分软件环回和硬件环回。
1.软件环回。通过软件设置的方法,对设备端口(光接口和电接口)或通道进行的环回操作。软件环回分外环回和内环回。其中,当需要弄清单板的接口模块及外部电缆是否正常时,应设置外环回,然后再用误码仪测试,根据测试结果可以判断出单板的接口模块与外部电缆是否工作正常,按不同接口分为SDH和PDH接口板外环回。当需要弄清设备的交叉单元及业务路径是否正常时,应设置内环回。在单板上设置了内环回后,根据误码仪测试的结果就可以判断交叉单元和业务路径是否正常,按不同接口分为SDH和PDH接口板内环回。
2.硬件环回是用尾纤和自环电缆对物理端口进行(光接口和电接口)的环回操作。硬件环回时,需确保光模块的接收光功率小于过载光功率。为防止光功率过高损坏接收光模块,在硬件环回时,应加上衰减器来降低输入光功率,根据环回位置,SDH接口的硬件环回分为本板自环和交叉自环。
环回法可将故障定位到单站或在分离外部故障时使用,不依赖告警、性能事件的分析,方便、快捷,但可能影响ECC及正常业务。
当故障定位到某个单板或外部接口插头时,重新拔插,如果故障消失,说明是接触不良,否则考虑其他方法。拔插法操作简单、快捷,能分清是单板接触不良还是本身有故障。
替换法就是用一个性能完全正常的部件去替换一个被怀疑工作不正常的部件,需要有备板,通过替换来判断该部件是否有问题。可替换的部件包括线缆、光纤、法兰盘、电源、单板和设备等。替换法适用于排除外部设备的问题,或者当故障定位到单站后,用于排除单站内单板的问题。替换法,操作简单,但需要注意的是在插拔单板时要小心,避免弄坏板件,造成人为故障。
故障定位到单站后,可查询设备当前的配置数据,如逻辑系统及其属性、复用段的节点参数、线路板和支路板通道的环回设置、支路通道保护属性,以及通道追踪字节等是否正常来定位故障。对于网管误操作,还可以查看网管的操作日志来进行确认。配置数据分析法对查清故障的真正原因非常有效,但定位故障的时间相对较长,且要求维护人员对设备非常熟悉。
实例1:某地传输网采用中兴通讯的ZXMP 320设备组网,整个网络由3个S320组成,构成一个无保护链结构,中心局设在A网元,A网元的7#OIB1的第1个光口接B网元7#OIB1的第2个光口,B网元7#OIB1的第1个光口接C网元7#OIB1的第2个光口,各网元间都有2Mb/s业务,网络结构如图1所示。在网管上发现B与C网元的业务偶有瞬断,同时在A光口与C光口出现OFS告警,2Mb/s业务出现AIS及UAS告警。
图1 网络结构
故障分析:无光纤中断、接地故障等,排除外部原因。由于A网元与C网元同时出现OFS告警,这种2个网元同时故障导致业务不通的可能性很小,因此排除A与C网元,把故障定位在B网元。可能是交叉板、时钟板、电源板及OIB1出现问题。对交叉板与时钟板,先用拔插法,再使用替换法,故障依旧;在更换OIB1时,发现所有的单板出现复位现象,怀疑电源板的供电电路出现问题或者背板总线出现故障,更换电源板后,故障消失。
实例2:传输网元A,B,C为一链形组网,需要在A和C 2个站点间增开2个2 Mb/s通道(中间跨1个站点),如图2所示。按照步骤,在A站、C站将时隙配到电支路板,B站相应时隙穿通,配置命令下发后,显示配置成功。在对新开通的通道测试中发现,C站硬件环回,A站挂表测试,信号正常,但当C站断开环回时,信号仍然正常,判断通道中存在软环。
图2 传输网元A,B,C为链形组网
故障分析:从网管上查看通道中并没有做环,于是初步判断B或C站有问题。首先到达B站,将A方向尾纤断开,软环消失,恢复后仍然存在,再将C方向尾纤断开,软环也消失,说明软环存在于C站。因C站并没有告警,故判断可能交叉板死机或NCP板死机,将交叉板切换后,软环仍然存在,问题集中在NCP板上,怀疑NCP板数据没有下发到网元。于是决定重启NCP板,结果NCP板拔插后,工作恢复。
实例3:传输网元A,B,C为一链形组网,A站为主时钟,B和C抽取线路时钟,B和C之间有专网电话通道,如图3所示。B站和C站之间的2 Mb/s通道误码非常大,音频电话杂音也很大。
图3 传输网元A,B,C为一链形组网
故障分析:登录网管后,没有发现告警,但性能参数不好。查询时钟源状态,发现B网元上排电源时钟板时钟状态不能锁定,切换到下排电源时钟板后,时钟状态能锁定,故障排除,于是判断出故障的原因是由于B网元上排电源时钟板时钟单元造成的。
总之故障定位有多种方法,各有其适用范围,各有其特点、在实际应用中,常常需要几种方法综合运用,才能取得好的效果。
[1]田国栋.光纤通信技术[M].西安:西安电子科技大学出版社.2008.
[2]孙桂芝、孙秀英等.光传输网络组建与北京铁路局运行维护[M].北京:机械工业出版社.2011.