□文/王青松 刘建璞
(中国联合网络有限公司邢台市分公司 河北·邢台)
(一)误码检测。SDH光传输系统对误码的检测,是以“块”为单位的,所谓“块”,是指一系列与通道有关的连续比特。当同一块内的任意比特发生差错时,就称该块为误码块。
SDH光传输设备中按分段分层的思想对误码进行全面系统的检测。具体有再生段误码B1、复用段误码B2、高阶通道误码B3、低阶通道误码V5。它们之间的关系可以用图1表示。(图 1) 图 1中,RST、MST、HPT、LPT 分别表示再生段终端、复用段终端、高阶通道终端和低阶通道终端;B1、B2、B3以及V5误码分别在这些终端间进行监测。由图1可以看出,如果只是低阶通道有误码,则高阶通道、复用段和再生段将监测不到该误码;如果再生段有误码,则将导致复用段、高阶通道、低阶通道出现误码。所以,一般来说,有高阶误码则会有低阶误码。例如,如果有B1误码,一般就会有B2、B3和V5误码;反之,有低阶误码则不一定有高阶误码。如有V5误码,则不一定会有B3、B2和B1误码。
由于高阶误码会导致低阶误码,因此在处理误码问题时,我们应按照先处理高阶误码后处理低阶误码的顺序来进行处理。
(二)误码相关的性能和告警事件。光传输系统本端检测到误码时,除本端上报误码性能或告警事件外,本端还将误码检测情况通过开销字节通知对端。根据本端和对端上报的这些性能和告警事件,可以方便地定位是哪一段通道或哪一个方向出现误码。表1给出了与误码相关的性能和告警事件列表。(表1)
误码产生的原因很多,但归结起来有两大类,外部原因和设备原因。
(一)外部原因。(1)光纤性能劣化、损耗过高。接收光功率低于接收灵敏度;(2)传输距离过短、未加衰减器,导致接受光功率过载;(3)光纤接头不清洁或连接不正确;(4)设备附近有强烈干扰源;(5)设备接地不好;(6)设备散热不良、工作温度过高。
(二)设备原因。(1)线路板接收侧信号衰减过大、对端发送电路故障、本端接收电路故障;(2)时钟同步性能不好;(3)交叉板与线路板、支路板配合不好;(4)支路板故障;(5)风扇故障,导致设备散热不良。
(一)常用方法。对于误码问题的处理,常用的方法是先分析、二环回、三替换等,重点是告警性能分析法。
1、告警性能分析法。处理误码问题时,通过对表1列出的误码性能、告警事件仔细分析,定位出故障点,再通过环回或替换法进行验证和排除故障。分析内容包括:性能/告警事件的名称:通过网管查询BBE、FEBBE、指针调整 性 能 事 件 ,REI、B1OVER、B2OVER、B3OVER、BIP-EXC、SD、SF 等告警事件,告警/性能信息之间是否存在对告关系。产生性能/告警时间的网元/单板/通道:检查告警/性能事件发生在哪些网元、哪些单板、哪些通道上,最好能给出受误码影响的业务通道路径图,尤其是那些运行质量极不稳定(出现过业务中断现象)的业务通道业务路径图。性能/告警事件发生的时间:对网管上报的性能/告警事件,要查询是何时上报的,尤其是对由于瞬间误码过大而引起的业务瞬断,要查询告警/性能事件的产生时间,由于北方凌晨、午夜、中午、傍晚这4个时间点是气温变化比较大的时间点,对于架空或裸露的光纤影响比较大,如果光纤质量不好或敷设不好,在光纤的接头处,受气温变化影响比较大,会发生短暂的突发性大误码,导致有规律性的业务瞬断。性能/告警事件发生的频度:通过查询15分钟和24小时的寄存器,可以看出性能/告警事件发生的频度,是否有大致规律,这样也有利于下一步的故障处理操作。如果是大误码频繁出现,导致业务不可用,将不得不采取紧急措施进行环回、倒换、换板处理。如果是偶发性大误码,则需要摸清规律,在大误码出现时才能进行相关故障的定位处理。
表1 误码越限告警及性能事件检测位置与作用
图1 误码检测关系及检测位置
2、逐段环回法。由于环回法尤其是对VC4和STM-N接口进行环回,会造成VC4和STM-N通道内其他业务的中断,一般比较少用。但若条件允许,可使用环回法快速定位出故障站点。但环回的时间不能太长,以免造成通道内其他正常业务长时间中断。在出现误码过量导致业务中断情况时,可以对出现误码过量的单板通道进行环回,如果本端做外环回后误码数量有明显变化,则可以认为本站或后续站点的单板存在问题。如果故障已经定位到单站后,可以进一步进行光板、支路板或交叉板环回,定位出故障单板。由于环回法对正常业务有影响,因此此种方法慎用。
3、替换法。对于设备器件性能不良或性能劣化的情况,替换法通常都是故障定位的好方法。通过单板对调、光纤对调、交叉板主备倒换或网络保护倒换,查看误码是否发生变化,进而定位和排除故障。替换的对象可以是一段光纤、一个设备、一块单板、一个业务通道或一个光器件等。替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;或故障定位到单站后,用于排除单站内单板、通道、模块或纤芯的问题。
4、经验处理法。在一些特殊的情况下,通过复位单板、掉电重启等手段可有效排除故障、恢复业务。但因为该方法不利于故障原因的彻底查清,所以除非情况紧急,一般尽量少用。
(二)处理步骤
第一步:首先排除外部的故障因素,如接地不好、工作温度过高、线路板接收光功率过低或过高等问题。
第二步:分析线路板误码性能事件,排除线路误码。
观察线路板误码情况,若某站所有线路板都有误码,则可能是该站时钟板问题,更换时钟板;若只是某块线路板报误码,则可能是本站线路板问题,也可能是对端站或光纤的问题。若定位出是单板的故障,可通过更换相应单板解决;若定位出是光纤的故障,可通过更换相应单板光纤解决。
如果允许的话,可以使用环回法定位故障,包括VC4通道的环回、电口环回和通过尾纤光口环回。
第三步:分析支路误码性能事件,排除支路误码。若只有支路误码,则可能是本站交叉板或支路板有问题,更换相应支路板或交叉板即可。
下面举几个典型的案例说明误码问题分析与处理的方法。
(一)线路故障导致的误码。组网图如图2所示,为一条无保护链。#1站为网管中心站,业务方式为集中型业务,即每个站均与#1站有2M业务。(图2)
故障现象:#1站2M支路板有LPBBE误码,#3站的东向光板有 RS-BBE、MS-BBE、HP-BBE性能数据,#4站西向光板有MSFEBBE、HPFEBBE性能数据,2M支路板有LPFEBBE性能数据。
处理步骤:
第一步:通过对上报的性能事件分析,可以判断出问题可能出在#3站东向光板的接收端、光路(包括光纤和光接头)、#4站西向光板的发送端。
第二步:在#3站通过尾纤自环东向光板,#3站东向光板误码和#1站2M支路板误码消失。说明是#4站西向光板问题或光路问题。
第三步:使用替换法,将#3站和#4站之间的两根光纤对调,观察误码情况,若误码情况发生变化,#3站和#4站上报的数据与调换前的数据相反,则说明是光纤有问题,检查光路情况。若调换后故障现象不变,说明故障点在4号站。
第四步:更换#4站西向光板后,误码消失。说明4站西向光板有故障。
(二)时钟板故障导致的误码问题。组网如图3所示:四个OptiX622站组成的一个单向通道环,#1站为中心站,业务为集中型业务,即每个站均与#1站有2M业务,全网时钟跟踪方向为 4→3→2→1。(图 3)
故障现象:#1站、#3站、#4站相应的2M业务通道报误码性能LP-BBE、LPFEBBE;#2站2M业务通道上报LPFEBBE;#2站东向光板、#3站东西向光板、#4站西向光板报大量误码性能 RS-BBE、MS-BBE、HP-BBE 以及 MSFEBBE、HPFEBBE,其中 #1站、#3站、#4站还存在大量TU指针调整。
处理步骤:
第一步:从误码性能事件分析,可能是#2站的东向光板故障,或是#3站的时钟板或交叉板故障。具体分析思路如下:通常情况下,误码不会引起指针调整,而大量的指针调整却会导致误码。因此,当故障中误码和指针调整同时出现时,我们应先从分析指针调整的原因着手。该故障现象中从#3站开始出现了支路指针调整,则说明#3站时钟源的锁定存在问题。由于其提取的时钟源是线路时钟源,则可能是上游站或本站的线路板提供参考时钟源有问题,也可能是本站的时钟板锁定参考时钟源有问题。
第二步:更改#3站、#4站的时钟跟踪方向,发现故障现象依旧。说明#3站时钟板可能有问题。因为如果是#2站东向线路或#3站西向线路提供的参考时钟不好的话,更改时钟跟踪方向后,误码应该消失。
第三步:更换#3站的时钟板后,误码消失,故障排除。
(三)接地不好导致误码。组网配置如下:整个网络由5个622M网元组成,构成一条无保护链,网络结构如图4所示。#1站为网关网元连接网管终端,其他各站均只与#1站有2M业务,#1站时钟设为自由振荡,其他各站均跟踪西向线路时钟。(图4)
故障现象:
某一天,从网管系统查询告警和性能情况时发现#1站、#2站、#3站的低阶通道出现大量误码,同时有低阶通道性能参数越限告警,#4站、#5站低阶通道有少量误码。
故障分析定位:各站都出现了低阶通道误码,由于其他站点只与#1站有业务,所以#1站有问题很可能是故障产生的原因。如果#1站有问题,4块支路板PL1出故障的可能性比较小,有可能是线路板SL4本身故障,或者是风扇防尘网罩被灰尘阻塞,系统散热不好,引起线路板SL4产生高阶通道误码,进而产生低阶通道误码。#1站中继电缆或电源接地不好导致误码。
处理步骤:
第一步:由于查到的是历史性能数据,为明确故障现象是否依然存在,复位各站性能数据,查询当前性能,发现误码仍在产生。
第二步:查询#1站和其他各站线路板性能,没有发现高阶通道误码,接着清除风扇网罩灰尘,系统性能没有改善。
第三步:随后仔细检查设备工作环境,发现电源线的工作地和保护地比较松,接触不好,将两根地线接好后,再观察性能,已无误码产生,故障排除。后经确认,可能是在布放中继电缆时将其拽松了。
总之,在实际维护过程中,误码的表现形式多种多样,在实际处理误码问题时,一定要沉着、冷静,不要被太多的告警和性能所迷惑干扰,按照先高阶、后低阶的顺序来处理,先采用告警性能分析法,关注误码发生的时间、发生的频度、误码数量,然后通过逐段环回,找出发生故障的单站甚至单板,最后使用替换法来解决故障。
[1]韦乐平主编.光同步数字传送网.人民邮电出版社,1998.
[2]吉泽升编.传输原理.哈尔滨工业大学出版社,2002.
[3]华为技术有限公司内部资料.2006.