陕西联通网管中心 | 王
高质量ATM网络服务高端专线客户典型故障分析夯实管道基础
ATM网络以其良好的技术特点和成熟的用户市场已发展为高端专线大客户网络。
随着通信技术的飞速发展,ATM网络以其良好的技术特点和成熟的用户市场已发展为高端专线大客户网络。既然网络是为高端客户服务的,在网络性能需求及故障处理时效上要有较高的要求。
网络通常是由许多相互连接的硬件和软件所组成的复杂系统。由于其固有的复杂性,在网络中发生的问题往往也是复杂的。因此在故障诊断和处理过程中,应遵循先恢复后处理、先本端后对端、先尽量调通后处理,先解决故障后了解根源。
七大常见告警信息
Loss of signal:当ATM端口在收不到“bit transition stream”,即ATM 端口不断收到“1”值或不断收到“0”值,可能原因为接到此端口的SONET/SDH断掉。提议检查光纤,确定无物理损坏以及本端端口正常,确定远端端口正常, 可用LOOPBACK测试。
Line AIS/Path AIS:此告警说明ATM端口收到接在此端口的SONET/SDH PTE发出来的Path AIS的告警信息后,它会向ATM端口发出此Path AIS告警。
Loss of Cell Delineation:Cell Delineation是用来区分ATM包界限,它用ATM包Header的HEC来做ATM包界限的划分。该告警说明ATM端口察觉到cell delineation 错误。
Line RFI/Path RFI:说明SONET/SDH远端接口出现Line问题。提议检查SONET/SDH远端接口情况。
Down with signal label mismatch:这是关于SONET/SDH 路径label不吻合而发出的告警,一般需检查传输。
Down with red Alarm:此告警说明收不到“bit transition stream”,即物理端口不断收到“1”或不断收到“0”值。可能原因为端口“receive end”断掉,“out of frame error”即是当端口在三毫秒内收到两个以上的framing-bit error或在收到五个连续的framingbit,有两个以上是error。
Down with yellow alarm & Down with blue alarm:此告警一般指连到此设备的远端端口收不到传输信号。
通过上述告警分析,我们可得出物理层故障的一般解决步骤:通过查看告警类型,基本确定故障类型和故障点(本端或对端);通过相关网管查看物理端口的统计信息,有无error包或丢弃包;判定是否为设备板卡或端口故障;查看本端的尾纤/线缆收发是否正确;查看是否尾光缆或跳纤故障,可采取逐段环回的方式进行环路测试;检查ODF转接架的法兰盘或跳纤是否有损坏或不干净,使用专门仪器进行擦拭;ATM设备与相连用户端设备或光端机数据配置的正确性;检查本端设备ATM端口发/收光功率是否正常,与光端机是否一致,如有必要,需增加光衰器;需要注意,光端机在通常情况下,只能检测到“收”光有无问题,而“发”光无法检测到,所以排障时需要同相关设备结合来定位故障点;需要特别关注线路中的转换设备的状态,如单多模转换器、光猫等小型设备。
典型案列分析:与传输光端机间电路不通
故障现象:ATM设备光端口告警“Loss of Cell Delineation”或“Signal Label Mismatch”;
故障处理:首先通过相关网管查看告警信息;再通过网管统计信息,检查物理端口流量情况,发现无“cell error”统计;检查本地传输及光纤跳纤的连接情况,逐段环回测试后,电路状态正常,放通后故障依旧。
由此,可初步判定与光端机设备数据不匹配导致,检查ATM设备和光端机设备参数配置。经与光端机核查数据配置,在光端机上更改了C2字节参数值,调整为13(对应ATM帧结构)后,故障排除,业务恢复正常。
此类故障我们可总结出以下经验:光端机与ATM设备对接时,光端机“C2”字节应设置为13,“华为”光端机设备与ATM设备对接时,“C2”字节需要特别指定,默认值为“02”;ECI/LUCNET设备可透传“C2”字节,通常无需人为设置。
Active表示PVC状态正常。虽然PVC状态正常,但查看PVC流量后发现流量异常。
第一情况:PVC流量有丢包,可通过修改UPC参数,试改为DISABLE,再留意PVC流量有无丢包。如不再丢包,可能是用户发出的流量大过其QOS 和TRAFFIC DESCRIPTOR 所允许范围。在此情形下,改UPC回参数值,通知用户限制其流量。
第二情况:PVC没有流量,可能是PVC的VPI/VCI或DLCI与用户侧路由设备的VPI/VCI 或DLCI不一致,请用户查看其设备的VPI/VCI或DLCI值。
第三情况:PVC利用率高过百分百,有可能是用户发出的流量大过其 QOS 和TRAFFIC DESCRIPTOR所允许范围,通知用户限制其流量
第四情况:PVC是单收单发现象,或流量极小,可能是用户设备MTU限制,通知用户查看其设备配置。
我们可得出PVC故障的一般处理步骤:首先查看PVC状态;再查看PVC所经物理传输中继是否有故障;而后查看PVC两端的物理端口状态、流量等;最后查看PVC两端的逻辑端口状态、流量、协议(LMI)等是否正常。另要注意,即使PVC状态为active,但是否有单收单发现象,或流量极小。
故障处理:首先从用户端设备发起PING测试,上查看PVC两端流量统计情况,有无收发CELL包;如果发现端接用户的端口没有收到CELL包,建议用户自查路由器物理端口output值有无增长;通过用户自查后发现物理端口output值没有增长,重启路由器子端口后故障恢复。
故障处理:首先用户从路由器发起大包PING测试,通过相关设备监控PVC两端有无“nonconforming”或“discarded”cell包;监控发现,有大量“non-conforming”或“discarded”cell包增长;因此可判定故障点为用户路由器侧没有做“流量整形”的数据配置,即通常是因为路由器没有针对每条PVC在“VC-CLASS ATM 中指定PCR/SCR流量参数和业务类型;在用户更改路由器参数后故障消除。
故障分析:某客户投诉到某地PVC的 PING 包时延突然变大,业务无法正常进行,经查,流量正常且无丢弃和拥塞的信元。核对CIRCUIT PATH发现HOP COUNT为8跳,路由多绕了一大圈 。故障解决将此PVC重新指定路由后,时延恢复正常。