光网络设备ECC常见问题解决思路剖析

2014-10-17 01:49遆艳萍
中国新通信 2014年5期
关键词:本地网网元网管

遆艳萍

【摘要】首先从ECC在SDH管理网中作用入手,进一步阐述了ECC路由的主要特点,将理论知识和实际工作相结合,对工作中遇见的典型故障案例全面深入进行了思考,对问题解决思路进行了深入分析,对具体维护实践工作提供可用的参考价值。

【关键词】ECC路由网管网关网元

SDH管理网就是管理SDH网络单元的电信管理的组成部分,它由一系列分离的ECC及站内数据通信链路组成,具有智能的网络单元和采用嵌入的ECC是SDH管理网的重要特点,这两者的结合使SDH管理网的信息传送和相应时间大大缩短,而且可以将网管功能经ECC下载给网络单元,从而实现分布式管理。因此ECC电路的维护在SDH维护中有很重要的作用。

一、ECC是什么?

ECC(Embedded control channel)即嵌入式控制通道,是SDH系统内传送网管消息的逻辑通道,用于SDH网元间通信,传送TMN信息,实现网管对非网关网元的管理。SDH的数据通信通路DCC构成了嵌入控制通道ECC协议栈的物理层,再生段DCCR使用STM-N段开销字节D1-D3速率为192Kbit/s通道和复用段DCCM使用STM-N段开销字节D4-D12速率为576Kbit/s的通道,DCCR可以接入中继站和端站,DCCM是端站间网管信息的快车道。网管和网关网元之间通过TCP/IP协议传递信息,然后,网关网元和非网关网元之间通过ECC通信,最终实现了网管和非网关网元之间的通信。

二、ECC路由的特点

(1)ECC通信为一致路由。(2)ECC路由是双向的。如对于无保护链,如果一根光缆断,则无法登录。(3)若路由正常,网管通过网关网元登录非网关网元走网上的短路径,若短路径不正常,则走网上的长路径,若长短路径均不正常,则不能登录。(4)ECC路由的分配与业务配置无关,但与光接口板的环回状态有关,若是对远端第一个VC4环回,可能会切断ECC通信。(5)ECC通道的建立方式也是采用发端并发,收端选择建立路由的方式。(6)在建设网络是需要充分考虑ECC路由,合理规划ECC路由,将网关网元所辖的网元数控制在一个合理的范围内。

三、典型案例

1、ECC路由规划不合理造成ECC通信异常。

现象描述:某日,传输机房SDH网管上分别有三个独立的本地网上的网元不断出现若干个网元颜色突然变灰又恢复的现象。传输设备无任何告警。

原因分析:传输设备在网管正常时,没有任何告警,电路正常,ECC通路正常,但是又出现网管管理不到的现象。检查ECC链路管理,发现与网关网元连接的ECC链路有240个网元,而实际这个网关网元应管理的网元为 68个,经过分析原来是在本地网进行网络优化时,将三个本地网通过155M光路连接起来,引起网关网元管理域分配不合理造成ECC阻塞,造成网管速度慢,部分网元短时间通信中断,从而在网管上呈现网元颜色突然变灰又恢复的现象。

处理过程:由于原先三个本地网都有自己的网关网元,由于网络优化,相互开通了光路造成ECC通路阻塞,将相互之间的155M光路的ECC通路关闭,网管速度增加,经常出现的部分网元突然变灰又恢复的现象没有再出现。

2、网元ID重复导致设备故障后部分网元异常。

现象描述:某本地传输网1采用Optix2500+系统组成,某日其上一套2500+设备上报网元处于安装态,业务正常,该设备网元ID为9-15。

原因分析:由于设备处于安装态,初步定位为设备主控单板故障导致,其它有可能为人为操作导致业务删除,而使设备处于安装态。

处理过程:(1)现场备份网管数据;(2)查看网元运行状态为安装态:cfg-get-nestate;(3)查看网元主控的交叉数据为空:cfg-get-slot:(4)通过ecc-get-route;查看当前的网元连接情况,跟该网元有连接的设备有256套,而实际的该网络只有40套,断定问题出在这里。查看网元连接信息,发现通过一套10G设备连接到网管没有的很多设备上,咨询客户后得知该10G设备之前曾开通省干其它地市站点的业务,最后判断为其它站点误操作导致。(5)首先把该设备的ECC关闭,通过ecc-get-route;命令查询到连接的网元数量为40个。重新下发业务,告警消失。(6)通过咨询其它地市的情况发现,也有一套9-15网元不过是155A设备,由于该155A设备故障导致无法正常通信,所以连接到了该网元,重新下发业务导致该网元数据清空,同时该设备和2500+设备不符所以无法正常开工,使设备处于安装态。

3、SCC板故障引起ECC通信异常。

(1)OPTIX2500+系统组网,如图1所示。

现象描述:某本地网采用OPTIX2500+系统组网,有五个网元,网络结构为链型结构,2号网元为网关网元,某日,网管发现4、5号网元登录失败,网管通信状态正常,传输设备无任何告警。

原因分析:因1、2、3号网元能正常登录,说明网管、网线正常。可能是3号网元与4号网元光缆中断,查看告警无异常告警,排除掉电、断纤等可能。将故障定位到3-4网元之间。到4号网元查看,网元的SCC板的状态运行正常,拔下4号网元的SCC板,2号网元的网管终端再次登录,可登录到5号,说明4号网元的SCC板故障。

处理过程:更换4号网元的SCC板,待SCC板开工后,重新下发数据,再次从2号网元登录,所有站点都登录成功。

(2)Metro1000设备组网

现象描述:某局点,1-2-3-4-5共5个Metro1000设备组通道保护环,1号网元为网关网元,其它4个以1号网元为网关网元。某日,3号网元频繁瞬告脱管,其它网元正常。无传输告警。

原因分析及处理过程:由于3号网元频繁瞬告脱管,但是没有任何传输告警,所以将故障定位在2-3号网元之间的SCC板,到3号网元,3号网元SCC板正常,更换3号网元主控板,故障现象仍然存在。查询当前主控板也无异常复位记录,排除本站主控故障。检查ECC路由信息,发现3号网元的ECC信息是由2号网元转发的。怀疑网元2主控、东向光板或网元3西向光板传递ECC故障。将1号网元与2号网元连接方向的ECC关闭,则网元3的ECC信息由4号网元转发,观察发现所有网元均正常登陆,无脱管现象。怀疑网元2主控故障。将2号网元主控板进行更换,故障排除。非网关网元网元脱管不一定是本端主控故障或传递光板的,也可能是上游ECC信息转发站的主控故障,应通过修改数据配置逐步逐段进行定位。

四、经验小结

ECC通道对SDH网元的管理至关重要,快速排除ECC故障,尽早恢复SDH网元间通信主要依据以下几个方面:(1)故障处理的基本原则。故障的定位基本原则是“先外部,后传输;先网络,后网元,先高速,后低速;先高级,后低级”的原则。(2)ECC故障处理的基本原则。①排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障。②排除人为因素。检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确,;网元ID是否重复;是否存在未将网元加入到系统管理域;是否人工设置人工路由。③将故障定位到单站或两个站之间。检查是否由于光路障碍或设备掉电引起。④检查设备单板。检查光接口板是否故障,检查SCC板是否故障。

随着光网络传输产品的广泛应用,传输网管的监控、配置数据等作用不断完善,因此对ECC通道的维护也越来越重要,做好ECC通道的维护是保证通信链路”千里眼、顺风耳”正常的前提。

【摘要】首先从ECC在SDH管理网中作用入手,进一步阐述了ECC路由的主要特点,将理论知识和实际工作相结合,对工作中遇见的典型故障案例全面深入进行了思考,对问题解决思路进行了深入分析,对具体维护实践工作提供可用的参考价值。

【关键词】ECC路由网管网关网元

SDH管理网就是管理SDH网络单元的电信管理的组成部分,它由一系列分离的ECC及站内数据通信链路组成,具有智能的网络单元和采用嵌入的ECC是SDH管理网的重要特点,这两者的结合使SDH管理网的信息传送和相应时间大大缩短,而且可以将网管功能经ECC下载给网络单元,从而实现分布式管理。因此ECC电路的维护在SDH维护中有很重要的作用。

一、ECC是什么?

ECC(Embedded control channel)即嵌入式控制通道,是SDH系统内传送网管消息的逻辑通道,用于SDH网元间通信,传送TMN信息,实现网管对非网关网元的管理。SDH的数据通信通路DCC构成了嵌入控制通道ECC协议栈的物理层,再生段DCCR使用STM-N段开销字节D1-D3速率为192Kbit/s通道和复用段DCCM使用STM-N段开销字节D4-D12速率为576Kbit/s的通道,DCCR可以接入中继站和端站,DCCM是端站间网管信息的快车道。网管和网关网元之间通过TCP/IP协议传递信息,然后,网关网元和非网关网元之间通过ECC通信,最终实现了网管和非网关网元之间的通信。

二、ECC路由的特点

(1)ECC通信为一致路由。(2)ECC路由是双向的。如对于无保护链,如果一根光缆断,则无法登录。(3)若路由正常,网管通过网关网元登录非网关网元走网上的短路径,若短路径不正常,则走网上的长路径,若长短路径均不正常,则不能登录。(4)ECC路由的分配与业务配置无关,但与光接口板的环回状态有关,若是对远端第一个VC4环回,可能会切断ECC通信。(5)ECC通道的建立方式也是采用发端并发,收端选择建立路由的方式。(6)在建设网络是需要充分考虑ECC路由,合理规划ECC路由,将网关网元所辖的网元数控制在一个合理的范围内。

三、典型案例

1、ECC路由规划不合理造成ECC通信异常。

现象描述:某日,传输机房SDH网管上分别有三个独立的本地网上的网元不断出现若干个网元颜色突然变灰又恢复的现象。传输设备无任何告警。

原因分析:传输设备在网管正常时,没有任何告警,电路正常,ECC通路正常,但是又出现网管管理不到的现象。检查ECC链路管理,发现与网关网元连接的ECC链路有240个网元,而实际这个网关网元应管理的网元为 68个,经过分析原来是在本地网进行网络优化时,将三个本地网通过155M光路连接起来,引起网关网元管理域分配不合理造成ECC阻塞,造成网管速度慢,部分网元短时间通信中断,从而在网管上呈现网元颜色突然变灰又恢复的现象。

处理过程:由于原先三个本地网都有自己的网关网元,由于网络优化,相互开通了光路造成ECC通路阻塞,将相互之间的155M光路的ECC通路关闭,网管速度增加,经常出现的部分网元突然变灰又恢复的现象没有再出现。

2、网元ID重复导致设备故障后部分网元异常。

现象描述:某本地传输网1采用Optix2500+系统组成,某日其上一套2500+设备上报网元处于安装态,业务正常,该设备网元ID为9-15。

原因分析:由于设备处于安装态,初步定位为设备主控单板故障导致,其它有可能为人为操作导致业务删除,而使设备处于安装态。

处理过程:(1)现场备份网管数据;(2)查看网元运行状态为安装态:cfg-get-nestate;(3)查看网元主控的交叉数据为空:cfg-get-slot:(4)通过ecc-get-route;查看当前的网元连接情况,跟该网元有连接的设备有256套,而实际的该网络只有40套,断定问题出在这里。查看网元连接信息,发现通过一套10G设备连接到网管没有的很多设备上,咨询客户后得知该10G设备之前曾开通省干其它地市站点的业务,最后判断为其它站点误操作导致。(5)首先把该设备的ECC关闭,通过ecc-get-route;命令查询到连接的网元数量为40个。重新下发业务,告警消失。(6)通过咨询其它地市的情况发现,也有一套9-15网元不过是155A设备,由于该155A设备故障导致无法正常通信,所以连接到了该网元,重新下发业务导致该网元数据清空,同时该设备和2500+设备不符所以无法正常开工,使设备处于安装态。

3、SCC板故障引起ECC通信异常。

(1)OPTIX2500+系统组网,如图1所示。

现象描述:某本地网采用OPTIX2500+系统组网,有五个网元,网络结构为链型结构,2号网元为网关网元,某日,网管发现4、5号网元登录失败,网管通信状态正常,传输设备无任何告警。

原因分析:因1、2、3号网元能正常登录,说明网管、网线正常。可能是3号网元与4号网元光缆中断,查看告警无异常告警,排除掉电、断纤等可能。将故障定位到3-4网元之间。到4号网元查看,网元的SCC板的状态运行正常,拔下4号网元的SCC板,2号网元的网管终端再次登录,可登录到5号,说明4号网元的SCC板故障。

处理过程:更换4号网元的SCC板,待SCC板开工后,重新下发数据,再次从2号网元登录,所有站点都登录成功。

(2)Metro1000设备组网

现象描述:某局点,1-2-3-4-5共5个Metro1000设备组通道保护环,1号网元为网关网元,其它4个以1号网元为网关网元。某日,3号网元频繁瞬告脱管,其它网元正常。无传输告警。

原因分析及处理过程:由于3号网元频繁瞬告脱管,但是没有任何传输告警,所以将故障定位在2-3号网元之间的SCC板,到3号网元,3号网元SCC板正常,更换3号网元主控板,故障现象仍然存在。查询当前主控板也无异常复位记录,排除本站主控故障。检查ECC路由信息,发现3号网元的ECC信息是由2号网元转发的。怀疑网元2主控、东向光板或网元3西向光板传递ECC故障。将1号网元与2号网元连接方向的ECC关闭,则网元3的ECC信息由4号网元转发,观察发现所有网元均正常登陆,无脱管现象。怀疑网元2主控故障。将2号网元主控板进行更换,故障排除。非网关网元网元脱管不一定是本端主控故障或传递光板的,也可能是上游ECC信息转发站的主控故障,应通过修改数据配置逐步逐段进行定位。

四、经验小结

ECC通道对SDH网元的管理至关重要,快速排除ECC故障,尽早恢复SDH网元间通信主要依据以下几个方面:(1)故障处理的基本原则。故障的定位基本原则是“先外部,后传输;先网络,后网元,先高速,后低速;先高级,后低级”的原则。(2)ECC故障处理的基本原则。①排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障。②排除人为因素。检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确,;网元ID是否重复;是否存在未将网元加入到系统管理域;是否人工设置人工路由。③将故障定位到单站或两个站之间。检查是否由于光路障碍或设备掉电引起。④检查设备单板。检查光接口板是否故障,检查SCC板是否故障。

随着光网络传输产品的广泛应用,传输网管的监控、配置数据等作用不断完善,因此对ECC通道的维护也越来越重要,做好ECC通道的维护是保证通信链路”千里眼、顺风耳”正常的前提。

【摘要】首先从ECC在SDH管理网中作用入手,进一步阐述了ECC路由的主要特点,将理论知识和实际工作相结合,对工作中遇见的典型故障案例全面深入进行了思考,对问题解决思路进行了深入分析,对具体维护实践工作提供可用的参考价值。

【关键词】ECC路由网管网关网元

SDH管理网就是管理SDH网络单元的电信管理的组成部分,它由一系列分离的ECC及站内数据通信链路组成,具有智能的网络单元和采用嵌入的ECC是SDH管理网的重要特点,这两者的结合使SDH管理网的信息传送和相应时间大大缩短,而且可以将网管功能经ECC下载给网络单元,从而实现分布式管理。因此ECC电路的维护在SDH维护中有很重要的作用。

一、ECC是什么?

ECC(Embedded control channel)即嵌入式控制通道,是SDH系统内传送网管消息的逻辑通道,用于SDH网元间通信,传送TMN信息,实现网管对非网关网元的管理。SDH的数据通信通路DCC构成了嵌入控制通道ECC协议栈的物理层,再生段DCCR使用STM-N段开销字节D1-D3速率为192Kbit/s通道和复用段DCCM使用STM-N段开销字节D4-D12速率为576Kbit/s的通道,DCCR可以接入中继站和端站,DCCM是端站间网管信息的快车道。网管和网关网元之间通过TCP/IP协议传递信息,然后,网关网元和非网关网元之间通过ECC通信,最终实现了网管和非网关网元之间的通信。

二、ECC路由的特点

(1)ECC通信为一致路由。(2)ECC路由是双向的。如对于无保护链,如果一根光缆断,则无法登录。(3)若路由正常,网管通过网关网元登录非网关网元走网上的短路径,若短路径不正常,则走网上的长路径,若长短路径均不正常,则不能登录。(4)ECC路由的分配与业务配置无关,但与光接口板的环回状态有关,若是对远端第一个VC4环回,可能会切断ECC通信。(5)ECC通道的建立方式也是采用发端并发,收端选择建立路由的方式。(6)在建设网络是需要充分考虑ECC路由,合理规划ECC路由,将网关网元所辖的网元数控制在一个合理的范围内。

三、典型案例

1、ECC路由规划不合理造成ECC通信异常。

现象描述:某日,传输机房SDH网管上分别有三个独立的本地网上的网元不断出现若干个网元颜色突然变灰又恢复的现象。传输设备无任何告警。

原因分析:传输设备在网管正常时,没有任何告警,电路正常,ECC通路正常,但是又出现网管管理不到的现象。检查ECC链路管理,发现与网关网元连接的ECC链路有240个网元,而实际这个网关网元应管理的网元为 68个,经过分析原来是在本地网进行网络优化时,将三个本地网通过155M光路连接起来,引起网关网元管理域分配不合理造成ECC阻塞,造成网管速度慢,部分网元短时间通信中断,从而在网管上呈现网元颜色突然变灰又恢复的现象。

处理过程:由于原先三个本地网都有自己的网关网元,由于网络优化,相互开通了光路造成ECC通路阻塞,将相互之间的155M光路的ECC通路关闭,网管速度增加,经常出现的部分网元突然变灰又恢复的现象没有再出现。

2、网元ID重复导致设备故障后部分网元异常。

现象描述:某本地传输网1采用Optix2500+系统组成,某日其上一套2500+设备上报网元处于安装态,业务正常,该设备网元ID为9-15。

原因分析:由于设备处于安装态,初步定位为设备主控单板故障导致,其它有可能为人为操作导致业务删除,而使设备处于安装态。

处理过程:(1)现场备份网管数据;(2)查看网元运行状态为安装态:cfg-get-nestate;(3)查看网元主控的交叉数据为空:cfg-get-slot:(4)通过ecc-get-route;查看当前的网元连接情况,跟该网元有连接的设备有256套,而实际的该网络只有40套,断定问题出在这里。查看网元连接信息,发现通过一套10G设备连接到网管没有的很多设备上,咨询客户后得知该10G设备之前曾开通省干其它地市站点的业务,最后判断为其它站点误操作导致。(5)首先把该设备的ECC关闭,通过ecc-get-route;命令查询到连接的网元数量为40个。重新下发业务,告警消失。(6)通过咨询其它地市的情况发现,也有一套9-15网元不过是155A设备,由于该155A设备故障导致无法正常通信,所以连接到了该网元,重新下发业务导致该网元数据清空,同时该设备和2500+设备不符所以无法正常开工,使设备处于安装态。

3、SCC板故障引起ECC通信异常。

(1)OPTIX2500+系统组网,如图1所示。

现象描述:某本地网采用OPTIX2500+系统组网,有五个网元,网络结构为链型结构,2号网元为网关网元,某日,网管发现4、5号网元登录失败,网管通信状态正常,传输设备无任何告警。

原因分析:因1、2、3号网元能正常登录,说明网管、网线正常。可能是3号网元与4号网元光缆中断,查看告警无异常告警,排除掉电、断纤等可能。将故障定位到3-4网元之间。到4号网元查看,网元的SCC板的状态运行正常,拔下4号网元的SCC板,2号网元的网管终端再次登录,可登录到5号,说明4号网元的SCC板故障。

处理过程:更换4号网元的SCC板,待SCC板开工后,重新下发数据,再次从2号网元登录,所有站点都登录成功。

(2)Metro1000设备组网

现象描述:某局点,1-2-3-4-5共5个Metro1000设备组通道保护环,1号网元为网关网元,其它4个以1号网元为网关网元。某日,3号网元频繁瞬告脱管,其它网元正常。无传输告警。

原因分析及处理过程:由于3号网元频繁瞬告脱管,但是没有任何传输告警,所以将故障定位在2-3号网元之间的SCC板,到3号网元,3号网元SCC板正常,更换3号网元主控板,故障现象仍然存在。查询当前主控板也无异常复位记录,排除本站主控故障。检查ECC路由信息,发现3号网元的ECC信息是由2号网元转发的。怀疑网元2主控、东向光板或网元3西向光板传递ECC故障。将1号网元与2号网元连接方向的ECC关闭,则网元3的ECC信息由4号网元转发,观察发现所有网元均正常登陆,无脱管现象。怀疑网元2主控故障。将2号网元主控板进行更换,故障排除。非网关网元网元脱管不一定是本端主控故障或传递光板的,也可能是上游ECC信息转发站的主控故障,应通过修改数据配置逐步逐段进行定位。

四、经验小结

ECC通道对SDH网元的管理至关重要,快速排除ECC故障,尽早恢复SDH网元间通信主要依据以下几个方面:(1)故障处理的基本原则。故障的定位基本原则是“先外部,后传输;先网络,后网元,先高速,后低速;先高级,后低级”的原则。(2)ECC故障处理的基本原则。①排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障。②排除人为因素。检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确,;网元ID是否重复;是否存在未将网元加入到系统管理域;是否人工设置人工路由。③将故障定位到单站或两个站之间。检查是否由于光路障碍或设备掉电引起。④检查设备单板。检查光接口板是否故障,检查SCC板是否故障。

随着光网络传输产品的广泛应用,传输网管的监控、配置数据等作用不断完善,因此对ECC通道的维护也越来越重要,做好ECC通道的维护是保证通信链路”千里眼、顺风耳”正常的前提。

猜你喜欢
本地网网元网管
一种全网时钟同步管理方法
基于财务共享服务模式下电信行业本地网财务管理问题的探讨
“五制配套”加强网管
地市传输网络安全评估及解决方案探讨
发射机房网管系统的设计原则及功能
Java EE平台在综合网元管理系统中的应用研究
网管支撑系统运行质量管控的研究与实现
S1字节和SDH网络时钟保护倒换原理
从网管系统到网管云:论网管集约化的建设思路
数据挖掘方法在本地网资产获利能力分析中的应用