浅谈PTN设备日常维护中的常见告警处理

2015-04-29 16:38许志成高婷婷王兆敏潘志鹏
科技尚品 2015年11期
关键词:网元单板网管

许志成 高婷婷 王兆敏 潘志鹏

摘 要:随着组网方式的多样化和规模的不断扩大,网元数量的不断增加,网管的监控管理和维护工作更加重要,告警信息的增加和故障的处理是最直观的体现。常见告警和对应的处理方法对于开展通信设备的运维工作起到了至关重要的作用。

关键词:PTN;告警

在日常的维护工作中,设备网元的各种告警是我们经常遇到的。随着组网方式的多样化和规模的不断扩大,网元数量的不断增加,网管的监控管理和维护工作更加重要,告警信息的增加和故障的处理是最直观的体现。

日常维护中的网元告警实际上大部分是比较常见的,那么接下来简单地分析一下这些常见告警和对应的处理方法。

我们常见的告警可以简单分为:环境告警、设备告警、业务告警等。

1 环境告警我们比较常见的主要有

单路输入电源电压丢失:需要到站点现场依次检查是否是多路供电,电源分配箱是否有供电问题,电源线是否压接牢固,倒换设备电源板检查是否是电源模块问题,依次处理直到告警消除。

电源输入电压越限(过压或欠压):需要到站点现场逐段检查供电电源设备——电源分配箱——设备电源模块的供电电压,针对检查出的问题进行处理直到告警消除。

外部环境告警:需要到站点现场检查对应的外部环境指标是否正常,外部传感器工作是否正常,系统告警门限值配置是否正确,依次检查找到问题后处理直到告警消除。

2 设备告警可以简单分为单板告警、接口告警

单板告警常见的主要有:单板CPU利用率越限:出现该告警可能是因为业务或协议开启过多,超过设备实际可提供的带宽;某些模块运行异常,导致该模块长时间占用CPU;网络不稳定,导致长时间处理协议报文或频繁倒换。利用降温手段降低单板CPU的温度,参照设备规格检查业务数量是否超过设备处理能力并配置合理的业务数量,检查网络状况,逐项排查处理直到告警消失。

单板脱位:出现该告警可能是因为运行中的单板被人为拔除;运行中的单板与主控板的板间通讯出现异常,导致主控板无法检测到单板;运行中的单板电源模块故障导致单板掉电。

到现场检查单板是否被拔出或掉电,用手电筒查看背板插槽插座部分是否有物理损伤,检查主控板与背板连接的插针是否有损伤,然后进行复位、倒换、更换单板或背板、机框等操作直到告警消除。

单板类型失配告警:该告警可能是因为在设备物理槽位插入错误的单板类型,应安板与实安板类型不一致;新增的单板启动后上报的类型与网管上逻辑安装的类型不一致;运行中的单板自身硬件原因。

现场检查单板类型与应安板类型是否一致,在物理槽位上插入与应安板类型一致的单板并检查告警,检查板卡启动后上报的板卡类型与逻辑安装板卡是否一致,在网管上安装与物理槽位类型一致的板卡并检查告警,更换物理槽位安装单板,待单板启动后检查告警,依次按照以上顺序进行排查处理直到告警消失。

常见的接口告警主要有:

以太网物理接口ETPI Ethernet端口未连接:端口处于down状态,或者从up变到down。可能导致业务中断。该告警可能是因为未插光模块或up状态时拔出光模块;未连接光纤或up状态时拔出光纤;收光功率过低;端口shutdown;端口震荡抑制;对接端口码型不一致;时钟子卡异常,无法恢复10GE频率。

3 业务告警可以简单分为

协议告警、隧道/伪线告警:

3.1 协议告警常见的主要

有OSPF告警、BGP告警等。

OSPF HELLO包超时:本端接口超时未收到邻居发送的hello报文,导致邻居断链。OSPF邻居DOWN,学习不到路由,造成业务中断。该告警可能是因为报文收发问题,对端设备CPU越限导致OSPF报文无法发送,本端设备CPU越限导致OSPF报文上送CPU通道堵塞,报文被丢弃。

管理设备,检查接口是否有收发报文,重启OSPF进程并检查邻居是否能够重建。

BGP邻居HOLDTIME定时器超时:BGP邻居在HOLDTIME时间内没有从邻居接收到任务的协议报文。HOLDTIME超时后,引起邻居down,BGP尝试重新建立邻居关系,导致从该邻居学习到的全路路由被删除。该告警可能因为BGP的对端邻居没有发送协议报文,网络通信异常,导致BGP会话使用的TCP链接出现异常断链。

管理设备,检查BGP邻居是否发送协议报文给对端,检查对端设备是否接收到BGP协议报文,检查两端设备之间的通信状况,逐项排查处理直到告警消失。

3.2 隧道/伪线告警

隧道维护点 连通性丢失:这是比较常见的影响通道业务的告警之一,在3.5倍帧周期内,本端没有收到对端隧道MEG的MEP发送过来的CV帧,本端上报隧道维护点LOC告警。影响业务,存在误码。该告警可能是因为配置有误,NNI侧性能异常,OAM参数配置有误,P节点单板转发故障,单板硬件故障。

分析该隧道业务处于哪种阶段(开通阶段或维护阶段),由网管检查网元和该业务的各项配置是否正确,检查NNI侧路径性能是否异常,检查PE节点OAM参数配置是否正确,检查P节点单板是否出现故障,逐项排查处理直到告警消失。

伪线维护点 连通性丢失:在3.5倍帧周期内,本端没有收到对端隧道MEG的MEP发送过来的CV帧,本端上报隧道维护点LOC告警。影响业务,存在误码。该告警可能是因为配置有误,NNI侧性能异常,OAM参数配置有误,P节点单板转发故障,单板硬件故障。

检查网管上业务配置是否有误,检查是否出现隧道维护点OAM告警,检查隧道保护组状态是否异常,检查PE/UPE/SPE节点配置、转发情况是否异常,逐项排查处理直到告警消失。

以上是我们日常维护工作中比较常见的告警及其相关的告警原因和处理办法。而在工作中还有很多我们很少或者没有遇到过的问题,因此,不断地学习并充实自己是非常重要的。通信技术在不断进步,只有随之更新自己的技术知识,才能够更好地做好通信维护工作,为通信网络的畅通做好保障。

参考文献

[1]鲁卫.PTN网管系统中告警模块的设计与实现[D].华中科技大学,2013.

[2]PTN:IP分组化传送[M].北京邮电大学出版社,2009.

猜你喜欢
网元单板网管
摄影作品
摄影作品
单板U型场地滑雪关键技术动作及训练方法
一种全网时钟同步管理方法
单板层积材带来的内部生产模式
“五制配套”加强网管
光网络设备ECC常见问题解决思路剖析
一种供鸟有限飞翔的装置
发射机房网管系统的设计原则及功能
Java EE平台在综合网元管理系统中的应用研究