[李忠谕 迟景升 李哲]
现网发生网络故障时,通过系统结合网管告警和资源拓扑信息进行故障定位检测,进而实施故障抢修,是当前运营商的主要的网络运维方式。但是受设备或网管能力等原因影响,存在网管告警不完整的情况,表现为现网发生了故障,但是并没有产生对应的网管告警。这部分不能通过告警触发检测出来的故障,仍然需要依靠用户申告业务故障后再进行人工排查和定位故障点,这不能满足当前智慧化运维的要求。
本文通过应用用户申告工单触发进行光接入网故障分析,能够快速自动定位故障段落,作为一种通过告警触发进行故障分析的补充手段,实现系统检测光接入网故障的全面覆盖。
本方法通过用户申告工单触发系统流程,根据预设的故障分析流程,结合网管和资源信息定位故障段落,实现系统对光接入网故障的主动检测。
系统首先接收用户申告工单,提取工单中的业务接入号,查询到接入号关联的终端信息,进而查询网管上此终端所属PON 口下的网管信息,获取关联ONU的运行状态和离线时间,再结合资源网络拓扑信息,通过故障分析逻辑实现故障段落定位,整体方案框架如图1 所示。
图1 故障分析方案框架
2.2.1 通过用户申告工单关联终端设备
当用户发现业务不可用时,可以通过拨打10000 号或微信公众号等渠道进行故障申告,工单处理系统将生成相应的申告工单,申告工单信息包括故障现象、故障业务接入号等(其中工单中故障现象为规范化的描述,比如网络不可用、网速慢、频繁掉线等)。系统采用JDBC的方式,接收工单处理系统的用户申告工单信息,提取故障现象为“网络不可用”的工单,按工单信息中的业务接入号查询到对应的终端设备,以此终端设备定义为申告设备,从而实现了从用户申告转变为终端告警行为。
2.2.2 查看申告设备同PON 口网管信息
以该用户申告业务接入号查询的终端为申告设备ONU,系统查询网管上同PON 口下的所有ONU的运行状态,获取到所有终端的当前状态以及最后一次离线时间(LASTOFFTIME)。终端的运行状态主要分为三类,分别是UP 状态、LOS 状态和POWEROFF 状态等,网管上ONU的最后一次离线时间记录的是ONU 最后一次从在线状态转变为非在线状态的时间,包括ONU 最后一次从UP 状态转变为LOS 状态的时间,或者ONU 最后一次从UP 状态转变为POWEROFF 状态的时间。本文所述的ONU 离线时间,即是指该ONU的最后一次离线时间(LASTOFFTIME)。
2.2.3 结合资源拓扑信息进行分析
根据PON 网络分光结构,上联光路终端会引起下联所有在线ONU 同时离线,因此,当某条上联光路下挂的所有在线ONU 同时离线时,可以认为是上联光路发生了故障[1,2]。
结合资源拓扑进行故障定位,以PON 网络二级分光为例,输出主光路断(PON 口至一级OBD 段落故障)、分支光路断(一级OBD 至二级OBD 段落故障)、皮纤断(二级OBD 至ONU 段落故障)。为了提高故障定位准确率,针对申告设备进行光接入网故障分析,系统定义了4 个原则。
(1)同时离线定义:考虑到时延、系统交互影响等原因,以申告设备的离线时间作为故障分析基准时间点T0,认为在故障分析时间点前后10 分钟时间段(记为T0±10)基准时间段。在基准时间段内离线的ONU 属于与申告设备同时离线。本文描述的同时离线,均是指在T0±10 分钟时间段内离线。
(2)上联故障排除原则:现网发生上联光路故障会导致该光路下挂所有ONU 立刻离线,如果故障发生后,上联光路下挂的设备存在在线的、在T0±10 分钟后离线的ONU(比如,有个设备离线了,但是它是在T0的30分钟后离线的,那么造成申告设备离线的故障与这个设备离线的原因并不相同,申告设备离线的时候,这个设备是在线的。间接也可以证明,申告设备离线的原因并不是上联光路引起的),那么排除上联光路是造成申告设备通信故障的原因。
(3)向下判定故障原则:发生上联光路故障,下挂所有对象都将离线,且多个对象是属于同时离线的,如果在故障时间段只有一个对象离线,系统认定是下联线路发生故障,并不是上联光路故障。对于分支光路是所有下挂ONU 都离线,且多个ONU 同时离线;对于主光路是所有二级OBD 下挂的ONU 都离线,且多个二级OBD的ONU 同时离线(即是说需要同时离线的ONU 分布在多个二级OBD 上,才认为多个二级OBD 共用的主光路故障)。
(4)掉电影响原则:受终端性能影响,部分ONU不具备上报掉电能力(表现为网管无法识别ONU 是否发生了掉电),为了提高故障检测准确率,系统规定在故障发生时间段内,只要同PON 口下有掉电状态的ONU,则认为本次故障是由于市电停电或者用户关电等因素引起。
那么判断故障段落的规则是:
(l)主光路断:申告设备所在PON 口下挂所有ONU均离线,且没有在T0+10 分钟后离线的ONU,且在故障发生时有多个ONU 同时离线(系统采用至少2 个ONU同时离线,理论上同时离线的ONU 越多,故障判定就越准确),且同时离线的ONU 分布在多个OBD 上,判定为主光路断。
(2)分支光路断:申告设备所在二级OBD 下所有ONU 均离线,且没有在T0+10 分钟后离线的ONU,且在故障发生时有多个ONU 同时离线,但是在同一PON 口存在ONU 在线或T0+10 分钟后离线的ONU,判定为分支光路断。
(3)皮纤断:故障发生时,有且只有申告设备离线,判定为皮纤断。
(4)ONU 掉电:在申告设备离线同时,同PON 口下有ONU 发生掉电。
那么以申告设备触发故障分析流程,对每个申告设备输出对应的故障结论,分析流程示意图如图2 所示。
图2 故障分析流程示意图
需要说明的是,当现网发生故障,如果系统通过网管告警实现了主动检测到群障故障(群障故障是指比如主光路断、分支光路断等会影响多个用户业务使用的故障),将直接主动派出故障单给现场抢修,同时会发起群障拦截[3],对于该群障影响的用户申告进行拦截,不会再下申告工单,也不需要进入本文所述故障检测流程,不至于产生重复故障单。当现网发生故障,由于网管告警丢失等其他原因导致系统没主动检测到故障时,在首个受影响的用户申告业务不可用故障后,系统经过本文方法分析检测到光接入网故障段落,输出是主光路断、分支光路断等群障故障,或皮纤断、ONU 掉电等单用户故障,系统会即时发起故障抢修单或上门检测单。对于检测到的群障故障,系统也会同时发起群障拦截,当该群障影响的其他用户再申告业务不可用故障时,将会被系统检测到业务所在区域存在群障,而不需要再次进入故障分析流程。
电信运营商依靠网管告警触发故障检测,因为存在告警不完整的原因,仅仅能够将现网70%的光接入网故障主动检测并派单抢修,依旧有30%的故障需要人工上门排查分析。本文方法上线后,运营商实现了系统主动检测100%的光接入网故障,全面推进落地网络运营主动维护模式,全面提升了光接入网监控和维护支撑能力。
运营商通常管理的OLT 设备达到几万台,如果通过升级设备或网管能力来保障告警上报能力,进而提升光接入网故障的主动分析检测能力,将是一个浩大的投资。而本文所述方法,可以在现有软硬件能力的基础上,通过生产流程的数据应用,即可实现系统主动检测故障的全面覆盖。