余伟丰
流氓ONU的研究和故障分析
余伟丰
中国电信股份有限公司上海分公司销售及渠道拓展部全渠道业务处理中心,上海 200233
随着城市光网的迅猛发展,流氓ONU已成为危害EPON网络的典型故障之一。介绍了流氓ONU的原理及产生原因,分析了当前流氓ONU检测机制的原理和缺陷,并在现网验证了流氓ONU故障定位方法的效果及局限性。
流氓ONU;PON;EPON;OLT;ONU;TDMA
中国电信上海公司在2009年启动“城市光网”计划,基于EPON(Ethernet Passive Optical Network,以太网无源光网络)接入技术的光网发展规模和宽带用户数量呈井喷式增长。短短数年间,光网用户数已超过300万,占上海公司所有宽带用户的四分之三。EPON技术以传输距离长、带宽高、组网简单高效等优势迅速取代了传统的以铜缆ADSL(Asymmetric Digital Subscriber Line,非对称数字用户环路)为主的接入方式,成为最主流的宽带接入技术。随着EPON网络的建设规模和用户增长速度趋于稳定,如何进一步提高网络运维的效率,提升用户使用感知是上海公司下一阶段的工作重点。
作为一项新兴的技术,EPON的技术特点和网络结构决定了其特有的故障类型,“流氓ONU(Optical Network Unit,光网络单元)”故障就是其中较为典型的故障。流氓ONU的存在会导致同一PON口下部分用户宽带业务异常,严重时整个PON口下的用户全部离线。当前对流氓ONU的故障定位较为困难,各家厂商对于流氓ONU的检测机制还不尽完善,如何及时发现和解决流氓ONU的故障,成为电信运维部门面临的难题[1]。
2.1 EPON的上下行技术
EPON是指基于以太网技术的无源光网络,是吉比特(GE)技术与点对多点的结合。EPON采用波分复用技术实现单纤双向传输,上行标称波长1310nm,下行标称波长1490nm。
在下行方向,IP数据、语音、视频等多种业务由位于中心局的OLT(Opitcal Line Termination,光线路终端)采用广播方式传输。当OLT启动后会周期性的在本端口广播允许接入的时隙等信息,ONU上电后则根据OLT广播的允许接入信息主动发起注册请求。OLT通过对ONU的认证允许ONU接入,并给请求注册的ONU分配一个本OLT端口唯一的LLID(Logical Link Identifier,逻辑链路标识)。当数据信号到达ONU时,ONU根据LLID在物理层上进行判断,接收给它自己的数据帧,丢弃那些给其他ONU的数据帧[2]。
EPON上行采用的是TDMA(Time Division Multiple Access,时分多址)技术。ONU注册成功后,OLT会根据系统的配置给ONU分配特定的带宽。在一个OLT端口(PON口)下面,所有的ONU与OLT PON口之间时钟严格同步,每一个ONU只能在OLT给它分配的时刻上开始,用分配给它的时隙长度传输数据。通过时隙分配和时延补偿,确保多个ONU的数据信号耦合到一根光纤时,各个ONU的上行包不会互相干扰。
2.2 流氓ONU的概念
EPON系统的上行方式决定了每个ONU只能在OLT分配的特定时隙中发送数据帧,每一个特定时刻只能由一个ONU发送数据帧,即每个ONU必须在OLT分配给自己的时隙开始时间的这一时刻打开自己的光模块,并在自己时隙结束时立即关闭光模块,否则就会产生时隙冲突,从而导致OLT无法正确接受数据。
当某个ONU长发光或者在不属于自己的特定时隙中发光,即占用其他ONU的上行时隙、导致其他ONU无法正常上传信息和数据流时,我们称这种ONU为流氓ONU(图1)。
图1 流氓ONU的原理
当流氓ONU存在时,只有其他ONU的发光强度大于该流氓ONU,该ONU才有可能正常注册(甚至业务也有可能正常),但如果其他ONU的发光功率跟流氓ONU相近甚至比它要低,那么该ONU注册很有可能不成功,同时ONU业务也有可能异常,但此时下行方向的指令还是能正常下发。这种非全阻式的“不完全故障”在现网中极为常见,且故障现象与光衰过大、用户环路等有相似之处,这为流氓ONU故障的迅速定位快速处理带来了一定的难度。
流氓OUN的种类很多,从它的发光时间来分类,可以分为:
(1)长发光流氓ONU:任意时刻都在发光的ONU;
(2)非长发光流氓ONU:在非OLT指定的时隙发光,可能是提前关断,或者延迟关断。
2.3 流氓ONU的原因
形成流氓ONU的原因可以归结为三大类:
(1)误接长发光设备:误将非ONU的长发光设备,如光电转换器、交换机等接入到网络中,并且该设备的发光波长也是1310nm。
(2)ONU软件问题:ONU由于设计中考虑不周,启动过程中,在ONU上电到ONU进入正常工作状态期间,光模块发光没有关闭,会出现短时间的长发光。
(3)ONU的光模块功能异常:上行方向采用TDMA突发方式的EPON系统对光模块的功能有着相当高的要求。如ONU光模块工作在突发发射模式下,其激光器应支持快速打开和快速关闭(均应小于512ns),而且为了防止ONU自发辐射信号干扰其他ONU的通信,要求ONU的激光器在关闭后能快速冷却,以使其背景辐射功率小于-45dBm等。
在实际现网维护中发现,光模块故障是导致流氓ONU产生的主要原因。EPON技术的大规模商用带动了ONU设备和带ONU功能模块的家庭网关的终端市场,但如今终端设备市场门槛较低,品牌众多,功能质量参差不齐,尤其对于光模块有特殊要求的ONU模块,很多厂商在质量上把控不严导致产生很多因光模块故障引起的流氓ONU故障。
2.4 流氓ONU的故障现象
通过对现网故障的观察,目前流氓ONU的故障现象总体可以归并成四大类。
(1)PON口下经常出现所有ONU设备反复掉线。
(2)PON口下只有某一个ONU设备正常在线,其他ONU设备反复掉线。
(3)PON口下用户业务异常,如IPTV卡、有丢包、误码等情况。
(4)PON口下距离OLT相对较近的ONU业务正常,较远的ONU设备反复掉线。
针对流氓ONU的处理一般分为三个过程:检测、排查、隔离。
(1)检测即定期对PON口进行测试,检查是否存在流氓ONU。检测的过程不影响ONU的业务转发,但是也无法具体定位流氓ONU。
(2)排查即具体定位流氓ONU的过程。排查过程会影响ONU的正常业务转发。
(3)隔离即对ONU下发指令,关闭ONU光模块的发送电源,消除流氓ONU对PON口下其他ONU的影响。
图2 发现流氓ONU
流氓ONU的检测是处理此类故障的重点。如图2所示,当不存在流氓ONU时,OLT测试空闲时刻的接收光功率很小,当PON口下存在流氓ONU,OLT能测试到空闲时刻的接收光功率,所以OLT 通过定时测试空闲时刻的接收光功率的大小就可以了解到PON口下是否存在长发光的流氓ONU。
当发现PON口下存在长发光的流氓ONU后,具体的排查定位过程如图3所示:
关闭所有ONU的光模块发送电源,此时OLT无法测试到接收光功率。
(1)打开ONU1的光模块发送电源。如果OLT无法测试到接收光功率,则表明ONU1不是长发光流氓ONU。
(2)打开ONU2的光模块发送电源。如果OLT无法测试到接收光功率,则表明ONU2也不是长发光流氓ONU。
(3)打开ONU3的光模块发送电源。如果OLT能够测试到接收光功率,则表明ONU3就是长发光流氓ONU。
实践表明,OLT的自动检测功能对长发光类型的流氓ONU故障定位准确率高,但对于无规则乱发光的流氓ONU的判断还存在缺陷,故此类流氓ONU的定位还要依靠其他的辅助技术手段包括现场排查进行处理。
图3 排查流氓ONU
某台华为OLT设备MA5680T的0/1/6PON口下出现批量用户上网慢、IPTV卡,现场测试ping公网丢包率达18%。
在现网,这种故障现象是比较常见的,形成的原因有很多种。在受理故障后,我们进行了如下操作:
(1)查看PON口光功率正常,上行收光功率为-11dbm,网管查看ONU和OLT距离为5km,排除距离过长引起的衰耗过大可能。
(2)查看上网、IPTV、语音业务对应上联SR的MAC地址,通过display location SR_MAC命令查询用户侧未学习到SR的MAC地址,说明没有环路。
(3)更换PON板无效,排除PON板卡问题。
(4)主控板主备倒换无效,排除主控板问题。
(5)查看上联链路光功率正常,0/19/0端口发光-5dBm,收光-9dBm,查看端口统计,并未发现有CRC错误帧。
(6)针对故障PON口0/1/6,拔下连接一级光分侧的主干光纤,直接接ONU测试,发现不丢包。
(7)用display port statistics 6命令发现该PON口下有大量CRC错误帧的情况,如图4所示:
图4 CRC错误帧
同样用display statistics ont-line-quality 0/1 6 12命令查看某申告用户的ONU线路质量,发现有大量FCS错误帧如图5所示,说明光路质量异常,很可能是流氓ONU引起的问题。
图5 FCS错误帧
确定是流氓ONU问题后,我们将进行现场处理、手工排查流氓ONU。针对0/1/6 PON口下逐个插拔一级光分下联光纤,用display port statistics命令查看端口CRC错误帧情况,同时ping测公网DNS地址5分钟。在先后插拔前4根一级光分下的光纤测试时,查看端口依然有错误帧情况,ping测也有丢包,直至测试到第5根光纤时,业务恢复正常,因此判断流氓ONU产生在该光纤下的二级光分下,然后依次对该二级光分下用相同方法测试,最后发现是ONTID 37的ONU发光异常导致该PON口下所有用户业务受影响。更换后ONU后查看光链路统计发现不再产生错误帧,ping测也无丢包,故障解决。
通过故障分析可以看出,在排查和定位的过程中,OLT并没有主动检测出流氓ONU的异常发光。而通过display port statistics命令发现PON口的光链路统计上有CRC错误帧的情况,则是由于在该ONU上传信息和数据时有其他ONU也在同时向OLT发送数据,OLT判断出有ONU不在自己的时隙发送数据,因而将该疑似流氓ONU的数据丢弃,导致在链路上出现错误帧的情况。在OLT不能有效主动检测出流氓ONU的情况下,查看PON口下的线路质量情况是定位流氓ONU故障的理想方法,但是这也需要运维人员具有丰富的经验和敏锐的故障嗅觉,才能一击而中迅速解决问题。
流氓ONU故障是运营商在EPON网络维护中面临的一个棘手问题。随着EPON技术的应用越来越成熟,EPON设备的性能、稳定性也有了显著的提升,检测流氓ONU的手段越来越多,特别是对于长发光类型的流氓ONU故障,自动检测成功率也越来越高,但对于无规则发光的流氓ONU的自动检测还存在着技术上的瓶颈。中国电信上海公司和各EPON设备的生产厂商都一直致力于寻求更为高效的解决办法。要从根本上解决流氓ONU故障,使典型故障变为非典型故障,还需要加强对终端ONU设备的质量管理,从源头处减少终端设备的故障率。
[1]周峰.PON产品流氓ONU问题解决及其思考[J].计算机光盘软件与应用,2011(12):72-73.
[2]蒋铭,沈成彬,张军,等.PON中异常发光ONU的检测技术研究[J].电信科学,2012,28(8):22-26.
TN929.1
A
1009-6434(2016)03-0045-03