赵春雨,李纪欣
(中国联合网络通信有限公司烟台市分公司,山东 烟台 264000)
光传送网(Optical Transport Network,OTN)是本地网最重要的传送网络,互联网、移动网、智能城域网以及政企客户等重要业务都由其承载。网络安全性直接决定了整个本地网的业务承载是否可靠安全、用户体验是否通顺畅联。对OTN 系统部署多样化的安全保护措施,能够有效抵御业务中断、网络中断等高等级风险,提高网络健壮性[1]。
本地网OTN 波分设备型号为华为6800/8800 和9600,市到县10 各节点叠加2 个环网,其中6800/8800系统单波道40 Gb/s、9600 系统单波道100 Gb/s,业务由2个系统负荷分担。这2个系统的保护方式如下:6800/8800 系统采取业务子网连接保护(Sub Network Connection Protection,SNCP),即线路2 个方向均配置线路处理板,业务配置时采用SNCP 方式配置到2 个方向,双发选收;9600 系统采取4 路通道保护板内1+1 通道保护,即配置4 路通道保护板,单波业务通过该板从2 个方向的合分波板双发选收。
这2 种保护都可归类于环路保护,其优势是具备环路自愈功能,能够自动倒换且倒换迅速,并具备SD 触发倒换功能,能够根据误码情况自动倒换,保障了业务承载质量。其劣势是环路不能抗多点中断风险,即环路中只能同时存在1 处线路断点,否则会引起网元脱网[2]。
1.2.1 通知流程
当光缆线路故障发生后,维护人员根据省公司故障派单信息,经过对专业网管告警初步判断后,再通知相关处理人员及分管领导。根据2020 年3 月—2021 年6 月骨干光缆故障通知时限数据,共计24 次,历时为5 ~50 min。其中,10 min 内完成通知调度的次数占比为50%,30 min 内完成通知调度的次数占比为87.5%。
这种故障通知调度延时的情况,在各分公司都是一个较为普遍的现象。网管集中化以后,故障的通知调度主要靠派单与手机短信。这种方式存在一些缺陷,“维护人确认”是主要问题。集中网管的故障派单和短信通知需要人工二次确认和通知,或者需要维护人员主动实时查看,但是工作人员无法做到24 h紧盯短信通知,实时性较差;故障派单为属地化派单,网管集中在市公司操作,而光缆故障可能发生在县公司,市、县收到的故障派单不一致,尤其是非工作时段,值守人员为非传送网专业人员时,更易造成网络维护与线路维护暂时性脱节。
1.2.2 处理流程
维护人员接到故障单或电话通知后,需要从资源系统或保存资料中确定故障段的光缆信息,然后应急调度、光缆抢修及线路保障3 个小组同步进行故障处理工作。应急调度组任务是利用备用路由恢复环路保护;光缆抢修组任务是判断光缆中断点和现场接续抢修;线路保障组是加强环路其他段落的光缆巡线工作,防范二次断缆。该处理流程看似有条不紊、各负其责,实则费时费力、效果不显。具体原因如下:参与故障的处理人员组织庞大,以本地网市到县OTN系统为例,某处C3 光缆中断,则至少7 个县市、3个市公司网格、2 个市公司部门参与,直接处理人员20 人、车辆12 台起步,抢修成本可见一斑;在应急调度保护倒换恢复前,二次线路开环故障风险依旧较高,参与人员面临精神和身体双重重压。由此可知,本地网线路维护的压力主要来自于OTN 网络的保护能力不足,从发现到处理甚至日常维护都需要进行优化完善,以降低脱网风险和维护成本。
OTN 多样化保护策略及部署方案从线路故障实时性通知与调度、OTN 线路双物理路由改造、光线路保护(Optical Line Protection board,OLP)改造、OTN 二平面建设以及本地网光缆故障3 级预警机制等5 个方面进行了全面优化完善[3]。
简化告警模型,利用专业网管声告驱动监控人员一站式实时通知调度,5 min 内完成相关故障处理人电话通知,解决了实时性和机线配合问题,有效缩短了抢修历时。
一是线路告警模型选择“MUT_LOS”,以排除其他杂项告警影响直观故障判断。根据告警模型的优劣分析,定制告警采用“MUT_LOS”进行实际测试。测试方式是机房断开跳纤和中断模拟光缆。测试结果如下:线路中断后,无其他干扰告警,监控终端的声音告警响亮清楚、拓扑中断的纤缆连接变红色明显,可第一时间完成告警发现、判断与通知。
二是资源标注,资源系统导出各段落的光缆光路资料,与现场资料核对无误后,在监控纤缆连接上标注信息。一旦光缆发生故障,只要鼠标轻移到变红的纤缆段,该段光路信息就可显示出来,节省了维护人员到资源系统查找光缆光路信息的时间。
三是制定培训资料和通信录,保证值班人员即看即会。
统筹打通C3和C4网光缆、盘活旧杆路、管道资产、置换或租用电信以及移动光缆纤芯资源,降低改造成本,提高改造效率,实现完全的光缆双物理路由。
在双物理路由改造的基础上,启动OLP 保护改造建设,完善OTN 系统的保护策略,形成OLP 线路保护+光通道保护的四路由+的安全保护策略,既解决了线路二次断缆的保护问题,又能通过SD 劣化驱动通道倒换机制,提高了业务承载质量。一平面改造后,每节点抗二次开环能力提高了300%,环网理论提升1 300%。
为解决智能城域网100 Gb/s 中继链路双系统负荷分担问题,完成市到县OTN 二平面的建设。该方案优化了市到县的OTN 组网,由传统大一环分成2个小环,提高了资源利用效能和波道质量。同时,由于部署OLP 保护和通道保护,网络健壮性得到了极大提升[4]。
随着OLP 保护建设的完成,传统维护方式也发生了新变化,由一级预警机制变为三级紧急预警机制,具体如表1 所示。
表1 本地网光缆故障3 级紧急预警机制对照表
OLP 保护属于光线路保护,双发选收,当主备用通道光功率差值超过5 dB,在故障段落触发倒换机制,与环路上其他段落无关,不具备信号劣化保护(Signal Degrade protection,SD)触发倒换功能,无须配置监测通道。OLP 保护的优点是倒换机制简单、倒换速度快,缺点是无法监测单波道运行质量,不能针对波道SD 触发倒换。
2022 年某日,开发区至蓬莱段光缆故障,该段落OTN 一平面发生OLP 倒换、二平面备用路由中断。100 min 后,中断光缆尚未完成接续,栖霞至莱阳光缆发生故障中断,该段落OTN 一平面发生OLP 倒换、二平面备用路由中断,2 次故障业务均未中断。
故障处理过程如下:2 次故障发生后,专业网管声告驱动故障通知流程,值班人员均在2 min 内电话通知到相关维护人;5 min 内发布钉钉群预警信息,第2 次故障预警增加重点段落巡视重保信息;10 min内完成钉钉群故障段光缆信息及网管拓扑截图发布;20 min 内完成钉钉群光缆中断距离信息发布;2 次光缆修复历时均在2.5 h 内完成。
故障原因总结如下:一是故障通知调度流程顺畅,无拖延、脱节现象;二是故障信息发布及时,准确;光缆修复历时短,比4 h 时限要求提前1.5 h 完成;三是本次故障OLP 保护正常倒换,全程未发生节点脱网、业务中断情况。该故障如发生在改造前,有可能会造成5 个区县公司脱网的重大故障,在实战中验证了OTN 传送网OLP 保护策略部署的必要性。
QCP 保护属于SNCP 类的光通道保护,光层双发选收,倒换机制为主备光功率差值5 dB 和SD 触发2 种方式。其中,SD 触发需配置监测通道。QCP保护优点是能够保护单波道的运行质量,有利于提升用户感知度,缺点是相比OLP 投资更大,不具备抗二次断缆脱网风险。光转换单元(Optical Transform Unit,OTU)保护原理也属于SNCP 保护,电层交叉配置双发选收,信号丢失(Loss of Signal,LoS)、帧丢失(Loss of Frame,LoF)或SD 告警触发倒换,无须配置监测通道。OTU 保护的优点是由于每个方向均配置相同OTU 板卡,相比QCP 保护安全性更高,缺点是配置板卡最多、能耗最大、成本最高以及不具备抗二次断缆脱网风险。
2022 年某日,某县部分5G 基站有闪断现象,智能城域网监测该县有1 条上联中继有误码。
该条上联中继承载在OTN 二平面,网管监测光缆线路光功率正常,OTU 单板性能监测有误码。障碍处理过程如下:人工倒换备用通道,OTU 单板监测误码消失,智能城域网监测上联中继误码消失;8通道光谱分析板扫描波道信噪比显示该条波道异常,信噪比为13 dB,正常应大于16 dB;微调该波道发送光功率后,8 通道光谱分析板扫描波道信噪比为23 dB。倒换回主用通道,OTU 单板监测误码为0,智能城域网监测上联中继误码为0,基站正常。
故障原因总结如下:一是智能城域网因多厂家设备共存,未部署SD 触发倒换策略;二是OTN 二平面该波道未倒换,QCP 保护组未配置SD 触发的监测通道,因此未能触发自动倒换;三是由于OTN 波道带宽越来越大,其承载的业务也越来越多,单波道故障也会对本地网用户产生较为强烈的感知影响。随着设备运行时间增长,单波道降质的故障会更加常见,本次故障也侧面验证了本地网OTN 配置QCP 保护的必要性[5]。
文章主要对OTN 多样化保护策略进行分析,其中OLP 保护案例验证了抗二次断缆脱网风险能力的可靠性,QCP保护案例验证了配置波道保护的必要性。这2 个案例充分体现了OTN 网多样性保护策略的部署在应对线路和波道故障的抗风险能力已经得到极大提升,网络健壮性比优化前更强,还有故障抢修成本降低、抗二次断缆脱网风险、抢修历时缩短、维护质量提升以及降压减负等优势。