庄达希
(中国民用航空湛江空中交通管理站,广东 湛江 524000)
民航通信网由一张传输网和两张承载网组成,主要承接的业务包括民航综合及专业业务、空管综合管理业务、部分航空安全业务、台站环动监控以及航空安全保障业务(雷达、甚高频、转报等)等。传输网采用的是双星型架构,采用自有传输设备(华为的OptiX OSN系列设备),为承载网提供各种干线[1-3]。两个承载网分别是IP网和时分复用(Time-Division Multiplexing,TDM)网。IP网主要承载大宽带民航业务,例如民航综合管理业务等;TDM网主要承载与空管安全业务相关的窄带IP业务,包括雷达、甚高频、转报以及管制移交电话等[4]。
民航通信网光传输网是民航通信网的基础传送支撑平台,网络覆盖站点包括两个网控中心、7个地区空管局、7个区域管制中心、民航局、民航空管局、十里河、37个空管分局/站、7个地区管理局、41个监管局、两个终端管制中心、6个机场航管楼以及176个民航运输机场等物理站点,并部署传输设备、波分设备。
光传输网核心层采用双星型结构,一级节点为北京、上海网控中心,二级节点为7个地区空管局和7个区域管制中心。传输网的汇聚层包含三级节点和37个空管分局/站。传输网的接入层包含民航局、空管局、7个管理局、41个监管局以及各中小机场等节点。光传输网的网络拓扑结构如图1所示。
图1 光传输网络拓扑结构
光传输网采用华为的OSN系列设备。其中,一级节点和二级节点部署OSN7500设备;三级节点和各管理局、监管局部署OSN3500设备;各民用机场部署OSN1500设备。下面以三级节点使用的OSN3500为例进行介绍。OSN3500支架尺寸为722 mm(高)×497 mm(宽)×295 mm(深),结构如图2所示。
图2 OSN3500设备结构
OSN系列设备的板卡分为5大类,分别是同步数字体系(Synchronous Digital Hierarchy,SDH)单元、准 同 步 数 字 体 系(Plesiochronous Digital Hierarchy,PDH)单元、以太网单元、交叉时钟和系统控制单元以及常见辅助单元。SDH单元板卡的作用是连接光纤。PDH板卡的作用是连接E1/T1接口。以太网单元板卡提供以太网透传或交换的功能。时钟交叉单元板卡集中了时钟单元和交叉单元[5]。对于时钟单元,其作用是跟踪外部时钟源或接口时钟源,为本板和系统提供同步时钟源提供两路同步时钟的输入和输出;对于交叉单元,其作用是提供多种业务级别的子网连接保护(Sub-network Connection Protection,SNCP),包括VC-4-4c、VC-4-8c、VC-4-16c、VC-4-64c、VC-4、VC-12、VC-3以及自身的1+1热备份等。主控单元板卡的作用是保存配置数据、收集管理告警与性能事件以及外联网管软件等。
民航传输网承载着主要的民航业务,传输网的安全稳定对保障民航的安全运行非常关键。采用OSN设备的光纤自愈环可实现多种形式的通道保护,例如线性复用段保护、环形网络保护以及子网连接保护,具有较强的网络自愈能力。其中,线性复用段保护包括“1+1线性复用段”与“1∶N线形复用段”[6-8]。环形网络保护分为复用段保护环(Multiplex Section Protection,MSP) 和 通 道 保 护 环(Path Protection rings,PP)。MSP包含二纤单向复用段共享保护环、二纤双向复用段共享保护环以及四纤双向复用段保护环;PP包含二纤单向通道保护环、二纤双向通道保护环以及子网连接保护。虽然光环网具以上的网络自愈性能,但是也会存在网络自愈性能故障的情况,例如复用段倒换故障。
复用段倒换是指以复用段为基础的倒换,倒换与否是由环上传输的复用段信号的质量决定的,倒换的发生由K1K2字节所携带的APS协议来启动,当复用段出现问题时,环上整个STM-N或1/2STM-N的业务都切换到备用通道上[9-11]。复用段的保护条件是LOF、LOS、MS-AIS、MS-ESC(复用段误码过量)告警信号。当发生保护倒换故障时,则会出现以下几种情况。一是全网正常状态下,突然发生不明原因的倒换;二是在应该发生保护倒换时,全网未进入保护倒换状态;三是进入保护倒换后,全网或部分业务发生中断的情况。作为光传输网重要的自愈保护功能,复用段倒换故障会对民航传输业务造成巨大的影响。常见的导致复用段倒换故障的原因可分为外部原因、数据配置原因以及设备故障原因3大类,具体如表1所示。
表1 复用段保护倒换故障的常见原因分类
根据复用段倒换故障的原因,故障处理可采取以下思路。
在处理故障时,首先应该检查设备外部的情况,例如是否人为停止了自动保护倒换(Automatic Protection Switching,APS)协议、错误设置了强制倒换、人为插入了MS_AIS、MS_RDI告警。同时应检查是否供电系统出现了问题,如电源故障、蓄电池故障等。在排除外部原因后,如果故障仍然存在,可采用其他方法进行故障定位。
(1)保护倒换协议正常启动,但保护倒换不成功。检查复用段协议是判断故障时必须进行的步骤,通过网管对各个网元的当前状态进行查询,若整个网络中有两个相邻网元的状态为“倒换态”(S),而其他网元均为“穿通态”(P),则说明APS协议正常启动。若各网元的状态正确,APS正常启动,但业务仍然中断,则可以考虑通过网管重新启动协议。如果重新启停协议后业务仍然中断,则需考虑是否是单板存在问题,这时可以按一般的业务中断故障进行处理。
(2)保护倒换协议异常,保护倒换不成功。APS协议异常会引起K字节的穿通和上报出现问题,从而导致保护倒换不成功。此时可以先检查各网元的复用段参数是否配置正确、是否有网元的复用段参数丢失,如果参数设置没有异常,就可以检查光板和交叉板是否工作正常。
(3)强制倒换,先恢复业务。例如某段光路有大误码,可以通过拔纤或下发强制倒换命令,使业务先恢复正常后再处理故障。
3.3.1 故障情况描述
某单位6个站组成一个复用段保护环,如图3所示。其中1号站为中心站,连接网管服务器。3号站和4号站的光纤断后,部分业务中断。
图3 案例分析网络示意图
3.3.2 故障处理过程
首先,检查设备外部的情况。在网管服务器检查设置,是否人为停止了APS协议、错误设置了强制倒换或人为插入了MS_AIS、MS_RDI告警。同时检查3号站及4号站是否供电系统出现了问题,如电源故障、蓄电池故障等。经检查,设备外部情况正常。
其次,排除外部故障后检查APS协议和复用段参数。通过网关服务器检查复用段倒换保护状态,无APS_INDI等复用段倒换告警上报,各网元倒换状态不正常,确定未发生倒换,倒换协议未正常启动。
最后,检查复用段配置参数。检查发现,导致复用段无法倒换的原因为复用段参数配置错误,各节点复用段保护参数错误按照顺时针方向配置。原复用段节点参数如表2所示。
表2 原复用段节点参数
按照逆时针顺序修改配置参数后重启协议,环路正常进行倒换,业务恢复正常。修改后配置参数如表3所示。
表3 修改后复用段节点参数
3.3.3 原因分析
案例中,复用段倒换失败的原因为复用段参数配置不正确。节点号未按照逆时针顺序配置,3号网元复用段模块处理时默认为西向光板对应的网元节点号比自身小1,东向光板对应的网元节点号比自身大1,导致协议处理异常。环上复用段节点号建议从0开始,节点号小于16,按主环方向逐站递增。
民航传输网作为民航领域重要的传输干线,整体架构已逐渐完善。设备保障人员不但要充分了解传输网络配置情况及网络拓扑情况、熟悉传输设备的硬件配置、熟练掌握各种基本保护子网的保护机理、掌握命令行及网管配置业务的方法,而且还要熟悉故障排查方法,在组网及配置上充分考虑传输的安全性,在面对故障时要思路清晰,熟练解决各种问题,尽量避免业务受到影响。同时也需要与时俱进,多交流学习新的故障处理方法,积累经验。