王志东 蒋晓平 卢红
摘 要:随着电网的迅速发展,电网的安全、经济、稳定运行对通信系统的依赖和要求越来越高,而通信技术的飞速发展,尤其是光通信技术越来越广泛地应用于生产环境中。作为电力通信系统中重要组成部分的通信设备SDH,承载着电力信息、调度数据、通信数据、继电保护、电视会议、视频监控等生产和管理业务。SDH设备的正常运行,是各个变电站及供电所通信及网络连接的重要保障,一旦SDH设备出现故障,可能导致整个变电站及供电所通信网络陷入瘫痪,极大影响各部门工作的正常开展。文章主要研究分析SDH设备的CSF交叉板温度越线、时隙对接、网络数据不一致等几个故障的处理总结。
关键词:SDH;光传输系统;温度越限;时隙;NCP;ECC;保护倒换
中图分类号:TN915 文献标志码:A 文章编号:2095-2945(2018)32-0070-02
Abstract: With the rapid development of power grid, the security, economy and stability of power grid depend more and more on the communication system, and the rapid development of communication technology, especially optical communication technology, is more and more widely used in the production environment. As an important part of the power communication system, the communication equipment SDH, carries the production and management services such as power information, dispatching data, communication data, relay protection, video conference, video surveillance and so on. The normal operation of SDH equipment is an important guarantee for the communication and network connection of each substation and power supply station. Once the SDH equipment fails, the communication network of the whole substation and power supply station may be paralyzed, which will greatly affect the normal development of the work of various departments. This paper mainly studies and summarizes the treatment of several faults of SDH equipment, such as temperature crossing line of CSF cross board, time slot docking, network data inconsistency and so on.
Keywords: SDH; optical transmission system; temperature over limit; time slot; NCP; ECC; protection switching
1 概述
SDH光傳输设备,是一种将复接、线路传输及交换功能融为一体、并由统一网管系统操作的综合信息传送网络。SDH光传输设备可实现网络有效管理、实时业务监控、动态网络维护、不同厂商设备间的互通等多项功能,能大大提高网络资源利用率、降低管理及维护费用、实现灵活可靠和高效的网络运行与维护。SDH光纤通信自愈环网能最大程度的满足电网稳定运行的需求,已成为大势所趋。如何来维护好SDH光传输网是本文主要讨论的问题。
2 SDH传输设备故障分析
2.1 SDH设备交叉板探测点温度越限问题的分析、处理及防范措施
U31网管发现, 220kV变电站S385设备出现设备告警,通过告警详细信息查看发现,网元内定位为CS[0-1-9-1]-Temperature[id:1],告警码为探测点温度(℃)越限(245)。
(1)故障检查。首先检查变电站内机房内空调状态,发现空调都正常开启,并且机房内温度并不高,所以排除了因环境温度偏高导致的设备温度越限。随即对SDH设备进行检查,设备除了交叉板,其他部件并不告警指示灯在亮,并且设备散热风扇都正常运行,故排除因散热风扇故障导致的设备板卡温度越限,且设备所在机柜前后柜门均为网面,并无机柜内散热不良现象。对设备进行进一步检查的时候发现,在设备散热风扇的出风口,无明显出风,随即对设备防尘网进行拆卸检查。拆卸防尘网后发现,防尘网的网眼已被灰尘严重堵塞,空气几乎无法通过防尘网。故此判断,是防尘网堵塞导致SDH设备散热出现故障,并最终导致设备温度过高,告警出现。(2)故障原因分析。由于该220kV变电站为新建投运的站点,本应不会发生环境因素导致的设备运行问题发生。但是,由于在建站过程中,可能发生站内设备开始运行时间早于变电站内基础设施及站内装修完全结束,就会导致在站内基础设施及装修过程中,站内环境无法达到设备要求的运行条件,导致了设备运行的故障提前出现。比如,变电站内的通信设备,尤其是SDH等基础通信设备,一般在机房未完全完工就需要安装、调试、并试运行。在后期机房内墙面施工、铺设地板、打扫卫生等施工环节中,必将产生大量灰尘。这些灰尘吸附在设备散热风扇及防尘网上,最终导致防尘网堵塞,散热出现问题。(3)机房洁净度与新风量要求。a.一类、二类通信主机房内灰尘粒子浓度:直径大于0.5μm的灰尘粒子浓度≤3500粒/升;直径大于5μm的灰尘粒子浓度≤30/粒升,且不能是导电的、铁磁性的和腐蚀性的粒子。b.凡与空气接触的墙壁、也板、顶棚表面不起尘。c.设有防止灰尘、腐蚀性气体、有害气体、易燃易爆气体流入通信机房措施。d.设有排出蓄电池放出有害气体到室外的措施。e.机房新风量以同时工作的最多工作人员计算,每人新鲜空气量不小于30m3/h。
2.2 不同厂家的SDH设备之间的时隙对接原则
公司主要采用中兴S385与S330 SDH设备组网,部分用户变传输设备品牌为华为OSN3500、朗讯。在设备对接的过程中,我们需要注意的是不同厂家的2M时隙编号是否一致。支路位置编号通常有2种方式,时隙编号和线路编号。
(1)时隙编号。在SDH中低速率的SDH信号按字节间插的方式复用为高速率的信号。3个VC12按字节间插的方式复用为TUG-2帧,而7个TUG-2帧按字节间插的方式复用为TUG-3帧,3个TUG-3帧再按字节间插的方式复用为VC4帧。这样,线路编号相邻的VC12在VC4中将相隔21个Byte。如果以线路编号为1的VC12出现的位置为时隙1的话,线路编号为2的VC12将出现在时隙22的位置上。这时,我们就使用时隙22作为VC12的编号。(2)线路编号。从第一个TUG-3的第一个TUG-2开始,将同一个TUG-2内的VC12业务顺序编号方式。处理过程:华为和RAISECOM品牌设备采用时隙编号方式,中兴、烽火、MARCONI、朗讯品牌设备采用线路编号方式。不同厂家的传输设备对接时如果支路信号在VC-4中的位置不一致,必然会造成对接后业务不通。
我们也可以通过下面的公式得到,按照时隙编号方式进行编号的VC-12可以采用如下公式計算其序号:VC-12序号=TUG-3编号+(TUG-2编号-1)×3+(TU-12编号-1)×21。
按照线路编号方式进行编号的VC-12可采用如下公式计算其序号:VC-12序号=(TUG-3编号-1)×21+(TUG-2编号-1)×3+TU-12编号。
从计算出的时隙对照可以看出,不同厂家所表示的时隙号其实并不是同一时隙,所以两种编号方式在实际应用中会有不同,我们只要根据3-7-3编号来上下业务就可以了。比如在中兴设备测业务下发至1#VC4的第24个VC12上,即3-7-3结构中的编号为2-1-3的VC12。对端其他厂家使用时隙编号的设备下业务时,列如华为设备,只需要把2-1-3对应的44个VC12接出即可。目前中兴U31网管上可以通过一个选项的设置在两种编号方式之间自由切换,解决两种编号方式带来的对接维护不便问题。
2.3 SDH设备运行期间出现的网元数据不一致问题
中兴SDH组网中,一个支环上相连的两个网元:A变和B变,出现数据比较不一致现象,并且无法进行数据同步。对A变进行数据上载时,上载进度至98%后,进度条不动,等待1-2分钟后提示ASN解码失败,上载失败。对B变进行数据下载时,下载进度缓慢,预计需要10分钟时间,且下载至100%进度时提示下载配置失败。且进行数据比较时,比较进度一直显示0%,等待1-2分钟之后提示超时,数据比较失败。
(1)处理过程。在机房使用自带网管电脑接入城网设备Qx口,新建A变网元,并且上载数据,提示发生未知异常,操作失败,说明不是统一网管问题,需要从其他方面排查问题。远程telnet至A变SDH设备,查看NCP版本,显示为最新版本,没有问题。在A变现场拔出原设备ncp板,更换上新的ncp板后,通知网管运维人员进行数据上载下发测试,仍提示失败。现场Telnet至城网设备,输入route-a,查看路由,发现A变和B变的路由均选择C变。网管屏蔽A变12槽1口DCC,将A变路由强制选择D变方向,然后进行数据比较和数据上载,均操作正常。测试正常后,打开A变12槽1口DCC,排除A变SDH设备问题。至B变现场后,屏蔽B变11槽1口DCC,将B变路由强制选择D变方向,然后分别对B变和A变进行数据比较和数据上载,均操作正常,业务也能正常下发。随后对B变的下一个点C变进行数据下发和上载操作,均操作正常,因此判断是B变至C变之间DCC路由有问题,需要进一步排查。现场更换B变NCP板卡,进行数据下发和上载操作,问题依然存在,排除NCP板卡问题。随后telnet至B变NCP,进行sccreset操作,初始化B变所有的PPP通道,再进行数据下发和上载操作,问题依旧。经分析,影响DCC路由的板卡有NCP和光板,现排除NCP板卡问题,问题只可能在B变或者C变的光板。查看B变和C变的当前性能,均无性能值,也无告警,无法判断光板好坏,只能采用排除法来处理问题。更换B变OL4*2光板后,对B变和A变进行数据上载和下发操作,均操作成功,问题得到解决。(2)原因分析。ECC即嵌入式控制通道,是英文Embedded Control Channel的缩写,用来实现网元间的通讯,该协议构架在由SDH的D字节构成的DCC通道上。影响ECC协议通讯的单板有NCP和光板,NCP通过ECC通道实现网元之间网管信息的互通,网管通过接入网元的NCP板和子网中其他网元的NCP板ECC的互联,管理整个子网;光板的控制单元提供接口和通道与NCP建立通信,完成性能统计,告警检测,温度控制,状态控制,板间通信等功能,业务处理单元实现ECC转发处理等功能。综上所述,本次问题是由于光板问题,造成DCC通道不通畅,但并未导致DCC路由完全中断,所以导致济川变、官河变网元能够管理,却出现数据比较不一致告警,以及上载下发数据超时等问题。
3 结束语
在排查故障,进行故障点定位时,首先要排查设备是否运行正常,对设备每个模块进行无故障确认,发现问题以便及时处理。
处理故障时,尽可能不要触碰运行正常的设备,避免二次故障的发生。
在进行业务配置时,时隙的分配是重要的一部分,由于时分模块容量有限,对于大型组网,业务较多较复杂时,很可能出现时分不够的提示,不仅会造成人为的业务中断,而且还必须重新分配时隙,大大的增加了工作的难度。因此,对时隙的了解以及合理分配是非常重要的。
运维人员应当熟悉SDH NCP和光板的工作原理和功能,并熟悉网管DCC通道路由的走向,从而判断设备出现数据不同步的原因,并及时解决问题。
参考文献:
[1]李方健,周鑫.SDH光传输设备开局与维护(第二版)[M].科学出版社.
[2]孙学康,毛京丽.SDH技术[M].人民邮电出版社.