付长宁
(北京全路通信信号研究设计院,北京 100073)
与传统的铁路信号系统设备不同,CTCS-3(以下简称C3)级列控系统是一个由无线闭塞中心、临时限速服务器、列控中心、轨道电路、计算机联锁等基本子系统构成的功能聚合体,其功能的实现是建立在海量数据跨越空间、实时传递的基础上,其显著特点为:
(1)跨越空间:通常C3级列控系统控制某一条客运专线或高速铁路的列车运行,其管辖范围从几百公里甚至到上千公里,点多、面广的特点十分显著。
(2)实时传递:根据现行的规范,应用C3级系统的线路运营速度通常在300~350 km/h。列车运行速度提高必然带来对系统反应时间、数据传递速度的更高要求,1 s的延迟就可能引起列车大约100 m的制动距离的损失。
为满足上述要求,必须有一套完善、可靠的网络系统来支撑整个C3级系统,信号安全数据网的概念由此提出。
通常,信号安全数据网用以实现无线闭塞中心(RBC)与车站联锁设备(CBI)、临时限速服务器(TSRS)与无线闭塞中心(RBC)、临时限速服务器与车站列控中心(TCC)间、联锁设备和列控中心间以及联锁设备之间的信息交换。
信号安全数据网承载的通信业务如下。
(1)列控中心和联锁通信
列控中心向联锁传输:区间方向信息、区间闭塞分区状态信息、信号降级命令信息。
联锁向列控中心传输:列车进路状态信息、调车信号状态信息、区间改方命令信息、车站信号机点灯状态信息。
(2)列控中心和临时限速服务器通信
临时限速服务器向列控中心传输临时限速命令信息和校时时钟信息。
列控中心向临时限速服务器传输临时限速命令状态信息和闭塞分区状态信息。
(3)RBC和临时限速服务器通信
临时限速服务器向RBC传输临时限速命令。
RBC向临时限速服务器传输临时限速命令状态。
(4)RBC和联锁通信
联锁向RBC传输SA信息。
RBC向联锁传输列车相关信息。
根据IEC 62278-2002(EN 50126) “铁路应用-可靠性、可用性、可维护性和安全性(RAMS)规范和说明”,对系统可靠性的定义如下。
(1)规定应用及环境下所有可能的系统失效模式。
(2)每个失效发生的概率,或者每个失效出现的几率。
(3)失效对系统功能的影响。
对于信号安全数据网而言,一般有如下几种失效模式。
(1)光通道性能变差。
(2)应用接入点故障。
(3)交换机硬件故障。
(4)聚合链路失效。
(5)VRRP协议失效。
(6)网管服务失效。
(7)时间同步服务失效。
以下分别就信号安全数据网的几个组成部分(基层环网、子网间接口、网管系统),对上述失效模式及其影响进行研究。
基层环网是构成整个网络的基础,其结构如图1所示。
基层环网由光通道、交换机及应用系统接入点3类元素构成。在每一类元素发生失效时,对系统的影响是不同的。
由于光缆的施工工艺、沿线沟槽状况、室外施工情况等复杂因素,此类失效是最为常见的。一般说来,光纤损耗主要由光纤本身和外部两类原因引起。对于光纤本身的损耗,主要有3种:光纤和介质固有的损耗、光纤制造引起的损耗和菲涅耳反射造成的损耗。对于1 550 nm的单模光纤,一般衰耗值为0.25 dB/km;对于1 310 nm的单模光纤,一般衰耗值为0.4 dB/km。这类损耗是不可避免的,进行网络设计时必须要考虑这些因素。
外因损耗则主要有弯曲损耗和连接损耗。例如,光纤在穿行机柜的过程中弯曲半径过小(一般要求最小弯曲半径为5 cm),会明显增大衰耗值;又如,干线光缆进入机械室后,必须在ODF架成端后方可连接交换机设备,这种“成端”的过程(也称为熔接)本身就会造成一定的衰耗,而且ODF架上的珐兰端子本身也存在一定的衰耗(通常定义为每个珐兰连接点增加0.5 dB)。
由于衰耗特性与波长、光纤外涂层、芯线材质、传输距离、连接点数量等因素均密切相关,因此在工程实践中,我们通常将相邻两站ODF架对应的端子间(两台设备间直连的光通路)的实测衰耗值作为主要参考,并针对该值提出技术要求:对于两点间距离小于20 km的光通路,要求链路衰耗不得大于-10 dB;距离大于20 km小于70 km的光通路,要求链路衰耗不得大于-20 dB。两点间距离不得大于70 km。
对于安全网而言,正常情况下数据流是在车站间直连的物理路径中传递;当站间通道衰耗过大或链路彻底中断时,则出现光通道失效。
在图2中可以看出,站间的任一点断开后,数据流可由环的另一侧(迂回链路侧)到达目的地。假定相邻的节点A与节点B物理距离为10 km,而全线共计20个车站、4个中继器(单侧环网)、且最远端两站的距离为300 km,按照最不利情况(A到B的数据需遍历所有的交换机)计算如下。
(1)正常情况下,从节点A的应用系统到节点B的应用系统的数据传输时延的计算方法为:节点A应用系统输入交换机的电端口时延+节点A交换机存储转发的时延+光速传递10 km的时间+节点B交换机存储转发的时延+节点B交换机电端口输出至应用系统的时延。以目前常用的工业以太网交换机的性能指标代入,则为:2.7+32+(10/300 000)×106+32+2.7 ≈103(μs),即约为0.1 ms。
(2)出现图2的单点光通道失效的情况下,节点A的数据需经过所有车站及中继器才可到达节点B,则时延的计算方法为:节点A交换机的电端口时延+交换机存储转发的时延×车站和中继器数量+光速传递590 km(即遍历整个环的距离减去A、B间的距离)的时间+节点B交换机电端口的时延。代入数值,则为:2.7+32×24+(590/300 000)×106+2.7≈2 740 (μs),即约为2.7 ms。
(3)可以看出,迂回的方法虽然传输延迟增大了约27倍,但由于TCC和CBI通常的系统周期为400 ms,2~3 ms的传输延迟是在容忍范围内的,且满足部颁技术条件的要求。
图3描述了一个标准站的应用接入。左右侧各1台交换机,每台分别接入TCC两系和CBI两系共4根RJ45网线。应用接入点故障是指这些网线与交换机端口可能出现的故障(此处不讨论应用系统板卡引起的故障)。
如图3所示,TCC/CBI每系的以太网板有两个端口(分别配置了左网和右网不同网段的IP地址),每个端口都能够分别到达CBI/TCC的一系和二系(反之亦然,但要严格保证双方是在同一网段内)。因此,我们在应用系统的逻辑定义中规定如下:当且仅当主系的以太网板两个端口均离线时,系统开始判断备系的健康状态,若备系完好则触发倒机,若备系也处于异常状态则双系离线。
在现场实际应用中,由于网线接入点故障引起的通信中断比较罕见,此类故障发生的概率很低;但由于网线接入错误(例如图3中TCC一系的B口接入了交换机L),配置了不同网段,该端口无法与CBI的1A和2A口通信。
尽管安全网采用了工业级交换机,设备运行是比较稳定的,但由于整个C3级系统的SIL-4级高可靠性要求,交换机硬件故障是需要考虑的。
2.3.1 交换机宕机
工业以太网交换机本身具有多重自保护功能,例如抗电磁干扰、抗雷电及浪涌等。在环境条件满足外部环境要求的指标情况下,交换机可稳定运行。
除此以外,在实际应用过程中还存在一种交换机部分失效的情况:当光通道质量不佳,特别是接收端的光功率达到接收灵敏度的低限时,会出现光端口频繁报告通道中断(频率可达每秒3~5次之多)。这种情况下该链路实际是不通的,却无谓的消耗了交换机CPU的处理能力和带宽,也对网管系统产生了不良影响,严重时可导致网管软件的崩溃。因此,除了保证光通道的稳定可靠以外,在交换机上和网管系统中配置适当的报警策略、避免同类报警过于频繁导致系统资源过度消耗的情况,也非常必要。
2.3.2 交换机过载
与Internet不同,安全网是一个在封闭环境下的、流量可预见的网络系统。根据在RBC/TSR与相邻车站间的交换机(是全网负载最大的节点)所观察到的流量数据显示,应用系统产生的稳定流量大约在700 kB/s左右(包括应用程序、操作系统、TCP机制等产生的流量),峰值可达2 MB/s;网管流量大约稳定在50 kB/s左右,网管系统发起轮询或网内有大范围报警时可达200 kB/s。安全网的千兆速率完全可以满足需求。
但是,仍然要考虑网络过载的情况。例如,当网络中出现“环”而冗余管理器失效时,会产生类似广播风暴的效应,造成主干网拥塞,进而导致交换机过载;再如,某个应用系统设备可能会不断产生广播包,占用主干网的带宽。
从流量控制的角度来看,安全网交换机一般采用光口是千兆、电口是百兆的设计结构,这样即使某个电口涌入的非正常数据达到极端的每秒百兆,仍然不至于使主干网过载。另外,通过强制配置环网冗余管理器、并针对所有“分岔”站点使用的所有冗余通道强制配置聚合,能够避免意外出现环。在极端情况下,还可配置交换机崩溃后自动重启的机制。通过以上技术手段,能够保证主干网运行的可靠、稳定。
考虑到客运专线/高速铁路所覆盖的地域广泛性,不可能将所有站点都囊括在二层网络中。适当划分不同的子网、配置合理的网间路由并配置充足的冗余量,是切实可行的方法。而这种网间通信的可靠度评价也不同于一般二层网络,除了交换机的硬件故障以外,转发过程中的聚合链路失效及虚拟路由冗斜协议(VRRP)协议失效是最为关键的。
从图4中可以看出,1对三层交换机通过2条光通道连接,我们在交换机中将这两条通道以聚合(Aggregation)的方式配置,使之对交换机而言逻辑上是1条通道。正常工作时,交换机按照流量平均的原则在2条通道上传输;当任意一条通道中断时,交换机将所有数据通过剩余的健康通道传输。从图4中还可以看出,用于聚合的2条链路采用不同物理路径的光缆,因此大大降低了2条链路同时失效的可能,提高了可靠性。
但是,链路聚合的采用也有其风险。若某种情况下聚合协议失效,但2条通道仍然健康,此时一种危险的情况会出现——成环。
图5是聚合协议失效时形成的环。这种情况发生时,数据包(包括应用数据、网络状态信息等)会在这个环中循环往复地流动,这种类似广播风暴的效应将会迅速消耗掉交换机的带宽和处理器能力,最终导致交换机过载。不但这一侧的上、下行子网通信中断,本地接入的应用也会中断,并且无法从远程访问到交换机。
为避免这种情况的出现,除了在工程实施中加强配置的质量控制以外,在交换机中对聚合端口做适当的流量控制、并配置极端情况下的交换机自恢复/重启动等功能,非常必要。
由于在枢纽等网络结构复杂的地方,RBC/TSRS等核心设备不一定能够被包含到本地二层网中,大量关键应用会通过网关完成,因此提高网关的可靠性就显得非常重要。为此,我们在子网间使用了VRRP协议。
如图6所示,子网A使用VRRP将2台三层交换机虚拟为一个路由地址,作为子网A内所有设备去往子网B的网关。正常情况下,交换机A作为MASTER承担子网A←→子网B的数据流;当A不可用时,原本作为BACKUP的交换机B升级为MASTER,承担转发的任务,而这个切换的过程对应用系统来说是完全透明的。
VRRP协议失效通常出现的情况是MASTER正常情况下BACKUP异常抢权。在保证光通道正常的前提下,通过配置不同且有大小顺序的优先级,确保MASTER的优先级始终高于BACKUP,可以避免异常抢权的发生。不过,即使VRRP出现异常,只要交换机本身仍然工作,就不会影响应用系统的数据转发。
对于复杂枢纽环境,一般采用图7所示的方案,通过不同路由径路实现虚拟网关的冗余。显然,应用数据包从BACKUP需要至少两跳才能经过子网C到达子网B,效率上不如图6所示的方案高,但仍然能够达到网管冗余的目的,提高了系统的可靠性。
为便于对网络进行实时、准确的监视,安全网一般配置有网管系统。网管系统由网管服务器、路由器、防火墙及一定数量的网管终端构成。尽管网管系统的健康状态并不影响全网的正常运行,不过作为安全网的辅助系统,其可靠性仍很重要。
结合图8,从数据流向来看,基层设备将向服务器发送报警信息、服务器定时轮询指定地址段内的网络设备,将所有相关信息在服务器汇总;然后通过与集中监测网络的接口,向接入集中监测网络的网管终端发送网管信息。
为避免单一网管服务器失效造成全网无法监视,体系结构上设计了两套网管服务器,如图8所示,并在所有网内设备的报警配置中指定向这两套服务器同时发送报警信息。这样,即便一套网管服务器宕机,仍然可以通过另一套网管服务器监视网络状态,极大提高了网管系统的可靠性。
为保证安全网内的所有网络设备(不包括应用系统)时钟一致,便于故障分析,在网管服务器上配置了时间同步服务。一般来说,基于简单网络时间协议(SNTP)的时间同步采用两种方式:由服务器端主动发起的广播机制和由客户端主动发起的查询机制。本着尽量减轻时间同步服务对网络带宽的占用、避免产生瞬间峰值流量的原则,我们将二者结合使用:客户端(交换机)每1 h发起一次查询(由于各个节点的交换机重启或掉电总是在不同时间点,会使网内的交换机发起查询的时间点趋向一个平均的分布,可以避免集中查询带来的峰值流量);另外,网管服务器每12 h向全网发送一个用于校时的广播包。
由于交换机的时间同步仅用于故障分析、且对精度的要求不高,因此时间同步服务失效对系统的影响很小。
信号安全数据网是C3级系统的重要组成部分,是C3地面系统的神经中枢。通过以上分析,可以看出,信号安全数据网能够保证长期、不间断的稳定运行,并在局部发生故障时依靠冗余配置和自愈机制完成系统功能,全网是可靠、稳定的。
[1]科技运[2008]34号CTCS-3级列控系统总体技术方案[S].
[2]运基信号[2009]223号 客运专线信号系统安全数据网技术方案V1.0 [S].
[3]运基信号[2010]267号 铁路信号安全通信协议技术规范V1.0 [S].
[4] IEC 62278-2002(EN 50126) Railway application Specification and demonstration of reliability, availability, maintainability and safety(RAMS)[S].
[5] IEC 62280-1-2002 (EN 50159-1) Railway applications.Communication,signalling and processing systems. Safety related communication in closed transmission systems[S].
[6] IEC 62280-2-2002 (EN 50159-2) Railway applications.Communication,signalling and processing systems. Safety related communication in open transmission systems[S].
[7] TB/T 2073-2003 铁路信号电器设备电磁兼容试验及其限制[S].
[8] TB/T 3074-2003 铁路信号设备雷电电脉冲防护技术条件[S].
[9] RFC0793 传输层(TCP)协议[S].
[10] RFC0791网络层(IP)协议[S].