黄柒光 梁 宇
(卡斯柯信号有限公司,200070,上海//第一作者,工程师)
信号系统是城市轨道交通中非常重要的一个系统,是指挥列车运行的控制设备,以确保列车实现安全防护、自动驾驶、自动跟踪和自动调度,对于保障列车行驶安全和提高城市轨道交通系统运营效率起着关键性作用。一般而言、信号系统由自动列车控制(ATC)、计算机联锁(CI)、数据通信系统(DCS)、维护支持系统(MSS)等子系统组成。其中,ATC包括ATP(列车自动保护)、ATS(列车自动监控)和ATO(列车自动运行)。时钟同步对各子系统协同正常运行,提高城市轨道交通系统安全性、可靠性及提升其运营效率有着重要的意义;时钟不同步会引起列车运营准点率下降、车门开关门时间过短等故障,影响乘客满意度。
信号系统时钟同步主要通过信号系统通信前置机(FEP)从通信系统时钟接口获取时钟源,信号系统内部以FEP获取的时钟源进行同步;外部时钟系统通常使用GPS(全球定位系统)技术进行同步时间校准,避免产生累计误差;信号系统内部通常采用NTP(网络时间协议)或SNTP(简单网络时间协议)进行时钟同步。信号系统时钟同步示意如图1所示。
注:LATS代表所有的车站服务器;DCS代表数据通信系统
图1 信号系统时钟同步示意图
(1) 第一层时间服务:系统通过串口或网络将标准时间发送给FEP A和FEP B,FEP A和FEP B通过从时钟系统获取标准时间,来同步本机操作系统时间。
(2) 第二层时间服务:FEP A和FEP B作为 NTP服务的服务器端来提供时间服务,应用服务器A和应用服务器B作为NTP服务客户端来同步两台前置机的时间。
(3) 第三层时间服务:CATS A和CATS B作为NTP服务的服务器端来提供时间服务,所有工作站、LATS和连接信号子网的两个网关(即网关A和网关B)作为NTP服务的客户端来同步两台CATS服务器的时间。
(4) 第四层时间服务:连接信号子网的网关A和网关B作为NTP服务的服务器端来提供时间服务,信号子网内的所有主机(包括ATC车载设备、ATC其它轨旁设备和DCS设备)作为NTP服务的客户端来同步两个网关的时间。
FEP对于外部时钟服务器而言,主要扮演NTP客户端角色;但对于应用服务器而言,它又充当NTP服务器角色。
应用服务器对于FEP而言,主要扮演NTP客户端角色;但对于网关服务器、车站服务器、ATS中心工作站和ATS车站工作站而言,它又充当NTP服务器角色。
网关服务器对于应用服务器而言,主要扮演NTP客户端角色;但对于ATC和DCS设备而言,它又充当NTP服务器角色。
2.1.1 故障现象
2018年5月1日,成都某地铁线路因外部时钟跳变引发了信号系统时钟发生跳变,导致列车时钟不同步,从而造成区间ATO限速,以及部分车站PIS(乘客信息系统)无到站信息等问题。
2.1.2 故障分析
经分析,成都某地铁线路故障是由外部时钟系统发生跳变而导致的。该地铁线路信号系统与外部时钟源采用网络接口协议,同时采用NTP协议进行同步;信号系统内部同样采用NTP协议以及Meinberg工具。2018年5月1日,外部时钟源由于发生故障,时钟跳变至2018年4月24日。同时,FEP检测到时钟源跳变超过1 000 s,立即停止NTP服务同步错误时钟源。FEP根据主备机动态控制NTP时钟服务,其主机每5 min会自动检查NTP服务状态,并针对主机检查NTP服务是否启动,若未启动则立即启动NTP服务,并针对备机进行关闭NTP服务;NTP服务启动会无条件接受外部时钟的时间,并使得FEP主机时间跳变到2018年4月24日;由于FEP跳变至2018年4月24日,CATS检测到其时钟与时钟源FEP主机相差1 000 s,立即停止了CATS的NTP服务。
CATS根据主备机动态控制NTP时钟服务,CATS主机每5 min会自动检查NTP服务状态,针对主机检查NTP服务是否启动,未启动会启动NTP服务,同时针对备机会进行关闭NTP服务;NTP服务启动会无条件接受外部时钟的时间,导致CATS主机时间跳变到2018年4月24日。
由于CATS跳变到2018年4月24日,同时网关检测到其与时钟源CATS主机相差1 000 s,立即停止了网关的NTP服务;网关没有利用主备机动态控制NTP时钟服务机制,但由于前期NTP协议工具Meinberg不太稳定,出现过自动停止的情况,因此实施过程对NTP服务创建了计划任务自启动功能;由于网关在06:00设置了自启动NTP任务,因此在06:00时网关同样跳变到2018年4月24日。
由于2台网关服务器均跳变至2018年4月24日,此时CC(车载控制器)监测到本地时间与时钟服务端网关服务器相差超过1 000 s,因此立即停止了NTP服务,同时采用本地时间代替;由于CC监测到的到站、离站时间及区间运行时间均由ATS网关发送,在ATO模式下,CC根据ATS发送的时间进行离站以及计算区间运行速度;由于CC监测到的时间与网关服务器时间不一致,从而引起相关故障。
2.2.1 故障现象
2017年6月26日,苏州某地铁线路部分列车在ATO模式下,出现司机界面显示时间不正确,以及在站台停站时间过短的现象。
2.2.2 故障分析
(1) 经分析,该故障是由于CC设备与ATS网关服务器时间不同步导致的。
(2) 该线路在ATS层面采用Windows的SNTP协议(Windows time服务)进行时钟同步,即网关服务器同步应用服务器,应用服务器同步通信前置机等均采用了SNTP协议。
(3) CC采用了NTP,同时CC同步的上层时钟为网关服务器A与网关服务器B;2台网关服务器均采用SNTP同步应用服务器A与应用服务器B(SNTP的精度仅能到秒级);当网关服务器A与网关服务器B相差超过50 ms,CC将不再同步网关服务器,而采纳本地时间,从而导致CC时间与ATS网关时间不一致。
(4) 当列车以ATO模式驾驶,到站后ATS网关服务器将会给车载发送预计离站时间及区间运行时间,这两个时间采用的都是绝对时间,由于时间的不一致,导致列车离站及到达下一站时间不准确。
对香港和苏州两个城市地铁线路信号系统部署的时钟同步方案进行了比较,可知:香港某地铁线路(无人驾驶)采用NTP协议,并利用Meinberg工具实现信号系统时钟同步;苏州某地铁线路采用SNTP协议,并利用Windows time服务实现信号系统时钟同步。
通过网络抓包,以及结合自开发工具提取时钟报文参数,并对上述两种时钟同步方案进行比较(见图2~3)。由图2~3可知,采用NTP协议和Meinberg工具进行时钟同步,相比采用SNTP协议和Windows time进行时钟同步,偏差要小,前者由CC监测到的时间更精准。
图2 苏州某地铁线路信号系统CC与轨旁ATS网关服务器时钟同步情况
图3 香港某地铁线路信号系统CC与轨旁ATS网关服务器时钟同步情况
经对几个项目时钟不同步问题故障分析,总结出时钟同步优化方案:
(1) 信号系统内部采用NTP协议的Meinberg工具,该协议可确保时间精度控制在50 ms之内;对于采用多个时钟源的情况,不会影响下一层时钟同步。
(2) FEP与外部时钟系统采用自开发软件。由于Meinberg工具对于上层时钟源在1 000 s之内发生的偏差或跳变,下一层时钟均可以与上层同步;而实际信号系统一般规定外部时钟源存在几秒或十几秒的偏差或跳变时,停止信号系统通信前置机与外部时钟系统同步。
(3) 当同步的上一层时钟设备是双套的情况下,如果相互之间偏差超过50 ms,那么必须停止其中一台时钟设备提供时钟源,以免影响下一层设备时钟同步。
(4) 2台FEP采用自开发软件接口协议与外部时钟源同步,但无法确保2台FEP的时钟精度偏差均在50 ms内(仅采用NTP或PTP协议时才能确保精度在50 ms内),不能同时为下一层提供时钟源服务。
(5) 2台FEP为一主一备,热备可随时进行切换,只保留主机提供NTP服务,备机软件自动停止NTP服务,以确保下一层设备(2台应用服务器)仅同步1台FEP,这样可确保下一层设备(2台应用服务器)的精度控制在50 ms内。
(6) 2台应用服务器精度在50 ms内,可设置该2台应用服务器为时钟源,提高了冗余性。
(7) 2台网关服务器进行同步2台应用服务器,由于2台应用服务器精度控制在50 ms内,这样可确保2台网关服务器精度在50 ms内。
(8) 其它ATS终端、车站ATS服务器等将2台应用服务器作为时钟源进行同步。
(9) CC可将2台网关服务器作为时钟源同步。
以上优化方案在试验环境中进行了验证,验证情况如下:
(1) 上层时钟源跳变量超过1 000 s,下层客户端时钟同步服务NTP会立即停止。
(2) 重启NTP服务后,时钟客户端会立刻向上层时钟同步。
(3) 时钟跳变在1 000 s内,每层级时钟客户端与服务端大概15 min左右可以完成同步,前提是设置NTP同步参数为非跳跃式。
(4) NTP客户端层级stratum小于等于服务端,会导致同步失效。
(5) 如有多个时钟源,如时钟源相差50 ms,下一层时钟客户端会停止向服务端同步。
(6) 上层时钟源为2套设备,采用Windows time的SNTP协议,下一层采用NTP协议Meinberg工具,此时会出现下层时钟不能同步上层时钟源。因为上层2个时钟源采用的SNTP协议,时钟精度仅能保持在秒级,很容易相差50 ms,当2个时钟源相差50 ms,下一层时钟源采用NTP协议,将会停止向上一层时钟源同步。
信号系统是城市轨道交通运行的重要组成部分,能确保列车安全运营。时钟同步为工作人员和广大乘客提供了统一的标准时间,并为信号系统各设备提供统一的标准时间信号,在保证城市轨道交通的安全、稳定、正常运营起到了重要作用。
通过对上述几个城市出现的信号系统时钟不同步故障进行分析,总结优化了信号系统时钟同步方案,并在试验环境下对优化方案进行了验证。目前,优化的时钟同步方案成功运用在成都、苏州、深圳、广州和武汉等多个城市,且运行良好,至今未出现时钟不同步引起的相关故障。