石 斌
(卡斯柯信号有限公司,北京 100070)
城市轨道交通信号系统列车自动监控系统(Automatic Train Supervision,ATS)是一个分布式的计算机监控系统,主要分布于控制中心、灾备中心、正线车站、停车场和车辆段[1]。ATS 通过对列车运行监视、自动排列进路、自动列车调整、自动生成时刻表、自动记录和统计运行数据并生产报表、自动检测设备运行状态等,实现对列车运行的监视和控制,辅助调度员完成对全线列车的远程管理。系统采用热备冗余的方式,保证系统有高度的可用性[2]。随着地铁信号系统中对ATS 的调度效率和系统安全可靠性要求的提高,信号系统网络化承载业务的能力不断提升。在ATS 融合云平台全新的业务模式背景下,需要通过承载网络实现车站和主/备中心ATS 之间的业务通信需求。本文根据新的业务需求提出详细的网络设计方案并进行论述。
在ATS 主/备中心设置的通信前置机、数据库服务器和应用服务器均部署于云平台进行资源整合,不再设置独立的硬件设备。在ATS 主/备中心设备融合云平台的背景下,实现车站级非云ATS 系统设备与ATS 主/备中心云平台进行信息交互。其中,车站级非云ATS 系统设备主要包括车站ATS 自律机、ATS 现地控制工作站、ATS 监视工作站和ATS调度工作站等。数据库服务器在云平台IaaS 层采用裸金属服务器方式部署,应用服务器和通信前置机在云平台IaaS 层采用虚拟化云主机方式部署。
当控制中心非云ATS 通信链路或设备故障时,可无缝切换至灾备中心非云链路,完成车站级非云ATS 系统设备与云平台的通信,保证ATS 系统实时监控在线列车运行的功能以及行车调度任务[3]。业务需求如图1 所示。
1)为实现全部线路包括场段的ATS 功能处理,实现信号设备和列车的远程自动控制功能,车站级非云ATS 系统设备需要和ATS 主用中心及备用中心云平台应用服务器同时通信。
2)为辅助调度员实现对全线列车的指挥和控制,ATS 调度工作站,需要和ATS 主用中心及备用中心云平台应用服务器同时通信。
3)正常情况下,车站级非云ATS 系统设备、调度工作站和主用中心云平台之间的通信链路如图1所示的绿色箭头;车站级非云ATS 系统设备、调度工作站和备用中心云平台之间的通信链路如图1 所示的绿色箭头。
4)在非云部分通往主用中心云平台核心交换机之间的传输链路发生故障时,即如图1 中的①、②、③和④任意一处链路或者所连接设备出现故障,车站级非云ATS 系统设备和主用中心云平台应用服务器之间的通信数据包经由图1 中黄色箭头链路所示;车站级非云ATS 系统设备和备用中心云平台应用服务器之间的通信数据包亦如此。
5)在非云部分通往主用中心云平台核心交换机之间的传输链路恢复正常后,即在4)的故障场景修复后,则车站级非云ATS 系统设备和主、备用中心云平台应用服务器之间的通信将恢复至3)的数据流状态。
为实现以上业务需求,并保证网络可靠性的前提下,实现车站级非云ATS 系统设备、ATS 调度工作站与主/备中心云平台网络间的平滑切换,引入VRRP 技术。VRRP 是一种提高网络稳定性和可靠性的技术手段,它将多个路由虚拟成一个网关,只要其中有一条路由可用,网络传输就不会中断,同样,VRRP 还可以实现上/下链路的故障检测和负载均衡,保证业务实时稳定传输[4]。通常,在地铁信号系统ATS 局域网络环境中,需对外通信的车站级非云ATS 系统设备都需要设置一个网关地址,而这个网关地址就是ATS 对外通信的三层网络地址,用户主机通过该三层网络地址实现与主/备中心云平台网络交互信息。但是在上述业务需求的情况下,需保证ATS 可以通过两个三层网络地址实现与主/备中心云平台业务网络进行通信,而通过VRRP 技术恰恰可以解决多网关路由通信。
利用VRRP 技术,一组路由器中,仅有一个将处于主用(Master)状态,而其余路由器均处于备用(Backup)状态,或者称为监听状态。而处于Master 状态的路由器将承担实际的数据流量转发任务,Backup 路由器始终监听Master 路由器的状态,一旦Master 路由器或者其所在的上、下联链路出现故障,处于监听状态的路由器将升为Master 承担转发任务。如果在一组路由器中Master 路由器配置抢占模式,则在Master 路由器或者其所在的上、下联链路故障修复后,将再次承担转发任务。在这一组路由器中,共用一个虚拟网关地址,作为所有主机的缺省网关地址。VRRP 备份组原理如图2 所示,主机PC 通过交换机(SW)连接双归属路由器R1和R2。在路由器R1和R2之间配置VRRP 备份组,对外体现为一台虚拟路由器(Virtual Router)来实现链路冗余备份[5]。
图2 VRRP备份组原理Fig.2 Principle of VRRP backup group
以ATS 单张网络为例进行VRRP 环境测试部署,如图3 所示。
图3 ATS网络设计拓扑Fig.3 Topology of ATS network design
1)配置主用、备用中心VRRP 备份组ATS 三层交换机L3 SW1、L3 SW2,连接非云部分ATS骨干环网,通过信号系统防火墙连接云主用、备用中心防火墙。其中ATS 骨干环网采用二层环保护技术,防止物理成环导致网络风暴的产生。这里采用信号系统中常用的Hirshmann MACH1000 系列的交换机构建信号ATS 骨干环网,具体工作原理如下。
非云ATS 网络部分的ATS 骨干环网通常采用介质冗余协议(MRP),这种协议将确保网络始终是一个无环拓扑。这种协议的重置时间低于50 ms。该协议是“Hello”数据包的扩展应用。这些数据包由环网服务器设备的一个环接口(环接口1)发送,在环网服务器设备的另一个环接口(环接口2)接收(环上每台交换机有2 个环接口)。一旦收到“Hello”数据包,环接口2 将保持在监听模式;也就是说环接口2 接收但不能转发任何数据包,ATS 骨干环协议原理如图4(a) 所示。
图4 ATS骨干环协议原理Fig.4 Principle of ATS backbone ring protocol
若断了一根光纤,环接口2 收不到“Hello”数据包。当接口2 连续3 次收不到“Hello”数据包,环服务器认为环上有一个链路断开:环接口2将改变发送模式,开始发送数据包。环网被重新配置,所有连接至环网上的设备都可以正常通信,如图4(b)所示。
如果环接口2 再次收到“Hello”数据包,那么环网服务器将强制环接口2 恢复监听模式。
2)在L3 SW1、L3 SW2 之间启用VRRP,生成一个虚拟IP 地址VIP,并开启抢占模式和联动功能,监听上联接口(上行接口互联地址1、2)或链路(link3、4)的状态。
3)在L3 SW1 设置优先级为120,即高优先级,作为Master,设置延时抢占;在L3 SW2 设置优先级为100,即低优先级,作为Backup,设置立即抢占。配置Master 设备为延时抢占,Backup 设置为立即抢占的目的是防止频繁进行状态切换导致网络运行紊乱。
4)在L3 SW1 配置实时监控L3 SW3 的接口1状态,一旦该接口中断将VRRP 备份组的优先级降低30,即由原来的120 降低至90,此时L3 SW1的优先级低于L3 SW2 的优先级,将自动切换为Backup 状态。
5)在L3 SW1 和L3 SW2 上增加通向云平台主机PC2 和PC3 的静态路由条目。
6)在L3 SW3 和L3 SW4 上增加至非云ATS主机PC1 的回程路由条目。
7)车站ATS 站机PC1 以虚拟IP 地址VIP 作为默认网关。
8)云平台网络中需要将通向车站ATS 站机的路由导入到OSPF Area100 的路由表中。
为了更加直观地观察VRRP 备份组切换过程中数据流的流向动态,需在L3 SW1 中设置静态路由条目:L3 SW4 的接口1 IP 地址 目的掩码 L3 SW2 下行接口网关地址2;在L3 SW2 中设置静态路由条目:L3 SW3 的接口1 IP 地址 目的掩码L3 SW1 下行接口网关地址1;在检测VRRP 主/备切换的稳定性时,可以通过PC1 长ping 上联接口地址:L3 SW3 的接口1 IP 地址和L3 SW4 的接口1 IP 地址。通过PC1 长ping 上联链路各个接口IP和PC2、PC3 的主机IP,判断VRRP 状态变化是否符合预期,测试结果统计如表1 所示。
表1 VRRP主备切换测试现象统计Tab.1 Statistics of switching test results of VRRP master/backup group
由于ATS 骨干网启用二层环保护功能,所以在二层环网中任意单一连线中断,都不会影响数据的正常传输,亦不会导致VRRP 状态的切换,为上层链路提供更加可靠的保证。
用户侧的数据流量符合业务需求3)、4)和5)中的描述,测试结果均符合预期,能够满足ATS 业务传输的通信网络质量需求。
1)L3 SW1
执行语句:vrrp vrid 1 virtual-ip VIP 地址;
创建VRRP 虚拟路由器的标识vrid 为1,并配置vrid 1 的虚拟IP 地址;
执行语句:vrrp vrid 1 priority 120;
设置设备L3 SW1 的优先级为120(缺省值为100),数值越大越优先;
执行语句:vrrp vrid 1 preempt-mode timer delay 30;
配置Master 设备的抢占延时为30 s(缺省值为0,立即抢占);
执行语句:vrrp vrid 1 track interface Vlaninterface vlan id2 reduced 30;
跟踪上行接口的状态,如出现端口1 或者链路link3 故障,则Master 优先级降低30(缺省值为10);
执行语句:vrrp vrid 1 track interface Vlaninterface vlanID1;
跟踪下行接口。
2)L3 SW2
配置下行接口网关地址;
执行语句:vrrp vrid 1 virtual-ip VIP 地址;
配置VRRP 虚拟网关地址;
执行语句:vrrp vrid 1 priority 100;
设置设备L3 SW2 的优先级为100;
执行语句:vrrp vrid 1 preempt-mode timer delay;
配置Backup 设备为立即抢占(缺省值为0,立即抢占)[6]。
呼和浩特市地铁2 号线信号系统中,采用上述基于VRRP 的ATS 主/备中心网络切换技术实现ATS 子系统与主备中心云平台的对接难题。在ATS系统双网冗余架构的前提下,如上述图3 中的结构描述,考虑主备异地容灾设计原则,在主/备中心分别设置ATS 三层交换机,用于组建VRRP 备份组路由器,保证非云ATS 主机始终保持唯一的网关地址,解决ATS 对主/备中心云平台通信的路由选择问题和ATS 与主/备中心云平台业务传递的主/备切换难题,实现上述业务需求中对于主备中心双链路正常情况和故障场景下的业务传递需求。以上技术在本项目中的实际应用不仅实现非云车站级ATS主机、主/备中心ATS 调度台与主/备中心云平台应用服务器同时通信的需求,也进一步提高了ATS与云平台间业务传输的可靠性[7]。
根据网络设计对工程使用设备进行部署,ATS网络整体采用全透明传输设计方式,依据ISO 的OSI 7 层参考模型进行搭建。信号专业接入层使用MRP 协议创建ATS 无环拓扑结构,网络层使用VRRP 技术解决ATS 通信的多网关问题,确保ATS主机有唯一网关地址进行对外通信。VRRP 技术启用联动功能,实时检测上、下联接口的活动状态,保证网络连接的可靠性。另外,设置抢占模式和延时抢占模式,保证网络中无“双主”问题的出现和网络的持续稳定状态。
由于信号系统信息安全三级等保的要求,需要在外部接口的位置设置边界防护设备进行隔离,所以在工程实例中引入云边界防火墙,作为信号系统ATS 和云平台的区域边界隔离设备,如图5 所示,保证信号系统ATS 与云平台的安全隔离,满足网络安全等级保护对边界防护、访问控制的要求[8]。非云ATS 区与云平台区应设置为双向通信、二层透明传输模式,并在云边界防火墙设置网段级访问控制策略,设定源目IP 地址、源目端口号、通信协议等信息[9]。
图5 ATS—云平台边界隔离示意Fig.5 Schematic of ATS-cloud platform boundary isolation
在城市轨道交通信号系统ATS 融合云平台的大趋势下,满足ATS 主/备中心切换功能的网络需求已迫在眉睫,与非云平台方式的ATS 主/备中心切换方案不同的是,基于云平台的ATS 主/备中心网络切换方案依托VRRP 技术可以实现主/备中心ATS 数据业务的实时传输和数据链路的无缝切换。由于ATS 位于主/备中心的服务器均于云平台进行资源整合,所以车站级非云ATS 系统设备与主/备中心服务器之间的通信需通过非云ATS 与云平台网络接口进行信息传输。基于VRRP 的ATS 主/备中心网络切换方案,提高了ATS 系统的可靠性和运维效率[10]。此外,统一的千兆接口连接和全透明的信息传输方式,也为实现ATS 大带宽业务的传输提供保证,达到通信传输延时的最小化。呼和浩特市地铁2 号线的实施案例,也为后续线路的方案设计和实施提供极大的理论支撑和参考价值。