何志彬,邢科家,梁志国,魏东冬,孔嘉铖,白 帅
(1.中国铁道科学研究院 研究生部,北京 100081;2.中国铁道科学研究院集团有限公司通信信号研究所,北京 100081)
在《新时代交通强国铁路先行规划纲要》指导下,一批智能高速铁路项目如京张高速铁路(北京北—张家口)、京雄高速铁路(北京西—雄安)等成功实践,新型列车运行控制系统和高速列车自动驾驶系统等成功研发与运用,标志着我国高速铁路已经进入了智能化发展的新阶段[1-3]。随着铁路运营方式网络化、自动化和智能化趋势日益明显,将云计算技术应用到铁路信号控制系统中,可以满足未来铁路联锁系统发展中大规模的计算和存储需求,为乘客提供更好的服务。
近年来,云计算技术在轨道交通信号系统的应用已成为研究的热点。云计算是一种基于服务的分布式计算模型,使用户能够按需配置和使用计算资源,并能够快速部署和释放这些资源,从而降低计算成本并提高计算效率[4]。基于云计算的铁路联锁系统(云联锁)能够更好地助力数字化、网络化和智能化铁路的建设和发展,为高速铁路技术革新、设备升级、提升运营效率及降低运维成本带来新的机遇。
各国都在积极开展将云平台引入铁路信号系统相关研究,云平台对铁路信号系统及铁路运营的助力已渗透于铁路各个方面。在效率和灵活性提升方面,云平台可以使用最新的通用计算机软硬件资源,极大提高系统的计算性能,同时,云平台的应用可将联锁系统的数据和功能集中管理,实现更高的效率和灵活性。此外,云平台可根据列车运行计划和实时的运营状况进行动态调整,最大程度地优化列车运行,提高运输效率。在资源优化方面,通过云平台的数据分析和优化算法,更好地管理铁路设备的使用,避免资源浪费。设备集中于云计算中心,不依赖于专门设计的高成本联锁安全计算机,可简化车站和轨旁设备,便于维护,降低运营成本。在统一管理和协调方面,铁路联锁系统通常涉及车站和线路间的协调管理。云平台能提供统一的管理界面,对铁路网络和列车运行状态进行实时监控,使得运营人员能够更好地协调不同车站之间的列车运行。在面向未来的扩展性方面,云平台资源配置灵活,更易于集成新的技术和功能(如人工智能、物联网等),进一步提升联锁系统的性能和智能化程度。同时,云平台有利于国际合作,实现不同国家之间的铁路系统互联互通,加强国际铁路运输的协同效应。
1.1.1 德国
西门子交通有限公司于2020 年将研制的分布式智能安全系统(Distributed Smart Safe System,DS3)在奥地利的Achau 投入运营,DS3主要特点是将控制逻辑和位于轨旁的本地控制单元进行分离[5],DS3系统总体架构如图1 所示。由图1 可知,DS3的逻辑部分部署在云服务器上,而控制单元安装在现场轨旁,可将联锁、无线闭塞中心、占用控制系统等作为安全服务应用集成到DS3的服务层。
图1 DS3系统总体架构Fig.1 DS3 system architecture
为保证安全性和可靠性,DS3中安全应用实例可以运行在不同的物理CPU内核上。由3个不同物理CPU 内核同时并行运行一个安全相关应用(如联锁逻辑)的3个实例示例。每个实例作为循环任务运行(如200 ms/周期),由安全时钟触发。各个实例的结果或输出经由安全表决确认,表决过程的结果通过安全协议网关发送给连接的系统。安全相关的应用实例以异构的代码运行,具有循环内存测试、自检,以及多样化的内存管理和通道管理等安全机制。该系统可以通过冗余方式增加实例数量,也可通过冗余设计在多服务器中运行。发生故障的实例或虚拟机重新启动时,会与正在运行的实例重新同步,可快速加入到任务处理队列中。所有组件(如实例、时钟、表决等)之间的通信都通过一种新定义的基于IP 的通信协议XDM 进行。DS3安全相关应用实例运行示例如图2所示。
图2 DS3安全相关应用实例运行示例Fig.2 Example of running DS3 security-related application instance
1.1.2 法国
2020年9月,泰雷兹公司在Wöllersdorf车站展示了联锁系统如何在云上工作[6]。在云计算机控制下,泰雷兹联锁系统完成了对Wöllersdorf 车站的信号和道岔控制。该系统采用基于商用现货(Commercial-off-the-shelf,COTS)服务器硬件,服务器无需任何专有的监督电路、定制或其他额外的要求,通过最新的虚拟化技术在多虚拟机之间运行Thales 平台(TAS)实例,共享服务器的物理资源由虚拟机监视器进行管理。
TAS平台的核心功能是为铁路安全应用的开发和部署提供工具链、方法、软件、硬件运行环境。该平台由COTS 硬件层、基于Linux 定制的操作系统层、安全层和应用层及非安全相关服务组成,TAS 控制平台架构如图3 所示。由图3 可知,顶层即应用层,为系统提供功能方面(应用程序)的支持;安全层和操作系统层为中间件部分,负责提供相关应用程序编程接口,以及编程模型与操作系统之间的连接通道,实现必要的监督、容错和实时服务[7];底层为硬件层,由COTS 服务器组成,为系统提供硬件资源。
图3 TAS控制平台架构Fig.3 Architecture of TAS control platform
与传统专用的嵌入式硬件相比,TAS平台具有资源使用效率高、可拓展性和可维护性强,以及平均修复时间和运营成本低等方面的优势。通过虚拟化,TAS平台可以实现与特定硬件解耦,消除了由于硬件过时及硬件修改需重新认证等问题。此外,该平台支持应用程序在2003,2002 等冗余架构下运行。
1.1.3 其他相关项目、计划
除了西门子、泰雷兹之外,瑞士SmartRail 项目、欧洲RCA 项目、欧盟LINX4RAIL 项目和Eulynx项目等都针对地面信号系统的集中化和小型化开展研究,这些研究为将云平台引入铁路信号系统提供了宝贵经验。
在Eulynx项目中,提出了关于“数字联锁”的概念,为联锁逻辑和RBC 逻辑等与铁路安全相关的应用的集中化提供了可能性。数字化的下一步是采用行业标准的COTS 多核计算机,将现有技术用于计算密集型铁路应用,并实现中央数据中心的硬件标准化,这有利于实现完全集中和地理冗余的高可用性;在SmartRail 项目中,试图重新设计和分配列控系统的架构,并通过引入使能技术提升信号系统和安全设备的可用性、安全性和先进性;在SmartRail 项目的影响下,欧洲RCA 项目提出了一种模块化、标准化的地面列控系统参考架构,为现有各子系统之间提供了更高效、自动化和标准化的通信方式;LINX4RAIL 项目进一步研究和推广了列控系统架构的参考模型,提升了系统的先进性,为未来将地面信号系统向云平台迁移提供了基础。
在国家铁路干线/城际铁路中,基于云平台的信号系统的应用研究尚处于起步阶段,还没有在实际的线路中试验或运用的案例。而城市轨道交通领域在这方面已经开展了诸多研究。
同济大学道路与交通工程教育部重点实验室设计了一种基于云和高速无线通信技术的城市交通信号系统架构——软件定义列车控制(SDTC),已经通过实验室的仿真测试,SDTC 系统结构如图4所示。
图4 SDTC系统结构Fig.4 SDTC system architecture
由图4 可知,SDTC 系统采用两层结构,分别为控制中心层和轨道列车层。控制中心层由安全相关云和非安全相关云组成,逻辑操作等与安全相关的云组件位于安全相关云内,包括每列列车的云控制器(CiC)、线路资源管理器(LRM)、列车登记和分配控制器(TRAC)等云组件;列车自动监控系统(ATS)和维护支持系统(MSS)等云组件位于非安全相关云中。轨道列车层指轨道和列车层,在这一层仅保留输入/输出(IO)和传感器[8],IO即安装在列车上的多个IO单元和轨旁IO单元(Wayside-IO),列车与控制中心的云组件之间使用低时延、高可靠、高速无线通信。为保证系统的可用性,在控制中心层设置备用控制中心,备用控制中心与控制中心可以同城异址或位于两个城市,两者之间通过高速网络连接进行通信。因此,当发生重大灾难时,可以在多个云中心之间进行数据传输,以最大程度地减少对系统的影响。与传统的CBTC架构相比,云中的资源配置灵活、扩展方便,维护更加灵活和简单。经实验室验证,该系统的平均故障间隔时间提高了39%。
北京交通大学对信号系统的集中化和小型化进行了探索,并在哈木铁路(哈尔盖—木里)进行了系统功能测试,这也为信号系统上云打下了基础。哈木铁路测试的新型信号系统总体架构如图5 所示。该系统主要由轨旁设备和中心设备组成。轨旁设备主要包括对象控制器(OC)、多模通信网关和卫星差分基站等设备;中心设备位于调度中心,主要包含智能调度(DCD)、资源管理(RMU)、智能维护(IMS)和卫星导航地基增强系统等设备。该系统将无线闭塞中心(RBC)、临时限速服务器(TSRS)和计算机联锁等地面设备的功能集成到控制中心,实现了对现场设备的集中化控制。该系统已经在哈木铁路现场进行了测试,对系统的架构进行了验证,对卫星定位、移动闭塞、车车通信、多模通信等关键技术也进行了验证,实现了设计功能,也为未来信号系统上云、建设数字铁路积累经验。
图5 哈木铁路测试的新型信号系统总体架构Fig.5 Overall architecture of new signaling system tested on the Haergai-Muli Railway
随着铁路数字化、智能化不断向前发展,云计算技术与联锁技术深度融合已经成为一种发展趋势,未来云联锁应用于国家铁路干线/城际铁路是可以预期的。云联锁具有诸多优势,也具有鲜明的特点,但要将云联锁应用于国家铁路干线/城际铁路,还有一些关键技术需要去研究:①除具有传统联锁系统功能外,还需要具有适用云计算特点的专有功能;②高安全平台架构设计技术;③软件监视技术,时刻监视联锁逻辑处理的安全性;④时钟同步技术;⑤同步表决技术;⑥系统防御技术。
云联锁系统除了具备车站既有的联锁功能以外,还应具备以下专有功能。
(1)车站联锁节点管理功能。在云联锁场景下,由于车站新设或撤销,会导致云平台中车站节点的扩展或某些节点的退出,这就需要云平台支持节点的动态迁入/迁出服务,且不影响其他节点的正常运行。
(2)车站联锁数据恢复功能。云联锁在运行过程中由于网络抖动、突然断电、磁盘故障等原因,可能会导致部分节点的执行速度落后于大多数节点或者直接宕机。在这种场景下,节点需要能够做到自动恢复,使自身节点的存储状态尽快和整个系统最新的存储状态一致,参与后续的逻辑处理。
(3)资源调度功能。在云联锁环境下,各类异构资源需要进行协同工作以满足对外提供服务的要求,云平台资源池中的资源是动态变化的,其资源组织管理及优化调度是云联锁面临的一个重要问题,云联锁需要具有很强的资源调度功能,以适应其分布式、扩展性强、资源动态分配的特点。
(4)灾难检测功能。云联锁的首要目标就是保证系统的安全性、可靠性与可用性,尽量避免因灾难造成服务中断或系统不安全。当遭遇地震、火灾等自然因素或战争等人为因素造成的灾难时,云联锁要具有灾难检测功能,尽早发现系统所面临的重大灾难,将应用业务尽快迁移到备用云平台或采取保护措施,尽量避免灾难对服务及系统安全造成影响,将灾难导致的损失降到最低。
目前,基于通用计算机硬件和软件资源的云平台主要用于非安全相关系统方面的商业用途,还无法提供满足联锁系统要求的安全性和可靠性要求。对于联锁系统这类典型的安全苛求关键系统,将其功能在云平台上实现面临着技术上的诸多变化,需要考虑更多的因素,例如适用于联锁系统的云平台的物理和逻辑结构,以及云平台中控制节点、计算节点和网络节点的配置方案设计等。
高安全云平台架构设计是云联锁安全稳定运行的基础,其核心包括时钟同步、安全表决和系统防御技术等。通过独立的全局同步时钟可以保障云平台中运行的联锁应用的时序性,确保云平台中多个联锁应用保持一致的时间基准,同时为采用多重表决提供时间基础[9]。多重表决可在硬件存在一个或多个危险故障的情况下,保证联锁应用能够继续承担所需的安全功能。其次,采用独立的安全监控设备或设计容错算法,对联锁应用的输出进行防护,以阻止输出危险命令[10]。同时在面对网络攻击、安全漏洞等威胁时,应具备有效的防御能力。云联锁平台架构如图6所示。
图6 云联锁平台架构Fig.6 Platform architecture of Cloud-based railway interlocking system
由图6 可以看出,在车站仅保留执行单元设备,大幅减少了现场设备。联锁逻辑等部分设置在云平台中,云平台采用主备物理冗余设置,以增强云联锁的可用性。在云平台中运行多个联锁应用实例,云平台采用了时钟同步、安全监视和表决等技术,在网络层采用安全防御技术。
云平台具有计算节点物理地址不确定、资源虚拟化、多核计算、动态调度等特征,而这些也是运行在云平台中的联锁应用所要考虑的因素。在云平台中,联锁应用运行过程中要涉及资源使用方式、数据交互方式以及相关控制节点和计算节点之间关联关系,此外还要考虑云平台通信延迟的不确定性,这些都增加了对云平台中联锁应用运行特征的关注难度。然而,联锁系统的安全相关软件具有周期性运行和强实时性等特点,因而有必要研究适用于云平台的软件监控方法,以提高系统的可靠性和安全性,防止错误或冲突的指令对列车行车造成危险。
联锁系统作为一个安全苛求系统,通过防止车站范围内的进路冲突来确保列车运行安全[11]。云平台上运行联锁软件的最大挑战在于确保其安全性,为解决云平台承载的联锁逻辑软件的安全性问题,需要对云联锁运行行为进行监测,防止危险指令的输出。例如,可以构建适用于联锁运行的云环境的联锁监控模型,并设计容错安全方法对云联锁中的各个软件程序进行监控,以检测系统设计缺陷和计算错误,及时发现异常情况并采取相应措施,以防护联锁系统的输出,确保系统正常运行。云平台监控模型宜采用双重冗余架构设计,以保证监控自身的可靠性和安全性。
对于运行在分布式计算节点中的应用程序,需要一个全局的同步时钟,以满足各个子模块的稳定运行和实时交互的时序要求[12-14]。此外,云平台中的表决过程、故障诊断和恢复、分析审计日志、备份和恢复功能等都需要基于同步时钟的支持。显然,时钟同步技术在云联锁的研究领域发挥着重要作用。安全可靠的全局同步时钟是实现云联锁的基础和前提,因此有必要研究适用于云联锁的全局时钟,以及针对云联锁的分布式时钟同步算法,从而保证系统级的时钟同步,满足计算节点、应用程序和表决等对时钟的要求,为实现云联锁提供依据。
云联锁可以通过增加计算节点数量,提高联锁逻辑的运算处理效率,同时避免单点故障等问题。然而,在这种设计中,节点之间可能面临通信不可靠、延迟和阻塞的问题,节点的处理也可能出现错误,甚至节点本身可能随时宕机。此外,与传统计算机相比,云平台存在更严重的信息安全问题,如入侵、劫持和修改等,导致每个云上的联锁软件容易发生拜占庭失效的风险。同步表决算法是解决拜占庭失效和一般独立失效的有效手段,合适的共识算法是同步表决的基础[15]。传统的实用拜占庭容错算法(Practical Byzantine Fault Tolerance)等共识算法假设系统可以在一致的有限时间内完成计算和网络传输任务,导致同步表决算法对系统处理和通信时延非常敏感。然而,云平台的特点导致通信延迟存在较大的不确定性,因此开发适用于高安全云平台的同步表决算法成为当前云联锁中一个重要的课题。
由于云平台的网络化特点,可能面临多种安全漏洞和恶意网络攻击,因而云平台的网络安全也是要考虑的一个重要问题[16]。云平台要采用主动的系统防御技术来防范网络安全风险,如可以通过监测设备或节点来监视计算机程序的运行,监测节点通过加密验证程序对加密的结果进行验证,能够检测到云节点潜在的安全漏洞[17]。
基于Paillier 加密机制监测软件程序如图7 所示,图中展示了监控的实现的一个流程,其中使用了Paillier 加密算法。监测节点执行加密和解密操作,云节点只执行事先约定的特定加密操作。在监控方法中,可设置动态加密运行签名,通过这种加密方法可以解决隐私泄露的问题。根据EN50129标准,逻辑监控是通过软件计数流程或软件密钥流程来监控程序执行顺序的。在程序设计的前期阶段,通过在与云节点相关程序的关键分支上手动标记加密签名来实现。在程序运行过程中,加密签名将被发送到监测节点。监测节点解密签名后,检查其是否正确,并启动相应的安全响应。
图7 基于Paillier加密机制监测软件程序Fig.7 Example of logical monitoring based on Paillier encryption mechanism
云联锁顺应了铁路信号系统数字化、智能化的发展方向,具有广阔的发展前景。通过对国内外云计算在信号领域的应用情况进行研究,分析了各个方案的技术特点和云联锁系统的优势,对云联锁的发展进行了探讨。通过对云联锁应具备的专用功能进行说明,分析云联锁发展中需解决的关键技术,对高安全云平台架构设计、软件监视、时钟同步、同步表决和系统安全防御等关键技术方面做了一些有益思考。云联锁的应用,将极大地改变既有的信号控制模式,衍生出效率更高、成本更低、可靠性更有保障的全新信号控制模式,对我国铁路现代化发展具有重要而深远的意义。