魏 民
铁路调度指挥现代化既是铁路运输管理现代化的重要标志,也是铁路运输信息化建设和应用的重点。列车调度指挥系统(TDCS)和调度集中系统(CTC)是实现铁路各级运输调度对列车运行实行统一调度、实时调整、集中控制、覆盖全路的现代化铁路运输调度指挥和控制系统。经过十多年的建设,已建成了覆盖铁道部、铁路局和铁路车站的现代化铁路调度指挥网,实现了全国铁路调度指挥自动化,在提高运输效率和保证行车安全方面发挥了重大作用,已经成为铁路运输调度指挥的基础装备。
随着 TDCS和 CTC系统投入运用,每个列车调度员管辖范围由传统的 100 km增大到 260 km,最高达到上千公里,已经成为中国铁路运输不可缺少的调度指挥工具。随着开行列车密度的不断加大,调度员的管瞎范围也不断扩大,列车调度员对列车调度指挥系统的依赖程度也就越来越大,如何应对各种灾难对 TDCS/CTC系统的打击,显得更加迫切。
灾难对计算机系统而言,就是导致系统运行严重故障、瘫痪、信息系统支持的业务功能停顿或服务水平不可接受的事件。信息系统面临的威胁可能来自于自然,如地震、洪水、龙卷风和火灾等;也可能来自于人类自身,如操作失误、病毒、黑客入侵、恐怖袭击等。这些威胁一旦使关键信息系统发生故障或遭受灾难性打击,后果将不堪设想。因此,要使信息化能够发挥更加重要的作用,信息系统的灾备建设应成为当务之急。
目前列车调度指挥系统的备份主要是采用双机热备、存储冗余、动态切换等技术,基本能够抵御系统一般性故障带来的影响。但如果发生自然灾害,如水灾、火灾、雷击、地震或其他灾害等突发事件,导致铁道部、铁路局调度指挥中心不能正常指挥行车时,对铁路运输造成的损失和影响将不可估量。因此,研究 TDCS/CTC系统灾难备份建设方案非常必要。
在充分借鉴银行、海关等灾备系统建设理念和成功经验的基础上,结合铁路信息系统灾难备份建设方案,建设符合铁路调度指挥业务需求的 TDCS/CTC灾备系统具体目标如下。
1.符合 《信息安全技术——信息系统灾难恢复规范》的要求,满足恢复时间目标 RTO≤2 h、恢复点目标RPO≤30 min,达到 《信息安全技术—信息系统灾难恢复规范》第 5级—实时数据传输及完整设备支持等级。
2.将灾备中心系统切换至正常运营的时间控制在 2 h内,为灾备中心接管生产中心的调度指挥业务提供保障。
3.具备调度指挥中心关键业务功能,实现列车运行监视、列车运行计划调整、列调运行控制、调度命令管理等指挥列车运行的关键业务;满足统一规划、分步实施及生产力布局调整的需要,灵活地进行变更和扩展,保持与既有 TDCS/CTC中心一致。
4.采用与既有调度指挥中心统一技术平台,构成一个完整的系统,在界面、功能、数据、系统软件和系统硬件等各个层次上高度统一与协调。
5.灾备中心系统内部各子系统之间必须做到完全匹配、有效集成、严密对接,具有极高的稳定性和可靠性。灾备中心的建设应实现技术先进、结构合理、功能完善、管理科学、经济适用、安全可靠,具有可扩充性和可持续发展能力。
1.业务连续性原则。灾备中心启用接管某个调度指挥中心工作时,应充分考虑接管前业务运营的实际情况,保持业务连续性。
2.一致性原则。灾备中心在界面、功能、数据、系统软件和系统硬件等方面,应严格按照TDCS/CTC相关规范标准建设,与既有调度中心一致,利于调度员接管调度指挥工作。
3.先进性原则。利用先进的企业级集成开发工具和服务器构建软件系统,使其完全符合调度指挥工作业务规范;提供高效的、便捷的接管服务,实现与其他系统间的信息共享。以先进的灾难备份技术、软件工程方法和面向对象技术,指导灾备系统的设计、研发及部署,确保 TDCS/CTC容灾系统具备系统级容灾的能力。
4.实时性原则。采用分布式计算的编程模型,设计应用层通信软件,通过对等模式进行数据通信,使数据处理能够在局域网内任何节点进行均衡负载,进而提高整个系统的实时性。通过设计高速千兆光纤局域网,满足各调度台到服务器信息快速交换和处理的要求。
灾备中心系统启用的时间应控制在 2 h,确保某个调度中心出现异常情况时,满足灾备中心RTO和 RPO要求。系统从车站采集信息传递到灾备中心应具有实时性。信息从车站至灾备中心的时间应在 20 s内,保证用户信息查询的快速响应时间应在 10 s以内。
5.可用性。系统应提供可靠的数据后备和恢复手段,提供系统故障恢复功能,保证系统 7×24 h不间断运行能力。当生产中心失效时,尽快由灾备中心接管,确保调度指挥的持续可靠。
6.可靠性原则。硬件采用高端集群服务器、存储服务器;网络采用先进的高速网络设备,保证双套冗余热备的千兆网络直达每个用户终端;使用安全稳定的 UNIX/LINUX操作系统,以 Oracle数据库构建信息管理体系,保证整个系统的设计安全可靠。
7.可扩展性原则。系统在设计时需充分考虑升级扩容的需要,在硬件结构方面预留扩展接口,在软件设计与系统功能方面,均应强化可扩展性。
8.互操作性原则。系统设计要考虑与其他信息系统的信息共享,在不同系统间要提供相互访问的能力,能方便地进行数据传输和交换。
调度指挥容灾系统的建设应坚持路网完整性和统一指挥,确保铁道部、各铁路局调度指挥的有机协调。设计上坚持统一领导、统一规划、统一标准、统一管理,实施上坚持统筹规划建设进程分步建设。
调度指挥灾备系统与既有各调度指挥中心的技术体系,应以统一的软件平台、统一的安全平台、统一的业务平台、统一的管理平台和统一的数据存储为特征,对外提供标准的信息接口,构建全路一体化的调度指挥灾难备份系统,实现系统资源的优化运用和系统规模的灵活调整。
目前,已建成铁道部TDCS中心、18个铁路局TDCS/CTC中心和 6039个车站基层网,铁道部TDCS中心已经实现实时接入全路 18个铁路局和6039个车站的 TDCS/CTC信息,实现了铁路各级运输调度对列车运行的透明指挥、实时调整和集中控制。
对 TDCS/CTC系统在设计、建设之初,考虑到业务处理流程受到严重破坏而不能支持业务连续运行的问题,采用硬件冗余技术 (单机容错技术、双机热备技术 、磁盘冗余、网络设备冗余、电源冗余)和静态数据备份等方式,确保故障发生后业务立即恢复。目前 TDCS/CTC系统能够通过有效冗余和故障切换恢复来实现灾备,具备本地系统灾备能力。2008年 3月,在国家信息系统安全等级保护定级工作中,TDCS/CTC评定为信息系统安全等级保护 4级,具体要求为 “应建立异地灾难备份中心,配备系统灾难恢复所需的通信线路、网络设备和数据处理设备”。
为保证 TDCS/CTC系统日常调度业务的连续运行,满足信息系统等级保护 4级要求,保证尽量减少数据的丢失,将危险与灾难的损失降到最低程度,需要建立 TDCS/CTC灾备系统。
铁道部和 18个铁路局灾备方案采用同城灾备方式,距离各生产中心 30 km外建设灾备中心。一旦某生产中心瘫痪,灾备中心可接管其调度指挥职能,继续为其所辖路局提供列车调度指挥服务。另外,铁道部中心在具备同城灾备的同时,建立远程异地灾备中心,可将上海铁路局同城灾备中心作为铁道部的远程异地灾备中心,当铁道部生产中心和同城灾备中心异常时,由该远程异地灾备中心接管其调度指挥的职能。
铁道部和各铁路局设置保护链路通道,环回灾备中心,保证在 TDCS/CTC生产中心失效的情况下,由灾备中心接管其调度指挥业务。灾备中心设备按满足接管部及各铁路局 TDCS/CTC中心业务要求配置。
铁道部和铁路局 TDCS/CTC中心的灾备结构如图 1,如图 2所示。
1.网络连接。各 TDCS/CTC生产中心与灾备中心之间采用 2条 2 Mb/s独立通道连接。
2.数据传输。TDCS/CTC生产中心与灾备中心之间通过 2条独立的 2 Mb/s通道传输数据;当启用 TDCS/CTC灾备中心后,TDCS/CTC灾备中心通过被其接管的运营中心原有通道,与其接管范围内的基层车站或铁路局传输数据。
3.数据同步。为保证灾备中心在 TDCS/CTC生产中心意外或灾难时,能够接管生产中心的调度指挥职能,生产中心与灾备中心将采用异地数据备份的方法保护数据资产。生产中心通过独立通道实时将各种计划数据、实际运行数据、各种关键操作信息和设备运行状态信息传输至灾备中心,实现中心间数据同步,最小的数据丢失,以保证接管后能够迅速接管调度指挥职能。灾备中心与生产中心数据同步原理图如图 3所示。
图3 灾备中心与生产中心数据同步原理图
生产中心 TDCS/CTC系统恢复正常后,灾备中心将数据传输至生产中心,直至生产中心接管调度指挥职能。
4.应用一致性。灾备中心各应用软件模块与生产中心相应的应用软件模块需一致,以确保系统输入输出完全一致,为此应考虑对应用系统模块进行 “灾备化”设计。另外,TDCS/CTC系统必须采用全路统一的标准协议,确保灾备中心能够直接控制和指挥列车运行。
5.系统切换技术,包括通信网络集中切换和系统切换技术 2方面。系统切换应充分考虑灾害发生时的切换、灾害结束后的数据反向同步和生产中心系统恢复正常后的切换技术。
建议铁路有关部门尽快确定铁路 TDCS/CTC系统的灾备方案,并加快建设 TDCS/CTC系统的灾备系统,才能有效预防各种灾难对 TDCS/CTC系统的打击。
[1] GB/T20988-2007.信息安全技术-信息系统灾难恢复规范,2007.
(责任编辑:温志红)