甘 勇
(中铁第四勘察设计院(集团)有限公司通号处,430063,武汉∥助理工程师)
城市轨道交通信号系统具有极高的安全可靠要求,不仅要采用高可靠的元件、器件和软件,而且还要具有故障导向安全的特性。冗余技术是计算机系统可靠性设计中常采用的一种技术,是提高信号系统可靠性的最有效方法之一。通常会在控制系统的设计和应用中采用冗余技术。即重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间,从而提高系统的安全可靠性。
在GB/T12758—2004《城市轨道交通信号系统通用技术条件》[1]中,规定了城市轨道交通信号系统的总则、系统,以及基本功能、技术要求和环境条件。主要有:①信号系统及其产品应进行可靠性描述,要求采用必要的冗余技术。②信号系统的平均无故障间隔时间(MTBF)根据系统构成的冗余度确定。③信号系统应进行可用性描述,要求重要设备应有冗余措施,系统数据传输网络应具有冗余措施,行车指挥中心及车站主要设备应采用有效的冗余技术,主备系统宜实现无扰切换。④装备列车自动防护系统的列车,其实际车速的表示应由列车自动防护系统的车载设备驱动,采用车轮转速测定列车速度时,应具有轮径磨耗补偿,根据需要可有车轮空转打滑的检测能力,测速装置宜采用冗余技术。⑤联锁设备必须符合故障-安全的原则,应采用必要的冗余和安全技术并具有故障诊断和报警能力。⑥电源系统主要功能单元,宜采用模块化积木式结构,系统应采用冗余措施,具有较高的可靠性,保证信号系统供电可靠。因此合理的冗余设计将大大提高信号系统的可靠性和安全性。以下就信号系统的冗余方式进行分析。
软件冗余方案示意图见图1。输入数据经2套输入电路读入。在1台主机内有2套独立程序:程序A和B同时按照独立的格式依次对输入数据处理。在正常情况下,2套独立程序处理的结果是相同的。经过比较器电路进行结果比较,在结果一致时,经2套输出电路输出,图中接点A、B吸起,接通控制电路。在发生故障时,由于程序A、B的独立性,致使处理结果不一致。该结果导致比较器电路输出为零,图中接点A、B落下,切断控制电路的供电。由于联锁逻辑是遵循故障-安全准则,所以控制电路失电必然导向安全的结果。
图1 带比较结果的“一硬二软”软件冗余方案示意图
在软件冗余方式中,存储器、CPU等都是共用,则程序编制必须严格独立。至少应该由2人分别独立编制,以防止一个硬件上的故障使2套程序产生同样的结果。从理论上说,2套程序的绝对独立是不可能的。通常认为,每一项硬件故障使2套程序产生同样错误的概率为10-3,则采用“一硬二软”的软件冗余方案时2次危险结果之间的间隔时间为tg= MTBF×103,其中MTBF为计算机的平均故障间隔时间(h)。但该类“一硬二软”软件冗余方案所占内存空间较大,处理时间较长,输入电路有一些共用部分(如电源),二次电路不是完全独立的,孪生性故障隐患仍然存在。
1.2.1 “二取二”硬件冗余系统原理
图2为带有结果比较的双机并行处理的原理图,称“二取二”系统。在正常情况下,2台相同计算机A、B对输入数据处理结果相同;该处理结果经比较确认后,就使同步器的控制脉冲命令得以通过比较器,输出电路给出控制命令。发生故障时,双机处理结果不相同,比较器电路通过同步器切断计算机的处理过程,锁住控制命令的发出,且通过输出信号转换电路切断控制电流,给出故障报警。
2套比较器电路A、B彼此独立,逐位检查2台计算机处理的一致性。比较器在每收到一次监视脉冲后开始工作。计算机在每一步节拍之前先给出一个监视脉冲,然后检测一下比较器通道是否畅通。如果上一步节拍2台计算机处理结果是一致的,则比较器通道畅通。同时,比较器给同步器一个无故障回执,同步器收到回执之后才给出下一步节拍脉冲。用该方式实现每一步节拍后校准双机的一致性。倘若出现不一致,比较器阻塞,不给出无故障回执,于是同步器也不给出下一步节拍脉冲,计算机停止处理信息,给出故障报警,切断控制电路的电源。此并行计算机硬件冗余系统是符合故障-安全准则的。“二取二”硬件冗余系统有如下特点:①计算机本身并不具有故障-安全特性,但图2所示的带结果比较的双机并行系统具有故障-安全特性;②2套计算机在空间上分开,可以用相同程序,即“一软二硬”硬件冗余;③由于是并行处理,则在处理时间上是最优的;④如上所述,个别故障不会出现危险,设出现双重故障的概率为W(与前述相同,取10-3),则2次危险结果之间的间隔时间为tg= MTBF2/(2W)= MTBF2×103/22;⑤随着硬件价格的逐步降低,该方式在价格上的优势因其节省一套软件而日趋明显。
图2 “二取二”硬件冗余方案示意图
1.2.2 “三取二”硬件冗余系统原理及特点
“二取二”硬件冗余系统很容易扩展为安全性、适用性更高的三机并行系统,即所谓“三取二”系统。图3为“三取二”硬件冗余系统原理图。每台计算机带2个硬件比较器,当3台计算机全部正常工作时,6个比较器电路均获得一致的结果,控制命令能正常执行。一旦有一台计算机故障,例如计算机Ⅱ故障,于是比较器12、21、23、32因输入信号不一致而阻断控制命令,但比较器13及31仍能保证控制电流通过。同时,比较器21和23同时阻断,经与门使计算机Ⅱ的同步器不给出下一节拍脉冲,计算机Ⅱ停止工作,此时整个系统称为完整的双机并联运行系统。在一台计算机故障时,系统从“三取二”过渡到“二取二”,并不影响信号系统的使用。
图3 “三取二”硬件冗余方案示意图
随着计算机系统的不断发展和应用范围逐步扩大,其硬件冗余技术也经历了从双机冷备、双机准热备到双机热备,以及二乘二取二、三取二等过程。双机冷备设2套主机,主机运行,备机关机,人工进行切换;主机故障时报警,人工按压切换按钮。双机准热备,主机进行运算,备机采集主机状态,准备切换;主机故障时需要系统间切换,备机转为工作机时有“黑屏”、打灭信号等现象。双机热备,2套主机,2台主机进行独立运算,主机输出驱动,备机不输出,监测主机状态,准备切换;主机故障时需要在系统间进行切换,为可靠的冗余结构,但需解决输出电路的隔离问题。二乘二取二,4套主机,4台主机运行,两系进行独立运算,主系输出驱动,备系不输出,监测主系状态,准备切换;主系故障时需要在系统间进行切换,为可靠的冗余结构,但需解决两系输出驱动电路的隔离及切换问题,有较完善的同步机制、容错性能,但无重构技术。三取二系统,3台主机同时进行运算,系统对3个输出结果判别,2个以上结果相同输出驱动,无需进行系统切换;故障时系统降级成为二取二,没有黑屏现象和信号闪烁的隐患,有较完善的同步和故障机数据重构性能,具备带电拔插功能,方便维修。在城市轨道交通信号系统中,主要行车设备或子系统的计算机系统必须采用二乘二取二或三取二计算机冗余技术;每列车应配置三取二或二乘二取二冗余结构的车载设备,车载设备如采用二取二模式,两端ATP设备应该做到互为冗余备用。联锁、ATP(列车自动防护)子系统等安全设备的计算机系统应采用三取二或二取二的安全型冗余结构。电源系统结构应采用模块式结构,采用“1+1”或“N+M”在线热备冗余工作技术,并可热插拔更换模块。信号系统软件应有冗余、容错及纠错性能,不允许因故障造成系统失控,故障应导向安全。为提高信号系统的可靠性,系统数据传输网络采用双网结构;ATS(列车自动监控)子系统的主要设备如各类型的服务器、网络交换机、数据传输设备等应冗余配置,工作站应能互为备用。
下面以URBALISTM系统(ALSTOM 用于大客运量轨道交通解决方案的标准信号系统产品)为例进行冗余分析。URBALISTM系统或设备采用安全冗余结构,按照故障-安全原则设计,其冗余原则基于设备冗余和通信冗余。设备冗余中,子系统采用热备冗余制式:ZC(轨旁ATP/ATO控制器(区域控制功能))和LC(轨旁ATP/ATO控制器(线路控制功能))采用“三取二”平台技术。CC(车载控制器)是基于单编码处理器技术和三取二技术的车载系统。每列车首尾各设有一套完整的CC系统,首尾热备冗余,其中输入输出模块采用三取二结构。CBI(计算机联锁)采用二乘二取二冗余结构,这样单个设备故障不会影响到整个系统的运行。临时或应急控制中心ATS采取冗余配置的服务器,各调度工作站互为备用,确保当热备冗余的主机故障时主备切换具备连续的显示及控制功能。所有设备集中站采用冗余的LATS服务器及现地操作工作站。通信级冗余中,通信和基础设施冗余采用以下原理:双重通信网络(“红”和“蓝”),各子系统复制它们的输出信息,每一个信息都通过红色和蓝色网络两条路径传送,核心SDH(同步数字传输系统)网络具有足够的带宽支持双重信息。网络接入设备:两台光交换机作为子系统连接SDH节点的网络接入设备,一个连到红网,另一个连到蓝网;核心SDH网络由SDH节点(多路复用器,相关板卡采用热备冗余配置)和光纤组成,光纤以此方式连接创建一个环路。这种网络结构可以防止普通模式故障,并且对特殊光纤或设备的物理损坏具有防护功能。若光纤发生物理损坏,该环在50ms内会自动重新配置确保通信质量不受影响。
由上述分析得出,在城市轨道交通信号系统的冗余设计中,合理选用冗余技术方案对城市轨道交通信号系统的安全性、可靠性、可维护性产生巨大影响。
[1]GB/T 12758—2004城市轨道交通信号系统通用技术条件[S].
[2]吴汶麒.轨道交通运行控制与管理[M].上海:同济大学出版社,2004.