王 悉 马连川 袁彬彬
(1.北京交通大学电子信息工程学院 北京 100044;2.轨道交通运行控制系统国家工程研究中心 北京 100044)
安全计算机平台在轨道交通、石油、天然气、化工、电力等工业控制领域以及武器装备、核电、航空、航天等领域广泛应用。
轨道交通包括城际轨道交通和城市轨道交通,城际轨道交通主要指铁路,而城市轨道交通则主要指地铁、轻轨等。对于轨道交通信号控制系统而言,一旦拥有安全计算机平台,不同的仅仅是重新编写或修改、移植应用软件,对于硬件的修改很少或没有,从而避免了每个不同的应用必须经历重新开发硬件、软件的过程。
近年来,随着中国列车运行控制系统(CTCS)的推广使用,国内的信号设备科研单位与厂商开发了诸如车站列控中心、轨道电路、机车信号等设备,也引进生产了车载安全计算机平台(EVC)、微机联锁、无线闭塞中心(RBC)等设备,但由于种种原因还没有研发出独立、通用且通过安全评估的安全计算机平台产品。目前,城市轨道基于通信的列车控制(CBTC)系统中大部分的车载ATP设备(VOBC)、联锁、区域控制器(ZC)和数据存储单元(DSU)中的安全计算机平台为直接引进国外厂商的成熟产品。
国外的许多信号设备厂商都有自己的安全计算机平台产品,如西门子公司的SIMIS平台,泰雷兹公司(原阿尔卡特公司)的TAS平台,阿尔斯通公司和安萨尔多公司的3取2平台,日立公司、日信公司和京三公司的2取2乘2平台,庞巴迪公司、通用电气、阿尔斯通公司的编码微处理器平台等。
在轨道交通信号控制系统中,安全计算机平台为各厂商的核心技术,从技术、商业方面考虑,国外公司不可能转让安全计算机平台等核心技术。以西门子公司为例,其SIMIS安全计算机平台,最早从20世纪70年代使用Intel 8080开发,到目前发展针对不同应用的系列型号,已经历40年,不可能全盘托出、转让出去。
笔者在研发自主知识产权的CBTC系统时,决定要突破这一技术壁垒,研发独立、通用且通过安全评估的安全计算机平台产品。
综合国外安全计算机平台的发展趋势,其结构特点主要表现如下:
1)安全计算机平台的结构并没有大的改变,仍然是编码微处理器、2取2、2取2乘2、3取2这几种结构;
2)商用货架产品(COTS)硬件和软件广泛应用,不再坚持使用专用安全元器件和芯片;
3)任务同步方式逐渐增多,与时钟同步方式同时使用;
4)安全计算机平台和应用分离。
因此,笔者研发安全计算机平台的原则如下:
1)与CBTC应用的开发平行进行,既满足应用对性能的要求,又能在“独立、通用”指标上突破;
2)安全计算机平台必须符合IEC 61508和EN 50129、EN 50128等标准,以通过国外安全评估机构的安全评估为目标;
3)使用COTS硬件和软件开发。
2取2乘2安全计算机平台采用分层设计方法,将系统分为容错和安全管理层、应用处理层和数据通信层3个层次结构。容错和安全管理层采用冗余硬件设计方法,包括2个容错和安全管理单元(FTSM),每个容错和安全管理单元独立控制2取2应用处理层的2个应用处理机,并与其构成2取2乘2系统的一个通道。数据通信层包括2台通信机,完成数据转发的功能。两台处理机相互独立工作,构成冗余的配置结构,为2取2乘2安全计算机平台的两系共同使用。2取2乘2安全计算机平台的分层架构设计如图1所示。
图1 2取2乘2安全计算机平台分层架构
在分层结构的2取2乘2系统中,数据通信层的通信机和应用处理层的应用处理机采用x86架构的COTS工控机来实现,容错和安全管理层指挥数据通信层和应用处理层各处理器工作,完成时钟控制、模式管理、故障检测和故障导向安全功能,是整个系统安全可靠运行的“裁判”,因此它的安全完善度等级应高于2取2双机。为了保证其可信且安全,容错和安全管理单元采用纯硬件电路的方式来实现,硬件逻辑结构可以采用2取2,3取2或其他多模冗余结构。
2取2乘2系统中的2取2冗余处理器可以工作于时钟级和任务级2种同步方式。由于采用了COTS工控机作为2取2结构的主处理器,因此任务级同步是最合适的方案。在任务级同步模式下,2取2双机构成松散耦合冗余结构,由于存在同步容差,对共模错误抑制能力高。对于任务级同步的2取2结构而言,可以证明不存在可纠正同步误差的双机同步算法,这是由双机不可能判断谁对谁错的逻辑二难特性所决定的。所以,任务级同步需要有可信且安全的“第三方”来进行监督,通过和2取2双机软件配合实现任务级同步。在该系统中,由容错和安全管理单元作为“第三方”为2取2结构中的应用处理机提供同步脉冲,并监督同步状态。
对于周期运行的控制系统,通常的方式是在周期开始或结束处进行同步,考虑轨道交通控制系统是安全完善度等级很高的安全苛求系统,对双机失步后系统的故障反应时间有很高要求。如果仅在周期开始或结束处设置同步检查点,很难达到控制精度和故障反应时间的要求。因此将工作周期分解为若干微周期,2取2双机接收到本系容错和安全管理单元发送的同步脉冲后同时开始工作,在每个微周期的末尾设置同步检查点,若容错和安全管理单元在规定时间内收不到来自2取2双机的同步应答信息,或双机之间的应答间隔过大,都会判断为失步。在这种方式下,微周期设置越密集,控制精度越高,故障反应速度也越快。考虑系统的复杂性与周期控制的特点,可优选将控制周期分为数据输入、应用处理和数据输出3个典型阶段的方式,在每个阶段设置一个同步点。基于微周期的同步机制如图2所示。
图2 基于微周期的同步机制
2取2乘2安全计算机平台的工作状态和模式由容错和安全管理单元来进行管理。根据整个系统的工作状态不同,分为“工作”状态和“非工作”状态。“工作”状态包括“主”和“备”两种模式。“非工作”状态包括“上电”、“故障”、“同步”和“维护”4种模式。容错和安全管理单元监控应用处理机的工作状态,并向应用处理机发送模式码来通知工作模式。同时,容错和安全管理单元通过自锁/互锁逻辑来实现两系间工作模式的协调和管理,避免两个通道间互相进行判断时出现“双主”或者“双备”的状态,保证安全、可靠地实现“主”“备”通道状态切换。状态转移如图3所示。
图3 状态转移
2.3.1 软件表决和硬件监督的数据表决机制
为了对2取2双机软件在周期运行中的状态进行监督,需要对2取2双机的输入数据,输出数据和中间运行状态等信息进行表决,保证双机运行状态的一致性。2取2双机间通过内网进行数据交换,各自对数据进行表决,将表决结果发送给容错和安全管理单元。容错和安全管理单元收到表决结果后,采用硬件表决机制对结果进行判断,只有双机的表决结果完全一致,才会认为表决成功;否则命令2取2双机停止工作,转入故障安全状态。采用软件表决,硬件监督的策略,既可以发挥软件优势,根据数据的重要程度采用不同的一致性控制策略,又避免了使用硬件表决器对于吞吐量和数据处理能力的要求,其安全性不会与纯硬件数据有很大区别。
2.3.2 软件流程码
根据时间确定性原则,将系统的整个工作周期划分为若干个微周期,应用处理机需要在每个微周期固定的时间内完成应用计算,同时向容错和安全管理单元发送对应的软件流程特征码。如果未在规定的时间内向容错和安全管理单元进行汇报,或者汇报错误的软件流程码,则判断该2取2通道状态异常。
2.3.3 动态信号
为能够及时检测出应用软件“跑飞”或者因为设计缺陷而进入死循环的情况,应用处理机需要向容错和安全管理单元输出周期翻转的动态信号,为了进一步提高动态信号的可靠性和安全性,动态信号使用双相码编码方式,即每个二进制代码分别利用2个具有不同相位的二进制新码表示。
当容错和安全管理单元检测到任意一台应用处理机或者通信机工作异常时,可以通过硬件复位和切断电源2种方式使故障的COTS工控机导向安全状态。
为了提高可靠性以及可用性,可将硬件复位以及电源控制部分的电路结构配置成2取2或者多模冗余结构。
为了保证发生“主”“备”状态切换时,切换动作是无缝的,需要保证“主”“备”两系间状态同步。除了保证应用处理机在进入“备”模式之前,必须在“同步”模式中根据处于“主”模式的应用处理机发送的数据进行状态同步之外,在本方案中还通过以下2种方式保证应用处理层双机之间的状态同步。
1)两系之间的应用处理机处于周期同步的工作状态。由于应用处理机的工作周期是受容错和安全管理单元控制的,所以在两个容错和安全管理单元之间设置同步连接线以及同步计数器切换开关。当容错和安全管理单元所在一系为“主”时,其输出的同步信号控制自身的同步计数器,并通过同步连接线控制“备”容错和安全管理单元中的同步计数器;当容错和安全管理单元所在的通道为“备”时,其计数器模块受“主”容错和安全管理单元同步计数器的控制。
2)数据通信层通信机保证给应用处理机发送输入数据的一致性。由于外部输入数据到来时刻的随机性以及应用处理机并非时钟级同步,某一控制周期中的输入数据并非存在不一致的可能性,从而造成双机状态的不同步。设置数据通信管理层的好处在于,可以通过通信机来保证给应用处理层双机发送数据的一致性。
在采用了以上方法后,可以保证“主”系的运行状态和“备”系的运行状态是周期同步的。在“主”“备”两系的一致性校验方法上,采用了无条件支持“主”系输出的方法,在每个控制周期应用处理完毕后,“主”系会把自己的计算结果发送给“备”系,“备”系把“主”系的计算结果与本地计算的结果进行比较,如果出现了不一致的情况,则判定“备”系出现了问题,使其转入“故障”模式。
2取2乘2安全计算机平台机柜的尺寸为:2250 mm×600 mm×800 mm(高×宽×深),整体结构如图4所示。
图4 安全平台机柜整体结构图
2取2的1系包含应用处理机1和2,2取2的2系包含应用处理机3和4,它们配置完全一样,应用处理机1~4采用完全相同的COTS工控机(IPC)。不论是硬件复位还是切断电源控制,都由FTSM控制。
通信控制器1和2的配置完全一样,与上述处理单元一样,采用完全相同的工控机(IPC),故障导向安全由FTSM控制。
安全计算机平台的核心是容错和安全管理单元(FTSM),负责整个2取2乘2安全计算机平台的故障安全和调度机制的处理。
容错和安全管理单元(FTSM)需要针对2取2的1系、2取2的2系、通信控制器1、通信控制器2设置必要的按钮和指示灯,根据对按钮和指示灯的美观、实用、可靠工作等要求,需要设置3U高84R宽的机械组件,具体如下。
1)按钮:对2取2的1系设置1系工作、1系恢复2个按钮,对2取2的2系设置2系工作、2系恢复2个按钮,对通信控制器1设置通信控制器1恢复按钮,对通信控制器2设置通信控制器2恢复按钮。
2)指示灯:对2取2的1系设置1系电源、1系运行、1系工作、1系恢复4个指示灯,对2取2的2系设置2系电源、2系运行、2系工作、2系恢复4个指示灯,对通信控制器1设置通信控制器1电源、通信控制器1运行、通信控制器1恢复3个指示灯,对通信控制器2设置通信控制器2电源、通信控制器2运行、通信控制器2恢复3个指示灯。
继电器组件是整个安全计算机平台故障导向安全的执行机构,它接收来自于容错和安全管理单元(FTSM)的控制信号,通过控制2取2的1系、2取2的2系、通信控制器1、通信控制器2的4组交流220V电源和复位信号来实现电源关断和硬件复位。
安全计算机平台的电源插箱用于外部两路220V交流电源的接入。两路电源使用了配置冗余结构,分别进行防雷和滤波处理后供整个机柜的1系和2系使用。
为了满足2取2乘2安全计算机平台的生产、维护、维修之用,还设计了2取2乘2安全计算机平台测试台,主要针对其安全电源板、输入输出板、逻辑板、指示灯和按钮操作组件、继电器组件、电源插箱等电路板和组件进行板级测试,对于FTSM,则测试其控制逻辑的正确性与完备性。安全平台测试台机柜的尺寸为1 600 mm×600 mm×800 mm(高×宽×深),其整体结构如图5所示。
图5 2取2乘2安全计算机平台测试台结构
无论对每种电路板或组件的板级测试,还是FTSM的功能测试,首先需要建立测试环境,提供测试所需的各种外部条件。采用计算机全自动测试的有FTSM的功能、逻辑板、输入输出板和通信板的测试,采用计算机辅助半自动测试的有安全电源板、指示灯和操作按钮组件、继电器组件、电源插箱、工控机、维护机、交换机的测试。2取2乘2安全计算机平台测试台软件操作界面如图6所示。
图6 2取2乘2安全计算机平台测试台软件操作界面
笔者研发的2取2乘2安全计算机平台产品经过了高低温、振动等形式试验以及电磁兼容测试,也经过了实验室、北京地铁车辆厂试车线的初试和大连快轨中试的严格功能测试,并通过了国外独立第三方的安全认证,产品成功应用于北京地铁亦庄线和昌平线的ZC、DSU设备,经历了各种现场测试,目前正在可靠、安全地服务于北京地铁亦庄线和昌平线。
[1]燕飞,唐涛.轨道交通信号系统安全技术的发展和研究现状[J],中国安全科学学报,2005,15(6).94-99.
[2]唐涛,燕飞,郜春海.轨道交通信号系统安全评估与认证体系研究[J],都市快轨交通,2004,17(1).74-79.
[3]吴汶淇.轨道交通运行控制与管理[M].上海:同济大学出版社,2004.38-43.
[4]袁由光,陈以农.容错与避错技术及其应用[M].北京:科学出版社,1992:1-4.
[5]员春欣.铁路信号容错技术[M].北京:中国铁道出版社,1997:2-5.
[6]陈树泉,唐涛.2乘2取2安全计算机关键算法的设计与实现[J].计算机安全,2004(17):7-9.
[7]王猛,宁滨,马连川.基于COTS的安全计算机系统[J].铁道通信信号,2007,43(3):56-58.