江 磊,王小敏,刘一骝,陈光武
(1. 西南交通大学 信息科学与技术学院, 四川 成都 610031;2. 西南交通大学 综合交通大数据应用技术国家工程实验室, 四川 成都 610031;3. 挪威科技大学 机械与工业工程学院, 特隆赫姆 挪威 7491;4. 兰州交通大学 自动控制研究所,甘肃 兰州 730070)
我国已基本建成以四纵四横为骨干的高速铁路网[1]。列车运行控制系统是保障高速铁路网和列车安全高效运营的核心。列控车载系统作为安全苛求系统,依托武广、郑西等高速铁路建设,我国建立了CTCS-3列控系统技术平台,研发了不同类型的列控车载系统。目前CTCS3-300T型列控(以下简称300T)车载系统运营数量最多,覆盖线路最广,系统的可靠运行和维修维护给运营阶段带来极大挑战。因此,300T车载系统的运行可靠性及可用性评估对高速铁路网安全运营具有重要意义。
为提高列控车载系统可靠性和可用性,冗余技术(主动冗余和备份冗余)广泛应用于系统设计阶段。但冗余技术给系统可靠性和可用性评估带来了动态失效和恢复机制等问题。因此,对系统运行可靠性及可用性进行建模时,需要考虑运营阶段车载系统的具体工作过程,解决双机热备、冷备的动态失效及恢复机制等问题。可靠性框图(RBD)、故障树分析法(FTA)、动态故障树(DFTA)、Markov模型、贝叶斯网络(BN)等可靠性分析方法已应用于CTCS-3车载系统设计阶段可靠性评估[2-4]。RBD、FTA及静态BN不能决解系统动态失效,而DFTA和Markov模型建模存在状态空间爆炸问题。文献[5]采用动态贝叶斯网络(DBN)对CTCS-3车载系统进行可靠性评估,将静态BN进行时间序列的扩展,仍忽略了对车载系统运营过程、动态失效和恢复机制等问题的分析。在列控系统可用性评估方面,文献[6]基于Statecharts仿真的方法对ETCS-2列控系统进行可用性评估,但仿真参数仍需要运营阶段实际数据支撑。目前,鲜有论文同时对300T车载系统的运行可靠性和可用性进行评估。
BN和DBN广泛应用于复杂工业系统的可靠性分析、风险评估与维护分析等[7-10]。DBN对BN进行时间上的扩展,能有效解决系统多状态及动态失效等问题,实现模型正向推理、反向推理及敏感性分析。综合考虑多状态性、动态失效及恢复机制等问题,本文基于DBN对300T车载系统的运行可靠性及可用性进行评估,具体思路见图1。根据系统运行过程,本文讨论了定期切换冗余开关和备用动车组分别对运行可靠度和可用度的影响,为系统的智能维护管理提供依据。最后,通过中国铁路某集团有限公司300T车载系统现场维护数据验证本文分析结果准确性和有效性。
300T车载系统采用双系冷备(主备系或AB系)的冗余设计,系统工作时只有主系统上电,备系统不上电[11]。CTCS3-300T车载系统结构采用模块化设计,见图2。系统根据功能结构可划分为核心数据处理、无线通信处理、轨旁信号处理、司机及列车接口和电源总线支持功能5类,分别为:
(1) 核心数据处理功能(KN)由CTCS-3安全计算机(C3VC)、CTCS-2安全计算机(C2VC)、脉冲采集单元SDU及速度距离处理单元SDP实现。C3VC、C2VC均采用冷备2乘2取2结构,SDP采用双机冷备,SDU采用双机并联设计。
(2) 无线通信处理功能(WP)由无线传输单元RTU及车载电台移动终端MT完成,RTU及MT分别采用双机冷备和热备设计。
(3) 轨旁信号处理功能(LP)由轨道电路处理单元TCR及应答器处理单元BTM完成,TCR及BTM采用双机冷备设计。
(4) 司机及列车接口功能(TD)由人机界面DMI及列车接口单元TIU模块实现。DMI采用双机冷备设计。TIU包括安全数字输入输出单元VDX和安全继电器单元RLU。VDX1和VDX2采用互为采集的方式进行工作,只有输出和回采都正确,才判断VDX工作正常。RLU无冗余设计。
(5) 电源总线支持功能(PB)有电源模块POWER及通信总线BUS完成,BUS及POWER分别采用冷备和热备设计。
根据系统功能结构分析,得到CTCS3-300T车载系统可靠性框图,见图3。热备系统切换方式为自动切换,冷备系统则通过冗余开关进行人工切换。其中,SDU1和SDU2采用并联结构,VDX1和VDX2采用串联结构。BTM、TCR及SDU模块中分别包含其接收天线及传感器。本文研究的假设条件为设备状态相互独立且故障率服从指数指数分布;设备维修后,状态如新;冗余开关切换完全有效。
300T车载系统运行可靠性和可用性的评估需要考虑系统工作过程,对运营时间的计算只需要考虑工作时间,车载系统工作时间及过程见图4。300T车载系统每天平均工作时间为18 h,运营完成后,车载系统返回动车所进行维修维护作业。300T车载系统工作时,主系统上电完成安全监控功能。当主系统出现故障无法正常运行时,根据故障导向安全原则,列车制动后司机可手动通过冗余开关切换到备系统,恢复正常运行。车载系统不能进行在线维修,只能通过主系统和备系统切换实现功能恢复,否则运营安全和效率会受到极大影响。如果在当天的运营过程中,主系统和备系统都出现故障后,司机将列车切换到隔离模式行车,车载系统不再具备安全监控功能,系统功能恢复时间主要受到恢复机制和现场运营情况的影响。
静态BN可以表示为三元组〈(V,E),P〉,其中(V,E)表示有向无环图,P表示根节点概率和叶节点条件概率。如果离散随机变量V={X1,X2,…,XN},其联合概率分布为
P(V)=P(X1,X2,…,XN)=
( 1 )
DBN是BN在时间上的扩展,包含有限个时间片段T。DBN片段间有向边用于表示不同时间片段节点的条件关联。假设片段间有向边符合一阶Markov过程,可得
( 2 )
展开式( 2 ),可得DBN联合概率分布[12]
( 3 )
DBN包括结构学习和参数学习。
DBN结构学习可以通过系统可靠性框图转换得到,并能有效解决系统动态失效的问题,见图5。图5中W为节点工作状态,F为失效状态。300T车载系统可靠性框图主要包括串联、并联、双机冷备及热备结构。串联、并联结构不涉及动态失效,转换规则直接添加时间片段间有向边,完成从t时刻到t+Δt时刻的扩展。如图5(a)、5(b),t+Δt时刻节点C1仅与t时刻节点C1相关。双机冷备和热备结构涉及动态失效,如图5(c),t+Δt时刻节点B同时与t时刻节点B和节点A相关。当节点A失效后,设备会自动或人工切换到节点B,继续完成相应功能。
DBN参数学习主要包括根节点的先验概率和叶子节点的条件概率。假设节点工作状态W和失效状态F服从失效率λ的指数分布,以图5(c)中节点A为例,节点A在下一时间片段失效概率为
P{A(t+Δt)=F|A(t)=W}=1-e-λt
考虑设备维修情况,若节点A的维修率为μ,修复概率为
P{A(t+Δt)=F|A(t)=F}=1-e-λt
同理,可得节点B的条件概率,见表1、表2,表中α为休眠系数,当α=1时,设备为热备;当α=0时,设备为冷备。
表1 不考虑维修的节点B条件概率
当系统采用冗余设计时,覆盖因子c是衡量系统从失效状态恢复的重要参数,有效反映出系统恢复机制的能力,如图5(b)、5(c)中节点S的条件概率表。覆盖因子c能合理说明在冗余系统中单个设备故障导致的系统故障[13]。本文将覆盖因子c设置为0.95。图5中,串联、并联结构节点S的条件概率见表3。
表3 串联、并联结构节点S条件概率
本文采用GeNIe软件进行建模,完成DBN结构学习和参数学习后,利用联合树算法进行推理[14]。通过DBN正向推理,可以得到300T车载系统运行可靠性及可用性。通过DBN反向推理,可以得到各设备的后验概率,为维修维护提供支持。通过DBN敏感性分析,得到设备先验概率对整个系统可靠性及可用性的敏感程度。
DBN模型验证主要包模型可用性验证与结果验证,模型可用性验证需要满足文献[15]提出的3个公理,本文分析结果通过300T车载系统现场维护数据进行验证。
根据300T车载系统功能结构分析,转换系统可靠性框图得到相应DBN,见图6。根节点对应300T车载系统模块单元,中间节点对应LP、WP、KN、TD、PB 5个功能模块,子节点为CTCS-3 onboard。在DBN推理过程中,时间间隔Δt设置为1周(126 h),初始时间段(t=0),各模块都完全可靠,根节点的先验概率为1。各模块的失效率见表4。根据2.3节DBN参数学习方法,可得到其余节点条件概率,实现参数学习。考虑到无线通信功能出现故障的时候,CTCS-3降级到CTCS-2的情况,CTCS-3 onboard节点有工作W,降级D和失效F三种状态,其余节点都只有工作W和失效F两种状态。
通过DBN正向推理,300T车载系统可靠度、可用度及降级概率分别见图7—图9,系统在运行阶段,具有高可靠性和高可用性。本文考虑设备冗余结构得到0至100周系统设计可靠度,见图7,然而,计算系统运行可靠度时,双机冷备冗余结构只考虑主设备工作情况,并且不考虑司机人工切换冗余开关情况。可以看出,系统设计可靠度明显高于运行可靠度,随着系统运行周数的增加,运行可靠度的下降速度大于设计可靠度,在系统运行到第100周时,可靠度分别为0.81和0.502。
表4 元件失效率及100周先验/后验概率
考虑300T车载系统工作过程,设备维修时间主要决定于失效设备维修等待时间。因此,双机热备的主件和备件的平均维修等待时间都为9 h,而双机冷备的主件和备件的平均维修时间分别为9、4.5 h。300T车载系统具有高可用度见图8,在系统运行60 h,达到系统稳态可用度0.999 922。系统运行可用度大于0.999 9,达到设计标准。系统运行可用度远大于运行可靠度,说明系统在失效后,能通过切换冗余开关及重启系统等方法,迅速恢复系统功能。随着系统运行周数的增加见图9,系统降级模式概率逐渐增加,但增加速度较慢,第100周时降级概率为0.052,说明由于系统本身硬件造成的系统降级概率较小。
将CTCS-3 onboard节点的失效概率设置为1,实现 DBN反向推理,得到各元件后验概率,找到系统薄弱环节。系统运行100周后,各元件的先验概率和后验概率见表4。根据系统5个功能模块,比较系统在不同时间段的后验概率和先验概率,见图10。为提高系统可靠性和可用性,各功能模块重要度关注的顺序依次为TD,KN,PB,LP,WP。因此,完成列车及司机接口及核心数据处理功能的相关设备为系统的薄弱环节,即:VDX,RLU,C3VC,C2VC等。
DBN敏感性分析假设元件输入参数存在不确定性,本文通过对元件失效概率的不确定性设置10%,得到系统对各元件的敏感程度,见图11。导致系统失效的敏感性元件顺序为VDX2,VDX1,RLU,C3VC,C2VC,POWER。因此,在系统运营阶段,需加强对以上敏感性元件的维护管理。敏感性分析论证了DBN反向推理的正确性。
(1) 考虑司机人工切换冗余开关的运行可靠度
司机可通过冗余开关实现主系统和备系统的切换,每周切换的运行可靠度见图12。考虑切换冗余开关后,系统的运行可靠度得到提高,当系统运行100周后,运行可靠度为0.705,而不考虑切换冗余开关情况下,运行可靠度为0.502。因此,在系统运行阶段,对主系统和备系统进行定期切换,能有效提高运行可靠度。
(2) 考虑列车冗余的运行可用度
在高铁运营过程中,在高铁线路或中心枢纽车站设置备用动车组,当300T车载系统的主系统和备系统都失效后,通过调度备用动车组完成后续运营任务。假设一辆动车组和两辆动车组分别将系统的失效维修等待时间缩短为3 h和2 h,本文讨论了备用动车组对300T车载系统的可用性影响,见图13。当备用一辆动车组和两辆动车组时,系统运行可用度从0.999 922分别提高至0.999 955和0.999 961。因此,在系统运行阶段,备用动车组可有效提高运行可用度。
将根节点BTM1的初始失效概率从0设置为0.5,系统运行100周后,可靠度从0.81降低到0.781。继续将根节点BTM2的初始失效概率从0设置为0.5,可靠度降低到0.578。然后,再将TCR1和TCR2的初始失效概率都设置为0.5,系统可靠度降低到0.411。通过以上敏感性分析,本文的DBN模型满足文献[15]提出的3个公理,DBN模型可用性得到验证。
通过中国铁路的某集团有限公司300T车载系统现场维护数据进行分析,验证本文DBN模型的结果。根据2015年12月至2016年11月对300T车载系统的故障信息统计,以其中一条为例,具体情况是:设备类型CTCS3-300T型列控车载设备;其故障现象、处理经过和采取措施分别为:CRH380B-3582,运行至广深港客专庆盛-广州南间报ATP故障停车,换系统重启后正常;恢复时间为12 min;故障原因为:TCR通信板问题。300T系统运行可用度A0为
A0=MUT/(MUT+MDT)
( 4 )
式中:MUT为系统运行过程中累计可工作时间;MDT为系统因故障导致的累计不能工作时间。
统计动车组数量为63,总共运行时间(MUT+MDT)为413 910 h,总共故障次数为78次,恢复时间共计为 1 562 min,即MDT为26 h,因此,得到300T车载系统运行可用度为0.999 937,DBN可用度分析结果得到验证。
本文针对300T车载系统多状态性、动态失效及恢复机制等问题,基于DBN对系统运行可靠性及可用性进行评估,结合系统运行过程,实现DBN结构学习和参数学习。本文分析和讨论结果对高速铁路网安全运营具有以下重要参考意义:
(1) 300T车载系统具有高运行可靠度和可用度,系统失效后,能通过切换冗余开关迅速恢复系统功能;系统本身硬件造成的系统降级概率较小。
(2) 为提高系统可靠性和可用性,各功能模块需要关注的顺序为TD,KN,PB,LP,WP;300T车载系统的薄弱环节为VDX,RLU,C3VC,C2VC等。
(3) 导致系统失效的敏感性元件顺序为VDX2,VDX1,RLU,C3VC,C2VC,POWER。
(4) 在系统运行阶段,对主系统和备系统进行定期切换,能有效提高运行可靠度;备用动车组可有效提高运行可用度。
通过中国铁路某集团有限公司2015年12月至2016年11月期间300T车载系统现场维护数据,可验证本文分析结果准确性和有效性。