基于SIR的列车通信网络故障传播特性仿真分析研究

2022-07-07 02:35马志瑜刘亚飞
铁道车辆 2022年3期
关键词:网络故障概率密度

赵 强,马志瑜,刘亚飞,李 锋

(中车长春轨道客车股份有限公司,吉林 长春 130062)

列车通信网络作为面向列车牵引、制动等安全相关系统执行数据采集、状态监视、运行控制、故障诊断及信息传输的任务中枢神经,其分布式控制系统组成设备应用嵌入式软件通过列车及车辆总线与各子系统紧密连接成交错的复杂信息传输网。列车网络节点之间相互关联,逻辑关系复杂,任何一个节点局部的故障都可能导致在采集周期内的数据错误或者缺失,直接降低被采集数据的准确性,致使故障通过网络进行传播,从而影响整列车的安全可靠运营。

智能化和大数据带来的技术变革使列车通信网络的规模不断扩大,数据传输任务不断加重,系统设备性能随服役时间逐步退化,网络故障和失效的概率也逐渐增加。列车通信网络在执行故障诊断与定位故障管理功能的同时,必须加强对网络自身状态的监视和健康评估,实时掌握通信网络的运行状况,及时预测网络故障传播状态及其影响,捕捉对网络故障有影响力节点的传播信息,降低由于单点故障引起全网故障的风险,这对于提高列车运营的安全性和可靠性尤为重要。

1 故障传播特性研究方法

网络故障的传播行为研究就是研究网络中最初一个局部小的故障、小的扰动如何在网络上传播并如何最终影响整个网络的行为[1]。

为研究确定适用于列车通信网络的故障特性分析方法,本文对现有的故障传播研究方法及其应用特点进行了对比分析。其中,基于图论的方法是通过分析系统结构、功能及逻辑原理,结合一定的推理策略对复杂系统进行故障传播分析,该方法能直观描述故障传播关系,但对于复杂系统建立模型工作量大且繁琐;Petri分析法将研究对象输出与实际输出进行比较,通过分析产生的残差,并结合实际系统特性研究故障传播过程和定位,此方法能够准确描述事件状态关系,但当研究对象节点多、故障传播状态复杂时,建模复杂;数据驱动法采用数学方法对历史数据进行处理,提炼数据中隐含的关键信息,构造近似实际系统新模型,通过模型的计算与真实的数据对比来进行故障诊断和分析,此方法过于依赖过程数据;基于复杂网络的分析法能够从网络拓扑结构的角度研究故障传播网络的特性,描述节点故障产生的网络级联失效过程[2]。

本文在比较众多故障传播研究方法的基础上,从复杂网络故障传播分析方法角度出发,以北京地铁6号线列车通信网络为研究分析实例,从网络系统功能结构分析、多Agent软件体系网络架构构建、SIR模型应用转化和NetLogo仿真分析等方面进行故障传播影响特性分析。

2 基于SIR模型的列车通信网络故障传播影响分析

2.1 列车通信网络系统功能结构

北京地铁6号线列车网络控制采用庞巴迪公司依据TRDP协议开发的MITRAC TCMS系统,列车通信网络采用实时以太网与多功能列车现场总线网络相结合的策略,网络拓扑结构如图1所示,人机接口通过MVB总线和以太网总线与中央控制单元接口,实时性要求高的控制指令、状态数据通过MVB总线进行传输,其他状态和诊断数据通过以太网进行传输。

ATC.列车自动控制系统;ACU.辅助控制单元;BCU.制动控制单元;CCU.中央控制单元;DCU.门控单元;ERM.列车数据记录仪;EMD.电气中距离;FAS.烟火报警系统;HMI.人机接口单元;HUB.集线器;HVAC.空调系统;PA.列车广播系统;RPT.中继器;RIOM.远程输入/输出模块;TCU.牵引控制单元。

通信网络系统硬件主要由CCU、RPT、RIOM等构成,节点信息传输用软件系统主要包括操作系统、应用、控制、监视软件等。其中,RPT根据通信功能需求编写的应用层软件将网络分为列车总线与车辆总线;RIOM主要用于实现网络节点设备及车载信号系统数据的交互;HMI通过监视软件显示车辆和子系统的状态及提供人机交互的接口;ERM应用诊断和维护软件实现对列车主要设备的运行状态、故障的自动信息采集并记录;CCU作为网络信息传输的核心设备,列车各关键系统状态均由CCU进行逻辑判断后发出控制指令,实现全列车的控制监控功能,由此即构建起基于CCU通信安全功能信息核心网。鉴于此,本文以CCU与列车各子系统控制监视信息传输构建的核心通信网为研究切入点,例证说明如何进行列车通信网络故障传播影响分析。

2.2 多Agent列车通信故障传播网

多Agent网络结构建模方法是基于复杂网络中软件体系结构概念进行系统建模的方法[3],软件体系结构作为软件系统的高层抽象用以描述整个系统的结构和行为,主要由构件、连接件及其相关约束条件构成。将多Agent技术应用于列车通信故障传播结构网分析,用节点表示构件,用数字等信息表示构件的名称,把列车通信网络牵引、制动等软件子系统抽象成图中的节点,把故障传播关系(即子系统间信息传输逻辑关系)抽象为连接节点的有向边,即将列车网络通信信息传输模型转化为故障传播结构的图形式展开故障传播特性问题的研究。基于北京地铁6号线列车通信网络系统功能结构和多Agent应用技术分析建立的CCU通信网络软件系统故障传播结构网如图2所示。

图2 CCU通信网络软件系统故障传播结构图

2.3 SIR模型向故障传播研究应用转化

SIR模型是一种用于描述抽象信息传播的过程模型(图3),是在传染病动力学中沿用Kermack与McKendrick用动力学方法建立的传染病模型中最经典的模型[4]。

β.节点故障传播概率;γ.节点故障移除概率。

SIR模型应用于列车通信网络故障传播的研究时可以理解为:列车通信网络结构转化为列车通信故障传播结构网;初始状态下,故障结构网络中所有节点对应于故障易感状态;网络中节点发生故障后,即转变为故障感染状态;节点故障解决处理后且不再会导致其他节点故障的发生,即进入故障移除状态。

由此,为了应用SIR模型进行列车通信网络故障传播分析,结合列车通信网络结构功能及其信息传输固有特性进行分析,针对故障传播路径、故障传播概率和故障传播强度的研究要求,确定基于SIR 的列车通信网络故障传播模型应用前提条件假设:

(1) 通信网络故障节点的个体通过它们之间的连边感染与其相邻的节点;

(2) 假设故障传播的时间尺度远远小于各个节点的生命周期以及系统的运行周期,从而不考虑节点个体的故障产生率与死亡率,即网络的节点总数保持不变;

(3) 均匀混合假设,即处于各个状态的节点均匀混合,故障密度与故障节点的密度成正比。

与此同时,为建立SIR列车通信网络故障传播演化方程并分析求解,进行网络故障传播的状态转移过程假设:

假设t时刻通信网络系统中的节点处于故障易感状态、故障感染状态和故障移除状态的个体的密度分别为Φ(t)、ρ(t)和χ(t)。当t趋于无穷大时,故障易感个体、故障感染个体和故障移除个体的密度分别为Φ、ρ和χ。在每个时间步,如果网络中故障易感个体至少和一个故障感染个体相连,则它被故障感染的概率为β;同时,故障感染个体被修复并具有容错机制,变为故障移除个体的概率为γ。

由此将SIR模型转化为列车通信网络故障传播分析的演化方程为:

(1)

(2)

(3)

λ——故障有效传播率。

为简便计算,假设γ= 1,即由故障感染状态到故障移除状态的概率为1,指对于存在故障的节点,不考虑时间尺度的影响,最后故障都会被移除,成为故障移除状态。同时,对SIR模型进行稳定性分析,可得故障有效传播率的临界值为:

当λ>λc时,故障将在CCU软件系统中传播,并最终达到一个稳定的状态,系统中所有个体处于故障移除状态,而故障感染个体的数目为0。

2.4 列车通信网络故障传播影响模拟仿真分析

NetLogo仿真平台适合对随时间演化的复杂系统进行建模仿真[5],同样适用于列车通信网络故障传播影响仿真试验分析。本文的研究思路是通过应用多Agent技术构建列车通信故障传播结构网,结合SIR故障状态转移演化方程算法求解过程分析,利用 NetLogo仿真工具进行列车通信网络CCU软件系统的故障数值仿真,从而达到统计分析通信网络各节点处于故障易感状态、故障感染状态和故障移除状态的个体的密度以及分析整个网络的故障传播状态的目的。

2.4.1 仿真参数定义

根据建立的CCU故障传播结构图进行仿真参数定义设置:

(2) 仿真输出曲线图中,定义蓝色曲线为节点处于故障易感状态个体密度Φ(t),红色曲线为故障感染状态个体密度ρ(t),灰色曲线为故障移除状态个体密度χ(t)。

(3) 节点故障传播概率β表示节点的故障传播能力,β=100%为最大,是指具有100%的故障传播能力;β=0 为最小,是指发生故障的节点不会将故障以任何形式传播下去,即不会对其他节点产生影响。

(4) 节点故障移除概率γ表示故障的维修能力,γ=100%为最大,是指对于故障节点具有100%的修复好的能力;γ=0为最小,是指发生故障的节点无法修复好。

(5) 初始故障数目为n,表示通信网络系统中开始的软件故障节点数目。

(6) 修复时间为M(t),表示对于故障的维修所需要的单位时间。

2.4.2 仿真数据输出

对列车通信网络不同条件下的故障传播状态进行数值仿真,得到不同条件下仿真列车通信网络状态输出数值。

(1)β=100% ,γ=100% ,M(t)=2,n=1(单个故障), 在CCU故障和CCU非故障情况下,模拟仿真列车通信网络故障传播状态数值如图4所示。

图4 节点故障传播概率和移除概率均较高条件下列车通信网络故障传播仿真数值图

(2)γ=50% ,n=1,M(t)=2,在CCU故障和CCU非故障情况下,模拟仿真β=100%和β=80%条件下的列车通信网络故障传播状态数值如图5所示。

图5 节点故障移除概率低条件下的列车通信网络故障传播仿真数值图

(3)n=1,M(t)=2,在CCU非故障情况下,模拟仿真β=80%、γ=50% 和β=30%、γ=30%条件下的列车通信网络故障传播状态数值如图6所示。

(4)β=100%,γ=20%,n=4(多个初始故障),M(t)=2,CCU非故障和2个CCU故障状态下的列车通信网络故障传播状态数值如图7所示。

(5)β=100%,γ=20%,M(t)=16,在非CCU故障情况下,模拟仿真单故障(n=1)及多故障(n=4)情况下的列车通信网络故障传播状态数值如图8所示。

图6 节点故障传播概率和移除概率均较低条件下的列车通信网络故障传播仿真数值图

图7 多故障、节点故障移除概率低条件下的列车通信网络故障传播仿真数值图

(6)β=100%,γ=20%,M(t)=16,n=4,且其中2个为CCU故障,模拟仿真列车通信网络故障传播状态数值如图9所示。

2.4.3 仿真结果分析

由上述多个仿真数值分析图可以得出如下结论:

(1) 初始故障n=1时,不论CCU故障与否,其故障易感状态节点密度、故障感染状态节点密度和故障移除状态节点密度的变化趋势类似,但由于CCU软件连接的其他软件较多,因此其故障感染状态节点密度较大。

图8 节点故障移除概率较低、故障修复时间长条件下的列车通信网络故障传播仿真数值图

图9 多CCU故障、节点故障移除概率较低、故障修复时间长条件下的列车通信网络故障传播仿真数值图

(2) 对故障节点的修复时间长短直接关系着网络中故障的传播程度。故障修复时间越短,对整个网络的故障传播影响越小;故障修复时间越长,对整个网络的故障传播影响越大。

(3) 故障节点移除概率的大小直接关系着3种密度的变化趋势。随着时间的增加,故障易感状态节点密度先是逐渐减小,然后又逐渐增大,最后趋于稳定;故障感染状态节点密度先是逐渐增大,然后逐步减小,最后趋于0;故障移除状态节点密度逐渐增大,最后趋于稳定。

(4) 在初始故障数目和修复时间一定的条件下,节点故障传播概率和节点故障移除概率的变化对3种密度的变化趋势影响不大,即3种曲线的走势类似。

(5) 初始故障数目较多时,故障感染状态节点密度初始值较大,故障易感状态节点密度初始值较小,但3种密度的变化趋势与初始故障数目较少时的变化趋势相类似。

(6) 在初始故障数目较多的情况下,CCU节点是否存在故障对3种密度的变化趋势影响不大。

实例仿真分析表明,降低故障传播概率、提高修复能力可以有效降低故障传播的发生,同时降低关键节点的密度以及关键节点之间的连接数目,提高软件系统的可靠性。

2.5 实际运营数据分析

根据北京地铁6号线列车实际运营现场数据,针对列车通信网络节点设备在10万km内发生的主要故障的频次分布及故障传播影响情况统计如表1所示。从表1中可以看出:故障频次和百分比最高的节点设备是RIOM,高达31.38%;故障百分比次之的是HAVC、ACU、PA,主要表现为在线检测软件故障居多;DCU、TCU、BCU、CCU由于其设计过程中考虑了安全性和可靠性,故障频次较低,故障百分比在10%以内;HMI、ATC主要故障模式为触摸屏不灵敏和黑屏,故障百分比为1.6%;FAS、ERM运营过程应用程度低,故其故障发生率最低。

表1 列车通信网络节点设备运营期间故障数据统计

故障传播影响范围分为列车、车辆、系统、部件4个层次,从网络结构设计上看,CCU、RPT和HUB都是影响列车级关键节点设备。而实际运营中,仅CCU和HMI分别造成1次列车级运营故障;RPT和HUB由于预先设置了冗余功能,有效防止了故障传播,未发生影响列车运营的故障;TCU和BCU作为列车牵引和制动的主要动力源,故障传播直接影响车辆级动力单元,由于安全性设计和日检过程中重点专检,未造成影响列车级运营的故障。DCU、HVAC、PA故障多为本地系统级故障,仅当系统多主机同时级联故障时影响车辆级功能。

2.6 结论及建议

通过列车通信网络故障传播影响仿真并结合实际运营数据的研究分析,可以得到以下结论和建议:

(1) 列车通信网络故障传播影响列车级运营关键节点设备如CCU、RPT和HUB,这些关键节点故障传播影响范围最大,在考虑关键节点硬件冗余设计的同时,采用软件逻辑控制及时隔离故障节点可以避免传播影响扩大。

(2) 故障移除时间直接关系网络中故障的传播程度,提升通信网络系统软件可靠性和网络故障诊断预警能力,逐步实现列车全方位故障的在线状态评估、识别、诊断、定位是避免故障扩散的有效方式。

(3) 提高网络维护的效率,实现维修模式转变,由传统时间驱动的维修方式(计划检修)和事件驱动的维修方式(计划检修)和事件驱动的维修方式(故障后检修)向以可靠性为中心的动态维修方式转变,建立列车通信网络系统故障预测与健康管理体系是保证列车运营安全性、避免重大事故发生的有效途径。

3 结束语

有效的故障管理方法是保证网络可靠运行的基础[6],多角度、分层次、系统化地进行故障传播特性研究是进行列车通信网络故障预警、健康状态综合评估、全寿命周期可靠性分析和风险评估以及维修策略的决策与优化的必经之路。

本文应用复杂网络、多Agent、信息论SIR模型、软件可靠性分析、NetLogo仿真及数据对比驱动多种技术相结合的方式对列车通信网络故障传播特性进行了研究,提出了网络设计及运营维护的整改措施和建议,这些有针对性的措施和建议对于加强检修过程故障传播关键节点维护、控制运营期间网络故障传播扩散、避免故障大密度感染造成连锁反应、提高列车的运营安全性和可靠性水平具有切实的理论分析和实践借鉴意义。

猜你喜欢
网络故障概率密度
概率统计中的决策问题
概率统计解答题易错点透视
大尺寸高相对密度钨管的制备
概率与统计(1)
概率与统计(2)
计算机网络几种典型故障的处理及维护方法
“密度”练习
密度的不变性与可变性