基于贝叶斯网络模型的CBTC系统无线数据通信故障排查方法研究

2023-12-18 11:26卢丹蕾
铁道通信信号 2023年12期
关键词:数据通信贝叶斯排查

卢丹蕾

随着城市轨道交通的不断发展,北京、上海、广州、深圳等超大城市的轨道交通已呈现网络化运营模式,对运营效率和服务质量提出了更高要求。基于通信的列车控制系统(CBTC)作为城市轨道交通目前主要的应用技术,依靠车地之间连续、双向、高速的通信,实现车辆和地面数据实时交互,获取列车准确位置和列车间相对距离,在保证列车安全间隔的前提下,能够有效缩短行车间距,提升运营效率。在功能构成上,作为CBTC 系统的重要业务子系统,数据通信系统对CBTC 系统整体效能发挥具有重要的支撑作用,一旦通信网络异常,尤其是全网多点通信质量不佳时,容易造成多区域多车紧急制动,将对运营产生较大影响。

近年来,对城市轨道交通设备系统进行故障分级、分类,以及系统可靠性、可用性、可维护性研究,一直是国内地铁领域研究的重点方向。其中在设备故障分级/分类统计、故障报警等方面做了大量研究并取得一定成果,探索将专家系统、人工神经网络、概率统计分析等技术引入到故障分析和诊断研究中。文献[1]利用SFPN 算法对列车车门故障进行诊断分析;文献[2]基于神经网络算法实现DMI设备目标识别与状态检测;文献[3]验证了基于概率神经网络的S700K 转辙机故障诊断方法的可靠性;文献[4]借助专家经验和机器学习建模,建立转辙机动作电流超限故障树,通过监测数据发现异常,实现故障快速定位。以上研究均是针对单一设备故障开展的故障诊断和分析工作。由于城市轨道交通CBTC 系统高度集成,对车地数据通信依赖程度较高且系统构成复杂,故障现象迷惑性强,给现场排查和处置带来较大困扰。为此,结合近年来现场CBTC 系统维修维护经验,将故障树转化为贝叶斯网络模型并应用到CBTC系统设备故障分析中,理论与实践相结合,在系统层面分析CBTC 数据通信系统架构,总结网络系统故障排查方法,为CBTC 数据通信系统故障排查和维修维护提供参考,其研究价值是对单一设备故障的拓展和提升。

1 故障树模型

目前城市轨道交通CBTC数据通信系统主流组网方式有2种:①SDH(同步数字体系)与WLAN(无线局域网)交换机联合组网,室外车地传输则采用空间波天线、漏缆、波导管等不同介质融合应用形式;②LTE与工业以太网组网。早期国内信号厂商在构建CBTC 系统时,大多采取SDH 与WLAN交换机联合组网方式,尤其像北京、上海、广州、深圳等超大城市,因此本文选取采用SDH 与WLAN 交换机联合组网+波导管/天线介质融合应用方式的某条地铁线路作为研究对象。该线路的CBTC数据通信系统架构较为典型,由有线的骨干核心交换机和SDH 传输网络设备,以及无线接入点(AP)、传输媒介(天线/波导管)、车载无线接收设备等组成,见图1。通过对该系统进行研究对后期既有线改造及无线系统冗余能力提升有一定参考意义。

图1 CBTC数据通信系统架构

通信网络中的异常现象,会体现在联锁、区域控制器或线路控制器、车载控制器等设备无法正常工作,影响列车运行与指挥。为此,选取一段时间内实际运营线发生的数据通信故障作为数据样本进行分类统计,构建故障树模型。

故障树分析是系统可靠性和安全性分析工具之一,采用由上及下的失效分析方法,以树状的逻辑关系图和图形符号(如逻辑门、中间时间)来演绎系统的结构及各组成部分之间的因果逻辑关系,可用于对系统进行全面的故障诊断,了解故障原因,确认某一故障或特定系统失效的发生概率,以便制定或改进维修策略。

根据轨道交通CBTC 数据通信架构和维修维护经验,将CBTC 数据通信系统故障树分为5个中间层级、12个底事件,见图2。

图2 CBTC数据通信系统故障树

2 贝叶斯网络

贝叶斯网络(Bayesian Network)称为概率网络,是继模糊逻辑、可信度方法和神经网络等方法之后的不确定知识表示模型,是一种因果概率网络。基于贝叶斯网络可以由故障的先验概率和条件概率进行预测推理,最终确定设备故障发生的概率。利用故障树中底事件相互独立且为“与”“或”的关系,确定条件概率。设P(B)为先验概率,表示在A状态未知时B发生的概率;P(B|A)为后验概率,表示A状态已知后B发生的概率。

在确定各概率后,基于独立假设定义,如果事件A1,A2,…,An互不相容,则P(B)>0时的贝叶斯公式为[5]

式中:P(Aj)为第j个事件A的先验概率;P(Aj|B)为第j个事件A的后验概率;P(B|Aj)为条件概率。由贝叶斯公式进行故障诊断,可得出各子节点造成系统故障的概率,再按照概率大小依次排序,可大大提高故障诊断、定位及排故的效率和准确率。实际运营中应优先对故障概率高且排查时间短的故障进行排查,提高故障诊断能力。为此,引入排查故障所用时间的数据期望,即预期时间Tw为

式中:Pf为故障发生的概率,经由贝叶斯网络计算得到;Ta为故障平均排查时间,由运营经验积累获得。

3 构建网络模型

根据故障树逻辑关系将故障层级分为3 类:1 个顶事件T(CBTC 数据通信故障)、5 个中间事件M(故障大类)、12 个底事件X(具体故障原因)。故障树各层事件描述和标号见表1。

表1 故障树各层事件描述和标号

根据故障树模型,可将CBTC 数据通信故障树模型转化为贝叶斯网络表达式,见图3。

图3 CBTC数据通信故障贝叶斯网络表达式

结合近几年实际运营故障数据,得到CBTC数据通信故障先验概率,见表2。假设根节点相互独立,中间事件M的条件概率分布只有1(发生故障)和0(无故障)两种情况,表2 中所列故障概率是将X、M置为1的故障概率。

表2 CBTC数据通信各故障节点先验概率及排查时间

4 案例分析

某日某线,多车在多联锁区运行时出现紧急制动,造成列车晚点2 min 以上9 列。查询显示及告警记录:ATS 界面显示未出现全线或部分区域紫光带;故障告警内容为通信中断。列车故障区域为隧道内,受外界天气等干扰因素影响小,电磁环境较为干净。

由于故障现象为多集中站、多趟列车且ATS上未出现全线或部分区域紫光带的显示,根据贝叶斯网络模型,此时应将T的状态置为1,M1的状态置为1,M4的状态置为0。基于表2 中的先验数据,利用式(1)对CBTC 数据通信故障概率进行分析,再根据式(2)可得出各故障排查预期时间Tw,计算得到CBTC 数据通信故障时各节点故障概率及排查故障需要的预期时间,见表3。

表3 CBTC数据通信故障时各节点概率及预期排查时间

根据表3预测结果,可以看出此时X3发生故障概率最高,已达到80.3%。现场通过抓包软件分析此时CBTC 数据通信网络状态,可以清晰看出此故障即为网络风暴,见图4。

图4 网络风暴生成

对车地天线数据进行分析,在19:27:11 时网络出现流量突增的情况,达到7.426 Mbit/s,每秒包数量达到2 850 个,其中IP 地址为0.0.0.0(无效地址)、协议为DHCP 的包占93.8%,而车地通信有效UDP 数据包仅占2.8%,网络上出现了大量异常包,导致网络拥塞,有效数据包无法在车载和地面设备之间传输,引起车地通信中断,从而出现多区域多列车紧急制动。

对异常数据包的包头、源地址和目的地IP 地址及MAC 地址进行分析,定位到产生此次网络风暴的源点,立即将其从CBTC 网络中摘除,风暴收敛并终止,流量数据恢复正常。

利用贝叶斯网络算法,可以将现场复杂的故障现象进行抽象,计算出产生故障原因的概率,以便指导现场快速定位故障,缩短故障处置时间。本案例中,按照常规操作流程,整体排查过程一般为:区域/线路控制器(ZC/LC)→网关计算机→车站分机(LATS)→联锁→交换机→轨旁无线接入点→车载设备状态,逐一排查耗时约125 min。而采用贝叶斯网络模型算法,在排除X2、X1之后,就可以从概率上判断故障为X3,立即开展抓包分析,快速定位网络风暴源点,实际耗时只要35 min。与传统逐一排查的人工方式相比,处置时长明显缩短。同理,贝叶斯网络算法还适用于现场多故障、多现象交织等复杂运营场景,通过预测发生故障时各节点概率,可为一线运营处置快速提供指导方向。

在不同故障场景下,将贝叶斯网络模型中的M1、M2、M3分别置为1,观察各故障节点概率分布情况,选取此时概率最大的故障节点,作为下一步排查方向。表4 展示了在不同的故障场景下,CBTC数据通信系统中预期故障概率最高的节点统计数据。

表4 不同故障场景下预期故障节点概率最高统计表

从表4 可以发现,当出现多车多区域列车紧急制动时(M1=1),则大概率要考虑网络中是否已经发生网络风暴;当出现单区域多车紧急制动时(M2=1),则大概率要考虑地面AP 是否有故障;当出现单车紧急制动时(M3=1),则大概率要考虑车载调制解调器是否有故障。当上述3 种运营场景M1、M2、M3均出现问题时,则要优先检查该网络是否已经出现网络风暴,通过捕获分析瞬时网络流量包,溯源风暴源节点,尽快排除故障并恢复正常运营秩序。

5 预防措施

本文将故障树模型转换为贝叶斯网络模型,同时结合多年运营维护所积累的数据,构建CBTC数据通信系统故障贝叶斯网络模型,为指导一线准确分析故障现象、快速排查定位故障源头,及时采取处置措施,提供一定的理论依据与实操指南。针对防止网络风暴对信号系统冲击这一常见故障,结合贝叶斯网络模型分析和日常维修维护经验,给出如下4个方面的预防措施。

1) 优化信号系统组网方式。从实践看,信号系统组网方式应采取完全独立双网或多网的组网方式 ,避免因单网风暴影响至其他网络。同时应划分不同广播域,避免网络风暴全网蔓延,尽可能将故障影响范围缩小,保证信号网络正常数据交换

。2022 年,交通运输部《城市轨道交通信号系统技术规范》在数据通信子系统章节明确要求:ATP、ATO、ATS、CI 子系统之间提供冗余的有线、无线数据传输通道,单传输通道故障不影响系统运行;传输通道链路快速自愈、抑制广播风暴[6]。

2) 提升车地无线系统健壮性。根据工信部相关规定,1 785~1 805 MHz频段主要用于交通(城市轨道交通等)、电力、石油等行业专用通信网[7]。考虑1.8 GHz专用频段属于紧缺资源,建议各地在新建或线路更新改造时,应提前向当地无线管理局申请专用频段,尽可能避免采用2.4 GHz 公共频段,确保CBTC 系统车地数据稳定传输。同时加强同频干扰等监测,减少影响车地无线系统健壮性的不可控因素[8]。

3) 完善系统监测功能。建议数据通信子系统在顶层设计时优化完善监测系统,涵盖网络端口流量实时监测并提前设定相应告警阈值,一旦发现网络流量异常,可快速定位到故障点,缩短故障排查和处置时间。同时,在运营阶段尽可能避免外接设备,诸如外置网卡等具有数据通信或路由功能的设备,以防止此类外接设备故障引发网络风暴,造成信号系统不可用[9-10]。

4) 加强病毒防范。在信号系统新线建设或更新改造初期,应严格把控施工质量,避免因前期系统软件调试或参数配置等操作,将病毒引入信号网络,给后续运营埋下隐患。建议在新线建设或更新改造的同时,应按照等级保护安全管理要求积极开展信息安全技术体系建设,组织全网病毒查杀,采用端口封堵等有效手段,确保信号网络不带毒运行[11]。在运营期间,应严格落实等级保护管理要求,落实网络安全责任制,建立健全信息安全管理体系和运维体系,加强日常动态查杀和漏洞补强,提高网络安全整体防御能力。

6 结束语

随着城市轨道交通技术的不断发展,通信网络在整个信号列控系统中的作用愈发突出,采用概率模型深入分析通信网络故障规律,确保车地之间数据交互稳定可靠,可以为基层一线保障运营秩序和提升故障处置效率提供有力支撑。

猜你喜欢
数据通信贝叶斯排查
高层建筑消防安全排查情况及处理对策
配网二次回路故障的排查分析
给家中来个危险排查吧
基于快牙平台实现全站仪与计算机的数据通信
监测系统接口数据通信方式
如何排查并改错
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
一种高效可靠的串行数据通信协议及处理算法
一种基于贝叶斯压缩感知的说话人识别方法