沈洪波,陈 曦
(中国铁路武汉局集团有限公司电务部,武汉 430071)
CTCS-3 级列车运行控制系统是中国高速铁路的重要技术装备,是中国铁路技术体系和装备现代化的重要组成部分。CTCS-3 列车运行控制系统由列控车载设备(ATP)、地面无线闭塞中心(RBC)以及承载列控车地信息传输的铁路专用移动通信系统(GSM-R)组成,系统任何一个环节存在异常都会表现为无线连接超时,简称为无线超时。
随着国内高速铁路快速发展,越来越多的高速铁路基于CTCS-3 系统进行建设,但不论是在线路开通前的联调联试阶段还是线路开通后的正常运营阶段,经常出现CTCS-3 无线超时事件,在一定程度上影响了铁路运输效率。
针对CTCS-3 无线超时事件,当前主要依据CTCS-3 通信监测系统,该系统可以监测基站(BTS)至RBC 之间的网络信令和业务数据,为CTCS-3 线路的联调联试、运营维护、故障分析、GSM-R 无线网络优化等工作提供详细数据支撑。近年来,随着通信超时事件的分析越来越深化和准确,但是涉及到GSM-R 模块与基站之间的环节时,现有的手段会体现出不足,如路测、网管数据等,均是间接地反映空口特性,缺少最直接的数据,无法准确定位问题原因。因此,在CTCS-3 通信监测系统之外,还需要对列控车载侧进行监测,以形成对CTCS-3安全数据传输的闭环监测。
在发现CTCS-3 无线超时事件方面,主要依赖于列车司机上报以及列控设备动态监测系统(DMS)设备值班人员上报,会影响发现CTCS-3 无线连接超时事件的时效性。在分析超时事件原因时,由于各接口数据量非常大,在超时相关数据的收集、分析方面均存在不便,影响处理故障工作的效率。
从平时关注和从事的相关接口类监测的研究内容看,针对面向高速移动、CTCS-3 级消息进行监测、C2/C3 等级转换、双模块/单模块RBC 移交、单网交织覆盖、20 s/10 s 无线超时、CTCS-3 级消息组包/拆包机制、安全层认证机制等业务特点,既有监测系统存在监测接口不够全面,告警类型相对单一等问题,告警机制有待进一步完善。此外,各设备原始数据海量,不同设备的数据专业性较强,对故障分析人员的综合能力要求较高,而且通信、信号联合分析的思路还未完全建立起来,一旦出现故障很难跨专业联合分析。
近年来,现场维护和数据分析人员水平有了很大提高,也积累了相当多的宝贵经验,但由于缺乏对整个CTCS-3 系统的深刻认知和相应的综合分析监测手段,在应用中发生的很多CTCS-3 无线连接超时故障,没有得到彻底的分析和解决,具体表现为:由于CTCS-3 列控系统涉及多个环节,横跨通信、信号两个专业,缺失相应的复合型人才,且通信、信号联合分析的思路还未完全建立起来;CTCS-3 无线超时的原因更加繁多,既有监测手段不够完善,缺少Um 和I 接口监测设备,导致很多故障点无法准确定位;各监测系统和监测数据目前孤立存在,并未实现各监测端口的CTCS-3 超时综合分析和智能分析。
综上所述,为了更好的保障CTCS-3 级列车运行控制系统的正常运行,对CTCS-3 安全数据传输的闭环监测以及CTCS-3 级列控系统无线超时研究的需求越发迫切。2015 年6 月中国铁路武汉局集团有限公司电务部、北京交通大学、北京六捷科技有限公司组成课题组合作启动了CTCS-3 无线超时自动分析系统研究。
开展CTCS-3 无线超时自动分析系统研究,主要是完成以下目标。
CTCS-3 级列控系统车地数据传输的既有监测系统包含Abis、A、PRI 接口的监测系统。其中,Abis 接口监测系统实现了对基站收发信机(BTS)与基站控制器(BSC)之间的信令监测,A 接口监测系统实现了对BSC 与MSC 之间的信令监测,基群速率接口(PRI)接口监测系统实现了对移动交换中心(MSC)与PRI 之间的信令和CTCS-3 列控信息的监测。既有监测手段对维护GSM-R 网络、分析CTCS-3 无线超时故障发挥了重要作用,但是由于缺少对车载侧数据交互情况的监测手段,导致很多故障点无法准确定位。
通过对Um 和Igsm-r 接口进行监测,可以获取到ATP 与电台(MT)接收与发送的数据,从而与既有的Abis、A、PRI 接口监测系统形成对CTCS-3 列控系统车地数据传输的闭环监测,并对CTCS-3 无线超时故障提供数据支撑。
在分析无线超时事件的原因时,需经历如下3个步骤:发现无线超时事件、收集无线超时事件的相关数据、分析无线超时事件的原因。
目前,维护单位发现无线超时事件的主要手段为维护人员观察DMS,当有无线超时事件的告警时,通知无线超时分析人员进行分析。
这种方式固然可以实现发现及分析无线超时的目标,但是不可避免的会影响分析无线超时的时效性。因此,需要对CTCS-3 无线超时故障的特征进行总结、归纳,得出基于接口监测系统的可以自动发现无线超时事件的方法。
在收集无线超时事件的相关数据时,当前也是分析人员通过查询接口监测系统的客户端软件来收集数据。
收集到无线超时事件的相关数据后,不同的分析人员在分析原因时,由于个人经验不同,每个分析人员分析原因所需的时间差异较大,得出的结论也不尽相同。因此,需要一种可以基于车、地两侧的监测数据自动分析车地交互异常原因的系统。
综上,通信、信号联合分析的技术思路如图1所示,系统自动发现无线超时,自动收集无线超时相关数据,自动分析无线超时原因,并生成分析报告。
图1 通信信号联合分析流程Fig.1 Joint analysis process of signal and communication
根据GSM-R 接口监测数据,实时发现无线超时,并向前端提供无线超时信息:车次号、机车号、机车所属路局、MT MSISDN 号、发生无线超时所在基站及线路信息。前端收到无线超时信息后,向维护人员提供告警信息。
通过对PRI 接口呼叫记录信息进行大量研究,总结无线超时事件的特征,并在此基础上剔除动车组未在CTCS-3 线路运行时发生的无线超时事件,一是剔除在动车所或动车段等检测工区内的异常拆链事件、二是剔除速度为0 的拆链区间为站内的异常拆链事件,从而避免无效的无线超时事件对系统自动分析处理的干扰,以及对分析人员的干扰。
通过总结在分析无线超时事件时需要用到的接口数据,积累异常拆链类型与所需接口数据类型的对应关系,在此基础上,根据自动发现无线超时模块上报的异常拆链类型,自动从相关接口数据库中检索、收集相关数据。当后续分析过程中发现需要空口监测数据时,亦建立相应机制从六捷空口监测系统(AMS)地面数据中心获取相关数据,包括Igsm-r 接口的AT 指令、CTCS-3 呼叫通信数据,以及Um 接口的监测数据。
1)收集地面接口监测数据。系统根据无线超时信息,自动从GSM-R 接口监测系统中提取无线超时相关数据:PRI 接口监测数据、A 接口信令、Abis 接口信令、测量报告及切换记录,系统在收集完毕无线超时相关数据后,向前端发送指令,在前端显示无线超时相关数据,以便进行无线超时原因分析。
2)收集车载侧接口监测数据。系统根据无线超时信息,向六捷AMS 地面数据中心发送获取所需数据的指令,AMS 地面数据中心收到获取数据的指令后,将相关数据发送到本系统的服务器中,并进行校验。通过校验后,后端向前端发送指令,在前端显示Igsm-r 接口、Um 接口监测数据,以便进行无线超时原因分析。
GSM-R 接口监测系统存储监测数据的期限目前基本为3 个月或100 天。随着分析的不断进行,分析人员的水平会不断提高。若意识到3 个月或100天之前的某个无线超时事件分析的不对,此时已无法通过系统由GSM-R 接口监测系统数据库,再次自动分析超时原因。若超时相关数据已存档,则可将超时相关数据通过系统的前端进行手动导入,之后,系统可以自动进行分析,并得出分析结果及分析依据,并生成分析报告。
若某些无线超时事件发生在外局,获取到超时相关数据后,亦可将超时相关数据通过系统的前端进行手动导入,之后,系统可以自动进行分析并得出分析结果及分析依据,并生成分析报告。
通过对CTCS-3 数据传输机制的深入研究,总结各种异常拆链类型的分析过程,并结合故障树分析方法,对CTCS-3 无线超时事件的原因进行全面诊断分析,最终经过大量案例的训练,使系统可以自动分析无线超时原因。
分析无线超时的原因时,一个重要的目标便是得出无线超时是车地通信节点(车载侧、GSM-R网络侧、RBC 侧)中的哪个节点出现的问题,以便对问题进行整治,预防同样的问题再次导致无线超时。此外,也需确定无线超时是否是CRC(循环冗余校验)漏检所致。
系统根据提取到的无线超时相关数据,自动分析该次无线超时的原因,并进而得知该次无线超时是由车载侧、GSM-R 网络侧、RBC 侧或CRC 漏检所致,同时,系统记录无线超时的分析依据。
为此,课题组实现了自动生成分析报告的机制。系统在自动分析出无线超时原因后,考虑到需对超时事件相关方进行说明,以使超时事件相关方充分认识到超时事件原因,也是为后续解决问题提供依据,可以根据分析结果及分析依据,生成无线超时分析报告,报告中包含无线超时信息、分析依据、分析结果。分析报告在展示分析依据时,以数据图形化的方式展示导致发生无线超时的信息,并对图中包含的信息做出说明。分析报告可以导出成word 格式,以便保存和交流。
系统前端在展示超时分析依据时,以图形化的方式展示相关信息。
1)图形化展示GSM-R 网络情况。展示无线超时事件发生前的GSM-R 网络情况时,图形化展示电平值、网络质量的情况。观察图形即可一目了然的掌握无线超时事件发生前的网络情况,包括电平值、网络质量的变化情况,网络质量有无突降等信息,据此可以判断网络的好坏。
电平值取值范围为-110 ~-47 dBm,-110 为最差值,-47 为最优值。以图2、3 为例,展示了拆链前20 s 内电平值的测量情况,由图2 可知,电平值取值范围在-60 ~-47 dBm 之间,电平值取值较好。由图3 可知,越区切换16:47:23 s 后电平值突降为-110,电平值情况极差,表明此时基站已无法接收到机车电台上报的测量报告,或此时的G 网被干扰。
图2 明港东-信阳东拆链前20 s电台上下行电平值Fig.2 Upstream and downstream level of station at 20 s before chain removal for Minggang east-Xinyang east section
2)图形化展示车地信息序列图。展示无线超时事件发生前列控信息的交互情况时,以车地信息序列图的方式进行展示。
图3 信阳东-孝感北拆链前20s电台上下行电平值Fig.3 Upstream and downstream level of station at 20 s before chain removal for Xinyang east-Xiaogan north section
无线超时事件发生前,车地列控信息数量繁多,分析人员在寻找故障原因时,有时很难从大量数据中找到准确原因。系统通过自动挖掘超时前的数据,检索导致无线超时发生的原因,并在车地信息序列图中展示系统判断出来的导致无线超时事件的信息。
以图4 为例,由图4中所含信息可知,在2017-10-22 07:53:45.266 时,RBC 最后一次下发应用层消息,此后,ATP 上传了5 条应用层消息,RBC 未再下发新的应用层消息。在2017-10-22, 07:54:04.566时,车载端判断无线超时,发送DR 发起拆链,随后呼叫结束。由此可知本次无线超时是由于RBC 未下发应用层消息导致的,其中,OBC 代表车载设备。
通过各种组合查询统计功能,确定关注的热点问题,例如某种超时类型发生的次数、发生的地点、所属动车组车号和所属路局等信息,通过这些信息分析潜在的问题原因,由此,帮助维护和解决无线超时问题。
基于ATP 所属局进行统计。通过对ATP 所属局的统计,可以知道本局、外局的ATP 发生无线超时的次数,据此可以了解路局管内无线超时事件的大概情形。
基于超时所在线路进行统计。通过对超时所在线路的统计,可以知道路局管内各线路发生无线超时的次数,据此可以了解路局管内各线路发生无线超时事件的大概情形。若某条线路上发生次数较上一统计周期增长较多,应重点处理。
基于超时所在小区进行统计。通过对超时所在小区的统计,可以知道路局管内各基站发生无线超时的次数,据此可以了解路局管内各基站发生无线超时事件的大概情形。若某基站发生次数较多,应重点处理。
图4 PRI接口数据序列简图Fig.4 PRI interface data sequence diagram
基于ATP 超时次数进行统计。通过对ATP 超时次数的统计,可以知道路局管内各ATP 发生无线超时的次数,据此可以了解路局管内各ATP 发生无线超时事件的大概情形。若路局所属ATP 发生次数较多,应重点处理。若是外局ATP发生次数较多,应通报给外局,以便可以尽快处理问题。
基于电台MSISDN 号进行统计。可以通过电台MSISDN 号进行超时次数统计,通过该统计功能了解具体某个电台是否经常发生超时,了解具体的超时的原因,确认电台是否需要维护。
基于时间进行统计。对ATP 超时发生时间的统计,可以以月、季度、年份或其他指定的时间区段进行,通过统计可以知道路局管内所统计时间区段内发生无线超时的次数,从而可以了解路局管内发生无线超时事件的趋势。统计后,可与上个月或上个季度做环比比较,亦可在年底与去年的无线超时情况作同比比较,查看无线超时事件经过整治后的情形。
CTCS-3 列控数据传输的闭环监测系统由采集子系统、存储子系统和通信传输网络组成,如图5所示。其中,采集子系统包含车载侧Igsm-r 接口监测设备和Um 接口监测设备,以及地面侧Abis接口、A 接口、PRI 接口监测设备。车载侧的监测数据通过公网传输到六捷公司的AMS 地面数据中心,经过数据中心处理单元解析后分发到各路局的AMS 数据库。地面侧Abis 接口、A 接口、PRI 接口的监测数据通过通信网络传输到相应接口的处理单元解析后存储到对应接口的数据库中。
图5 CTCS-3超时智能分析系统组成Fig.5 CTCS-3 timeout intelligent analysis system composition
CTCS-3 智能分析子系统由服务器、数据库和客户端组成。服务器和Abis 接口、A 接口、PRI接口以及AMS 数据库通过铁路数据通信网相连,直接从这些数据库中获取对应的数据。
CTCS-3 智能分析子系统软件包括发现超时模块、主控模块、数据获取模块、超时原因分析模块、分析报告生成模块、导入数据转换模块、统计分析模块、前端,各模块功能如下:发现超时模块用于根据监测数据自动发现无线超时事件;主控模块用于居中协调,转发各模块的消息流,控制处理流程;数据获取模块用于从Abis 接口、A 接口、PRI 接口、AMS 地面数据中心处获取超时相关数据;超时原因分析模块用于根据获取的超时相关数据,自动判断出超时原因;分析报告生成模块用于根据超时原因分析模块判断的结果,自动生成分析报告;导入数据转换模块用于将存档数据转换成系统识别的数据格式,以便系统做进一步的原因分析工作;统计分析模块用于对系统发现的无线超时事件的特征、系统分析的故障原因进行统计;前端用于实时显示系统对无线超时事件的实时处理状态、查询无线超时事件的处理情况、导出分析报告、导出统计分析报告、导入存档超时事件的相关数据。
路局AMS 地面数据中心、CTCS-3 超时智能分析服务器部署在动车段(也可部署在电务段信息机房),CTCS-3 超时智能分析客户端可部署于动车段、核心网、电务处、电务段等处,如图6 所示。其中,CTCS-3 超时智能分析服务器通过专网与核心网机房接口监测系统连接并获取接口监测数据,CTCS-3 超时智能分析服务器通过办公网与电务段、电务处连接并交换智能分析结果。由于动车段既部署了办公网,又部署了专网,故在动车段可通过专网或办公网与CTCS-3超时智能分析服务器连接。
图6 CTCS-3超时智能分析组网Fig.6 CTCS-3 timeout intelligent analysis networking
CTCS-3 无线超时自动分析系统2018 年1 月投入使用,实现自动发现CTCS-3 无线超时事件、自动收集超时事件相关数据,在此基础上实现了无线超时事件的自动诊断分析,将维护人员从传统的以人工为主的繁琐工作中解脱出来,极大地提升了CTCS-3 超时原因分析的准确性,对管理部门进行CTCS-3 无线超时管理提供了更大的支撑。该系统于2018 年8 月通过中国铁路武汉局集团有限公司科学技术委员会技术审查。