张霞 ,马连川 ,曹源 ,张玉琢
(1. 北京交通大学 轨道交通控制与安全国家重点实验室,北京 100044;2. 北京交通大学 轨道交通运行控制系统国家工程研究中心,北京 100044;3. 北京交通大学 电子信息工程学院,北京 100044)
CTCS-3级列控系统在我国高速铁路中得到广泛应用,其列控数据传输基于铁路综合数字移动通信系统(GSM-R, GSM for railway)实现。《CTCS-3级列控系统无线通信功能接口规范》(对应于欧洲的Euroradio FIS[1],以下简称Euroradio)中的安全功能模块(SFM, safe functional module)为数据传输过程中可能出现的风险提供安全防护措施。根据最新版本的EN 50159标准[2]的规定,GSM-R属于第三类开放传输系统,应对于重复、删除、插入、乱序、损坏、延迟和伪装等所有7种传输风险提供强防护措施。Euroradio SFM 所提供的防护措施只有源和宿标识符、认证过程和加密过程,能够对插入、损坏和伪装等3种传输风险提供强防护措施,但对重复、删除、乱序、延迟等4种与时间相关的传输风险则没有提供相应的防护措施。因此可以认为分析CTCS-3级数据传输安全特性时可以排除插入、损坏和伪装等传输风险,而只考虑与时间相关的传输风险。
2009年,单振宇[3]利用有色Petri网对根据系统需求所设计的CTCS-3级通信协议进行建模,分析验证所设计的通信协议能满足性能需求。2012年,陈黎洁[4]选择分层赋时有色Petri网对安全通信协议进行研究,通过改变信道与应用层模型的参数分析所修改的安全通信协议中安全连接建立的时间特性。2014年,全宏宇[5]利用Matlab SimEvents清晰地模拟了车地通信系统的信息交互流程,并统计分析了通信协议的安全连接建立时间以及不同长度无线消息传输延迟时间。上述研究成果在研究安全通信协议时,通过在现有Euroradio安全通信协议中添加时间戳和序列号等措施防护时间相关风险[3,6],并对改变后的安全通信协议进行了功能或性能验证。但这些研究的不足之处在于没有阐明添加这些针对时间相关传输风险防护措施的理由。
根据 GSM-R数据传输原理[7],可以发现数据延迟和数据丢失是造成重复、删除、乱序、延迟等时间相关传输风险的2种主要原因。在实际情况中,数据丢失会造成列控车载设备由于接收不到数据而导致移动授权缩短失败等危险。根据文献[1]可知,数据帧在重传多次后仍没传输成功则视该数据帧为丢失。相对数据延迟而言,数据丢失发生的概率更低。因此,本文主要分析CTCS-3级列控系统数据传输中数据丢失的概率能否满足相关规范的安全要求。
由于Petri网能够完成系统的形势描述、正确性验证、性能评价、目标实现和测试等任务,Petri网成为了研究人员分析通信系统与通信协议的主要工具。而确定与随机Petri网(DSPN, deterministic and stochastic Petri nets)是一般Petri网的扩充,允许变迁的实施延时既可以是常数,也可以是指数分布的随机变量,这对周期性通信或数据传输的问题非常适用。所以本文选用DSPN作为建模工具[8]。
无线传输过程容易受外界环境的影响,导致信道故障的来源主要有无线降质、越区切换和链路中断3种类型[9]。而根据相关研究成果[10]可知多普勒频移对于2G和3G无线传输系统基本无影响,因此本文研究时不考虑多普勒频移的影响。
在实际建模过程中,上述3种故障模型单独设计,其好处在于不仅能仿真数据传输过程中数据与单一故障“碰撞”的过程,还能仿真这3种故障全部发生情况下的数据传输过程,这样仿真结果更加准确。数据传输过程中的故障恢复模型如图1所示。该模型描述的是3种不同的故障由未发生到发生的转变过程,3个模型初始状态表示3种故障均没有发生。
图1 数据传输过程中的故障恢复模型
建立Euroradio SFM以下部分的数据传输过程中的通信模型需要考虑以下3点。
1) 根据文献[1]对数据传输性能指标影响最大的是 GSM-R物理层,其他层对于数据的处理时间相对整个数据传输过程而言可以忽略。因此在模型的初始状态,数据直接以TDMA帧形式准备发送。
2) 由于CTCS-3规范中规定每帧数据为30 byte,而TDMA帧中一个时隙的长度为156.25 bit,所以要完成这30 byte数据帧的传输,需要2个TDMA帧。在建立DSPN模型时为建模方便,将2个TDMA帧看做是一个Petri网标识。
3) 基于GSM-R进行数据传输时,以下2种情况引起数据重传:一是由于传输过程中遇到故障而导致数据部分丢失或错误;二是由于传输超时。文献[1]中规定数据的最大重发次数为5次。
CTCS-3级列控系统数据传输过程中的通信模型如图2所示。
表1给出了图1和图2的库所说明,表2中给出图1和图2的变迁含义及各变迁的取值,数据取自文献[1,11]。
表1 图1和图2的库所说明
在图2所示的通信模型中,当数据传送到达空中接口时,首先要判断是否发生故障。
1) 当数据传输过程中没有任何故障发生时,变迁Twgz被激发进行数据传输,经过数据的上行、下行和接收方的判断之后Ttrade被激发,表示发送方收到数据的应答帧,经过一定时间的应答帧分析后变迁Twgzsucc被激发,开始准备传输下一帧数据。
2) 当数据传输过程中发生无线降质,则变迁Tcoll1被激发,由于无线降质是在数据传输过程中由于信道衰落或者受到干扰而造成,对数据而言,造成的最恶劣影响就是部分数据错误,并不会引起传输延时,所以经过正常的上、下行传输和接收方的数据校验之后变迁Tdrde被激发,将库所Ptradr中的标记转入Pprocess中,表示发送方收到接收方传输回来的要求数据帧重传的信息,发送方对这一信息进行处理判断之后变迁Tprocess被激发,开始准备数据重发。
3) 当数据传输过程中遇到越区切换时,变迁Tcoll2被激发。由于GSM-R采用的是硬切换技术,所以越区切换执行时会造成一定时间的通信中断,而在该通信中断过程中正在进行的传输数据就会发生丢失,导致接收方不会接收到数据而产生相应的应答帧。所以只有在定时器Ttimer溢出后才能进行重发。
4) 当数据传输过程中发生链路中断的时候,变迁Tcoll3被激发。由于链路中断同样会造成一定时间的通信中断,数据传输及重发过程与越区切换基本一致,只是由于二者的中断时间不同,需要发送的重传的数据帧数不同而已。
5) 当数据传输过程中无线降质和链路中断同时发生、越区切换和链路中断同时发生或者3种故障全部发生时,由于链路中断或者越区切换而造成数据丢失,等待超时重发。
6) 关于定时器部分,变迁Tgen被激发,数据帧开始发送的同时启动定时器Ttimer,即标记进入Psenddata的同时另一个标记同样进入Pon。当标记到达Pwgzsucc或者Pprocess时清除Pon中的标记,表示当发送方收到接受方发回的应答帧时,无论是数据成功的信息还是要求数据重传的信息,都满足定时器溢出之前收到应答帧就清零定时器的要求。当定时器超时Ttimer被激发,标记进入Pout1。实际数据传输过程中定时器超时立即重新发送数据,而不管已经发送的数据是否仍在传输中,但是在DSPN模型中,某一时刻只能保证一个标记被传输,否则会造成标记堆积而导致仿真失败。当定时器超时且数据仍在传输没有应答帧到达发送方时,即库所Pout1中存在标记,同时Pduan中存在标记,Tca3被激发,清除Pduan中的标记,表明数据丢失等待定时器超时超发。当定时器超时的同时恰巧收到数据帧应答时,即Pout1中存在标记,Pwgzsucc或者 Pprocess中存在标记,激发变迁 Ttiao5或者Ttiao6,清除Pwgzsucc或者Pprocess中的标记来进行超时重发。
图2 CTCS-3级列控系统数据传输过程中的通信模型
表2 图1和图2的变迁说明
考虑到GSM-R网络主要存在2种覆盖方式:单层覆盖和冗余覆盖。冗余覆盖较单层覆盖能提高数据传输的可靠性,从而链路中断和无线降质发生概率降低,但冗余覆盖会造成越区切换更加频繁。
根据文献[11],单层覆盖下无线降质出现周期大于7 s的概率为99%,降质持续时间小于1 s的概率为99%。考虑极端情况假定列车时速为500 km/h,无线小区之间的距离L为7 km,则越区切换发生的时间间隔为50 s,切换导致的通信中断时间最长为300 ms。链路中断故障每小时发生的概率为 10-2,GSM-R设备检查到中断后重新建立链接。链接中断后5 s内重新建立链接的概率为95%[11]。而冗余覆盖下越区切换发生的时间间隔为单层覆盖的 1/2,无线降质出现周期为大于70 s的概率为99%,降质持续时间小于1 s的概率为99%,链路中断故障每小时发生的概率为10-3,链接中断后5 s内重新建立链接的概率为95%。因此,单层覆盖及冗余覆盖下故障恢复模型参数选择如表3所示。
表3 单层覆盖及冗余覆盖下故障恢复模型参数选择
结合上述数据传输过程中的通信模型和故障恢复模型,利用TimeNET4.0进行仿真,可以分别得到单层覆盖和冗余覆盖下数据丢失的稳态概率Plost,如图3和图4所示。
图3 单层覆盖下列车速度对于数据丢失概率的影响
图4 冗余覆盖下列车速度对于数据丢失概率的影响
由图3和图4可得出,单层或冗余覆盖下,随着列车速度的提高,数据丢失概率都会微升。但对于相同列车速度而言,冗余覆盖下数据丢失概率一直低于单层覆盖下的数据丢失概率,说明无线降质和链路中断对于数据丢失起主要作用,列车速度的变化对于通信的影响较小。
在实际情况中,数据丢失会使列车由于接收不到数据,而出现文献[7]中所描述的由于移动授权缩短失败所造成的危险。根据文献[7],分配给CTCS-3级列控系统车地GSM-R传输系统危险失效率为 1.0×10-11,结合前文“分析 CTCS-3级数据传输安全特性时只考虑与时间相关的传输风险”的假设,可以认为时间相关的危险失效率就是 1.0×10-11。为了说明问题,将单层覆盖和冗余覆盖下数据丢失概率及上述时间相关的危险失效率同时绘制于图5中。
图 5中“标准”代表文献[7]规定的时间相关风险的危险失效率,当数据丢失概率在“标准”代表的图线下方时才满足SIL4级要求。但从图 5中可以看出,不论是单层覆盖还是冗余覆盖,数据丢失概率都远在“标准”图线之上。这说明即使在只有数据丢失才会造成列控系统危险输出这一极端情况下,也不能满足相关规范对于数据传输的SIL4级要求,如果再考虑数据传输延时所造成的影响,就更不会满足相关规范的要求。
因此,现有 Euroradio安全协议没有提供时间相关风险防护措施,不能满足相关规范对于数据传输的 SIL4级要求,为了保证CTCS-3级列控系统GSM-R车地数据传输满足数据传输安全要求必须在其 SFM 上添加相应的时间相关风险防护措施。例如,可使用《RSSP-II铁路信号安全通信协议》的安全应用中间子层协议。
图5 单层、冗余覆盖下数据丢失概率及时间相关的危险失效率对比
本文从分析CTCS-3级列控系统 Euroradio的SFM对于时间相关风险防护能力出发,基于DSPN建立了CTCS-3级列控系统数据传输过程中的通信模型和故障恢复模型。将 2种模型相结合,利用TimeNET4.0进行仿真,得出以下结论。
1) 单层覆盖或者冗余覆盖下,列车速度对于数据丢失的概率影响较小。
2) 相同列车速度下,冗余覆盖下数据丢失概率一直低于单层覆盖下的数据丢失概率。
3) 单层覆盖或者冗余覆盖下,即使只考虑数据丢失才会造成列控系统危险输出,也不能满足相关规范对于CTCS-3级列控系统数据传输的SIL4级要求。
因此,现有 Euroradio安全协议没有提供时间相关风险防护措施,不能满足相关规范对于数据传输的SIL4级要求,为了保证 CTCS-3级列控系统GSM-R车地数据传输满足数据传输安全要求,必须在其SFM上添加相应的时间相关风险防护措施。
[1] ETRMS/ETCS . Euroradio FIS[S]. 2005.
[2] ERTMS. EN50159-2010 Railway Applications—Communication,Signalling and Processing Systems—Safety-Related Communication in Transmission Systems[S]. 2010.
[3] 单振宇. CTCS-3级车地通信协议设计与验证[D]. 北京: 北京交通大学, 2009.SHAN Z Y. Design and Verification of CTCS-3 Train Ground Communication Protocol[D]. Beijing: Beijing Jiaotong University, 2009.
[4] 陈黎洁,单振宇,唐涛. 列车运行控制系统中安全通信协议的形式化分析[J]. 铁道学报, 2012,34(7):70-76.CHEN L J, SHAN Z Y, TANG T. Formal analysis on safety communication protocol in train control system[J]. Journal of the China Railway Society, 2012, 34(7):70-76.
[5] 全宏宇. CTCS-3级列控系统地车安全信息传输子系统的建模与分析[D]. 北京: 北京交通大学, 2014.QUAN H Y. Modeling and Analysis of Safety Information Transmission Subsystem Between Train and Ground for CTCS-3 Train Control System[D]. Beijing: Beijing Jiaotong University, 2014.
[6] 陈黎洁. 列车运行控制系统安全通信协议验证方法的研究[D]. 北京: 北京交通大学, 2013.CHEN L J. Research of Authentication Methods on Safety Communication Protocol in Train Control System[J]. Beijing: Beijing Jiaotong University, 2013.
[7] ETRMS/ETCS. ETCS Application Levels 1 & 2 - Safety Analysis[S].
[8] 林闯. 随机Petri网和系统性能评价[M]. 北京: 清华大学出版社, 2009.LIN C. Stochastic Petri Nets and System Performance Evaluation[M].Beijing: Tsinghua University Press, 2009.
[9] ZIMMERMANN A. Modeling and evaluation of stochastic Petri nets with TimeNET 4.1[A].Performance Evaluation Methodologies and Tools (VALUETOOLS), 2012 6th International Conference on[C].2012.54-63.
[10] 苏华鸿. 移动通信多普勒频移与高铁覆盖技术[J]. 邮电设计技术,2009, (12):1-4.SU H H. Mobile communication doppler frequency shift and high-speed railway coverage technology[J]. Designing Techniques of Posts and Telecommunications, 2009,(12):1-4.
[11] GSM-R QoS Working Group. ERTMS/GSM-R Quality of Service Test Specification[S]. 2006.