贾贤业
(中铁第四勘察设计院集团有限公司,武汉 430063)
通信系统在整个城轨系统中所起的作用相当于人体的神经系统,其重要性和运行的可靠性不言而喻。本文将着重从系统及设备选型的角度来阐述和分析城轨通信系统的可靠性设计。
通信系统的网络层次可以分为系统和网络、子系统、设备、电路板等层面。可靠性的保证可以从各个层面来体现。
确保传输、专用通信和专用无线通信“三大系统”的可靠性;保持有互补作用的系统独立性;辅助系统( 其他子系统和集中网管系统)可帮助应对特殊情况,提高整个系统的可靠性。具体考虑内容如下。
(1)根据系统的重要程度确定不同系统对“冗余”可靠性的要求,如表1所示。
(2)在地铁系统中重点保证传输、专用通信和专用无线通信“三大系统”的安全可靠性。“没有单点故障”是对子系统“冗余”可靠性的最高要求。
通信子系统之间的相互补充,可弥补单个系统可靠性不足的问题,保证关键业务的可用性且保持有互补作用的系统独立性,有利于这种互补功能的发挥。
公务通信系统、专用通信系统和专用无线通信系统的配合确保话音业务的提供,特别是行车电话的提供。基于系统间的互补关系,可以基于各子系统的可靠性计算某个业务的可用性。
表1 主要子系统设计的冗余思路
地铁各子系统的配合和集中网管,可以为地铁环境提供高可靠性和安全性,全方位监控地铁环境,应对特殊情况的通信要求。通过视频和音频监控, 可及时发现车站和车辆段的异常情况,及时处理可能影响通信系统的隐患。存在恐怖袭击威胁时,CCTV和广播系统有助于公安、消防等人员快速反应。战争情况下,地铁作为临时防空设施,可提供地铁内部的通信,以及利用广播系统组织人员在其中活动。集中网管系统有利于及时发现故障并快速修复,保证业务的连续性或缩短MTTR时间,提高系统的可用性。
对于子系统可靠性的保证主要采取以下措施:关键子系统网络拓扑结构的选择、系统的冗余机制及“故障弱化”机制的建立。
(1)关键子系统拓扑结构的选择
*传输网络采用双环型拓扑结构,具备自愈功能。
*专用通信网络采用点到点的拓扑结构,可满足设备的故障隔离要求。
(2)冗余机制
建立冗余机制后,当某个设备或设备的某个模块发生故障时,可以采用备份的设备或模块替代。因而备份设备/模块与网络的设备/模块之间从可靠性的角度来看是并联关系。只有当他们同时故障时才会导致系统的故障。例如:2个可用性为99.9%的设备备份时,总的可用性可达1-(1-99.9%)2=99.9999%,因此,可用性呈数量级提高。
模块化设计保证了设备备份的可能性。目前备份采用的手段主要有热备份和冷备份方式。采用热备份时,主用设备和备用设备同时工作,并保证数据的同步,当主用设备/模块故障时,切换到备用设备工作,切换时间短,并保证业务不中断,但运营成本较高。采用冷备份时,备用设备平时不工作,当主用设备/模块故障时,将备用设备/模块连入系统,切换时间较长,业务可能短时中断,但运营成本较低。备份设备和模块可以支持热插拔功能,保证替换时不影响系统其他部分的工作。设备的备品备件也可以作为一种冷备份。主要子系统冗余机制如表2所示。
表2 子系统的冗余机制
续表
(3)“故障弱化”机制
“故障弱化”可以使系统发生故障时使用“功能后退”运行方式,减少通信系统故障造成的影响。许多“故障弱化”机制也可以认为是一种冗余机制。故障弱化措施如表3所示。
当控制中心故障时,基于TETRA的专用无线通信系统可以在基站范围内工作,以及采用直通模式工作,行车调度电话可通过电缆回线连接。由此保证系统以“功能后退” 方式运行。此时,车站时钟、广播、电视监视等系统仍能在车站范围内工作。
表3 故障弱化措施
在设备选型过程中,应关注设备的如下情况:运营业绩良好;对于有互通要求的设备,尽可能选择同一厂家的产品;设备具有模块化和标准化的特点;严格符合行业技术标准及规范;设备满足冗余和降额设计要求;特殊设备利用软件算法来提高可靠性;选择具有高可靠性的软件等。
下面只从技术角度讨论可靠性的保证措施。
(1)良好的运营业绩
选择的产品要有良好的运营业绩,保证24 h运行并具有地铁方面的运营案例。
(2)模块化和标准化设计
便于提高故障分离系数,降低单个模块故障对系统总体可靠性的影响程度。便于扩大供应商的选择范围,降低对设备和供应商的依赖性。便于将故障限制在模块内部,并易于提供冗余备份模块,当单个模块故障时,利用备份模块可保证系统的正常运行,基于模块化结构,也便于实现热插拔,在不中断业务的情况下完成系统故障的维修。
(3)冗余及降额设计
对于特别关键的系统采用冗余设计,如采用两路电源供电,避免电源故障的影响。针对设备不同的位置,提出不同的环境要求,选择设备时确保其满足相关环境条件的要求,甚至高于环境条件的要求。
(4)利用软件算法提高可靠性
在地铁环境中工作的设备,容易受到外来的干扰,因此,在控制、测量和通信等软件设计时采用各种软件算法(如CRC校验、中值、滤波和平滑),确保控制、测量和通信的准确性。同时软件具有对外界突发性干扰等因素造成运行失常的探测、控制和处理能力。
(5)软件自身的可靠性
由于软件规模和复杂性不断扩大以及其广泛应用,软件的可靠性问题也随之日益突出,并受到人们的重视,目前软件可靠性的研究仍是一个新兴学科。
软件可靠性表述的3个概念:软件本身的缺陷,软件运行中由于软件缺陷产生的故障以及最终导致系统的失效。由于软件不存在损耗性故障, 软件故障是由于在运行过程中,缺陷被激发而产生的。软件的缺陷被纠正之后, 将不再存在( 除非引入新的缺陷)。因此,软件故障率的分布不像硬件是一个“浴盆曲线”, 理想的软件故障率分布将逐步递减至稳定状态。实际情况下,由于软件维护(纠正)过程中引入的新缺陷,软件的实际故障率曲线存在退化问题,因此采用较新版本的成熟软件有利于提高软件的可靠性。
提高电路板设计水平有助于提高设备的环境适应能力,降低模块的故障率。这些性能可以在设备层面反映出来。选择设备供应商时,电路板工艺的观察有助于电路板可靠性的判断,较好的设计要求如下。
(1)尽量提高硬件集成度。减少元器件的数量可以提高可靠性。
(2)充分考虑电磁兼容性的要求。大小信号分开,模数分开,防止信号互相干扰等。
从上面对各层面可靠性分析的结果,可提取出一些适用于城轨通信系统设计及设备选型的原则,并在工程设计及安装过程使用,将大大提高城轨通信系统的可靠性。
[1] 中华人民共和国铁道部. 铁路技术管理规程[S].北京:中国铁道出版社, 2006.