TDCS/CTC 系统核心路由器内存占用率高的隐患排除措施

2021-04-10 08:15葛学仁李亚菲
铁道通信信号 2021年1期
关键词:占用率双路板卡

葛学仁 桑 宇 李亚菲

路由器是一种网络互联设备,具备判断网络地址和选择路径的功能,工作于OSI 七层协议中的第三层,其主要任务是接收来自网络接口的数据包,根据其中所包含的目的地址,实现数据转发。

核心路由器是TDCS/CTC 系统连通中心和车站进行信息交互的关键基础设备。太原局普速TDCS/CTC 系统中心核心路由器型号为Cisco 7609,2G 内存,双套冗余,2012 年5 月上道使用,24 h 不停机运行,设备上道以来运行一直稳定。2019 年四季度巡检发现,核心路由器A 内存占用率已高达89.11%,网络服务出现质量变差、数据丢包率明显增加等现象,造成TDCS/CTC 整体系统运行不稳定。2020 年开始,电务部组织对该隐患产生的原因进行逐项分析、排查和测试,采取了一系列紧急措施,降低了核心路由器的内存占用率,消除了安全隐患。

1 故障基本情况

内存占用率是指系统进程所开销的内存数占设备总体内存的比例。核心路由器的内存占用率是判断该设备是否稳定工作的重要参数,占用率越高,设备的稳定性越差。通过数据分析发现,核心路由器A 机内存占用率呈逐级递增趋势,由2017 年1 月份的31.03% 逐渐升高至2019 年12 月份的89.11%(见表1),涨幅58.08%,其中2017 年二季度幅值最大,为17.51%,持续升高的内存占用率给TDCS/CTC 系统稳定运行增加了隐患。

2 故障原因分析

2020 年2 月,电务部组织召开专题分析会议,重点对设备硬件运用、网络结构调整及软件功能拓展等造成核心路由器工作异常的原因进行深入剖析,总结如下。

1)设备存在老化现象,长时间运行未进行重启操作。《铁路列车调度指挥系统(TDCS)和调度集中系统(CTC) 维护管理办法》(铁总运〔2014〕 330 号) 文件规定:“TDCS/CTC 系统中心网络设备使用年限为5 年”。该设备已超期使用且该型号也已被淘汰,按照产品使用寿命推测,随着设备运行时间的增加,元器件老化程度会迅速加剧,设备性能劣化指数也会呈几何倍数增长;此外,核心路由器自上道使用后由于受“天窗”时间和作业影响范围过大等多种因素限制,已不停机运行超67 680 h,期间未进行过任何重启操作,偶发的错误信息一直滞留在内存中得不到释放,导致内存占用率持续非正常增长。

表1 内存占用率数值变化

2)部分车站的特殊显示需求多,跨网交互信息量大。一是由于在建设初期TDCS/CTC 系统整体网络结构设计缺乏前瞻性,部分相邻车站所处的网络位置不在同一个环网内,邻站透明信息数据需经核心路由器进行二次转发,才能从一个子网传输到另一个子网,增大了核心路由器的计算负荷;二是因运输组织的特殊需要,本站需掌握相邻多个车站的列车运行情况,TDCS/CTC 数据交换需跨越3~4 个不同环网,此现象在枢纽地区车站尤其明显;三是专用线车站一般采用单网设计,路由器只单独从A 网接入,也增大了核心路由器A 机的工作负载。

3)双路传输方式实施不当,交换数据大幅增加。TDCS/CTC 系统原有的双网信息传输机制为A/B 网随机传送,即信息数据流只会从A 网或B 网其中1 条通道传递回中心和相邻车站,通道存在误码时不进行切换。这种传输机制在由于通道误码造成信息数据帧丢失时,会产生TDCS/CTC 系统信息迟滞、中断、车次号不正常跟踪等问题,进而产生占用丢失、误报警现象,影响正常的运输组织秩序。为规避此风险,2017 年6 月起组织在韩原线、太中线CTC 系统实施双路传输改造,即通过优化路由器、自律机配置,阻断路由器A—交换机A/B—路由器B 的路由邻居关系,使数据流的传输方式由原来的单网传输变为A、B 网同时传输。实现双路传输功能后,对TDCS/CTC 系统的稳定性起到了极大的提升作用,偶发的通道质量变差、误差丢包现象不再干扰系统的正常运行。但经数据比对发现,此项技术改造也增大了车站与车站间、车站与中心间的数据交互量,核心路由器内存占用增长率由每季2%增长至5%。

4)新建车站的不断接入,中心负载逐步增大。一方面,随着运输组织结构的调整、新建车站的不断接入、既有车站TDCS3.0/CTC3.0 升级改造,TDCS/CTC 系统中心设备的运算负荷越来越重;另一方面,相关站段查询终端直接接入生产系统,也增加了与中心交互的数据量,进而增加了核心路由器的计算负荷。据估算,每新建一个车站,核心路由器进路表至少增加8 条,内存使用量约增加2M,只进行车站设备改造而中心设备不进行配套升级,也是造成核心路由器计算负荷明显加重的重要原因。

3 解决措施

1)更换引擎板卡,提升设备性能。设备长时间运行导致老化程度严重,核心路由器的问题主要体现在设备引擎板卡方面。由于受多方面因素限制,在已明确解决措施的前提下,为降低施工风险,减小施工影响,结合实际制定了仿真测试项目,为整改方案的顺利实施打下良好的基础。

Cisco7609 路由器引擎板卡最高支持内存为4G,由于无法使用既有设备做试验,只能在实验室采用同类产品搭建模拟环境,使负载尽量贴近实际。经试验验证,模拟环境中4G 引擎板卡工作正常、运行参数稳定,路由器整体也未发生宕机现象,主备引擎板卡支持热插拔且切换时间小于1 s,对既有业务的正常执行不造成影响,具备了现场更换板卡的条件。2020 年3 月26 日,路局组织对核心路由器A 机做了升级引擎板卡的处理,内存卡更换为4G。更换完成后,核心路由器计算性能得到大幅提升,数据丢包率明显降低,内存占用率降为54.87%。为规避核心路由器引擎内存量不一致的风险,后期又对路由器B 的引擎板卡也做了同样升级处理,提升了硬件整体性能。

2)广域网网络结构优化。针对全局部分车站的网络结构存在不利于数据交互的情况,对TDCS/CTC 网络结构进行了适当调整,优化了路由算法,原则上严格按照技术条件规定的车站数量组网,尽量避免采用将邻站透明显示需求通过核心路由器计算并传递的方式。经合理组织实施,网络结构调整共18 处,减少静态路由表40 条,很大程度上降低了核心路由器的计算负荷。网络结构调整完毕后,核心路由器的内存占用率降至49.67%。

3)双路传输硬件连接方式优化。TDCS/CTC系统数据双路传输方式,是解决传输通道误码故障的有效手段。针对实施双路传输后传输数据量变大,进而引起核心路由器负载变大的问题进行了讨论,并完成了技术整改。一是对车站网络设备硬件连接方式进行了调整,即:将车站A、B 路由器与A、B 交换机之间交叉连接的2 根线拆除(见图1),实现A、B 网络完全隔离,同时对软件数据流传输机制进行优化,A、B 自律机计算出的数据只通过各自的网络向中心服务器传送,避免了数据交叉传递带来的网络影响,实现了真正意义的双路传输;二是对中心通信前置机软件进行优化,采用车站数据先到先用、双重比较的方式,确保获取数据的有效性、完整性和准确性。

图1 硬件连接方式变化图

通过以上优化方式,核心路由器的内存占用率季增长率重新降低为2%,消除了内存占用率涨幅过大的风险。

4)减少查询终端在生产网内的接入数量。由于前期未建设查询子系统,站段层级的查询终端全部接入既有系统,终端设备陈旧、数量繁多,给系统运行造成了严重的负担。为有效解决此类问题,一是将具备移设条件的站段查询终端移到TDCS/CTC 查询子系统,根据相关技术条件规定的查询终端接入范围和接入流程,共调整完成11 处38 台终端移设工作;二是督促不具备移设条件的相关站段,做好设备硬件养护工作,定期对设备进行重启、杀毒等工作,确保将系统运行影响降到最低。项目实施完成后,核心路由器内存占用率降至47.32%。

4 总结

上述改造工程实施完成后,太原局TDCS/CTC系统核心路由器A 内存占用率大幅下降,现阶段设备运行稳定,内存占用率基本保持在48%左右,隐患得到有效消除。TDCS/CTC 系统的稳定运行为优质高效的运输指挥提供了良好的支撑。

猜你喜欢
占用率双路板卡
2017款比亚迪e5无法充电和上电
适当提高“两金”占用率助人助己
RTX系统下并行I/O卡驱动程序的开发
双路除氧器上水调门控制
基于组态王软件和泓格PIO-D64 板卡的流水灯控制
双路自动分料溜槽设计
一种基于光纤数据传输的多板卡软件程序烧写技术
基于云计算的虚拟机在线迁移算法
某电信运营商CDMA无线网络安全评估探讨
可编程双通道12位D/A转换器TLC5618