王 纬
(中国铁路郑州局集团有限公司郑州电务段,郑州 450000)
信号系统网络传输故障是信息设备维护人员日常设备维护与应急故障处理的重要方面,而网络传输故障中网络传输通道丢包类故障,具有时断时续,时好时坏的故障现象。若长时间没有找到故障原因,会造成通道信息拥堵与延时,进一步发展为网络通道中断故障,对铁路行车运输造成严重的影响。
网络通道丢包故障具有很强的迷惑性与不确定性,对电务维护人员是一个不小的挑战,如何能够迅速找到故障原因并采取措施处理,将故障影响与延时降到最小显得尤为重要。针对信号系统网络通道丢包故障,笔者根据网络通道故障处理的经验,总结归纳出应急故障处理与日常维护检查的3个重点方面,并且提出相应的维护建议。
2.1.1 TDCS/CTC系统路由器2T模块接口线
铁路局网络管理中心系统显示:管内陇海线商丘运转场与商丘直通场CTC系统网络通道A出现严重丢包、堵塞延迟,导致两站间的网络通道一会中断延迟、一会恢复正常的故障现象。现场维护人员查看两站的CTC设备指示灯状态,未发现异常;中心维护人员从远程分别登录两站的路由器A,查看端口工作状态,发现对应端口物理状态正常(up),而通信协议工作异常(down)。采取打环的方法进一步缩小故障范围,对两站分别打近端环,观察端口信息均能看到环(looped)。但看到环并不意味着两站站内信息设备网络通道没有丢包故障,这就是通道丢包与通道中断故障处理的区别。进一步在两站近端环进行Ping测试,对路由器相应S端口Ping,并按照通道接受最大的包容量进行通信测试,查看其丢包率。发现商丘直通场的丢包率较高,达到30%,远远超出正常范围,初步判断为商丘直通场站内CTC系统网络传输丢包引起,将故障范围缩小至商丘直通场站内CTC系统设备。
维护人员查看其CTC网络传输设备,发现协议转换器收发指示灯时而正常闪亮,时而有发无收,判断可能为该站对商丘运转场网络通道A的协议转换板卡性能不良导致,随即更换该协议转换器板卡,但网络通道故障依旧。维护人员再次对CTC系统网络传输设备进行仔细观察、分析,通过对比,发现该站CTC系统路由器A的2T模块上V.35线接头与其他接头相比,弯度略大且往外突出、有弯折。触碰该V.35线接头,并查看路由器A对应端口状态,该端口通道进行Ping测试有时断时续现象,通道传输质量(reliability)指数在255~170之间变化,说明该线头存在接触不良,导致该端口通道传输质量时好时坏直至通道中断现象,随即更换该端口V.35线,故障恢复正常,试验良好,且再未发生故障。
2.1.2 TCC系统信号安全数据网ODF架光纤通道
管内郑焦城际南阳寨站列控中心(TCC)维修机报警显示:TCC与信号安全数据网A中断10 s,且当天连续发生2次。由于TCC与信号安全数据网2次中断10 s后均自动恢复正常,对行车未造成影响。
垂直天窗内,维护人员赶赴现场查看TCC网络传输设备,其交换机、路由器、防火墙均工作正常,未发现异常。随后查看该TCC系统与信号安全数据网之间的ODF光纤架,在触碰该ODF架时, TCC维修机再次报警显示其与信号安全数据网中断,且10 s后自动恢复正常。随后将故障范围缩小至ODF光纤架。仔细观察后发现,在ODF架底座的外边侧面处有一根光纤有略弯折痕迹,试验拉开该ODF架底座均出现报警,确定为该光纤弯折后造成的性能不良,随后配合相关通信人员更换该光纤后恢复正常,试验良好。
综上所述,针对线路接触不良引起的网络通道故障的维护建议:电务维护人员日常维护巡视中,应注意信号系统网络传输设备的连接线处,如交换机上的网线、路由器2T模块的接口线、协议转换器的TX/RX同轴缆、ODF架光纤等。重点查看这些线路接口处与连线有无接触不良,弯折损伤等,必要时可在垂直天窗内触碰查看其网络通道状态,从而判断该设备与线路性能,若发现异常,则应立即采取相应措施,避免对行车运输造成严重影响。
2.2.1 路由器配置参数未擦除干净
管内京广线广武站TDCS系统与相邻车站东双桥、焦作东TDCS的网络通信,经常出现丢包、通道堵塞及延迟现象。由于都是与广武站相邻的车站TDCS系统发生此类丢包现象,首先查看广武站TDCS系统设备状态,均未发现异常情况。维护人员远程登录该站路由器,发现其路由器的各端口(S口与F口)配置与工作状态均正常,未发现异常情况。进行Ping测试,丢包率一直很低;进行tracert测试,对其发送到相邻车站目的地址的数据包进行追踪,发现该数据包的传输路径并未直接通过相连通道传给邻站,而是绕到相距较远的几个站后再到相邻车站。
继续深入分析,其没有直接传输到邻站而是绕一大圈后到达,有两种可能:一是由于交换机设置有生成树协议(STP),为防止网络广播风暴而对某条链路出现人为设置逻辑断路情况;二是由于路由器内部的路由选择协议中静态路由部分设置有问题造成。
根据上述两个基本判断,先从简单的路由器内部路由选择协议查看,其路由器为思科(CISCO)2800系列,使用EIGRP路由选择协议,其EIGRP内部具有静态路由配置功能,通过设置静态路由协议,可以使其在路由选择和寻找最优路径时节省大量时间与网络资源,在TDCS/CTC网络中具有优势,因此广泛采用。输入“SH RUNNING”命令,查看路由器配置,对比中心备份的路由配置表发现,其EIGRP中,多出两条静态路由network配置语句。经过与车站IP地址表对比,发现多出两条静态路由network配置语句中的目的IP地址为郑州南、小李庄站的IP地址,那么就会出现在与有些邻站传递信息中,其路由路径要走到郑州南、小李庄站等后再回到广武站,从而产生信息传递路径过长,传输效率低、网络通道偶尔出现丢包、甚至通道堵塞、延迟等现象。
进一步调查问题原因,判断为对路由器内部配置时未擦除干净所致,其原有的EIGRP协议中的静态路由保存在新的路由协议中。针对此类问题,发现对某些CISCO路由器先进行输入“Erase startup-config”擦除命令,然后输入“reload”重启命令,有时需要多次才能擦除干净,只有维护人员确认该路由擦除干净后,方可写入新的配置文件。否则,就会出现上述故障现象。
2.2.2 路由器端口属性设置不匹配
管内陇海线商丘站CTC系统发生通道数据包丢包率较高、甚至出现网络通道堵塞、延时等情况,维护人员远程登录路由器,查看其端口“INPUT ERROR错误包”与“CRC校验码”两项数值,数值较大且还在继续增长,通道传输质量指数未达到255,表明通道连接不稳定,丢包率较高。查看对应端口的属性与状态,发现路由器F0/1端口配置的工作方式为半双工模式(half-duplex),并非全双工模式(full-duplex)。
随后,维护人员通过将端口工作方式由半双工模式改为全双工模式后,其网络通道通信良好,丢包率大大降低。
此外,TDCS/CTC系统中的交换机与路由器之间,其对应端口的工作方式不同(一方为半双工、一方为全双工)、端口速率不同(一方为100 M、一方为10 M),也会导致其出现网络丢包现象。
综上所述,针对路由器等传输设备配置错误引起的网络通道故障的维护建议:交换机、路由器作为信号系统网络传输与信息交换的核心,电务维护人员应该对其网络配置的方法、标准化操作步骤及命令语言熟练掌握,制定相关交换机与路由器的标准化操作步骤,采取双人配置作业方式进行,一人作业、一人盯控,确保网络传输设备配置正确,工作正常。遇到突发故障,能通过查看路由器、交换机配置与端口属性,迅速找到故障原因,采取应急措施恢复正常。
2.3.1 防火墙设置
管内京九线梁堤头站至商丘北I场间下行线6655G轨道电路、商丘北II场至梁堤头站间上行线6658G轨道电路瞬间出现红光带,并且相应的区间信号机出现红闪状态,说明梁堤头站自律机接收不到801线路所区间信号机及区间轨道状态,随后又立即恢复正常。
维护人员通过查看CTC系统自律机日志确定故障原因为梁堤头站自律机与801线路所自律机之间连接中断,从而使商丘北I场、II场信息无法传送到梁堤头站,进一步调查研究,发现梁堤头站自律机与801线路所自律机之间存在连接不稳定,即两站自律机A环网络存在丢包严重的情况。
维护人员登录梁堤头站路由器A,从路由器A上ping交换机A的A环地址,发现丢包严重,怀疑路由器A到交换机A之间线路存在问题。随即将防火墙A甩开,再从路由器A上ping交换机A的A环地址,网络正常,没有丢包情况。综上情况,确定为CTC系统防火墙A导致网络丢包引起的故障。为了查清安全隐患,将段管内京九线8个站CTC系统的其余15台防火墙一并发回厂家进行调查,初步怀疑为京九线8个站网络安全策略与中心安全边界系统兼容性与协调性存在问题。
2.3.2 网络与信息安全
随着 “棱镜门”事件、勒索病毒(WannaCry)的全球性爆发及持续性的发酵,网络与信息安全逐渐成为信号系统维护管理的重要方面。而网络威胁、欺骗与分布式拒绝服务(Distributed Denial of Service,DDoS)攻击均会造成信号系统网络传输的中断与信息完整性、保密性及可用性的破坏,严重的网络攻击甚至会造成整个信号系统网络的瘫痪。
近几年,全路已经出现多起因网络与信息安全造成的案例,下面简单介绍几个典型案例:某铁路局对杀毒软件升级,该版本病毒库将卡斯柯车站车务终端业务程序的daemon.exe程序作为木马误杀威胁予以清除,程序关闭后无法再启动,导致大面积车务终端业务程序陆续出现异常;某铁路局中心网络爆发W32.Downadup病毒,大量终端网络共享功能受到影响而不能使用,调度台之间的数据共享调取失败,只能通过手动调取,TDCS/CTC程序不能正常运行,网络运行速度缓慢,大量终端服务器死机,影响行车2 h。
目前,在高速、普速线的CTC调度中心及各高铁车站开通并启用了网络安全系统2.0,普速线CTC车站采取防火墙来对数据流量包进行访问控制、包过滤等安全防范措施,而管内的TDCS 2.0以下系统几乎没有网络安全防范设备。
在该段内信息设备车间生产维修中心搭建TDCS系统网络安全模拟测试平台,以段管内东双桥与广武站为测试案例,在现阶段未安装防火墙、入侵检测系统等网络安全防护设备前提下,在TDCS系统模拟测试平台,使用NMAP、NETWOX、NETTAG与Wireshark软 件, 先利用NMAP扫描设备端口状态与信息,利用NETWOX、NETTAG等软件,封装发送伪造信息,进行IP地址欺骗、ARP欺骗、ICMP路由重定向攻击及TCP SYN FLOOD拒绝服务攻击,并利用Wireshark软件查看网络传输的数据流,最终各项欺骗与攻击均成功实现,说明该系统存在严重的网络安全隐患。
关于网络安全设备维护建议:第一,信号系统尽可能安装相应的网络安全设备,通过网络安全硬件设备(防火墙、入侵检测等)与防火墙、杀毒软件等,保护信号系统网络与信息安全,既有的网络安全设备尽快升级到网络安全系统2.0;第二,建立完善、全面、分层次化的信息安全制度管理与规范,建立相应的信息安全管理组织或机构,构建科学、严谨的信息安全管理制度,加强信息安全认知与人员任用控制的人员管理模式来达到提升安全的目的;第三,在有条件的情况下建立信号系统网络信息安全模拟平台,对防火墙、入侵检测等网络安全设备深入了解,在运用前先进行模拟测试,看是否能够防范IP地址欺骗、ARP欺骗、ICMP路由重定向攻击、TCP SYN FLOOD拒绝服务攻击等网络攻击,建立完整、详细的日志审查体系,确保网络安全设备配置良好后,再进入现场进行安装或升级。
信号系统网络传输丢包故障,不仅有线路接口接触不良、路由器配置或端口属性不匹配等传统问题,还要面临防火墙的策略配置与兼容性、网络欺骗、威胁与攻击等新型问题,这对新时期的电务维护人员是挑战也是机遇。在日益更新的信号系统技术面前,只有不断学习总结,探索研究才能为铁路运输保驾护航。