吴桂龙
(中国铁路北京局集团有限公司北京通信段,北京 100038)
以张唐线为例,2015年12月30日张唐铁路开通运营,全长528 km,途径张家口站、孔家庄站、张家口南站、赵川北站、龙门站、赤城站、杨木栅子站、丰宁站、塔黄旗东站、滦平东站、承德西站、李家营站、半壁山站、团飘庄站、丰润西站、唐山西站、丰南南站、唐海站、曹妃甸北站,后更名为唐包线。
唐包线传输网汇聚层速率为2.5 G,采用1+1线性复用段保护,接入层传输速率为622 M,采用两纤双向复用段保护,全线只有一条24芯光缆。传输设备主要采用华为OSN系列设备,以太网板支持物理层、链路层协议,类似二层交换机。
唐包线数据网张家口路由器华为NE20E-S8采用IP-Trunk模式双POS口接入客专数据网,丰润网监室路由器华为NE20E-S8采用ETH-Trunk模式双GE口接入客专数据网。
唐包线红外线局端接入方式:车辆5T机房两台路由器分别与客专数据网两台路由器对接,红外线网管主、备通道分别接入车辆5T机房两台路由器。
唐包线牵引运动局端接入方式:供电机房两台路由器分别与客专数据网两台路由器对接,牵引远动网管主、备通道分别接入供电机房两台路由器。
唐包线电力运动局端接入方式:供电机房两台路由器分别与客专数据网两台路由器对接,电力远动网管主、备通道分别接入供电机房两台路由器。
唐包线红外线业务通过传输设备的以太网板共享汇聚,采用星形主、备方式进行组网,每个探测点主用汇聚接入张家口交换机华为S2700,每个探测点备用汇聚接入丰润网监室交换机华为S2700,两站的交换机分别上联本站路由器,业务网关设置在路由器上。共21个红外线站点,41个红外线探测点,主、备分别两个汇聚口,划分2个虚拟局域网。如图1所示。
图1 唐包线红外线组网示意Fig.1 Schematic diagram of infrared ray networking on Tang-Bao line
唐包线牵引远动业务通过传输设备的以太网板共享汇聚,采用环形串接方式进行组网,主用汇聚接入张家口交换机华为S2700,备用汇聚接入丰润网监室交换机华为S2700,两站的交换机分别上联本站路由器,业务网关设置在路由器上。牵引远动共分为5个主备环,46个站点,主、备分别一个汇聚口,划分5个虚拟局域网。如图2所示。
图2 唐包线牵引远动组网示意Fig.2 Schematic diagram oftraction tele-control networking on Tang-Bao line
唐包线电力远动业务通过传输设备的以太网板共享汇聚,采用环形串接方式进行组网,主用汇聚接入张家口交换机华为S2700,备用汇聚接入丰润网监室交换机华为S2700,两站的交换机分别上联本站路由器,业务网关设置在路由器上。电力远动共分为13个主备环,137个站点,主、备分别一个汇聚口,划分13个虚拟局域网,牵引远动与电力远动组网方式一致。
以牵引远动为例,用户侧反映唐包线牵引远动业务主用通道全部中断。
1)查看唐包线传输和数据网网管,确保各项性能、指标正常,没有与之相关联的异常告警,排除传输、数据网设备、光路、单板或端口等故障。
2)通过用户侧反映的故障现象,联系相关站段故障现象一致,PING测用户侧服务器和复式终端地址正常,排出用户侧服务器和复式终端故障造成主用通道全部中断,用户侧没有相应排查手段,需通信维护人员协助排查。
3)初步判断为牵引远动业务主用所带的站点发生了环路、广播风暴、ARP攻击等问题时,将汇聚端口阻塞,造成以太网汇聚业务主用通道全部中断。
4)查询传输、数据网网管数据配置,登录唐包数据网张家口路由器,关闭牵引主用通道对应的5个子接口,再分别开启牵引远动主用对应的5个子接口,逐一与用户侧进行确认,判断为子接口3问题。
5)对照图纸台账,登录唐包线传输网管,逐站关闭子接口3下挂的传输以太网业务口,分别与用户侧进行确认,最终判断为某个站点故障,关闭故障站点,通知用户侧安排人员进行排查、处理。
6)开启除故障站点外的所有子接口和业务端口,业务恢复,通知现场通信人员配合相关用户进行排查。
针对此类故障,由于唐包线传输以太网汇聚业务某个站点业务侧有环路,产生广播风暴,使张家口交换机对路由器上行接口带宽被占满,将端口阻塞,造成唐包线牵引远动业务主用通道全部中断,需用户侧进行详细排查。
通过以上故障案例、判断过程、原因分析,归纳出传输以太网汇聚业务存在以下几点问题。
1)唐包线数据网汇聚点只有张家口和丰润网监室,如发生环路,产生广播风暴或出现ARP攻击等问题,造成主用或备用业务全部中断,高铁及客专线等传输以太网汇聚业务也存在类似问题。
2)即使每个环都划分了VLAN,但是使用同一个汇聚口,其中一台设备发生了环路、广播风暴、ARP攻击等问题,也会造成汇聚口DOWN掉,从而影响相关业务。
3)定位故障点需通信人员通过传输网管进行复杂操作,分别只保留一个环,其他环全部甩掉,判断某个环的问题,然后逐站将环内业务端口DOWN掉,每一步需联系相应用户侧网管查看设备状态,故障定位时间较长,一般需要2~3 h,才能定位故障站点,再通知用户侧对故障站点进行处理,网管操作复杂,需依次进行排查。
4)用户侧只有业务中断时才进行反馈并组织处理,当通道1(主用)或通道2(备用)出现故障时,业务不受影响,没有第一时间反馈并组织排查、处理,或用户侧无法监控备用通道,判断不出备用通道好坏。当另外一条通道故障,造成业务中断时,才会联系通信人员配合处理。
1)改变现有唐包线数据网单一组网结构,增设数据网汇聚及接入站点赵川北站、赤城站、丰宁站、滦平东站、李家营站和曹妃甸北等,将传输以太网汇聚业务进行“汇聚分担”,并将环形串接组网方式改为主备链组网方式,如图3所示。
图3 优化后传输以太网汇聚业务示意Fig.3 Schematic diagram of optimized transmitting Ethernet aggregation service
优点:彻底解决唐包线数据网单一组网缺陷;数据迁移简单,业务影响时间较短,不需用户侧各点进行数据修改;减小故障影响范围,压缩故障处理时间;便于日常维护,提高劳动生产率;有效保障传输以太网汇聚业务安全。
缺点:需要增加一部分资金投入;数据网需重新进行组网、调试、开通。
2)更换张家口和丰润网监室路由器下挂的交换机,具备三层交换和流量控制功能。
优点:资金投入较少;数据配置策略简单。
缺点:不能彻底解决唐包线数据网单一组网缺陷;张家口或丰润出现重大故障会造成主用或备用通道全部中断;后期业务扩容和新业务接入会造成资源不足的情况;数据迁移过程中,业务影响时间较长;配置流量控制功能,由于每个环业务站点数量不一致,可能会造成业务延时较大,实时性不高。
3)用户侧逐站更换各业务站点接入交换机为三层交换机,具备三层交换和流量控制功能,将网关设置在相关本地业务点,配置相关策略,增设数据网网管用于监控,逐站更改相关业务地址。
优点:通信专业维护PE设备,其他专业维护CE设备,与用户侧分清网络维护管理界面;故障排查更加简单。
缺点:资金投入较大;相关专业配置数据网网管,需专业人员进行维护;各业务地址需要重新分配,每个业务点需安排人员重新调试、开通;张家口、丰润更换配置更高的三层交换机,启用VRRP协议,开通张家口至丰润交换机互联电路。
综上所述,通过优化传输以太网汇聚业务组网结构,同时实现“汇聚分担”,并将环形串接组网改为主备链组网的方式,以较小的资金投入,解决了数据网单一组网缺陷,提升网络容灾能力,缩小了业务影响范围,压缩了故障定位时间,使组网结构更加简单、层次更加分明,故障判断更加迅捷,业务资源更加丰富,并能有效防止单站业务发生环路、广播风暴、ARP攻击等问题对汇聚端口的影响,大幅提高了铁路传输以太网汇聚业务的安全性和可靠性。