IDC 网与城域网EBGP 邻居的研究

2022-05-12 07:42晁夫君昃草心代金凤陈本效
广东通信技术 2022年4期
关键词:城域网中断报文

[晁夫君 昃草心 代金凤 陈本效]

1 引言

互联网数据中心(Internet Data Center)简称IDC,是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。IDC 网络构成了网络基础资源的一部分,提供了高速的数据传输服务以及高速接入的业务。市场规模保持快速增长的趋势,是运营商业务的快速增长点,对占有市场份额、提升收入,具有重要的作用。

在本案例中,IDC 网络与城域网核心设备之间通过多个trunk 互通,使用loopback 地址建立EBGP 的邻居,在链路发生故障的情况下,出现EBGP 邻居没有中断且部分IDC 业务地址路由形成环路的问题。通过对IDC 网与城域网EBGP 邻居的问题进行研究,最终定位问题并提出解决方案,保障了业务的安全性,确保在链路发生故障的情况下,流量按照设定的路径传送,不存在任何安全隐患。

2 IDC 网与城域网EBGP 邻居存在的问题

本文通过IDC 网与城域网EBGP 邻居之间出现的故障,介绍IDC 网络存在的问题。

由于光缆故障,IDC 机房两台核心NE5000E 路由器至城域网核心NE5000E-1 路由器共4 条100G 链路(经OTN 传输)和16 条10G 链路(裸纤传输)全部中断。通过检查,发现流量自动切换至城域网核心NE5000E-2 路由器方向,中继流量未拥塞;半小时后,陆续收到IDC 用户腾讯、淘宝、百度等申告部分网页打不开。

3 原因分析

3.1 问题处理过程

维护人员根据用户提供的故障IP 地址查询路由表信息时,发现IDC 两台NE5000E 至城域网NE5000E-1 路由器的EBGP 邻居没有中断,仍然是Established(本文所有IP 地址均未采用真实IP 地址);同时通过网管发现城域网NE5000E 两台路由器之间流量异常增加,通过故障现象和网络拓扑架构分析,确定故障原因是部分用户业务路由环路所导致的。

维护人员手工将IDC 两台NE5000E至城域网NE5000E-1的EBGP 邻居shutdown,联系用户确认业务恢复。

3.2 IDC 网络与城域网核心网络拓扑结构

山东省济南市某IDC 网络NE5000E 路由器与城域网核心NE500OE 路由器通过多条链路互通,使用loopback与对端设备分别建立EBGP 的邻居关系,IDC 网NE5000E之间、城域网NE5000E 之间均建立IBGP 的邻居关系。

由于光缆故障,ICD 两台NE5000E 路由器至城域网NE5000E-1 路由器的4 条100G(经OTN)和16 条10G中继(裸纤)全部中断,如图1 所示。

图1 IDC 网络与城域网核心网络互通拓扑图

故障发生后,省内用户访问IDC 部分IP 地址段(IDC将最优路由发往城域网NE5000E-1 方向的IP 地址段),用户访问城域网NE5000E-2 方向的IP 地址段和省外用户访问IDC 业务无影响。

3.3 问题原因分析

(1)IDC 两台NE5000E 与城域网NE5000E-1 之间直连链路全部中断,并且EBGP 邻居之间已配置ebgp-maxhop=2,EBGP 邻居为何没有中断?

分析:通常情况下,EBGP 对等体之间通过直连的物理链路建立邻居,如果不满足这一要求,则必须使用ebgp-max-hop 命令允许它们之间经过多跳建立TCP 连接。BGP 使用Loopback 接口建立EBGP 邻居时,ebgp-maxhop 命令用来配置允许BGP 同非直连网络上的对等体建立EBGP 连接,同时可以指定允许的最大跳数,否则邻居无法建立。

故障发生时,IDC NE5000E-1 与城域网NE5000E-1设备通过绕行城域网NE5000E-2,保持EBGP 邻居为Established 状态,所以EBGP 邻居没有中断,如图2 所示。

图2 EBGP 邻居状态示意图

(2)部分用户业务路由形成环路

分析:IDC NE5000E 在城域网NE5000E 互联的出方向,发布路由时配置不同的MED 值,引导省内用户访问IDC 的业务流量从不同的平面进入IDC。

MED 属性相当于IGP 使用的度量值,它用于判断流量进入AS 时的最佳路由。当一个运行BGP 的设备通过不同的EBGP 对等体得到目的地址相同但下一跳不同的多条路由时,在其它条件相同的情况下,将优先选择MED 值较小者作为最佳路由。

以路由20.1.1.1/32 为例:

IDC NE5000E-1 发往城域网NE5000E-1 的20.1.1.1/32的路由引用路由策略,设置MED 为100;发往城域网NE5000E-2 的20.1.1.1/32 的路由引用路由策略,设置MED 为200;

在城域网NE5000E-1 查看20.1.1.1/32 的路由,如图3所示,优选IDC-NE5000E-1 转发流量。

图3 城域网NE5000E-1 路由信息

城域网NE5000E-2 查看20.1.1.1/32 的路由,从直连的IDC 两台NE5000E 传过来的路由MED 值为200,从城域网NE5000E-1 传过来的路由MED 值为100,因此优选城域网NE5000E-1 方向转发流量,如图4 所示。

图4 城域网NE5000E-2 路由信息

此时省内用户访问20.1.1.1/32 段IDC 的业务,会优选城域网NE5000E-1 转发流量至IDC 网络。

因为城域网NE5000E-1 未中断与IDC 的EBGP 邻居关系,分流至城域网NE5000E-1 的流量依然优选城域网NE5000E-1 做为流量出口。由于城域网NE5000E-1 与IDC互联链路全部中断,流量需绕行至城域网NE5000E-2 转发,但MED 值选路原则依然有效,城域网NE5000E-2 依然会优选城域网中MED 值为100 的下一跳,即NE5000E-1,最终流量在城域网两台NE5000E之间不停循环直至丢弃,如图5 所示。

图5 城域网流量绕行示意图

3.4 问题结论

通过对IDC 网络与城域网之间EBGP 邻居存在的问题进行研究,可以得出如下结论。

BGP 使用Loopback 接口建立EBGP 邻居时,必须使用ebgp-max-hop 命令允许它们之间经过多跳建立TCP 连接,同时可以指定允许的最大跳数,否则邻居无法建立。在IDC 网络与城域网的网络拓扑中,IDC 两台NE5000E与城域网NE5000E-1 共4 个100G、16 个10G 互联链路全部中断。虽然IDC NE5000E 配置了ebgp-max-hop=2,但链路中断后,IDC NE5000E 仍可以通过绕行城域网NE5000E-2 保持EBGP 邻居为Established 状态。分流至城域网NE5000E-1 的流量依然优选城域网NE5000E-1 做为流量出口,由于城域网NE5000E-1 与IDC 互联链路全部中断,流量需绕行至城域网NE5000E-2 转发;但MED 值选路原则依然有效,城域网NE5000E-2 仍然会优选城域网中MED 值为100 的下一跳,即NE5000E-1,最终流量在城域网两台NE5000E 之间不停循环直至丢弃。由此导致部分IDC 业务地址路由形成路由环路,省内用户访问部分IDC 业务异常。

4 解决方案

IDC NE5000E 与城域网NE5000E 之间配置的EBGP邻居使用了ebgp-max-hop=2 的方式,来指定允许的最大跳数为2 跳,当ebgp 最大跳数为2 时,通过一台设备转接建立EBGP 邻居也能够满足。所以在本案例中,IDC 两台NE5000E 与城域网NE5000E-1 的互联链路全部中断,但EBGP 邻居仍然为Established 状态。使用ebgp-maxhop=2 无法限制EBGP 的邻居的状态。

通用TTL安全保护机制GTSM(Generalized TTL Security Mechanism)通过对TTL 的检测来达到防止攻击的目的,如果攻击者模拟真实的BGP 协议报文,对一台路由器不断的发送攻击报文,路由器收到这些报文后,发现是发送给本机的报文,则直接上送控制层面的BGP 协议处理,而不加辨别其“合法性”,这样导致路由器控制层面因为处理这些“合法”的报文,系统异常繁忙,CPU 占用率高。GTSM 通过检测IP 报文头中的TTL 值是否在一个预先定义好的特定范围内,对IP 层以上的业务进行保护,对于不符合TTL 值范围的报文,将其丢弃,增强系统的安全性。这样就避免了网络攻击者模拟的“合法”BGP 报文占用CPU,也可以避免故障发生时NE5000E 绕行其他设备建立EBGP 邻居。

针对NE5000E做配置整改:删除ebgp-max-hop 2命令,修改配置为:peer x.x.x.x valid-ttl-hops 1,可以避免类似故障发生时NE5000E 绕行其他设备成功建立EBGP 邻居。

5 方案实施效果

方案实施后,经过对网络拓扑结构中的各条链路进行中断测试,对各种故障场景进行模拟,分析路由发布及业务流向,流量模型均按照设定的路径传送,保障了网络业务承载的安全可靠性。

对具有相同网络拓扑结构的EBGP 邻居进行检查,逐一梳理,消除网络中存在的安全隐患,将IDC 网与城域网打造成高质量的精品网络。

6 结束语

通过对现网使用loopback 地址建立EBGP 邻居存在的问题进行研究,分析网络中存在的安全隐患,提出改进的措施,提高了网络的自愈能力,确保网络的健壮性。本方案简单易行,具有创新性,对于保障网络安全、提高网络的稳定性具有重要的意义,值得借鉴。

猜你喜欢
城域网中断报文
基于J1939 协议多包报文的时序研究及应用
IP城域网/智能城域网BGP收敛震荡的分析方法
低轨星座短报文通信中的扩频信号二维快捕优化与实现
CTCS-2级报文数据管理需求分析和实现
“单片机中断概述”微课教学设计
一种考虑GPS信号中断的导航滤波算法
浅析反驳类报文要点
Linux中断线程化分析及中断延时测试
面向FTTH业务的IP城域网优化改造设计
基于IP城域网的优化策略及发展应用