基于SDN 的城域网流量智能调优方式探讨

2022-07-20 07:16杨世标范永斌黄坤
电子测试 2022年13期
关键词:城域网网管路由

杨世标,范永斌,黄坤

(中国联通广东分公司,广东广州,510630)

1 网络自动化发展的必要性

当前电信运营商网络很大程度上还依赖于维护工程师的经验和技能,某运营商运维10000 台设备规模的网络需要接近400 人,而OTT 运维1000000 台服务器的网络仅仅需要200 多人。OTT 的高效与他们自带的先进的网络设计基因有关,从组网伊始就采用全IP 网络、集中式运维,注重模块化、标准化和自动化。而电信运营商由于历史原因,网络不断在原有基础上进行迭代,网络架构、路由协议等不统一,且设备以传统路由器交换机为主,建设愈发复杂,导致运营商网络运营的CAPEX、OPEX 成本一直居高不下。

本文就如何在保有当前网络投资,不改变当前网络主体架构及设备的情况下,通过基于SDN、AI 算法实现城域网二干中继流量的自动化、智能化调优,提高网络安全性、降低网络建设成本进行研究。

2 流量智能调优方案设计

2.1 传统组网方式弊端

传统城域网采用双平面口字型组网架构与骨干核心对接,可构建城域网双平面架构(双平面间相互保护)。城域网使用IGP+BGP 架构,业务地址使用BGP 携带,全球通告,IGP为BGP 提供连接(TCP 可达性)的逻辑基础架构,并在故障时提供高效收敛机制确保BGP 的稳定性。BGP 结合IGP 架构实现城域网业务流量收敛的高效及简洁性。

由于接入层交换机设备性能不足、设备数量大,设备通常不会开启BGP。常规组网方式是城域网核心CR 通过IGP 下发默认路由,解决汇聚以下设备的默认路由问题。

核心CR 根据汇聚设备发布的BGP 业务路由时所携带的BGP 属性值,设置固定的MED 值,对回程流量进行双平面的控制,实现流量的负载均衡。

该组网方式以城域网核心CR 为分割点,当核心CR 与骨干网或汇聚之间发生全阻时,骨干与汇聚彼此之间无感知,从而导致流量在城域网CR 之间进行绕转,此外,若核心CR 与骨干之间发生部分中继中断,导致平面拥塞,而保护平面又无法完全承载故障平面流量时,无法快速进行精细化的流量调整,若为保障故障期间业务不受损,则城域网CR 之间横联带宽需要与城域网CR 的出口带宽同步进行扩容,然而该部分横联带宽正常情况下极度轻载,资源无法得到有效利用,城域网出口中继则必须将利用率严格控制在50%以下。

图1 网络架构图

2.2 网络优化方案设计

2.2.1 城域网IGP 域协议设计

全网使用ISIS 作为IGP 协议,各设备根据网络层次的划分,核心层设备为Level-2 层,汇聚层设备为Level-1-2层,接入层设备为Level-1 层。通过层次划分的方式,由Level-1-2 设备向Level-1 层设备发布默认路由,核心CR 取消IGP 下发默认路由,通过转发骨干发布的EBGP 默认路由解决城域网内汇聚设备默认路由问题。实现汇聚层设备默认路由可随骨干与核心之间的状态变化而变化。

2.2.2 城域网双向流量调优策略设计

城域网出方向流量设计:城域网CR 设置接收骨干CR的BGP 路由策略,可灵活针对各AS 域的BGP 路由设置Local Preference 值为200(以下简称LP 值);结合Netflow 系统采集的CR 至各AS 域的流量数据,当需要进行出向流量调整时,可根据流量数据调整相应AS 号的LP 值,实现出向流量的平面切换。

城域网入方向流量设计:城域网BRAS/SR/NAT(以下简称汇聚设备)通过BGP 发布业务路由,城域网CR 转发业务路由至骨干CR,添加MED 值属性控制回程路径,通过设置IGPcost为MED 值的方式,汇聚设备链路中断后的回程流量自动调整,实现骨干业务路由可随汇聚核心与汇聚之间的状态变化而变化。

基于以上网络架构协议的设计,可实现核心CR 与骨干或汇聚之间发生全阻时,流量自动切换至保护平面,而无需再经故障平面核心CR 绕行至保护平面进行转发,从而可减少城域网核心CR 之间的横联带宽建设,只需保留少量带宽为特定业务服务即可。

2.3 流量智能调优设计

随着传输系统建设的不断完善,城域网出口单平面全阻的情况已较少发生,然而,当某传输系统发生故障时,仍可能导致城域网某平面出现大量出口中继中断,导致平面发生拥塞。为进一步提高资源利用率,通过对流量的自动化智能调整,实现平面拥塞后的流量精细化管理,从而降低网络建设成本及业务受损时长。

2.3.1 流量切换操作步骤

(1)城域网出向流量切换

由于城域网CR 采用双平面口字型架构,出向流量基于集团发布路由时设置的MED 进行控制,根据BGP 选路原则,LP 值可优于MED 值进行路径控制,城域网内接收骨干路由时,可通过调整LP 值调整选路。

(2)城域网入向流量切换

城域网汇聚设备通过BGP 发布业务路由时,通过添加BGP 路由属性控制回程路径。如希望从C1 平面回程,打上属性AS:1001,城域网C1 向集团发布路由时,对AS:1001 的路由设置MED 为IGPcost(正常为1500),城域网C2 针对该属性路由设置MED 值为3000,通过调整CR 与汇聚设备的IGP cost 进行回程流量调整。

如图2,当C1 平面出口部分中继中断导致拥塞时,将CR2 接收AS 64666 的LP 值调整为200,将CR1 与汇聚设备的IGPcost 调整为4000 后,可将涉及的流量切换至CR2 平面,而无需进行平面流量完全切换。

图2 C1 平面出口拥塞流量调整示意图

2.3.2 流量智能调优系统架构设计

在上述网络架构设计的基础上,可实现统一、标准化的上下行流量切换操作。同时,结合IP 网管系统、Netflow 系统实时采集城域网CR 至各汇聚设备流量信息,城域网CR 至各AS 域流量信息,通过采集的数据进行分析,使用AI 智能算法,实现网络流量预测。此外,通过中继电路信息采集,可实现网络故障下的中继拥塞预测。

流量智能调优系统北向对接各综合网管监控系统,接收网管推送的城域网设备告警、流量预测等信息;并根据相关信息生成流量调整策略及形成配置模板,通过南向接口将配置模板推送至SDN 控制器,由SDN 控制器完成配置的自动下发,全程自动化实现,无需人工干预。

当中继链路故障恢复后,综合网管系统自动调用流量智能调优系统,进行配置恢复操作,完成故障闭环。

图3 流量智能调优架构图

2.3.3 流量智能调优实现步骤

正常情况下,城域网双平面CR 出口中继峰值利用率在75%以下,双平面互为保护,且双平面出入向流量大致均衡。

当发生干线、板卡等故障导致某平面大面积出口中继电路故障时,由于平面未中断,基于IP 路由转发的流量模型不会发生变化,将可能导致故障平面出口中继发生拥塞,或在未来一段时间发生拥塞。如故障发生时间为19:30,在未来两小时内,流量迎来高峰期,将导致网络拥塞。因此,综合网管系统根据当前故障平面剩余出口带宽,及未来2 小时(一般干线故障抢修时限)流量预测数据,进行判断当前或未来是否存在拥塞风险。若不存在拥塞风险,则不做任何操作,并持续进行观测。当故障后存在拥塞或预测存在拥塞风险时,综合网管系统将推送相关信息至流量智能调优系统。流量智能调优系统接收到综合网管系统预测的拥塞预警,需要进行流量调整时,通过预测的拥塞情况、非故障平面冗余带宽等信息,针对不同场景进行相应的策略下发。

(1)首先判断非故障平面冗余带宽是否满足完全承载故障平面的所有流量,若能承载,则直接生成故障平面流量全切的配置策略,通过南向接口将策略转换为标准模板推送至SDN 控制器,通过调用SDN 控制器下发配置将故障平面流量统一调整至非故障平面。

(2)若非故障平面无法完全承载故障平面的所有流量,需要进行拥塞流量切换时,针对需要进行调整的双向流量分别进行计算。

如果出向流量计算需要调整50G,通过Netflow 系统采集的故障平面核心CR 至各AS 域的流量历史数据,选取相应ASN组合,通过策略调整将该部分出向流量切换至非故障平面。

如果入向流量计算需要调整80G,通过综合网管系统采集的故障平面核心CR 至各城域网汇聚设备的流量历史数据,选取相应的汇聚设备组合,调整相应链路的IGPcost 值,将该部分汇聚设备发布的业务IP 地址流量切换至非故障平面(具体调整方式见2.3.1 流量切换操作步骤)。

全程流量智能调优系统基于提前规划的流量智能调优模型进行自动计算,生成具体的调整策略,然后系统通过南向接口将策略转换为标准模板推送至SDN 控制器,通过调用SDN 控制器下发配置,实现流量的自动化、智能化的快速、灵活调整。

当故障结束时,综合网管系统推送故障恢复信息至流量智能调优系统,流量智能调优系统调用SDN 控制器,下发配置恢复操作,恢复原有流量模型,从而完成故障闭环管理。

图4 流量智能调优示意图

图5 流量智能调优流程图

3 结语

未来,无人自动驾驶网络将是网络发展的方向,自动化维护的发展趋势不可逆转。随着网络的不断演进,按传统方式继续进行网络建设的方式不再适合。本文通过在现有网络架构的基础上,进行网络自动化维护的改造,为将来通信运营商实现无人自动驾驶网络的发展做出探索。

猜你喜欢
城域网网管路由
IP城域网/智能城域网BGP收敛震荡的分析方法
SDN 网络管理关键技术应用分析与改进思路
数据通信中路由策略的匹配模式
一种用于6LoWPAN的多路径路由协议
OSPF外部路由引起的环路问题
100G波分技术在城域网中的应用研究
城域网的特征与技术方案选择
网络重构2016:联合创新跑出先发优势
北京市中小学网管教师培训需求研究
计算机网络管理维护探析