丁大为
(中国移动通信集团上海有限公司 上海市 200233)
运营商移动承载网经过多年建设,呈现融合组网状态,广泛采用MPLS VPN 进行部署,各类承载CE 间进行互联或通过反射器互联,各业务VPN 间互通及隔离控制异常关键;面对潜在的跨网流量绕行、网络环路等维护痛点如何进行防范,并在网络架构优化、防护措施梳理、承载质量提升、运维手段强化等方面如何通过深入研究及落实举措,既保障各类承载业务平稳高效运作,又使得组网架构清晰、安全、易于运维,是当前亟需解决的问题。
IPRAN 是一种面向多业务综合承载的IP 化解决方案,具有良好的扩展性和可维护性。当前,运营商3G/4G/5G数据、语音、自营平台类业务均以融合后的IPRAN 网络为主要载体,移动融合承载组网架构(如图1 所示)由以下四个层次组成
图1: 移动融合承载组网示意拓扑
1.1.1 IPRAN MCE 层
由 区 域 中 心MCE、EPC CE、5GC CE 分 别 接 入3G/4G/5G 各类核心网网元,CE 侧通过MPLS VPN 进行部署,并作为一级RR 的Client 端,实现各成员组网内相同业务VPN 路由互通及数据传递,不同VPN 间的相互隔离。
1.1.2 IPRAN 区域中心层
区域内一个MPLS 域,采用相同AS,区域中心ER作为一级RR,只需具备MPLS 转发能力,不维护各业务VPN。
1.1.3 IPRAN 区域核心层
区域ER 作为二级RR,反射并传递核心网路由且具备MPLS 转发能力,将接收自B 的基站路由通过两层反射器传递给核心网侧。
1.1.4 IPRAN 汇聚层
B 设备作为基站侧接入网关,采用PW 技术对接A 设备实现基站接入,在将基站路由传递给区域ER 的同时,接收核心网路由,实现核心网对基站信令面控制及媒体流传输。
(1)IPRAN 技术是一种基于IP/MPLS 协议的技术,区域设立一个MPLS 域,均采用相同AS,开启MP-BGP 功能。
(2)区域中心ER 作为一级RR、区域ER 作为二级RR,与各类CE 及B 设备形成Server-Client 星型全互联结构。
(3)各类CE 与城域网骨干出口D 及骨干承载网PE 之间,均采用MP-eBGP Option A 方式对接。
以4G/5G 融合组网为例,存在若干网间相同业务VPN路由互通和需严格控制互通的场景,其中最重要的是公网业务VPN 。
某运营商早期城域网骨干出口D 存在两个核心平面,老平面包含所有国内访问路由和国际访问路由,公网新平面建成后暂仅承接国内路由部分。
5G 承载网5GC CE 由于建网较晚,根据规划仅接入新平面,由于新平面仅有国内明细路由,5G 用户访问国际流量或新平面缺少的少量国内路由时,就存在选择出口问题。解决方式有两种,方式一为依赖4G 承载网EPC CE 至公网出口;方式二为5G 承载网新建至城域网CR 链路,由CR传递老平面默认路由;
如果采用方式一,4G/5G 承载网CE 在不做任何策略防护情况下,两类CE 均可学习来自区域中心ER 反射的公网路由,虽然根据BGP 选路原则,两类CE 会优先选择来自城域网的EBGP 路由,优于通过区域中心ER 反射的IBGP路由,但可能存在如下风险:
2.1.1 流量拥塞及网络瘫痪
4G/5G 任何一侧CE 至城域网链路由于传输故障或其他因素全部中断,通过区域中心ER 反射的公网路由将成为优选路由,4G 流量将全部被跨网引导至5G 网络,反之亦相同,造成网络拥塞甚至瘫痪,影响面涉及两张承载网。
2.1.2 转发面不通导致业务中断
除路由层面需要做到跨网隔离或选择性放通外,至城域网出口侧还会设置虚假源地址防护等安全策略,绕行流量可能在转发层面受到阻断,从而影响业务。
某运营商启动首批5G SA 组网建设试点工程,5GC CE作为SA 组网下核心网重要承载接入设备,需率先入网对接骨干承载网PE 并打通各业务VPN。
5GC CE 入网操作完成后,监控收到多条区域外部至4G核心网DRA 网元不可达及VoLTE 注册成功率下降告警。
2.2.1 背景
如图2 所示。
图2: 4G/5G 融合组网拓扑及环路示意图
2.2.2 原因分析
(1)在骨干承载网PE 侧查看DRA 路由地址段学习情况,发现路由产生过震荡。
(2)EPC CE 和5GC CE 的AS 号均为650XX,正常情况下,EPC CE 引入DRA 所在VPN 静态路由地址段,发布给骨干承载网PE,携带AS 650XX,PE 在接收后,为避免路由环路,不会再向AS 号同为650XX 的5GC CE 进行传递。
(3)经核实,由于在配合PE 侧各业务VPN 电路开通环节,通过自动配置模板生脚本错误套用了政企电路开通模板,使得PE 侧配置仅使能AS-OVERRIDE 功能,没有加载SOO 配置。
(4)PE 在 接 收 到EPC CE 发 布 带AS 号650XX 的DRA 路由后,经转发又回至5GC CE,经区域中心ER 反射后再回到EPC CE,形成环路并引发路由震荡。
如今4G/5G 正在互联网领域共同发展,而相互合作已成为当前的发展趋势,融合承载组网架构下,需要高度重视跨网流量绕行控制。网络建设之初,因对业务开通时间节点有严格要求,网络建设规划牵头部门、项目建设方均会受到种种压力,可能会以先抢通业务可用为优先;由于5G 业务全新的承载要求且需要满足后续4G/5G 诸多网元间互通要求,随着时间的推移,如流量绕行隔离等需要优化和严格控制的细节可能被忽视。
运维人员需重点规避因网络架构、路由组织、安全防护层面疏漏产生网络环路隐患。随着网络规模不断扩大,维护量工作量也随之加大,在寻求一些自动化手段减少重复工作量,提升运维效率的同时,有一些稽核问题可能会被忽略;同时,以太网交换机的大规模使用也会增加环路风险,防环配置是否部署也是重中之重。
路由组织不统一,带来的问题是业务流量流向的不可控;需要以全局、宏观的视野去看待整张网络的稳定性、安全性,关注网与网之间的关联;由于成员网络之间有互通的需求,也有隔离的需求,那么全网路由组织的统一性,直接决定了各类业务流量流向的合理性。
4.1.1 杜绝跨网流量绕行
在同一个AS 域内的多张承载网络,必须仔细分析和研究各业务VPN 互通需求。对于需要互通的同类业务VPN,路由反射器传递路由时,应按照规划路由,严格做好路由策略过滤;对于不需要互通的同类业务VPN,可通过各自CE 规划不通的RD,通过RD-LIST 进行过滤。
在依托承载网组网规范作为组网基础参考的同时,需要结合自身实际情况进行灵活运用;流量流向的精确控制不仅考验维护人员对整张网络的熟悉程度,更考验异常紧急状态下的综合判断能力。
4.1.2 降低环路发生概率
高冗余度网络设计及二三层交换机的大规模使用增加了环路故障发生概率;广播风暴产生的原因是多方面的,网络成环具有潜伏性,在不作扩容或调整且各项业务正常运作时不易被发现,当进行如新设备入网工程调测、网络优化改造等操作时,一个微小的开启现网设备对接调试端口的操作,都可能成为一个导火索,引发连锁反应;融合承载组网下,二层以太网交换机设备如不做好防环配置,均可能成为传播媒介;三层交换机或路由器虽然作为二层广播报文的终结,但不断扩散的广播风暴最终会消耗掉受影响网络设备的CPU资源,使得正常业务的处理资源被过度剥夺,网络设备的数据面转发能力受到严重影响,可能会导致整张网络瘫痪。
某运营商某业务平台进行工程调测,用于服务器接入的二层交换机存在环路,在承载网CE 侧打开对接端口后,触发广播风暴,承载网及办公网均受到波及,由于办公网基本由二层和三层以太网交换机组成,开通专有业务VPN,经骨干承载网实现省际互通,广播风暴传播范围最终波及骨干承载网PE 设备,导致PE 设备CPU 资源耗尽,无法正常进行业务数据转发。
借由此次环路问题启发,具体举措为组织制定了交换机防环配置规范,具体到运营商所使用的各类主流厂商交换机,全网全量进行筛查,关闭现网交换机、现网新扩容业务板卡、待入网交换机所有未使用端口,并将端口配置为Trunk 模式,规避交换机出厂端口默认配置均为VLAN 1 的风险。按计划分批次对城域网、承载网、办公网全部在网交换机进行整治优化,并配合自动化手段,实现常态化定期稽核或不定期抽查,有效降低网络环路发生概率。
4.1.3 规范路由组织
(1)充分摸排各成员网基础架构、关键技术、路由组织明细,形成体系化的基础材料。
(2)分析机构现网的网络拓扑结构及访问需求,明确各个分支节点与总点以及各分支节点之间的访问需求。
(3)总结提炼路由组织层面风险规避红线,对引发流量绕行、环路等高风险关键路由组织技术条目,需逐条进行分析及评估,保障网络最大限度的安全,降低重大故障发生概率。
4.2.1 优化网管告警内容
对各类已纳入网管监控的重要网络告警,通过创新手段将告警类型分为不同重要等级并标注不同颜色,对于重要程度很高的告警使用如红色、橙色等活跃色进行关键内容标注,在发生故障时,监控人员面对大量次生关联告警,可以快速、准确的筛选关注并处理重要告警。
由局方技术骨干牵头,详尽梳理厂家各型号网络设备告警类型,将原有告警类型字段进行中文化翻译,将晦涩难懂的英文字符串转换为中文告警注释,并标注告警分类,并固化到告警字段中去,提升告警呈现内容可读性,即使对于外包监控人员或新进员工,也可根据指导手册快速上手。
4.2.2 拓展预警维度和思路
集中自有人员力量开发了端到端先于客户(故障)发现系统(如图3 所示),并组织成立专项工作虚拟团队,笔者担任数据专业牵头人;在专项工作开展期间,积极梳理城域网、承载网中用户感知明显的业务种类,根据不同网络层次进行分类,新增如端口流量超限、端口光功率异常、端口误码增长等监控预警内容,根据各厂家设备特性,制定不同的告警派单规则,并根据告警重要程度及介入处理紧急程度,细化派单区域、立即派单、延迟派单等功能;按月导出分析报表,观察工单处理及时率等重要指标,并制定和推行考核制度。
图3: 先于客户(故障)发现系统整体运作架构示意图
该系统后续也逐步从数据专业推广至交换、传输、动环、平台等各专业,实际运行情况和使用体验良好,做到了对影响业务感知关键指标的实时监控和态势分析,在隐患面未加深和影响面未扩散的情况下,提前进行预检预修,切实达到了先于客户(故障)发现的预期效果,具有良好的推广性。
运营商后端生产及运维部门在面对日益扩大的网络规模、数以千计的硬件设备、纷繁复杂的考核要求时,一套行之有效、简明清晰的运维手段必不可少。如果能在建设及运维阶段,从不同维度全面把控基础维护要点,有效组织生产支撑保障,使得前端部门能够顺利推广现有成熟业务并放心大胆引入新市场商机,就能扮演好“基石”的角色。
4.3.1 运维管理人员明确角色职能
运维管理人员站在纵向管理的角度,一方面需响应领导的管理要求,一方面需管控专业部门工作具体落实情况,但必须深刻认识到自身不仅是一个公司业务发展思路、领导工作要求的传递者,还是一个决策者。运维管理人员遇到重要网络建设及调整中疑难问题时,应当具备打破争执、化混乱为有序、拿捏要点、排除干扰的能力,从更为宏观的视野、更为开阔的思路去完成即将开展的短期网络改造任务或长期推进项目。
4.3.2 技术维护人员改变维护观念和提升综合能力
维护人员需要从根本的思想观念上进行改变,网络维护不能脱离技术,但不能被技术束缚,“躺平”的心态不能有,应积极发挥主观能动性和自身综合能力,调动周边可协调资源,快速解决问题,降低扯皮推诿的时间和精力成本。
4.3.3 寻求新方法节省运维成本
积极推广自主开发,通过公司内部开展IT 化培训,培养IT 开发梯队人才,让有自主开发潜力的年轻力量通过边学习、边实践的方式,带着手头运维、专项工作投身于体系化的学习中,通过理论和实操的充分结合,将学习到的开发技能灵活运用于实际工作场景,从开发各类小工具逐步累积经验到逐步梳理出一套成熟的、可推广的运维自动化辅助手段;企业可根据个人或团队自主开发项目工作量及具体成效,授予荣誉称号及给予相应的激励。
对于整个通信行业来说,网络融合无疑会成为未来的主要发展趋势。本文从移动融合承载组网架中部分典型维护痛点出发,抽丝剥茧拓展并提炼网络运维工作关键要素,结合自身主导或参与的专项工作或重大网络调整项目,体系化梳理了当前及未来网络运维面临的难点以及突破思路,提出了网络优化研究方案及具体举措,其中也包含了对网络运维管理思路转变方面的个人见解。
希望笔者的一些思考和总结,可以点燃广大通信后端工作者对行业未来发展将无限可能的信念之火;运维并不简单,必须脚踏实地做好基础维护工作,在一个个不眠之夜的平凡中产生属于通信行业的专属优势和自信,从而体现通信运维工作的规范性、专业性。