文帅川 周波 秦海燕
【摘 要】2019年运营商提出移动及光网业务的“双提升”专项行动要求,围绕高质量发展主线,贯彻落实“事先化、主动化、自动化”工作要求,持续提升移动网质量和端到端运营能力。采用机器学习中二叉决策树的方法,根据5G承载网的层级关系,自动建立链路、收集告警,梳理告警关系建立决策树模型,按不同的告警设计了对应的推理树,并以此开发推理机,最终实现对故障的快速诊断定位与归并,并在湖北现场予以了正式使用,应用效果良好。
【关键词】机器学习;二叉决策树;承载网;故障诊断
doi:10.3969/j.issn.1006-1010.2020.10.005 中图分类号:TN913.23
文献标志码:A 文章编号:1006-1010(2020)10-0025-09
引用格式:文帅川,周波,秦海燕. 基于二叉树算法的5G承载网故障定位方法及实践[J]. 移动通信, 2020,44(10): 25-33.
0 引言
当前IPRAN(IP Radio Access Network,无线接入网IP化)作为中国电信、中国联通承载3G/4G/5G、政企专线、云专线等核心业务的承载网络,在运营商的移动业务、政企业务中处于核心业务环节,当承载网络出现故障或网络劣化时,会极大地影响到承载在上面的各类业务,造成严重的通信事故。现有信息网络面临着巨大的挑战,为进一步满足将来数据流量的高速增长、万物互联以及不断涌现的新业务和新需求,5G移动通信系统应运而生[1]。5G无线网对承载网提出更高要求。一个低时延的承载网络实现关键依赖于超大的传输带宽、极低的设备处理时延,以及最短的光信号传输距离[2]。IPRAN承载网络本身就是一张综合承载精品网,国外主流运营商在5G承载网方案时也是优先选择IPRAN技术[3]。
虽然IPRAN网络通过环状组网、100%成环的方式,可以避免单点故障对网络业务的影响,但从网络维护部门的角度来看,当出现单点故障导致不成环时会造成网络风险急剧加大,同时环路变为单路也会导致网络带宽利用率激增,加大网络拥塞概率,因此当承载网络出现告警时需要尽快定位出故障点并予以解决。目前IPRAN承载大量的LTE基站业务,但缺乏端到端质量监控、评估及诊断手段,维护成本高[4]。
由于IPRAN网络的环状组网,以及网络分层规划的特点(从上到下分为核心、汇聚、接入多级环网),因此当出现一个故障点时,往往会伴随多个网元、多种类型的衍生性告警。例如,链路故障Link Down、设备故障Node Down是最常见的,而由于关键设备的Node Down告警造成周边其它设备产生很多衍生性告警,大量的告警又导致后端维护人员需要花费一定的时间周期予以分析确认后才能精准定位出最核心的故障点,从而影响到告警修复的及时性。
5G是面向移动互联网以及物联网的,各大运营商从业务需求及体验感出发,在异构网络中向用户提供更好的体验和感知,融合多层次覆盖、多接入技术、多业务系统等5G重要特征[5]。随着5G网络在国内三大运营商的落地试用,以及中国5G网络技术、建设、运营整体领先于全球,国内运营商已经开始对其客户服务支撑层面的相关系统进行智能化改造,如5G承载网络的故障精准定位,也需要引入AI(Artificial Intelligence,人工智能)的方法。
为此,我们通过现网海量告警数据的积累分析,梳理了现场各类告警的修复案例并建立知识库,通过机器学习中的二叉决策树方法来设计故障推理树和推理机,最终建立起故障精准定位的算法模型,并开发相应的诊断功能予以实现。
1 机器学习:二叉决策树方法简介
5G承载网络故障智能诊断能力要求做到,当系统自动采集到5G承载网络告警后,可以在30 s内完成智能的问题诊断,不管是2G业务、3G业务、4G业务、5G业务,都可以给出提示性的诊断结论和解决建议。
故障智能诊断能力是基于AI技术中的一个分支——BDT(Binary Decision Tree,二叉决策树)技术来实现的。
人工智能是一个很庞大的体系,包括有很多种方法,如分類(包括决策树、贝叶斯模型Bayesian Mode等)、回归(包括线性回归Linear Regression、最小二乘法OrdinaryLeast Square等)、聚类(包括K-Means聚类、期望最大化算法Expectation Maximization等)、降维(包括主成份分析PrincipleComponent Analysis等)、人工神经网络(包括感知器神经网络PerceptronNeural Network)和深度学习(包括受限波尔兹曼机RestrictedBoltzmann Machine、卷积网络Convolutional Network等)。
决策树与人工智能的关系是:人工智能->机器学习->监督学习->决策树。
而在进行5G承载网络故障精准定位时,有很多的历史故障处理案例可以参考,并且决策树具备易于理解和实现、可通过专家知识库模型进行构建、可通过静态测试来对模型进行评测等优点,因此,引入二叉决策树方法来设计推理机,从而实现故障精准定位。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
引入决策树进行故障定位时,可以根本历史样本、通过故障处理案例和专家意见,确定出样本的一组属性和一个类别,从而得到一个推理树(二叉决策树),对于新出现的告警样本就可以通过推理机的实现、依据这个二叉决策树实现正确的分类。
2 基于二叉决策树的5G承载网故障精准定位方法详述
图1是基于二叉决策树的5G承载网故障精准定位方法,详细说明如下:
网络结构:最下方为5G网络示意图,5G网络分为无线网、承载网、核心网三部分。根据站点覆盖模拟推算,未来5G網络宏基站、室内和微站加起来的接入点部署密度将达到现有部署密度的10倍以上[6]。由于承载网的层级最多、结构最复杂,采用全环网方式组网,因此承载网的故障精准定位的要求最高。
网络控制及数据采集:该模块是系统的采集服务,通过SNMP、Netconf、SSH等接口方式,从网络侧轮询采集相关的资源、告警、性能数据,也可以通过原子能力方式实时去网络设备上采集当前时刻的数据。
网络能力与数据交互模块:该模型是系统的数据库服务,将统一存储与故障精准定位相关的资源、告警、性能阈值告警、性能KPI、拓扑关系等数据。
故障精准定位方法:目前的方法步骤包括“网络自动建链→告警自动收集→告警归一化→梳理告警关系,建立推理树→设计推理机→自动告警归并”,下文中予以详细说明。
2.1 网络自动建链
5G承载网络层级,从高到低分为以下几类设备:5GC CE-省级ER-城域ER-B设备-A设备。其中,5GC CE与5G核心网相连,而A设备则下挂5G基站设备。现有IPRAN对接入光缆网的消耗非常大,所以主要采用无源DWDM技术。无源DWDM主要是将原有波分系统中的波长转换模块安装在DU-AAU的对端,而波分系统中仅保留的D/W合分波板完成WDM功能[7]。由于承载网设备是环状组网,并且设备数量众多(一般一个省的设备数量在3万台以上),因此需要采用自动的拓扑发现和关系识别方法。我们采用LLDP算法来实现。
LLDP(Link Layer Discovery Protocol,链路层发现协议)是一个厂商无关的二层协议,它允许网络设备在本地子网中通告自己的设备标识和性能。因此,在IPRAN网络结构中,基于LLDP协议的方法,可以准确、实时、自动地得到网络设备的资源拓扑结构树。
LLDP数据分析方法如图2所示。
每台设备上采集到的LLDP信息包括:本端主机名、本端设备MAC、本端设备IP、本端端口、邻居主机名、邻居设备MAC、邻居设备IP、邻居端口。如图3所示,多台设备的这些数据结合在一起,通过本端与邻居端信息之间的匹配连接,可以得到全网各设备之间的链路连接关系,通过这种对应关系,可以自动生成实时拓扑资源树。
2.2 告警自动收集
网管系统采集网元告警的方法有多种,包括:
SNMP Trap:由网元实时上报,因此告警及时性高,一般在5 s内完成告警的收集和处理。
SNMP Get:由网管系统定时轮询设备状态,因此告警时延取决于轮询周期的设置,考虑到SNMP Get操作太频繁会对网元设备的负荷造成影响,因此轮询周期一般设置为5分钟。
阈值告警:由性能指标超过一定阈值后产生的告警,如CPU利用率告警、光功率异常告警等,由于需要对性能指标进行一定时间的观察,因此告警延时一般在5分钟左右。
隐性测量告警:前面三类告警一般都可以及时采集到,还有一些网元问题是需要通过测量来实现隐性告警采集的,如网络的端到端Ping测、基于RFC2544的性能测量、Y.1731测量等。
系统会根据上述方法,采集IPRAN网络的大量告警数据和其它数据,包括:
◆设备、板卡、端口的资源数据;
◆网络链路关系;
◆设备告警,如设备掉电、单板异常、温度异常等;
◆链路告警,如收发光功率、CRC误码、R_LOS、流量突降等;
◆协议告警,如OSPF状态、LDP状态、ISIS邻居状态、BGP状态等;
◆其它告警,如光模块异常、接口环回等。
系统的采集服务获取到上述告警数据后,入库进行统一的告警归一化。
2.3 告警归一化
网管系统将按照统一的告警模型,对采集到的告警数据进行归一化,归一化的告警格式表如表1所示。告警归一化后,将便于系统提取关键特征并设计推理树(即二叉决策树)。
2.4 梳理告警关系,建立推理树(二叉决策树)
(1)5G承载网告警信息特点
5G承载网络的分层结构特点,决定了其产生的告警信息有以下特点:
1)告警信息分层次
告警信息从大到小,可以分为以下几个层次:
①第一层是设备在网络中的角色层级,如核心设备ER、汇聚设备B、接入设备A等;
②第二层是设备级别,如设备Node Down等;
③第三层是板卡级别,如设备主控板CPU利用率等;
④第四层是端口级别,如端口链路状态DOWN等。
2)每一层次告警都可以分为原生告警和衍生告警
原生告警是指由该层次设备的故障产生的告警,而衍生告警是指由本设备或其它设备的原生告警引起的告警。如设备甲的断电引起的Node Down告警即为原生告警,而与该设备甲直接相连的对端设备乙的端口链路状态DOWN即为衍生告警,当设备甲的断电故障修复后,设备乙的端口告警就会直接恢复。
针对5G承载网的告警特点,我们梳理了需要推理树建模的所有告警,如表2所示:
3.3 故障准确性分析
在推理机精准分析第10步中,网管通过解析设备产生的OSPF邻居状态改变的SNMP Trap告警,得出主B与备B产生的时间分别为2020-01-06 00:12:49(图7)、2020-01-06 00:12:48(图8),产生相差1 s,并由此最终分析出本次故障为接入环存在同路由风险。
主B设备原始OSPF告警信息如图9所示。
备B设备原始OSPF告警信息如图10所示。
除针对常见问题、典型问题取样分析外,还根据以上的模型和算法对现网数据进行全面分析,对现网的故障和隐患问题诊断定位,从2019年9月至今诊断出接入环整体脱网、部分脱网等严重故障十余次,A设备脱网、光模块故障、链路故障等一般故障上百次,准确率达90%以上。
3.4 后续网优工作
在推理机得出该接入环为疑似同路由接入后,一线工作人员在现场核查光纤线路的连接,发现该接入环确实存在同路由安全隐患。
同路由安全隐患是指:环状组网的接入环是为了避免单点故障,当某台设备或链路故障时不影响业务运行,但如果设备上联的2条光路为同路由光路,即同属于一条光缆时,如果该条光缆故障就会直接导致业务中断。
为此,在此之后针对该接入环上的4台A设备进行网络割接,确保A设备上联的2条光纤是分属于不同光缆的,从而提高了网络的稳定性及业务可用性。
从这个现网故障实例可以看到,基于二叉决策树算法,可以自动、精准地把5G承载网的故障进行智能归并、诊断定位,通过运营商的电子运维派单系统快速派工单给一线处理人员,从而极大地提高网络运维的智能化程度,提升故障处理效率,确保5G网络的整体质量和用户体验。
4 结束语
根据以上的模型和算法自动进行告警采集、告警诊断定位,可以精准快速地诊断出承载网的故障和隐患问题,然后通过短信、邮件等方式通知相关人员,这将有利于5G承载网业务的大力拓展,也符合运营商“能远程不现场、能自动不人工”的集约化工作思路。但同时也存在一定的不足,由于现在数据取样有限,针对模型和算法的准确性校验可能没办法全面覆盖到所有的业务场景和问题,会存在一些,例如上行疑似同路由、离线设备所属机房同时掉电、光衰恶化等实际维护中容易被忽视或者发生概率较小的问题,以及部分问题的故障原因只能是疑似、部分诊断条件的阈值取值是否真的合理等当前模型存在不完善的地方。因此下阶段的工作重点是进一步校验和完善目前的模型和算法,以大量的数据来验证,进一步提升准确性和完善程度。
参考文献:
[1] 李章明. 5G移动通信技术及发展趋势的分析与探讨[J]. 广东通信技术, 2015(4): 44-46.
[2] 叶胤,刘兴华. 低时延传输网络设计[J]. 电信技术, 2013(11): 92-94.
[3] 尹远阳,李玉娟,杨旭如,等. 5G通信IPRAN综合承载网络方案[J]. 移动通信, 2018(7): 45-49.
[4] 奉媛. IP RAN智能化运营的探索和实践[J]. 电信技术, 2019(10): 71-75.
[5] 李信,蒋雷敏. 5G挑战及技术趋势[J]. 通信观察, 2014(1): 12-13.
[6] C S Z, Q F, H B. User-centric ultra-dense networks(UUDN)for 5G:challenges,methodologies and directions[J]. IEEE Wireless Communications Magazine, 2016,23(2): 78-85.
[7] 王昌延,韩冬梅. C-RAN传输解決的新思路[J]. 通信世界, 2015(6): 161-165.
[8] 黄春辉. 低时延高可靠性的5G承载网络挑战和实现[J]. 移动通信, 2018(3): 85-88.