基于AI的配置稽核系统在5G回传网中的应用

2021-09-16 06:49刘惜吾马丹丹叶晓斌李亚梦中国联通广东分公司广东广州5067中国联通研究院北京0076
邮电设计技术 2021年8期
关键词:运维关联错误

刘惜吾,马丹丹,叶晓斌,李亚梦(.中国联通广东分公司,广东 广州 5067;.中国联通研究院,北京 0076)

1 概述

5G网络运营商面临网络新建和升级改造,网络规模和业务容量极速增长,网络结构呈现多维度复杂性,行业应用需求呈现多样化个性化,与此同时,用户对服务交付的质量和高效性的期许值也逐年提升。新旧网络的交织、客户市场需求的变化对基础维护工作提出更细致的要求和更高的挑战。

另一方面,从经验看网络配置引发的问题尤为突出,在配置下发过程中可能由于各种原因,如业务人员的技术水平、操作规范性等导致漏配、错配等问题。2020 年广东省某地(市)一起故障,4 个接入环和汇聚ASG 设备间互联链路同时发生中断,经核实故障原因是由于备用平面相关环路中断站点二三层联动漏配,主用平面中断后网络切换不成功导致业务中断。为解决上述问题及挑战,广东联通积极探索5G时代网络发展的新模式,积极推进网络运维智能化进程,将大数据分析和AI技术引用到网络设备配置稽核领域,创新性提出基于AI的关联分析异常检查方法,学习建立异常配置模型,对全网设备配置进行全面高效的核查,充分发挥AI 算法分析与决策能力,将运维人员从繁琐的重复性工作中解放出来,规避人为误操作,提升网络运维效率和网络质量可用性等级,在用户感知之前解决故障,降低网络故障率,提升用户满意度。

2 网络配置稽核现状

传统的运营商网络多采用OEM 厂家提供的软硬件一体整体解决方案,如广东联通169城域网、IP承载网以华为、思科2 个厂家为主,IPRAN 承载网以华为、中兴、烽火3 个厂家为主,这些OEM 厂家以其专有的软硬件和私有协议、封闭的系统等控制行业生态。

以IPRAN 承载网为例,CSG、ASG、RSG 等设备的上线和业务开通过程通常需要完成大量的配置,包括一些基础配置(用户信息、AAA 设置等)、端口配置(物理端口、VLAN 端口等)、协议配置(ISIS、MPLS、BGP等)以及各类的业务配置(Tunnel、PW、L2VPN、L3VPN等)。现有的网络配置核查方案由厂家“分而治之”,依赖大量的人工,对不同厂家设备、同一厂家不同型号、同一型号不同版本定制化处理,维护效率低下,运营成本高,存在较多弊端。

首先,厂家配置巡检工具算法逻辑简单、稽核效率低。广东现网3 个厂家虽已经配置稽核工具,但巡检逻辑单一,稽核效果不理想。如现网中兴设备使用的巡检工具ZXSEM/TIM400,通过编辑脚本定制巡检任务,通过网管对设备下发show 命令,查询对应配置信息,不仅稽核时间长,还容易因为大量的任务处理导致死机,单地(市)均有上千台承载设备,配置命令总数达到200万行,例如某地(市)超过2 000台设备稽核40多小时之后死机。

其次,现有工具通常基于检测规则或者专家系统,无法适应网络设备版本的更新迭代。专家系统做配置巡检有其固有的优势,但是缺乏通用性和灵活性,如中兴的TIM400 系统、华为的NCE 系统均存在这样的问题,使用于某个地区或某个运营商网络的巡检工具在其他地区或其他运营商的网络上就不适用了,更无法应对5G 时代大量网络新建和网络改造带来的爆发式增长的工作量,无法适配网络技术更新迭代的需求。

此外,现有工具的巡检对象往往是单台设备,没有学习能力,无法实现网络级冲突检测、隐患核查,存在较大的盲区,对于未知的配置错误大概率会出现漏检。5G新网络的运维也面临着设备种类繁多、数量庞大,客户业务多样等挑战,专业运维知识不可避免存在缺失,一些隐性的配置隐患,用传统的单台设备级视角或专家经验是很难发现的。

3 基于AI关联分析的配置稽核

配置稽核的目的是发现配置数据中的错误、隐患,从数据的角度看,就是要找到配置数据中的异常项。异常检测是机器学习应用的一个研究热点,神经网络、SVM、孤立森林、聚类等机器学习算法在网络流量、性能异常方面有大量应用。

基于AI的关联分析是传统的机器学习方法,也是强有力的数据挖掘工具,可以在海量数据中快速发现数据、事件之间的依赖关系或者因果关系,例如apriori(入选数据挖掘领域十大经典算法)、FpGrowth 等,能够从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息。因此本文通过数据挖掘方法将配置文件中的关联关系挖掘出来,从而代替人工实现配置规则自挖掘、自学习。

通过上述现网配置稽核痛点分析及AI 算法的研究,本文提出将AI 关联分析用于网络设备配置稽核,融合了大数据分析、AI 关联挖掘,借助统计分析对设备进行配置基线识别,对设备在网络中承担的角色功能进行层次化关联分析,如图1所示,按不同粒度分层检测,发现配置中的漏配、错配、冲突、冗余等配置异常,结束异厂家分而治之的局面,实现统一运维及配置稽核规则自挖掘、自学习,适应网络动态发展。

图1 基于AI的配置稽核系统逻辑架构图

基于AI关联分析的配置稽核系统分为数据采集、关联分析、人工标注、自动标注、告警通知5个模块:数据采集部分负责制定定期任务,收集基础网络设备配置文件;关联分析模块利用AI数据统计技术对配置文件进行异常检测;人工标注模块提供专业技术人员对异常列表进行标注的接口;自动标注模块收集人工标注数据集进行自动标注模型训练,标注之后的结果通过消息推送方式通知专业维护人员。系统架构图如图2所示。

图2 基于AI的配置稽核系统架构图

4 配置稽核系统在现网的部署及验证

AI关联分析配置稽核系统部署方案如图3所示,由网络数据中台统一完成数据采集、处理,依托广东联通AI 孵化平台AI 框架及算力,部署AI 关联分析算法,完成配置基线学习、数据挖掘关联分析、系统流程控制、用户管理、权限控制等功能,训练异常配置稽核模型。

图3 配置异常检查系统部署方案

4.1 AI数据挖掘关联分析

常见的配置错误包括多配、少配、错配和冲突等,其中多配是指在某个场景或者业务的配置中出现了多余的命令或者参数,而少配则是缺少了必须的配置命令或者参数,错配通常表现为将一条配置命令配置成了和它相似的另一条命令,冲突则是配置数据中出现了2条或者多条不能同时配置的命令或者参数。对于每一种类型的设备,配置特征具备一定的共性,通过统计分析可以发现一些大致的规律,形成配置文件的基线。

如表1 所示,某地(市)500 台网络设备配置文件,约75 万行的统计分析中间结果,从表1 中可以看出某些配置出现机率非常大,说明这些配置是普遍存在的高频配置。同样从表1中也可以分析出某些配置命令只出现在某些设备中,说明某些配置具有个性化的统计特征,某些配置命令只出现在或更多地出现在某一类设备中。

表1 数据挖掘中间数据

本方案利用大数据统计分析进行配置脚本的基线学习,在海量配置数据中进行数据预处理,去除干扰项,完成数据清洗从而得出分类项集,进一步用于关联分析所需的训练集。

4.2 基于关联规则的设备配置异常检查

在基线学习完成的分类项集中,本文认为配置错误应该是稀少的、偶现的,否则现网设备就不可能正常运行了。基于AI 的配置稽核系统采用AI 关联分析挖掘数据集中的关联规则,用绝对出现次数的占比作为配置正确的支持度参数,配置脚本中出现的配置命令频次越大,即表示其上下文呈强关联性,配置越接近标准,配置异常的可能性越小;出现频次越低的配置与上下文呈弱关联性,异常的机率越大。

如图4 所示,配置数据由一系列CLI 命令构成,每条CLI命令包含一定数量的参数,CLI命令之间可能存在一些特定的标识符和分隔符,用于指示特定场景或者业务配置的起始和终结。其中左侧配置样式中的L11 出现次数是1 次,右侧配置样式中的L10 和L11 出现次数是1 731 次,则配置稽核系统认为左侧配置样式中的L11 是错误的,并且可以根据右侧的配置样式进行修改调整。

图4 关联规则检测异常配置

基于上述规则对采集到的海量设备配置数据进行关联性分析学习,从中挖掘弱关联规则构建异常配置模型,基于训练得出的异常配置模型对设备配置数据进行扫描,发现其中的可疑配置并上报运维人员进行处理。

4.3 异常标注

通过AI关联关系分析检测出的异常配置项,需要经过标注进行异常分类,系统最初是采用人工标注,人工标注的内容包括异常类型、严重程度、异常说明、标注者。

经过标注之后的检查结果就可以用于配置异常的修改,但是每次扫描问题列表都要经过人工分析是不现实的,会给专业人员造成更多的工作负担,因此系统设计了自动标注方式,将人工标注的历史数据作为训练数据,按照异常情况进行聚类分析并且一一映射对应处理方案,使自动标注模型学会自动识别异常问题类型。

配置稽核系统对广东某地(市)数据进行扫描之后,检测到异常192项,经过自动标注,一共标注了170项,其中高中风险有4 项,没有被标注的22 项异常是因为自动标注模型中没有学习到对应的异常情况,经过不断的数据积累,无法自动标注的情况会越来越少。图5是自动标注的结果。

图5 配置稽核系统的自动标注结果

4.4 结果验证

查准率和查全率是评价机器学习模型有效性最常用的2 个指标。从整个AI 配置稽核系统来看,查准率是算法找出的错误配置中到底有多少是错的,而查全率就是在所有的错误中,算法找到了多少错误。

首先考虑查准率的评估。对于配置异常模型扫描得到的配置异常,由运维人员进行标注确认,本文采集了广东省内3 个地(市)的设备配置数据,各地(市)的配置数据量大小如表2 所示。表2 中第4 列的数值是AI配置异常模型扫描出来的可疑问题数量,第5 列是人工标注确认后的问题数量,可以发现,3 个地(市)的查准率都超过了80%,其中A 市的查准率接近90%。另外,3 个地(市)的扫描耗时都在分钟级,检查效率非常高。

表2 3个地(市)的配置数据量和扫描结果

要准确评估查全率就需要提前知道数据集中到底有多少错误配置,本文采用一种基于抽样的近似检测方法。首先由运维专业人员挑选11个常见的、不同类型的错误配置,然后将这些人为制造的错误配置随机加入到A 市的配置数据集中,再由配置异常模型进行扫描,最后统计扫描结果中识别出人为制造的错误配置,由此得出算法的查全率。表3 列出了挑选的11个错误内容,可见错误类型即包含常见的CLI 命令漏配、错配,也有命令参数的漏配错配等,比较有代表性。扫描结果显示,本文的算法可以发现其中的9 个错误,查全率达到81.8%。

表3 人为制造的配置错误

进一步分析发现,第7 个错误配置未找到的主要原因是在A 市数据集中这种错误非常多,导致异常配置模型未包含其特征,因此未能在扫描中识别出来。

本文通过分析大量现网验证数据发现,基于AI的配置稽核算法是基于配置错误是稀少的、偶现的这个假设,当某类错误配置频繁出现时,该算法可能不能准确获得这个错误特征导致未能检查出此类错误。后续需要结合更多的机器学习算法,进一步提高配置异常检查的查准率和查全率。

5 结束语

本文提出了一种基于AI 关联分析的设备配置异常检测方法,该方案结合最前沿的AI技术与网络运维技术,创造性地改变了传统人工配置稽核方式,同时有别于以往的研究,创新性地采用逆向思维,将AI 关联分析中的弱关联规则作为配置异常的特征,在此基础上从海量训练集中学习配置异常模型,进而利用配置异常模型完成配置异常稽核。从现网运行结果显示,此算法的查准率和查全率都大于80%,部分场景准确率达到90%,系统检测时间低至分钟级,有效提升了配置稽核效率与配置风险识别率。

此外,该创新方案采用的AI算法具备强大的自学习、自挖掘能力,可以无缝移植到设备配置巡检核查中,如城域网、承载网、分组网等,适配5G 时代海量设备运维需求,具备良好的泛化能力,能有效应对网络的动态发展,具备广泛的实用性以及可推广性,实现传统运维的智能化变革。

猜你喜欢
运维关联错误
在错误中成长
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
不犯同样错误
试论棋例裁决难点——无关联①
《错误》:怎一个“美”字了得
可爱的错误等