基于大数据分析的通用光模块智能运维系统研究

2023-09-20 13:01翁先正姜志鹏饶倩胤杨红强
无线互联科技 2023年14期
关键词:运维阈值状态

翁先正,姜志鹏,蔡 勇,张 刚,饶倩胤,杨红强

(中国移动通信集团贵州有限公司,贵州 贵阳 550081)

0 引言

近年来,网络直播、在线教育、远程会议等数字业务伴随着物联网、云计算、5G移动互联网一起蓬勃发展,通信网络规模不断扩大,与之相伴的传输网的光模块不断向更高速率发展(25 G→50 G→200 G→400 G→800 G)发展,新型光模块在推广应用初期,故障率也必然随之升高。

1 光模块运维存在的问题

随着网络规模越来越大,局点数量越来越多,光模块运维面临以下3个方面的挑战。

1.1 故障无法提前预判

光模块目前都是根据设定的DDM阈值,简单判断出好与坏两种结果。随着器件的长时间使用,一些光模块持续处于劣化趋势,这种劣化的趋势无法识别,只有达到阈值后才会产生告警。这种情况下,业务故障会突然触发。此外,多数阈值均比较宽泛,单纯阈值不能做到准确预警。

1.2 故障处理时限长

某些场景下,当光模块失效后,如业务无法绕转故障光模块所在端口,将直接导致业务受损。这时,往往只能更换光模块进行故障修复。故障处理时限往往受备件储备量、备件到达时间、备件替换操作时间等因素影响。若故障光模块为骨干汇聚节点的业务汇聚端口,则影响范围较大,将给电信运营商造成重大损失。

1.3 用户满意度低

光模块长时间运行,尤其在恶劣环境下会引起光器件的性能衰减从而导致链路不稳定。而这种不稳定的亚健康状态既没有故障告警,又影响数据收发的完整性。传统手段无法在光模块已劣化、故障之前及时识别风险并进行预警。而光模块这种亚健康状态会导致网络提供的业务服务质量下降,影响客户感知。

针对现状,构建光模块智能运维系统,可以提前识别光模块状态及运行风险,主动做好预防性维护,避免业务受损或降质事件发生。

2 智能运维系统实现

2.1 系统总体设计

光模块失效预警系统整体设计如图1所示。针对海量光模块性能数据采用AI技术和大数据技术进行学习和训练,建立光模块失效算法模型,并结合现网光模块数据不断优化模型和算法,最终输出光模块健康状态分析结果。运维人员可调用分析结果,在光模块失效前进行风险预判,对于高中风险状态的光模块可考虑直接更换,避免出现业务故障后引起的用户投诉。

图1 光模块失效预警系统整体设计

对整个系统网络中的光模块进行类型、批次、性能的聚类分析,识别出有不同类别隐患风险的光模块,并作为网络巡检数据提供给运维人员进行风险跟踪及介入处理。如图2所示,系统首先对模块的状态进行分析分类,其次对亚健康模块进行风险分布统计,并持续进行风险跟踪:(1)当模块风险等级持续变高时,则表明模块会逐步失效,系统会指示人工介入处理;(2)对于已处于损坏模式的模块,系统会指示人工介入处理;(3)同时对故障模块进行批次、故障模式记录并进行同批次模块的故障跟踪,当发现有批次质量风险后,系统会提示该批次风险,指示人工介入处理。

图2 光模块风险及故障处理环节

2.2 AI算法实现

本文通过采集海量光模块性能数据,对光模块的性能指标进行提取,对各项指标进行阈值判定、趋势分析以及数据性能波动分析,构建光模块链接网络地图,建立光模块失效分析算法多维度AI训练模型和特征信息库模型。只需输入一段时间的待分析光模块数据,即可输出光模块健康状态(已损坏、亚健康、正常)。

AI算法具有自动学习的功能,依据光模块状态的反馈,不断对算法阈值、趋势、波动等分析算法各项参数进行修正,如图3所示。分析模块数据越多,匹配度越好,算法准确率就越高。

图3 AI智能状态诊断系统架构

2.2.1 光模块特征信息库提取和AI分析

建立光模块初始特征信息库,通过机器学习方式,不断对信息库进行修正和扩充。算法优化期间要不断地将光模块分析数据和在网模块进行数据匹配,不断对算法进行优化,分析模块数据越多,匹配度越好,算法准确率就越高。本文针对提取到的光模块性能指标建立光模块失效分析算法模型,并结合AI对各项指标进行阈值判定、趋势分析和数据性能波动分析。

(1)光模块特征提取。

①AI阈值分析。AI模型中加入阈值分析,如损坏门限、有风险门限等,超过对应阈值,则报不同的光模块状态。

②AI趋势分析。如图4所示,AI模型中加入性能趋势分析,对数据进行持续跟踪,抓取模块的动态趋势,如持续发生劣化,处于不同劣化区间,报不同的光模块状态[1-2]。

图4 AI趋势分析

针对性能数据,假设数据的采样时间为t,取数据值Y(t),选取其前后各N个数据做为数据聚合计算和生成特征数据的窗口,性能数据指标分别为Y(-N),Y(1-N),Y(2-N),…,Y(N-1), 针对该2N个值进行算术平均获得Paverage数据,然后将针对2N个点与平均数据进行偏离计算,如ΔP1=Average(Y(-N)~Y(-1))-Paverage、ΔP2=Average(Y(0)~Y(N-1))-Paverage,获得偏离实际值ΔP1,ΔP2,然后Δ=ΔP2-ΔP1,则获得性能的趋势数据,循环往复,则可获取性能趋势数据。

③AI波动分析。AI模型加入对性能量的跟踪分析,分析动态波动,在环境稳定情况下,波动应该在一定范围,超出该范围,则可认为模块或链路有故障,需告警以提示模块的状态或者链路的状态。

采用ARIMA的算法[1-2]进行实现。采用光模块性能量的差分值进行光模块的波动分析。

ifd=0,yt=Yt

ifd=1,yt=Yt-Yt-1

④AI性能劣化分析。将模块长期运行后的数据与模块初始值进行类比分析,当性能量劣化到一定情况时,给出模块的对应状态[3-4]。

基于光模块性能的劣化趋势特性满足指数发展规律,结合各性能量特征的多个维度,采用非线性回归的方式,可以判定N小时后光模块是否正常工作。

根据运行时间和性能劣化之间的关系,可换算出光模块正常运行状态时间。

(2)光模块特征工程。

针对历史故障,提取出故障的数据特征,并放入特征工程库[5-6]。通过AI多维训练模型不断提炼并丰富故障特征信息库,从而提升光模块的故障诊断准确率和故障诊断覆盖率,如图5所示。

图5 光模块特征工程

2.2.2 光模块状态判定

AI组网分析将光模块的收端、发端、光纤、连接器等都考虑进去,联合光模块的性能量特征,与光模块链路故障特征信息库进行比对以确认链路的状态,确定故障发生的位置[7]。通过相应的模型判定,最后光模块状态自动输出为已损坏、亚健康或正常。

2.2.3 光模块状态显示及长期跟踪

系统通过看板形式可呈现光模块各项性能的风险趋势,如图6所示,按时间维度区分模块类型,展示过往识别出的风险模块数量。

图6 光模块性能趋势分析

系统通过图表的形式可展示当前全网在监控中的模块状态,如图7所示。模块状态分为4种:未投入分析、正常、亚健康、故障。风险分布统计即将风险模块所属种类及对应种类模块的基数进行对比展示,统计批次故障信息。

图7 光模块状态和风险分布统计

2.3 应用成效

光模块智能运维系统在现网部署后,经过一年的算法智能演练和学习,光模块预警分析准确率达到90%的预定目标,发现了67个低风险光模块,3个高风险光模块,如表1—2所示,有效支撑网络稳定运行及业务安全保障。

表1 光模块预警算法演练结果(1)

表2 光模块预警算法演练结果(2)

3 结语

基于采集海量光模块性能数据分析,并利用AI算法开发的光模块智能运维系统,实现对光模块劣化趋势的可视化分析,支撑从被动响应式运维向预测主动性运维的转变,对提升光传输网的运行稳定和业务感知体验起到重要提升作用。本文中提到的光模块智能运维系统对光模块网络拓扑进行还原,基于系统的分析而不是基于光模块单点分析,使得光模块状态分析更加准确,随着光模块资源池的增加,风险特征库不断增加,会使得故障分析更加精准。

猜你喜欢
运维阈值状态
小波阈值去噪在深小孔钻削声发射信号处理中的应用
运维技术研发决策中ITSS运维成熟度模型应用初探
状态联想
基于自适应阈值和连通域的隧道裂缝提取
生命的另一种状态
比值遥感蚀变信息提取及阈值确定(插图)
室内表面平均氡析出率阈值探讨
基于ITIL的运维管理创新实践浅析