林春晖,农兰钰
(中国铁塔股份有限公司百色市分公司,广西 百色 533000)
自动化运维技术作为一种新的解决方案,广泛应用于5G网络,旨在提高网络的管理效率、降低运维成本,并提升网络性能和用户体验。自动化运维技术的发展与5G网络的特点紧密相连。5G网络具有更高的传输速率、更低的时延和更大的连接密度,其包括大量的设备、复杂的拓扑结构和海量的数据流量。文章研究内容将有助于推动5G网络的自动化运维技术的发展,并为网络管理和维护提供新的解决方案。通过引入自动化运维技术,将进一步改善5G网络的管理效率和性能,为5G网络的可持续发展提供技术支持。
自动化运维技术是通过运维工具或平台,处理信息技术(Information Technology,IT)基础设施和业务应用日常任务、运维流程的自动化的一种技术[1]。自动化运维技术利用计算机系统和软件工具,将人为介入的运维操作转化为自动化的脚本或指令,并通过预设规则和流程来执行和管理这些操作,从而提高效率和降低运行风险,促进运维组织的成熟和各种能力的升级。
第一,5G网络由多种技术组成,包括传统的无线通信、云计算、边缘计算以及物联网等。使得网络规模庞大且异构性增加,提高了网络管理复杂性。自动化运维技术需要能够适应不同类型和品牌的设备、协议和接口,统一管理和调度整个网络。第二,5G网络支持更多的服务和应用,故障发生的风险也相应增加。自动化运维技术需要具备快速故障定位和修复能力,以减少故障对服务造成的影响。这需要建立全面的故障诊断模型和智能的自动化修复机制。
自动化运维系统通过监控设备、传感器、网络流量等途径收集大量的运维数据,包括设备状态、性能指标、日志信息等。在数据采集过程中,需要考虑数据的实时性和一致性。数据采集完成后,需要进行数据清洗、去噪和预处理等工作,以确保数据的准确性和可用性[2]。自动化运维数据包含了大量的特征变量。在建模过程中,需要通过特征提取和选择从原始数据中提取有用的特征,并去除冗余或无关的特征。该方式可以减少模型的复杂性,提高建模的效率和准确性。特征提取是从原始数据中提取有用的特征变量,通常通过数学和统计方法实现。表示特征提取的过程的公式为
式中:X为原始数据;Y为提取得到的特征变量;f(·)为特征提取函数。
特征选择是从提取得到的特征变量中选择最具有代表性和相关性的特征,去除冗余或无关的特征。表示特征选择的过程公式为
式中:Z为经过特征选择后的特征变量;g(·)为特征选择函数。
通过式(2),可以将特征提取和特征选择过程表示为一系列函数的组合,从原始数据中提取有用的特征,并去除冗余或无关的特征。这样可以减少建模过程中考虑的特征数量,简化模型的复杂度,提高建模的效率和准确性。
机器学习算法在5G网络中的故障诊断和预测方面有广泛的应用,通过机器学习算法,可以根据历史数据和实时监测数据,构建故障诊断模型。这些模型可以自动分析和识别各类故障事件,并识别故障的类型、位置和严重程度。例如,可以使用分类算法,如决策树、支持向量机等,将故障数据与已知故障模式进行比对,来进行故障诊断。5G网络故障诊断和预测中使用的历史数据和实时监测数据如表1所示。
表1 5G网络故障诊断和预测中使用的历史数据和实时监测数据
由表1可知,时间戳列显示了数据采集的时间,设备状态列表示设备的工作状态,性能指标列提供了一些重要的指标数据,日志信息列提供了关于设备工作的记录。使用5G网络中的历史数据和实时监测数据,可以使用机器学习算法构建故障诊断模型。通过对这些数据进行特征提取、预处理和训练,还可以使用分类算法,如决策树、支持向量机等来自动分析和识别故障事件。
机器学习算法可以帮助进行故障原因分析,即找出导致系统故障的具体原因。通过分析各种运维数据和日志信息,结合机器学习算法的特征选择和解释能力,可以推断出导致故障的特定条件或事件。实现故障原因分析的下一步是训练一个机器学习模型,从特征集合中找到故障根因。可以使用监督学习算法构建模型,其中样本包括故障发生期间的数据和相应的故障根因标签。训练模型的公式可以表示为
式中:M为训练得到的机器学习模型;X为特征向量集合;Y为标签(即故障根因)。
训练好机器学习模型后,可以使用该模型对新的故障数据进行预测和推断,找出导致系统故障的具体原因。该过程的公式为
式中:R为推断得到的故障根因;I(·)为模型推理或推断过程,用于将模型M应用于输入的新数据X,并返回推断结果R;M为训练得到的机器学习模型;X为新的故障数据特征向量。
机器学习算法可以借助运维数据和日志信息,进行故障原因分析,并推断出导致系统故障的具体原因。这样可以帮助运维人员快速定位问题,并采取适当的措施修复故障,提高系统的可靠性和服务的质量。
智能化运维系统设计与实施方案是为了提高5G网络的管理和维护效率,实现自动化、智能化的运维管理[3]。在系统架构设计方面,能够利用机器学习算法,基于历史数据和实时监测数据,构建一个预测模型。这个模型会根据用户的当前环境和应用需求,预测资源需求量。例如,可以使用深度学习的循环神经网络循环神经网络(Recurrent Neural Network,RNN)模型,输入之前的状态信息和当前的用户数据,预测下一时刻用户需要的资源量。在构建资源需求预测模型时,可以使用深度学习的RNN模型。RNN是一种适用于序列数据的神经网络模型,非常适合用于预测未来的资源需求量。
假设有一组历史数据,包含用户的当前环境和应用需求及相应的资源需求量。将这些数据组织成一个时间序列,其中每个时间步表示一个特定的时间点。对于每个时间步,模型的输入包括之前的状态信息和当前的用户数据。
针对RNN模型,表达式为
式中:ht为当时时间步的隐藏状态;xt为当前时间步的输入数据;Whh、Whx分别为隐藏状态和输入数据的权重矩阵;bh为偏置项;f(·)为激活函数。
RNN模型能够根据之前的状态信息和当前的用户数据,生成一个隐藏状态ht。该隐藏状态可以看作模型在当前时间步维护的记忆信息,反映了过去时间步的输入数据和状态信息。在RNN模型的输出层添加一个全连接层,并使用适当的激活函数,如线性或Sigmoid函数进行转换,从而得到一个预测值,即用户未来的资源需求量[4]。通过建立和训练模型,使其具备预测用户未来资源需求的能力。模型的预测能力可以进一步用于故障诊断和预测。通过监测网络的实时数据,结合用户数据和环境数据,模型可以及时识别可能出现的故障,并提前采取措施避免故障发生,从而降低网络故障率。自动化运维网络故障检测数据如图1所示。
图1 自动化运维网络故障检测数据
由图1可知,通过应用自动化运维技术,故障发生数量明显减少,网络故障率得到了显著降低。这说明自动化运维技术能够有效诊断和预测故障,并提前采取措施避免潜在问题的发生[5]。需要注意的是,具体的结果可能会因实验设置和场景不同而有所差异。在实际的应用场景中,应考虑更多的潜在因素,并持续监测和改进预测模型,以确保其在实际运行中的准确性和可靠性。
文章主要研究面向5G网络的自动化运维技术。该技术能够有效提高运维效率、降低故障率、增强网络可靠性以及改善用户体验,对于5G网络的可持续发展至关重要,为构建更强大、更稳定的5G网络奠定了坚实基础。未来,自动化运维技术将引入更多智能网络管理机制,如网络切片、自适应资源分配和动态路由等,以提供个性化、灵活且高效的网络服务。