基于数字孪生的云资源池运行质量监控系统的研究

2023-08-18 05:01郑卿杨坤操张进李国策丁光远
中国新通信 2023年12期
关键词:根因图谱数字

郑卿?杨坤?操张进?李国策?丁光远

摘要:电信级的云资源池承载着通信业务,故对云服务能力有着极高的响应能力,其运行质量的评估变得愈发重要。本文提出基于数字孪生的云资源池质量监控系统架构,并从虚实映射角度,通过规则模型、行為模型和状态模型三个递进层次构建资源池质量监控系统,全面呈现资源池的运行状态。基于无监督学习的资源池故障分析以及资源池健康度评估,本文提供可视化的质量评估报告,帮助云服务提供商及时发现和解决问题,以提高云资源池的可靠性和稳定性。

关键字:云资源池;数字孪生;虚实映射;质量监控;故障分析;健康度评估

云计算技术的发展为网络的演进和物理资源的整合提供了新的技术手段。随着技术的不断成熟和发展,网络云化已成为一种趋势。它不仅可以提高资源利用率、降低维护成本和增加业务整体的容灾性等能力,还给云资源池的运营运维带来了质的变化。云资源池要实现统一调度、统一监控和统一运维管理,但更重要的是对云资源池的运行质量进行实时观察以保障安全运行。

目前云资源池的规模庞大且复杂性高,传统云资源池运行质量监控方法已经无法满足市场需求。数字孪生技术作为一种新兴的监控方法,可以将实体系统的运行状态进行数字化建模。本文中的数字孪生模型是采用物理空间、虚拟空间、孪生数据、应用封装和连接5个维度构成的综合体[1]。通过虚实双向映射、数据双向驱动以及实时连接的机制,数字孪生技术可以实现对实体系统的监测、评估、优化、管理等功能。随着数字孪生的技术、生态圈、行业、标准加快突破和发展,其应用市场正在进入成熟推广期。为了保障云资源池的稳定性和可靠性,并提高运维效率,本文提出了一种基于数字孪生的云资源池运行质量监控系统。该系统利用虚实映射对云资源池的运行状态进行建模,并通过数据分析和机器学习算法对其进行质量评估。在此基础上,该系统可以进行故障定位和资源池健康度评估。总之,这种基于数字孪生的监控方法可以实现对云资源池运行质量的实时监测和评估,帮助运维人员及时发现和解决问题,保障云资源池的可靠性和稳定性。

一、系统设计

本文提出的基于数字孪生技术的云资源池运行质量监控系统,其架构如图1所示,结合了云资源池评估需求和数字孪生五维模型构建[2]。系统架构包括了五个部分:①物理空间。该部分是从云资源池维度进行监管的,能够监测全网任意设备,实现全面性评估。物理实体从设备的组件到整个设备再到各个设备间的交互和属性信息都要被监测。②虚拟空间。该部分通过描述物理设备的几何、物理、行为、规则等建立全方位的数字化模型。一方面,在虚机空间中能够全方位反映云资源池的运行状态;另一方面用建立的模型评估资源池的健康状态。③应用封装。该部分通过对虚拟空间建立的模型、算法等服务进行封装,在物理空间实时数据的驱动下实现服务。其应用主要包括资源池健康度评估、异常定位、故障定位以及预测等。④孪生数据。该部分包含物理空间、虚拟空间以及服务应用中产生的数据,主要是实时数据、历史数据、运行日志数据、评估分析的数据、模型产生的数据等。其可以作为其他部分提供数据源泉,可搭建孪生数据中心管理平台,建立交互接口实现数据共享。⑤连接。该部分实现了物理空间通过传输协议、采集设备将资源池运行数据传输给虚拟空间和孪生数据。前者用于更新资源池运行状态,实现以虚写实;后者则是用来管理数据。

二、数字孪生模型中虚拟空间建立

本文从虚实映射的角度构建云资源池运行质量监控系统,整个映射过程分为规则模型、行为模型和状态模型3个递进关系。

(一)规则模型

规则模型旨在构建云资源池虚实一致的数字模型,根据规则呈现设备以及网络信息,是云资源池运行质量评估的基础。为有效构建模型,首先要确立云资源池的组网架构,然后建立资源的CMDB模型,最后采用建模手段实现模型信息的数字化呈现。

1.云资源池CMDB模型

NFV标准架构是由硬件层、虚拟层和虚拟网元三层以及NFV管理和编排系统组成。本文着重关注的是硬件层、虚拟层和虚拟网元。云资源池是指利用虚拟软件将硬件层的计算、存储、网络等硬件资源虚拟化成虚拟的计算、存储、网络等资源,为虚拟机的部署、执行和管理提供的资源池[3-4]。

2.模型信息组成及拓扑关系

在现实网络中,各级模型间存在关联关系。各级模型对象包含自身属性和运行信息。其中自身属性是设备的软硬件版本、固定参数等,用Attribute表示。运行信息是在设备在运行时产生的实时数据,用Value表示。拓扑关系是指通过设备所在南北向接口和东西流量来确定设备的位置,用Positon表示。故可以用多物元理论表示某一层的实体模型,则其信息组成为Modle=三元组[5]。

3.模型信息呈现

利用上述三元组信息可以抽象地描述每个模型所需要的信息,然后建立模型间的上下层关系。在进行模型实体化时,可以从几何、物理、规则方面进行描述。几何描述设备的基本结构尺寸信息,物理描述设备重要物理特征,规则描述设备的操作逻辑和规则动作。这些信息可以被用来建立云资源池的数字化模。

(二)行为模型

行为模型旨在构建资源池的实时数据的数据模型,是资源池运行质量评估的数据驱动。本文所关注的是物理设备的宏观行为模型,即从宏观角度观察设备的行为,并进行数据采集、描述和量化,例如信息流和数据流等。

(三)状态模型

状态模型旨在反映资源池某时刻的运行质量,是资源池运行质量评估的实现。基于数字孪生的云资源池评估系统使得对资源池的运行维护从被动变为主动,从离线变成在线。在整个评估过程中,依据资源池中设备的技术参数、历史数据、实时数据等建立异常分析、健康评估、故障诊断、故障特征等全方位的评估模型以及质量评价指标体系,对功能实现封装。最后,在实时数据的驱动下,调用封装后的应用进行评估分析。

三、数字孪生模型中评估技术

(一)基于无监督学习的故障分析

资源池的运行质量监控需要考虑异常情况下的故障根因定位。为了实现故障根因定位,需要通过告警信息进行故障分析和定位。考虑到告警信息的海量性和时序性,本文利用序列挖掘算法进行告警关联分析,然后利用知识图谱完成故障的根因定位。

①序列挖掘算法。从原始告警日志中挖掘告警关联规则。本文通过采用基于PrefixSpan-Prefix-Projected Sequence Pattern Mining(简称PrefixSpan)的无监督的序列模式挖掘算法提取告警中的关联性信息[6],同时对关联规则中告警进行因果关系对比分析,剔除没有因果关联的无效告警,这样可以给故障的定位和判断提供更可靠的数据支撑。

②知识图谱。告警的关联性是识别根源告警事件的重要依据,同时将告警关联知识展现在图谱中,进而为故障根因定位提供数据支持[7]。本文采用Nebula Graph图数据库为知识图谱存储的有效媒介[8],将图中的数据高效存储为点(Vertex)和边(Edge),还可以将属性(Property)附加到点和边上,将复杂的关联关系通过边及其类型和属性自然地呈现。

③故障根因定位。根源告警是导致衍生告警事件发生的根因,是在告警知识图谱中构成“导致”关系的有向量的起点。本文针对故障根因定位提出基于告警知识图谱进行根因定位的方法(以下简称根因定位法)[9]:将故障根因定位问题转变为对知识图谱中节点检索问题,即查找当前告警知识图谱中不存在因节点的告警事件。该方法首先要在一定的时间窗口中建立一个根源告警事件的候选集,遍历知识图谱中所有表示“导致”关系的边,在候选集中添加因节点告警事件,然后判断其对应的节点告警事件是否已存在于候选集中,若存在则剔除此因节点。最终候选集中的告警事件就是依据告警知识图谱的图结构分析获得的根源告警事件集。

(二)资源池健康度评估模型

随着云资源池设备多样化和复杂化以及底层数据多源异构,设备数量呈指数增加。在这个背景下,本文提出利用数字孪生系统实时监控云资源池的运行状态,多维度分析云资源池的健康状态,依据输出评估报告,更新云资源池的维护方案和计划。其中,资源池健康度评估算法是孪生数据系统结合物元信息熵,通过层次分析法和关联熵确定指标的主、客观权重的算法[10]。具体从运行质量、安全质量、资源质量、维护质量、调度质量、服务质量六个维度量化资源池运行状态,通过逆向逐级综合加权计算出各专业健康值,全面分析整個资源池实际运行状态。

1.主观权重确定过程

依据云资源池的资源数据模型构建指标体系层次结构模型,利用专家经验对比两两指标之间影响程度,并依据1~9标度法进行赋值,构建判断矩阵。判断矩阵是表示本层所有因素针对上一层某一个因素的相对重要性比较,构建判断矩阵元素axy的标度方法,如表1所示,设定两个因素分别为xi和xj,考察两个因素的重要性标度。

设X={x1, x2, x3...xn}是某层的因素集,根据表2判断方法对因素集内数据进行两两对比,构建判断矩阵A,即为:

2.客观权重确定过程

考虑到云资源池的健康度评估是多指标综合决策的结果,故文中是基于物元理论构建评估云资源池健康的评估物元。物元理论的基本单位是物元,是以事物名称、事物特征和该特征的量值三者所组成的三元组,记作 R=(事物,特征,量值)构建复合物元矩R=[M,T,V],其中M质量名称,T指标名称,V指标数值,其中Vij是第j个质量的第i项指标的值,物元矩阵如下所示。

在实时采集数据过程中,会出现部分指标值变化较大而其它指标值较稳定的情况,使用主观原始权重计算,会造成结果出现误差,因此,采用关联熵法计算客观权重,修正主观权重,减少数据变化对结果造成的影响。

3.计算组合权重及健康度过程

根据主观权重  和客观权重得到某评价指标的组合权重,故某项质量的复合关联熵物元为:

其中,H代表某项质量的健康度,

由熵值的定义可知,熵值越大表示某项质量运行越好,健康度越高。反之生产过程中就需要多关注熵值小的质量项,注意日常的巡检和维护计划。

四、结束语

基于当前云资源池的运维痛点,本文提出了基于数字孪生的云资源池的质量评估系统架构设计过从虚实映射的角度出发,逐步构建用规则模型、行为模型和状态模型3个递进层次构建数字化模型,同并给出了2类业务监控场景,即故障定位和健康度评估功能模块。这在一定程度上降低了运维人员的工作强度,提高了云资源池运维能力,同时也减少了因设备增多而引起的人工成本,也为数字孪生在云领域的应用提供了一定参考。但本文没有对方案的功能应用进行详细论证,后续将技术理论和实际情况相结合展开讨论,推进方案落地应用,从而不断验证系统的有效性和可行性。

作者单位:郑卿 中国移动通信集团有限公司

杨坤 操张进 李国策 丁光远 中国移动通信集团安徽有限公司

参  考  文  献

[1] 陶飞,刘薇然,张萌,等.数字孪生五维模型及十大领域应用[J].计算机集成制造系.,2019,25(1):1-18.

[2] 刘占省,张安山,邢泽众,等. 基于数字孪生的智能建造五维模型及关键方法研究[C]. //中国土木工程学会2020年学术年会论文集. 2020:112-124

[3] 中国移动NFV电信云资源池内组网、资源部署和数据配置原则[S].中国移动,2019.

[4] 中国移动NFV 虚拟层技术要求[S].中国移动,2019.

[5] 熊浩,孙才新,杜鹏,等. 基于物元理论的电力变压器状态综合评估[J]. 重庆大学学报(自然科学版),2006,29(10):24-28.

[6] 胡秋秋. 移动通信网络运行数据处理与分析[D]. 西安电子科技大,,2019.

[7] 覃华云,吴侃,毛恒.基于知识图谱和因果算法的告警根因定位方法研究[J]《网络安全技术与应用,2023(3):41-43.

[8]陈肖勇,蔡永健,顾丹鹏,等. 图数据库在工程数据中心的应用[J]. 计算机时代,2021(9):42-45.

猜你喜欢
根因图谱数字
根因分析法提高药品不良反应报告合格率
绘一张成长图谱
答数字
基于矩阵编码的自动路测根因定位方法
根因分析法在提高科室备用药品质量管理中的应用
补肾强身片UPLC指纹图谱
数字看G20
主动对接你思维的知识图谱
高龄PICC导管堵塞的根因分析及护理对策
成双成对