基于人工智能的系统运行风险预警和识别技术

2023-05-30 14:00杨猛张峰潘磊等
计算机应用文摘 2023年6期
关键词:风险预警人工智能

杨猛 张峰 潘磊等

关键词:人工智能;系统运行;风险预警;识别技术

中图法分类号:TU855 文献标识码:A

1引言

当前,数字化转型已经成为各大企业的共识与必然趋势,基于大数据、人工智能、云计算等先进信息技术架构打造数字化、智能化运维模式将成为企业数字化转型的重要支点与技术手段。海量数据存储、大数据计算能力、人工智能算法等可为信息系统运行风险的分析预警提供更加有力的技术支撑,进一步提高系统运行智能分析效率及预警精准度。

2构建数据中台基础

为实现基于人工智能的系统运行风险预警和识别,首先需要搭建一个能承载海量、多维运维指标体的数据中台。通过集中、统一的方式,将现有分散的IT系统产生的运维数据进行集中采集,对这些IT运维数据进行海量存储、高效计算和关联分析建模,通过灵活的服务接口方式,利用标准查询语言提供各类数据检索服务,并在此基础上研究更上层的数据服务能力和数据应用能力。

2.1分布式数据采集方式

随着运维领域数据采集技术的不断更新,出现了大量实时的非结构化数据。研究设计新的数据采集架构,可以根据数据体量,分布式部署数据采集器。通过对采集任务的分解,实现多任务并行采集,从而提高数据采集效率及准确性。分布式数据采集方式具备针对不同类型数据源的抽取接口的能力,接口程序规范统一,接口具备设定采集范围和采集频率的能力,平台具备观察接口采集效率、统计采集的数据量的能力。

平台采集端可以快速对接各监控工具API,实现结构化数据和非结构数据采集,支持集群的集中管理、机器的集中管理、收集器的集中管理,并支持采集任务管控。

2.2实时大数据处理

在面对海量、高速采集到的数据时,只有强大的存储和离线计算能力是远远不够的,对数据的实时处理能力和对处理结果的分析挖掘能力变得更加重要,需利用实时流式处理技术,实现实时处理海量流式数据,包括对数据的加载、检查、清洗、分解、补全、结构化、归并、引用及异常标记等,实时处理、实时输出,为在线业务提供实时应用支持。

实时数据处理的过程,是将数据从非结构化到结构化的解析、数据清洗、格式转换以及数据聚合计算的数字化转换过程。采用实时流式计算框架、离线计算框架,整合数学统计库、集成常用挖掘算法、机器学习库,并提供图形化操作界面,实现自助式数据分析与挖掘算法的模型创建。

2.3大数据存储

大数据存储平台作为智能运维的基础数据支撑,需要确保平台本身安全、可靠,能够满足各类监控数据的采集管理和监控,支持实时、海量的运维数据采集、处理、分析和存储,能提供高性能(PB级数据量、毫秒级响应)、一站式的运维数据服务,能够极大地提升运维数据的处理效率。

2.4 IT运维监控指标体系

一个完整的IT运维监控指标体系将是一个能够给繁杂的运维工作带来便利且提高效率的服务体系。传统的运维管理大多由人工完成,在复杂、烦琐的IT细节上花费大量人力资源,而通过数字化技术将服务水平管理、监控和诊断结果呈送给管理者和运维人员,不仅能够让运维人员一目了然,提高运维服务水平,又能为管理者的管理决策提供数据支持。

3系统运行健康状态和趋势

在构建数据中台的基础上,需要进一步通过人工智能(算法)对时序数据进行分析来实现系统运行风险识别和预警。数据流是一组有序、有起点和终点的字节数据序列,与传统的关系数据模式相比,数据流本身具有持续达到、到达速度快、取值范围广3个特点。业务运行状态相关的数据流表现为时序数据,即时间序列数据。时序数据依赖于时间而变化,可以用数值来反映其变化程度,其具有两个关键的指标:时间和数值。从时序数据的理论分析层面看,一般将时序特征分为趋势型(季节)、平稳型(噪声)、周期型。具体如图1所示。

运维场景下,由于应用系统异常(如重启)导致指标数据严重偏离取值范围或数据缺失,从而使数据产生“毛刺”,以及应用系统发生变更,让整个指标数据较变更之前产生“断层”的情况,这都是在研究中需要避免的预测因素。实际业务中,针对“毛刺”情况需要对严重偏离的数据进行剔除,对“断层”数据进行清除,再进行模型学习。针对指标时序数据的监控方式,一般都为固定阈值方式,即由运维专家为指标设定一个固定的阈值,当指标数据大于阈值或小于阈值时,系统进行异常告警。固定阈值方法的优点是可以利用专家知识进行异常判断,并且在做异常检测时计算量低。然而,实际运维场景下,固定阈值方法效益很低。对于平稳型数据,异常表现形式为过高、过低的异常数据,固定阈值方法是有效的。但现实场景下,这类指标数据极小,且要求运维专家为每一个指标制定相应的阈值。此外,指标数据是随时间呈现一定的发展趋势,模式会持续地变化,固定阈值方法无法适应时序数据的模式变化。

3.1时间序列预测

通过借鉴时间序列分解的思路,将时序数据分解为趋势项、周期项、节假日项,由此通过叠加不同成分,来适配各种不同模式的时序序列。

趋势特征表示序列整体的变化趋势,大致可分类3类,即水平发展趋势、上升趨势、下降趋势。细分又可分为多种类型,如线性趋势、多项式趋势、log趋势等,不同趋势可由不同的方式拟合,如使用线性回归拟合线性趋势、多项式回归拟合多项式趋势等,每一种方式都有适配的趋势类型。同时,不存在能够适配所有类型的方法。

大型运维场景下,业务场景状态比较稳定,当落实在个体设备的某一指标时,影响因素多,不确定性大,指标数据多变,趋势发展不稳定。因此一般使用基于Loes的分段线性回归或基于Sigmoid的分段Logistic增长模型。

季节性和周期性一般情况下可视为同一成分,一般可通过傅里叶级数、拉普拉斯级数等方式进行描述、拟合,具体级数应通过在标准数据集上的对比实验确定。趋势特征、季节性和周期性的描述方式多种多样,没有适配所有场景的通用方法。需要结合场景、通过数据实验研究,获得匹配当前需求的最佳实践。

传统时间序列预测方法,包括ar,ma,arima,ES等,均采用类似自回归的方式进行。这类方法都对数据有较高的要求,如arima等都要求时序数据为平稳时间序列。一般情况下,可通过一阶差分、二阶差分、取对数等方式将数据转化为平稳数据。然而,不同时序数据的转化要求不同方式的平稳化操作,并需要结合专家知识,否则无法实现自动化适配。

为规避传统时间序列预测方法的缺陷,可以使用一个可分解的时间序列模型,其中包含4个主要的模型组件,即趋势(T)、季节性(S)、周期性(C)和噪声(I)。针对每一个时间序列的成分,设计对应的特征来提取相应成分的信息:基于特征和参数先验,进行回归预测。

趋势特征表示序列整体的变化趋势,即序列在较长时期内持续发展变化的一种趋向或状态。季节性趋势指以时间为固定周期,呈現循环变化的成分;周期性趋势指不固定周期、程序循环变化的成分。不过很多时候也会将季节性(S)和周期性(C)视为同一成分。通过趋势、季节性、周期性不同成分的多种组合方式,最大限度地拟合更多的数据模式。其中,如何拟合时间序列的趋势成分、周期成分是研究重点。

3.2时间序列异常检测

基于时间序列拟合、预测的结果,研究智能化适配数据的异常检测方法,是实现大规模数据流高准确度、自动化检测的关键。在拟合、预测结果的基础上,研究不同检测方式对异常检测结果的影响,比较各种方式在业务场景下异常警告的准确率、召回率等。

时间序列异常可分为两类,即数值异常、模式场景。两种异常通常同时存在。在已有的时序拟合、预测结果的基础上,以拟合结果作为基线,将指标数据与基线做对比,进行异常检测。不同的对比方式,如与基线固定偏差程度判定、基于偏差分布的动态偏差程度判定,基于数据上下文的模式对比等,在寻找到一些异常点时,也会产生误告警。此时,需结合标准数据集,做对比实验,以此挑选适配领域数据的异常判断方式。

4系统智能化感知和识别

通过分析历史的日志、告警、报错等信息,人工智能可以自动分析问题出现前频繁出现的数据模式,然后在正常存储系统上匹配这些人工智能学习模式.以形成预测。

除故障外,用户在日常使用存储的过程中关注最多的就是容量和性能。系统容量不足会导致系统不可用,客户业务中断。性能指标主要指时延、带宽、IOPS,随着用户业务的发展,给系统带来的性能压力越来越大,性能不足会让用户的应用变慢甚至无响应,导致用户体验感下降。利用AI技术,对存储的性能、容量变化趋势进行准确预测,一方面可以告知客户进行扩容、软硬件升级的时间点,另一方面能提供存储规划的具体参考指标。

业务状态评估系统设计的关键在于异常快照的设计、特征提取方式、相似度计算方式的选择。

异常快照的设计需要结合实际业务进行设定,如请求响应时长、CPU利用率、内存利用率、磁盘利用率、IO、网络延时等,并可结合随机森林等特征选择方式做进一步筛选。

特征提取方式包括数值提取、onehot编码等,方法的选择需结合实验评估效果和计算评估性能进行综合考量。

相似度计算方式的选择需在确定特征提取方式之后进行。不同的相似度指标,召回的相似事件有所不同。需经对比实验确定最佳适配方式。一般使用的相似度计算方式包括欧氏距离、Pearson相关系数、Tanimote系数:

5结束语

基于人工智能的系统运行风险预警和识别技术需要采用自顶向下的设计,以及自底向上建设的形式实现。从数据的角度关注系统运行状态变化的原因,根据系统运行时的异常现象,将系统可能产生的故障关联到各种资源的可能故障点,再根据具体事件分析并找到引起业务故障的根源。对指标、事件、日志数据进行充分的挖掘和分析,并利用资源运行状态对业务运营状态的影响识别做出科学的预测。

作者简介:

杨猛(1987—),硕士,高级工程师,研究方向:信息系统运维。

猜你喜欢
风险预警人工智能
我校新增“人工智能”本科专业
2019:人工智能
人工智能与就业
数读人工智能
以运营动态为载体,推动地市运监工作实用开展
高校财务风险预警指标的建立与应用研究
行政事业单位的内部控制问题以及解决策略思考
下一幕,人工智能!
下一幕,人工智能!
信息化手段实现检验检疫工作风险管理的可行性探讨