吴秋玫,杨鸥
(云南电网有限责任公司普洱供电局,云南 普洱 665000)
传统的IT运维监控系统都需要为每一个监控对象(交换机、路由器、防火墙、IPS、服务器、数据库、中间件等)的每个监控指标设置报警阀值,需要根据基于规则的阀值配置进行报警,这需要投入大量的人力成本和时间成本来完成配置工作,所有的监控对象运维人员都需要根据自身的运维经验进行配置,并且不同的IT业务系统对指标的要求存在差异性,这将导致报警规则配置标准无法统一、配置的指标范围难以规范化,这将导致IT业务系统在高峰时间产生大量的“无效”报警,需要运维人员进行手工消除报警并且根据报警的情况持续调整告警上下限阀值,告警维护成本高,给运维人员增加了工作量,且难以适应实时动态变化的系统运行状况,同时在阀值调整过程中,可能引发关联指标的异常预警,甚至引入业务系统中断的风险,基于规则的手动配置阀值导致报警指标覆盖率、准确率不高,且误报率比较高[1]。因此通过实施IT监控系统指标动态阀值设定,减少系统“误报”率,降低运维人员指标设定工作量以及配置风险,减少通过主观判断进行监控系统的报警阀值设定,确保业务系统的安全、可靠、高效运行。
系统功能架构划分为三层,分别为数据采集层、算法模型层及应用层。数据采集层主要负责对服务器、数据库、中间件及网络设备的监测指标进行收集,并且根据算法模型对数据的要求进行数据理解和数据处理;算法模型层是本系统的核心,是在实现运维指标数据统一采集的基础上,针对每个应用系统运行的特点以及历史运行数据构建可靠的算法模型,并且提供模型训练窗口以及数据样本管理功能;应用层是基于数据采集层及算法模型层而迭代的数字化运维管理功能模块,为运维人员提供可视化、数字化的运维管理视窗,实现高效的运维管控和保障[2]。
编写高性能、高并发的数据采集器代理,负责把服务器、数据库、中间件及网络设备运行的关键指标数据按照采集周期,主动地把数据发送到具备大数据分析能力的数据聚合平台,完成运维数据的统一存储、加工和处理,实现了源数据的聚合管控。
对已完成聚合的源数据进行分级分类管理,将IT系统按照对象类别进行划分,并对每个IT对象的指标划分为:软硬件状态——决定IT对象的生命、性能状态——决定IT对象的容量能力、日志——决定IT对象的健康度以及安全性。IT对象之间的关联关系我们采用软链路和硬链路两种方式来进行连接,具有物理连接关系的IT对象之间的连接为硬链路连接,服务器与以太网交换机、服务器与SAN交换机、SAN交换机与磁盘阵列设备等之间的连接关系均为硬链路连接,端口故障、物理链路中断均影响IT系统的正常运行;除此之外,IT对象之间的连接关联为软链路连接,数据库与操作系统之间的关系、中间件与操作系统之间的关系、业务应用包与数据库、中间件之间的关系均为软链路连接,其之间通常通过端口号、账户进行建立连接关系,防火墙、账号错误、端口占用均可能导致业务系统中断。因此,预警阀值要从IT系统中的单体对象以及干系对象、链路可靠性等多维度、多层次进行设置和预测[3]。
通过构建以业务系统为单元的监控预警分析模型,采用模型最小化法则,将影响业务系统的干系对象缩减到最小范围,控制IT对象指标的分析数据量,保证高性能实时分析IT系统状态和挖掘历史数据,并进行实时分析对比。通过对具体的业务系统抽取应用级的运行指标,构建业务正常运行时的指标数值范围,即业务运行指标健康度取值范围,我们将业务系统的登录时间、连接时间、响应时间、登录用户数、活动用户数等关键指标数据与服务器运行状态及性能消耗、网络设备运行状态及性能消耗、中间件运行状态及性能消耗、日志内容、日常报警信息以及机房环境关键指标就行立体空间映射,实时进行数据收集以及数据映射管理,构建具备实时流分析能力的IT系统运行历史数据库系统。
图1 系统功能架构图
算法模型层主要包括特征提取、模型构建、模型评估及模型训练四个环节。
特征提取主要依据数据采集层构建的IT系统运行历史数据库系统以及所构建的数据映射立体空间图。在本算法模型中我们采用七种数据挖掘特征提取方法,即基于树模型提取特征、基于L1/L2惩罚值提取特征、递归特征消除法提取特征、互信息选择法提取特征、利用相关系数选择特征、卡方检验法提取特征、利用方差选择特征对不同的数据类型和维度进行特征提取,并且构建一个融合七个维度特征的综合性特征库。特征库内容至少包括业务系统状态及健康度、IT系统软硬件状态、IT软硬件关键指标性能、日志信息数据以及严重报警信息等内容,通过多维特征的提取形成以业务系统安全、高效、可靠运行为中心的、以业务系统为单元的综合特征库[4]。
根据业务系统所涉及到的IT系统运行综合状态信息数据,以及结合多维综合特征工程所提取的特征内容进行设计开发训练模型,并且配套编程样本库管理模块、样本数据管理模块进行对业务系统的运维数据综合性训练和校验。
基于IT系统运行综合数据库、样本数据库以及模型训练集数据,构建IT系统运行健康状况动态负载实时监测功能,并进行报警阀值的动态设置及预警,减少无效报警信息。通过运维算法模型实时挖掘IT系统运行历史数据库对业务系统的故障点进行预判、业务系统链路节点故障定位及预判。
图2 算法结构图
在算法模型中,我们采用基于神经网络深度学习算法RNN、DNNN、LSTM,同时,将IT系统运行指标划分为两大类,一类为重要关键指标,比如业务交易、业务系统可用状态登,采用LSTM异常检测算法对指标的运行历史数据进行模型训练,并基于实时运行指标对预测指标未来的趋势,在模型算法中,为每一个关键指标建立模型,即单子指标单模型;另外一类为普通指标,即非关键指标,这类指标采用DNN算法,利用小波变换算法提取监控指标频域特征到DNN模型,直接导出指标异常与否结果,DNN模型融通综合性的指标特征工程数据库,配合运维人员人工的数据标记工程,进行持续提高模型精度,较好地满足所有异常检测场景全覆盖。通过对IT软硬件系统以及业务系统运行的实时的异常分析、预判,实现系统不断自动调整报警阀值,自动化进行IT关系干系分析、影响分析及单体分析,在业务单元网格中进行可靠性、健康度及安全性的多维分析、预测、预警,为运维人员提供科学的报警信息和动态化的IT系统阀值配置系统,实现具有针对业务系统特点和个性化的IT系统对象指标阀值自动配置算法库及指标域值。
通过算法模型层,实现了特征库、训练集、标记库以及算法模型的创建,实现了IT系统软硬件设备的异常检测及预判,并对IT系统报警阀值进行自动调节,确保报警数据及时性及可靠性。
应用层的主要功能模块是完全基于数据采集层和算法模型层实现IT系统运维可视化监控、业务系统端到端全链路监控与故障自动定位,并对运维的实际需求进行动态化“零编码”的可视化中心建设,并对对IT对象进行实时监控与历史数据挖掘分析对比,针对业务系统当前的综合运行状态及系统负荷进行阀值动态化自动优化调整以及预警等功能,为运维人员提供高效的、智能化的IT系统运维管理工具平台[5]。
通过基于历史运维数据特征的监控系统告警阀值自动设定功能平台建设,结合IT系统运维监测可视化画像、IT系统指标及日志关联分析的需求,完善和迭代基于IT业务端到端的全链路数据节点监控一条线,把IT软硬件对象状态及软硬链路关系数字化可视化、IT软硬件设备运行状态可视化、运行指标数据可视化、故障节点可视化,并且通过运维知识图谱系统,根据IT系统报警信息自动推荐故障解决措施和方案,并且系统平台引入自动化运维技术,支持人工关联自动化运行作业,全面打造高效、可靠、安全的IT系统运维数字化平台。
本课题充分采用大数据分析技术、AI算法模型、数据聚合技术、AIOPS自动化运维、运维数据分析及运维指标量化,将IT系统运行历史数据聚合到大数据分析平台,打破运维数据孤岛,构建IT运维大数据分析平台,实现对IT运维数据的深度挖掘。并且构建针对业务系统为单元的IT指标综合特征库、算法模型、数据训练集,实现构建动态的IT系统运维监控指标阀值自动设定及预警,解决IT运维指标报警阀值配置规范化、标准化及个性化难点、难题,降低IT系统报警误报率问题,并且基于此技术创新和建设思路,实现IT系统监控数据分析、业务端到端监控视图以及关联分析,全面提升IT监控系统的使用价值和应用水平。