谷 良,段 婕,段 敬(国网山西省电力公司信息通信分公司,山西 太原 030001)
关于主机监控中动态基线告警管理的研究与实现
谷 良,段 婕,段 敬
(国网山西省电力公司信息通信分公司,山西 太原 030001)
主机监控中动态基线告警管理的研究与实现以企业综合网络管理平台为基础,通过在告警管理过程中应用概率及概率分布算法,实现了利用动态基线管理的方法监控服务器、存储、路由器等设备的CPU性能参数。在完成针对国网山西省电力公司变电站生产视频监控系统的服务器、中间件等设备的测试和验证后,该功能已经成功部署在国网山西省电力网络信息智能监控平台系统中。
主机监控;动态基线;高斯过程
大数据、云计算等[1,2]技术凭借其优秀的数据处理能力和高可靠性,成为了企业信息化改革的大方向。构建属于自己的云平台成了现代企业迈入新型云计算商业模型的必要条件。面对机房服务器、存储设备数量的日益增长,如何使设备安全稳定运行,降低故障发生概率,使各类主机高效为企业服务成了一个亟待解决的问题。目前,各类管理平台和监控平台也随之进入了快速发展的阶段,但是监控主机、中间件和存储的产品还较少。如何既能不占用系统资源,又能实时进行监控,快速生成告警内容成为了主机设备管理和监控追求的目标。为此,本文在公司综合网络管理平台上,通过研究动态基线[3]告警管理的算法,将接入主机、中间件和存储的实时性能数据进行处理并生成告警内容,成功实现了关于主机监控的功能。
基线(base line)即数据变化的基准线,描述了一个指标的正常波动范围,这个范围不同于传统的阈值门限,传统的阈值门限[4]如图1所示。
图1 传统阈值的基线管理
它是根据设备运行过程记录的参数值给出一个固定的参考值,在这个值之上设定一个容忍范围产生相应的告警信息。这个值理论上是不变的,除非人为进行调整。接下来有研究对固定不变的阈值门限作了改进,改进的基线告警管理示意图如图2所示。它是在传统阈值的基础上,将差异较为明显的时候段分别计算了阈值,但是基线是随着时间在不断变化的,而且这个变化是连续的,尤其对设备的性能进行监控时。因为设备的运行指标通常和人的活动挂钩,而人的活动是随着时间在连续的有规律的进行变化,如上午刚开始工作时业务的仿问量有较大地提升,随着时间的推移它会逐渐降低;下午刚开始工作时业务的访问量又有较为明显的提升,夜间的活动数趋近于零。这些都反应出了某些指标是随着时间在连续变化的,如果应用阈值来作为基线值进行告警管理,那么夜间CPU和内存应用率异常,但还没有超过白天的阈值的话,这个故障就会隐藏起来,难以被运维人员察觉,因此不适合用传统的阈值门限来判断设备是否出现了问题。本研究的动态基线管理如图3所示,它的特点是实时采集各类被监控设备的性能数据,对统计周期内的数据进行概率分布计算[5],计算出未来性能数据的参照值,再辅以相应的容忍度,获得24小时的正常指标值范围[6]。
图2 改进后的基线管理
图3 动态的基线管理
动态基线管理算法主要包括三方面的内容,分别是基线计算方法、容忍线计算方法和产生告警的方法。其中基线计算是告警产生的基础[7]。
2.1 基线计算
目前的基线计算方法多是针对采集的性能数据直接做告警基线的处理,缺少了噪声的过滤,本文采用图4所示的流程来实现基线管理功能。
图4 数据处理流程
如图4所示,首先进行样本数据的采集,其次是对样品数据进行初加工,接下来进行基线的计算,最后形成基线值。表1是1周内每整点的测试服务器CPU性能数据。
表1 CPU样本数据 %
假设X为不包含噪声的性能值,σ为噪声值,Y为采集到的性能参数,那么有式(1)。
在稳定情况下,X的值是一个呈现周期性变化的参数,因此用相邻两天的采集样本作差进行Q-Q图[8]分析,得到如图5所示的结果,其中图a、b、c、d分别为5个工作日的样本差值与参考点的QQ图,图中的散点都在一条直线附近,因此噪声参数呈现高斯分布特性。根据Q-Q图的特性,可以得到近似的标准差及均值,本例中均值为3,因此将3纳入到基线的计算中。
图5 5个工作日的样本Q-Q图特性
监控系统所监控的应用系统是一类新构建的系统,目前的应用程序还不高,访问量会随着时间的推移逐步增加,因此本监控平台目前将采集到的各个时间段的最大运行性能参数经运维人员确定后添加到统计分析过程当中去,也就是在统计分析的过程中不进行性能参数的过滤。数据处理采用概念分布算法,针对每个时间点(最小采样区间)都进行一次统计分析。
以20点的数据为例,表2中为测试机7月1日到30日的20点的CPU使用率数据,表中最大的值为9.94,因此应用9.94确定5个区间范围,如下。
应用区间取数法,落在3、4、5区间中的数据个数最多,将以上3个区间中的数据作为样本计算基线值。设置置信度为0.8,以上30个样本的滑动窗口数据个数为24,因此分别计算第1到24,2到25,3到26…的标准差,如表3所示。取标准差最小的区间为第3区间,因此20点整的上基线值为9.94,下基线值为5.37。
2.2 产生告警
目前,各类应用系统的运行指标呈现一个周期性的规律,图6所示为周五的内存占用率指标图。一般情况下都是工作时段内存占用率较高,图6中22时内存占用率高是由于备份策略是每周五晚10点开始。
表2 CPU月度样本数据
表3 样本区间标准差
图6 内存占用率时分图
因此容忍度的设置可以采用人工方法,分区段分别设置不同的比例,灵活进行配置。本文中分别将忙时和闲时的容忍度设置为30%和20%,以文中的上下基线值为例,20点为空闲时间,因此有式(2) 和式(3)。系统的CPU占用率如果超过这一范围则会产生相应的基线告警管理。
其中, Bup为上基线,Bdown为下基线。
基线告警功能通过测试并作为1个模块成功部署在山西电力网络智能监控平台系统中,传统是针对主机、中间件、数据库等服务器设备采用人工巡检的方式,每天上午1次,基本无法保证系统故障或缺陷的及时消除。部署基线告警功能模块后,如发生硬盘故障、内存利用率高等影响系统稳定运行的潜在隐患,都会以短信及邮件信息的形式通过运维人员,将传统故障发现时间降低到了5 min以内。图7所示为系统中相应的告警视图,图中所示为变电站生产视频监控系统太原web服务器内存利用率超过阈值的告警,直接触发了内存利用率基线告警。另外,它还可以生成周、月、年度报表,方便运维人员全面了解计周期内设备故障发生情况,为接下来的技改大修提供依据。图7所示为当月该设备内存利用率的实时数据,内存隐患为16日告警服务模块进程卡死。通过部署基于基线的告警管理功能,极大地增强了主机、存储、中间件等设备的可靠性,缩短了故障恢复时间。
图7 内存利用率异常图示
动态基线告警的实现为服务器、中间件及数据库的CPU、内存利用率提供了一种专门的管理手段,提高了各类信息通信支撑系统的可靠性,应用以来,将传统1天2次的人工巡检升级为系统7×24小时智能巡检,故障巡检平均发现时间由之前的1.5小时缩短为1 min以内,不仅增强了系统的可用性,还提高了运维人员的工作效率。
参考文献:
[1]李学龙,龚海刚.大数据系统综述 [J].中国科学:信息科学,2015(45):1-44.
[2]余江,万劲波.推动中国云计算技术与产业创新发展的战略思考 [J].中国科学院院刊,2015(30):181-185.
[3]杜占玮,杨永健.一种基于自适应高斯过程的基线计算算法[J].计算机科学,2012(39):79-82.
[4]谌志华.安全基线管理在企业中的应用 [J].计算机安全,2013(3):19-22.
[5]赵渊,郭胤.考虑参数不确定的电网可靠性概率分布特征[J].电网技术,2013(37):2165-2172.
[6]张岩.一种差异化故障信号的计算机特征还原技术 [J].科技通报,2013(29):150-153.
[7]张成,李元.基于统计模量分析间歇过程故障检测方法研究[J].仪器仪表学报, 2013(34):2103-2110.
[8]宗序平,姚玉兰.利用Q-Q图与P-P图快速检验数据的统计分布 [J].知识丛林,2010(20):150-152.
Research and Implementation of Dynamic Baseline Alarm Management in Host Monitoring System
GU Liang,DUAN Jie,DUAN Jing
(State Grid Shanxi Electric Power Corporation Information Communication Branch, Taiyuan,Shanxi030001,China)
Based on enterprise comprehensive network management platform,the dynamic baseline alarm management in host monitoring is studied and realized.Through the application of probability and probability distribution algorithm in alarm management process,the CPU's performance parameters of servers,storage devices and routers are realized to be monitored by dynamic baseline management.After test and verification,the achievement of this research has been successfully applied in Shanxi Electric Power Network Information Intelligent Monitoring PlatformSystemsothat host monitoring has been realized successfully.
host monitoring;dynamic baseline;Gaussian process
TP277
A
1671-0320(2017)03-0040-05
2017-01-19,
2017-04-11
谷 良(1987),男,山西朔州人,2013年毕业于中国科学技术大学软件工程专业,硕士,工程师,从事信息通信运维工作;
段 婕(1987),女,山西临汾人,2013年毕业于北京邮电大学通信工程专业,硕士,工程师,从事信息通信运维工作;
段 敬(1983),男,山西太原人,2006年毕业于太原理工大学电子信息工程专业,双学士,主任工程师,从事信息通信运维工作。