一种轻量级运维管理系统的设计和实现

2018-09-26 11:34杨旸呼和李为冲张垚
数字技术与应用 2018年5期
关键词:运维管理统计分析

杨旸 呼和 李为冲 张垚

摘要:随着业务的不断拓展,新系统的不断上线,系统运维团队的压力变得越來越大。为提高运维工作效率,降低工作强度并控制人力成本,本文提出了了一种轻量级运维管理系统设计和实现方案。通过该系统,运维人员将能直观地了解各个系统、服务器的运行状态,并能方便地对各业务热度和服务器压力进行统计和对比,还能将运维经验有效地收集、共享和讨论,方便了其他运维人员和各系统用户的工作,也为多地协作提供了解决方案。

关键词:运维管理;监控报警;日志采集;交流共享;统计分析

中图分类号:TP311.52 文献标识码:A 文章编号:1007-9416(2018)05-0172-02

1 背景

对于非专业IT公司的信息部门,运维团队往往只有有限的人力物力资源。随着系统不断增加,运维压力也逐年增加,需要一个自动化的运维管理工具帮助运维人员解决日常的机械性重复工作,把宝贵的精力集中在判断和处理运维风险上;也需要一个平台收集和共享运维人员经验,并提供用户查找、提问同时方便运维人员发现和反馈问题。

因此,我们需要设计一个能统一管理各个系统及相应资源的运维管理系统,协助运维人员监测和分析运维风险,同时提供一个用户和运维人员交流的平台,以提高工作效率。

2 平台应当具备的功能

为了实现设计目标,系统需要具备以下功能:

(1)统一监控和管理:包括服务器、业务系统、数据库、应用服务、业务关键服务、业务关键进程、各类硬件资源和各类账号密码等;(2)提问、检索和交流:提供一个用户和运维人员互相交流的平台,并能将解决方案和经验技巧分类保存;(3)及时通知和报警:包括各个监控对象的异常情况、用户提出的问题、长时间未被反馈的问题和长时间没有结题的问题等;(4)统计和分析:包括系统日志、应用服务日志、数据库日志、业务系统日志以及运维工作量的统计和分析。

3 系统设计

3.1 统一信息管理平台

对运维系统涉及的各个目标进行统一管理。以业务系统为单位,由各运维人员注册服务器、业务系统、数据库和应用服务信息;并填报正常运行所需的关键服务和进程信息、硬件资源信息;同时提供具有一定权限的服务器、数据库、业务系统的账号及密码。

3.2 状态监控平台

为了实现状态检查的自动化,从机械化重复劳动中释放人力资源,使用了基于Webservice和C/S端程序的状态监测方式,各系统运维人员在运维管理系统中设定的周期检查以下内容:

对于服务器、数据库和应用服务的连通情况,主监测服务器主动进行通信测试;

对于关键服务、进程、硬件资源(如硬盘容量、CPU负荷、内存使用情况等)等,由C/S端监控程序根据预先设定的扫描周期通过各服务器上的监控WebService获取目标后自动检查,如图1所示。

3.3 信息采集平台

目标信息主要有两种,非结构化(文件形式)的日志信息和结构化数据的日志信息:

对于各个业务系统数据库中本身已经结构化的业务系统日志,直接按照预设的周期取出并标准化存入运维管理系统;

对于系统、应用服务、数据库等以文件方式储存的日志,将根据各系统运维人员在运维管理系统重配置的绝对路径,由C/S端监控程序根据预先设定的扫描周期通过各服务器上的监控WebService获取路径后,按照增量采集策略,从文件夹中提取并标准化,再发送到运维管理系统的数据库相应表,同时通过WebService获取并重设下一个扫描周期。由于日志数量可能为海量数据,运维管理系统将根据日志类型、业务类型,每个月自动创建数个新日志表,如图2所示。

3.4 交流共享平台

为方便用户根据系统或问题类型找到运维专家,同时方便运维人员讨论和解决问题,并为日后统计工作量和贡献度提供依据,基于网络论坛设计了运维经验交流共享平台,如图3所示。

3.5 统计和分析平台

通过数据进行可视化处理(折线图、散点图等)使用图表对自动采集到的日志数据、交流平台运维工作记录和监控报警信息进行统计,并通过基于Excel的协方差公式(COVAR)和协方差矩阵对n组数据进行对比计算,找到数据中正相关的变量(两个变量的变化趋势一致则协方差是正值)进行相关性分析,自动生成周报和月报等资料。

4 应用效果

运维管理系统在应用中取得了良好效果。经过对比,状态监控平台有效地减少了运维风险的发现和报警时间,缩短30%以上:交流共享平台极大地提高了运维人员的工作效率和用户满意度,工作效率提高40%,用户满意度达到95%以上:信息采集平台显著地减轻了运维人员的日常运维工作压力;统计分析平台为领导决策提供了信息支持。

5 前景展望

运维管理系统已在广大用户和运维人员中广受好评,下一步计划从大数据和机械学习角度出发,挖掘现有海量数据的应用价值,对业务系统的日志进行同步分析,紧跟每个用户的操作并学习各个用户的使用习惯,为进一步优化业务流程、改进系统设计提供精准的数据支持。

参考文献

[1]梅长林,范金城.数据分析方法[M].高等教育出版社,2006.

[2]任育伟,吕学强,李卓,徐丽萍.搜索日志中热点查询的内容抽取[J].计算机应用与软件,2015,32(12):16-21.

猜你喜欢
运维管理统计分析
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析