孙维亚 吴兴国 胡林森
摘要:云服务商提供的云服务承载了政务、金融等诸多重要客户业务。如何提升云上部署重要业务的监控水平是当前面临的难题。文章以基线预警系统为例,从系统的模型构建、实现原理、部署方法和应用效果等几个方面详细进行了阐述。该系统实现了客户业务主动监控,业务流量变化快速感知,大幅提升了运维人员响应效率,为探索云服务商提升重要业务的监控能力提供了新的方法。
关键词:云服务商;智慧监控;基线预警
中图分类号:TN711.1 文献标志码:A
0 引言
近年来,在数字经济大潮的引领下,云计算技术从互联网行业向政务、金融、工业、医疗等传统行业加速渗透,在各行业得到了迅速发展和广泛应用[1]。云计算具有高性价比、高可靠性、高安全性、快速部署、方便扩展等特点[2-3],大幅节约了使用成本,提升了管理效率。
由云服务商提供算力服务的政务云平台,承载了诸如健康码、疫苗追溯管理系统等涉及民生的重要业务,在特定时期发挥了重要作用。客户为提升业务稳定性,通常会选取两个云服务商,分别部署一些重要的政务服务,用于业务冗余。当主用平台发生故障时,紧急启用备用平台,以提升服务的连续性、稳定性。从云服务商角度来看,当客户业务系统功能故障或用户流量突增时,客户会将部分或全部用户流量分流到备用平台。一般来说,部署在租户层面的监控由客户单位进行管理,可及时感知到业务流量变化;但对于云服务商的平台运维人员,却无相关手段在第一时间内感知到客户重要业务的切换。如何做好此类场景的通信保障工作成了一个新的研究课题。
1 构建智慧监控能力
为提升云服务商智慧化运维能力,本文采用智慧监控手段,对客户部署在云平台上的重要业务,采用基线预警系统进行监控,其工作原理如下。
1.1 构建基线模型
基线预警系统构建的基线模型由网络基线、存储基线、计算基线构成,如图1所示。系统针对云平台承载的重点客户业务,通过设置网络基线进行监控。当云平台重点指标(如防火墙会话数、出口带宽等)劣化时,系统会生成告警,实现故障提前发现和预测。该模型以网络基线为主要指标,同时引入存储基线、计算基线作为辅助验证手段,参考租户虚机磁盘读写率的变化,以及虚机CPU、内存变化趋势,用于辅助验证客户业务承载状态,提高系统识别准确率。
1.1.1 网络基线
包含防火墙会话数、指定IP会话数、出口带宽、端口CRC误码率等指标。
1.1.2 存储基线
包含IOPS、存储流量两个指标。
1.1.3 计算基线
包含宿主机CPU利用率、内存利用率,云主机CPU利用率、内存利用率等指标。
1.1.4 设定阈值
根据承载客户业务日常运营数据作为参考值。重要告警阈值:取参考值的2倍;紧急告警阈值:取参考值的5倍。以云平台出口网络带宽为例,若出口网络带宽月度峰值1.01 Gb/s为参考值,则重要告警阈值:2.02 Gb/s;紧急告警阈值:5.05 Gb/s。同时,根据客户业务特点,若日间业务峰值与夜间业务峰值有显著区别,基线可根据时间动态调整。
1.2 系统工作原理及部署方法
1.2.1 系统工作原理
基线预警系统由采集模块、通知模块、页面展示 模块组成,如图2所示。采集模块通过部署采集机,限定源、目的IP地址及端口,安全接入云平台管理网络,定时从相关网络设备实时获取业务的重要指标。
图2 基线预警系统工作原理
当指标超过设定的阈值时,由通知模块调用监控告警平台接口,向运维人员派发告警通知。同时根据运维人员关注的云平台重要指标,如出口网络实时流量、防火墙总会话数、指定业务会话数等,将这些信息整合关联,以短信或邮件的方式及时告知平台运维人员,使运维人员全方位掌握云平台运行情况。
通知模块还设定了告警恢复机制,当指标低于设定的告警阈值时,由通知模块调用监控告警平台接口,向运维人员发送业务恢复短信。
同时,该系统提供了页面展示模块,定时将运维人员关注的平台重点运行性能指标记录下来,如图3所示,进行可视化展示,性能指标包含:云平台出口流量、防火墙总会话数、重要业务会话数等,方便运维人员及时回溯监控数据,如图4所示。
1.2.2 部署方法
我们以监控某健康码系统为例,基线预警系统在配置好待监控的业务IP后,系统调用采集模块定时登录云平台防火墙设备,获取业务IP实时防火墙会话数。我们根据客户业务模型及业务高峰时段,动态设定告警阈值。系统每隔3分钟获取一次客户业务会话数。为降低误报概率,当连续2次获取的会话数超过阈值,即触发告警机制,由通知模块调用监控告警系统API,发送告警工单预警,如图5所示。同时整合采集到的云平台出口流量、防火墙总会话数等重要指标,定时发送报平安短信到运维人员,如图6所示。
当获取的业务实时会话数,连续2次低于设定的阈值,系统即判定业务高峰已恢复,发送一条业务恢复工单,告知运维人员业务峰值已过。
1.3 系统应用效果
基线预警系统自投入使用以来,对部署在云平台上的某健康码平台进行7*24小时监控,共完成客户业务重保10次,改变了之前人工判断业务流量切换的现状,平均响应时间由原来的90分钟,缩短为10分钟以内,响应效率大幅度提升。
2 结语
本文结合当前云服务商具体运维工作面临的难点,采用智慧监控手段,自研基线预警系统,设定网络、存储、计算基线模型,实时获取重要平台指标,整合云平台重要运維数据,实现了客户业务主动监控,业务流量变化快速感知,大幅提升了运维人员响应效率。
参考文献
[1]中国信息通信研究院.云计算发展研究[J].大数据时代,2020(8):28-39.
[2]王佳雋,吕智慧,吴杰,等.云计算技术发展分析及其应用探讨[J].计算机工程与设计,2010(20):4404-4409.
[3]戴元顺.云计算技术简述[J].信息通信技术,2010(2):29-35.
(编辑 李春燕)
Application of intelligent monitoring in key business monitoring of cloud service providers
Sun Weiya, Wu Xingguo, Hu Linsen
(China Telecom Anhui Branch Hefei Co., Ltd., Hefei 230000, China)
Abstract: The cloud services provided by cloud service providers carry many important customer businesses, such as government affairs and finance. How to improve the monitoring level of important business deployed on the cloud is the current challenge. Taking the baseline warning system as an example, this paper expounds the model construction, implementation principle, deployment method and application effect of the system in detail . The system realizes the active monitoring of customers business and rapid perception of business flow changes, greatly improves the response efficiency of operation and maintenance personnel, and provides a new method for exploring cloud service providers to improve the monitoring ability of key businesses.
Key words: cloud service provider; intelligent monitoring; baseline warning