基于云计算资源池的运维管理平台

2022-11-25 10:09
通信电源技术 2022年13期
关键词:计算资源日志运维

杨 烨

(中通服咨询设计研究院有限公司,江苏 南京 210019)

0 引 言

云计算资源池具有灵活、稳定、操作简易、便于维护、拓展性高以及高效节能等优势,并且能够根据不同用户的个性化需求提供相应的服务。凭借这些优势,云计算资源池能够有效支撑当前网络业务平台的大部分运行维护功能。但由于新时代网络业务平台的多元发展,单一的运维模式已经无法满足众多网络业务平台的全面需要。因此需要针对相应业务平台的特征、需求,基于云计算资源池对运维管理平台进行升级维护,才能够保障运维管理平台的高效、稳定运行。

1 基于云计算资源池的运维平台的功能需求分析

1.1 云计算资源池基本软硬件

构建更健全、稳定、全面的云计算资源池监控服务有助于平台用户以及管理员快速发现并识别平台运行过程中的异常情况,同时有助于相关检修人员结合实际情况以最快的速度精准定位故障位置,并对故障的发生原因加以分析、处理与记录。依照需求整合网络资源,以提升运维平台的稳定性、安全性与实效性,确保平台用户能够获取最佳的使用感受。云计算资源池软硬件环境架构如图1所示。

图1 云计算资源池软硬件环境架构

1.2 监控平台的功能需求

基于云计算资源池,要设计相对优质的监控平台,便要从相应业务平台的需求出发,进行个性化开发,针对不同运维平台的需求重点考虑如下方面。

(1)资源管理。资源管理模块可对系统资源池、信息中心、物理主机、云主机、交换机、防火墙等设备、资源信息、系统等进行全面管理,具体包含监控、删减、新增、拷贝以及修改等[1]。云平台资源池涉及的设备、信息众多,如果单纯利用人工方式进行调整与修改则无法充分发挥云平台资源池高效率、快节奏的优势,因此需要支持相关设备、系统的自动发现、检修技术。具体包含物理主机的自动检修、云主机的自动检修以及系统更新、信息同步等技术,同时包含自动化的信息创建、删改、调整功能。

(2)资源分析。结合自动化的图表生成技术,对整体云计算资源池中的信息、资源等进行动态性、规模化的查询,同时可以将路由器、主机、防火墙等设备、系统的性能数据自动化生成为图表,以供管理人员、平台用户等进行查看。

(3)资源统计。提供运维管理平台相应业务系统全天候的监控与管理服务,可通过自动化的系统监控或是个性化的人工查看、控制对运维平台进行全天候的实时监测,方便与对性能数据进行汇总与统计分析,支持重点模块的性能异常检测。该功能模块可以理解为性能数据模块与性能系统分析模块的集合,前者的功能体现在运维平台可以对整体系统、平台所监控、管理的信息资源等进行动态化、个性化的查询,同时能够依照时间维度以图表的形式对相关性能数据进行展示;后者的功能体现在运维平台能够对整体平台所监督、管理的信息资源、应用程序、设施设备等进行动态分析与统计,同时绘制成报表进行性能数据图表导出。

(4)告警管理。提供对运维平台相关设备、程序性能方面的监控以及告警管理等服务,能够为业务平台用户、管理员提供及时的告警信息,同时提供基于用户层面的告警信息的自动生成、处理、派送服务,依照不同时间、不同权限与不同等级的相应标准,向运维人员输送相关信息,便于检修工作的快速开展。告警信息通常包含运行故障信息、运行风险、日志告警等[2]。

(5)日志管理:支持运维工作人员基于不同需求、不同标准开展有针对性地服务日志、智能平台管理接口(Intelligent Platform Management Interface,IPMI)日志、系统日志、操作日志等信息的筛选服务。运维人员能够通过日志管理搜寻、查看、分析、删减以及导出各项日志信息。

(6)网络管理。提供对网络资源的拓扑以及监控服务,在网络通信线路或是相关节点、设备等出现故障的情况下进行主动报警,从而有效提升网络故障的响应能力,帮助运维人员全面的收集、分析网络性能数据,为其后续的扩容、调整与改造工作提供便利与科学依据。同时,能够帮助运维人员对网络的具体运行情况获得更明确的认知,方便其结合运维需求灵活调整网络流量额度、速度等,以此保障整体网络的服务质量[3]。

2 基于需求的运维管理平台架构设计

从满足平台功能要求出发,本运维管理平台总体架构可分为人机交互层(展示层)、业务层、资源层,结构如图2所示。

图2 全运维管理平台的架构

图2中,展示层是运维平台的人机交互主界面;业务层具体包含运维平台中的各项功能模块、业务等,如资源管理、资源分析、身份管理、安全管理以及日志管理等;资源层主要是基础设施即服务(Infrastructure As A Service,IAAS)层中的平台相关设备、系统、功能模块等的所有资源信息,具体包括计算信息、信息存储、网络数据、安全系统以及设备等[4]。

平台技术架构主要基于应用程序界面(Application Program Interface,API)网络关联性实现统一接口、性能展示、系统告警等服务。运维业务平台主要利用了容器微服务管理功能,从而实现配置管理、日志管理、认证服务、系统告警等服务的容器化升级。持久化层采用了elk、MySQl等主流信息储存软件、云平台;中间层结合了RabbitMQ服务器的功能、模块等;采集层主要包含了远程采集技术、监控信息量采集技术、日志信息采集技术等。

3 运维管理平台应用实例

某省电力公司信息化基础设施主要包含外部网络平台(公共互联网电力综合业务系统)以及电力公司内部专网。在电力服务信息化发展的宏观大背景下,该省部署在外网的业务系统数量、服务模块功能以及应用人数都在不断增长。为更好地优化其外部业务系统的运行稳定性与社会服务效益,同时也为降低内部人员的工作负担以及相应的费用支出,该电力公司特向某移动公司购买公用云资源运维管理服务,应用上文所设计监控平台,用以部署、维护其外网电力业务系统。在此只简单介绍该运维管理平台其中几个模块的功能特点。

3.1 资源管理

资源管理模块依托于Java、MySQl技术开发出平台的资源管理数据库,用于支撑互联网电力综合业务系统运维平台的各项业务以及针对IT资源配置信息的查询、分析、管理与关联等需求。同时根据该网络系统信息浏览量庞大、用户规模大、业务流量高等特点,特结合运营商务物理机以及云端网络虚拟机,构建起能够承载大量数据信息的资源管理与储备模块,以维持后期相关工作的稳定开展。

3.2 资源统计与分析

主要用于告警、运行质量、资源性能等数据的收集、计算与分析,同时为用户、管理员、运维人员等提供相应的图表自动化生成功能、报表展示功能、文件下载功能。该模块主要分为“信息获取”“信息分析与计算”“前端调用接口服务”3个部分,各部分的功能如下。

(1)信息获取。指依照固定的目标,在运维平台以及云计算资源池范围内,结合Java、mysql等多项技术手段与方式方法获取原始信息的活动与过程。主要用于自动收集互联网财政政务系统以及其运维平台运行过程中的财务业务信息、政府人员+运维管理人员+互联网系统用户数据信息、用户浏览数据、网络信息内容、领导层发布内容信息、管理者调整内容等数据资源。

(2)信息分析与计算。根据电力公司、用电客户以及云计算资源池运维商三方的不同需求,对相应的源数据进行分析以及计算,同时自动化生成图表、报表等信息展示文件,以为相关人员的业务需求提供理论参考与数据支持。以系统运维需求为例,运维人员可以提取某一电力子公司功能模块在不同时间段的使用流量,以此为基准对该模块使用高峰期进行重点维护。

(3)前端调用接口服务:包含文件导出、文件下载功能,根据相关人员的需求提供图表、报表、数据文件的修改、预览与下载服务[4]。通过为管理人员提供更简单明了的文件信息,以便于其结合实际数据信息更好地开展电力服务监管与运维工作。

3.3 告警管理

告警管理模块主要包含告警采集、告警重定义以及告警分类、告警处理、告警发布、告警推送等功能。其运行流程如图3所示。

图3 告警管理模块运行流程

(1)告警数据采集:实时检测运维平台中用户违规操作、平台故障、网络病毒、断电以及断网等情况,并收集相关数据。

(2)告警数据重定义:针对实际告警数据、数据产生位置、数据产生原因等进行分析与重定义,将紧急情况较低、对运维平台运行质量、用户使用体验等影响较小或是不会产生影响的数据剔除。

(3)告警数据分类:结合不同告警数据的详情信息,将其细分为系统告警、网络告警、用户操作告警等不同分类。

(4)告警数据处理:针对不同告警数据的分类对其进行分级处理,通常可细分为紧急告警、严重告警与一般告警,并根据告警信息的级别与分类确定其发布类型、发布时间以及目标端口。

(5)告警发布:结合实际情况将不同告警信息以不同的形式发布至相应管理人员的平台端口[5,6]。

案例平台中其他信息采集与监控、日志信息管理、平台展示功能模块不再赘述。

4 结 论

本文研究的运维管理平台能够为相关用户提供基于云计算资源池的资源管理、资源分析、告警信息分析与处理、日志信息管理等多元化的运维功能。能够实现运维人员对系统平台的全天候、全维度监控以及全面管理。有助于相关运维人员加强对资源池计算、信息贮存、平台使用情况等数据信息的掌握程度,有效满足运维人员、管理人员、平台用户三方的使用需求,提升运维效率的同时降低运行分享,具备一定的参考价值。

猜你喜欢
计算资源日志运维
高速公路智能运维平台
一名老党员的工作日志
扶贫日志
浅谈信息产业新技术
基于BIM的供水管网智能运维管理系统设计
雅皮的心情日志
雅皮的心情日志
一种作业调度和计算资源动态分配方法
基于云桌面的分布式堡垒研究
配电线路的运维管理探讨