智能运维监控平台在数字孪生黄河建设中的应用

2024-02-28 18:23李自尊张一凡
水利水电快报 2024年1期
关键词:数据中心运维黄河

李自尊 张一凡

收稿日期:

2023-06-06

作者简介:

李自尊,女,高级工程师,硕士,研究方向为水利信息化及云数据中心建设。E-mail:lizizun@foxmail.com

引用格式:

李自尊,张一凡.智能运维监控平台在数字孪生黄河建设中的应用

[J].水利水电快报,2024,45(1):95-100,115.

摘要:

为解决信息系统依靠人工运维出现时效性差、运维工具繁多等问题,提出基于统一智能运维监控平台,实现面向业务、应用和IT基础设施等全生命周期的运维管理方式。梳理总结黄河数据中心信息系统运维管理发展历程,从黄河数据中心运维现状及数字孪生黄河建设对智能运维管理的需求出发,提出面向数字孪生黄河建设的智能运维监控平台设计方案,详细阐述了建设目标、建设任务、平台逻辑架构、平台特性、特色功能等。通过智能运维监控平台建设,有效提高了黄河数据中心信息系统运维工作的精细化、自动化、智能化水平,提升了信息化运维保障支撑能力。

关键词:

数字孪生黄河; 智能运维监控; 业务视图; CMDB; 可视化

中图法分类号:TP391

文献标志码:A

DOI:10.15974/j.cnki.slsdkb.2024.01.017

文章编号:1006-0081(2024)01-0095-06

0  引  言

近年来,通过实施电子政务系统、黄河下游防洪非工程措施、黄委综合管理信息资源整合与共享等重点项目[1],黄河数据中心部署的计算、存储、網络等基础设施及业务系统已形成了相当的规模。随着数字孪生黄河建设的深入开展,治黄业务对信息系统的依赖程度将越来越高,信息系统运维管理在数字化建设进程中承担越来越重要的角色[2]。黄河数据中心通过多年的信息化服务支撑积累了一定的运维管理经验,但仍存在运维时效性差、运维工具繁多等问题。基于统一智能运维监控平台,实现面向业务、应用和IT基础设施等全生命周期运维管理,有效保障业务系统的持续稳定运行,具有十分重要的现实意义[3]。

本文从黄河数据中心运维现状及数字孪生黄河建设对智能运维管理的需求出发,提出面向数字孪生黄河建设的智能运维监控平台设计方案,旨在提升信息系统运维工作的精细化、自动化、智能化水平,提升信息化运维保障支撑能力。

1  信息系统运维管理发展历程

黄河数据中心信息系统运维管理主要经历了起步、发展、稳定、提升等4个阶段的发展历程。

(1) 起步阶段。2004年以前,治黄信息系统运维无专职运维岗位,信息中心人员兼职从事运维工作。运维管理不成体系,配置了部分零散的监控工具,管理能力处于较低水平。

(2) 发展阶段。2004~2009年,黄河数据中心成立,逐步完成兼职运维团队向专职运维团队的转变。运维人员有了不同岗位的划分,运维工作事项和岗位职能逐步清晰,不同岗位之间的协作也有较明确的流程化要求。运维管理规范化工作初步完成,管理能力明显提升。

(3) 稳定阶段。2009~2020年,随着水利部于2009年颁布《水利信息系统运行维护定额标准》,运维工作在制度与经费上有了保证,形成了较完整的运维管理体系[4]。运维人员的岗位职能进一步精细化,管理目标从基础设施的监控向业务监控持续优化,并逐步借助智能运维工具开展运维工作。

(4) 提升阶段。2020年至今,管理体系已较成熟,管理理念由传统的保障转为以服务为中心,即强调为治黄信息化建设与应用的相关用户提供更全面、高效的运维支撑保障服务,强调保障的预见性与处置的敏捷性。同时随着国产化、数字孪生黄河建设的推进,信息系统运维对智能运维监控工具在兼容性、可靠性等方面提出更高要求,亟需具有自动化、现代化、智能化功能的智能运维监控平台,促进实现“全面化、可视化、自动化、移动化、决策可量化”的智慧运维体系建设[5]。

2  智能运维监控平台设计

2.1  建设目标

搭建智能运维监控平台,实现面向数字孪生黄河建设相关的计算、存储备份、虚拟资源、网络通信、机房动力环境等软硬件设备及业务系统的统一运行监控管理、配置管理数据库(Configuration Management Database,CMDB)资产配置管理,建立电子化、规范化运维流程,实现各个运维系统模块之间有效的数据联动,并提供基于用户角色、不同展示需求的可视化大屏展示,实现信息系统运维管理的现代化和智能化,具体目标如下。

(1) 提升信息系统运维管理水平。通过梳理信息系统运维管理基本原则、管理策略、组织架构、岗责制度、绩效考核机制,构建信息系统运维管理体系,使运维管理模式和业务管理模式与应用特点有机融合,提升信息系统运维管理水平。

(2) 提升信息系统服务水平。通过对信息系统基础设施、关键业务系统全链条视图化监控,从业务角度快速发现并定位故障点,实现从被动到主动的运维服务方式[6];以智能运维监控平台为抓手,引入服务级别管理及运维考核制度,促使服务质量的持续提升[7]。

(3) 提升信息资源管理水平。实现对各业务系统中多品牌型号的软硬件设备及业务应用的统一管理、统一展现。

(4) 提高工作规范性及效率。基于运维管理规章制度,梳理固化信息服务流程,使故障、服务等事件处理按照规则流程化执行[8];通过固化日常运维作业计划,逐步提供自动化的执行手段,提高服务工作质量及效率,降低运维人员工作负荷。

(5) 辅助决策。通过可视化数据分析,在提升关键需求支撑水平的同时为信息化系统建设及优化提供参考依据。

2.2  建设任务

智能运维监控平台的建设任务主要包括集中监控管理平台、运维流程平台、配置管理数据库(Configuration Management Database,CMDB)系统、可视化展示平台及与现有系统集成等(图1)。

(1) 集中监控管理平台。实现对现有信息资源的实时监控,包括通信网络设备、服务器、数据库、中间件、虚拟化资源、业务系统、机房等[9],通过自定义的分级告警、分时段智能阈值设置,实现对IT设备和业务的集中监控管理,同时具备自动巡检管理、自动生成统计分析报表等功能。

(2) 运维流程平台。具备服务支持、值班排班管理、运维管理知识库、多维度数据报表等功能,为运维管理人员提供统一服务窗口,重点在于可根据不同用戶需求提供各类统计报表服务。

(3) 资产配置管理平台(CMDB管理平台)。作为集中监控平台与运维服务管理平台的核心,提供针对业务应用系统、服务器、存储设备、网络设备、安全设备、机柜、机房等CI(配置项)的资产履历表,提供查询与统计服务[10]。

(4) 可视化展示平台。包含综合可视化大屏展示及可视化机房展示[11]。综合可视化大屏展示根据用户角色、展示需求、展示时间段不同,设定不同的展示内容,整体可分为日常运维场景、紧急处置场景、接待展示场景及专题展示场景等。

(5) 与现有系统集成。主要包括集成机房现有动环监控系统、集成现有短信平台、实现与现有综合信息门户的单点登陆。

2.3  平台逻辑架构

智能运维管理平台从体系架构上分为资源层、数据采集层、数据处理层、逻辑层、展现层[12],具体如图2所示。

(1) 资源层。资源层汇聚了智能运维监控平台监控的全部对象,由黄河数据中心现有机房环境、网络设备、服务器、安全设备、数据库、中间件、虚拟化平台等组成。

(2) 数据采集层。本层由各种协议适配器构成,向上层提供统一的接口访问管理协议栈,获取事件、性能、拓扑等管理信息,并在初始发现时作为驱动模块构建信息模型。

(3) 数据处理层。对底层采集的数据进行统一描述,形成管理信息库,向上提供统一的管理语义和调用接口,响应前台应用的请求,完成数据查询、处理等功能[13]。各业务模块基于管理信息库面对统一的数据模型,实现面向事务的并发管理,屏蔽底层协议的差异性。

(4) 逻辑层。提供集中监控平台、运维流程平台、CMDB管理平台及数据集成接口等,对外提供相应的功能服务。

(5) 展示层。前台信息展示界面,从逻辑层得到数据加以汇总、分析、展现,主要包括个性化运维门户管理、可视化大屏展示中心。利用分布式总线实现各逻辑层之间的通信,功能模块之间通过内部定义数据接口,利用消息总线进行交互式操作。

2.4  平台特性

(1) 先进性。基于先进的理念和管理技术,采用成熟、先进的管理平台,适应智能监控技术的发展方向。

(2) 实用性、灵活性。满足实际管理需要,真正解放管理人员的日常维护工作[14];用户可根据需求灵活自定义专题视图及运维流程,如根据项目建设需要将项目建设相关的软硬件设备监控、运维管理、CMDB管理等纳入同一专题展示等。

(3) 规范性。接口的标准化和规范化原则,建立统一的运维管理规范。

(4) 开放性。系统应遵循行业的标准或规范,采用标准的、开放性的技术,并提供接口供其他系统调用,数据库使用主流数据库系统,可与黄委信息中心数据库对接,实现对其数据的提取。

(5) 扩展性。既充分考虑到未来技术的发展变化又考虑运维管理的新需求,方便满足新增的监控需求,扩展新增的监控功能。

(6) 安全性。系统本身具备较高的安全性,同时对纳管设备不应产生较大的性能影响。

(7) 互动关联性。集中监控平台、运维流程平台及CMDB管理平台存在内部数据接口和信息联动,任何模块监控组件的信息变动、更改、增加、删除等操作都会在其余模块同步更新。

(8) 兼容性。运维监控平台兼容主流厂家的网络设备、存储设备、服务器设备、虚拟化、云平台、数据库等[15],可解决黄河数据中心信息系统来自多家供应商,信息出口不统一的问题。

2.5  特色功能

2.5.1  灵活的用户权限管理

根据功能权限及设备监测权限划分人员角色,通过限定固定IP地址访问、详细的操作审核机制、用户配置信息加密等方式提升平台的安全性[16]。

用户管理模块基于用户角色分配不同的用户权限,在同一分组内的运维人员拥有相同的权限。最高级别的系统管理员可增加、修改、删除用户,为其他系统管理人员配置不同的用户名、密码和权限[17]。平台包括业务视图、资源列表、智能工具、可视化视图等在内的所有功能均采用权限化管理,促进平台管理规范化。

2.5.2  数字孪生核心业务系统的深度监控

针对数字孪生核心系统,通过动态图形组合,对运维的信息系统进行业务建模,形成系统服务、使用部门与业务系统间的关联关系。业务视图以业务系统为中心,提供业务系统自底层基础设施至上层端口各层级涉及到的监控组件并实时主动集中展现,从而将零散的信息管理统一于业务视角,呈现信息部门的管理工作价值,实现信息系统管理与事业发展战略相关联(图3)。

(1) 资源运行状态可视化。通过在统一界面上基于不同颜色展现各类资源部件的状态变化及性能,提供多层次可供扩展的图形化监控界面数据展现,及时提醒资源异常情况。

(2) 业务建模可视化。通过从用户视角建立自定义个性化业务视图,提升业务流和服务的可见性;基于业务视图统一展现故障位置,以及时得到隔离、诊断和修复,降低对业务的干扰。

(3) 服务依赖关系可视化。通过自动发现功能,构建应用和底层IT资源的依存关系,展现业务服务与底层基础系统架构部件间的依赖关系,增进运维人员对各种信息资源的整体掌控。

通过梳理关键业务系统及其依赖的中间件、数据库、操作系统、网络、服务器等基础支撑软硬件、安全环境的关系链条,形成业务拓扑图,直观反映业务系统及其依赖的运行状态。通过业务拓扑图,实时查看资源告警和指标信息,并可联动查看资源的关键指标、维护信息、监控配置、拓扑定位、业务结构、机房-定位等信息,从而快速判定故障点位置,提升运维质量及运维效率。

同时,通过RESTful接口、脚本管理,自动获取接收各系统发送的监控数据,并通过KPI指标(可用性比率、MTTR、MTBF、故障次数等)将业務系统的可用性、繁忙度、健康度等性能状态进行展示[18],并最终绘制出整个业务运行的健康曲线,呈现在大屏展示系统中。

2.5.3  面向管理实际的运维服务闭环管理

基于智能运维监控平台,将监控平台、运维流程、资产配置管理、可视化展示、知识管理、值班管理、变更管理、告警管理等完全打通,构建运维服务闭环管理。如图4所示,以监控告警为例,当业务系统产生告警信息,通过可视化拓扑展示定位故障区域,并基于完成的业务视图进行告警关联分析,精确定位产生故障告警的根源,明确责任部门,并支持以自动或手动触发的方式联动监控生成运维事件处理流程,实时跟踪事件处理结果。在处理问题时,若涉及到系统版本变更或软件升级、硬件设备更换等,可

关联发起资产配置变更流程,由事件或问题责任管理人员进行生产验证,建立相关知识库。

同时,结合通信链路、网络及安全、计算存储、数据资源、遥感业务、智能应用等维护及服务特点,梳理面向黄委信息中心业务的服务及故障分类及子类,便于从故障及服务类别、故障级别、解决时间、处理部门、处理人等多角度综合统计分析运维工单,为运维考核及系统优化提供参考依据。

2.5.4  面向数字孪生黄河建设的综合运维可视化大屏展示

可视化大屏展示中心可以根据用户角色、展示需求、展示时间段不同,设定不同的展示内容。根据实际业务需求,可视化大屏主要分为面向运维人员与面向管理人员2个维度开展。

(1) 面向运维人员。

提供可托拉拽式的大屏展示配置,包括服务器、数据库、中间件、存储、网络、业务和机房等专业领域的实时性能和告警视图等。针对不同管理领域的运维人员,展示其权限范围内的分类事件报告、基础架构拓扑、业务系统视图、告警等,并可通过告警信息直接定位出现故障的拓扑视图,同时机房管理人员可通过机房综合视图直接获知故障设备的物理位置,方便运维人员有效进行故障排除。

(2) 面向管理人员。

提供面向管理人员领导决策的大屏展示。整体分为3个部分,分别为运维信息展示、各监控设备(系统)实时运行状态、综合拓扑展示。运维信息展示依照数字孪生黄河建设涉及的信息采集、通信网络、黄河云、数据资源、智能业务等分类展示;设备(系统)实时运行状态包括资源监控总数、黄河云资源使用率、网络安全状态、实时告警展示等;综合拓扑以轮播方式展示网络拓扑、数据中心拓扑、黄河防汛通信网络拓扑等。

2.5.5  多云综合可视化管理

通过数据接口实现对黄河数据中心现有华为、浪潮虚拟化资源的统一管理和展现,自上而下呈现数据中心、集群、主机、虚拟机、数据存储之间的结构关系,实时展示虚拟机运行情况、资源消耗统计、资源TOP排行、虚拟机部署及运行密度,综合计算平均每台虚拟机占用的资源量及预计还可分配资源等。并可自定义导出按照不同时间周期虚拟机CPU、内存、存储的占用率,从而得出高消耗及低消耗的虚拟机运行列表,协助对虚拟化资源进行精细化管理。

3  结  论

智能运维监控平台从黄河数据中心运维管理现状及数字孪生黄河建设对智能运维的需求出发,包含智能监控平台、运维平台、资产管理平台、可视化展示、系统集成等功能模块。基于各功能模块的协作运行,实现了对信息化基础支撑组件、业务系统等的统一运维管理、运维流程闭环管理及信息资产的全生命周期管理,有效支撑了黄河数据中心各类信息化资源的稳定运行。智能运维监控平台较原有信息系统运维方式,提升了运维服务体验,提高了运维工作效率,提升了运维工作的精细化、规范化、智能化水平,具体表现在以下几个方面。

(1) 以智能运维监控平台中告警管理、工单管理、统计分析等功能模块为支撑,结合单位业务管理模式,进一步规范运维监督考核机制,使运维工作可量化、运维过程可追踪,信息系统运维管理水平得到提升。

(2) 基于短信告警、业务视图、全覆盖资源监控等功能,较原有运维模式更快速响应并定位故障点,提升信息系统服务水平及用户体验。

(3) 由原有众多信息系统资源分散运维管理,转变为集中统一监控管理,资源管理的自动化、智能化水平得到提升,同时基于CMDB系统建立软硬件资产履历表,有效解决了原有资产管理出现的资产归属不清、维护和使用部门不明等问题,信息资源管理水平得到提升。

(4) 以制度为抓手,以智能运维监控平台作为保障,引导各项规章制度落地增效,工作规范性和效率得到提高。

(5) 以智能运维监控平台中积累的大量告警信息、资产履历信息、运维流程信息、综合性能分析等数据为依据,辅助运维工作持续改进。

参考文献:

[1]  李文学,寇怀忠.关于建设数字孪生黄河的思考[J].中国防汛抗旱,2022,32(2):27-31.

[2]  王玉春.浅析医院信息系统三级运维保障机制[J].信息系统工程,2018(12):92-93.

[3]  王學刚.基于ITIL的运维服务管理系统设计与实现[D].镇江:江苏大学,2017.

[4]  郭丽敏.炼化企业信息系统运维管理的分析与探索[J].中国管理信息化,2016,19(2):51-93.

[5]  谭章禄,吴琦,肖懿轩,等.智慧矿山信息可视化研究[J].工矿自动化,2020(1):26-31.

[6]  郑凯,李秉哲.山东黄河综合运维管理平台应用分析[J].山东水利,2019(2):38-39.

[7]  张杰全.基于ITIL的IT服务管理在制造业的应用研究[D].天津:天津工业大学,2014.

[8]  刘瑞华.工程机械企业IT服务管理的应用分析[J].建筑机械化,2020(5):61-63.

[9]  余前佳,李佳临,李正,等.自然资源部国家级云数据中心运维管理探讨[J].国土资源信息化,2018(3):8-11.

[10]  王磊,伍治平,成名.一种支撑云管理平台的CMDB设计方法[J].冶金自动化,2015(1):13-18,32.

[11]  蒋召召.基于WebGL的数据中心3D可视化系统的设计与实现[D].杭州:浙江工业大学,2019.

[12]  武琳荃.IT运维服务管理系统的设计和实现[D].广州:华南理工大学,2016.

[13]  任斌.基于智慧校园的智能感知平台设计[J].办公自动化,2019(23):43-45.

[14]  黄龙.富达公司运维服务管理系统的设计与实现[D].大连:大连理工大学,2020.

[15]  张桢,高宏.多云异构环境下统一云管平台设计研究[J].中国新通信,2020(11):52-53.

[16]  张强,马兴涛.利用新型信息管理平台提升企业的信息水平[J].信息系统工程,2017(2):67.

[17]  谢海波.嵌入安全控制模块的装备管理信息系统的设计与实现[D].成都:电子科技大学,2012.

[18]  魏玉涵.IT全方位综合管理BSM系统设计和实现[D].天津:天津大学,2016.

(编辑:李  晗)

Application of intelligent operation and maintenance monitoring platform in construction of Digital Twin Yellow River

LI Zizun,ZHANG Yifan

(Information Center,Yellow River Conservancy Commission,Zhengzhou 450004,China)

Abstract:

In order to solve the problems such as poor timeliness of operation and maintenance of information system relying on human labor and various operation and maintenance tools,a unified intelligent operation and maintenance monitoring platform to realize the whole life cycle operation and maintenance management mode for business,application and IT infrastructure was proposed.We summarized the operation and maintenance management development history of Yellow River data center information system,starting from the operation and maintenance status of Yellow River data center and the demand of Digital Twin Yellow River construction for intelligent operation and maintenance management,puts forward the design scheme of intelligent operation and maintenance monitoring platform for Digital Twin Yellow River construction.The construction objectives,tasks,platform logical structure,platform characteristics,features and functions were elaborated.Through the construction of the intelligent operation and maintenance monitoring platform,the operation and maintenance of the Yellow River Data Center information system had been effectively improved at the level of refinement,automation and intelligence,and the informatization operation and maintenance support capability had been enhanced.

Key words:

Digital Twin Yellow River; intelligent operation and maintenance monitoring; business view; CMDB; visualization

猜你喜欢
数据中心运维黄河
酒泉云计算大数据中心
多彩黄河
黄河宁,天下平
『黄河』
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
民航绿色云数据中心PUE控制
杂乱无章的光伏运维 百亿市场如何成长
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用