湖南省气象综合业务实时监控平台设计与实现

2022-07-18 12:52:00冼,李
湖北农业科学 2022年11期
关键词:运维气象流程

冯 冼,李 熠

(1.湘潭大学计算机学院·网络空间安全学院,湖南 湘潭 411100;2.湖南省气象信息中心/气象防灾减灾湖南省重点实验室,长沙 410118)

随着气象现代化不断推进,省级气象业务服务不断拓展,涵盖观测、预报、服务、管理在内的各类气象业务服务系统越来越多,气象数据资料种类和数量海量增长,支撑气象业务的基础资源越来越庞大,业务系统也变得更加复杂,出故障的概率也变大[1-3],给监控和运维管理带来了严峻挑战。为解决各类气象业务监控管理问题,各级气象部门不断研发各类气象监控系统并投入应用,在一定程度上缓解了部分气象业务监控管理问题[4-7]。但由于缺乏统一的设计思路,没有实现业务监控上下游联动,信息孤岛现象凸显[8,9]。在出现故障时,运维人员往往要从采集、传输、处理、共享、应用等多个环节查找原因,要人工逐一检查观测端、传输系统、处理系统、存储系统、服务系统等多个系统的运行状况,耗时长、效率低、故障定位不准、监控运维效率不高,成为制约气象信息保障业务发展的短板,亟待解决。为解决上述问题,湖南省基于气象大数据云平台框架,采用云计算、分布式等技术,设计并构建了一体化的气象综合业务监控平台。该平台打通气象业务、数据、支撑环境不同架构,整合各类分散的监控系统,实现了贯穿气象数据全流程各环节的智能化运维,满足省级气象综合业务集中统一监控的需求,极大地提升了运维保障效率。

1 系统设计

为应对气象数据中心规模日益增长的需求,监控运维必须走向流程化管理的道路,优化体系架构、管理流程和管理信息模型,适应不同角色职能配置管理,提升运维管理效率。据此,湖南省采用扁平化、模块化的设计思路,基于省级气象信息网络、硬件基础设施、业务服务系统及配套软件实际,设计了一套气象综合业务实时监控平台,横向覆盖观测、预报、服务、信息、政务等气象全业务,纵向贯穿气象数据采集、传输、处理、存储、加工、服务生命周期全流程,范围囊括场地环境、网络、服务器、存储、中间件、应用软件等全要素,实现监控运维业务体系架构、管理流程的统一化,有效解决省级气象监控运维及信息业务管理分散、运维效率不高的问题。

1.1 分层模型

信息化是当今世界发展的大趋势,云计算、大数据、分布式技术的发展为气象信息化提供了智慧引擎,从气象业务、科研、管理到服务都将在大数据支撑下走向智慧化[10],也为解决气象信息化建设中大规模分布式数据管理、面向服务应用集成、快速高效运维监控等问题提供了有力手段。湖南省气象综合业务实时监控平台充分运用云计算、大数据、智能监控等现代技术,基于分布式架构的分层模型进行设计,利用其高并发、高扩展性的特点,强化大规模监控数据实时高效处理和分析能力,实现对海量告警信息的过滤、压缩、关联、转发以及自动化运维脚本执行,自动对系统运行性能数据进行跟踪、瓶颈分析和趋势分析,支撑端到端的智能化运维管理模式,变被动监控为主动管理,助力智慧气象发展。其分层结构如图1所示。

图1 平台分层模型

1)应用层。应用层基于湖南省气象综合业务多场景监控的需求进行设计,涵盖气象业务和数据监控以及运维保障各模块。数据流程监控模块实现气象数据从采集端,途经CTS、DPC、SOD、MUSIC至服务端全生命周期的监控管理;业务系统监控模块对省级气象核心业务系统数据流转状况、操作系统及业务进程运行状况、基础资源使用情况进行动态监控管理;基础环境监控模块利用拓扑发现功能对各类主机设备、网络设备、机房环境实行统一管理,并实行对资源的动态增删改,以达到资源管理最优化。

2)支撑层。设计集成支撑环境层,汇集异构的气象信息数据和业务服务应用数据,支撑涵盖不同数据库、不同平台的气象系统结构化监控数据、非结构化文本数据以及其他气象应用数据无缝接入,再通过统一的API接口支撑应用层对开发、部署和管理的数据需求。基于Spring Boot轻量级开源应用框架[11],采用OpenAPI构建标准化、开放式气象监控业务支撑结构,为应用层WEB服务及Java应用提供支撑;采用Nginx构建轻量级的WEB服务器[12],支撑海量气象业务系统监控数据实时、高速处理的需求。WEB平台基于HXGIS进行二次开发,满足省、市、县分级地图展示需求;采用JavaScript的开源可视化库Echarts、三维可视化组件、标准化的HTML5语言实现多样化图表展示,同时兼容主流各类浏览器,便于平台在不同环境部署应用。

3)数据层。设计包含模型、指标、状态等数据的处理平台层,对各类融合型气象业务监控数据进行流式标准化处理和集中存储。针对不同类型的监控数据,构建不同的API数据接口,便于进行读写及加工处理。处理的数据包括气象业务状态数据(如基础设施状态、气象业务流程状况等)、业务运行指标数据(如气象观测数据可用性、服务器和网络设备性能状态等)。为便于支撑层的数据接入,在数据层基于状态数据集与指标数据集建立了相应模型数据、活动数据(活动进程、解析服务等)、文件数据(如视频、图片数据)支撑接口(数据库接口、API接口、FTP接口)。

4)采集层。构建统一的采集控制平台,提供分布式资源采控系统框架,支持第三方系统集成纳管。针对省级各类气象业务系统、数据资源、基础设施特性,采集层提供了Agent、API、MQ、日志、SNMP等不同采集方式。部署Agent采集代理对湖南省气象各类业务服务系统运行状况及服务器系统的CPU、网络、内存、磁盘实时运行状况进行监控数据采集,通过API接口、MQ消息、日志等方式采集气象数据全流程各环节状态信息,采用SNMP及网络相邻协议采集本省网络资源及线路情况,适应省级综合监控业务需求。

1.2 功能结构

湖南省气象综合业务实时监控平台基于开放式的框架设计,实现对气象业务系统运行、数据传输流程、基础设施资源的总体监控运维。支持气象业务运行监控的策略配置与实时告警,可以对监视界面进行灵活的可视化组合定制。其功能结构如图2所示。

图2 平台功能结构

1)气象业务系统监控。设计开放融合、可视化的气象业务实时监控模块,覆盖观测、预报、服务和管理等气象业务全领域,实现对气象观测业务、气象预报预测核心业务系统、气象服务以及气象业务管理的统一监控和集中告警的有机融合,支撑各类气象业务系统稳定运行。

2)数据全流程监控。以气象数据流程为主线开展气象数据全生命周期的环节监控,在业务分类上包括气象数据上行、气象数据下行、气象数据共享及气象数据服务接口等部分;在业务环节上涵盖省级气象数据采集、数据收集、数据加工处理、数据存储服务、数据分析应用等全过程。

3)基础设施资源监控。设计省级气象基础设施资源监控管理的统一门户系统,实现对气象基础设施云平台、气象大数据云平台、信息网络及安全系统、机房动力环境监控系统的统一监控、调度与管理。具备对服务器、存储系统、网络系统等基础设施资源的统一申请、分配和调度,支撑实现气象基础设施资源弹性配置和高效利用。

4)集中告警管理。设计集中告警管理配置模块,集约业务系统、数据流程、基础设施告警功能,并可根据业务不同进行灵活策略配置;设计涵盖监控、流程和运维等环节的可视化视图,实现对各类气象业务、数据、资源运行状况的实时感知、全局管控;设计后台权限配置管理功能,对气象用户、业务节点、资料环节、业务规则进行统一的管理与权限配置,保障系统运行安全可控。

2 关键技术

2.1 集约开放的采集控制平台

为实现了各类监控信息统一采控,设计了统一采集控制平台,构建各监控运维模块和被管设备资源之间联络通讯的统一通道,解决各类不同来源监控数据分散采集的问题。分布式架构的采集控制平台可实现级联化的信息采集与管理控制,设计缓冲队列适应高并发数据实时处理,利用队列来对数据进行消峰,满足气象业务高峰时期秒级采集间隔需求,适应中大规模基础设施资源与业务应用监控和运维管理。采集控制平台充分融合模块化方法和插件技术,使其具备灵活的扩展能力。业务流程数据、应用监控数据、监控告警数据的接入均无需考虑底层支撑调度技术,只要按照规范编制相应的信息采集脚本,按规范形成策略下发给代理,即可完成监控数据采集、监控策略与配置更新、资源统一调度控制。其结构如图3所示。

图3 采集控制平台结构

在省级气象基础资源监控信息采集上,结合湖南省基础资源特性,通过SNMP、Agent、IIS、日志等不同采集方式,对CPU运行、网络占用、内存使用总数等进行了统一监控策略设计;通过对网络设备特性进行分析,采用SNMP及网络相邻协议采集本省网络资源及线路情况,对省、市、县路由器、交换机等网络设备进行在线情况、网络连通状况、线路流量等信息统一采集;针对核心业务系统监控信息,采用Agent或API方式采集不同监控数据,设计了包括硬件集群、数值预报分析产品、雷达数据、卫星数据、用户数、使用资料频率、访问资料流量等在内的监控指标策略集;在气象业务流程监控信息采集上,根据湖南省上下行资料传输流程、存储状况、资料采集点等情况,针对资料级别、资料种类、告警方式和采集方式等制定不同的采集策略。

2.2 基于数据融合技术的监控信息高速处理与存储

监控平台数据来源多样,包括气象基础设施、业务应用、数据流程等不同监控数据,数据结构类型也各有特点。为解决原有各类独立的业务监控系统无法同时处理多种类数据的问题,监控平台采用了数据融合的思路[13],设计数据管理模块,对各类监控数据进行标准化处理、存储并提供读取API,支撑多样化异构监控数据高效处理与存储管理。其结构如图4所示。

图4 数据融合管理模块结构

数据融合管理模块支持多种异构的数据来源,包括网络流量镜像数据、机器设备日志与指标数据、气象应用系统日志与指标数据、用户操作采集数据、工单通知数据等。

监控数据存储管理系统依据关系型数据、NoSQL非关系型数据库的特性设计。各类配置与管理信息采用MySQL进行存储管理,采用开源分布式NoSQL数据库系统Cassandra存储指标数据,基于开源的Redis设计热点数据缓存库,利用ElasticSearch支撑监控管理过程中的各类事件数据实时搜索。基于Stream流式处理框架对实时监控数据流进行计算、统计、分析和告警处理,同时基于运维大数据处理框架与机器学习方法进行相应的计算模型训练,以更好地支撑气象运维监控中的资源提取、指标预测、业务健康度、告警管理和人机交互等应用能力。采用Rest等开放接口支撑与第三方系统进行高效的信息接入和数据处理,增强平台扩展能力。

2.3 基于消息流的气象数据全过程监控

为支撑气象数据流传输和消息传输对数据监控的新需求,在监控平台设计了基于省级气象大数据云平台数据传输系统CTS的DI处理及存储流程[14],对气象数据全生命周期的各个环节,按照统一的标准进行日志信息的收集,实时处理和分析,诊断数据运行状态,按策略自动调整运行流程。具体流程如下:在CTS集群上部署日志网关,分别对文件传输、消息传输和流传输监控信息进行实时处理。在Flume-lib中增加了监控运维系统日志信息处理模块的分发策略配置,将CTS收集及发送DI信息分别存入Mysql数据库Tab_RecvDataInfol和Tab_Send-DataInfo表中。处理模块采集到信息后,根据前期研究制定的策略,立刻进行数据传输状态的指标判断,并根据不同资料类型分别接入到ElastiSearch搜索库中,进行数据分析及分类处理,处理后的数据接入数据全流程监控页面。此外,依据前期研究制定的告警策略将告警数据过滤后接入集中告警平台进行告警。其流程如图5所示。

图5 数据监控流程

2.4 智能型集中告警策略设计

集中告警是气象业务监控运维中一个重要环节,结合可视化界面,向业务服务人员和运维管理人员及时提供准确的告警信息,提早发现和解决问题,保障业务正常运行。为支撑上述需求,监控平台基于自动化、智能化运维管理流程,设计了集中告警管理模块,汇聚各类气象系统产生的告警事件,经过过滤、分类、分级、转换等处理环节,对各类实时监控数据和历史监控数据进行关联性分析,分析各类告警阈值、告警时间、告警频次等策略,按照预定义的事件规则,形成分级、有效的预警或故障告警信息,统一集中展示与告警。部分监控告警策略如表1所示。

表1 监控告警策略

告警接收:设计API、SNMPTrap、Syslog等实现方式,实现对网络、服务器、应用、基础服务等各类系统及资源告警信息、故障事件接收处理,并对各类异常关键指标进行分级。

告警分析:设计EI事件规则、告警推送接口规范以及可自定义的监控告警数据分析规则,适应各类异构监控告警数据的接入、处理和多业务联动,可以对同一业务不同数据流程或同一流程下不同业务环节的监控告警信息进行合并、关联,支撑统一业务管理。

告警交互:设计监控告警与运维流程、配置管理工具的联动机制,按照预设的规则触发故障工单或查看故障源资源信息,实现工单自动派发或故障分析。

告警通知:设计流水式告警信息通知及告警反馈机制,按时间序列查看严重告警生成情况,并通过查看某个时间的告警事件,告警信息能够自动关联故障源的配置信息,掌握故障资源的相关管理信息,提升故障处理效率。

3 应用效果

依据上述设计方案,湖南省建设了气象综合业务实时监控平台并投入业务运行。监控平台部署于省级气象核心业务区,由气象大数据云平台提供基础资源支撑,对包含气象大数据云平台在内的各类气象业务系统、数据资源、基础环境实现统一监控。基础资源节点部署情况如表2所示。

表2 基础环境部署

湖南省气象综合业务实时监控平台按照“纵向到底、横向到边”原则设计,支撑实现“全业务、全要素、全流程”的气象信息监控运维模式。平台基于可视化技术大量采用图表、色块、模型等表现形式在大屏上综合展示各类系统宏观和细节运行状况,实现了智能化、一体化的监控管理,便于业务故障的快速定位,为业务稳定运行提供保障。如图6所示。

图6 湖南省气象综合业务实时监控平台界面

4 结语

湖南省气象综合业务实时监控平台按照气象信息化、集约化、标准化的原则设计,整合了湖南省省级直属单位、市(县)气象各类监控业务,通过多场景的方式,从监视到告警,再到后续管理流程实现了集约化综合监控与运维,便于台站-市-省的监控运维管理协同配合,解决了省级气象业务现代化发展的保障与优化问题,为“精密监测、精准预报、精细服务”提供了坚实的支撑保障。后期还将对平台不断进行细化与完善,在分权限监视及运维能力策略、运维扩展管理、个性化监控建设等方面开展深化研究。

猜你喜欢
运维气象流程
气象树
吃水果有套“清洗流程”
今日农业(2021年10期)2021-07-28 06:28:12
《内蒙古气象》征稿简则
内蒙古气象(2021年2期)2021-07-01 06:19:58
气象战士之歌
心声歌刊(2019年5期)2020-01-19 01:52:52
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
能源(2018年8期)2018-09-21 07:57:24
违反流程 致命误判
劳动保护(2018年5期)2018-06-05 02:12:10
大国气象
杂乱无章的光伏运维 百亿市场如何成长
能源(2017年11期)2017-12-13 08:12:25
本刊审稿流程