华中区域高性能计算机监控管理平台设计与实现

2016-08-09 05:29秦运龙张冰松湖北省气象信息与技术保障中心
电子制作 2016年14期
关键词:解码高性能气象

秦运龙 许 玮 张冰松 湖北省气象信息与技术保障中心



华中区域高性能计算机监控管理平台设计与实现

秦运龙 许 玮 张冰松 湖北省气象信息与技术保障中心

【文章摘要】

【关键词】

HPC;监控管理;跨平台管理;AIX;Linux

引言

随着气象预报业务越来越丰富,预报精度越来越高,数值预报计算量呈现出膨胀式增长。气象工作对高性能计算资源的需求也变得越来越紧迫。

高性能计算机(High performance computing以下简称:HPC)及其附属配套设施庞大而复杂,对其监控和管理是一件繁琐而复杂的过程,如何实时、全面、准确的在统一的平台上监控和管理不同区域的HPC,提高监控效率,简化管理方式已成为日常值班亟待解决的问题。高性能计算机监控和管理平台采用先进的显示与监控技术,将所有监控和管理任务同一平台上,可提供跨系统、跨区域HPC全面、实时、高效、友好的监控和管理功能。

1.系统功能设计

目前,随着快速循环系统等高频率高精度业务模式的运行,模式运算量呈现膨胀式发展,HPC的建设将不断增加,高效的监控和管理所有HPC系统已成为HPC建设的一个重要任务。

为满足当前和今后HPC发展的监控和管理需求,建设具有高集成度的HPC监控和管理系统,应该有下面几个特点。

(1)系统兼容性。能实现跨系统、跨区域的监控和管理,兼容AΙX、 Linux等操作系统,对不同区域机房的HPC系统均能有效监控管理。

(2)监控和显示技术。a.能提供HPC所有硬件和软件系统的实时状态报警;b.能提供所有业务作业的运行状态监视;c.以曲线图方式实时显示计算资源使用情况。

(3) 管理技术。提供Windows系统管理平台,可直接通过平台对HPC发出管理查询指令。并返回执行结果,操作方式直接、简单。

2.系统组成

“高性能计算机系统监控管理平台”由5个模块组成,主要包括ΙBM曙光HPC实时信息采集模块;信息解码模块;数据库存储模块;信息统一监控平台;ΙBM曙光HPC命令执行模块。

图1 监控管理平台数据流程图

(1) ΙBM曙光HPC实时信息采集模块

ΙBMHPC实时信息采集模块由一套基于AΙX和Linux系统设计的Shell脚本组成,包括对关键节点状态、所有节点性能状态、作业提交及运行状态、根卷组一致性状态、磁盘阵列状态、等主要内容运行状态信息的采集。

(2)信息解码模块

信息解码模块主要由Windows下C# 程序设计的解码入库软件解码入库,实现对所有获取的监控信息进行解码,并存储到数据库中。

(3)数据库存储模块

数据库存储模块采用SQL Server2008 R2关系数据库存储,数据库设计采用不同监控系统信息分开存储分开管理,并且实现数据库自动维护,以提高数据库监控性能需求。

(4)信息统一监控平台

信息统一监控平台采用c#、 PHP等网页设计语言设计[2],通过实时查询数据库存储模块的最新信息,将所有监控信息直观的表现在平台主页上,并标注信息采集时间。监控项红色为异常,绿色为正常。

(5)ΙBM曙光HPC命令执行模块

HPC命令执行模块采用c#语言基于Windows平台开发,可实现在Windows平台上对AΙX、 Linux系统发出指令执行,并返回结果。

3.系统流程

“高性能计算机系统监控管理平台”采用LΙNUX、 AΙX系统下的Shell脚本集采集系统信息,通过信息解码程序对状态信息进行解码入库存储。系统客户端通过监控与操作管理平台实时读取数据库状态信息,并可通过客户端界面向ΙBM和曙光HPC发送常命令,并执行。见图1。

4.系统设计与实现

4.1高性能计算机监控平台

高性能计算机监控平台主要由shell脚本集、信息解码、数据库、监控显示平台四个模块组成。见图2。

(1) shell脚本集

shell脚本集部署在AΙX系统和Linux系统上分别获取ΙBM和曙光HPC系统和作业状态。

(2)信息解码模块

信息解码模块部署在Windows系统上实时解析获取的HPC系统和作业状态信息,解析重要信息并存储入库。

(3)监控显示平台

监控显示平台采用B/S结构设计网页平台,通过每10分钟刷新获取数据库状态信息,可查询作业运行状态,故障错误详情。

4.2高性能计算机管理平台

高性能计算机管理平台采用C/S模式开发[3][4],基于Routrek.granados模块实现Windows系统下对AΙX和Linux发送指令执行并返回执行结果。见图3。

部分实现代码如下:

图2 高性能计算机监控平台

图3 高性能计算机管理平台

4.3数据库设计

数据库用于存储所有运行状态信息[5],为监控平台实时显示和历史查询提供给信息数据。数据库采用Sql2008r2设计,主要包括如下八个数据表。见表1。

表1 数据库设计

5.小结

本文提供的监控管理平台系统,采用跨区域、跨系统的方式具有极强的兼容性、实时性和可靠性,在业务值班中极大的降低了值班员的工作量,提升了工作效率,具有一定的可推广性。但该系统对作业运行中发生的死锁及异常挂起不能提供准确的原因,这也是用户比较关心的问题,因此后期在这一部分还需进一步完善。

【参考文献】

[1] 秦运龙,杨代才,龚贤创,马启明.地面智能观测显示与监控综合处理系统[J].气象科技,2014,42(3)

[2] 卫建国,张晓煜等.基于GIS的宁夏干旱监测预警系统设计与应用[J].气象科技,2011,39(5):635-640

[3]李永利,康利,王英等.内蒙古气象信息网络传输业务实时监控系统[J].内蒙古气象,2001,(3):25-27

[4]赵福祥.山东省气象通信网络业务运行及监控系统[J],山东气象,2005,25(4):30-33

[5]秦运龙,邢丽平,杨代才等.基于linux平台省级上行数据补传系统的设计与实现.湖北气象局,2015,24(1)

基金项目:湖北省气象局青年科技专项基金“高性能计算机系统监控管理平台研制”项目资助

随着气象数值模式预报精度越来精细化,其对高性能计算资源依赖程度也越来越高,因此研发一套高性能计算机系统监控管理平台,不仅是当前业务值班人员的迫切需求,更是保障气象预报业务模式安全稳定运行的重要手段。本文提出并实现了华中区域高性能计算机监控管理平台,该平台系统采用AIX、Linux的shell设计,基于Routrek.granados模块进行操作指令传递,通过直观、形象、智能的方式对所有高性能计算机系统及作业进行监控和管理。在高性能业务值班中极大的提高了值班的工作效率,降低了值班员的工作量。

作者简介:秦运龙,男,1984年生,工程师,主要从事气象信息保障研究

猜你喜欢
解码高性能气象
《解码万吨站》
气象树
《内蒙古气象》征稿简则
解码eUCP2.0
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
大国气象
美丽的气象奇观
一款高性能BGO探测器的研发
高性能砼在桥梁中的应用