高性能计算处理集群部署应用研究

2024-05-13 16:43何芸杨敏许涛景少军
信息系统工程 2024年4期
关键词:作业管理

何芸?杨敏?许涛?景少军

摘要:鉴于高密度、高精度地震采集数据量、处理计算量几何级增长,使处理集群高性能计算和存储资源紧缺。为满足油气勘探需求,扩充数据处理能力。引进部署国产自主安全可控的海光集群,利用xCAT等技术批量部署集群节点,组建高速以太网交换网络,部署Gridview综合系统实现集群高效监控管理,搭建高性能计算处理集群环境,提升海量数据处理能力建设。

关键词:Gridview;xCAT;LINPACK;作业管理

一、前言

海光高性能集群部署满足了以密集计算为特征的地震资料处理新方法及其高性能计算集群运行平台需求,适用于处理复杂地质目标研究。高效部署运维处理集群需建设综合运维管理体系,提供契合勘探科研需求的专业应用软件配置、调优、维护及管理。如何研发集群应用软件高效部署、作业灵活调度等运维管理软件,搭建高速网络,将提高集群数据算力能力建设作为技术研究方向及重点[1]。

二、Gridview集群综合管理系统

集群综合管理系统对运维系统管理员来说至关重要,它能实现集群资源使用情况的统一监测与管理、各个计算节点的统一配置与维护、操作系统的统一部署与配置,降低集群管理复杂度,保障集群系统持续为地震资料处理与解释提供稳定、可靠的计算服务[2]。

Gridview综合管理系统具备集群统一监控、集中管理、多集群综合管理、IPMI带外硬件管理等功能。全方位状态监控功能提供机群总体运行状态视图、机群总体IO状态视图、机群实际物理拓扑视图以及多项性能视图,用户可直观地监控当前机群系统运行情况。机群管理功能提供了从IP管理、Hosts管理、进程管理、服务管理到并行命令、关机管理、節点管理、用户/组管理等机群管理功能,有效解决了大型机群管理的复杂性,保证了机群管理的扩展性、可靠性、自主性。

另外,Gridview综合管理系统建立了系统健康标准基线,应定期线上、线下巡检,建立数字化信息健康基准。系统可及时、准确采集系统数据,聚合告警通知,具有多样的通知方式。系统可以一键显示异常作业和节点、多维度快速排查集群异常、快速定位查看作业状态、支持多级指标关联分析、快速定位性能瓶颈智能分析作业性能、主动推送异常告警。系统还可以面向业务运维,实现全局业务拓扑、主动预测故障发生、构建自动化运维能力,提升业务持续运行能力,帮助客户构建运维可视化和数据分析挖掘能力,实现精准化、智能化运维。

Gridview主要功能分为作业提交与调度、监控管理、用户管理,以及其他一些与HPC集群和应用相关的功能需求。

(一)作业提交与调度

Gridview自主可控,支持异构的调度核心,提供统一的调度管理。调度策略灵活:支持GPU、“公平共享”“动态作业优先级”“节点独占”等。容错处理稳定可靠:作业断点续算、计算节点状态自检、残留进程自动查杀、作业异常处理自定义。应用Portal:提供应用的部署、发布与订阅,ABAQUS、ANSYS、CFX、Fluent、LS-DYNA等几十种预定义Portal,简化作业提交,提供定义的开发规范和模板,支持定制化和自定义开发。

(二)监控管理

对集群进行监控、管理,展现集群实时运行状态,动态显示监控信息,永久保存历史告警信息,实时提供告警及统计分析,秒级采集响应。系统可提供各种监控指标的自定义功能,以热图的方式展现集群中节点的性能指标,检测性能瓶颈和热点,管理、监控、作业、云桌面一切尽在掌握之中。

(三)用户管理

随着网络安全越来越受到用户的重视,根据需求将系统管理员划分为三个角色,实现管理员权限分离,并提供三种管理员不同的管理角色分工,分别是:

系统管理员:配置系统运行参数,账户和账户组的创建、删除、修改、查询和导入;

安全保密管理员:账户授权与管理,查看系统管理员和安全审计员及用户操作日志,监控操作行为;

安全审计员:查看系统管理员和安全保密管理员及用户操作日志,对系统管理员和安全保密管理员的操作行为进行审计分析。

用户管理功能建立了统一的用户管理和认证体系,整合了支持本地用户、NIS、LDAP、AD等多种认证系统,对管理员和用户提供了统一的使用和管理接口,支持用户的添加、用户查询、修改密码、导入导出等功能 。

(四)数据管理

对于整个集群来说,所有节点均使用同一套计算存储,数据在集群内共享,同时支持设计集群和仿真计算集群数据共享,权限共享,可以实现云端数据共享,权限限制,使得用户在设计集群和仿真计算集群之间无缝衔接。支持普通用户和管理员的数据管理功能,支持浏览器方式文件传输(E-File)和客户端方式文件传输(快传),确保用户间数据隔离与私密性。系统支持多用户间资源隔离,资源仅对资源的拥有者或者被拥有者赋予权限的其他用户开放访问。数据隔离和私密性会降低系统数据的交换,系统支持数据共享,用户可以将自己有权限的数据分享给其他人。系统支持逻辑隔离、物理隔离等多种数据隔离方式及隔离策略。

(五)作业管理

系统具有丰富的作业管理功能,Web界面下呈现各种作业信息、统计信息,完成作业提交、查看、控制等操作。用户提交作业后,需要查看历史作业,找到自己需要查看结果的作业信息并查看作业状态。若作业为正常完成,则可以在作业详情页面中查看日志输出,并下载结果文件;若作业为异常结束,则支持查看错误输出,进行作业脚本的调整并再次提交运行。

平台提供状态视图统计集群作业运行和节点信息。采用图表直观地统计并显示集群当前用户的实时运行作业状态、节点状态、核心状态、用户状态、队列状态,方便用户了解当前作业的情况和资源使用情况。通过热图形式查看集群整体节点和作业情况。系统管理员需要掌握调度系统管控的各个计算节点的作业占用核心情况,用不同的颜色标识已占用节点(满核心运行作业)、混合节点(部分核心运行作业)、空闲节点(无作业运行)、下线节点(节点状态为drain)、不可用节点(停机节点)等不同节点状态,可以宏观把控整体集群的利用率。

综合应用Gridview系统,以系统管理人员需求为导向,集群监管模块化的管理模式、直观的全方位状态监控、集中的资源管理操作、实时多样的告警管理、强大的作业调度有效提高了系统管理效率,降低了运维成本,实现了集群节点的全方位管理。

三、基于xCAT批量集群部署

勘探处理架构节点复杂,软硬件用户平台各异。因勘探需要,软件大规模迁移工作增多,传统的软硬件各自独立运维导致安装部署时间长,缺乏统一资源调度和集中管理,节点利用率低,缺乏共享,难以满足勘探快速部署需求。计算节点为处理地震资料、处理解释应用提供了强大的计算资源,用于处理用户发送的处理作业。软件及数据库节点主要用于部署相关软件与数据库系统,为专业地震数据处理与解释系统提供数据存储支持。为高效、快速批量部署集群节点,实现节点统一管理和故障诊断,设备纳管、设备配置、固件升级、设备监控、OS部署等全生命周期的管理能力帮助系统管理员提高运维效率。

首先,分析不同处理应用平台特点,对数据库节点、软件安装节点、交互节点、计算队列节点、管理服务器等集群节点进行分类,为每类节点制作特定的操作系统和软件镜像文件并统一管理。其次,利用多种子点P2P快速分发技术,多台服务器同时复制指定镜像,实现系统快速部署。最后,利用远程批量参数文件修改技术,实现集群大量节点批量软件功能定义[3]。

xCAT工具软件是自动化部署、弹性扩展和管理裸机服务器和虚拟机的开源工具,它为HPC集群、渲染农场、网格等基础设施,以及云、数据中心等提供全面管理。作为一个开源的、可扩展的高级集群管理和配置工具,允许使用者通过一个单点控制和管理一个集群系统。

xCAT是基于客户机/服务器架构的应用程序,客户端和服务器端的通信主要由管理节点上运行的xCATdaemon(xcatd)来控制。当管理节点上的xcatd接收到计算节点发送过来的用XML封装的命令时,它将通过ACL(Access Control Lists)来判定发送者是否有权限执行这些命令。此外,xcatd在安装、配置计算节点和各个节点重新启动的时候,还会收集各個节点发来的状态和资源信息[4]。整个系统架构如图1所示。

xCAT具有多种集群管理和部署功能,主要包括:批量安装OS、批量部署无盘系统、节点配置信息管理和同步批量管理节点并行执行命令等。此文档中使用的主要功能是采用xCAT批量启动无盘系统,并且在无盘系统中进行节点硬盘镜像与恢复,通过此方法可以快速进行硬盘镜像恢复,部署操作系统。

四、组建高速以太网部署

网络系统将各个计算节点、软件及数据库节点、集群管理系统、存储系统进行高速互联,构建高带宽、低延时的无阻塞互联网络,满足大容量地震资料与数据快速访问与交换需求。主干核心网络使用多通道高速100G链路,接入层网络是25G链路,为满足有效提升端口密度、较低部署成本的需求,组建“叶脊”网络架构,具有更好的性价比和可扩展性,并且能够为每个计算节点提供公平、无阻塞网络访问能力,更适合勘探处理集群这种高通量集群组网需求[5]。

五、模块化机房建设方案

集群系统“局部高热”和“高品质大容量电能需求”是集群建设必须重点攻关的技术难题。勘探处理集群经常需要上百个节点同时长期全速完成计算工作以及配套的巨量存储系统,高速运行加剧了攻关难度。为了有效降低能耗的空调变频技术,制定了“在集群机架行列间插水平送风制冷排机柜并封闭冷通道,利用格栅地板和地板下冷风格挡阻挡集群设备外放热空气对其他计算机设备影响”的模式,应对勘探处理集群制冷难题。供配电方面,选择从集中UPS系统上直接铺设大容量供电电缆直通机柜PDU的模式。为有效减少供电线路铺设数量和供电连接点数量,放弃目前业界最常用的供电列头柜方案,借鉴“供电母排”的概念确定“柜顶供电小母线”模式。为进一步减少线缆对地板下冷通道的阻挡,放弃长期沿用的“下走线”布线,选择柜顶“上走线”布线模式部署供电线缆和网络连接线缆。

通过多类别、多项技术研究,为勘探处理集群场地、保障环境建设制定了适宜的技术路线,采用了动力环境统一监控系统的模块化机房建设方案,为地震勘探处理集群扩充搭建了最适宜的硬件环境。

六、利用LINPACK衡量性能

依据现有地震勘探处理应用软件模块运行特点,归纳常规处理和偏移处理两大类应用下不同处理方法,适应模块的资源需求特点以及处理员使用的作业模式,配置适宜的不同类型集群计算节点、网络互联技术、存储技术,并以不同配比组合形成了适用于勘探处理集群的硬件平台。在应用软件运行环境约束条件下,高性能LINPACK(HPL)测试、理论浮点峰值(Rpeak)、组网测试3个关键性能测试领先国内石油行业。

LINPACK是常用的CPU性能测试程序。它通过计算双精度线性方程组的求解来测试CPU的运算能力。Intel MKL提供一个优化版本的Intel Optimized LINPACK Benchmark,通过运行这个程序,可以方便地进行CPU的基准性能测试。Intel Optimized LINPACK Benchmark根据HPL优化后的程序,以及用户指定的参数生成一个线性方程组,通过方程的求解时间与计算量,来计算CPU的浮点性能。理论浮点峰值=CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU数。对34个集群节点进行单机LINPACK测试的结果见表1。

实测单机Linpack效率最高为80%,最低为79%,60个计算节点的单机效率平均值是79.8%。各节点运行效率正常,且表现稳定。

七、构建集群运维体系

有别于通用高性能计算集群运维,勘探处理集群运维更关心处理软件运行状态,关注专业软件运行测试和参数调优。运维人员不仅要精通计算机运维,还要了解地震勘探处理工作原理和软件模块操作方式,需要以勘探人员视角观察应用平台运行状态,模仿科研人员发送处理作业,观察集群对作业指令的回应和支持情况,对出现的问题给出专业化解释和解决办法。集群运维以用户需求为导向,借鉴IT 服务管理,结合集群运维技术和协同管理平台技术,围绕处理员和系统管理员,以知识管理为核心建立了集群运维体系,减少日常管理事务性工作的精力消耗。集群状态提取、展示和分析功能实现可视化、自动化,结合协同平台运维流程管理的建立使得运维管理工作有据可查,逐步形成运维知识管理体系,保障处理集群高效稳定运行。

八、结语

依据地震勘探数据处理方法和新方法发展及技术实现,从满足现阶段勘探精度需求出发,综合分析研究各种高性能计算业界先进技术,从集群架构技术路线、集群管理调度到云计算、边缘计算、远程终端应用、本地胖节点应用等多类别特性技术实现中,搭建适用于地震勘探处理应用的高性能计算集群系统。通过多种软件工具高效融合应用,“以软定硬”,调整集群节点、存储、网络等各环节参数配置,建设一体化综合管理平台,持续助力油气勘探重大发现。

参考文献

[1]杨敏,郭清顺,何海涛.基于MPI常用海洋数值模式并行处理的研究[J].实验技术与管理,2011,28(05):257-259.

[2] 谢希仁.计算机网络:第五版[M].北京:电子工业出版社,2008.

[3] 黄燕.计算机网络教程[M].北京:人民邮电出版社,2004.

[4] 刘小伟.电脑局域网全面上手[M].北京:海洋出版社,2003.

[5] 黄传河.计算机网络应用设计[M].武汉:武汉大学出版社,2004.

责任编辑:张津平

猜你喜欢
作业管理
常州新北区推动化工医药企业特殊作业管理数字化转型
“双减”政策下中小学作业管理困境及突围路径
“双减”背景下初中生作业管理的实践探究
“减负增质”理念下作业管理的创新策略
落实各方责任 加强特种作业管理
客车调车作业管理的探讨
作业管理系统中数据放置子系统设计
众里寻她千百度
小学英语作业管理中“人文性缺失”现象解析
以学生为中心的作业管理