陈园园,崔贯勋
(重庆理工大学,重庆 400054)
在高校科学研究中,随着各领域研究问题的计算量大幅增加,数据规模呈数量级增长,高性能计算方面的快速发展为研究这些科学问题提供了强有力的支持。但高性能计算平台在管理上存在很多难点:
(1)服务器异构、数量多、类型复杂,管理技术人员配比少,只依靠人工管理方式无法完成系统运维;
(2)故障类型多,定位故障要求专业技术程度高并处理及时;
(3)高性能计算平台需7*24h对外提供运行稳定、不间断的服务。
基于以上现状[1],为使高性能计算平台满足高校多学科应用的需求,并具备可持续发展的科研竞争实力,重庆理工大学明确平台定位,将“服务用户”理念[2]落实到平台建设、运维和管理服务等各个方面,吸引校内外用户,促进平台健康发展。
1.1.1 高校对高性能计算的需求
重庆理工大学是一所包含理、工、文、管、经、法、医、艺等多学科协调发展的综合应用研究型大学。其中,理、工、医等主要学科在高性能计算方面有着巨大需求,特别是在理论物理、气候分析、机械工程、材料科学、汽车制造、电力通信、生物医学等领域。目前有多个科研团队承担着国家自然科学基金项目和科技攻关等项目,都依赖于高性能计算平台来完成海量计算工作。
1.1.2 高校高性能计算平台按需建设
2016年,重庆理工大学以开放、共享为前提部署一套高性能计算平台,集群总体计算能力为20 Tflop/s、数据存储能力为100 TB。该平台正好满足学校目前科研与教学的需求。后期将根据学校发展需要,遵照“按需建设,逐步升级”的建设原则,实行资源与应用需求同步增长,提高资源利用率,使其发挥最大作用。
高性能计算集群[3]是整个高性能计算平台的核心,是融合了计算、网络、软件和存储的综合体系。重庆理工大学高性能计算集群系统为异构系统[4],集群系统架构如图1所示。
图1 高性能计算集群系统架构
1.2.1 高性能计算集群硬件
重庆理工大学高性能计算集群系统采用Cluster集群架构[5]。其中计算节点由双路刀片通用计算节点、四路SMP胖计算节点和众核GPU计算节点组成,并配置一台管理监控节点用于集群的管理,在该节点上部署集群管理系统GridView3.2、PBS作业调度系统和用户主要应用软件,负责整个集群系统的软硬件管理、监控与维护;同时该节点复用为I/O存储节点,部署1套NFS文件系统。配置一台登录节点,为普通用户提供登录和高性能计算服务。将管理节点与登录节点分开,大大提高了集群的安全性。
1.2.2 高性能计算集群网络
整个集群配置3套网络系统[6]:FDR InfiniBand计算网、千兆管理/监控网络(Eth1)和硬件管理网(Eth2)。计算网由所有服务器节点通过InfiniBand万兆交换机连接,使得这些节点可以高速访问,但只允许普通用户通过登录节点访问计算网,通过PBS作业调度系统提交作业使用计算资源,以保证系统安全。Eth1千兆管理/监控网络传输整个千兆网的控制信号。Eth2管理网络为千兆以太网,用来管理硬件设备。高性能计算集群拓扑[7]如图2所示。
图2 高性能计算集群拓扑
另外,系统内嵌1台笔记本电脑作为系统管理的物理显示端,并配置一套Cluskvm100 KVM以供系统安装调试用。
1.2.3 高性能计算平台软件
平台除部署高性能计算必需的编译器、数学库、并行库外,还安装了各学科领域用户常用的开源或商用等软件,逐步构建一个简便、友好的平台使用环境。
为向用户提供良好的科研环境,中心在运维管理体系[8]建设中不断完善管理制度、队伍建设以及管理技术,三者的有机结合,保障高性能计算平台安全、高效、稳定运行。高性能计算平台运维管理体系如图3所示。
图3 高性能计算平台运维管理体系
严格的制度管理是设备安全、稳定运行的前提保障。中心制定了《高性能计算平台管理办法(试行)》《高性能计算平台操作管理手册》《高性能计算平台值班巡检守则》《用户使用手册》等规章制度。另外为规范资源申请流程[9],改纸质为线上申请,提高资源准备效率。资源申请流程如图4所示。
图4 资源申请流程
2.2.1 提高专业技术服务水平
高性能计算平台的建设和管理对管理人员[10]要求非常高,除了精通硬件、网络和软件等专业技术,还要具备各学科知识背景,了解各应用领域研究现状,具体涉及各学科专业软件的使用。因此中心鼓励技术人员努力学习各领域知识,提供参加高性能计算行业先进技术培训和沟通交流的机会。
2.2.2 管理队伍“传、帮、带”
为提供高效、稳定的高性能计算服务,平台管理人员需要定期检查设备、查看分析系统日志、正确判断问题故障、熟练掌握解决办法,确保设备正常运行。在管理人员欠缺的情况下,中心申请1~2名相关专业的研究生助管,由管理人员教导助管进行设备检查和故障排除,在维护中传授高性能计算基础知识和实践经验,为高性能计算平台的运维管理提供保障。
2.2.3 增加科研经历
鼓励管理人员参与科研,加入课题小组,在提供高性能计算平台技术服务的同时提升其科研能力。通过参与科研,力图打造一支技术过硬,多学科交叉,科研经历丰富的管理团队。
2.3.1 环境监控
为保证集群系统7*24h提供服务,机房配有不间断电源UPS,并配备一套智能监控系统[11],包括:供配电监控、空调监控、温湿度监控、视频监控、漏水监测、消防报警、声光报警、防雷、短信报警等。另外,管理人员每天进入机房对集群系统进行例行检查,每周做一次全面检查,以保证安全性[12]。
2.3.2 集群管理系统——GridView
平台采用曙光GridView集群管理系统[13],该系统整合了clusconf、clussoft、HPC_installer等工具。GridView提供对节点硬件的实时全状态监控及远程协助管理。
2.3.3 PBS作业调度系统
中心采用PBS作业调度系统[14]为高性能计算资源提供统一的Web访问接口,整合集群软硬件资源及认证信息,控制用户权限,为用户作业统一分配资源,避免冲突。平台采用Web Portal方式[15]提交用户作业,Web Portal包括了basic类型的mpi、serial、general三个基本应用portal。用户无需安装客户端,仅通过Web界面就能完成提交作业、传输文件、查看结果等操作,简便易用。
2.3.4 安全、可靠的远程终端访问
当管理人员或用户需要传输数据或使用命令调试运行程序时,可通过SSH、PuTT、VNC等工具远程终端软件访问平台[16]。
2.3.5 用户管理
(1)用户信息登记备案。
中心根据用户资源申请表相关信息建立用户信息库,了解用户背景和需求,根据用户需求及其研究内容为用户作业配置资源队列,再根据其课题和成果设置用户优先级[17],优先保障对国家级重大课题的支持。年终,中心根据用户研究成果及论文发表情况给予机时奖励,保证获得高水平研究成果的用户更多使用计算资源,形成良性循环。
(2)用户目录隔离。
用户访问高性能计算平台门户网站[18],系统将建立用户唯一访问目录/public/userName,用户之间相互隔离。在用户整个会话期内,系统管理用户证书,以此提供更加细粒度的资源分配和服务控制。
(3)作业提交隔离。
用户一律通过作业管理系统提交作业、队列计算和查询结果,严禁绕过作业管理系统使用计算资源,不可查询他人作业。
重庆理工大学高性能计算平台建设至今,积极开展各种形式的对外合作与交流,充分发挥自身优势为不同用户和企业提供优质的服务。已发展成为集高性能计算应用、科学研究与创新、技术咨询、产学研合作、人才培养等多功能为一体的技术先进、服务优良、成果突出的科研创新支撑平台。通过不断地创新和探索,总结出面向校内外开放、资源共享的校级高性能计算平台服务模式[19],如图5所示。
图5 高性能计算平台服务模式框架
作为校级公共计算资源平台,始终以“服务用户”为宗旨,为校内的科研团队、教师和学生提供高效、稳定的计算服务。在满足校内需求的同时,向社会开放应用,满足社会用户的计算需求,提高服务水平。
3.2.1 专业培训
平台大部分用户为非计算机专业的教师和学生,对高性能计算平台熟悉程度参差不齐。因此,中心根据用户的不同情况,创办难度不同的培训班,并撰写《用户使用手册》。培训内容包括Linux基础、专业软件安装优化、并行程序开发等,为不同层次、不同需求的用户提供高性能计算培训[20]。
3.2.2 咨询服务
在使用平台计算服务的过程中,管理人员认真回答用户在使用过程中遇到的问题,并撰写“用户常见问题与解答”等技术文档,帮助用户了解高性能计算的专业知识和技术,以提供优质的咨询服务。
中心积极参与学校和本地区各类高性能计算项目的申报,加强与兄弟院校、研究所、企业之间的交流合作[21],鼓励并支持平台管理人员深入到重大科研项目中,建立跨学科、专业联合的科研模式,发挥各自所长,充分体现各专业联合优势,使项目研究取得显著突破,使平台服务水平获得质的飞跃。
采用多种方式加强平台的推广[22],体现开放、共享、交流特色。
3.4.1 大力宣传和推广平台
为宣传和推广高性能计算平台,中心搭建了高性能计算平台门户网站[23],一是用于展示中心资源、发布新闻通知、技术培训、论文发表、科研成果等信息,体现科研竞争实力;二是用于促进合作交流,扩大资源开放共享范围。通过宣传和推广,努力将其建设成为设施一流,功能齐全,面向社会开放,资源共享的高性能计算公共服务平台。
3.4.2 开展平台应用交流活动
作为学校科研服务平台的建设单位,中心积极与国内超算中心、相关实验室和企业交流,邀请高性能计算专家来校指导,举办高性能计算应用系列讲座,探讨高性能计算平台建设管理经验,大力创新服务模式。
3.4.3 定期用户回访,提高服务质量
加强用户沟通交流对提高服务质量起到至关重要的作用。平台定期对用户进行调查回访和意见收集,对用户使用情况进行统计分析,不断优化系统管理,提高服务质量。
重庆理工大学高性能计算平台自2016年底建成即投入使用,该文以2017~2018年高性能计算平台开户情况(图6)、提交作业数(表1)、使用机时(表2)等情况作为参考,分析改进管理模式的有效性[24],如下。
图6 2017~2018年HPC开户情况对比
表1 2017~2018年提交作业数情况
表2 2017~2018年机时使用情况(核时)
从图6、表1中可以看出,在2017年使用初期,只有计算机、药学、理学、车辆、电气等几个专业申请开户,只计算一些简单、用时少的作业,资源利用率低。发现问题后,中心通过提高管理人员专业技能、广泛宣传、组织培训交流、提供咨询等方式,大胆进行管理制度和运行机制的创新。从2018年的开户情况上看,学科专业领域在横向和纵向上都有所增长。从图7、图8看,虽然2017~2018年在作业提交数和机时使用量上有浮动,但从月度使用差额来看,总体趋势向上。
图7 2017~2018年提交作业数情况对比
图8 2017~2018年机时使用情况对比
改进管理模式后,平台使用量自2018年11月显著增长,极大地提高了平台的科研服务水平和资源利用率,更好地保障了学校激增的科研计算需求,成效显著。
在围绕把重庆理工大学建设成为国内一流的高水平应用研究型大学的总体要求下,该校高性能计算平台的建设与发展以智慧校园建设为核心,引进先进技术,升级管理系统,整合各重点学科优势,对平台管理机制、服务模式进行全面探索与创新,加强与研究机构的交流与合作,积极吸引和开拓用户群,构建一个技术先进、服务优良、成果突出的科研创新支撑平台,从而促进学校基础科研的发展,提高核心竞争力。