非能动核电燃料和堆芯设计软件平台的设计和实现

2019-09-10 07:22刘海永
现代信息科技 2019年7期

摘  要:为支持国家重大科技专项大型先进压水堆核电站等非能动核电的研发与设计,设计实现大型非能动核电软件计算平台是比较紧迫的任务。本文结合非能动核电燃料和堆芯设计软件系统平台的现状,利用LSF集群计算技术,设计了一套高性能计算平台,实现了统一入口、统一账户、统一数据存储,达到了硬件资源、软件资源和数据资源的高效使用。与商业计算机软件集成不同的是,其需集成的软件数量众多,远远超过一般国家级高性能计算中心的应用软件数量,且该软件为非能动核电专有软件,软件开发方没有为软件的分布式计算提供开放透明的接口,需要逐个探索评测改进软件的集成开发工作,该课题组完成主要软件的集成开发工作,有力地支撑了AP1000依托项目设计分包项目、CAP1000、CAP1400等非能动核电的研发与设计工作。

关键词:非能动核电;计算集群;LSF

中图分类号:TP311;TP338.8       文献标识码:A 文章编号:2096-4706(2019)07-0001-05

Abstract:In order to support the development and design of large-scale advanced pressurized water reactor (PWR) nuclear power plants and other passive nuclear power plants,it is an urgent task to design and implement a large-scale passive nuclear power software computing platform. In this paper,a high performance computing platform is designed based on LSF cluster computing technology,which combines the status of the software platform for passive nuclear fuel and core design. It realizes unified access,unified account and unified data storage,and achieves the efficient use of hardware resources,software resources and data resources. Different from the integration of commercial computer software,the number of software it needs to integrate is large,far exceeding the number of applications in general national high performance computing centers,and the software is proprietary software for passive nuclear power. The software developer does not provide an open and transparent interface for distributed computing of software,so it is necessary to explore and evaluate the integrated development of improved software one by one. Complete the integrated development of main software,strongly support AP1000 relying on project design subcontracting project,CAP1000,CAP1400 and other passive nuclear power research and development and design work.

Keywords:passive nuclear power;computing cluster;LSF

0  引  言

国家重大科技专项大型先进压水堆核电站等非能动核电的研发与设计的计算任务量和核电仿真软件精细度不断提高,当前核电燃料和堆芯设计软件平台面临诸多问题[1,2]。上海核工程研究设计院有限公司(以下简称“上海核工院”)作为承担第三代核电技术引进消化吸收和再创新重任的国家核电技术公司的核心单位,通过对AP1000技术的消化和吸收,在核电燃料和堆芯设计软件平台方面积累了宝贵经验,并积极探索非能动核电燃料和堆芯设计软件平台的技术方案[3-7]。笔者认为需亟待研究的课题至少有以下三个:第一,将软件系统升级为高性能并行计算集群系统;第二,AP1000軟件与现有软件的有效整合问题;第三,软件运行的安全问题[8]。此论文为第一个课题的研究成果。

1  核电燃料和堆芯设计软件系统介绍及其面临的问题

核电燃料和堆芯设计是AP1000技术的关键领域,也是AP1000技术密集度较高和技术更新最快的领域。从2007年起,西屋电气公司逐步向国家核电技术公司交付AP1000软件,燃料和堆芯设计软件是由西屋电气公司核燃料和堆芯设计事业部开发和维护的,运行在一套独立的软件系统平台之上。上海核工院有多套软件系统,每套系统都是独立运行的。其面临的主要问题如下:第一,硬件资源利用率低。硬件资源的使用处于分散状态,在部门及项目团队之间难以建立合理机制进行协调工作,大量计算任务基本靠用户个体之间协调,应用效率低下。第二,高负载软件运行“撞车”问题。关键软件属于典型的CAE计算软件,在运行时占用非常高的负载,不同用户的作业同时运行,降低了作业的执行效率,例如当一个用户的ANC作业在一台机器上运行的时候,另一个用户在不知情的情况下使该机启动了ANC或NEXUS等计算量很大的作业,两个作业会因为“撞车”而导致作业执行速度下降,运行时间过长。第三,平台对较旧版本的兼容问题。由于软件升级频繁,平台对很多旧版软件兼容性不好,用户调用较旧版本的软件往往会出现问题。

另外,AP1000核电燃料和堆芯设计平台的软件集成工作的工作量和技术难度非常大。这主要体现在以下三个方面:第一,数量众多,包含辅助软件总计达近百个(不计软件重复版本)。第二,该平台的技术领域进步很快,大约每4个月更新一个版次关键软件,平均大约15个月升级一次平台的操作系统版本,这远远超过一般商业计算仿真软件更新迭代的速度。第三,集成接口不透明,与ANSYS等商用软件开放集群分布式计算的接口不同,软件开发方没有为软件的分布式设计提供开放透明的接口,需要逐个不断地探索、评测,不断改进软件的集成开发工作。

2  基于LSF集群系统的分布式计算平台设计

2.1  基于LSF集群系统

基于集群的分布式计算,由高速网络将同一或不同地理位置的计算机和应用软件连接起来,使用并行计算管理软件形成一个松散耦合的并行计算系统,统一协调地解决计算问题[9]。LSF(全称“Load Sharing Facility”)原是加拿大Platform Computing公司(现被IBM公司收购)基于Toronto大学的Utopia系统研制和开发的一个用来管理分布式资源的工具[10],被很多大型分布式及计算使用,例如,上海超级计算中心的“魔方”高性能计算平台[11](运算能力达230万亿次,在2008年11月公布的TOP500全球超级计算排名中名列世界第十一、亚洲第一)和国家超级计算深圳中心(深圳云计算中心)的“星云”高性能计算平台[12](运算能力达3000万亿次,在2010年11月公布的TOP500全球超级计算排名中名列世界第三)就采用了LSF的技术方案。

LSF集群系统的分布式计算结构如图1所示,此结构包含3类节点,分别为提交节点(submission host)、管理节点(master host)和处理节点(execution host,也称计算节点)。一个作业在LSF集群系统中的完整调度过程分为:提交作业、调度作业、分发作业、运行作业、返回输出和返回结果到提交节点等6个过程[13]。

2.2  总体设计

在总体设计中,由于目前拥有超过20个计算节点,为降低管理节点的负载,将管理节点设置为用户登录节点(即平台访问入口)和平台管理节点(用于管理员软件安装调试、Master Host等);根据软件版本的不同,将计算节点进行分组;计算平台的管理网络与计算网络相分离,计算网络一般采用高速InfiniBand网络,以提高整个系统IO效率。将存储设置为高性能存储和普通存储,其中,高性能存储可为Lustre[14],在开展计算量很大的任务时极大地提高了计算效率。Lustre与GPFS[15]均为并行文件系统的解决方案,被著名超算中心使用,例如,Titan[16]采用Lustre管理数据和存储资源,天河系列超级计算机[17]在Lustre的基础上辅以H2FS实现异构存储资源的管理。平台总体设计架结构如图2所示。

2.3  设计评估

此平台的设计评估如下:

(1)LSF统一管理调度所有作业,解决了硬件资源利用无序、低效和应用程序相互冲突的问题;

(2)LSF作业优先管理方案解决了资源调度与项目匹配脱节的问题;

(3)按软件版本将计算节点进行分组,用户在使用软件时,将调用支持相关版本的计算节点。

因此,该平台的设计基本解决了该论文第1部分提出的主要问题。

3  平台的实现与应用效果模拟分析

平台采用了6台惠普HP BL406Gen7设备的计算环境、系统配置等内容如表1,其中计算节点运行软件ANC版本9.4.0和VIPRE-W版本7.11.1。

与ANSYS等商用软件开放集群分布式计算的接口不同,核电燃料和堆芯设计软件需深入研究和不断探索与LSF等软件的集成工作。在配置完成后,运行LSF命令bhosts显示集群状况,如图3所示。

4  应用效果模拟分析

为简化模拟分析的复杂度,忽略平台分配作业等系统时间和旧平台作业撞车导致作业运行时间过长等因素,现使用ANC版本940的一个算例进行模拟分析。其具体方法如下:

(1)编制一个将该算例运行960次的程序脚本;

(2)使用EXCEL函数RANDBETWEEN产生1至4的随机整数,随机分配到4个计算节点;

(3)将上述脚本运行5遍,产生模拟实验数据。

而LSF将960次作业平均分配到4个计算节点,每个节点可同时运行12个作业,一个算例运行时间为66秒,共运行1320秒。该模拟实验结果详见表2,LSF的作业调度系统将提高平台的计算效率。

5  软件的集成开发工作

AP1000核电燃料和堆芯设计平台的软件集成工作工作量和技术难度非常大。这主要体现在以下三个方面:第一,数量众多,包含含辅助软件总计达近百个(不计软件重复版本)。第二,该平台的技术领域进步很快,大约每4个月更新一个版次关键软件,平均大约15个月升级一次平台的操作系统版本,这远远超过一般商业计算仿真软件更新迭代的速度。第三,集成接口不透明,与ANSYS等商用软件开放集群分布式计算的接口不同,软件开发方没有为软件的分布式设计提供开放透明的接口,需要逐个不断地探索、评测,以改进软件的集成开发工作。

软件集成开发主要将软件用户和系统管理人员从Linux Shell命令行里解脱出来,通过Web界面与系统交互。IBM Platform Application Center(简称“PAC”)是一个为LSF集群而设计Web Portal门户,它主要包含作业及其数据管理、应用集成模板、用户与安全管理、远程可视化和集群状态监控、用户定制化开發等功能。由于篇幅限制,下面仅介绍应用模板的集成工作。

5.1  软件模板集成开发步骤

在Web Portal创建软件应用模板主要包括以下几个步骤:

(1)创建应用软件的应用模板;

(2)定义应用模板内域元素的依赖关系;

(3)自动探测和上传输入文件、数据文件等;

(4)在应用表单里增加使用介绍页面。

5.2  图形交互软件的集成开发

近来富客户端技术的发展,尤其是WebSocket技术的开发,Web程序的交互能力和表现效果逐渐增强,越来越多的应用逐渐从C/S模式转变为B/S模式。在评测了VNC、TurboVNC、NICE Desktop Cloud Visualization(DCV)、HP Romote Graphics Software(RGS)和Exceed onDemand(EoD)后选择了Exceed onDemand(EoD)实现对远程2D/3D图形进行交互的技术方案,其原因如下:

(1)在Linux平台其安全性、便利性、高效性表现出众;

(2)可同时支持OpenGL图形和GPU共享的应用程序接口;

(3)实现对向用户直接推送交互的应用界面,而不是通过推送桌面间接实现。

PAC和Exceed onDemand的融合可以实现2D/3D任务的图形化集中管理和调度,从PAC上可以实现2D/3D任务的建立、提交、运行、暂停、终止、查看等全程监控及管理。通过这种方式可以共享计算资源和应用许可证,提高资源的利用率和减少硬件和软件的支出。图5为PAC和Exceed onDemand的集成架构。

BEACON是堆芯在线监测分析程序,利用中子学模型和堆芯实时数据进行堆芯的监测、分析和预测,可提供堆芯实时3D功率分布,是一款典型的可视化交互式软件,其集成开发的效果见图6所示。

6  结  论

本文通过分析核电燃料和堆芯設计软件平台的不足,提出了非能动核电燃料和堆芯设计软件系统平台的设计方案,并实现了平台与部分软件的初步集成。这将为非能动核电燃料和堆芯设计剩余软件的集成工作提供重要参考,也为核电研发设计行业、设备制造行业、政府监管部门的AP1000设计软件的用户提供有益借鉴。下一步将研究如何为非能动核电燃料和堆芯设计软件构建高性能并行计算集群平台监控和统计分析及后续课题内容。

参考文献:

[1] 叶成,郑明光,王勇,等.AP1000非能动安全壳冷却水WGOTHIC分析 [J].原子能科学技术,2013,12(47):2225-2230.

[2] 王国栋,王喆,扈本学,等.应用DAKOTA程序耦合WGOTHIC程序进行安全壳压力响应敏感性分析 [J].原子能科学技术,2015,49(12):2176-2180.

[3] 郑明光,叶成,韩旭.新能源中的核电发展 [J].核技术,2010,33(2):81-86.

[4] 吴剑鸣.核电技术和产业发展的动向 [J].自动化仪表,2010,31(8):1-5.

[5] 缪鸿兴.AP1000先进核电技术 [J].自动化博览,2009(8):32-35.

[6] 欧阳予.核能和平利用的发展历程与前景展望 [J].电气技术,2009(8):16-21.

[7] 郑明光.从AP1000到CAP1400,我国先进三代非能动核电技术自主化历程 [J].中国核电,2018,11(1):41-45.

[8] 刘海永.第三代核电燃料和堆芯设计软件系统的研究 [J].计算机光盘软件与应用,2012(14):198+200.

[9] 何军.PowerScript语言·事件·函数 [M].北京:电子工业出版社,2004.

[10] GJB 2634-96,飞机电网设计通用要求 [S].北京:国防科技大学工业委员会,1996.

[11] TOP500.org. Shanghai Supercomputer Center [EB/OL].https://www.top500.org/site/49697,2008-11-02.

[12] TOP500.org. National Supercomputing Centre in Shenzhen(NSCSE) [EB/OL].https://www.top500.org/system/176819,2010-11-01.

[13] Platform Computing Inc. Administering PlatformTM LSFTM [OL].http://www.ccs.miani.edu/hpc/lsf/7.0.6/admin/terms.html,2009-08-31.

[14] 庄园.基于Lustre文件系统MPI-I/O优化的改进与实现 [D].济南:山东大学,2017.

[15] 张新诺,王彬.GPFS文件系统的安装配置与维护 [J].计算机技术与发展,2018,5:174-178.

[16] Cluster File System,Inc. Lustre:A scalable,high-performance file system [R].New York:Cluster File System,Inc,2012.

[17] 周恩强,张伟,董勇,等.面向分层混合存储架构的协同式突发缓冲技术 [J].国防科技大学学报,2015,1(37):47-52.

作者简介:刘海永(1981-),男,汉族,河南柘城人,工程师,硕士,研究方向:信息系统、高性能计算和云计算。