高性能计算平台在高校中的应用与建议

2020-08-14 09:48李小菲钟建军张彬秦帅行宋温温
现代信息科技 2020年8期
关键词:超级计算机计算能力

李小菲 钟建军 张彬 秦帅行 宋温温

摘  要:高性能计算在科研领域具有广泛的应用和重要的地位,高校高性能计算平台为学校学科建设的长远发展提供了强有力的支撑条件,提升了学校的科研实力与水平,有利于未来综合竞争力的提升。文章以河北大学高性能计算平台为例,介绍了高性能计算机平台的建设和在科研中的应用,并对高性能计算平台的使用情况进行了分析研究和建议。

关键词:超级计算机;高性能计算平台;计算能力

Abstracts:High performance computing (HPC) is widely used and important in scientific research,the high performance computing platform provides a strong support for the long-term development of the universitys discipline construction. It has improved the scientific research strength and level of the school,it is conducive to the promotion of comprehensive competitiveness in the future. Take the high performance computing platform of Hebei University as an example,this paper introduces the construction of high performance computer platform and its application in scientific research,the usage of High Performance Computing Platform is analyzed and suggested.

Keywords:super computer;high performance computing platform;computing power

0  引  言

随着科技的发展,计算机与我们的日常工作和学习生活之间的关系变得更加密切。在大数据的背景下,高性能计算(High performance computing,HPC),又称为超级计算,是计算机科学重要的前沿性分支,也大量地投入到对大数据的应用当中[1]。超算即超级计算机,是指由数千甚至更多处理器组成、能计算普通计算机和服务器不能完成的大型复杂课题的计算机,超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,被誉为“计算机中的珠穆朗玛峰”,已成為世界各国争夺的一个战略制高点[2]。超级计算机多用于国家高科技领域和尖端技术研究,是国家科技发展水平和创新能力的重要标志。

超级计算机被称为“国家重器”,属于国家战略高技术领域,是世界各国竞相角逐的科技最高点。超级计算机应用场合很多,大多都是高精端领域,比如天气预测、核爆炸模拟、飞机飞行计算、弹道计算、各种场合的3D建模等等。随着信息时代的来临,目前最流行的大数据概念,再结合云计算,超级计算机的应用将越来越广,甚至深入商业领域[3]。超级计算机作为一个国家科技实力的体现和科技发展的基础支撑环境,受到全球超级大国的重视,各国都在全力发展本国的超级计算机。

我国《国家重点专项规划之——“十三五”国家科技创新规划》中明确提出“发展先进计算技术,重点加强E级(百亿亿次级)计算、云计算、量子计算、人本计算、异构计算、智能计算、机器学习等技术研发及应用”。[1]

截止到2019年11月世界超级计算机排名上,中国的神威·太湖之光(Sunway TaihuLight)全球排名第三,其最大算力为9.301 459 388亿亿次每秒,峰值算力为12.543 590 4亿亿次每秒;中国的天河-2A(Tianhe-2A)排名第四,其最大算力为6.144 450 0亿亿次每秒,峰值算力为10.067 866 4亿亿次每秒,如表1所示。

当前,高性能计算已经成为解决国家发展面临的重大挑战性问题和科技创新的必备工具。计算科学领域高度依赖于高性能计算与科学大数据、深度学习之间的深度融合。近年来,人工智能的突破正是建立在超级计算机计算能力突飞猛进的发展和深度学习算法的成功结合上。发展以超级计算机为支撑平台的先进计算系统,将进一步推动高性能计算、智能计算和大数据的深度融合与创新发展。

1  高校高性能计算建设现状

近年来,国家对高性能计算的重视程度不断提升,高性能计算在我国很多领域都取得了巨大发展,高校作为科技创新的重要基地,对高性能计算的关注日益提高,众多高校都投入建设了校级高性能计算平台,强大的计算能力极大地提升了学校科研工作的能力和水平,促进了相关教学、科研工作的开展,高性能计算已成为高校教学、科研创新的一个基本手段。[4]

1.1  本校高性能计算平台介绍

河北大学高性能计算平台于2014年9月投入使用,总投资1 200余万元。系统包括计算刀片节点110片、胖节点18台、管理节点2台、可视化节点2台、GPU节点4台、MIC节点1台、并行存储3台、CPU核数大于4 000个。计算能力可达119.7万亿次/秒(TFLOPS)。存储裸容量182.88 TB,聚合带宽2.4 GB/s,全系统采用56 Gbps FDR InfiniBand线速互连,如图1所示。

作为服务于全校性的大型共享平台,高性能计算中心规模大,获得了学校和曙光厂商的重点支持。此外,高性能计算中心有专职管理人员负责,集群的运行状态比较稳定。

1.2  高性能计算平台的设备配置

高性能计算系统内部互连带宽56 Gbps,芯片传输延迟100 ns;全系统内存容量8.7 TB,在线共享存储磁盘容量183 TB;最大运行功耗为90 kW;机柜数量16个,如表2所示。

1.3  高性能计算平台网络拓扑图

集群采用全新的Gridview 3.2管理调度系统,集群拓扑结构如图2所示。

1.4  高性能计算平台安装的队列

到目前为止,平台上总共安装有15个队列,分别是blade_s1、blade_s2、balde_s3、blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、temporary_blade、test_blade、test_flat,隊列上的作业运行良好。

1.5  高性能计算机平台上安装的软件

目前,集群现已安装并能正常使用的软件包含Guessian、VASP、WIEN 2k、Cestep、RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,这些软件已经可以满足平台用户的需求。

2  高性能计算平台运行情况

到目前为止,集群共运行3万多个作业,累计使用机时为2 783.375 3万小时,作业使用核数总计为498万,输出数据均在良好范围内,运行状态正常。

2.1  高性能计算平台的申请使用情况

现平台使用单位中包括电子信息工程学院、生命科学学院、物理科学与技术学院、化学与环境科学学院、质量技术监督学院、药学院、计算机教学部、建筑工程学院、网络空间安全与计算机学院和药物化学与分子诊断教育部重点实验室。

截止到2019年底,全校共有43个课题组申请使用高性能计算平台,覆盖63个科研项目,其中国家级科研项目38个,省级科研项目22个,完结12个科研项目。

2.2  高性能计算平台运行维护情况

2.2.1  集群总览

以下对2016年度至2019年度平台的运行情况进行了分析,其中:2016年度共完成21个用户的26 222个作业,累计使用机时为554.704 3万小时;2017年度共完成27个用户的64 688个作业,累计使用机时为580.454 3万小时,平均作业机时为89.73小时。2018年度共完成39个用户的84 078个作业,累计使用机时为754.047 2万小时,平均作业机时为89.68小时,如表3所示。

2017相比2016年机时增长4.64%,作业数增长146.69%;2018相比2017年机时增长29.91%,作业数增长29.97%,2019年度共完成49个用户的73 415个作业,累计使用机时为894.169 5万小时,平均作业机时为121.80小时。2019相比2018年机时增长18.58%,作业数减少12.68%,如图3、图4所示。

2.2.2  队列统计情况

以2019年度为例,作业队列统计如下:

(1)队列blade_s1共完成了8 509个作业,占作业总数的11.59%,使用机时为60.703 4万小时,占总机时的6.79%;

(2)队列blade_s2共完成了6 858个作业,占作业总数的9.34%,使用机时为112.690 2万小时,占总机时的12.60%;

(3)队列blade_s3共完成了3 152个作业,占作业总数的4.29%,使用机时为58.248 2万小时,占总机时的6.51%;

(4)队列blade_x共完成了26 546个作业,占作业总数的36.16%,使用机时为131.996 9万小时,占总机时的14.76%;

(5)队列flat_amd共完成了12 730个作业,占作业总数的17.34%,使用机时为320.708 0万小时,占总机时 的35.87%;

(6)队列matlab共完成了58个作业,占作业总数的0.08%,使用机时为0.000 5万小时,占总机时的0.00%;

(7)队列msi_blade共完成了1 268个作业,占作业总数的1.73%,使用机时为40.627 6万小时,占总机时的4.54%;

(8)队列msi_flat共完成了179个作业,占作业总数的0.24%,使用机时为4.414 3万小时,占总机时的0.49%;

(9)队列queue_gpu共完成了6个作业,占作业总数的0.01%,使用机时为0.000 2万小时,占总机时的0.00%;

(10)队列temporary_blade共完成了9 070个作业,占作业总数的12.35%,使用机时为139.892 9万小时,占总机时的15.65%;

(11)队列test_blade共完成了3 811个作业,占作业总数的5.19%,使用机时为16.075 0万小时,占总机时的1.80%;

(12)队列test_flat共完成了1 228个作业,占作业总数的1.67%,使用机时为8.812 4万小时,占总机时的0.99%;如图5、图6所示。

2.2.3  高性能计算平台维护情况

2016年度将Gridview升级为全新的Gridview 3.2集群管理调度系统,完成了Gridview相关Portal安装。新增MATLAB,TensorFlow等软件的安装工作。并且根据高性能计算平台运行情况,结合使用者的反映情况和意见,对高性能计算平台进行了资源管理调配和清理维护工作,对原空闲模式期间的队列以及任务配额进行了调整,合理分配了用户的作业数、使用核数以及可用队列。

2017年度,本中心与曙光公司签订合同,在超算集群上安装针对高性能计算机的专业化监控运维平台EasyOP,实现了7×24小时全生命周期SAAS服务。立体化IT资产监控,从设备、系统、应用等多个方面思考、深入分析,精心制定的监控指标与运维流程,可以全面反映超算集群运行指数和健康状态,并能够使用大数据平台在线分析集群性能,探测隐患。

2.3  取得的科研成果

我校高性能计算平台自2014年投入使用以来,整体運行稳定,截止到2019年底,共有32位教师基于高性能计算平台的支持取得了研究成果,其中发表学术论文SCI有122篇,核心19篇,取得发明专利15个,其他期刊9篇,省部级奖3项。

高性能计算平台为我校科研及教学人员免费提供计算服务以及平台的使用,合理、高效地利用资源为我校的教学科研和学科建设服务提供了支持,保障我校承担的国家级重大科研项目的计算需求。

3  高性能计算平台在管理和运行中的建议

(1)建立专业的管理和运行团队。专业技术队伍是设备使用和维护的核心力量,是平台日常运行的枢纽和保障。高性能计算平台,不管是在软件的应用开发,硬件的运行、维护,软件与应用的扩展、开发,资源的管理、调度,计算模型、方法的优化等,都需要一个专业的团队。部分平台用户不了解高性能计算相关的技术操作,而负责平台运行的技术人员对学科的了解不够深入,极大地阻碍了高性能计算的应用。

(2)加大推广力度,提高平台使用效率。我们应当将当前领域内的重大热点引入校园,定期组织有关的学术报告,对于E级计算、云计算、量子计算、人本计算、异构计算、智能计算、机器学习这些新兴的热点和技术,既做到让学生对新技术有所了解,又推广了高性计算平台的使用。

应当组织学校师生积极参加高性能计算大赛,在参与比赛中学习、提高,提升创新实践能力,推动人才培养,丰富校园学术氛围。

平台中的部分用户为非计算机专业人员,对高性能计算和软件的使用不熟悉,在使用过程中遇到了很大的障碍。基于这种情况,我们应当有计划、有针对性地开展培训和讲座,帮助用户掌握高性能计算所需的专业知识。既节约了高性能计算平台管理人员的时间,又能达到很好的培训效果。

(3)与厂商协调安排管理人员到其他兄弟单位学习,借鉴其他学校的管理模式及成功案例,并完善高性能计算平台的准入准出规范,全面开展高性能计算平台的管理工作。

(4)高性能计算平台中部分软件安装使用的参数仍需优化调整,应避免个别使用者的操作不规范影响系统总体健康状态,减少额外的系统开销和资源浪费。

4  结  论

高校作为国家科技创新的重要基地,纷纷建立各自的高性能计算平台,以提升学校的科研实力与水平。本文介绍了河北大学高性能计算平台的建设情况,并对高性能计算平台的使用情况进行了分析研究,总结了高性能计算平台在使用过程中存在的问题,并提出了相应的合理化建议,以提高平台建设的有效性和使用效益。

参考文献:

[1] 历军.中国超算产业发展现状分析 [J].中国科学院院刊,2019,34(6):617-624.

[2] 张楠.图解全球超算500强:中国占44%!包揽制造商前三 [EB/OL].(2019-06-21).https://baijiahao.baidu.com/s?id=1636910254149176482&wfr=spider&for=pc.

[3] 失落代号.全球最新超级计算机排名,中国痛失冠军,第一名是美国的“顶点” [EB/OL].(2020-01-21).https://baijiahao.baidu.com/s?id=1656255536276795466&wfr=spider&for=pc.

[4] 荆明伟,周勇义,雷奕安.校级高性能计算公共服务平台的建设困局及思考建议 [J].华东师范大学学报(自然科学版),2015(S1):304-308.

作者简介:李小菲(1979.12—),女,汉族,河北保定人,工程师,硕士,研究方向:网络安全,高性能计算。

猜你喜欢
超级计算机计算能力
浅谈如何提高小学生的计算能力
厘清算理,提高学生计算能力
英国
提升学生计算能力的研究
中学生化学计算能力的进阶式培养策略
超算“心脏”
美国重登全球超算500强榜首
每秒100亿亿次 中国超级计算机
浅谈如何提高初中生数学计算能力