王 彬
(国家气象信息中心中国气象局,北京100081)
高性能计算通过并行计算的方式解决对超级计算性能的需求。气象是高性能计算的重要应用领域之一。随着气象数值预报业务与科研工作的快速发展,气象高性能计算的需求激增,中国气象部门的高性能计算能力有了长足的进步,应用水平不断提高,为提高气象业务信息化能力做出了重要贡献。
根据文献[1]中的定义,高性能计算(high performance computing,HPC)泛指量大、快速、高效的运算。通常也把高性能计算称为超级计算。目前,高性能计算已经成为计算机科学技术的一个重要分支,主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术,高性能计算是继理论科学和实验科学之后科学研究的第三大支柱。从更广泛的视野来看,高性能计算已不仅限于并行计算,与分布式计算、网格计算、网络计算、云计算等密切联系并日益融合。
根据Flynn分类法[2],现代的高性能计算机系统大都属于MIMD(多指令流多数据流)类型的计算机。MIMD从结构上和访存方式上,又可以分为:
结构模型:PVP(并行向量处理机),SMP(共享存储型多处理机),MPP(大规模并行处理),DSM(分布共享存储),COW(工作站集群)。
访存模型:UMA(均匀存储器存取),NUMA(非均匀存储器存取),COMA(只用高速缓存的存储器结构),CC-NUMA(一致性高速缓存非均匀存储访问模型),NORMA(非远程存储访问模型)。
集群系统(cluster)是一组相互独立的计算机,利用高速通信网络,按某种结构连接起来,组成一个单一的计算机系统,统一管理调度,实现高效并行处理的系统。其出发点是提供高可靠性、可扩充性和抗灾难性。在2012年6月的世界超级计算机Top500中,集群系统架构占据81%以上的市场份额。
目前衡量高性能计算机的关键性能指标包括系统架构、机器规模、处理器(核)数量、峰值速度、实测速度、运行效率、网络互联性能、每瓦特性能等。
高性能计算进入千万亿次(PFLOPS)时代后,主要厂商已经开始探索ExaFlops(百亿亿次,千万亿次PFlops的1000倍)级的超级计算机,预计首台ExaFlops计算机系统将会在2018年左右出现[3]。
虽然性能提升速度迅猛,但是高性能计算领域面临的高度计算密集、数据密集型应用需求也急剧攀升。现在和未来所有高性能计算系统面临的挑战有:低成本、低能耗、并行程序支持的可用性以及对现有代码的有效沿用。
在过去的几十年里,计算机处理器速度的发展一直遵循着摩尔定律。特定的应用程序会随着处理器频率的提高而跑得更快。然而,未来单CPU芯片将需要更高的主频,这就导致CPU能耗增加,产生散热、漏电等单CPU芯片物理瓶颈,这些因素有力地推动了多核处理器技术的发展。处理器性能的提高将不再单纯依赖时钟频率的提高,而是要发挥多核/众核的并行性。从Terascale发展到Petascale级甚至更高的高性能计算系统意味着系统内的组件(内核、互联、存储等)数量也在迅猛增加。目前机器规模最大的美国红杉(Sequoia)超级计算机系统总共使用了157万个处理器内核。
图形处理器(graphic processing unit,GPU)自问世以来,一直是作为CPU的附属加速器来使用。随着技术的发展和创新,GPU相对于CPU有更多的执行单元数量,使GPU能够在浮点处理能力上获得优势;GPU速度快、能耗低的优势日渐凸显,逐渐演变成现在一些高性能计算机用于数据并行的组成部分。由于采用了专用的加速部件,混合架构系统的性能/功耗比一般高于传统的同构系统[4]。因此,未来高性能计算机硬件体系结构的可能将是CPU与GPU核组成的混合系统。
云计算是近几年兴起并广受关注的一种资源提供、使用和计算模式:“云计算是由规模经济拖动,为互联网上的外部用户提供一组抽象的、虚拟化的、动态可扩展的、可管理的计算资源能力、存储能力、平台和服务的一种大规模分布式计算的聚合体”[5]。云计算环境中,计算任务分布在计算资源十分丰沛的计算资源池上,各种应用系统能够根据需要实时获取计算能力、存储空间和各种软件服务,云计算平台可以按需对资源、平台和软件进行动态地部署、配置、重新配置以及取消等。云计算具有资源虚拟化、存储高效可靠、高可扩展性、集约管理、按需服务、“超瘦”客户端、使用方便等特点。
气象领域对高性能计算需求十分强烈,其需求主体是数值天气预报模式的科学研究和业务运行[6]。世界各国的业务数值预报也在有计划、有步骤地快速发展,未来3~5年几乎世界各主要国家的全球数值预报模式水平分辨率都将提高到10~20公里,达到了全球中尺度模式的水平,欧洲中期天气预报中心的模式T1279 L91,水平分辨率已达16公里,日本气象厅业务运行的全球数值预报模式T959 L60,水平分辨率达到20公里[7]。
为适应数值预报模式的快速发展,各国气象部门的高性能计算机更新速度较快,欧美国家的气象用机一般每两年就会更新一次。截止到2012年6月份,全球前500名的系统中一共有15台系统用于天气和气候应用领域,基本采用了MPP架构。
各国气象部门计算能力,如图1所示。
图1 各国气象部门计算能力
欧洲中期天气预报中心(ECMWF)、美国、德国、英国、韩国和巴西等世界主要气象部门都拥有世界上目前排名前500名的高性能计算机系统,这些气象部门在2008年至2012年间都进行了设备的更新,并计划在未来几年引入性能超过千万亿次每秒(PFLOPS)的高性能计算机系统来支持气象应用。
高性能计算机系统是中国气象信息系统的核心组成部分之一,其计算规模已成为气象现代化建设水平的重要标志之一。
中国气象局国家级业务中心先后引进了银河Ⅱ、CRAY J90、CRAY EL98、CRAY C92、IBM SP2、IBM SP、曙光1000A、银河Ⅲ、神威Ⅰ、神威新世纪-32I、神威新世纪-32P、IBM Cluster 1600、SGI Altix4700以及神威4000A等高性能计算机系统(如图2所示),在支撑数值预报业务服务、研究开发及卫星数据处理业务等工作中发挥了重大作用[8]。
图2 国家级高性能计算机系统建设过程
从20世纪90年代初至今,气象部门国家级计算能力基本上每5年增长1个数量级。2005年底,21.76TFlops的IBM高性能计算机系统投入业务应用后,用于业务和科研的计算能力比1978年提高了近2300万倍,比“九五”期间提高了近200倍。
从发展过程来看,2000年前进口国外高性能计算机系统占主导地位,2000年后国产高性能计算机与进口并驾齐驱。
国家级气象部门目前业务运行的主要高性能计算机有4台,总计算能力近70TFLOPS,表1给出了国家级业务运行的主要高性能计算机系统。
表1 气象部门国家级业务运行高性能计算机系统
IBM高性能计算机系统作为国家级主要计算业务平台,承担数值天气预报业务、短期气候预测业务、气候变化评估、数值预报准业务及研发作业运行等业务、科研任务。IBM高性能计算机系统包括IBM Cluster 1600系统的376个P655节点、6个P690节点、4个P630管理节点、25个HMC硬件管理控制台、72个HPS互联网络、Fast T900磁盘阵列、网络交换机以及其他的相关配件。整体计算性能为21.76TFlops。
神威4000A高性能计算机系统作为中国气象局过渡期高性能计算机系统,承担着第二代短期气候预测业务研发、IPCC-AR5、GRAPES模式研发、风能资源预报服务等重要研发计算任务。神威4000A高性能计算机系统由296个计算节点、16个存储节点、2个元数据服务器节点,2个登录节点,2个管理服务器节点等部分组成。整体计算性能为33.75TFLOPS。
高性能计算资源对于中国气象局而言始终是稀缺资源,由于国家级与地方之间,以及地方与地方之间在数值预报方面发展的不平衡,导致目前这一稀缺资源在部门之间分布(包括地理分布)的不均衡。对此,中国气象局已着手依托国家级、区域级信息中心计算能力,建立一个气象部门内全国范围分布的、跨广域网络的气象计算资源管理与共享平台,进行计算资源的整合和气象模式的网格化应用及推广,解决气象部门国家级、地方单位的资源整合、共享与协同管理等问题[9]。
在区域中心数值预报业务研究不断发展、着力增强区域天气气候预报预测水平和业务能力的同时,自2000年以来,一些区域和省级气象部门也根据业务发展需要和实际情况,先后购置建设了不同规模的高性能计算机系统[10,11]。
随着多核/众核处理器、超大规模并行处理、GPU计算、云计算等新技术的出现,业界正处于计算技术发展的转折点,科学计算算法将经历技术和思维两方面的变革。这些新兴技术正在或已经对现有高性能计算技术产生了不可忽视的影响和促进,未来的发展趋势将是多方面的融合,这将对气象部门的高性能计算应用、研发产生深远的影响,将极大推动包括高性能计算机业务在内的气象部门信息化建设[12]。可以预见,在未来,高性能计算技术将与数值气象预报的应用研究日益融合,不断创新发展。
为了满足数值天气与气候预报模式业务运行和科研工作发展需要,十二五期间将通过实施能力建设工程项目,引进建设新一代千万亿次以上国家级高性能计算机系统,缓解国家级计算资源紧张局面,支撑同期数值天气预报、气候预测与气候变化等业务研究工作。区域级也将建设适当规模的计算能力,支撑发展本区域内业务。同时,制订和施行配套的高性能计算资源分配、资源账户、资源评估、资源变更等管理规范[8]。
建立全国和区域级计算资源综合管理平台,制定推行计算资源整合准入方案,研制气象计算资源综合管理软件,建立基于用户行为的资源管理模式。引进吸收先进软件技术,建设全国范围跨区域的气象高性能计算平台,实现计算资源的统一管理、分配调剂与互备支撑。促进资源集约使用,提高资源利用效率和精细化管理水平。图3是未来CMAGRID建成后的格局。
图3 CMAGRID
未来的国家级异地业务应急备份中心,将建立备份高性能计算系统和存储系统,支撑国家级数值天气预报业务数值模式的异地运行。
高性能计算是信息技术发展较快的方向之一,气象领域一直是高性能计算应用的重要领域。几十年以来,由于数值天气预报模式研究和业务运行对计算资源的强烈需要,国内外气象部门的高性能计算机及应用蓬勃发展起来。中国气象国家级及区域级的高性能计算应用水平飞速提升,成为气象现代化水平的重要标志之一。从未来趋势看,两者结合将日趋紧密,并不断相得益彰,创新发展。
[1]CHEN Guoliang,WU Junmin.High performance computing and high performance computer[EB/OL].[2012-12-03].http://wenku.baidu.com/view/bfa91636f111f18583d05a14.html(in Chinese).[陈国良,吴俊敏.高性能计算与高性能计算机[EB/OL].[2012-12-03].http://wenku.baidu.com/view/bfa91636f111f18583d05a14.html.]
[2]Flynn M.Flynn's taxonomy[EB/OL].[2013-05-04].http://en.wikipedia.org/wiki/Flynn's_taxonomy.
[3]LI Guojie.Information science and technology outlook for the first half of the 21st century[J].Bulletin of Chinese Academy of Sciences,2010,25(1):78-86(in Chinese).[李国杰.21世纪上半叶信息科学技术展望[J].中国科学院院刊,2010,25(1):78-86.]
[4]LIN Yisong,YANG Xuejun,TANG Tao,et al.An integrated energy optimization approach for CPU-GPU heterogeneous systems based on critical path analysis[J].Chinese Journal of Computers,2012,35(1):123-133(in Chinese).[林一松,杨学军,唐滔,等.一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法[J].计算机学报,2012,35(1):123-133.]
[5]Foster I,Yong Z,Raicu I,et al.Cloud computing and grid computing 360-degree compared[C]//Proc Grid Comput Environ Workshop,Austin,Texas:IEEE Press,2008:1-10.
[6]WEI Min,WANG Bin,SUN Jing,et al.Analysis of the applicability of tianhe-1 supercomputer in the field of meteorology[J].Advances in Meteorological Science and Technology,2012,2(1):31-35(in Chinese).[魏敏,王彬,孙婧,等.“天河一号”系列超级计算机系统气象领域适用性分析[J].气象科技进展,2012,2(1):31-35.]
[7]WANG Bin.An introduction to the 15th ECMWF workshop on high performance computing in meteorology[J].Scientific and Technological Cooperation in Meteorology,2013(2):11-17(in Chinese).[王彬.第15届ECMWF高性能计算机在气象中的应用研讨会简介[J].气象科技合作动态,2013(2):11-17.]
[8]ZHAO Licheng.Meteorological information system[M].Beijing:China Meteorological Press,2011:72-84(in Chinese).[赵立成,气象信息系统[M].北京:气象出版社,2011:72-84.]
[9]WANG Bin,ZONG Xiang,TIAN Hao.Design and establishment of a nationwide meteorological computational grid[J].Journal of Applied Meteorological Science,2010,21(5):632-640(in Chinese).[王彬,宗翔,田浩.国家气象计算网格的设计与建立[J].应用气象学报,2010,21(5):632-640.]
[10]XIAO Wenming,LI Yongsheng,CHEN Xiaoyu,et al.Study on performance evaluation of HPC system[J].Computer Systems &Applications,2008(3):115-118(in Chinese).[肖文名,李永生,陈晓宇,等.高性能计算系统性能评测关键问题探讨[J].计算机系统应用,2008(3):115-118.]
[11]YUAN Weihua,ZHAO Yujuan,MENG Dongmei,et al.Design and implementation of Tianjin mesoscale numerical weather prediction system[J].Meteorological Science and Technology,2011,39(6):828-833(in Chinese).[袁卫华,赵玉娟,孟冬梅,等.天津市中尺度数值预报业务系统的设计与实现[J].气象科技,2011,39(6):828-833.]
[12]SHEN Wenhai.Future meteorological informationization trends through cloud computing[J].Advances in Meteorological Science and Technology,2012,2(2):49-56(in Chinese).[沈文海.从云计算看气象部门未来的信息化趋势[J].气象科技进展,2012,2(2):49-56.]