文/鲁永泉 高鹏东
如何管理好,使用好庞大的计算设备和资源对所有HPC中心的管理者来说,都是一个非常重要和困难的问题。一般来说,国内的很多单位都是将HPC中心作为一个独立的部门进行管理,甚至会给HPC中心赋予一定的行政级别,以便更好地进行设备维护和用户管理。因此,国内的大部分HPC中心往往都维持了一个庞大的运营和管理团队。这无疑加重了所在单位的负担,尤其是资金上的压力。很多高校和科研单位,在投入巨额资金建立了高性能HPC中心之后,都会出现缺乏应用和终端用户的情况,面对后期运营中出现的各种问题,往往都是苦不堪言。
纵观国内外HPC中心的普遍发展模式,不论在中国还是美国,都是一个需要资金持续投入的动态过程。技术发展带来的工艺和设备更新要求HPC中心必须有新的投入,而庞大设备的维护和管理费用对HPC中心来说更是一个必须的持续投入。国外高性能发展的初期、国内HPC中心目前的运营状况,都是如此。在缺少高附加值应用和终端客源的情况下,大多数HPC中心依靠自己的力量都难以为继,都不得不依靠政府长期的支持和不断的投入。如果缺少了政府的支持,将举步维艰。中国传媒大学高性能计算中心在可持续发展上,走出了一条独具特色的产学研一体化道路。
中国传媒大学高性能计算中心自2006年成立以来,同样遇到了上述问题。由于投入经费预算的限制,高性能计算中心仅设置4个专职的科研人员编制。中心工作人员除了进行高性能计算相关领域的研究开发,以及相关专业博士硕士研究生的教学培养外,还要负责管理和维护面向全校师生开放的高性能计算平台。因此,如何尽可能地减少系统管理人员的工作负担,使其能够从繁冗琐碎的日常管理工作中摆脱出来,同时有效提高高性能计算平台管理工作的自动化程度,降低计算集群的使用门槛,是传媒大学高性能计算中心在运行一段时间后,中心管理人员不得不思考的一个重要问题。
在对国内外现有集群管理系统软件进行充分的调研之后,中心人员发现目前现有的集群管理系统软件种类繁多,这些管理软件在功能上都不尽相同,大都只是实现了集群系统的某个方面的管理功能。对于集群的管理员来说,需要的是针对集群系统全方位、各个层面的统一管理。因此,管理员往往不得不在各种不同的集群管理软件之间来回切换。而且,大多数集群管理软件还都是以命令行、配置文件的方式进行操作,这进一步加大了管理和使用的集群系统的难度。尤其对于集群的终端用户来说,他们可能都是某些应用领域的专家,专业知识十分丰富,但由于不熟悉Linux下命令行的操作方式或由于任务提交过程过于复杂,使得这些老师的使用受到了极大的影响,有些人甚至因此放弃了对集群的使用。
鉴于集群管理和使用中存在的实际困难,中心的科研人员在深入分析比较了加拿大Platform公司的LSF、Platform Rocks以及香港联科公司的CHESS软件之后,决定不局限于现有的商业集群管理软件,转而立足于自身技术实力,根据中国传媒大学师生使用集群的实际情况,开发具有自主知识产权的集群管理系统软件。
COMS (Cluster Optimization and Management System)集群优化管理系统软件正是在这样的背景下产生的,是中心人员经过近两年时间刻苦钻研的结果。在2008年初,COMS v1.0诞生了。COMS v1.0整合了分散于操作系统、集群系统管理、作业调度管理、状态监控等软件中的多种管理功能,实现了对集群多个层次的统一管理,将集群所有节点从异构的、松散的状态整合成一个紧密的具有单一映像的“虚拟超级计算机”,实现对集群系统资源有效的管理维护。为用户和管理员提供一个友好的Web界面,有效降低了集群系统的使用及管理难度。
在推出该版本之前,中心科研人员对其进行了严格测试,而且还将其作为中国传媒大学高性能计算平台的管理系统为全校师生服务了长达半年之久,成功经受住了各种并行应用的考验。
COMS作为一个专业性很强的业务系统。它的实现充分体现了各个子系统之间相对独立性,而且每个子系统也都采用了N-Tier的软件架构,实现了用户界面和业务逻辑的分离。当用户界面接收到通过Web浏览器发出的请求以后,首先是对数据进行必要的预处理,然后才调用业务逻辑层模块进行处理,待处理完成后,再由用户界面层加载相应的页面模板动态生成HTML页面,并返回给用户。这不仅增强了系统的可维护性,还允许用户定制适合自己风格的界面,从而有效地提高系统的易用性。另外,在用户界面的开发上使用了AJAX技术,极大改善了系统的用户体验。
随着COMS软件的不断完善,功能的日趋丰富,在中心工作人员对外的学术交流中,COMS系统受到了越来越多业内人士的广泛关注。因此,COMS作为中心人员辛勤工作的结晶,走上产业化的道路已经成为必然。
对于中心的科研成果向社会生产力转化的问题,学校给予了大力支持。中国传媒大学十分重视调动学校的科技、教育和人才资源,并逐步加强科技教育与经济的结合,加速科技成果的转化和产业化,有力的促进了首都的经济建设和社会发展,取得了重要的产业化成就。
2009年4月,DELL公司和中心合作,为中科院空间中心提供了一套1024个处理器的高性能计算平台。其中,DELL公司负责提供所有的硬件设备,中心负责系统所有软件的部署和培训,并进行Linpack基准测试。在系统部署过程中,中心研究人员发现并克服了DELL官方网站提供的网卡驱动程序存在不稳定等问题。而且在有限的时间内,在Linpack基准测试中跑出了并行效率为84.07%的最好成绩。该成绩使得空间中心的这套集群在2009年11月公布的中国高性能计算机TOP100排行上名列第45位。排名靠前的计算集群的规模都要远远大于空间中心的计算集群规模。此次合作标志着中国传媒大学高性能计算中心研发的集群系统管理软件COMS正式得到了国际IT设备制造商DELL的认可。之后,中心还先后与DELL公司合作,为中科院研究生院、中科院大气物理研究所、中科院理论物理研究所、中央民族大学、北京市信息职业技术学院、燕山大学、内蒙古科技大学等一批国内知名高校和科研单位的高性能计算平台建设提供技术支持与服务。
COMS系统充分体现了中国传媒大学高性能计算中心在高性能计算领域的科研实力,不仅为中心和学校赢得了荣誉,而且也使中心乃至传媒大学得到了国内更多高性能计算应用领域用户的了解和肯定。
正是凭借用户对COMS系统的认可,中心得以和中国地震局地球物理研究所在“国家地震网络计算应用系统”以及中科院空间中心在“空间天气网格EScience示范项目”上开展了进一步深入的合作。2009年初,在经过中国地震局地球物理研究所对COMS系统严格的考察之后,双方签署了关于建设“国家地震网络计算应用系统”的协议。由中心负责为中国地震局开发直接服务于我国地震监测与预报的网络科技计算环境。该系统主要是基于地震行业内外集群计算资源、观测数据资源和地学知识资源,通过地球科学计算模型的并行重构和计算应用软件的规范化设计,采用网络的形式为科学研究、地震预报和经济建设提供高性能计算能力和远程服务。
国家地震网络计算应用系统,如图1所示,是由集群计算系统、应用门户系统、资源管理系统和地学计算应用系统等构成。在中国地震局已有的地震信息系统基础上,扩充网络数据传输、存储、交换及处理等能力,依托地球物理研究所集群服务器,建立并行超级计算系统,通过门户系统,使各个计算应用系统形成一个整体,构成具有一定并行处理能力的地震应用网络计算示范系统,使用户能够通过网络远程访问应用节点,共享节点的并行计算、数据信息和应用软件等资源。该系统目前共支持国家地震行业中地球物理、地震预测、地质研究、地壳应力等方面的三十多种专业计算应用服务。
图1 国家地震网络计算应用系统
2009年底,中心和中科院空间中心在前期高性能计算平台建设成功合作的基础上,就中科院E-Science示范项目“空间天气网格”的建设达成一致,并签署了合作协议,由中心承担中科院空间中心的EScience示范项目“空间天气网格”建设,并为空间中心承担的国家重大科技基础设施项目“东半球空间环境地基综合监测子午链(简称子午工程)”提供技术支持与服务。
在“空间天气网格”E-Science示范项目建设中,主要是充分利用现有的探测数据和建模产品,以空间天气网格为主要载体,充分利用实时数据、高性能计算与可视化设备等先进手段或工具,进行空间天气事件的分析和预测。中心科研人员根据中科院空间中心的实际需求,为其量身打造了一款“网格应用管理系统GAMS”。该系统能够将分布式的计算资源、存储资源、数据资源、信息资源、知识资源和专家资源实现全面的共享,并提供给用户透明的资源或者应用使用。
对于终端用户或者应用来说,网格应用管理系统GAMS就好像是一台超大型的虚拟计算机,通过在个人、组织和资源之间实现安全、协调的资源共享,创建出虚拟的动态组织。此外,网格应用管理系统基于Web的友好界面,使得终端用户可以完全不理会系统底层复杂的网络连接和应用实现,而轻松享受技术发展和进步所带来的无尽便利。
如图2所示,是E-Science示范项目“空间天气网格”L1-磁层-电离层因果链物理模式数值磁层库的使用界面。“国家地震网络计算应用系统”和“空间天气网格E-Science示范项目”是中国传媒大学高性能计算中心在高性能计算领域继COMS系统之后,产学研一体化继续深入的另外两个成功案例。这两个项目的建设,不仅充分得到了最终用户的充分肯定,而且为整合我国地震和空间天气领域现有的设备、计算资源、数据资源以及人力资源做出了贡献。
图2 E-Science示范项目“空间天气网格”