黄 强
(洪都航空工业集团,江西 南昌330024)
随着IT技术与计算机模拟仿真技术的突飞猛进,在飞机制造工业中,产品的设计、制造、测试的过程越来越多的由计算机虚拟化的设计、模拟、测试,甚至产品的整个制造过程都可由计算机来仿真和模拟,这大大提高了产品的研制周期、提高了产品质量同时又大量地节约了制造成本。 但是这种技术的应用是依赖于IT计算机软/硬件资源的, 由于传统的信息系统的局限性导致资源分散, 无法共享从而影响了产品的协同设计与制造。 解决高性能计算分布资源的共享与协同工作成为企业亟待解决的问题。
随着现代航空技术和数字化设计技术的发展,在飞机研发的手段上也在不断更新。 加强气动弹性静力学问题计算分析能力, 可使用静气动弹性计算软件平台AS/ElasticLoads; 为提高飞机气动力计算分析的能力, 可选FLVENT、 LFX、 Ansys等软件; 为进行结构优化和动、 静力学分析和仿真可选用Nastran、 Dyan等软件, 应用软件实例见图1。
这些软、硬件的引进与应用,为飞机的研制发挥了重要作用, 也在研制中逐步建立和提高了数值计算分析及仿真的能力。 但是仍存在一些问题。
图1 应用软件实例
应用人员在运行并行作业前,必须进入程序手工为作业分配CPU,并且往往因为各种原因失败,如CPU被其他作业占用,许可证不够等,应用人员往往要花费数分钟甚至数十分钟,才能让作业运行,大大降低了工作效率。
由于缺乏统一的管理和协调,不同用户的作业经常出现冲突,大大降低了双方作业的执行效率,例如当一个用户的Fluent作业在一台机器上运行的时候,另一个用户在不知情的情况下在该机启动了网格生成软件或CFX,这样两个用户的作业会因为撞车而导致作业执行速度下降,运行时间长。 进而导致系统和许可证的无效占用,作业运行成本提高。
硬件资源往往在上班时间使用率较高,晚上和周末使用率较低。 用户虽然采取了一些措施,如在下班前运行一个作业,但由于缺乏有效的作业排队管理机制,无法从根本上解决问题。
由于没有优先级调度管理,紧急的项目和用户自动优先获得资源,往往要通过人工协调,影响工作效率。
为了解决高性能计算集群硬件资源和CAD/CAE软件许可资源的共享和管理, 以及虚拟样机设计与仿真、结构分析、气动力计算等,需建立一个高安全、高可扩展、 易管理的软件管理及高性能计算机群系统, 该系统将用于运行工程分析软件:AS/ElasticLoads、 FLUENT、MGAERO、CFX11、Nastran、Dyan、Adams、Dytran、Fatigue、ANSYS等,并对工程设计和分析软件许可证进行统一的管理调度, 提高并行、高效、可靠的计算硬件支持。
结合上述需求并把高性能和协同结合在一起,采用了Platform LSF软件。
针对目前的应用,改善软/硬件的配置,达到应用程序的最优化。
通过引入机群管理和作业调度系统, 解决多作业, 多用户情况下的计算机资源分配和使用优化问题,提高资源的利用率,提升系统的吞吐量。
在机群系统上,建设企业的网格系统,通过网格技术实现各场所计算资源的共享, 如许可证和高性能服务器等的共享, 并同时保证双方对各自资源的所有权, 即各自的资源在不用的时候可以被对方使用,一旦需要的时候又可以立刻回收资源的使用权。这样,即提高了企业资源的总体利用率,又提高了可用资源的数量,扩大了双方的计算能力。[2]
1) 统一管理软件许可证和计算机服务器资源,通过调度优化,提高资源的使用率。
2) 加强对用户作业的管理和控制, 从而保证资源使用上的公平合理性。
3) 提供一套基于Web的用户端接口, 方便用户使用高性能计算相关的软硬件资源。
4) 提供一套客户端工具, 实现对在用户桌面机上运行的应用程序集成, 方便交互程序的执行和管理,以及相应使用许可证的调度和控制。
5) 提供方便开发的SDK, 实现用户化的扩展和定制。
6)为IT资源的综合管理建设一个良好的、可扩展的体系架构。
整个系统将向用户提供三种访问方式, 即用户可以通过浏览器、 命令行和桌面应用程序集成管理平台(DAM Client),访问许可证和计算机资源。 系统将配置两台Linux管理服务器, 一台作为主节点用于LSF、License Scheduler、DAM服务;另外一台作为容错节点,当管理员节点发生故障时,自动切换为管理节点,以提供更高的可靠性。 另外还将配置一台Linux服务器运行LSF Perf Report报表服务, 提供统计分析报表。[1]
图2 总体设计规划
通过引入机群系统, 主要解决了企业内部计算机资源管理、分配以及调度问题,并将目前大量需要手工或人工干预的工作全部通过机群管理系统自动完成,由此既可提高人员的工作效率,又提高了计算资源的使用率和利用率。 Platform LSF提供的一系列先进功能,可以有效解决目前许多应用问题。
1)LSF支持根据当前系统负载动态为并行程序分配CPU, 并且LSF与包括Fluent和Nastran在内的许多商业应用程序集成, 可自动为这些程序分配CPU。LSF还提供CPU范围的功能,可根据当前Fluent可用许可证的数量动态分配CPU。
2)LSF可设置CPU独占。 此功能程序可独占所使用的CPU,从而避免与其他程序或作业冲突。
3)系统可支持的用户数量不受限制, 相互之间互不干扰。 所有用户提交的作业通过LSF作业调度系统进行统一管理和调度。
4)LSF提供优先级管理功能,可以保证重点项目和用户的资源使用。
整个系统的管理方案的体系结构如图3所示,从图中可以看出,本方案从用户访问、资源管理到后端的资源使用分析,提供了一整套解决方案。
图3 体系架构图
3.3.1 交互性质的应用
在高性能计算中,有些软件如:有限元网格前后处理软件Patran等。 这类应用主要使用用户桌面机的图形能力,对计算性能要求不高,使用过程中需要大量交互,因此最适合在用户的桌面机上运行,但从服务器远程申请许可证。 针对该类应用,基于本方案的使用过程如图4所示。
另外,为了方便用户使用,Platform专业服务还可以为用户提供一套应用程序统一管理的桌面应用程序管理器(DAM), 用户可通过该管理器启动应用程序, 管理器自动为用户应用程序打包, 并自动与License Scheduler服务器连接实现许可证管理和调度功能。
图4 服务器调度
3.3.2 批处理性质的应用
CFX,Fluent,Ansys,Nastran等。 这类应用对计算性能要求高,多数运行在后台,用户提交作业后基本不需要交互, 因此最适合在计算中心的高性能计算服务器上运行, 用户只需要从桌面机上通过命令行或Web 方式提交作业和进行一些必要的控制和管理。 用户操作界面见图5。
图5 用户操作界面
在整个计算过程中,用户可对作业进行控制,执行如挂起、终止等操作,通过简单命令或操作查看作业执行的中间结果。 并且通过一定的配置,作业的最终结果可以直接从Web界面下载。
高性能计算集群Platform LSF软件实施和应用,对现在所面临的问题逐一给出了相应的措施。 解决了传统计算方式所带来的诸多问题。
1)提高了高性能计算的工作效率, 让员工更专注于专业;
2)提高了资源的利用率和作业的处理能力;
3)优化了系统的性能,缩短作业的执行时间。
4)增加了计算资源的总量, 提高求解大型计算问题的能力。
使得在物理上分散的资源, 可以通过网格技术逻辑上集中在一起,相互共享,统一调度和管理,从而形成一个虚拟的“资源池”,提高可使用的资源总量,从技术上解决目前计算资源普遍短缺的现状。
[1]车静光,微机集群组建.优化和管理[M].北京:机械工业出版社,2004.
[2]陈国良.并行计算—结构.算法.编程[M].北京:高等教育出版社,2004.