2019年6月25日,美国高级情报研究所 (IARPA)针对大规模计算和数据分析应用的未来建模和仿真研究领域的研究工作——“系统集应用程序建模 (SLAM)”,发布信息征询文件。建模与模拟 (ModSim)技术对于新系统架构 (硬件和软件)和应用程序的协同设计至关重要。它提供了一种经济有效的方式来探索新设计,检查基线设计的偏移影响,并在最终构建之前优化硬件和软件。系统和应用程序复杂性不断升级给 ModSim 带来了更多挑战,包括:应用程序执行、高性能数据移动、数据管理、计算调度和系统特性表示等。应用程序可能涉及数据流和基于文件系统的批量数据的混合。异构数据源的这些额外挑战使得对应用程序的执行建模变得更加重要也更复杂。
高性能计算系统的复杂性随着容量和功能的需求不断增长,因此当前和未来的系统架构采用的非核心设计,具有非易失性技术、突发缓冲器的更深存储器层次结构、新颖的数据存储组件、近存储器处理、增加的节点异构性、新颖的网络方法以及极端的系统级并行性。系统可以由各种不同的计算机、存储资源、网络和大规模数据源组成。这些因素都推动了对未来应用程序中平衡性能的需求,这些应用程序不仅在日益复杂的异构系统上执行,而且在日益严峻的系统和设施功率限制下,提供高水平的安全性和弹性、满足高性能计算和数据分析应用程序的融合、处理不规则数据结构和动态变化环境的相关挑战的需求,进一步加剧硬件-软件交互的复杂性。
加深对高性能计算系统有效使用、设计和优化对于计算生态系统至关重要。从边缘计算到极端规模的异构系统,所需要的是可以对硬件系统和运行应用程序的动态信息起作用的统一模型;预测功率、性能和弹性;并在变化发生时正式确定权衡的影响。此外,这些模型对未来系统的成功至关重要。但是,ModSim 的进步主要取决于克服硬件以及运行时和应用程序域之间的巨大抽象差距。
该信息征询文件旨在了解如下研究方向的进展:
(1)高保真 ModSim 技术。在系统性能及其优化的动态条件下,执行大规模数据中心型应用程序的复杂、异构的高保真模型,需要新的建模方法和工具。新方法必须灵活且计算需求低,模拟保真度和准确性必须高且可证明,或者至少在多种体系结构和应用程序工作负载上保持一致,最好是接近实时的高保真度模拟。
(2)人工智能 (AI)系统及应用的 ModSim 和机器学习 (ML)作为 ModSim 的一种方法。AI/ML 已成为所有形式的计算中必不可少的应用驱动因素,包括大规模数据分析和数值密集型计算。该趋势指出应用 AI/ML 技术为 ModSim 方法,从而支持一系列系统,包括但不限于 AI 为中心的系统。
(3)性能、功率和弹性的统一建模。随着系统规模的扩大和技术向高弹性和高能效系统设计的转变,开发新的集成方法以综合性能、功耗和弹性,同时考虑热效应和功率限制的影响至关重要。
(4)系统级建模和仿真。系统级模型将涉及整合的 ModSim 技术,以在系统执行感兴趣的应用程序时预测整个系统的性能和能量消耗。希望能够在使用 ModSim 实现整个系统之前和之后的设计和优化。ModSim 方法的集成必须在子系统及其接口上,并具有“置入”分辨率和保真度的能力,具体取决于模拟的预期用途。系统级建模应涵盖具有不同复杂性和工作负载特征的各种应用程序。这种集成模拟可能需要基于不同建模方法 (例如,分析和统计)的混合和匹配方法。
(5)在应用程序中的不规则性建模。随着执行模型转向更加动态的、面向任务的模型,由于可迁移的工作单元和自动负载平衡机制,预测应用程序性能变得更具挑战性。此外,动态动力转向、热量限制和过程变化等功能会导致整个系统的性能异构,甚至可以使初始平衡的工作负载不够理想,因此捕获这种可变性是推动 ModSim 技术发展水平的基础。
(6)动态建模。需要能够定量和准确地捕获动态和自适应应用程序和系统行为的 ModSim 方法。当前针对传统科学工作负载的静态模型不足以解决动态行为,必须扩展现有的经过验证的方法,以预测行为在整个执行过程中依赖于输入和动态的应用程序的性能和能耗。建立动态的自适应建模方法将成为未来大规模系统利用的高效和富有成效的关键技术。
由于 IARPA 旨在描绘有影响力的 ModSim 环境的未来,因此提交的回复必须涵盖一系列 ModSim 研究方向。对此信息征询文件的回复应回答以下问题:确定未来 ModSim 环境的候选研究工作;(2)描述一种技术方法,用于对大规模计算机系统上以数据为中心的应用程序的执行进行建模,包括方法的局限性;(3)解释如何在技术发展的当前阶段实现拟议能力的实施,或者实现实施需要哪些未来发展。