NVIDIA更新Ampere架构，全面提升GPU应用性能

2020-11-26 19:28齐健

智能制造 2020年12期

文|齐健

随着数字技术的飞速发展，越来越多的行业对于专业可视化应用的需求加速上涨。例如，在制造业应用中，CAD设计阶段对产品的整机建模，零部件复杂的大型装配体设计等，CAE仿真过程中对材料的模拟、拓扑优化以及多物理场仿真实验等，再到后期销售和推广阶段的效果展示，都对图形渲染效率和GPU运算能力提出了严苛的要求。

在过去的20年中，专业图形显示技术的更新迭代日趋加快。NVIDIA在图形显卡领域，针对不同行业的用户推出了众多专业GPU产品与应用解决方案，领域覆盖了电视、娱乐、传媒、现场直播、汽车制造、设计、大数据运算、科学运算、专业电影制作以及AI等。

近年来，NVIDIA推出的GPU架构，从Kepler到Maxwel、Pascal、Turing，再到最近发布的Ampere架构，NVIDIA最近发布的五代GPU架构都在AEC、BIM、CADCAM以及仿真等领域推出了大量重要更新，以期提升NVIDIA GPU在更多专业应用领域的性能表现。

Ampere架构全面提升GPU应用性能

2020年秋季推出的基于全新Ampere架构的NVIDIA RTX A6000和NVIDIA A40，采用了全新的RT Core、Tensor Core和CUDA Core加速图形、渲染、计算和AI。NVIDIA RTX A6000和NVIDIA A40通过突破性的技术向用户提供更强大的性能，其中最重要的更新就是RTX GPU的升级，作为第二代RTX GPU，Ampere架构与前代RTX GPU的Turing架构相比，主要有三方面优势：首先，新一代的SM（新一代流式多处理器）架构最高可以提供39TFLOPS的FP32算力。第二代RT Core相对于第一代Turing架构里的RT Core最高可以提供76 TFLOPS光线追踪算力。

RT Core是NVIDIA在Turing架构中首次引入的专门针对光线追踪的运算单元，采用BVX算法，使用一个专门的电路运算光线轨迹及当前画面里3D建模之间的镜面反射、慢反射或者半折射等类似的复杂光线互动，使每一个画面渲染精度更高，更加逼真。

Ampere架构采用了第二代的RT Core，最高可提供2倍于上一代的吞吐量，以及并行光线追踪、着色和计算功能。Ampere架构针对BVX算法做了大量优化，例如Motion flow、阴影功能等。可以把很多需要分开处理的步骤，或需要由不同核心处理的任务，整合在一起，利用GPU的不同使用周期处理运算，提高工作负载。

除了SM之外，Ampere架构还加入了针对AI应用提供高性能的张量运算核心Tensor Core，提供最多310个Tensor TFLOPS的算力，结合稀疏运算特性，可以在图形计算和图形渲染过程中支持基于“深度学习”的超采样抗锯齿，以及基于AI的降噪等，比之上一代产品提供10倍的加速性能。

张量运算核心的总体性能是固定的，运算精度提高的同时运算输出量就会相应降低，无论是FP16半精度，FP32单精度或者FP64以及更高的算法，都会带来性能的相应降低。第三代Tensor Core，采用FP32单精度运算，并支持全新TF32和BF16数据格式，最高可提供5倍于上一代的吞吐量，2倍于上一代Turing架构的运算性能。NVIDIA中国区高级技术市场经理施澄秋介绍说：“在今天的4K、8K显示中，单个像素只是整个图形中非常小的一个点，对于一个每秒有30帧、60帧、甚至120帧的3D动画来说，单个像素点出错对于对于整个图形无伤大雅，所以我们没有必要用FP64或者更高的精度来进行整个图形运算，用单精度浮点就足以应付大部分情况下的图形或者物理模拟运算。在CAD、CAE或者其它比较复杂的3D设计图形或者仿真工作流程里，采用FP32的精度进行运算可以有效提高性能功耗比。”

此外，全新Ampere架构支持DDR6显存，NVIDIA RTX A6000具备48GB GPU内存，单个GPU可提供的最大内存，通过NVLink连接两个GPU可以扩展到96GB；支持所有常规ISV应用程序。通过ISV认证，无论是工作站还是服务器，都更易于部署。虚拟化，通过添加NVIDIA虚拟工作站等NVIDIA虚拟GPU软件，为远程用户提供针对图形工作负载和强大虚拟工作站实例的大规模支持，赋力高端设计、AI和计算工作负载的更大规模工作流程；PCIe Gen 4，提供2倍于上一代的带宽，可以加速Lenovo ThinkStation P620等PCIe Gen 4服务器和工作站中数据密集型工作负载（如数据科学、混合渲染和视频流）的GPU数据传输。

基于Ampere架构推出了另一款GPU产品NVIDIA A40，与NVIDIA RTX A6000在产品性能和硬件配置方面相差不多，与NVIDIA RTX A6000采用的主动式散热方案不同，NVIDIA A40采用被动式散热方案，可以更好地节省空间，提升性能和功耗比，更适合于需要通过管理风道，组建机架式服务器控制功耗、降低噪音，提高管理便利的数据中心场景中。

跨软件、跨应用程序的在线协作平台NVIDIA Omniverse

在NVIDIA的GTC 2020秋季发布会上，NVIDIA还宣布了NVIDIA Omniverse平台进入公测阶段，并在2020年秋季开放下载。数千万设计师、建筑师和其他领域的创作者将能通过该平台实现本地或远程实时协作。NVIDIA Omniverse是首个基于NVIDIA RTX的3D仿真模拟和协作平台。该平台融合了物理和虚拟世界，能够实时模拟出细节逼真的现实世界。

作为一个跨软件、跨应用程序的在线合作式/分享式总体解决方案平台，用户仅需利用NVIDIA Omniverse单一平台就可以完成多个设计师/多个科学家/多个工作人员之间的协同式分布合作。

NVIDIA Omniverse整合了NVIDIA在图形、仿真和AI领域的众多技术，例如光线追踪、毛发、粒子、物理模拟和VR/AR等。可以利用NVIDIA各式各样的软件堆叠，包括NVIDIA最重要的物理加速、材质描述库、MDL语言以及NVIDIA和PhysX合作的USD通用场景描述语言。用户可以利用平台存取数据资产让各式各样的第三方ISV、软件专业工具程序进行调用。一切工作都能在NVIDIA Omniverse平台上实时一键分享、合作以及实现协同分布式远程办公。

NVIDIA Omniverse还获得了许多主要的软件领导者支持，例如 Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。Blender正在与NVIDIA合作，通过加入USD功能实现Omniverse与其软件的集成。NVIDIA还与其他领先的软件供应商合作，让所有艺术家和设计师都可以在自己选择的应用上通过Omniverse开展协作。

借助NVIDIA Omniverse平台，无论用户使用何种软件、工具和平台，都能以NVIDIA Omniverse为入口，完成分发协调工作，并整合工作流程，让所有用户、设计师、科学家和工程人员都在同一个NVIDIA Omniverse平台上完成分工和协作。远程团队可以通过该平台同时开展项目协作，例如负责3D建筑设计迭代的建筑师、修改3D场景的动画师以及协作开发自动驾驶汽车的工程师，整个协作就像是在线上共同编辑文档一样简单。

NVIDIA在为期一年的抢先体验计划之后发布了公测版Omniverse。抢先体验项目期间，爱立信、Foster +Partners、工业光魔（ILM）和其他40多家公司以及多达400位个人创作者和开发者对该平台进行了评估并向NVIDIA工程团队提供了反馈。