测试/朱辉杰 闻波
撰文/朱辉杰
NVIDIA Quadro M6000 24GB应用性能测试
——万元专业显卡的价值在哪里?
测试/朱辉杰 闻波
撰文/朱辉杰
对于利用三维软件进行机电产品和建筑设计的工程师或设计师而言,专业显卡并不陌生。这种专门开发的图形加速卡,被安装在图形工作站中,针对CAID、CAD/CAM和CAE等应用进行了广泛的功能认证和性能优化,不仅保证了专业图形创建工作的高性能和高效率,还最大程度地提供了软硬件功能兼容性和稳定性。
虽然都是“显卡”,普通显卡提供日常影像显示和三维游戏图形加速,属于娱乐工具,而专业显卡则主要应用于专业图形创建、大规模数据可视化和GPU计算加速,是工程师和设计师的“生产工具”。为此,专业显卡的价格往往远高于普通显卡。
目前市场上的普通显卡,即使是最顶级、最烧包的游戏显卡Geforece GTX TITAN X,单片价格也不超过万元。而在本文中,我们将测试的NVIDIA专业显卡Quadro M6000 24GB,市场价格超过人民币40,000元!这是目前能买到的顶级性能的专业显卡之一。Quadro M6000 24GB采用的GPU GM200和Geforece GTX TITAN X是类似的,但前者的价格是后者的五倍!
惊人的价格能否带来惊人的性能?作为“生产工具”,Quadro M6000 24GB在实际专业图形软件环境中,能否爆发与价格相配的能量?哪些行业、哪些工作需要Quadro M6000 24GB这样的怪兽级专业显卡?我们将通过一系列的应用实测去寻找答案。
在正式测试开始之前,我们先了解一下NVIDIA Quadro M6000 24GB。
2015年,NVIDIA就已经发布了Quadro M6000这款定位超高端的专业显卡,当时的Quadro M6000配备了12GB的GDDR5显存,显存的位宽是384bit,采用28nm制程的Maxwell GM200 GPU,最高GPU工作频率达到1140MHz,提供3072个CUDA核心,192个纹理单元,其单精度浮点性能达到了7TFlops。2016年3月,NVIDIA直接将Quadro M6000的显存翻了一倍,发布了24GB版本的Quadro M6000。
新版本的Quadro M6000提高了显存容量,以应付更大规模的三维图像处理任务。对于三维建模和大规模图形可视化用户而言,图形、图像的整体规模,分辨率和精度正迅速提高,几GB容量的模型和场景并不稀奇,在影像工业、企业级VR和地球物理等领域,数十GB的场景已经进入实用阶段,这直接推动高端专业显卡的显存容量进入赛跑阶段。
Quadro M6000 24GB版本的另一个亮点在于“显卡的工作频率和温度控制更聪明”。出于散热、稳定性和系统能耗控制的原因,即使是高端的专业显卡,核心频率也不是越高越好。NVIDIA更早采用GK110核心的高端专业显卡产品Quadro K6000和采用GM204核心的Quadro M4000,核心频率均未超过1000MHz大关。而2015年发布的Quadro M5000和Quadro M6000首次将频率突破1000MHz,热设计功耗直奔250W,负载峰值的发热将十分惊人。这使得配备Quadro M6000的工作站,必须具有足够强大的供电系统,散热也必须非常优秀。2016年更新的Quadro M6000 24GB,让核心频率随着应用负载的变化更为“聪明”地匹配,从而改善功耗和散热表现,对于长时间、高负载应用场合,进一步提高了稳定性。
表1 2015~2016典型高端专业卡,显存越来越大,能耗越来越高
为了测试Quadro M6000 24GB,我们组建了比较贴近企业现实“工况”的图形工作站,其配置如下:
表2 测试平台的配置情况
在接下来的测试中,我们将使用工作站基准测试程序SPEC Viewperf 12,三维设计软件西门子NX、Autodesk AIP,产品方案逼真渲染软件Showcase,以及多物理场仿真软件COMSOL进行实际模型和算例测试,以验证NVIDIA Quadro M6000 24GB的性能和稳定性表现。
SPECviewperf 12基准测试
图2 SPECviewperf 12由SPEC组织提供,该组织成员包括大部分工作站和显卡厂商
SPECviewperf 12是最新版本的工作站基准测试程序,用于测试工作站的在综合图形性能,它包含了CATIA(catia-04)、Creo (creo-01)、Energy (energy-01)、Maya (maya-04)、Medical (medical-01)、Showcase(showcase-01)、Siemens NX (snx-02)和Solidworks(sw-03)共八个独立测试环境,以实景化模拟方式运行,几乎囊括了线框计算、动态渲染、实体操作和规模数据可视化等所有常见的专业图形模式,能比较全面、公正地衡量系统的图形性能。
SPECviewperf 12是SPECviewperf变动较大的一个版本,相比10和11版本,测试项目和模型、场景有了大幅度的更新,提高了测试应用软件的版本,对OpenGL和DirectX API进行了版本更新,提高了测试系统的硬件门槛(包括主频、内存容量、分辨率、API版本等)。因此,SPECviewperf 12对显卡性能的要求更苛刻,在12版本得出的测试成绩,失去了和早期版本SPECviewperf横向对比的意义。
图3 catia-04,CATIA模拟测试,基于V6 2012版本,模型规模大于上一版本
图4 maya-04,Maya测试场景,基于2013版本,样例场景更新
图5 showcase-01,基于数字样机应用普及,新增Showcase场景,采用2013版本
从测试成绩看,Quadro M6000 24GB确实体现出了高端显卡的性能水平,例如在Siemens NX 8.0版本的大规模实体和线框模型测试中,166.92的分数远高于大部分中端专业显卡100上下的水准,而普通显卡在此类测试中不仅分数会惨不忍睹,还会出现破面和贴图问题(主要会出现在Creo和NX、SW测试中)。
此外,我们在SPECviewperf测试环节进行了循环测试,循环次数设定为8,连续运行超过33小时后,显卡始终保持稳定,而且没有因为频率负载优化降低性能。
图6 snx-02测试,Siemens NX应用测试,基于8.0版本,模型规模大幅度提高
表3 SPECviewperf 12的测试得分情况
在此环节,为了尽可能的贴近大多数读者的应用环境,我们选择了用户基础更广泛的Siemens NX 9.0版本,而不是更新的10.0版本。NX是集成产品设计、工程与制造于一体的解决方案,是国内用户群最大的高端交互式CAD/ CAM(计算机辅助设计与计算机辅助制造)系统。
由于用户集中在汽车、船舶、新能源和大型装备等行业,Siemens NX经常被用于创建和处理高精度的大体量产品模型,其对显卡的性能需求非常高。NX软件的用户最好使用经过西门子官方认证的专业显卡,以保证实现完整的功能,确保稳定性。使用普通的显卡,在NX软件中模型很容易出现显示不全、黑面、暗边和目标点选不中等问题,而Quadro M6000是经过了西门子官方认证的专业显卡。
我们测试了两个范例模型,一个是拉拔机生产线模型,包括拉拔机生产线本体和数字模型人,用以验证生产线的工况和流程;另一个是某商用飞机总体数字化模型。前者选自实际大规模生产线设计项目,包含全部动力系统、操作执行机构和紧固连接件,模型规模超过1GB。后者是获奖的建模设计项目,模型细节丰富,包含超过5400多个零部件(含重复件)。
图7 拉拔机生产线,使用NX 8.0版本设计,在NX 9中进行模拟测试
我们在软件中对这两个模型进行实体旋转、平移和剖切,调整各种视角,并进行软件内的渲染。系统出乎意料的快,各种操作几乎没有延迟,只是可能由于系统I/O瓶颈,在线框模式下稍显停滞,硬盘灯狂闪。
图8 拉拔机生产线,全数字化的生产线验证
图9 某商用飞机整体数字化模型,加载数据过程有些缓慢,但模型操作流畅
图10 某商用飞机数字化模型的动力系统
Quadro M6000确实没有辜负其40000元以上的价格。
相比定位高端的Siemens NX,AutodeskInventor则是定位中端的三维设计软件,其用户人群同样十分广泛,特别是通用机械设计、通用零部件和非标准设备等领域,拥有越来越广泛的用户基础。AutodeskInventor版本更新很快,我们在本次测试中使用群众基础最好的AutodeskInventor 2015版本。
测试项目包括两个。
第一,直径1600mm主桩、副桩液压倒桩台车装置。这是实际环境的大型非标准设计项目,包含主桩、副桩两部分,其中不仅含有全套的油缸滑轮总成,还包括全套的杆、板、柱、筋和架结构,模型总体规模庞大。按照此类设备的实际设计环境(因为主体是钢结构),我们没有设定任何不必要的材质和光。操作中,十分流畅,只有切换二、三维视图时,稍有停滞,但几乎不影响实际工作。
第二,3000KW水下泥泵齿轮箱的动画渲染和输出。水下泥泵齿轮箱的结构简单,但体量巨大,而且进行实时、动态的渲染和播放,以检验各部件的运动情况,这是AutodeskInventor用户常用的工作内容。这个工作比较挑战显卡的渲染和计算能力。实际效果和我们预期类似,整体过程流畅,速度飞快。而且当我们将输出分辨率提高到2K水准后,仍然保持流畅。
我们连续渲染多次,不断提高分辨率,最终结果几乎都在一分钟内完成,这对设计工作的迟滞可以忽略不计。当然,此类机械部件项目虽然体量巨大,但往往材质和光源要求不高,作为高端显卡Quadro M6000,也是应有的表现。
图11 直径1600mm主桩液压倒桩台车装置
图12 3000KW水下泥泵齿轮箱的渲染模拟动画,用于验证部件的运动情况和实际工况
Showcase是强大的数字样机创建工具,此前是独立的软件解决方案,后被Autodesk收归旗下。
因为创建物理样机的过程和成本都很高,在产品验证阶段使用Showcase创建逼真的数字样机,可以实现保持高效的同时,大幅度降低成本,因此受到了汽车、电器、消费品等领域用户的欢迎。
巧妙地应用Showcase软件,结合Quadro M6000此类专业显卡的高性能,创建、渲染的逼真数字模型,几乎在材质、光感上可以乱真。
我们在这个环节的测试中使用了某航天企业工程师设计的“手电钻”方案,合理设定材质和光源后,进行高分辨率渲染,结果如下图。
图13 手电钻照片级渲染,每个零部件的材质都是单独选择的
图14 更换摄像机(视角)、光源、材质和分辨率后,多次渲染的效果始终保持高速、流畅
我们选择的背景不太好,降低了整体质感。但是,手电钻模型本身的真实感一流。Showcase针对NVIDIA的专业显卡有优化,可以最大程度地发挥GPU硬件渲染的效能,加上Quadro M6000的硬件性能给力,整个渲染过程可用高速来形容。工程师日常渲染(中等分辨率)大约需要5分钟(某品牌工作站),而在我们的Quadro M6000测试平台上,仅仅用了59秒,过程中,GPU几乎全速工作。
这种效率正是实际工作中工程师需要的,省下的时间可以多做些任务,当然,也可以去抽根烟。
COMSOL是多物理场建模和仿真分析软件,COMSOL起初只是Matlab的一个工具箱——Toolbox 1.0。后来改名为Femlab,开始为行业用户所熟悉和应用。从3.2版本开始,正式命名为COMSOL Multiphysics。这个软件的优势就在于多物理场耦合方面,这套软件曾经被NASA技术杂志选为“年度最佳产品”。
COMSOL Multiphysics对Quadro M6000压力不在于建模、渲染,而在于GPU辅助计算能力。COMSOL Multiphysics是支持多核心、多线程CPU和GPU加速的仿真分析软件之一,而且解算效率非常高。
我们在本测试中进行了一个相对简单的流固体耦合算例,仅用于验证和测试Quadro M6000的GPU加速能力。
实际测试中,我们首选关闭解算器的GPU辅助加速,整个项目计算时间需要662秒。然后,我们打开GPU加速,结算时间缩短为192秒,缩短了70%的时间!
图15 COMSOL Multiphysics流固耦合计算项目的网格划分情况
本测试选择的模型结构简单,网格划分也比价粗疏,仍然节省了70%的时间。我们可以设想,那些往往需要数个、十数个小时解算的项目,如果采用了Quadro M6000的GPU加速,将带来多大的价值。例如,下图的民用船舶设计中,进行相应的初步流体分析,就可以利用GPU加速能力。
图16 NX中设计的高速摩托艇,同样可以在流体分析软件中利用GPU加速
另外,我们在测试中发现,GPU加速开启后,解算器对GPU的占用还是比较高的,同期进行其他图形计算工作会受到一定影响。因此,这种应用模式对于规模大的项目,比较适合利用空余时间集中解算。对于设计中的简单实时验证分析,则可以高效完成。
经过基准测试和一系列三维设计、渲染(静态、动态)和仿真分析实景测试,从高端三维软件到流行三维软件,从飞机、汽车体量的模型到生产线、非标准工具模型,从辅助建模到GPU加速解算,Quadro M6000 24GB证明了其定位和价值。几乎所有的项目都保持了全流程的顺畅,而且依靠ISV认证NVIDIA驱动,各种模型显示不存在任何现实错误和缺陷,个别需要效率的项目(如渲染和解算)确实有助于大幅度提高工作效率、缩短工作周期。
需要说明的是,在本次测试中,我们没有设置任何二维项目,以Quadro M6000 24GB的性能和定位,应付二维图形实在是太容易了。我们也没有进行普通商业图形和消费娱乐图形倾向的基准测试,这些都不是Quadro M6000的目标应用环境,毕竟没什么人花几万元购买Quadro M6000 24GB仅仅是为了画拓扑图或玩游戏的吧。
那么,在制造业和建筑业领域,谁是Quadro M6000 24GB的核心用户呢?航空航天、汽车、船舶、大型装备和建筑设计等领域的用户显然对上号了。这些行业领域的产品价值和利润较高,以Quadro M6000 24GB生产工具的定位,其价格并不是不能接受。这些行业的一套加工设备、检测设备动辄百万、千万,单套产品的价值从十几万、几十万到上亿元,在产品总体设计和产品验证环节采用几万元的专业显卡,从而显著提高效率、减少设计验证的迭代次数、缩短设计周期,是非常合理的。另外,这些行业的产品体量大,模型和场景数据量大,需要Quadro M6000 24GB的高性能加持。
实际上,高端行业用户的需求是没有上限的,越强越好,越强越不嫌强。单片的Quadro M6000 24GB显然离需求上限还远,规模更大、更复杂的模型和场景,系统集成度越来越高的产品,制造业和建筑业不断整合的业务流畅,会不断推高图形、图像处理的性能需求。
注:
(1)感谢NVIDIA公司提供本次测试用Quadro M6000 24GB显卡。
(2)感谢来自上海钜立、泰安航天特种车、江苏圣洁达、上海交通大学等企业和机构的工程技术人员在本次测试过程中提供的帮助。