■文/王 涛
除了使用新型节能技术,提高算力资源的规模化程度,可以减少算力设施本身的碳排放以外,高效充分利用算力设施不仅可以极大地加快研发创新进程,减少研发过程的碳排放,还可以优化生产经营流程,减少生产运营的碳排放,助力实现“双碳”目标。
2020年9月,在第七十五届联合国大会一般性辩论上,我国首次提出要在2030年前实现碳达峰,2060年前实现碳中和的目标。面对此项重大任务,我国社会经济各行业的绿色发展转型势在必行。长期以来,超级计算机等算力设施的能源消耗巨大,一直是超级计算机的核心指标之一,也一直是算力设施建设的主要屏障之一。如何提高能源使用效率是计算机技术的重要研究方向。在每年两次发布的国际超级计算机排行榜单中,除了衡量算力大小的Top 500 榜单以外,Green 500 榜单是用来衡量超级计算机的能效,即每瓦电力消耗所获得的计算性能。在2021年7月最新发布的Green 500 榜单中,目前能效比排名第一的是来自日本的MN-3 超级计算机,达到了每瓦29.7 GFLOPS 的计算能力,而目前计算速度最快的超级计算机是日本的富岳,能效比仅排名第20 位。我国目前公开上榜的能效比最高的超级计算机排名第27 位,能效为每瓦11.38 GFLOPS。除了计算机本身的计算能效技术以外,我国算力设施在提高能源使用效率的其他方面还有广阔的空间。
在算力基础设施中,除了计算机芯片本身消耗电力以外,散热和环境制冷也消耗了较大比重的电能。减小散热的消耗、提升能耗效率,成为算力基础设施碳中和的重要指标。在衡量算力设施能源使用效率方面,人们往往用电源使用效率(Power Usage Effectiveness,PUE)作为评价指标。PUE 是数据中心消耗的所有能源与信息设备消耗的能源的比值。其中,数据中心总能耗包括信息设备能耗和制冷、配电等外围配套系统的能耗。PUE 的值一般大于1,越接近1 表明非信息设备耗能越少,即能效水平越高。
目前,数据中心采用的散热和制冷方式主要包括风冷和液冷两种。风冷是大多数现存传统数据中心采用的散热方式。它通过房间级或机柜排级空调进行制冷,制冷功耗高,噪声大,平均实现的PUE 为1.5 ~1.8。相对于液冷方式,风冷方式的主要缺点如下:首先,风冷限制了单机箱功率密度增长,布置相同功耗的信息设备,占用空间显著增加;其次,风冷易产生局部热点,使芯片长期处于临界安全温度运行,性能下降,寿命缩短;再者,风冷对机房环境要求更高,且长期运行造成环境噪声污染。但是,对小规模、较低单机柜功率的数据中心而言,风冷仍然是目前普遍应用的散热方式。
液冷技术是目前新兴的一种数据中心散热技术。它使用液体取代空气作为冷媒,为发热部件进行换热带走热量,分为间接冷却和直接冷却。其中,间接冷却以冷板式液冷技术为主,直接冷却以浸没式液冷技术为主,并分为相变和非相变两种。
冷板式液冷是用铜、铝等导热性较好的金属构成的冷板散热器,将发热元器件的热量传导给散热器中的冷却液体,从而将热量带走的冷却方式。其中的冷却液体可以采用去离子水、水溶液、氟化液等。整个冷却系统分为一次侧循环与二次侧循环。一次侧循环为室外侧冷却塔/冷水机组等设备与换热单元的换热,即高温冷却液与室外侧冷水进行热交换,将热量传递给室外侧的低温水,从而变成低温冷却液,再次输送到服务器吸热。二次侧循环为换热单元与服务器冷板的换热,即服务器中冷板式散热器的低温冷却液通过热交换,吸收发热器件产生的热量,变成高温冷却液,输送到室外冷却塔。冷板液冷服务器安装在机架中,与传统风冷环境共同制冷,其中风冷负责液冷冷板无法覆盖的部件,散热占比为10%~30%。整个系统的平均PUE 为1.2 左右,与传统风冷服务器相比,节电率约45%。我国目前公开报道的最快超级计算机“神威太湖之光”采用的就是冷板液冷技术。
浸没式液冷是另外一种效率更高的散热技术。它将服务器完全浸没在液冷机柜内的非导电冷却液中,液体与发热芯片直接接触换热,通过工作介质的循环流动或蒸发冷凝带走热量。整个系统无须传统风冷辅助制冷,液冷散热占比为100%,PUE 可降到1.1 以下。根据工作介质或冷却液是否发生相变,浸没式液冷可分为单相式冷却和两相式冷却。单相式冷却即温差换热,利用冷却液的升温带走热量,冷却液在循环过程中始终保持液态。冷却液吸收服务器热量温度升高后,用泵驱动,与室外的冷却塔或干冷器进行热量交换,变为低温冷却液,流回液冷机柜,完成内部循环。两相式冷却即沸腾换热,冷却液在循环散热过程中发生相变,由液态变成气态,通过相变吸热带走服务器产生的热量。气态冷却液与室外干冷器进行热量交换,冷凝成液态,流回液冷机柜,完成散热循环。相对来说,两相式液冷的传热效率更高,但对冷却液和密封性要求较高。目前,我国最新研制的部分超级计算机就是采用两相式浸没液冷技术。
从成本角度来看,规模化建设算力资源将带来可观的成本和碳排放收益。风冷技术前期投入较低,一些小规模、分散、低密度的算力设施依然愿意采用传统风冷的制冷方式。液冷技术有较高的前期机房建设成本,只有在算力设施达到一定规模后,才能获得成本效益,因此适合于较大规模的计算中心或数据中心采用。据某服务器厂商测算:当服务器数量少于288 台时,冷板液冷方式的制冷配套费用占总投资的比例随着服务器数量的减少而显著攀升;而当服务器数量大于288 台时,冷板液冷方式的制冷配套费用占总投资的比例维持在2%~3%。同样以288 台典型服务器为例,采用冷板液冷方式的计算平台与采用传统风冷方式的计算平台相比,运行3年节约的电费可完全覆盖采用液冷方式所增加的投资。随着服务器数量的增加,所节约的电费也显著增加。例如,若服务器数量增加到480 台,液冷平台3年的建设和运营总成本比风冷平台少0.7%,6年少7.3%。正是考虑到规模化建设算力设施所带来的成本和碳排放收益,近年来,全球小微型数据中心的数量显著下降,而大型和超大型数据中心的数量持续增加。例如,从2016年到2019年,全球数据中心减少约2.1 万个,而机架数增加约6.5 万个。
从政策角度来看,我国为了提高数据中心的能效,已开始限制高PUE 的数据中心的建设,相关政策对数据中心机房的PUE 提出了明确限制,鼓励液冷技术、IT 设备高密度集成技术及IT 设备能效提升技术实施,促进数据中心液冷技术进一步发展。例如:2019年,工信部、国家机关事务管理局、国家能源局等三部门出台的《关于加强绿色数据中心建设的指导意见》提出,到2022年,数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的电能使用效率值PUE 为1.4 以下;2018年,北京市政府公布的《北京市新增产业的禁止和限制目录(2018年版)》提出,禁止新建和扩建互联网数据服务、信息处理和存储支持服务中的数据中心,但PUE 值在1.4 以下的云计算数据中心除外;2019年,上海在《关于加强本市互联网数据中心统筹建设的指导意见》中提出,新建互联网数据中心PUE 值严格控制在1.3 以下,改建互联网数据中心PUE 值严格控制在1.4 以下,且新建互联网数据中心单项目规模原则上应不低于3 000 个机架。因此,算力设施作为面向高质量发展需要,提供数字转型、智能升级、融合创新等服务所必需的新型基础设施,要达到以上能效要求,规模化、绿色化是必然选择。
将算力资源高效充分利用是更高效的节能减排。在当前碳达峰、碳中和的大背景下,高效充分使用算力资源具有特别重要的意义。
算力设施可以极大地加快研发创新进程,减少研发过程的碳排放。目前,计算模拟手段已成为科学和工程领域内最重要的创新方法之一。很多物理实验可以被计算模拟替代,对于一些极端环境、危险困难、代价高昂的研究内容,计算仿真模拟是不可替代的研究手段。近十几年来,计算仿真对工业工程领域产生了巨大的影响,并被广泛用于替代产品研制的传统方法。很多产品的设计制造、运行环境和工程建设环境都通过计算仿真手段进行模拟,计算仿真的水平已成为衡量工业企业竞争力的主要标志之一。例如,在汽车、航空航天和重型装备制造企业,全周期计算机辅助工程技术被运用到从新产品研发到失效测试直至老产品的维护等多个方面,大大降低了原型产品和测试产品的数量,节省了开支,提高了效率。在钢铁行业,计算模拟被用于产品开发的物理试验、理化解析、中试生产等,代替了以前动辄用大生产线进行的试验,使产品开发过程变得科学、高效和经济。通过对物理试验的大量替代,特别是对一些高能耗、高污染的试验,计算仿真在很大程度上减少了研究开发过程的碳排放。
算力设施可以极大地优化生产经营流程,减少生产运营的碳排放。随着大数据、人工智能技术的兴起,算力资源被广泛用于环保、交通、工业生产、城市治理等多个场景,优化生产运营流程,实现减排增效。将计算能力与工业互联网数据分析平台相结合,可以帮助企业分析改善智能设备在实际工作条件下的性能,实现工业自动化控制、智能化管理,提升企业生产力和工作效率,有效减少能源使用和碳排放。例如:在钢铁行业,神经网络计算被用于对炼铁、炼钢、轧钢等工艺环节的能耗和用料进行精准预测,从而对生产物资进行调整,节约成本与能耗;在运输行业,车路协同技术通过实时交互车路动态信息,采用人工智能计算,对整体道路流量、交通事件、路况进行预判,实现车辆之间、车辆与基础设施之间的智能协同,达到提高车辆配置效率、降低车辆燃油消耗等减排增效的目标。算力设施和信息技术的使用大大提升了生产、生活和经营活动的效率,减少了生产运营的碳排放。
算力设施可以极大地优化生产经营流程,减少生产运营的碳排放。随着大数据、人工智能技术的兴起,算力资源被广泛用于环保、交通、工业生产、城市治理等多个场景,优化生产运营流程,实现减排增效。
算力设施是支撑我国未来科技创新、经济发展和社会治理的重要新型基础设施。不仅其本身需要采用新型节能技术,进行集约化、规模化建设,共享使用,提高能源使用效率,减少自身的碳排放,而且需要将其广泛应用于生产生活的各个方面,使传统产业智能化、智慧化,提升资源使用效率,从整体上减少全社会的碳排放,助力我国早日实现“双碳”目标。