我国智能计算发展趋势及能耗对策

2023-11-15 09:08刘志军
广东通信技术 2023年10期
关键词:计算中心液冷算力

[刘志军]

1 引言

近年来,我国算力基础设施不断扩展完善,算力规模大幅增长,对经济的拉动显著,其中又以智能算力的拉动作用最为凸显。如今,我国的智算中心建设已从早期的局部实验探索阶段逐渐迈向规模化部署。与此同时,人工智能产业蓬勃发展,催生出更多智能算力需求,后者亦不断刷新更多人工智能应用的可能。分析我国智算中心与智算业务的发展趋势与原因,探索智能算力未来的建设方向与可能,对我国智算发展具有重要意义。

2 智能算力规模的发展

2.1 智能算力发展现状

据中国信通院最新一期《中国算力发展指数白皮书》,我国算力规模正在持续扩展,其中又以智能算力的增长最为显著,智能算力已经成为我国算力资源增长的主要来源。

智能算力规模的增长体现在两方面。一方面是基础设施的布局加快。截至2022 年底,我国在用的数据中心标准机架数量已超过650 万架,基础设施算力规模为150 EFLOPS,位居全球第二。其中,已投运或在建的智能计算中心已超过 20 个;另一方面,智能计算设备出货增加。近六年我国AI 服务器出货量超50 万台,智能算力增速达到 85%,份额占全球45%,处于全球第一梯队。

2.2 我国智能算力发展原因

纵观我国智能算力的飞速发展,可总结为三方面的原因:国家政策大力推动、行业数字化转型需求以及人工智能应用兴起。

(1)国家政策支持

在政策的支持下,智算设施得以快速扩展,也为算法和模型的创新提供的良好的条件,为我国智算发展的注入重要动力。

国家层面出台了《关于支持建设新一代人工智能示范应用场景的通知》《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》《新型数据中心发展三年行动计划(2021-2023 年)》等一系列政策,令全国智算基础设施建设的重要性得以大幅度的提升,北京、上海、广东、安徽、山东等地方政府也纷纷颁布政策响应,通过统筹资源、资金补助、设立先导区与试验区等方式激励人工智能算力基础设施的建设。当前,国内正在建设智算中心或正在筹建智算中心的城市超过30 个,主要以东部城市为主,并呈现逐步向西部扩展的态势。

也有相关政策支持人工智能领域模型、算法的创新工作。2023 年4 月,中共中央政治局会议明确应重视通用人工智能发展,营造创新生态,同时需重视防范风险。网信办公布了《生成式人工智能管理服务暂行办法》,目的在于事前规范人工智能算法、模型,助其长期更好地发展[1]。

(2)行业数字化转型需求

各行各业数字化转型过程中诞生的人工智能需求是智能算力发展的又一因素。人工智能对企业的数字化转型有多方面的促进作用:通过前沿的算法、数据分析手段,增强服务体验,推动企业创新;借助机器人、柔性生产、智能流程等人工智能产物,释放更多人力资源,提升企业运作效率。随着人工智能在各行业渗透度增加,应用种类愈加广泛,金融、互联网、制造业、汽车等越来越多行业期望通过人工智能技术进行数字化转型升级,从而达到市场竞争力提升的目的。在数字化转型的时代浪潮中,智能算力的需求将会持续增长。

(3)新型人工智能应用兴起

元宇宙、大模型等是智能算力发展过程中催生的新型应用,这些新型应用也发过来促进智能算力需求。

根据英特尔公司的预测,全球未来属于元宇宙的时代,但目前的智能算力水平,尤其是服务器的渲染速率上,仍远远不能满足元宇宙所要求的沉浸式体验,因此,继续扩大智能算力规模、提升智能计算水平,是社会迈向元宇宙时代的必经之路,智能算力仍有巨大的增长空间。

大模型的出现更是进一步加快了智能算力增长的速度。2022 年底,OpenAI 公司发布的ChatGPT 让大模型具体地呈现在人们眼前,这一高准确性、高质量的大模型引起了全球关注。OpenAI 计划在2023 年实现2 亿美元营收,2024 年底前达到10 亿美元。由于AIGC(AI 生成内容)背后的巨大市场潜力,大模型迅速成为国家之间、企业之间的竞争焦点。在ChatGPT 问世后,我国各大本土互联网巨头和科技巨头也相继推出自主研发的AI 大模型,包括阿里巴巴通义、百度文心、华为盘古等,这类大模型的训练以及推理依赖三大必要条件:参数、数据、算力,随着大模型训练数据量不断增长,复杂程度不断提高,对智能算力的需求也在日益攀升。

2.3 智算中心建设趋势

2.3.1 分布趋势

我国目前已投入运营和在建的人工智能计算中心共有23 个,这些智能计算中心较集中分布在我国东部和中部地区。总体而言,智能计算中心的数量和规模与所处地区的经济水平发达程度、城市发展程度相关——在这些智能计算中心中,处于长三角、京津冀等东部省份的有12 个,中部地区6 个,西部和东北地区共有5 个。

智能计算中心的分布与地区的经济水平的相关性可从两个方面解释,其一,经济水平较高的地区有更强的经济实力支持智能计算中心的建设与发展;其二,经济较发达的地区往往是高新技术企业、人工智能企业、科研机构、高等院校聚集的地方,因此具有更庞大的智能算力需求,需有足够的智能计算中心作为智算资源的基础设施保障。因此可以预见,在未来较长的一段时间内,我国东部、中部等经济发达地区仍然是我国智能计算中心的建设的主要阵营,也是人工智能产业快速生长发育的主要区域。

2.3.2 合作建设趋势

国内已有的智能计算中心一部分为政府、运营商投资建设,另一部分由互联网头部企业如腾讯、阿里自主建设。政府、运营商投资的智能计算中心多采取与头部科技企业合作建设的模式,包括华为、腾讯、商汤等。

在这种合作模式中,投资方提供建设资金,头部科技企业提供技术底座,攻克技术难点,可提升建设效率,缩短建设周期,达到算力设施快速扩张的目的,这也是合作建设模式被广泛采用的最重要原因。

3 智能计算的能耗考验与对策

3.1 能耗考验

2021 年11 月,国家发改委印发的《贯彻落实碳达峰碳中和目标要求 推动数据中心和 5G 等新型基础设施绿色高质量发展实施方案》要求有序推动以数据中心、5G 为代表的新型基础设施绿色高质量发展,助力实现碳达峰、碳中和目标,方案中明确强调要求到2025 年,新建大型、超大型数据中心PUE(电能利用效率)降到 1.3 以下,国家枢纽节点降至 1.25 以下。

数据中心由众多IT 设备构成,这些设备的计算性能取决与其搭载的芯片。相比普通数据中心,智能计算中心的GPU 服务器占比大幅增加[2],要满足逐渐增长的智能计算算力需求,机柜密度、芯片数量、芯片功耗需要相应增加。GPU 是耗能大户,如何降低智能计算中心能耗、实现减碳目标,成为智能计算中心建设的一大考验。

3.2 节能减碳新举措——液冷型服务器

服务器运行中产生大量热量,需要配套制冷设备保持运行环境正常温度。传统的数据中心的能耗约有40%消耗在散热制冷中,大多使用风冷技术实现制冷。风冷机柜由于其造价成本相对较低、安装难度小、技术成熟度高、接受度广,目前仍被大规模使用中,设计者结合机架、优化风向设计等方式降低能耗。但智能计算中心部署的服务器数量、功耗都在传统数据中心的若干倍,传统风冷系统已越来越难以满足减碳目标,液冷服务器成为新的选择。由于液体的大比热容特性,液冷的散热效率远高于风冷,成为智能计算中心服务器选型的主流方向。除此以外,液冷式服务器还具有空间利用率高、噪声小、延长服务器使用寿命的优点。目前业界存在的液冷服务器主要分为喷淋式、冷板式和浸没式[3],各种液冷型服务器特点比较如表1 所示。

表1 液冷系统对比及选型建议

(1)喷淋式液冷系统

喷淋式液冷系统是通过向发热的服务器电子元器件直接喷洒制冷液体,以实现散热。制冷液体通过一定压力,以精确的角度直接附着在元器件上,以及相连的导热材料上,吸附热量,降低电子元器件运行时的温度。冷却液通过换热单元将吸附的热量循环到外部,通过室外冷源进行冷却。喷淋式液冷系统仅需对服务器加装喷淋的装置,成本较低,但由于器件表面有冷却液,维护难度、成本有所升高。

(2)冷板式液冷系统

冷板式液冷系统通过冷板和电子元器件直接接触达到散热的目的。冷板中以冷却介质填充,可高效吸纳热量,经过多个冷却回路完成热量的传导,将设备热量传到外部排放,完成热交换传递。冷板液冷系统需要根据服务器定制冷板,成本较高,且需要在机房外新增一套液冷管道,对机房有一定要求。

(3)浸没式液冷系统

浸没式液冷服务器是把服务器整体浸泡在特殊的溶液里,利用液体大比热容特性实现高效散热,这种特殊的溶液具有沸点低、绝缘、无腐蚀性的特点,不影响服务器的正常运行。浸没式液冷服务器在以上3 种服务器中散热效果最好,但由于冷却液使用量大,对于机房承重有较高的要求。服务器若发生故障,需要将其从冷却液中取出,运维难度大。

4 结束语

智能计算基础设施将在政策的大力支持以及人工智能产业需求蓬勃发展的双重作用下继续扩展,智算资源为人工智能产业、应用的发展提供土壤,而后者催生的智算需求进一步促进前者的扩展。在智能计算基础设施扩展的过程中,面临的能耗、碳排放问题不容小觑,未来智能计算中心的建设应顺应政策要求,聚焦选型新型液冷型服务器以及既有设备的节能改造。此外,也应对服务器节能调度算法[4]、购用绿色电力等节能减碳手段加以关注,以便让我国的智算之路走得更远。

猜你喜欢
计算中心液冷算力
苏州:到2025 年算力产业创新集群规模达4 000 亿元
卫星通信在算力网络中的应用研究
厌氧胶在液冷板缺陷修复中的工艺技术
中国—东盟人工智能计算中心正式发布
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
制动器液冷控制系统模糊控制策略
基于SiteAI算力终端的交通态势感知系统
航天服的液冷服有什么用?
航天服的液冷服有什么用?
面向反应堆设计的高性能计算中心建设及应用