于谋川, 王建民
(昆仑数智科技有限责任公司,北京 102206)
2020年,数据中心建设被列为国家新基建战略,成为支撑现代信息化产业海量数据分析与处理的重要基础设施。然而随着其规模、容量和功率密度成倍增长,能耗居高不下的问题愈发凸显。目前我国数据中心年用电量占全社会用电的2%,超过三峡大坝的年发电量,且仍在快速增长[1]。在2030年实现碳达峰、2060年实现碳中和的背景下,数据中心正面临严峻的节能降耗和温室气体排放挑战,如何推进数据中心绿色节能成为重中之重的任务。
新基建和“双碳”的形势下,对数据中心提出新发展要求。2021年7月,工业和信息化部印发《新型数据中心发展三年行动计划(2021—2023年)》,要求数据中心加快向以高技术、高算力、高能效、高安全为主要特征的新型数据中心演进[2],其中“高能效”即是对数据中心提出绿色节能的要求。
数据中心的能耗贯穿其全生命周期过程,推动数据中心绿色节能有多种可行方式。其中,在规划阶段,可以考虑高效清洁能源的利用,如鼓励探索建设分布式光伏发电、燃气分布式供能等配套能源系统等。在设计和建设阶段,可以考虑增加先进绿色技术产品的应用,如采用高效IT设备、分布式供配电、液冷、自然冷源等系统设计方案[3]。而数据中心运维阶段是其全生命周期过程中周期最长、能耗最多、同时也是节能空间最大的阶段,加强和优化运维阶段的绿色管理能力,对于实现数据中心的绿色节能发展至关重要。传统数据中心对于运维阶段管理节能和系统节能考虑不足,大量使用单一功能的自动化系统,主要作为设备状态监视和自动控制使用,无法实现对底层数据归集与分析,导致无法实现精细化运维和科学管控,对数据中心节能管理造成负面影响。
随着人工智能、物联网技术快速向各行业渗透,节能领域的理念也已经发生了翻天覆地的变化。数据中心以其庞大数据体量和能耗现状,成为AI重要的应用领域。在人工智能的时代,AI节能成为数据中心实现持续化节能的重要途径。
智能运维(Artificial Intelligence for IT Operations,AIOps)指的是将AI应用于运维领域,通过机器学习从而发现和解决传统的自动化运维无法解决的问题[4]。智能运维有三大能力特点:一是数据感知,包括数据采集、存储、预处理,为AI 分析提供训练和推理所需的基础数据;二是AI分析,包括训练和推理两大能力,使用人工智能技术来训练数据,生成各场景所需的算法模型,为各类策略提供支撑,同时也可以使用训练出来的AI 模型进行应用推理;三是意愿洞察,实现用户意愿的识别、转译、验证和保障等功能,在自动化管控系统的配合下,精准实现用户意愿。
数据中心智能运维平台典型系统架构[5]可分为:采集层、综合管理层、展示层。
(1)采集层:接口模块将数据中心各个子系统采集到的数据进行协议和信息模型转换,将“事件”“告警”“资源”等数据转换成智能化系统可识别的、统一的数据模型,接口适配层与上层应用层之间的接口协议采用统一的内部协议。
(2)综合管理层:由服务器和管理软件组成,实现逻辑处理分析、数据存储和应用服务功能。实时接收数据及告警信息,经过相应的逻辑处理分析后存储数据,提供向上的应用服务供用户端使用,提供数据存储、记录告警事件,并以各种不同的方式输出告警。
(3)展示层:由管理终端、显示终端及告警设备组成,为用户提供人机交互界面,可生成各种报表,实现日志功能及权限管理等功能。
数据中心智能运维平台通过“监控、运维、资产、能效”四类功能模块[6]呈现主要功能。
(1)监控:通过数字化3D实现数据中心全链路可视。通过南向北向集成数据中心子系统,实现设备的实时监控和多子系统的集中管理。
(2)运维:通过建设与实践兼容的维护模板库,用户可以通过不断定制模板和流程,实现标准化、数字化运维,并可以将专业知识、维护经验和技能数字化,实现共享和持久化。
(3)资产:通过对数据中心资产设备的状态全程跟踪,实现资产的全生命周期管理。同时,利用精细化容量管理,高效地匹配空间、电力、冷量和网络等维度容量使用情况,提升数据中心资源利用率。
(4)能效:利用AI技术,实现对数据中心的看、诊、调、优,通过对能耗数据分析处理,将复杂设备参数转化为直观化分析计算结果,指导能耗优化方向。
数据中心能耗最大的地方,主要集中在IT设备能耗和制冷空调能耗(制冷机组、水泵、管路系统、机房空调等),其中IT设备能耗占比50%、制冷空调能耗占比30%、UPS能耗占比15%、照明和新风能耗占比4%、弱电能耗占比1%。
一般而言,降低数据中心能耗,着重在于制冷空调功耗的优化降低,以及IT设备功耗优化。随着政策的落地加上产业界的不断的努力,我国数据中心在能耗控制以及PUE控制上已经取得很大进步。其中,通过智能运维的方式,在制冷空调系统、IT设备运行、智能照明以及其他多个方向实现成功的节能研究。
2.3.1 从“制冷”到“智冷”
制冷空调系统是降低数据中心基础设施能耗的关键所在,在制冷空调系统节能管理方面,传统手段无法满足要求,而AI恰恰可以提供新的管理方向。
(1)AI应用
将AI深度学习算法以智能运维平台的形式应用在数据中心,通过软硬件深度耦合,分数据采集与上传、数据治理、模型训练和推理运算四步实现制冷空调系统节能。
1)数据采集:AI算法依赖于数据中心提供的大量训练数据,数据量的多少直接决定了AI算法的准确性。数据中心智能运维平台将各项基础设施进行统一管理,周期性将采集到的海量数据(包括暖通系统、电力系统、环境参数等)上传到AI系统,提供运算基础。
2)数据治理:数据中心的数据量庞大复杂,如何在大量数据中找到“正确”的数据,是提升AI精度的关键。平台对采集上来的海量数据进行特征参数自动识别,并根据参数业务特性进行聚合分析,提取出影响能效指标的主要特征值参数(如室外温湿度、冷机数量、冷冻水供回水温度等)。
3)模型训练:首先对数据中心进行PUE模型训练,通过建立PUE与室外环境、IT负载、暖通系统控制参数之间的因果关系,利用神经网络对PUE进行拟合,将提取到的特征参数输入到包含多层隐含层的深度神经网络中,进行自适应学习。然后进行控制策略优化模型训练,建立基于强化学习的能耗最小化的策略模型,根据历史数据生成潜在控制策略,并利用PUE数字孪生模型对策略进行评价,结合控制策略约束条件,最终完成控制策略优化模型的训练,寻找符合约束的能效最优控制参数。
4)推理运算:AI系统以PUE模型为约束条件,实时采集的数据作为输入量,平台从控制参数空间高效识别出能效最优的制冷控制参数组合(如提高水温、增加冷水机组运行数量等),下发到运维平台,通过运维专家判断控制参数的合理性,并进一步通过群控系统执行控制动作。控制参数经过AI系统、运维专家、群控系统三重过滤,确保下发质量,保障数据中心安全稳定运行。
(2)工作模式
基于AI算法,智能运维平台可以为制冷空调系统提供普通控制和节能控制两种工作模式。在普通控制模式中,群控系统自动执行所有控制逻辑,包括设备加减、频率调节、制冷模式切换、旁通、蓄冷水罐充放冷等,智能运维平台仅进行状态信息采集监控。在节能控制模式中,群控系统接受智能运维平台下发的一组节能控制参数,如温度(冷却塔出水温度、冷冻水供水温度)、设备运行数量、温差/压差等控制环路目标值等。群控系统根据平台下发的指令进行动作,未下发控制指令的仍由群控自行控制。
(3)应用效果
早在2013年,国外企业就已尝试用AI控制水冷来对大型数据中心进行节能。而后国内IDC头部企业也基于AI对大型数据中心制冷空调系统进行优化控制,取得良好的应用效果[7]。通过智能运维的方式,可以在不改变数据中心硬件、产品配置的基础上,对温控全链路智能管理,同等条件下PUE降低7%~18%,实现数据中心从“制冷”到“智冷”的进化。
2.3.2 IT设备运行节能
(1)机房环境参数采集及AI节能优化:以机器人对机房环境参数和IT设备运行数据进行采集,通过平台进行数据处理、热点与气流分析、模型计算,得出实施机房气流组织优化、空调系统的最优调整控制策略,并对策略结果预分析,在保证安全的前提下进行节能调整。
(2)服务器低耗运行:平台自动监控当前服务器的资源使用情况,并根据业务负载将服务器的电源、处理器、风扇等部件动态调整到低功耗运行状态,实现按业务需求供电,将服务器用电损耗降到最低。
(3)机房容量管理:通过平台监测机架空间容量、耗电容量和冷量现状,通过容量综合分析指导管理人员增加机架密度,提升资源利用率和优化热量分布情况,让机房的各类资源负载更加均衡。
(4)僵尸服务器清理:通过能耗监测,智能识别低负载或零负载的僵尸服务器,指导设备关停,降低能耗浪费。
2.3.3 智能照明联动控制
在大型数据中心设计中,多配备了灯光照明控制系统,在传统模式下,智能照明多为单系统自动运行[8]。
通过智能运维平台,使照明系统能通过接口、协议对接机房动环系统,实现楼宇自控、安防联动。
系统可以进行多模式开启,如设置全开模式、分区域模式、值班照明、夜间照明等;还可通过对人和物体的感应,实现人来灯亮、人走灯灭的控制。通过联动控制的方式,深度减少照明系统电能消耗。
2.3.4 其他节能应用
(1)指导购电:采用聚类分析和决策树等算法建立能源预测模型,基于负荷预测进行需量申请、电力交易(购售电)、需求响应,避免购电申请不合理导致多付电费(或高额罚款),为园区能源优化调度和电力交易提供决策依据。
(2)识别功耗/温度故障:结合功耗数据及温度数据的环比数据,发现设备异常,提早预测机器故障。
(3)功耗管理:在预测用电情况、负载情况前提下,调整服务器用电策略、UPS用电策略,优化能源使用情况。
某公司通过应用智能运维管理系统,对制冷空调等系统进行智能控制,实现PUE值降低8%~15%。
(1)系统技术功能特性
该系统基于对整个数据中心的运行数据进行采集、训练和推理,找出决定数据中心PUE的数学模型,从而计算出各种环境下最佳节能策略,根据负载变化实时下发调节指令,可以做到系统级的能效最优。首先是数据采集,通过700+数据采集点,实施监测制冷系统运行状态;然后进行数据治理,从海量数据中选出19+2PUE特征参数;经过模型训练,PUE预测准确率达99.5%,误差<0.005;最后进行推理决策,最小推理周期1h,节能效果达到8%~15%。
(2)应用案例概述
廊坊某云数据中心共4 000个机柜,单机柜平均功率8kW,负载率为70%。在全部部署了智能运维管理系统并实施4个月后,相较于原制冷系统,数据中心PUE值明显下降,PUE由1.42降低到1.25,年节省电量3 336万kW·h。