提升数据中心基础设施运维智能化技术的研究

2022-12-27 05:05张培陆俊张懿操赵小阳刘洋洋张正银
智能建筑与智慧城市 2022年12期
关键词:数据中心运维基础设施

张培,陆俊,张懿操,赵小阳,刘洋洋,张正银

(1.中电投工程研究检测评定中心有限公司;2.国网安徽省电力有限公司信息通信分公司)

1 研究背景

在我国发展数字化转型的时代背景下,数据流量的不断增加,数据中心规模和容量也在成倍增长,其运维管理则面临很大挑战。数据中心基础设施运维管理从脚本运维、工具运维到平台运维,仅靠人力已无法满足运维管理需求,因此亟需运维管理智能化。AIOps(Artificial Intelligence for IT Operations),即智能运维,是将人工智能与运维结合,将AI技术引入到运维当中,基于已有运维数据(日志、监控信息、应用信息等),通过机器的自我学习、自行分析决策,自动去执行脚本[1]。显然,随着运维技术手段的提升,数据中心越来越多运维的工作都可以交由智能机器来自动完成,鲜有人员参与,这样可以极大降低数据中心的人力成本,提升数据中心的竞争力。

2 数据中心智能运维应用现状

当前数据中心智能运维研究与应用在国内外各行业中都属于起步阶段,一些大型互联网行业、金融行业、技术厂商、科研机构等进行了应用实践。

阿里研发的智能故障管理平台,以业务为导向,实现了基于机器学习特点的业务异常检测,可以准确、及时发现故障。百度实现基于智能流量调度的单机房故障自愈能力,将止损过程划分为统一的感知、决策、执行三个阶段。京东金融实现了基于网络拓扑的根源告警分析,结合调用链,通过时间相关性、权重、关联规则算法、神经网络算法等,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平。交通银行通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储,通过关联分析、建模预测等方式发现日志、告警信息中潜在的联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障[1]。

3 提升数据中心基础设施运维水平的探索

3.1 智能运维的需求

新型基础设施建设绿色化、智能化的管理平台是数据中心行业未来的发展趋势。由于目前数据中心基础设施运行存在能耗高、能效低等诸多问题,需对新产品、新技术的指标信息进行系统梳理,研究节能优化算法和人工智能技术的应用。鉴于数据管理方面存在着数据采集系统化不足、数据价值未充分有效挖掘、以数据服务为核心的业务模式尚未形成等问题,需要构建关键参数指标体系和以数据分析为核心的智能运维服务体系,形成具备模块化开发、灵活部署、持续迭代为特点的数据中心基础设施智能运维平台,创建以数据为驱动的新服务模式。因此有必要建设基于全生命周期的数据中心一体化服务平台,为产业链从业者提供全面有效的支持服务。

3.2 智能运维的技术路线

智能运维的技术路线如图1所示。通过对数据管理关键参数指标体系、多源异构数据采集及数据建模等数据中心基础设施运行数据获取方面的关键技术研究,需要研发数据采集装置,在将专家诊断经验梳理为诊断规则、机器学习等基于数据分析诊断关键技术研究基础上,开发可云端可本地部署、具有能源管理、能效管理、基于设备运行数据的健康诊断、故障诊断、智能巡检、智能维保等功能的数据中心基础设施智能运维平台(可有标准版、云享版、轻量版)。

图1 技术路线图

4 智能运维AIOPS关键技术的研究

4.1 建立数据中心基础设施运行数据关键参数指标体系

健康可靠、高效节能运行是数据中心基础设施的刚性需求,通过对设备健康诊断、故障预测、能效提升、系统优化等进行系统性分析,梳理归类整个基础设施系统的采集数据,建立数据中心基础设施运行数据管理的关键指标体系。

按照主系统、子系统、设备、设备参数指标、参数指标检测方法等层级进行系统化分类梳理,结合数据中心业务特征、工艺布局、供配电、制冷、环境监控、运行维护等领域从设计到运行的专家经验,对数据中心基础设施的运行管理、维护进行多维度的指标分析,从而发现不同参数指标之间关联度。

智能运维平台对数据中心的能效评价指标PUE进行细分,从系统层面来分解为基础设施效率DCIE[2]、制冷负载系数CLF、供电负载系统PLF,并据此建立数据中心基础设施运行数据管理关键指标体系,为运行数据的有效获取、精准挖掘运行数据价值奠定坚实基础。

以CLF为例,根据空调系统能耗影响因子和子系统情况,将制冷负载系数CLF进一步细分,包括室外环境、机房环境、末端系统能效、水输配系统能效、制冷系统能效5个子系统,并根据具体设备耗能情况再次细分。然后根据历史数据分析数据中心不同设备的能耗以及能效情况,确定不同设备的能耗权重信息。不同设备选用的指标不一样,对于冷水机组为COP,对于水泵等为水泵的输送效率,对于冷却塔为冷却塔效率,对于冷却系统的水系统输送部分采用水输送系数(WTF)和输送能效比(ER)。对于空调系统形式为水冷冷水机组的数据中心,CLF的因变量包括:室外干球温度TW1、室外湿球温度TW2、室内干球温度TN1、室内湿球温度TN2、冷冻水供水温度TLG、冻水回水温度TLH、冷机负荷率θ、水泵运行台数N1、水泵频率η、冷却塔开启台数N2、冷却水供水温度TQG、冷却水回水温度TQH、机房送风温度TS。PUE指标逐层分解示意见图2。

图2 PUE指标逐层分解示意图

4.2 数据中心多源异构数据采集技术分析

为提高数据获取的广泛性和兼容性,对数据中心基础设施主流系统通过采用多源异构数据采集技术进行数据获取,提高数据获取的接入能力,减少重复性投资。

4.2.1 可灵活配置的模块化数据采集装置

采用插拔扩展模块的硬件架构,可根据数据中心基础设施规模,通过有效的组合各种通信模块,形成大、中、小型数据中心数据采集的数据采集装置产品系列,灵活配置,提升数据采集装置的端口扩展能力与功能多样性,有效减少数据采集装置的开发成本和缩短开发时间。模块化数据采集装置的特点如下:

①能够相互组网,构建大容量的传感网络;

②高度集成化;

③接口模块化灵活配置,互换性强;

④支持多种通信协议,支持物联网协议;

⑤多种通讯方式可选,可为用户定制开发指定的通信协议。

4.2.2 基于无线传输技术的数据采集装置

数据中心基础设施场地复杂,节能运行功能装置的分布广,在运维工艺改造时,为了不影响数据中心运行,减少工作量,目前新型传感器、RFID和智能芯片等数据采集装置采用无线传输,可以更好的采集到所需的数据,同时便于用户快捷部署。基于无线网络通讯的数据采集装置,除包括数据采集的结构外,核心部件是无线通信模块。基于无线传输技术的数据采集装置特点如下:

①具有通讯管理、数据接收、协议转换、数据处理转发等功能,可同时接收多个无线传感器数据、实现通讯接口和通信协议转换;

②可通过5G、Wi-Fi、ZigBee、Lora、NB-loT等传输方式上行传输数据;

③布置安装方便,即插即用;

④减少布线施工成本;

⑤适用于项目改造和安装环境恶劣场所。

4.3 数据建模技术

数据中心基础设施运行中会产生大量数据,为解决这类数据分析算法难以高效复用的问题,我们在数据建模时通过创建标准化、完整性、特征性的方法来定义数据语义[3],应用语义数据标签使数据自我描述,将语义数据模型标准化,并帮助计算机系统读懂数据含义,提高数据处理和数据分析的效率,简化跨系统、跨应用、跨层级数据应用时所消耗的大量人工和成本,实现数据分析算法高效复用,降低从大量智能设备及系统产生的数据中获得价值的难度。

4.4 数据处理与分析关键技术研究

4.4.1 数据预处理及数据降维,提高数据质量降低计算成本

我们对数量庞大的数据中心基础设施运行数据使用主成分分析法(PCA)进行数据降维;对影响安全运行、节能运行的众多因素进行影响因素权重分析,采用数据挖掘的Pearson相关系数、Sperman秩相关系数分析以及多元回归等数据相关性分析方法,找出对安全、节能运行影响最大的环境因素集,实现数据降维,降低计算成本。

针对数据可能存在的数据值恒定、数据值异常及数据值缺失等情况,通过EM算法解决模型中含缺失数据的问题;使用异常数据诊断模型(DSDM)解决数据异常问题;采用回归分析、支持向量机SVM聚类分析、期望最大值EM算法等机器学习方法,对数据中心原始运行数据进行数据清洗及预处理工作,以构建完备数据集。

4.4.2 将专家诊断规则与机器学习算法相结合研究,提高智能诊断的适用性

我们把影响数据中心运行最关键因素冷源系统作为研究对象,从节能及设备健康角度开展基于数据分析的智能诊断与智能调控技术研究。基于数据中心基础设施的运行特点及数据特征,将数据中心基础设施领域专家行业知识、经验积累梳理为诊断规则,形成专家诊断规则库,并在此基础上搭建基于机器学习的智能诊断模型,二者相支撑融合,可解决对专家诊断规则的过度依赖以及基于算法的机器学习缺乏行业专家经验的问题,提高智能诊断规则和算法的适用性[4]。

5 智能运维未来发展面临挑战

5.1 智能运维未来发展机遇

随着企业数字化转型的不断深入,数据中心基础设施的智能运维行业已经形成了一片新蓝海。国内厂商纷纷进入该领域推动了行业的发展,使中国的AIOps市场持续稳定增长。据统计,中国市场规模在2023年达到3236.4亿元,2020-2023年有望保持11.7%的复合增长率。电信运营商、大型商业银行等行业的核心系统升级换代不仅会创造新的IT基础架构建设需求,也为下游的运维服务行业带来增量市场,国内第三方运维服务商的市场份额相应提升。同时,对于数据中心巡检工作量大、漏检、误检率高、硬件实时监控要求大的场合,更加适合智能巡检机器人的应用。

5.2 智能运维未来发展面临挑战

目前数据中心基础设施运维的智能化发展方向已经是业内共识,智能机器人的使用也越来越多,但智能机器人的大规模推广仍然存在较多问题。目前智能机器人的功能还不完善,只能进行比较简单的巡检工作,尚无法代替人完成核心的功能;同时,智能机器人成本比较高,而且如要能以更少的能量来换取更多的信息,这就需要进一步研究,扩大机器人的应用场景并降低成本。

5.3 智能运维可持续机制保障

5.3.1 采集设备传感器的校准与更换

1)传感器的校准

传感器属于检测系统中的关键部件,若传感器的灵敏度或精度出现问题,则检测结果会出现误差,严重时可能因监测失误而引发的重大事故,故传感器的校准至关重要。我们依据相关校准规程对传感器进行校准,通过给传感器加上一个标准的被测量,然后调整传感器的某些部件(或软件参数),使得传感器的输出与被测量准确对应,即确保或验证输出和输入之间的换算关系及性能指标。

2)采集设备传感器的更换

传感器在使用过程中,如果没有进行很好的保护措施很容易因被撞击、超载、电击、老化、高温、腐蚀等原因导致损坏,如数字的信号数字乱跳,传感器断线,传感器的屏蔽线不良、传感器信号线或电源线短路等。

如果判断传感器是坏的,那就需要对损坏的传感器进行更换。由于各个厂家的传感器型号、定义及特性都是不完全相同的,更换时最好选用原来厂家相同型号的传感器,如果需要替代更换,我们则应注意灵敏度、额定负荷、精度、阻抗、丝孔尺寸、接线顺序等6个参数。

5.3.2 智能运维系统维护与升级

智能运维系统的整个使用寿命中,系统维护工作必不可少,其目的是要保证智能运维系统正常而可靠地运行,并能使系统不断得到改善和提高。因此,要有计划、有组织地对智能运维系统进行纠错性、适应性、完善性、预防性进行提升,以保证系统中的各个要素随着环境的变化始终处于最新的、正确的工作状态。该系统维护的需求来源主要有以下方面:

①源于企业管理机制、策略的改变;

②来自用户意见及对智能运维系统更高的要求;

③来自于系统本身,系统本身存在一些缺陷需要改进;

④先进技术的出现;

⑤用户需求的临时性调整。

5.3.3 建设及维护成本控制

1)建设成本控制

数据中心智能运维系统的成本主要由监控服务器、监控系统软件、功能转换模块、传感器、控制器、辅材、安装、系统调试、维护等组成。为控制成本,需在既定工期、质量、安全的前提下,通过目标分析、阶段性目标的提出、跟踪管理、实施中的反馈与决策来实施成本控制,不断地对项目中的收入及支付的费用加以统计和控制,把项目实际成本控制在计划范围内,若发现超支趋势,及时采取补救措施,控制成本一般采取以下几种方法:

①抓成本预测,从计划上控制。根据项目特点和施工组织设计,组织人员进行成本预测,编制人、材、机成本计划。同时根据成本计划制定项目的成本目标,作为后续过程对成本实施控制的依据。

②抓制度建设,做到有章可循。对成本控制的人员、方法、步骤和内容进行规定,使成本控制有章可循。

③抓技术革新,从技术上控制。通过技术革新和论证等,采取新工艺、新材料、新方法,相对节约人、材、机的消耗,从而控制项目成本。

2)维护成本控制

数据中心基础设施项目建设完成后,随着数据中心业务的展开,对于系统运维的需求也会增加,系统相关的维护费也就随之增加。系统的维护成本主要有硬件维护和软件维护、人力资源成本等。降低系统维护成本有以下几种途径:

①根据业务需要集中统一对系统配套硬件设备进行选型与采购、校准;

②系统维护中需要技术支持的项目部分进行专业外包,提高系统维护效率;

③建立健全运维管理相关制度,加强系统维护管理,提高运维效率;

④加强运维管理人员培训,定期对运维管理人员进行系统操作培训,规范操作流程杜绝人为失误,制定详细应急计划,提高故障应急处理能力。

6 结语

数据中心基础设施智能运维服务平台的成功实施,可提高数据中心基础设施运行的可靠性、安全性和能效性,节省运维费用,降低数据中心基础设施对资源和能源的消耗,提高数据中心设计建造水平及基础设施运营效益。同时,还可向大型工矿企业、大型公建、智慧城市/社区等领域推广,助力建筑基础设施服务数字化转型升级,推动各行业的数字化发展。

猜你喜欢
数据中心运维基础设施
酒泉云计算大数据中心
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
振动搅拌,基础设施耐久性的保障
充分挖掘基础设施建设发展潜力