新基建浪潮下对数据中心运维的思考

2020-01-16 18:58林永生
智能建筑电气技术 2020年5期
关键词:线缆数据中心运维

陈 南,林永生

(1. 福州市城乡建总集团有限公司,福州 350007;2. 武夷装修工程(福州)有限公司,福州 350001)

0 引言

2015年9月,国务院发布了促进大数据发展的行动计划,这已经成为一项国家发展战略。此后大数据政策层出不穷,直至2018年中央经济工作会议重新定义了“新型基础设施建设”。今年3月中共中央政治局常务委员会更是第一次把“数据中心”单独提出来,列入新型基础设施建设范畴。数据中心行业在“新基建”概念下,受到各方关注迎来了历史发展机遇。“新基础设施”已经加速,对网络基础设施和网络服务的需求急剧增加,数据中心无论是作为底层的基础设施还是作为智能城市的“大脑”,无论是在原来的基础设施扩张还是在新的建设中都将快速增长。数据中心规模扩张以后,设备数量呈倍数增长,设备种类也大大增多,如何实现海量设备的统一管理,实现业务到网络的联动,提高运维效率,降低运维成本,是大规模数据中心急需解决的问题。

在数据中心的全生命周期中,运维阶段时间最长、成本投入最多、信息量最大、工作流程最复杂,是数据中心价值实现的最重要阶段,但在建设期也最容易被忽视。只有事先对数据中心进行系统的运行和维护,从价值实现的角度来规划和设计“新的基础设施”,才能保证数据中心投入使用后使用寿命更长、成本更低、信息管理和控制更加有效、工作流程更加规范。

1 数据中心运维阶段存在的问题

数据中心大型化之后,人工运维已经弊端尽显,根据2017年数据中心行业趋势调研结果显示,高达93.7% 的受访者表示,运维中心管理层认为数据中心运维人员短缺,不同技能水平梯队短缺;而受限于薪资、职业前景等多种因素,人员离职率高,系统运维管理经验难以传承。另据Ponemon研究所的调查报告中的数据统计,2016年数据中心中断事故中,高达22%来自于人为失误;因此,获得合格、熟练和负责任的操作人员来支持数据中心的运行和维护已成为一个重大问题。在未来数据中心大规模建设前提下,运维人员缺口明显,人工运维显然不能适应将来的建设发展趋势。

首先,规模超大带来的人员、组织和效率的变化。数据中心运维工作中,50%的人力消耗在日常巡检工作中,且多依赖于运维人员的眼看耳听。依据以往经验,1万m2以内的数据中心所需人工巡检时间以每次2~4h计算;如今的大型及超大型数据中心,其基础设施的系统复杂程度远超以往,只具有中小机房运维经验的业主就会“捉襟见肘”,因此需要根据各系统特性及规模聘用更多的运维人员,管理各类人员的难度和成本相应增高。其次,以往规模较小的数据中心,运维人员接触的多为380/220V设备;现在由于系统规模大,往往市电引入、供配电设备、制冷机组、柴油发电机组均以10kV电压等级供电居多,对运维人员的维护安全要求提升。另一方面,由高密度机柜和大规模数据中心带来的风险越来越集中,一旦发生事故,其影响面更大。因此,运行维护管理的重点突出,对运行维护能力的要求也越来越高。

在运维过程中,需要依靠各种仪表、传感器全面实时监控数据中心各系统的诸多数据,如用电量、电压、电流、温湿度、水量及风量等,以便于及早发现问题,并通过预先制定的预警机制及相应的操作流程处理相关问题。同时,科学汇总、分类这些测量数据还可以为运维人员指定应急、节能措施提供指导依据。

数据中心运维涉及专业系统多、运维工具也是纷繁复杂,由此而来的是各个专业和岗位的维护人员就会采用各自的工具来支撑各自的维护工作。这种从“小机房时代”就沿用的管理模式,由于没有统筹管理,实际上存在诸多问题。

首先,运维团队需要一个统一的、高度集成的软件来获得所需要的可视化信息,在此基础上如果需要维护多个运维工具运转,也对运维管理提出了更高要求,增加运维难度。其次,各系统之间的数据由于格式、协议不同,难以互联互通,如果各系统需要协作进行数据建模、预测分析就非常困难。最后,由于各类运维工具开发时间不同开发水平不同、甚至开发能力不够专业的工具,其数据的采集与维护非常困难,数据的更新与同步是亟待解决的问题。

因此对于数据中心运维管理团队来说,迫切需要有一个顶层管理体系及平台能够统一、同时管理到IT设备和基础设施,并且可以协助完成多个作业程序的管理及执行。

2 DCIM系统对运维的积极意义

DCIM 是对传统环境控制系统的改进,将信息技术与设备管理相结合,形成一个高度集成化、集中化的管理数据中心关键设备、集中监控、容量规划平台。涵盖了软件、硬件和传感器等,通过对监控数据的分析和整理,能够大幅度提升数据中心的可靠性和运维效率。

以市电断电为例,运维人员可能会同时接到若干系统的报警信息,UPS整流器关闭故障、馈电线路失压故障、进线线路失压故障等,如何在错综复杂的报警信息中梳理出真实故障点对运维人员是一个考验,更遑论还要在电力监控系统、UPS监控系统、PDU监控系统之间来回切换查看所浪费的时间。

然而,DCIM工具出现后,以更科学、更智能的管理系统,为数据中心运维实现了更好地保障效果。

(1)协助数据中心识别和处理影响IT系统可用性的关键设备故障,提高数据中心的工作效率和稳定性。将场地设施和IT基础设施相互关联起来,告知管理人员数据中心设备使用率,以及哪些设备冗余可降低能源消耗,提高能源效率。

(2)协助运维人员实时掌握数据中心关键参数及能源、空间等使用情况,便于及时调整以提高资源使用率,并且降低运营成本,有效避免错误决策。根据研究报告显示,一套优秀的DCIM系统,在正确、科学地应用后能为数据中心节省20%以上的总运营成本。

(3)DCIM在掌握了能源、空间等使用情况后,就能够根据资源使用情况优化机架的设备布局。

(4)通过AI学习,基于电能和设备使用率的实时监测数据,通过建立准确的基础设施容量视图,帮助运维团队减少容量过剩的开支以及因降低容量导致不足的风险;使团队深入了解每一个设备的能源消耗,从而采取切实可行的措施,有效地节约能源,帮助数据中心未来规划。

(5)在管理资产方面,DCIM可以在其管理的数据中心建立资产模型,通过预设一些场景条件,帮助运维人员了解变更项目时(如新增、迁移等),对数据中心内电力、制冷和场地的影响,从而根据建模预判结果改善服务,加速IT设备部署速度。

(6)能够帮助管理团队快速访问有关站点、地板区域、机架容量、电源消耗、热量输出、承重与网络连接等方面的详细信息,由此可以快速且灵活地应对业务需求变化。

(7)DCIM可将数据以详细图表方式进行友好的呈现,使复杂的IT基础设施,数据中心、机架和机架内所有IT元素以可视化的方式呈现给管理者,从而有序地管理,提高管理效率。

DCIM系统的高度集成,主要价值就是在于打通场地基础设施和IT基础设施的组织和信息断层,整合数据中心各个专业的子系统,统一管理平台提供了可视化运维的基础,实时监控、分析基础设施的相关数据,能够有效提高数据中心运维管理的效率,同时对故障的预判和及时处理也提供了保障。DCIM 作为一种全面管理数据中心基础设施的方法和手段,位于各专业子系统的顶层,也是目前数据中心运维管理系统的顶层设计。

3 可视化运维

在数据中心DCIM系统中,为了方便操作和简化维护人员的工作,有必要建立一个可视化的维护模式,使现有的系统变得更加简单。数据中心内的各个系统要做到专业化,至少需要几年时间来磨合完成;但是,使用可视化的操作和维护管理,使用图形化的手段进行清晰有效的沟通,并使用图形来显示数据中心的整体情况,可以帮助操作和维护人员实时控制资源的利用,最大限度地提高管理水平。

可视化运维管理系统,以可视化作为重要管理手段,将数据中心机房内分散的多种专业监控系统、资产管理系统、运维流程管理系统融合在一起,组成一个统一界面;建立统一的监控、预警、资产管理以及空间规划,规范数据中心管理流程;改变监控、数据孤岛现象,并保障机房运维过程有据可依;系统支持操作界面个性化自定义,包含控制终端、运行终端和后台系统一体化,满足用户后期场景自主维护需求;数据中心机房整体结构、设备分布情况都可以直观显现。可视化运维涵盖以下几个方面。

(1)机房环境可视化,根据数据中心实际场景,逐个统计数据中心内部各类设备的具体信息,通过软件3D建模,真实体现机柜级和机架级IT设备以及各个动力设备的精确信息、位置,多视角、多维度分层呈现虚拟现实环境。

(2)资产管理可视化、可视化系统,使资产和组态管理直观易用;快速检索和定位目标设备,方便检索设备信息、设备安装使用信息、设备所有权信息、设备操作维护信息及相关操作手册,维修人员不必进出机房,清楚掌握数据中心的资产状况;该系统提供了一个标准化的界面,通过数据中心建立资产自动化监控和管理设备,与第三方资产管理系统无缝集成,实现资产自动化管理。

(3)对容量管理进行可视化,形象化容量数据,按照分类、分级给出数据中心的空间容量、功率容量和承载能力并进行计算,操作维护人员可以宏观地控制整个资源利用率,并根据设备类型或相关指标设置进行空间搜索,快速找到合格的设备空间,实现空间、电力和承载能力的精细管理。

(4)监控可视化,为机房内的配电柜、空调、UPS 等从环境监控、安防监控到网管和应用监控,提供统一数据查看面板和闪烁告警提醒,并与监控对象的物理属性实时关联,灵活查看设备实时参数、运行状态、告警信息以及历史运行状态,快速定位故障设备, 精确掌控各系统的运行状态,大幅度提升 IT 运行的可用性。

(5)运维管理可视化,通过前述建立的3D模型与数据中心各类监控系统联动,当发生故障时可以自动定位到故障点,并在模型上直观显示;运维人员可以通过定位信息快速获取设备运行状况、运维相关信息(IP、系统、维护变更等)、上下级相关系统设备等,对于预判故障处理及处理策略都有很大帮助。数据中心内温/湿度的监控及优化工作对IT设备稳定运行很重要,设计阶段往往采用CFD模拟的方式验证气流组织的合理性,对于运维阶段,由于设备上架管理是动态变化的,不能仅依靠气流模拟,需要通过把温湿度传感器采集的数据有机组织,绘制实时温度云图,以不同颜色标注温度分布细节,实现机房内的热点区域实时显示,为运维保障和设备上架提供有力参考。

(6)配线管理可视化,线缆管理一直是“老大难”,有序的线缆管理与无序的线缆管理相比,没有线缆管理的数据中心是“灾难性”的。在线缆数据管理上要求系统能够直观呈现光纤、网线、配电等线缆的上下游端口的精确连接信息。每一条线缆,无论其连接的是IT设备还是机电设备,线缆管线连接信息都直观可查,方便运维人员查找。

数据中心机房管理可视化管理是运维人员的需求直接推动的,是一种创新的IT管理手段,通过三维建模,将以往各自独立的子系统整合在一起,直观清晰地展现在一个统一界面,有利于运维人员高效应对突发事件,同时利用系统内建的专家数据库帮助运维人员决策网络布局。

4 结束语

猜你喜欢
线缆数据中心运维
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
上海福尔欣线缆有限公司
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
配电线路的运维管理探讨
弹上线缆布设技术研究
基于一体化的变电标准运维模式
华通线缆:“通”向未来的品牌梦