数据中心智能运维系统的研究

2020-03-27 06:47刘俊龙马宇晴王雁军
通信电源技术 2020年22期
关键词:数据中心运维基础设施

刘俊龙,马宇晴,王雁军

(中国移动通信集团内蒙古有限公司,内蒙古 呼和浩特 010010)

0 引 言

近年来,随着移动IDC业务的迅猛发展,数据中心规模体量随之增长,传统的数据中心基础设施管理(Data Center Infrastructure Management,DCIM)提供的基础设施管理功能难以满足运维人员的实际需求。在实际运用当中并不能完全解决企业数据中心基础设施和数据中心运维的需求,存在功能单一、智能化程度不足以及运营管理能力薄弱等问题,导致管理不畅,效率低下。数据中心急需部署一套集集中化管理、一体化呈现、智能化分析以及流程化控制等功能于一体的数据中心管理支撑系统,大幅降低人工干预,排除人为失误并节能降耗[1]。

1 数据中心基础设施管理系统DCIM存在问题

1.1 数据中心智能化运维现状

目前,数据中心的运维管理依赖一套DCIM系统,DCIM提供数据中心基础设施一体化监控管理,包括动力、环境、安防、IT设备以及BA系统等的一体化监控,是运维人员维护数据中心基础设施的管理工具。数据中心是多种信息系统的综合体,有大量来自于其他领域的新型设备,种类繁多,接口标准化程度不高,运维难度较大,同时增加了风险防患的压力[2,3]。

1.2 DCIM系统的缺陷

DCIM系统在基础设施设备管理方面展现了很大的优势,但是流程管理是其严重短板,难以满足当前动环维护人员的实际运维需求。在智能运维更是空白,缺乏大数据智能分析,无法对数据中心的绿色运维给出合理的建议与规划,不利于数据中心节能降耗目标的实现,具体如下。

1.2.1 DCIM系统缺乏完善的数据中心运维流程管理功能

随着数据中心的不断壮大和发展,单一的基础设施管理功能已经难以满足其智能运维的需求。大量故障处理、日常巡检以及客户探勘等亟待由原本的纸质化管理转为电子化管理。DCIM虽然在基础设施管理方面的能力不容小觑,但是缺乏智能化的流程管理功能。

1.2.2 DCIM缺乏数据分析能力

节能降耗和降本增效是数据中心一直遵循的宗旨。通过对基础设施设备的监控信息进行大数据分析,寻找到数据中心的最优运行模式成为目前数据中心的迫切需求。然而,DCIM只具备单纯的监控和统计功能,并不具备智能分析的能力,运维人员只能通过自己的经验来判断如何在保证设备正常运行的情况下实现节能降耗,不利于数据中心的稳定运行,难以实现绿色运维[4]。

此外,不论是线上数据与业务,还是线下设备运维都面临着许多难题,且随时会有分析、变更、扩容以及统计的需求。

2 数据中心智能运维系统整体方案

数据中心智能运维管理的需求是实现各个设备的系统一体化管理,进行远程监测和实时告警,并且通过智能化分析指导运营工作。为了解决DCIM平台在运维流程管理及数据智能分析等方面的问题,本文提出了面向未来的数据中心智能运维系统,由DCIM、DCOM以及DMaaS共3层功能架构组成。数据中心智能运维系统架构示意如图1所示。

图1 数据中心智能运维系统架构示意图

数据中心智能运维系统在传统DCIM系统的基础上增加了DCOM和DMaaS功能模块,提出大型数据中心智能化运维管理思路。数据中心需要统一的平台实现对基础设施设备的管理,实时监控物理设备的容量、性能、功耗、环境以及巡检等信息,实现专业网管之间互相适配管理、数据共享以及统一分析,从而保障数据中心高效运营,确保业务连续,管理成本合理。3种系统的功能融合是基于大数据和云计算基础上的功能互补和价值转移,能够实现服务架构的精准度提升,对于业务处理的针对性加强,同时提升基础设施运维效率,降低能耗,实现大规模复杂的大数据计算,了解用户业务需求,从而提供有效的服务策略和方案[5-7]。

3 数据中心运维管理系统DCOM模块

3.1 DCOM系统介绍

数据中心运维管理系统DCOM是一种面向运维团队管理的数据监控平台,能够实现智能化管理及考核流程。因其具备突出的数据整理能力,因此能够实现整合监控。

DCOM系统主要包括资源资产及运维管理实务的整合,内置表单布局设计工具,采用表格字段属性绑定与表格设计分离的模式,用户可以像使用Excel一样快速设计自己想要的表格样式。数据整理功能实现的前提是通过特色化的流程管理工具实现资源的优化管理,提升运维效率,减少运维人员和维护成本,注重保障数据中心的合规性、灵活性、可用性、经济性以及服务性。极大降低了运维的难度和复杂度,减少了运维成本,节约了人力成本,同时也适应了未来数据中心精细化、智能化以及无人化运维的趋势。

3.2 DCOM在运维管理中的优势

3.2.1 DCOM系统具备丰富的运维管理功能

DCOM模块上可以实现系统管理、运维事务质量管理、资源管理以及运营管理等。搭建DCOM系统实现了人管系统到系统管人的转变,精准的故障定位,精细化的流程指导,降低运维难度和复杂度。

3.2.2 可满足不同数据中心的流程管理需求

系统提供简单易用的在线表单与流程设计工具,可快速响应用户管理需求,无需二次开发。图形化展示流程进度,方便用户实时追踪当前业务进展,提高运维管理效率。

4 数据中心管理即服务平台DMaaS模块

4.1 DMaaS模块介绍

数据中心管理即服务DMaaS,是一项基于云计算的远程监控服务,统计分析全量数据,帮助企业更好地预测设备故障或容量不足,并检测低效率运行状态。DMaaS系统面向运营生态及客户服务,基于多个DCIM与DCOM的数据样本,整合资源平台和客户关系平台数据,应用大数据分析技术,实现优化数据中心运营生态服务、设备大数据分析服务以及客户业务分析服务,注重运营投资回报与客户体验保障[8]。

DMaaS平台基于负载均衡技术、虚拟化部署以及集群管理架构,通过DCIM及DCOM提供的海量数据,应用大数据分析技术实现设备资源分析、客户资源分析以及运营管理支撑服务等功能。

4.1.1 具备丰富的设备资源分析服务

DMaaS提供设备资源数据分析,关注设备资源分布并为数据中心运维人员提供统筹规划参考。数据资源数据分析,关注整体能效方案,提供节能优化依据。设备运行稳定性分析,关注设备运行状态,帮助运维人员及时发现潜在故障。设备组件稳定性分析,关注设备故障原因,为数据中心提供故障预防依据。供应商服务质量分析,可多维度进行分析,提升供应商服务品质。

4.1.2 具备丰富的客户资源分析服务

可实时监控数据服务接口,提供基于数据通信框架的基础设施监控信息接口,以供客户实时读取所租用机房区域相关的基础设施监控数据。客户资源分析服务,统计客户租用的机架、带宽以及IP等资源信息,分析客户需求的变化趋势。市场需求趋势分析服务,按客户类型或规模统计机架、带宽以及IP等资源的需求变化趋势。客户资源服务报告,综合客户的运行环境数据、资源数据以及匿名化处理的市场需求,以服务报告的形式定期推送给客户。

4.1.3 具备丰富的运营管理支撑服务

DMaaS立足于运维体系与团队建设的重要性,从人员管理、运维支撑、应急管理、设备物料管理以及知识共享等方面为数据中心运维的规范化管理提供支撑,结合考核管理实现对各数据中心运维管理工作进行系统地计划、组织、追踪与落实[9]。

4.1.4 运维生态链服务

DMaaS运维生态链服务能够实现数据共享、优化运营管理、提升客户体验以及合作共赢。数据共享过程是从海量的数据中筛选出有价值的信息,脱敏后共享给合作商,为运维团队和运营管理提供参考。设备大数据服务能够对设备效率、设备故障率、平均设备故障响应时长以及平均故障处理时长进行监控预测。此外,客户服务方面能够实现各项实时监控推送服务,包括基础设施监控信息推送、IT监控信息推送以及视频画面推送,同时具有资源报告分析、基础设施资源分析、网络资源分析、运行报告分析、基础设施运行分析以及网络状态分析等分析功能。借助DMaaS的数据统计分析能力,指导数据中心智慧运营。

5 数据中心智能运维系统效果分析

5.1 一体化运维方案降本增效

运维管理的关键是对基础设施全生命周期的管理,对数据中心内基础设施日常运行数据进行分析、对比以及挖掘。基于智能运维系统整合分散的运维管理功能,提高告警信息的主动性和及时性,同时也避免了部署时的各种问题,降低了运维系统部署成本。不仅提升了运维管理效率,提升了数据运营安全性、便捷性以及高效性,而且也节约了设备能耗,为绿色机房的实现提供了强劲的动力,符合未来数据中心运维管理智能化和生态化趋势。

5.2 预测性维护防患未然

基础设施运维中事故和故障发生将会对系统产生重大影响,因此对于数据中心基础设施故障的精准预测和防护将是数据中心智能运维系统的一项重要内容。DMaaS功能的接入,可以对数据中心低下的效率和有限的容量形成缓解效应,汇总的数据能够被机器学习选择和加入,这也体现出DMaaS卓越的增值服务功能,能够将基于云计算的运维与运营结合起来,以便更好地支撑市场发展[10]。

5.3 面向未来运维友好高效

基于DCIM和DCOM的DMaaS大型数据中心智能化运维管理系统,是面向未来的运维管理解决方案,不仅实现了功能模块的增减扩容,还实现了信息呈现方式的易懂性和人性化。同时多了对管理者和使用者的人性化关照,减少人员工作,减少因管理复杂化带来的专业知识缺陷的暴露,节省了企业运维管理成本等。

以基于该系统的机架容量管理为例,通过DMaaS系统进行实时容量预警反馈和最佳扩容方案的输出。定义容量管理预警机制,根据PDU负载峰值容量比进行分级管理(黄、橙以及红3色预警)。现场电源插座(Power Distribution Unit,PDU)均为2N配置,2N表示两个PDU插座。设2N系统PDU负载峰值容量比为ε,峰值容量预警标准如表1所示,计算ε的公式如下:

表1 峰值容量预警标准

当某机架所承载的服务器总容量越限时,上报超限告警,提醒运维管理部门反馈相关情况至业务部门要求客户进行扩容,并给出兼顾装机率和低能耗的最佳扩容方案。客户接到通知后安排专业人员核实扩容,通过该系统的实时反馈避免了容量超限后可能引发的火灾隐患,同时要求客户扩容为企业增收提供帮助,也在扩容的同时实现机房运行的节能降耗。

6 结 论

数据中心智能运维系统大大提高了人员管理效率,为了减少IT企业的运营成本,基于云的聚合平台解决方案体现出更大的应用价值。它能够服务于设备管理,为企业客户营造更加便捷的服务环境。对于企业来讲,由于对设备的安全性、兼容性以及简便性有较高需求且要求管理平台能够进行智能控制和整合,而云服务对于运营商和客户而言可以实现功能的双向满足,因此云服务必然成为电信运营上的最有利选择。借助聚合性平台的解决方案,实现电信运营商对所有设备的管理,能够为企业和客户提供各种服务,还能够分析客户业务,给出解决方案,从而实现电信运营商与客户的双赢。

猜你喜欢
数据中心运维基础设施
农业基础设施建设有望加速
高速公路智能运维平台
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
前7个月国内充电基础设施增加12.2万台
关于建立“格萨尔文献数据中心”的初步构想
新政府会计准则规范公共基础设施处理
2017第十届中国数据中心大会榜单
配电线路的运维管理探讨
基于一体化的变电标准运维模式