田 军, 陈文婷, 罗志刚(.东软集团股份有限公司,辽宁大连 6085;.江苏省邮电规划设计院有限责任公司,江苏南京 00006)
智能化平台在数据中心基础设施运维管理中的应用
田 军1, 陈文婷1, 罗志刚2
(1.东软集团股份有限公司,辽宁大连 116085;2.江苏省邮电规划设计院有限责任公司,江苏南京 200006)
针对大数据时代下数据中心全产业链整合所带来的问题,探讨了智能化平台在数据中心基础设施运维管理中的应用。指出智能化平台将数据中心基础设施连接到信息网络中,实现基础设施和管理平台的信息交换,同时运用大数据和云计算技术,实现对数据中心基础设施更加精细和智能的运维管理。
数据中心;运维管理;智能化平台;大数据
田 军(1982-),男,高级工程师,从事数据中心管理、云计算、大数据、BIM应用的工作。
数据中心基础设施广义上包括IT设备、机房以及与机房相关的各类设备。本文仅讨论狭义上的数据中心基础设施,即为保证各类IT设备正常运行提供基础环境的供电设施、制冷设施、安防设施和消防设施等。
20世纪90年代,数据中心崛起时密度低,能源成本尚未成为发展的制约因素,运营商对数据中心的管理是粗放式的:通过过度规划电源和制冷来保证安全;分散负载以保证资源对业务的高性能持续支撑;在设备投资和储备上过度花费,为不使用的设备持续支付维护费用;忽视对低负载率情况下的低运行效率和高固定成本。目前,随着业务需求的不断膨胀,数据中心规模快速扩大,能耗和运维模式逐渐成为制约数据中心发展的关键因素。运营者希望对数据中心进行集约式的建设和管理,实现数据中的绿色节能和智慧高效。
云计算、大数据和物联网等新一代信息技术的蓬勃发展,为实现数据中心基础设施集约化、智能化的建设和管理带来了新思路。
数据中心基础设施管理的价值在于为应用系统提供一个安全、有效的支撑环境。在很多企事业单位信息化建设的背后,基础设施运维管理的疏漏,已经随着数据中心的发展继续扩大。
(1)系统复杂性攀升,管理效率低下。添加一台服务器,运维人员需从冷量、功率、空间等多方面来衡量和考虑服务器的安放位置;对于机房中不断变化的冷量和功率需求,依靠人工测量和感知很难及时把握,且不能对这些变化做出快速及时的响应,导致管理效率低下。
(2)高密度向电源和制冷系统施压,可用性受到威胁。高密度能耗机架需要明智且高效地分配昂贵的电源和制冷资源,运维人员需了解布局才能有效的利用容量;高密度和动态负载情况,又为电源和制冷带来了不可预期的风险,一旦电源或制冷过载,造成基础设施服务中断,可引发连续的IT设备故障,仅依靠人工手段,难以对过载情况进行预警。因此,数据中心可用性无法得到保证。
(3)资产利用率难以提升。造成资产利用率难以提升的原因,一方面是由于运营商没有对数据中心安全性和可用冗余度等级进行定义并按照约定执行,另一方面是没有对数据中心资产进行定期盘点,造成资产在用情况和储备情况不明。数据中心资产非规范化的管理存在很多隐患,利用率低只是其中之一。
图1 业务流程标准化
数据中心基础设施智能化运维平台,是以资产+数据为核心,从人、资源、应用三种管理视角出发,实现可知、可见和可控的新一代IT基础设施数字化、精细化管理的支撑平台。结合物联网技术,通过智能传感设备,按照约定协议,将数据中心基础设施连接到信息网络中,实现基础设施和管理平台的信息交换;同时,运用大数据和云计算技术,实现对海量监控和运维数据的快速分析计算和利用,发掘数据背后的挑战与机遇,实现对数据中心基础设施更加精细和智能的运维管理。
智能化平台的出现,为数据中心运维管理转型注入了新的活力,在提升运维能力的同时,转变传统应对式的运维管理为主动管理,强化了管理者对操作人员以及和整个系统的控制和监管能力,在实现监测可知、可见的同时,更体现了基于强大数据分析能力实现的可控。
2.1 标准化运维流程
标准化运维流程包括业务流程标准化和监控数据模型标准化。
2.1.1 业务流程标准化
运维工作是由多个管理流程协同编制起来的运行空间。智能化平台提供给管理者一个管理和监督的综合平台,能够精准把控每个运维细节,并对不足之处做出调整。
业务流程标准化如图1所示。运维人员能够通过平台制定工作计划,实现对设备的实时监控。当设备出现故障或需要进行周期保养时,平台会根据预置的工作计划和人员安排,将任务生成工单,并派发给相应的工作人员,实现工单自动派发和流转,并根据预置的任务评分标准(故障恢复时间、已恢复状态设备运行参数等)完成工作评价,形成一个可知、可控和可循环的标准化流程。在借助软件手段之前,运营商必须花费一定的成本去梳理和定义业务流程。
2.1.2 监控数据模型标准化
监控数据模型标准化是指为复杂异构的设备数据建立标准、统一的数据模型。数据中心基础设施是一个由多种技术和多个供应商组成的复杂环境,各种技术和各个厂家提供的原始监控数据封闭在各自的数据模型中。通过智能化平台,为异构数据搭建统一数据模型,实现监控数据的标准化,为实现设备自动化管理和综合性分析做好数据准备[2]。监控数据模型标准化如图2所示。
图2 监控数据模型标准化
2.2 自动化运维手段
从数据中心发展趋势和现有规模来说,只有自动化的方式才能解决成本加大、运作复杂等问题,并满足客户对业务和服务的要求。智能化平台的出现,对实现自动、高可用、可优化、零延迟[1]的数据中心运维有重要价值。
2.2.1 自动化设备预警
传统的应对式管理主要是对设备故障进行处理。应对式管理已经无法满足数据中心客户对服务的要求,主动管理模式应运而生,设备预警是主动管理的重要手段。
在监控数据模型标准化的基础上,能够在智能平台上实现对各类设备告警的统一管理,包括设备故障告警和设备预警。智能化平台允许运维人员对设备指标设定报警上、下限,当设备运行至设定的上、下限时,平台向运维人员发送设备预警信息,一旦运维人员确认告警需要被处理,系统就会根据预警内容自动生成工单并派遣给指定的工作人员,如果告警信息形成干扰,则需要调整预警策略。自动化设备告警如图3所示。
图3 自动化设备告警
除此之外,智能化平台应该具备对告警进行根源性分析的能力:无论是设备故障告警还是设备预警,当一连串的告警产生时,平台启用复杂事件处理系统(Complex Event Processing,CEP),根据资源配置和实时监控信息,对多重告警事件进行分析和判定,帮助运维人员快速锁定根源告警设备,解除故障。
2.2.2 自动化设备调度
数据中心需要通过自动化的方式解决复杂系统结构中的设备问题[2]。在智能化平台上运用CEP,能够对设备实现自动化精准控制:在平台中预先完成策略条件和响应动作的定义,当事件(设备运行事件或告警事件)发生时,将事件与设备运行策略条件进行匹配,成功匹配后按照响应动作定义,对单点或多点设备进行控制,从而在保证基础设施服务可用的前提下,实现设备间歇式、波动式的运转,降低了运维复杂度,减少人为操作失误带来的故障,强化了运维人员对整个系统的控制和监管能力。同时,能够快速对环境变化做出准确响应,提升了数据中心的安全性、可用性和效率。自动化设备调度如图4所示。
图4 自动化设备调度
2.2.3 自动化资产管理
资产管理流程不清晰、资产更新不及时是导致资产利用率低下的主要原因。智能化平台实现对数据中心资产的标准化全生命周期管理,全面了解资产在用情况,动态记录资产最新状态,及时发出资产运维提醒,做到资产更新与现实同步,提升数据中心资产利用率。全生命周期资产管理如图5所示。
2.2.4 自动化设备探查和人员检测
借助无线射频识别技术可对数据中心机柜设备进行自动探查,并将设备数据传回智能平台进行记录,实现对机房在用设备的自动盘点。同时,与电力和冷量的可视化监控结合,能够实现对数据中心容量的动态监管,减少数据中心搁浅容量,提升容量使用率。
图5 全生命周期资产管理
同样,借助无线射频技术能够实现对人员的跟踪定位,结合智能平台系统间联动机制(与安防设备联动),能够及时识别人员入侵行为,也可进行访客路径管理,提升运维环境安全性。
2.3 移动端运维方式
移动智能终端的迅速崛起改变了人们的行为,通信管道的畅通让信息掌控变得更加快速便捷。在这种背景下,运维方式移动化是一种必然的发展趋势。
2.3.1 移动终端办公
移动终端和互联网使得随时随地办公变得可行,即运维人员不必7×24 h坚守在机房或监控终端前。
移动办公是智能化平台为提升运维工作的执行效率提供的新方式,运维人员可以在手机上查询机房设备状况或接收告警信息,甚至对设备进行远程调节,快速处理设备故障。
2.3.2 移动终端工具化
手机、平板电脑不仅可以成为运维办公的平台,也可以成为运维管理的工具(数据中心资产盘点的手持设备或访客登记的电子标签)。智能化平台支持移动终端与平台的一致性对接,并实现对移动设备动点管理,让运维工作变得随时随地,便捷高效。
2.4 运维决策支持
管理工具的介入,实现了数据中心全点监测和集中监控,将运维人员从繁复的运维工作中解脱出来,能够将更多的精力放在业务优化上。运营商开始尝试运用数据实现对业务变更的快速、实时、精确的响应和调整,来满足业务发展。
基于数据模型标准化,智能化平台能结合专业运维人员的经验知识,从历史数据中提取关键数据维度,构建数据中心运维业务数据模型,对海量监控数据进行数据分析和信息挖掘,形成数据中心运营状况诊断报告和可视化预测报告,为数据中心优化资源配置、调整运营模式、评估运营风险提供决策支持,如图6所示。智能化平台的核心和价值是在“监”与“控”之间从数据分析到决策支持形成的关键性步骤。
图6 智能化运维决策支持
智能化平台主要在实现运维流程标准化的基础上,通过先进的告警手段、调控手段和盘点跟踪手段,实现对数据中心基础设施的自动化管理;同时尝试运用复杂事件分析技术,在数据模型标准化的基础上,实现对复杂告警事件的根源性分析和设备的智能化响应;在运维决策支持方面,通过对海量监控数据中隐含信息的提取和应用,实现对数据中心资源优化、风险规避的决策支持,达到智能化平台的高价值目标。
[1] 吕天文.2010年中国数据中心运维服务分析[J].电源世界,2011(8):7-9.
[2] 席敏晖.浅谈企业级数据中心运维管理[J].信息技术,2014(12):47.
[3] 韦琛江,谷和启.浅析企业级数据中心运维管理[J].信息系统工程,2013(8):66-67.
[4] 潘哲.数据中心运维管理现状及策略探论[J].电子技术与软件工程,2014(4):210.
[5] 王维沂.现代企业数据中心运维管理[J].商,2015(14):210,192.
Application of Intelligent Platform in Operation and M aintenance of Data Center Infrastructure
TIAN Jun1, CHIENWenting1, LUO Zhigang2
(1.Neusoft Group Co.,Ltd.,Dalian 116085,China;2.Jiangsu Post&Telecommunications Planning and Designing Institute Co.,Ltd.,Nanjing 200006,China)
Abstract:Aiming at the new challenges ofwhole data center integration in the era of big data,this paper discussed the application of intelligent platform for the operation and maintenance of infrastructure in the data center.It is pointed out that the intelligent platform connects the data center infrastructure to the information network,which achieves the information exchanges between the infrastructure and themanagement platform.By the use of the large data and cloud computing techniques,the more careful and intelligent operation and maintenance management for the infrastructure of data center is obtained.
data center;operation and m aintenancemanagement;intelligent p latform big data
TU 244.5
B
1674-8417(2015)09-0012-06
2015 09 07
陈文婷(1990-),女,工程师,从事数据中心管理、云计算方面的工作。
罗志刚(1970-),男,高级工程师,从事暖通空调、数据中心及BIM应用方面的工作。