摘 要:DCIM系统是指数据中心基础设施管理系统,如何实现较低成本保证数据中心的运行,全过程实现信息化、自动化、可视化、智能化、流程化,对系统进行功能性需求分析和非功能性需求分析,从而利用监控管理工具帮助运行维护高效完成日常工作。整个系统运行更加关注如何减少成本运营的基础上兼顾功能的可用性,采用相关的监督管控系统,从而使运维投入方面大幅降低。
关键词:数据中心;DCIM系统;功能性需求;非功能性需求;基础设施建设
DCIM系统是指数据中心基础设施管理系统,DCIM系统在功能实现上能够将设备管理及信息管理相结合,从而更优化的实现IT关键设备的规划和监管[1]。DCIM系统中使用各种传感器以及各种硬件、软件相配合,构建DCIM系统相对独立的功能化操作平台,以达成基础关键设施以及中心设备的全方位实时监管功能。
数据中心管理的根本目标是实现较低成本保证数据中心的运行。中心建设完成之后,在其运行阶段,监、控、管就是日常工作。采用全过程实现信息化、自动化、可视化、智能化、流程化是中心管理的目标,监控管理工具帮助运行维护高效完成日常工作。而且拥有足够覆盖率的信息检测才能够高效管理、准确控制[2]。
1 DCIM系统的功能性需求
随着全球经济的高速发展及互联网相关企业的蓬勃发展企业的计算平台逐渐向云框架内转变新兴的云计算获得广泛认可。数据中心的外在物理环境日趋扩大,如何完成数据中心的建设工作,需要对其运营管理模式进行系统需求分析。因此,联系数据行业发展的相关要求以及ITIL理论内容建设数据中心基础设施及其管理系统[3]。其主要划分为五个集中的功能模块分别为运行维护管理模块、告警模块、知识库功能管理模块、统计报表管理模块以及系统设置管理模块。
1.1 运行维护管理模块
(1)事件管理
事件管理就是在具备特殊事件表现的前提条件下,使用尽可能少的时间恢复系统功能的运转,从而减少由于特殊事件带来的业务中断等相关问题。对于生产的影响事件管理并不是单纯的找到引起系统运行异常的原因,而是要从根本上面在尽量短的时间内恢复系统运营业务的功能。对于出现的特殊事件作出高效的准确地识别及路径的追踪是事件管理工作的中心任务。
(2)问题管理
找到特殊事件產生的根本原因是问题管理的目标。所谓问题是指还会诊断出的,但是会导致一个或多个事件产生错误的根本原因。事件管理强调,解决问题的速度而问题管理者更加强调,对于事件产生问题原因的诊断及其分析,从而明确原因的核心。事件管理为了恢复业务的速度,往往会采用临时解决问题的方案,而问题管理比事件管理,更注重从源头上解决问题,一般需花费更多的时间。
(3)变更管理
变更管理就是从整体上面对于服务流程,实现高效的管控,在更少的中断时间内,从框架基础部分进行变更处理。对于基础框架的冰封一般是指在系统维护的过程当中,对整个系统或者其所服务的内容做出一些改变,其中包括增加删除和其他修改[4]。变更的目的是为了在受控的层面上,对所变更的内容进行整体的评估实施,从而阻止未受权的变更的发生降低变更管理的风险,从而降低员工所带来的消极影响。
(4)发布管理
发布管理通常是指在基础架构的层面,上线数据中心上线的发布及基础设施的设备,上线管理IT系统层面上的设备,上线管理确保数据中心发布的设备和系统在发布之前是经过测试的。机房的物理空间、电力及其空调系统等物理资源也可以满足发布线上的需求,从而确保在发布系统和设备上线之后,其运行维护的工作能够在完整的计划与规划下进行。
1.2 告警管理模块
告警管理模块的主要功能是在底层接收整个监督管控系统和环境监督管控系统的告警信息。其监督管控系统和环境监督管控系统,主要归属于动力系统,所谓动力系统指的是数据管理中心所有的电源设备所搭建的整体系统,所谓环境系统指的是数据中心所有空气调节设备所搭建的整体系统,对于所接收到的告警信息进行实时的反馈,并对其信心新型分类,同时要求相关管理人员和相关系统维护人员对构建信息所报告的系统和设备所产生的故障进行实时的反馈与处理,对于整个告警及问题处理的全过程形成闭环,以确保相关的问题得到及时。
1.3 知识库管理模块
知识库是指在整个系统的运行维护及管理的过程当中,基于问题管理的机制将已经被解决的问题,以及产生的相关运行维护的经验进行知识的整理合集,建立整体的数据库。在此模块中,智库中进行知识,添加与知识使用两种功能的实现。知识添加是指将系统在运行维护过程当中所发生的特殊问题的产生及其解决整理后,结束问题产生的根源建立如何避免再次发生的机制,进行一套完整的解决方案,从而建立知识库以供运行维护人员的再次查阅。
1.4 数据统计功能模块
数据统计,功能模块是指系统运行,维护人员提供尽可能多的数据统计信息,从而使系统运行维护人员能够更加快速,而准确地掌握数据中心基础的设施整体以及各部分模块的运行情况。同时,要对统计报表进行综合管理,其中包括报表指标的统计,报表上报制定报表的模板,建立以历史数据档案等。
1.5 系统设置模块
此模块为使用系统的人员提供用户信息的更新、修改与统计等增值服务,对于系统管理人员系统设置的功能,主要集中在对各个功能模块的集中运行管理系统及其与基础设施的联动管理、人员的授权及权限管理、管理日志内容的统计等,从而实现对整个运行维护系统的统一管理调控,保证整个系统的安全稳定运行。
2 系统的非功能性需求
DICM系统的非需求在开发和运行过程中占据重要地位[5]。对于用户而言,他们通常会关注所用的系统的需求,但是也可以通过一些其他的方式来弥补缺陷不足,但是在功能性需求的场面,如果有所缺陷就会比较严重的影响正常使用。根据数据,这城市基础设施的运行,维护使用过程中的实际需求对基础设施的综合运行管理系统提出了以下的非功能性需求。
2.1 兼容性
基础设施综合管理系统,在不同的CPU层次架构上能够在不同的操作系统,且要求有兼容不同类型数据库的能力。对于数据中心而言,其基础设施的类型十分复杂,因此要求不同层次的管理软件也种类繁多。因此,我们需要把整个综合运行管理系统设计成一个具有平台兼容性及软件兼容性的系统,这将对于后期系统的使用及投产具有巨大的价值。
2.2 可扩展性
对于一个系统而言,具备面对未来的需求增长及变化及处理好,这些成长与变化的能力是十分重要的。随着建设工程的逐步深入基础设施,完善补充和变化的,因此需要妥善地把这些变化与基础设施综合管理系统相结合,因此,我们就必须保证这个系统具有很好的扩展性应对未来可能发生的种种变化。
2.3 健壮性
对于一个系统而言,再发生类似输入错误硬盘,损坏或者网络电话及系统遭遇恶意攻击的情况下,整个系统能够保持稳定的运行,而且可以实现迅速地切换到备用系统的能力。在设计系统时,要求做到层层把关,保证所有的子系统都存在物理备用设备存在,可以以最快的速度自动切换到备用系统。设计的同时,要做到重视系统的整体安全保护实行严格的网络隔离,提高整个系统运行的健壮性。
2.4 易用性
对于用户而言,整个系统易用性严重影响其工作效率和系统具有一定易用性。易用性主要包括系統的用户界面,简洁美观采用比较统一的图标较为直接的操作是系统与人员的交互,实现人性化,从而提高管理及工作效率。
为了提高整个数据中心基础设施综合管理系统的响应运行效率,同时还需要考虑也是存储设备采用分布式的服务器群,从而提高系统的运行效率的话,对于存储设备的容量,我们进行了详细的估算,只满足未来可能发生的各种问题的使用需求。
参考文献
[1]李明江.DCIM系统在数据中心部署中存在的问题探讨[J].现代建筑电气,2015,6(9):18-20.
[2]Fang F, Yu, Xiao Feng. Design and Implementation of Next-Generation Data Center Infrastructure[J]. Applied Mechanics & Materials, 2014,513-517(513-517):1316-1319.
[3]张靓晶,吕建友,毋丹.ITIL在数据中心运维管理中的应用研究[J].信息技术与标准化,2017(08):30-32.
[4]Mathew P. How Does Your Data Center Measure Up? Energy Efficiency Metrics and Benchmarks for Data Center Infrastructure Systems[J]. Lawrence Berkeley National Laboratory, 2009:77-80.
[5]Qiang W, Deng Q, Ganesh L, et al. Dynamo: Facebook's Data Center-Wide Power Management System[C]Acm/ieee International Symposium on Computer Architecture. 2016:469-480.
作者简介:战海,身份证号:230103198510212235。