本文结合公司数据中心机房运维实例,为解决在机房运维中遇见设备型号多、管理难度大、问题难定位、人力成本高、人员素质要求高等各种问题,特开发出一套“机房统一运维监管平台”,降低机房运维成本,提高运维效率。
2023年10月25日,国家数据局正式成立。标志着企业的数字化改造和升级势不可挡,促进数字技术与实体经济的深度融合,推动数字经济的快速发展是企业数字化发展的大势所趋。
随着公司科研生产等对业务系统复杂性要求的不断提高、数据安全性需求的日益增加,以及信息技术和网络技术的快速迭代与发展,机房里面服务器、存储设备、网络设备的数量和种类不断增加,机房的维护复杂性和要求也越来越高。
数据中心机房是公司信息化建设的重要组成部分,机房有45个机柜93台服务器,100余台网络设备, 2台20KVA,UPS电源等设备。设备的正常运行是业务连续性的基础,如何保障机房环境中的设备始终为系统提供正常的运行环境是机房运维的重中之重。
机房运维人员负责监控机房服务器、交换机、存储等设备运行的状态、设备故障快速处理,确保机房各种设备平稳运行,防止因设备维护不到位,导致业务中断。目前机房运维主要通过视频监控和人工巡检的方式进行,需耗费较多时间和人力成本,且主要存在以下问题:
(一)设备型号多,管理难度大
目前随着业务系统的种类和数量增加,机房里面服务器设备、存储设备、网络设备的种类、型号和数量越来越多,且设备厂家不一致、生产时间不一致、型号不一致等原因,造成机房的运维越来越难,管理难度成几何倍增。
(二)设备组成整体,故障难定位
机房里面的各种设备组成了一个完整的整体,统一发挥价值,确保业务系统安全、有效运转。机房涉及到环境、网络、服务器、存储、操作系统、数据库、应用软件等,当故障发生时,难以判定引起故障原因,故障定位难。
(三)价值高,持续发挥价值不易
机房里面设备价值和数据价值高,确保为企业提供稳定可靠的信息技术基础设施,保障数据的安全性和可用性,要求每年持续365天×24小时发挥机房每台设备价值实属不易。
(四)综合要求高,问题解决慢
而目前机房是各个责任人各施其责,运维团队不同人负责不同设备维护,如:数据安全、网络传输、服务器维护等,当出现问题时,难以快速找出责任人,容易造成故障排除时间缓慢,相互推诿的情况发生。
开发一套机房统一的运维管理平台,通过对 IT 资产、机房基础设施等硬件的定期监测,保障信息化系统的安全稳定运行,实现机房内部计算设备、存储设备、网络设备、安全设备的高效维护以及应用系统持久运行。
机房统一运维管理平台架构上从上往下分为:统一运维门户、统一流程平台、运维及监控、统一采集平台四个部分。其中统一流程平台与统一采集平台为基础平台,支撑统一运维管理平台的各类运维和监控的功能。
机房统一运维监管管理平台建设需遵循以下原则,满足如下要求:
(一)实现管理的全面性
运维管理系统实施后必须全面支持 IT 基础设ULXezWQBvE/zXl7VnxEfUw==施(包括但不限于:服务器、小型机、存储备份设备、网络设备、机房环境设备、计算机终端等硬件设备)、操作系统、数据库和中间件等系统,能够满足实际工作中的全方面的监控需求。
(二)实现统一平台监控
要求能够对信息系统进行集中监控、集中维护、集中管理,在统一平台上实现性能、事件、报表的统一处理。要求实现管理系统对采集到的原始监控数据至少入库保存十二个月。
(三)实现监控告警的时效性
要求对监控平台能在最终用户可接受的最短时间内感知监控异常事件,及时在监控界面中展现,并将告警邮件或短信发送至监控人员或者相关管理人员。
(四)开放性和可扩展性
要求实现管理系统很好的开放性和对标准的支持能力,支持各种最终用户现有 IT基础设施。
要求实现管理系统良好的可扩展性和可伸缩性,以适应业务系统自身的不断调整、修改和优化,并要求提供监控系统自身管理模块,通过实施保证管理系统自身管理和维护的方便性。
(五)管理系统兼容性
要求能够全面支持运行环境,兼容现有环境中监控对象的各个版本,并能够支持版本升级。
(六)管理系统本身的稳定性
管理系统运行必须非常稳定。系统应提供(7 天×24 小时)连续性服务,具备通过持续的数据维护、同步或异步错误处理服务能力,支持数据的高完整性和准确性。
(七)管理系统操作便利性
要求实施后的用户操作步骤简洁,操作界面具有较好的用户体验。供应商必须提供完整详细的操作手册,对于经常发生和具有典型性的场景和事件有详细的专题描述。
机房统一运维监管平台在机房资源监控和运维管理的基础上,能够为不同的人员角色和管理需要提供灵活多样的展现方式。除了能够展现所管理资源的物理视图,还能够针对用户的应用架构、业务组成等信息来建立逻辑管理视图。平台主要功能如下:
(一)统一运维门户
机房统一运维监管平台的唯一访问入口,提供各个访问对象的自助服务系统的入口。统一运维门户为各部门包括部门领导、业务管理人员、运维人员、值班监控人员在内的各层用户提供个性化的运维服务,满足不同人员角色对运维要求。
(二)统一流程管理
统一流程管理主要对各运维流程进行管理,服务于包括运维人员、管理人员在内的各级人员,通过事件、问题等 ITIL 标准流程以及日常运维、安全管理等内部流程的梳理实施,规范了业务操作、投诉处理、故障响应、系统升级和需求开发等部门日常运维,实现了运维工作的流程化、透明化、知识化、标准化。
(三)运维及监控管理
机房监控包含:3D 数据机房、机柜管理、机房能耗、环境管理等资源的可视化功能。
提供可视化 3D 机房编辑功能,支持楼层、机房及机房布景等,无需修改软件程序。支持自定制机架并可通过可视化的方式定义机架上的设备。以全三维形式表现机房、机柜、空调、独立设备和架式设备,通过鼠标点击,在三维可视化环境中实现机房、机房子区域、机柜、设备和设备端口逐级进入和浏览。
采用 B/S 架构,可以利用浏览器直接通过鼠标实现三维系统的交互操作、访问和浏览。以全三维形式表现机房、机柜、空调、独立设备和架式设备,通过鼠标点击,在三维可视化环境中实现机房、机房子区域、机柜、设备和设备端口逐级进入和浏览。
支持环境监控系统、设备、应用的告警数据展示,在 3D 可视化环境中直观显示当前告警设备位置及告警信息。
(四)统一数据采集(接口层)
新建统一运维管理平台需考虑接口层的建设,要求今后按照需求实现跟其他系统对接,如与云管理平台接口、安全管理平台接口以及其他设备自带管理平台接口等。
平台建设统一的 IT 运维数据采集能力,面向 IT 系统整体实现统一采集、统一分发,并借助大数据平台能力进行数据装载和沉淀,支持快速适配,多源合并,多标签分离,多渠道输出,可视化抽取。
机房里面对各种设备运维,一般都是被动维护,出现问题,解决问题,不能提前发现问题,对相关风险进行预警。核心是不能主动预测、提前来发现问题,造成机房运维工作量大、效率低、效果差。
通过开发“机房统一运维监管平台”实现机房93台服务器、100余台网络设备、空调、UPS电源等设备完整、统一的可视化管理;实现机房运行和安全集中监控管理。提高了机房运维水平,提升机房的服务质量,加快机房问题处理速度,为企业数字化转型打下了良好的信息化基础。
作者单位:航宇救生装备有限公司