构建高校数据中心监控运维平台研究

2018-06-20 11:18:38
陕西开放大学学报 2018年2期
关键词:数据中心运维服务器

(国家开放大学,北京 100039 )

一、引言

随着信息化建设的持续推进和发展,高校IT设备种类越来越多,虚拟化、云计算等新技术的应用,高校各种信息系统接拥上线,信息系统运行的网络环境和数据中心环境以及数据中心所能提供的运维服务逐渐成为高校信息化建设和管理的重要工作。数据中心所提供的的信息化保障工作关系高校各种业务的正常运转,一旦出现重大故障将对高校造成严重影响和损失。

保障高校数据中心正常运行,及时掌握数据中心软硬件运行情况,需要对数据中心进行实时监控及时发现数据中心运行情况。监控是为了及时掌握了解运行发现的问题,但如何快速解决数据中心运行中存在的问题是数据中心运维管理长期研究的课题。以信息化技术和手段解决数据中心信息化带来的问题是亟待研究解决方案。

二、数据中心监控运维面临问题

信息系统广义的软件生命周期人力和物力投入具有二八原则,即信息系统建设期占整个生命周期的20%、运维期占80%。信息系统建设完成后运行在数据中心。随着信息技术的发展,高校数据中心由原来的一两台服务器规模到近年几百台服务器规模,纯靠人工进行物理巡检解决问题的运维模式面临的问题日益凸显:

1.被动运维。 数据中心的传统运维管理模式是应用信息系统运维人员发现系统无法使用后,首先利用ping命令连接应用系统运行服务器,一旦出现ping不通的情况,运维人员将问题上报告给数据中心运维人员,经过排查无论是系统问题或者数据中心运行环境问题,一切的责任和问题解决都是数据中心运维人员进行解决。该运维模式,对数据中心运维管理往往处于被动,难以及时高效发现问题及解决问题。

2.工作效率低。 由于缺乏监控平台,应用系统一旦无法使用,运维人员首先要做的工作就是对问题进行定位和排查,应用系统故障往往不仅仅涉及数据中心,还有网络和系统本身的问题,故障及问题定位要运维人员的经验和技术水平。在问题解决的过程中,应用系统涉及相关的运维人员相互之间推卸责任的情况不在少数。纵使运维人员一起解决问题,涉及对问题处理的沟通、问题描述的不清楚等因素导致故障及问题解决耗时耗力。

3.工作量难以体现。 数据中心运维工作枯燥繁琐,虽然运维人员工作十分忙碌,但教职工经常抱怨“找不到人”、“解决问题太慢”等。缺少运维管理平台,运维人员每天的工作量难以得到体现和量化,很难体现数据中心运维人员工作的价值和意义。

三、监控运维平台建设必要性

搭建高校数据中心监控运维平台,梳理网络设备、服务器、虚拟化、存储等软硬件资源,实现对数据中心软硬件资源使用情况、运行状况进行监控并实时呈现监控情况。总结运维服务中存在问题,建立服务台与运维管理流程,增强信息化服务和运维管理手段。数据中心监控运维平台建设意义和价值:

1.主动监控,提高利用率。 监控运维平台可以实现对数据中心的实时主动监控,及时了解数据中心服务器、存储及网络等各种设备运行情况,比如对服务器CPU的监控,可以提升服务器CPU利用率,灵活CPU资源的再分配和使用,合理配置利用数据中心各种资源,提高数据中心资源利用率。

2.实现故障预警,风险前移。 对数据中心运行情况进行监控,建立灵活的事件管理机制、集中告警分析处理和故障预警机制,提前预警、快速定位故障,做到提前防范、防微杜渐。

3.变被动为主动,高效运维。 监控运维平台可以通过实时对数据中心的监控发现数据中心应用情况,可以提前处理告警事件,避免故障发现。针对数据中心突发的事件及故障可及时发现,利用知识管理模块可以利用已有事件、问题或者故障的处理经验和做法,可以极大的提供效率;而知识模块查询不到的解决方案,通过并通过运维管理工作流程启动处理流程,快速上报专业人员进行处理和解决问题。

四、数据中心监控运维平台设计

以业务系统为切入点,逐级呈现业务系统、网络拓扑、服务器及存储运行情况。通过对业务应用系统纵向呈现,运维人员查看其业务拓扑图,详细查看业务系统与数据中心运行设备直接的逻辑关系。通过业务系统一览表,以列表形式展现所有业务系统运行状态,直观呈现业务应用运行情况。

(一)系统架构

数据中心监控运维平台立足于提高IT软硬件资源使用效率、完善IT管理流程和手段、提升高校的IT服务质量,采用ITIL最佳实践理论,构建数据中心亟待的事件、问题等的运维管理流程,集中对数据中心的软硬件进行监控并对接口结果以图形化界面进行呈现。

1. 统一监控运维门户。 按照领导、管理和维护三种角色进入不同的个人中心,个人界面层面呈现不同的内容,可定制用户感兴趣的栏目以及相应的统计分析报表,查询相关流程处理进展和所有相关的事务、知识点和资产信息,亦可以设置提醒、已阅、待阅等对相关事宜的处理。

以上方法由厂家提出,但具体实施则需要进行论证,并采取进一步的措施。当前利用停电机会将相关保护装置掉电重启并手动复归信号,保护装置逻辑问题由于对设备正常运行影响不大,经所主管部门领导同意保护装置可以投入运行。

2. 统一视图呈现。 采用统一视图对数据中心应用系统及服务器、网络等各种软硬件资源的运行情况以图形化界面的形式进行呈现,建立视图的多个切入点,如:以应用系统为切入点,逐一深入点击查看应用系统逻辑架构、网络架构图以及服务器部署情况,从应用系统运维人员的视角进行监控数据页面呈现;以数据中心物理位置为切入点,一目了然情况数据中心服务器及网络运行总体情况,便于数据中心运维人员对数据中心硬件资源运行情况的实时掌控。

3. 数据统计分析。 数据中心运维情况处理用实时视图进行呈现,为了对故障、问题等运维工作的统计分析,以及数据中心一段时间周期内各个软硬件资源的运行情况,需要对监控运维平台的历史数据进行统计分析,分析应用系统、服务器、网络等各种资源的选定时间段的运行情况,并支持生产各种报表及报告,以便给信息化管理者进行数据中心建设提供依据。

(二)监控功能

监控平台建设完成中心机房及各分校信息点的网络、主机服务器、存储设备、等硬件设施以及应用系统使用与运行情况的集中监控和统一展现、分析。监控数据采集接口必须安全、标准化,同时不能影响业务系统运行环境参数,系统应能够支持无代理模式,如SNMP、WMI、TELNET、SSH、ODBC、JDBC、IPMI、SMI-S等接口将被允许使用。集中监控主要包括网络、主机服务器、存储、应用系统等方面的监控。

1.网络监控。 实现对高校各校区有线、无线网络的集中监控与告警,内嵌Visio绘图工具,通过SMNP协议自动发现网拓扑图并进行绘制与管理,集中对网络设备、IP地址等网络资源和配置的管理等,快速发现网络告警及故障定位,支持网络流量分析等功能。

2.服务器监控。 通过服务器监控功能模块,对数据中心运行的应用系统各类服务器进行监控,支持对Unix服务器、Window和Linux服务器等运行情况的监控。服务器运行数据的获取采用无代理模式,如SNMP接口协议。具体服务器运行情况的监控指标包括:CPU、内存、硬盘。为了更好呈现服务器运行情况,监控运维平台提供基于WEB的实时的图形化展示界面。

图1 数据中心监控运维平台系统架构

3.应用监控。 应用监控功能主要监控应用系统运行情况,包括应用系统的访问情况、故障情况以及系统部署架构等,通过监控实时呈现应用系统是否运行良好、以及帮助快速定位系统故障及问题,帮助运维人员快速恢复系统运行。支持系统模拟用户以WEB的方式进行登陆测试系统运行情况,进行客户的感受分析。

(三)运维管理功能

数据中心运维管监控平台的运维管理工作按照ITIL,结合高校数据中心运维管理工作急需解决的服务请求、事件及问题处理等实际需求。通过制定相应的运维流程,规范化、流程化数据中心日程运维工作,通过知识管理流程及知识库的建设,充分利用已有的运维管理经验,提高运维管理的效率。

图2 高校数据中心运维服务体系

1.服务台。 服务台提供数据中心运维服务的统一窗口,用户可以根据需要选择网页的自助服务和人工服务台。其中,自助服务台与知识库对接,用户可进行常见问题的查询与解决,以及基于网页的问题询问及远程解决。人工服务台主要依靠服务经理进行电话解决并记录用户的问题及服务情况,如能直接解决问题则解决后直接录入信息,并进行判断是否在知识库里是否有此类的问题,如果没有增加知识库内;如果服务台不能解决,则对服务请求类别分批解决优先级和服务类别,并发起相应的任务处理单,讲服务请求发送给相应的运维人员进行解决,并督促任务处理的情况,任务处理后总结经验,关闭任务单。

2.事件管理。 事件模块是用来规范和处理数据中心日常运维的告警、故障等工作流程,事件处理过程记录、推进和总结分析的过程,具体包括事件的登记、事件的分配、事件的方案记录、事件的升级和事件关闭等,为的ITSM事件管理提供坚实的技术支撑。详细功能有:事件信息的创建、修改和删除;事件进行分类和优先级分级;事件的流转,如事件的分配;事件自动分配到相应的支持角色和个人;支持对知识库的查询;事件单和其他运维管理流程的关联;对事件数据进行趋势分析。

3.问题管理。 问题管理以事件管理为输入,即事件难以一时处理,或者某个事件处理完毕后重复发生,为了找到事件发现的原因,启动问题管理流程。问题管理功能模块具有的详细功能:问题信息的创建、修改和删除;划分问题类别及问题处理的优先级别;问题的流转,如问题的分配;问题自动分配到相应的支持角色和个人;支持关联其他管理流程。

4.变更管理。 无论是服务请求、运维服务事件或者问题,往往最后解决涉及到数据中心软硬件相关资源的增加、更新或者更替,对数据中心软硬件资源的变动及管理尤为重要。变更管理主要在规范和约束资源变更流程及过程管理,记录变更的事由、变更方案及变更回退的措施等。变更管理功能模块的详细功能有:变更信息的创建、修改和删除;划分变更的类别及变更处理的优先级别;关联其他管理流程。

5.知识管理。 运维服务管理是一个监控、排查出问题,并不断解决问题的过程。问题的解决作为知识进行收集、整理并存放,不仅大大提升问题的解决效率,而且减少运维工作依赖个人能力解决的弊端。知识管理详细的功能包括:知识的收集与审核;知识的分类与存储;知识的发布与获取;关联其他管理流程。

五、总结

在云计算大力发展和运用的时代,高校具有内部用户多、物理位置集中等特点,以及各个应用系统和App软件的上线,数据中心建设越来越重视。通过对数据中心应用系统、服务器、网络和存储等软硬件资源的监控,实现高校数据中心自动化运维、规范化运维,为高校信息化建设提供稳定可靠的运行环境。运维管理工作不是一蹴而就,需要在实践中不断探索与使用,引用更好的实践应用进行完善监控运维平台,将主动运维服务变为自动自助运维服务。

参考文献:

[1]程志华,杨孝果,付雄.面向大规模云数据中心的轻量级监控研究[J].计算机应用与软件. 2017(6): 7-11.

[2]周伟.基于ITIL的浦东教育城域网运行管理探索与实践[J].中小学信息技术教育,2014(10):61-63.

[3]朱玉立,等.谈大数据时代下的数据中心运维管理[J].信息系统工程. 2015 (5): 101-102,106.

[4]马勇,等.数据中心IT设备可视化建模与监控平台技术研究[J].电力信息与通信技术. 2015(7): 61-64

[5]何秀全,等.基于ITIL 的高校IT 服务管理应用研究[J].现代教育技术,2011 (10):60-63.

[6]戚伟强,等.基于ITIL 的电力信息自动化运维体系研究[J].现代电子技术,2017(2):153-156.

猜你喜欢
数据中心运维服务器
酒泉云计算大数据中心
通信控制服务器(CCS)维护终端的设计与实现
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
能源(2018年8期)2018-09-21 07:57:24
民航绿色云数据中心PUE控制
电子测试(2018年11期)2018-06-26 05:56:24
杂乱无章的光伏运维 百亿市场如何成长
能源(2017年11期)2017-12-13 08:12:25
得形忘意的服务器标准
知识产权(2016年8期)2016-12-01 07:01:13
计算机网络安全服务器入侵与防御
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用