◆阮晓龙 许成刚 刘明哲
智慧校园统一运维监控服务平台的设计与实现
◆阮晓龙1许成刚1刘明哲2
(1.河南中医药大学网络信息中心 河南 450000;2.郑州泰来信息科技有限公司 河南 450008)
统一运维监控服务是智慧校园建设的重要环节,同时也是智慧校园信息化基础设施稳定持续运行的重要保障。通过收集统一运维监控服务的建设需求以及对建设意义的了解,本文详细介绍了智慧校园统一运维监控服务平台的设计与实现过程。
智慧校园;运维监控;系统架构
随着近年来信息化技术的迅速发展,IT运行环境日趋复杂,运行监控工作难度加大。尤其是随着学校智慧校园建设的不断深入,信息系统越来越多,业务系统越来越复杂,服务的关联度也越来越高,数据处理量成倍增长,IT 系统运行环境变得更加复杂,这就造成了机房管理、设备监控、业务监控、运行维护工作十分困难的局面。
虽然部分信息中心各科室已有各自的监控管理手段,但缺乏一个集中、统一的运维监控平台,无法及时发现与解决服务器、网络、安全设备、操作系统、网站、应用系统、Web服务器、数据库、中间件等突然出现的问题。怎样良好地解决以上问题,把各种类型的监控对象进行统一集中监控、统一集中展示,将其数据标准统一规范,并对其有效处理、分析,以直观的界面展现给各层次运维管理员、管理层和决策层,成为目前面临的最大挑战。
运维一般指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。运维监控是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬件监控、网络环境等)、IT业务系统等实现监控管理。随着信息化进程的推进,运维监控服务将覆盖整个组织,其平台涵盖所有内容,除了传统的运维,还拓展了业务运维和日常管理运维,其参与对象也从IT部门的工作人员,拓展到组织的管理层和各部门。
运维监控能及时进行故障预警,降低设备业务的宕机风险。运维监控可对设备、业务、机房环境等运行状态进行记录与智能分析,当确定设备、业务、机房环境出现异常时,将通过电子邮件、短信、微信等方式及时告知运维人员,极大地减少宕机时间,有效地降低业务损失。
规范IT运维工作流程,提高运维服务工作质量。运维监控可对运维人员工作中的事件、变更、巡检等流程重新定义,做到事件快速响应,变更高效处理,巡检定时执行。结合SLA(服务等级协议)的制定,规范服务流程响应时间,确保运维服务高效可靠。
为IT投资和运维决策提供详尽的数据支持,全面提高决策的科学性。运维监控可进行多角度实时数据采集,并进行分析形成报表,以形象直观的方式展示数据分析结果,帮助运维人员从不同角度了解设备运行状态。
(1)实现全功能运维
构建智慧校园统一运维监控服务平台,建立高度集中的运维服务体系。
(2)实现全体系监控
实现从访问网站的用户行为,到网站运行与性能状态、网站域名,到支撑网站运行的Web服务器、数据库、服务器,再到交换机、路由器、防火墙、入侵检测以及机房动环暖通的全体系监控。
(3)实现全周期管理
实现资产采购、验收、使用、维修、报废、处置的全生命周期管理,实现事件提交、委派、处理、解决、关闭的全过程管理,实现变更提交、审核、委派、实施、完成、关闭的全流程管理,将设备资产管理与设备运行监控统一整合,进一步强化资产与设备管理。
(4)实现全方位分析
通过故障预警及时发现设备的异常,通过运行报告分析业务周期性运行情况,通过监控分析、性能分析对业务进行多角度评估,通过关联分析、对比分析对业务的潜在风险和性能隐患进行深度透视。基于多层次多角度多方位的数据分析,为业务系统保驾护航,全面提升业务的安全性可靠性,有效降低管理成本。
(5)实现全终端支持
贴合“互联网+”时代下运维工作新特性,所有功能通过Web方式实现,完全遵循HTML5新规范,支持桌面PC、笔记本电脑、平板电脑、智能手机的无障碍访问。创新性的将APP、微信与平台无缝整合,进一步提升工作体验。采用响应式Web技术完美适配任意比例拼接屏/监控屏,打造精致的智慧校园统一运维监控服务平台。
智慧校园统一运维监控服务平台作为学校未来运维工作的核心支撑系统,需要系统本身具有高可靠、易扩展、易维护等特点,并且在系统功能应用上要具备一定的技术先进性和实用性。所以,本次方案设计遵循以下设计原则。
(1)先进性
平台注重先进性和实用性的统一,以实用为目的,合理选用各类成熟、先进技术。在体系结构、功能算法等诸多方面都采用先进的计算机技术和理论,体现应用功能的实用性。
(2)可靠性
在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够7*24安全无故障运行,并有很好的容错功能;对IT资源的监测应保证不影响相关设备和系统的正常运行,实现最好的响应效率及最小的资源占用。
(3)安全性
注重安全方面的设计,确保统一运维监控服务平台的稳定、安全运行。系统要保证数据的安全,不会增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。
(4)开放性
采用符合国际国内标准的通用协议,为实现与其他系统监控软硬件互联或接入本系统进行监控的功能提供接口,支持各种主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。
(5)扩展性
平台需具备很好的扩展性,能适应不断发展的业务需求。随着IT资源种类和数量的扩大,平台也应能适应新的系统对IT运维管理的需求。平台具备高度集成性,可以和第三方产品进行集成,进行功能扩展。平台提供开发工具和接口,方便其他监控系统的集成和统一管理。
逻辑设计,如图1所示。
图1 逻辑结构图
顶层设计,如图2所示。
图2 顶层设计
智慧校园统一运维监控服务平台包含设备监控、业务监控、运维服务、数据挖掘分析4个部分,4个部分主要实现的功能如下。
(1)设备监控主要实现机房服务器、虚拟机、交换机、路由器、防火墙、VPN、负载均衡、温度、湿度、漏水、UPS、空调等设备的运行状态监控与性能分析。
(2)业务监控主要实现网站、应用系统、Web服务器、数据库、文件传输服务、电子邮件服务、域名解析服务等业务的运行状态监控与性能分析。
(3)运维服务主要根据IT服务管理国际标准(ISO2000),并结合ITIL最佳实践,实现服务台、事件管理、变更管理、资产管理、巡检管理等IT运维服务管理。
(4)数据挖掘分析主要实现基于设备监控、业务监控的业务画像分析,实现设备、业务故障预警的快速定位。实现运维监控数据的自定义大屏幕展示。
(1)服务器监控
支持通过PING、SNMP、IPMI以及SNMP Trap四种方式获取服务器的运行性能数据,实现对不同厂商、不同操作系统的服务器设备进行监控。
(2)网络监控
支持通过PING、SNMP以及SNMP Trap三种监控方式获取网络设备(如交换机、路由器、防火墙、VPN、负载均衡等)的运行性能数据,实现对网络设备进行监控。
(3)环境监控
支持通过SNMP监控方式获取基础环境传感器的运行数据,实现对基础环境进行监控。
(4)拓扑管理
支持标准拓扑、实景拓扑、和弦拓扑以及树形拓扑四种拓扑结构展现方式。标准拓扑可简洁直观的展示出设备与设备之间的关联关系,了解设备的网络架构。实景拓扑可通过实景内容的展示,直观的掌握设备所在的位置信息。
一网络节点看到与之直接连接的节点的基本信息。树形拓扑可直观的查看出该拓扑中的层级关系,以及节点信息、链路状态信息等。
(5)网站监控
1.2.3 将护理细节管理措施加强 通常情况下,儿科护理管理与其他科室的护理具有很大的差异性,护理对象为患儿,所以进行护理安全管理是十分重要的。在患儿入院就诊到接受治疗等各个环节,均要为其制定完善、细致的工作流程。如果属于重症患儿,便要对其进行全程检查,在此过程中还要对其进行全面监控。
网站监控基于HTTP和HTTPs两种协议类型,通过GET、POST、HEAD三种方式获取网站状态、GET状态、POST状态、HEAD状态以及网站的相关信息。
(6)数据库服务监控
支持MySQL、MS SQL Server、PostgreSQL、MongoDB、Redis、Oracle六种数据库服务器类型监控。
(7)Web服务器监控
支持Apache、Lighttpd、Nginx、IIS、Tomcat五种Web服务器类型监控。
(8)域名解析服务监控
支持A、MX、NS、CNAME、TXT、PTR六种域名解析服务类型监控。
(9)服务监控
支持TCP、UDP、ICMP三种服务类型监控。
支持Web服务台、APP服务台(含Android和iOS两个版本),轻松实现在线报修、在线咨询、查看进度、服务评价等功能,帮助用户快速实现涵盖全终端的运维服务体系。
(11)事件管理
支持对事件的委派、处理、关闭等操作及事件可关联资产和监控系统。支持按照自定义策略生成事件并进行委派,使得预警和故障等异常得到快速响应。
(12)变更管理
支持对IT运维管理中设备和业务的配置进行调整填写变更申请,并进行审批、委派、处理、关闭操作。变更审批通过后,支持依据策略的变更自动委派。在变更申请中可填写变更原因、验证标准、变更分析,变更可关联资产、关联监控。变更管理可提高变更审批流程的规范性,提升设备运维的安全性。
(13)资产管理
支持对资产类型、资产品牌、资产型号、使用部门、存放地点、资产供应商、资产合同、归属机柜、资产编号、资产二维码进行管理。资产可关联监控、关联联系人、关联合同,并可生成统一的资产二维码,建立内容详尽的资产档案。
(14)数据挖掘分析
数据挖掘分析功能基于集成业务和设备数据,通过内置数据分析模型、数据可视化模板然后创建灵活的能贴合应用的业务分析应用。支持自定义业务分析应用,可满足完全自主创建业务分析应用的需求。
(15)智能分析应用
智能分析应用是基于实际应用中一些关注度较高的典型应用分析,是运维人员习惯与经验的沉淀。
磁盘:集中展示系统中设备磁盘的总量、使用量、空余量、使用率、1周使用率变化趋势、1月使用率变化趋势,用以了解存储的使用情况。
处理器:集中展示设备处理器当前平均占用率,最近8小时、最近24小时、最近1周和最近1月的占用率变化趋势,用以了解设备计算资源的使用情况。
内存:集中展示设备内存总量、使用量、使用率,最近8小时、最近24小时使用率变化趋势,用以了解设备内存资源使用情况。
传感器:集中展示传感器的当前温度、最近8小时温度变化趋势、当前湿度、最近8小时湿度变化趋势,用以了解在该环境下各处温湿度情况。
网络接口:集中展示网络接口当前状态、接收和发送流量,最近8小时、最近24小时和最近1周的流量变化趋势,用以了解设备接口通信情况。
(16)故障预警
支持基于多个监控节点的数据分析,按照指定的预警规则进行预警分析,并以邮件、短信、微信等方式发送给相应的接收人。
智慧校园统一运维监控服务平台将监控指标分为基本监控、标准监控、扩展监控以及IPMI传感器监控四种监控指标分类。下面以服务器监控为例说明监控指标设计理念。基本监控主要展示设备的存活状态,适用于终端用户了解设备业务的可用性,标准监控主要展示常用的设备运行状态分析指标,适用于运维人员对设备运行基本情况进行分析,扩展监控主要展示设备性能分析指标,适用于调优人员对设备进行性能调优分析时使用。IPMI监控是针对物理服务器的监控,通过IPMI可将物理服务器温度、电压、风扇转速、电源、硬盘、物理内存等进行监控。
监控分类监控点监控指标 基本监控PING状态检测PING可用率 PING响应时间 PING包传输 PING包丢失率 PING往返时延 SNMP状态检测SNMP可用率 SNMP响应时间 系统运行时间系统运行时间 系统当前用户数系统当前用户数 标准监控系统进程系统进程数 CPU占用率平均CPU占用率 磁盘磁盘总体使用情况 磁盘总体使用率 分区使用情况 分区使用率 物理内存物理内存使用详情 物理内存使用率 虚拟内存虚拟内存使用情况 虚拟内存使用率 分页文件分页文件使用情况 分页文件使用率 SwapSwap使用情况 Swap使用率 网络接口网络流量 接口名称 接口类型 接口状态 接口速率 MTU MAC地址 网络接口状态网络接口状态 扩展监控PING高级监控PING响应时间 PING包丢失率 CPU占用率详情单个核心CPU占用率 CPU负载CPU负载大小 网络接口详情网络非广播包数 网络广播包 网络包丢弃数 网络包错误数 中断每秒中断数 内存使用详情内存使用情况详情 内存使用率详情 Swap换入换出Swap换入换出 TCP报文段传输 状态变迁 TCP连接数 TCP状态数 UDP数据报传输 IPIP数据统计 IP分段统计 IO磁盘IO 网络信息详情接口表 IP表 路由表 ARP表 IPMI传感器监控温度温度 风扇风扇转速 电压电压 电源功率 物理安全性机箱入侵监视 内存内存 磁盘磁盘
(1)架构安全
智慧校园统一运维监控服务平台采用层级化、模块化的方式进行架构,确保平台各模块之间分工明确、独立运行,又相互耦合、协同工作。从整体上来说,构建了四种工作内容各不相同的平台模块,分别负责解决设备监控、业务监控、运维服务、数据挖掘四类运维监控主体诉求,并且各个平台模块之间采取低耦合的模式,确保各项业务可单独部署,独立运行。同时,各个平台模块之间可模块化组合,以满足对不同应用场景的监控需求。
(2)通信安全
智慧校园统一运维监控服务平台各个模块之间通过标准接口进行集成,因此通信安全显得特别重要。智慧校园统一监控服务平台各模块之间的接口采用身份校验方式进行认证,认证通过后方可进行接口调用。另外,各个平台模块的接口支持校验身份的禁用功能,可快速处理接口异常,保障通信安全。
(3)采集安全
智慧校园统一运维监控服务平台的监控数据采集是整个平台持续稳定运行的基石,平台基于标准的SNMP协议进行数据采集,不需要在被监控设备、业务上安装客户端,也不需要对设备、业务进行编程,就能有效的保证被监控设备、业务的闭合性,提升被监控设备、业务的安全性。
(4)服务安全
智慧校园统一运维监控服务平台采用多种方式确保服务安全,平台内置标准而严格的权限体系,各个管理角色定位清晰,职责明确;平台支持访问控制,可对平台各个模块设置黑白名单,确保运维服务安全性;平台执行较为详尽的日志审计,对用户的操作、登录日志进行记录,确保用户行为可回溯。
(1)物理结构图(如图3)
(2)服务器清单与配置
序号服务器名称配置数量 1设备监控服务器CPU ≥2 核,内存≥4GB,存储≥300GB,网卡≥1块,USB接口≥1个1台 2业务监控服务器CPU ≥2 核,内存≥4GB,存储≥300GB,网卡≥1块,USB接口≥1个1台 3运维服务服务器CPU ≥2核,内存≥4GB,存储≥300GB,网卡≥1块,USB接口≥1个1台 4数据挖掘分析管理系统服务器CPU ≥ 2核,内存≥4GB,存储≥300GB,网卡≥1块,USB接口≥1个1台 5数据挖掘分析引擎服务器CPU ≥ 2*2核,内存≥8GB,存储≥500GB,网卡≥1块,USB接口≥1个1台
智慧校园统一运维监控服务平台的建设分为四个阶段,监控建设、运维服务建设、数据分析建设与系统集成建设。
监控建设阶段主要完成设备与业务的全向监控,实现从访问网站的用户行为,到网站运行与性能状态、网站域名,到支撑网站运行的Web服务器、数据库、服务器,再到交换机、路由器、防火墙、入侵检测以及机房动环暖通的全体系监控。
运维服务建设阶段主要完成运维综合服务平台的建设,实现服务台、事件管理、变更管理、资产管理、巡检管理等IT运维服务运维管理。
数据分析阶段主要完成运维数据综合挖掘分析系统的建设,实现重点业务的业务画像分析,实现设备、业务故障预警的快速定位,实现运维监控数据的自定义大屏幕展示。
系统集成建设阶段主要完成各系统之前的单点登录,实现各系统之间的统一身份认证,完成设备监控、业务监控与运维数据综合挖掘分析系统的接口对接,实现系统之前的数据推送,完成各系统之前的故障、预警信息整合,实现设备业务故障预警的智能分析。
(1)服务器监控(图4)
图4服务器监控
(2)交换机监控(图5)
图5 交换机监控
(3)虚拟化监控(图6)
图6 虚拟化监控
(4)环境监控(图7)
图7 环境监控
(5)在线报修(图8)
图8 在线报修
(6)事件管理(图9)
图9 事件管理
(7)智能分析(图10、图11)
图10 网站运行情况
图11机柜落位图
(8)网络拓扑(图12)
图12 网络拓扑
智慧校园统一运维监控服务平台建设完成后取得了一定的成效,并已在河南中医药大学、郑州师范学院等高校正式应用。实现了对河南中医药大学174台设备,514项业务的全面监控;确立了规范的故障预警机制,确保运维人员及时收到多种途径的故障预警通知;实现了标准的运行报告统计,周期性生成日、周、月、年的运行报告,方便运维人员了解设备健康状态;梳理了运维服务流程,确保学校运维服务高效进行,为广大师生提供更优质的服务;挖掘了运维数据的潜在内涵,制定500多套数据分析模型,全方位多角度的进行运维数据挖掘,为学校提供了科学的决策依据。智慧校园统一运维监控服务平台的建设初见成效,下一步希望建设智慧校园统一运维监控服务门户,实现对平台各个模块核心业务的抽取与重组,打通各个平台模块之间的界限,以服务为导向,重新定义运维服务体系,搭建更加人性化、智能化、集约化的运维服务框架,简化运维工作流程,提升运维服务质量。
[1]吴宇玲.大数据时代智慧校园中的教学改革[J].中国管理信息化,2017.
[2]黄成兵.大数据环境下高校智慧校园建设应用探讨[J].智能计算机与应用,2017.
[3]范小春,陆勇,陶亮.移动互联网络环境下高校智慧校园的构建研究[J/OL].金陵科技学院学报,2017.
[4]黄艳梅,廖银花.大数据时代高校智慧校园服务平台建设思考[J].山东工业技术,2017.
[5]周军辉.高职院校“智慧校园”建设的创新路径探析[J/OL].九江职业技术学院学报,2017.
河南中医学院教育教学改革研究项目(编号:2015JX06)。