张彦萍
(国能神东煤炭集团有限责任公司信息管理中心,陕西 神木 719315)
集中运维指挥平台实现对各方面IT基础资源数据采集、性能状态监控、拓扑展现及配置项管理等功能,是建立在搜集到详细的项目基本信息的基础上,包括信息详细、完备的基础资源调研表、设备档案卡、相关接口文档和其他项目材料等,同时被监控的设备及资源需要支持SNMP、IPMI等相关协议。通过集中运维指挥平台可以建立集中的 IT服务综合管理系统,实现其IT资源系统性能的集中展示,实现主动监控、自动更新、自动流程管理,以降低运维成本,提高运维效率。
神东公司的生产经营活动越来越多的依赖于IT技术管理,IT技术的管理运维对集团的生产和各项业务的开展起着至关重要的作用。而一旦一些关键的应用系统、网络设备出现硬件或软件故障,企业的生产经营将产生无法预估的损失,势必给公司生产作业带来重大影响。因此,合理的规划和建设神东煤炭集中运维指挥平台,已成为公司发展的重要任务。集中运维指挥平台已是IT基础资源资产监控与运维等业务的有机组成部分,加强对IT资产的管控能力,提高运维工程师整体服务水平,优化传统的运维管理方式,从而保障神东生产业务的连续性和高效性。
本项目结合国内外先进技术,定制化开发公司集中运维指挥平台。其主要是为了实现对神东公司信息管理中心的IT基础资源资产的监控与运维等业务功能,集中运维指挥平台实现目标主要体现在以下3个方面。
实时掌控:能够实时掌控IT可管理资产的可用性与容量是否处于稳定、合规的状态,结合本单位实际情况,将IT运维最佳实践-ITIL逐步落地,提升整体管理水平。
合规性目标:对IT资产进行全生命周期管理,了解IT资产的使用状况与相互作用关系,为IT部门提供整体管理视图,实现合规性管理目标。
快速响应:实现事故处理标准规范化,提高对故障处理的响应能力,改善故障处理响应的资源配置,实现高效快速响应。
集中运维指挥平台基于B/S架构,是一套容易部署、便于操作、其灵活开放的设计能够适用于各种数据监测需求的系统,并内置了多种运维管理辅助模块,将复杂的事情简单化,手动的工作自动化,无序的工作规范化,提供良好的可视化效果,包括交互界面、拓扑效果和故障捕获效果。支持对网络设备、无线设备、主机、数据库、中间件、应用、虚拟化、存储、机房等统一的监控、告警以及报表管理,并实现各 IT资源的相互影响分析管理及联动。所有资源、拓扑图都需支持自动巡检,并生成巡检报告,实时接收系统告警信息、查询各监控对象运行状况。
集中运维指挥平台以数据基础信息维护为根本,采集监测资产的状态、信息,将设备与组织人员纵向关联,统计分析后,以可视化的图形、图标展示给运维人员,帮助其快速处理故障。进而提高运维的质量和效率,提高企业的IT服务水平和服务质量,是IT运维人员对运维产品的最佳选择。
单点登录平台对接:单点登录通过URL携带用户凭证信息,自动认证后进入目标系统,要实现单点登录,须确保目标系统与门户系统用户信息的一致性。对已建系统,要求维护门户用户与目标系统用户对照表,对于新建系统,要求使用门户用户中心提供的用户、组织信息构建本地用户模块,并确保用户信息与门户用户中心保持一致。
动力环境系统对接:中心机房是整个信息系统的核心部分,为保证计算机系统和通信网络的安全正常运行,与之配套机房的动力、环境、消防以及保安系统必须时刻处于正常受控状态。对机房进行实时集中监控,及时发现存在的隐患,做到少人直至无人值守极其必要。
动力环境系统的对接需要厂家提供完整的接口对接协议,通过运维平台对动力环境监控平台的数据再次处理,集中展示。
告警推送对接:系统告警信息支持邮件、短信、企业微信推送的方式。①邮件告警——需要对接企业邮件服务器,配置发件箱信息,收件箱列表,将告警信息通过邮箱发送至各个管理员邮箱中;②短信告警——需要对接短信平台,通过告警平台,配置发件人信息,收件人手机号码,通过短信平台发送至管理员手机;③企业微信推送——对接企业微信接口,发送给企业内部用户(需企业微信提供相关接口文档及足够的权限)。
在本系统中,因平台部署在神东公司网络范围内,其中物理安全、网络安全、主机安全由神东局域网安全机制来保障,平台负责应用安全。
本平台在设计及开发方面的相应控制点上做了相关控制机制,具体如下。
身份鉴别:应用系统通过神东单点登录平台对登录的用户进行身份鉴别,系统内用户会被管理员赋予相应的权限,以确保可登录系统的合法用户在规定的权限内进行操作。
访问控制:在应用系统中实施访问控制是为了保证应用系统受控合法的使用。用户只能根据自己的权限大小来访问应用系统,不会越权访问。
数据安全:平台通过神东煤炭集团公司现有备份系统进行数据备份,通过设定备份策略,保障数据的完整性和安全。
公司集中运维指挥平台主要有18个功能管理模块组成主要包括业务管理、无线设备管理、网络设备管理、资源管理、告警管理、门户管理、日志管理、IP地址管理、虚拟化管理、存储管理、自动巡检、端到端故障排除、机房管理、机房对接、配线管理、网络配置管理等模块贯穿于整个设计之中,加上定制化的主页设计,整个系统架构设计以简化IT信息化运维,提升运维管理能力为目标,实时监控告警,运维处理,保证公司生产经营稳定、高效运行。
业务管理:提供业务分析与健康度评价。实现以健康曲线、雷达扫描等方式呈现整体信息系统运行水平;提供图形化端到端业务拓扑;提供基于业务系统的容量分析报告;提供业务系统总容量效率;展示CPU、内存、磁盘总容量和实际利用比例;统计平均利用率、利用率峰值、利用率波动等。
无线设备管理:提供无线设备监测管理;提供统一监测列表;提供图形化方式展示;支持无线设备的可用性监测和容量监测。
网络设备管理:使用SNMP监测交换机设备;支持网络设备的可用性及容量的监测;支持网络设备的告警管理,设定重要监测指标的告警阈值大小,显示设备告警状态;支持网络设备的拓扑管理并展示相关设备状态。
资源管理:可支持对网络设备、无线设备、主机、操作系统、数据库、中间件、应用、存储、虚拟网络、虚拟化、机房的一体化管理,收集状态、性能、配置、信息4类指标。当系统出现性能问题时,系统可对部分资源进行重点关注和性能调优,以30 s、60 s为频率进行实时数据监控分析,并且以动态心跳图的方式呈现。
告警管理:系统具备统一的告警管理平台,运维人员可通过客户端、邮件、短信、微信、企业微信等方式了解告警,可针对资源、阈值、业务等内容进行告警,并提供故障分析。支持灵活业务定制告警级别,支持持续出现、重复发生以及超过规定处理时间仍未解决的告警,自动升级该告警的告警级别,支持重复告警过滤。
门户管理:系统首页主要展示系统设备整体的运行状态、流程处理情况等统计信息。根据登录用户的不同,可展示与各自相关的内容。用户可在系统内定制个人首页显示内容。
日志管理:提供Windows日志和基于Syslog协议的设备日志管理,可实时展现按事件级别、按时间、按日志主机等维度的日志的统计和告警信息。支持日志检索,可通过关键字在海量日志信息中高亮显示搜索结果。
IP地址管理:支持设定基准表,可按照IP地址范围、子网掩码设定网段信息。IP地址可设置为分配、未分配状态。且分配IP时,可绑定IP地址的状态、使用人、地点以及部门等信息,并统计网段的分配率。
虚拟化管理:实现对虚拟化设备的监控和管理。结合虚拟化资源的分配、部署、应用情况进行采集分析;提供虚拟化资源拓扑图,能够对容量进行管理,从存储、CPU、内存等维度进行容量预测,提示进行虚拟化资源的扩容。
存储管理:实现存储管理功能;实现存储故障告警和统计分析。
自动巡检:提供智能自动巡检功能,自定义巡视路线和巡视规则。可巡检网络设备、主机、应用、基础服务、无线资源、虚拟化资源、存储资源、机房动力环境等;可基于单台设备可有多维度的设备运行状态评测机制。
端到端故障排除:提供端到端故障排查功能,可通过设定和用户端和访问业务端访问路径,自动生成从用户端到业务端的数据流视图;系统支持链路监控实现网络质量检测,能够测量UDP响应时间、单向延时、丢包率、设备连通性等多项质量指标。支持对设备接口的流量信息统计,且流量分析统计支持流入、流出、平均、最大、最小等的分析维度。
机房管理:提供3D仿真机房可视化管理视图,实现多机房管理。可对机房元素、机柜容量、能耗统计、温度洋流图、动环设备的管理及展示;可实现机房设计图直接导入3D仿真机房,快速完成对墙、门、柱、窗、家具、文字、机柜等3D模型的编辑;支持导入动力、环境、安防3D模型可关联机房动环数据指标,并在3D机房中呈现告警和数据指标值。
机房对接:实现和机房动力环境监控系统无缝对接,实现动力环境指标统一监控和告警。包括对温湿度、烟感、水浸、空调、风机、照明、粉尘、电流、UPS等机房环境信息的监控管理,获取实时数据并对异常数据自动告警。
配线管理:实现以视图方式展现综合布线的设备接口、信息面板、设备位置、管道、线路、配线柜、配线架、配线接口等关联信息;支持线路信息导入,实现快速梳理楼宇、房间、机柜、名称、类型信息的配线管理;实现基于端口的物理线路(光纤、双绞线)状态监测。
网络配置管理:具备对思科、锐捷、华为、H3C等主流厂家全系网络设备的配置备份管理功能。实现自动获取可管理设备的配置信息,同时进行备份操作。在设备发生配置变更时进行告警,执行配置恢复操作。支持设备配置集中管理以及设备软件智能升级。
集中运维指挥平台功能以设备监测管理为基础,配合其他运维服务相关功能。监测管理功能包含:网络设备管理、服务器管理、虚拟化管理、无线设备管理、数据库管理、业务管理、存储设备管理、中间件管理。另外还包括多种方式的资产管理、告警管理、报表管理、日志管理等。如图1所示。
图1 功能结构Fig.1 Function and structure
集中运维指挥平台技术架构主要包含数据层、功能层、展示层。技术架构图如图2所示。
图2 技术架构Fig.2 Technical framework
数据层:主要包含数据的采集和处理,实现对IT组件及其配置的识别,并形成具有逻辑关系视图的配置管理数据库(CMDB)和配置基线。
功能层:对数据层的原始数据进行处理加工,监测服务器、网络设备、业务、存储等资产的运行状态、性能,形成对企业、用户有用的信息,根据与阈值的比较,及时产生异常告警,较少企业损失。
展示层:把有价值的信息经过图形化的处理,统计分析,以更友好的方式展现给用户。
定制化开发公司集中运维指挥平台,将重要的IT资源实现集中管控功能,实现业务连续性访问、应用高可用和同步工作,定制化监控IT资源的软、硬件环境以及动态掌握信息变化情况,对系统、服务器和网络设备实现统一管理,建设公司集中运维指挥平台项目可改变传统的运维管理方式,形成新运维管理体系,使运维更加科学合理。通过该平台可建立集中的IT服务综合管理系统,实现其IT资源系统性能的集中展示。实现主动监控、自动更新、自动流程管理,以降低运维成本,提高运维效率。集中反映网络、系统、数据库和应用的实时状态,通过多种方式进行告警。建立集中告警分析处理机制和故障预警机制,当故障产生时,可进行故障快速定位,从而缩短故障解决时间,减少维护成本。对机房环境、动力等设备实现全方位的统一集中监控管理,提供可视化的监控画面,发现异常即可通过多种方式实现自动远程报警,确保系统的可靠运行,实现机房的科学管理。建立统一CMDB配置管理库,定期掌握配置项信息的变化情况,提高IT服务质量及人员运维效率,降低IT管理成本,提高客户满意度。进而推动运维管理体系、管理制度的建设和贯彻,逐步提升神东煤炭运维服务的管理水平。
经过对项目全过程的周密计划,将业务管理、无线设备管理、网络设备管理、资源管理、告警管理、门户管理、日志管理、IP地址管理、虚拟化管理、存储管理、自动巡检、端到端故障排除、机房管理、机房对接、配线管理、网络配置管理、自动化管理等模块贯穿于整个设计之中,实现了公司集中运维指挥平台的实时监控告警、运维处理、IT资源集中管控功能的落地,达到了项目预期目标,提升运维管理能力,保证公司生产经营稳定、高效运行。