马文珍,张文飞,王忠花,王 婷
(国网青海省电力公司信息通信公司,西宁 810008)
国家电网信息化“十三五”规划期间,国网公司发布信息通信工作要点,要求各单位运维自动化工具推广覆盖率达100%。2018 年5 月,为推进信息系统运维自动化,落实国网公司186 发展战略和公司“十三五”信息化规划,有关部门提出关于加快推进信息系统运维自动化工作等有关要求。为了能够跟上时代发展的步伐,满足各项通知标准,需要进一步改进互联网技术运维(Internet Technology Operation,IT),通过结构化和非结构化数据、数据集成,基于数据关联和机器学习,实现信息化管理目标。
目前,很多电力公司信息通信系统设施种类繁多、组成结构复杂,在网络层面、存储层面、主机层面、数据库层面、中间件层面缺乏统一性,依然停留在半自动化、半人工管理上,自动化管理手段不完善。企业的专业运维人员对运维对象管控度不足,在日常巡检、故障分析、故障处理中,运维效率和处理问题效率非常低。分析企业实际运维现状,全面建设统一的自动化/智能化运维管理平台,有助于提升自动化运维水平。
结合电力公司信息通信体系现状,其主要的发展困境如下:①运维技术复杂、孤立;②缺乏快速响应并解决问题的方案;③超过 80% 的时间用于维护,而非创新。
为了实现自动化运维目的,本次自动化运维平台建设的目标设定为:①做好预测和预防,提前预测系统服务运行状况,防止发生中断;②使用事件群集降低用户系统的平均修复时间;③IT 和业务可视性检查,以便更轻松地协作,实时洞察用户系统IT、业务运行状况。
建设统一自动化/智能运维管理平台必须要打破传统运维体系的束缚,突破传统技术的枷锁。主要建设内容包括:①将结构化数据转变为结构化和非结构化数据;②将各种工具“精巧脆弱”的集成转变为健壮数据集成;③针对难以摆脱Faults和Traps 的情况,通过大数据获取实时价值;④将关注各个组件转变为关注整个业务/服务;⑤将基于搜索的分析转变为基于数据关联和机器学习的分析。
要建立机器大数据平台,应用程序中的多行日志,实现平台自动化运行。
平台通过分析大数据信息内容,对数据库工具编程开展设计,有效提高通信数据解析速率,将复杂信息简单化。同时,在数据库平台上融入系统维护技术,定期维护,优化数据仓库工具,建立数据存储框架,采集系统传输数据支持实时更新、修改。当系统发出数据采集、读取指令后,可通过预置接口获取数据信息。平台存储结构空间大,可实时更新数据,保证数据获取的精准性。
大运维体系建设要以机器大数据平台为基础,以数据管理为中心,采取相应控制、调度措施,将各项资源整合,从而保证整个大运维体系运行安全、稳定。主要建设体系内容如下。
3.2.1 物理资源层
作为整个运维体系的基础硬件,本设计提出的ORCAITOA 总体架构支持各种类型的机器,如服务器、网络设备、存储设备、安全设备等,可对各类设备硬件进行运维管理。
3.2.2 逻辑资源层
电力公司可以借助大数据平台,先建设物理资源、虚拟资源映射模型,这一环节可以将物理资源转变为虚拟资源,虚拟资源,包括存储资源、计算资源、网络资源。接着将这些资源整合,构建大运维资源体系,划分到大数据平台的数据库当中,可以提高IT 业务系统拓展性、调度性、分配性。
逻辑资源层建设需要注意两个方面:一是建设映射模型,切实反映各类信息资源的类型和特性,精准映射出物理资源、虚拟资源性能数据与拓扑指标的关系;二是实现接口标准化管理,统一规范、统一管理,这样即可在异构资源下实现信息的管理和分析。
3.2.3 虚拟化管理层
虚拟化管理层是大运维体系自动化管理系统的核心,融合了各项智能化技术,决定管理平台性能。首先,通信接口可以转发、接收数据,自动化机器具有学习功能,发现异常活动便会自动发出警报,此时相应模块及时调整异常、解决故障,避免服务降级。如果在检测过程中发生重大事件,就会对事件进行再分级,全方位预测停电与异常活动,根据预测内容采取相应措施,保证用户服务质量。其次,借助资源管理模块,整合分析各类异常数据,自动完成资源分配、管理、监视,实现统一配置。最后,系统平台管理模块带动虚拟机运行,使其自动完成启动/停止、备份/恢复等操作。
虚拟化管理层可以针对不同的数据情况、设备映射信息、智能优化管理流程,创建管理模式,从而实现统一的管理体系,减少人为因素的影响。再者,采用标准、通用的通信协议,统一通信接口、整合系统资源,可以让资源服务管理和内部资源、外部资源、系统程序交互。
3.2.4 服务管理层
用户是大运维体系信息化管理平台建设的重要对象,必须要注重服务。应通过完善制度、整合流程,让整个IT 业务运营更加标准化、效率化。服务管理层模板主要作用是采集信息资源,合理分配、科学调度所采集的数据信息,保证资源配置和业务需求间的协调性;结合用户信息采集和使用情况,统计业务需求量,再由系统自动判断服务状态,完成大数据平台资源的合理规划。
自动化系统根据数据信息情况,自动完成数据收集、统计、分析、分类存储,并生成报表,实时判断分析应用程序关键性能指标、趋势,减少了人工预判的限制,以真实数据作为判定标准更加准确。系统通过统计分析IT 环境数据,实时发出警报并解决问题,缩短平均故障间隔时间,快速恢复原有功能。
大运维系统可统计、分析网站或应用程序等IT 环境中的数据,了解用户使用模式和地理分布趋势,并确定最具分量的用户。通过用户的划分,掌握有效用户实际需求,针对性优化业务流程,为用户提供更加优质的服务。
大运维系统基于服务器和网络基础设施监控,提供针对端对端的网络运维分析,对错误事件、容量配置、服务器和网络元件安全性进行深入考察,监测操作系统,保证异构环境完整运营可视度,主动预防、管理Windows 和Linux 操作系统中的性能问题、意外事件、变更和安全风险,综合了解业务应用状态、资源消耗情况、处理能力等。
随着科学技术不断发展,自动化、智能化技术也更加成熟。为了推动电力产业发展、提高用户服务质量,全面构建信息通信大运维体系有着重要意义。完善资源管理制度、加强资源监控与业务协调性,可以进一步发挥大运维体系的作用。