邓惠贤,彭 建,尚闻博
(1.国网信通亿力科技有限责任公司,福建 福州 350001;2.国网甘肃省电力公司信息通信公司,甘肃 兰州 730050)
云计算是现阶段比较流行的一种商业计算模型,计算机系统中分布着大量的计算任务,各个系统可以结合自身的需求进行计算力分析、存储空间优化,并提供多样性软件服务。随着云计算的不断发展,信息系统的基础设施变得更加完善,特别是在交付模式、使用模式方面,根据网络模式可以实现按需分配,具有很强的扩展性。云计算中主要包括三层的基本服务模式,分别为软件、平台及基础设施。软件作为云计算中相对成熟与完善的服务,在互联网技术的指导下,可以为用户提供一些特殊应用程序及软件服务方式。
为提升信息通信运维服务质量,“十三五”信息化规划中提出全面开展信息通信系统自动化运维建设,于2016年启动运维自动化顶层设计,并在此基础上鼓励电力行业各单位根据自身运维需求开展自动化巡检、合规性检查、自动化部署、资源自动化分配及一键重启等自动化运维支撑工具建设工作。电力行业对各单位未来三年面向作业层面的运维工具建设提出了更高要求。目前,通过管理平台和SG-ITOM3.0的建设,已经建立了较为全面的运维管控体系,实现了对基础设施和业务系统的监控管理,但面向作业的运维自动化水平还有待提升,传统依托脚本或者针对某个具体运维场景进行成熟软件采购的运维自动化建设模式已经无法满足当前不断提升的运维精益化要求、新技术应用日益广泛的新需求。因此,开展敏捷化交付运维管理工具系统建设,以“强化安全、注重实用”为原则,逐步实现网络层、平台层、应用层及终端层等多层面运维对象自动化操作,促进运维工作从传统模式向自动化模式有序平滑过渡已经成为电力行业进一步提升信息通信运行保障能力的迫切需要。
目前,运维工作中存在8个问题。(1)传统人工运维方式无法满足信息化快速发展要求。目前的信息系统运维人机比率不均衡,运行人员压力沉重,传统的手工安装部署系统和人工对设备监控、操作的工作模式已经无法满足现在信息系统快速部署和高效运行的需要。(2)基础硬件老旧,故障频发,为信息系统稳定运行带来极大风险。(3)运维管理效率有待提高。日常运维管理工作模式基本采用人工加Excel的方式进行处理。资源管理、人员管理、厂商评价、2+1及端口治理等常规和专项工作耗费大量人力,因人员疏漏造成的工作返工问题频发。(4)基础资源监控分散。电力行业已完成各层级监控系统建设,并且普遍得到了应用。但目前信息的采集各自独立,信息管理分散,缺少全链条监控和运行日志大数据分析,无法全面了解系统健康水平。(5)基础平台标准化率不高。按照基础软硬件版本升级和标准化工艺专项工作安排,电力行业已逐步开展基础平台标准化治理,操作系统、中间件及数据库版本基本达到标准化。但仅完成版本标准化,无法支撑自动化工具的大范围应用,需进一步推动全平台的标准化,包括软件版本、安装路径及软件配置等。(6)自动化工具实施难度大。目前,已建和在建的主要自动化工具有自动化巡检、自动化部署、合规性检查及一键启停的功能,但由于基础平台标准化率不高、系统台账不共享及操作风险不可控等因素,工具实施难度大,进度缓慢。(7)微工具未有效整合。随着运维水平的不断提高,各重要信息系统运维效率也依托自主研发的小工具、小应用逐步提高。此类微工具具有专用性强、兼容性弱的特点,未形成通用自动化工具集。(8)电力行业统一建设大数据平台、全业务数据中心,大数据部分关键技术取得突破,但整体效果还有待提高,如全业务数据中心的运行效率、适用性、数据质量及数据管理等方面仍需进一步完善提升。
为尽快提升全网范围内IT运营的服务保障能力,电力行业有必要借鉴业界先进的IT运维服务管理理念,建立以客户为导向的IT运维管理体系,实现对相关IT系统的综合集中管理。自动化运维管理是一种以客户和业务为中心的管理方法,以业界公认的ITIL最佳实践作为指导规范。自动化运维管理既面向资源和应用,又面向各种人员,是集合人员、流程和工具的三位一体的系统。其中,人员是管理的主体,流程是运行规范,工具是流程运行的载体。本着三位一体的思想,IT运维服务管理体系将作为IT的重要项目进行长期建设,为规范IT日常管理工作、提高IT人员工作效率及切实提高IT服务质量打下良好的基础。
PaaS平台的特征为分布式、服务化、自动化部署、高可用、敏捷以及分层开放,并可与IaaS实现良好地联动。
PaaS的本质是服务化。软件模块重用、服务治理及对外提供能力是PaaS的本质。
PaaS的根本特性是分布式。多租户隔离、高可用及服务编排是PaaS的基本特性。
PaaS的灵魂是自动化。自动化部署安装运维、自动化伸缩调度是PaaS的关键。
调度层(iPaaS)是管理和运维能力层。
能力层(aPaaS)可提供实际能力的业务价值。
流量调度的接入模块(在两个相关的PaaS层之上)包括流控、路由、降级、灰度、聚合及串联等,还包括最新的AWS Lambda Service的小函数。该模块的部署应该与CDN相同[1]。
完整的PaaS平台会包括如下5个部分。
(1)PaaS调度层。PaaS的自动化和分布式对于高可用、高性能的管理。
(2)PaaS能力服务层。PaaS真正提供给用户的服务和能力。
(3)PaaS的流量调度。与流量调度相关,包括对高并发的管理。
(4)PaaS的运营管理。软件资源库、软件接入、认证和开放平台门户。
(5)PaaS的运维管理。与DevOps相关。
第一,先进性。根据全球IT管理业界提出来的指导性框架ITIL(Information Technical Infrastructure Library)V3.0基本管理体系,规范电力行业信息化系统运维管理工作,要求电力企业各个部门积极应用科学、规范的IT管理技术,并形成一流的安全管理模式及服务模式[2]。
第二,实用性。根据电力行业的实际发展情况,优化运营体系,以满足管理需求。通过实时的动态监控、检测业务基本能力、实施巡检自动化操作、完成操作调度及安全管理等,充分实现系统的功能。在此基本工作中渗透服务管理模式,可以在系统的一切信息化操作中形成统一的管理、监控及维护,对促进电力行业的信息化发展具有重要意义,并对提高平台的运营管理效率产生积极的效果。
第三,高效性。各个层面中,运维部门相关用户通过对自动化的运维管理平台的应用,可以更好地进行故障预警,并对故障进行迅速定位,便于及时了解故障系统的运行情况。此外,通过系统应用可以进行快速的工单处理、帮助寻求及运营情况分析等。通过多种功能的发挥和利用,提高解决故障的效率,并尽可能减少系统故障导致的损失,便于优化运维系统的基本流程,对充分提升工作效率与管理水平具有重要的价值。
第四,扩展性。在管理及业务的不断发展下,自动化的运维管理系统因具备灵活、迅速的配置方式,拓展了其管理范围,在整个电力行业信息化系统中得以广泛应用,实现了对全网的统一监控、统一维护及统一管理。根据相关报道,该系统已经渗透到电力行业信息化管理的各个环节,并发挥着重要的作用,对重新优化系统功能、实现系统科学配置有着重要的意义[3]。
第五,规范性。推广自动化的运维管理平台的过程中,需要严格采取关键指标,并在关键流程的指导下统一关键功能,要尽可能满足全国统一的基本要求;结合各地的基本情况,积极完善相关指标体系;在服务管理模式中进行科学地细化,不断规范运营管理体系,提高系统运行的科学性与规范性。
第六,安全性。在自动化的运维管理平台构建中,要不影响基本系统的功能,并确保业务系统得以顺利运行。这是进行系统管理与建设的重要原则,也是最基本的前提条件。
第七,合规性。在自动化的运维管理平台建设方面,要充分考虑到我国电力行业的发展要求与相关标准,了解各级管理条例,结合电力行业发展的实际要求,加强对相关信息系统的控制,通过实施科学的审计工作来满足该原则。对于任何一个系统的建设与应用,都需要充分考虑到行业基本发展要求,必须要在合规基础上进行工作。
随着运维规模的扩大,运维工具数量、种类也大幅增加,运维工具本身的管理成为必须面对的问题,需要统一集中的运维平台支撑。PaaS平台具备广泛的兼容性,可纳管全面的IT设备和系统;具备与现有运维工具集成的能力,对过往投资保护;可灵活扩展到更多运维场景,而不增加平台维护成本;具备向数据化、智能化演进的可能性,满足长期建设要求;场景可由实际使用者根据自身使用需求提出并建设;发挥多方积极性,各取所长[4]。
本文分析了目前运维管理系统的现状及存在的问题,提出了基于PaaS的自动化运维平台的解决方案,重点分析了电力行业实施PaaS的背景及意义,探索建立PaaS的自动化运维平台的设计原则。