尚 英,陈 武,童宇轩
(1.国网甘肃省电力公司兰州供电公司,甘肃 兰州 730050;2.国网信通亿力科技有限责任公司, 福建 福州 350001)
自动化运维作为一种创新的运维模式,结合了运维流程、平台系统、运维人员的基本能力、业务规划及业务建设。该系统可以解决重复性问题,并促进运维效率的提升,更好地确保业务安全性。
运维自动化技术支撑体系建设通常有4种模式,即分散建设、集中模式、平台模式、自助模式。这4种模式可以看成是企业运维自动化能力建设不断走向成熟的4个阶段,最终的目标是实现自助运维。
采用1(平台)+N(场景工具)模式的优势在于如下8点。(1)随着运维规模的扩大,运维工具数量、种类也大幅增加,运维工具本身的管理成为必须面对的问题,需要统一集中的运维平台支撑。(2)平台具备广泛的兼容性,可纳管全面的IT设备和系统。(3)具备与现有运维工具集成的能力,最过往投资保护。(4)在平台上可灵活扩展到更多运维场景,而不增加平台维护成本.(5)平台具备向数据化、智能化演进的可能性,满足长期建设要求。(6)场景可由实际使用者根据自身使用需求提出并建设。(7)发挥多方积极性,各取所长.(8)运维团队逐步具有较强的运维开发能力[1-2]。
运维自动化技术支撑体系继承ITOM3.0基础技术要求,业务功能全部覆盖ITOM3.0业务点,按“1平台+N场景工具”的思路设计,分为运维对象层、采集控制层、技术平台层、运维工具层、统一门户层及大屏展示层。总体技术框架如图1所示[3]。
对于运维对象层,即服务器、存储、网络、数据库、中间件、应用、业务系统及基础设施等运维对象。
对于技术平台层,由资源中心应用(统一CMDB)、作业中心应用、流程中心应用、数据中心应用、模型中心应用、监控中心应用、AI中心应用、集成中心应用、开发中心应用、agent控制中心应用,共10个中心组成公共支撑平台。中心内部可采用紧耦合设计,实现中心内部功能;中心之间采用去核心的分布式设计,实现分布式、扁平化的应用结构。
对于场景工具层,从资源管理类工具、监控巡检类工具、资源部署类工具、故障处置类工具、运行分析类工具、检修管理类工具、安全管理类工具、备份管理类工具及运维能力提升类工具等方面规划了9大类多个自动化运维工具,涵盖了主要的运维场景。采用平台模式,面向场景的工具建设是完全开放和不断迭代的,未来各部门、各专业可以根据自身情况新增需求,灵活开发配置所需的场景工具。
对于大屏展现层,提供大屏全景展示和三维可视化展示能力,实时反映各类信息系统运行状态,及时获取运维自动化各项操作结果,协助调控运行人员及时把控全局,为决策提供依据。
自动化运维技术支撑体系按照特点可以总结为“一平台、十中心、多场景、轻应用”。
图1 总体技术框架
Agent控制中心是整个平台的底层管控系统,是自动化平台所有其他服务的基础,是平台服务体系与用户机器的连接器。Agent控制中心是典型的两层分布式C/S结构,主要包含智能统一Agent,提供各种服务的Server。其中,Agent是部署在业务机器上的程序,每台业务机器理论上只可以部署一个;其他模块部署无具体要求,可以单独部署,也可以混合部署[4-5]。
整个自动化体系中,Agent控制中心没有直面用户,但Agent控制中心在自动化平台体系中却是不可或缺的,可为平台其他模块提供人机交互的通道与能力。
流程中心模块实现对日常运行、检修等运维管理流程的支撑需求,为运维管理工作提供流程流转、待办生成及任务分配等服务。流程管理需实现流程的设计、建模、模型测试、模型导入导出及浏览等功能。实例管理可对具体的业务流程实例进行查询、统计、分析,并可人工调整流程走向。业务对象管理应实现对业务对象的维护和浏览功能。用户任务管理实现相关人员发起、审批、查看、回退及作废流程等任务操作,并能够支持自定义功能。系统管理需包括日志管理、权限管理及数据备份等功能。流程引擎作为流程中心应用的核心,应实现业务流程定义解析、活动间的路由网关协调处理、请求处理和引擎自身调度等功能。统一流程服务主要实现与其他中心应用的接口功能。流程中心可对外提供可调用的流程定义列表、流程实例列表、即席查询功能列表及待办提醒等服务。
模型中心以智能模型为基础,用于实时分析运维对象的健康状态,并根据模型对运维对象的打分情况及时发出报警,同时基于机器学习的AI模型还可以提供运维对象健康状态预测。智能模型主要包括5种模型。第一,健康模型。该模型是判别系统是否健康的指标模型,通过一组符合指标计算百分制的分数,通过分数高低表示系统健康状态的好坏。第二,性能模型。通过负荷指标计算百分制分数,通过分数高低表示系统性能的好坏。第三,负载模型。通过负荷指标计算数据库的负载情况,负载分数越高说明系统的负载越高。第四,资源模型。该模型是运维对象对资源的消耗情况的动态模型。第五,容量模型。池化、云化环境的业务容量对应资源容量的模型,用于云环境的扩容规划、资源调度等场景。
集成中心模块通过提供API,统一以组件的形式对接企业服务总线。
开发中心提供完善的前后台开发框架、调度引擎及公共组件等模块,可以帮助用户快速、低成本、免运维地构建支撑工具和运营系统。
信息系统日常运行维护中,由于运维对象、运维操作、运维流程及运维角色的不同,存在各种各样的不同运维场景[6]。
某个运维对象产生监控告警后,系统可根据预先确定的规则执行某个应急操作(场景1=监控+应急操作)。
有些情况下,还需要进一步自动创建一个事件单(场景2=监控+应急操作+创建事件单,这里与服务管理流程进行了联动)。
如果满足预先定义的一定条件,可能还要求同时向一定范围的人员发送短信通知(场景3=监控+应急操作+创建事件单+短信通知,这里进一步与告警通知自动化流程进行了联动)。
对于运维工作,场景的特定性和灵活性是很普遍的。例如,应用升级或配置变更,每次实施的目的和内容往往不尽相同,可称为一个特定的“运维场景”。
2.2.1 补丁管理自动化场景
信息安全是IT运维管理永恒不变的主题。随着数据中心的规模日渐增长,大量系统和设备每月的大量补丁缺乏高效、稳定机制处理,在需要保证补丁最新更新的前提下,对应急补丁要求能够灵活快速响应处理。补丁管理通常包含5项操作:从原厂官方同步补丁信息和补丁文件;在本地数据中心进行补丁文件的清洗、处理和转存;从安全基线、服务器及补丁三个维度进行补丁实时发现;向有问题的系统或应用推送补丁,完成补丁升级操作;对补丁升级后的系统或应用进行持续监测,确保补丁生效后的稳定性。
因此,补丁管理场景=下载同步+清洗转储+监控+补丁升级操作+监控。可以采用自动化方式开发补丁管理工具,实现补丁更新工作管理,从权限颗粒化管理、自定义报表、服务器维度、补丁维度及基线维度进行补丁的统一更新操作,提升工作效率,保证业务平稳运行。补丁管理自动化工具如图2所示[7]。
图2 补丁管理自动化工具
2.2.2 资源交付自动化场景
资源交付是数据中心运维常见的运维场景之一。随着业务创新和用户需求不断变化,对于系统新业务快速上线,资源快速交付提出了更高要求。传统资源交付涉及多个环节,需人工创建,耗费时间和人力。
需要构建一套基于自动化的资源敏捷交付工具,将虚拟机创建、应用组件安装及网络策略配置等操作步骤串联到同一流程中,实现资源在线审批,一键策略下发和无人值守安装,从而实现信息化系统虚拟机资源的敏捷交付。资源交付实施过程如图3所示。
2.2.3 日常巡检自动化场景
随着信息系统复杂性和建设规模的不断增大,各种复杂设备对人的要求越来越高,信息系统健康巡检成为日常运维中工作量最大、重复性最高的工作。巡检工作是一项标准化、批量化的任务作业,非常适合利用自动化方式实现。
巡检自动化工具,通过对作业中心和配置中心相关整合编排,实现对广泛设备的健康巡检[8]。功能及逻辑架构设计如图4所示。
巡检任务返回的结果利用可视化技术,展示到Web页面或直接通过邮件系统发送给运维管理人员。
图3 资源交付实施过程
图4 巡检自动化功能及逻辑结构
第一阶段,构建强大的自动化基础技术支撑平台,实现统一采集、统一操作、统一资源、统一监控及统一流程;构建配置管理、性能监控、基线管理、日志分析、备份验证、数据拯救、应用发布及电子标签等一系列自动化运维工具。
第二阶段,健全完善运维自动化体系,实现自动化运维一体化管理;优化岗位职责,完善技术手段,强化运维数据分析能力,实现应用自动拓扑、故障自愈、预警管理,及全管理自动化,实现初步的应用管理自动化。
第三阶段,持续优化运维自动化体系,实现自动化运维智能化(AIOPS),实现IT服务价值管理;提升技术手段,建立运维智能学习、趋势预测,实现运维故障智能化处理、端到端的精益化运维管理。
通过运维自动化平台建设,可以大幅提高运维生产力,提升IT管理效率,提升管理、经济及社会等多方面效益。
关于管理效益,实现工作流程规范化,统一运维管理、流程与执行充分互动;实现故障分析智能化,能够提前预防、无人值守、智能判断与处理。
关于经济效益,通过运维自动化平台建设,提高设备资源利用效率,降低采购成本;提高信息运维服务工作效率,降低人力成本。
关于社会效益,通过运维自动化平台建设,为IT系统的安全、持续、不间断运行提供了有利的支持,提高了信息系统运行可用率,持续提升公司运维服务水平的高度,为信息运维服务提供全面支持;IT系统的稳定运行,可减少客户投诉,提升服务水平,树立良好的企业形象,提高企业品牌意识,更好地服务于社会大众。
本文总结和提炼出电力行业的信息自动化运维建设思路,主要包含自动化运维的基本框架体系建设、平台的逻辑设计及最佳的实践方法等。同时,本文分析了运维自动化建设效益。