IT系统自动化运维平台设计

2022-09-09 00:46刘帅
电子技术与软件工程 2022年14期
关键词:脚本运维可视化

刘帅

(中国电信股份有限公司山西分公司 山西省太原市 030001)

1 研究的目的、意义

“十四五”规划纲要提到:加快数字化发展 建设数字中国,以数字化转型整体驱动生产方式、生活方式和治理方式变革。国家数字化转型成为引领全面创新、构筑国家竞争新优势的重要战略,是我国从网络大国迈向网络强国的关键举措。作为数字中国建设主力军,中国电信牢牢把握历史机遇,扎实推进“云改数转”,充分发挥云网融合优势,服务各行业各领域数字化转型,赋智千行百业,培育壮大经济新动能,赋能高质量发展。

在各类IT系统逐步上云的背景下,大量繁重的基础运维工作仍采用手工方式开展,不仅工作效率较低,同时耗费维护人员的大量精力,导致在其他高价值运营工作中的投入不足。为了提升运维人员的工作价值,通过IT系统自动化运维平台研发项目,自主研发自动化运维底层平台,并自主研发和定制基础运维脚本,同时探索平台能力开发,将基础运维工作进行模板化、可编排、统一集成的自动化运维平台,降低运维成本,提高运维效率,将维护人员从基础运维工作中解放出来,为企业做更大的贡献。同时该平台将利用基础运维能力的编排,实现网络端到端可视化的展示,并直接运用于故障的判断、定位和处理过程中,降低故障处理时长、提高故障处理效率;该平台还将利用多平台的任务查询能力进行算法的可编排定制,实现用户数据的查询和比对,直接赋能客服及运维人员的投诉处理,提高用户的业务感知。

2 国内外研究概况、水平及发展趋势

外部:世界范围内,全球经济衰退,但是国内经济正在逐步复苏,中国很多企业都以这场疫情为契机,化危机为机遇,化风险为财富,开展自我深化改革,自我转型发展。

内部:开展各项变革,扎实推进网络强国建设,维护网信安全,深化企业改革,扩大对外合作,提升服务水平,拓展用户规模,推进企业高质量发展,向领先的综合智能信息服务运营商目标前进。

运维的发展趋势:运维自动化、智能化水平不断提高,云的发展对运维产生了一定的冲击性,使得云时代的运维工作迎来了发展新趋势;“双态运维”,一个是稳态,一个是敏态,一个追求业务稳定的发展,另一个追求迭代、快速、变化的诉求,于是将两种优势结合形成了研发运营一体化即DevOps,它的核心理念包括精益管理、敏捷等理论,通过持续交付、持续集成的工具链,还有一些轻量级的IT服务管理。

3 系统规划和开发技术

3.1 规划

自动化运维平台通过事件驱动的流程化,实现自动采集、分析、可视化等整体服务。基于开源底层工具Ansible封装搭建自动化运维平台,并将其进行微服务化的部署和注册形成底层能力,通过平台分权分域实现用户的登录及权限管理。基于Ansible自动化运维平台,对接入设备进行自动化运维管理,通过脚本的编排实现日常运维和复杂功能的实现。同时实现外围平台互通。提供服务能力。在现有的自研平台上,迭代数据采集编排模块,完成与自动化运维平台北向接口对接,实现以上数据的采集、入库、二次编排统计和可视化呈现。如图1所示。

图1:项目技术架构图

3.2 开发技术

3.2.1 Ansible技术特征

轻量级,无需在客户端安装agent,更新时,只需在操作机上进行一次更新即可。批量任务执行可以写成脚本,而且不用分发到远程就可以执行。使用python编写,维护更简单。支持sudo。采用SSH协议。Ansible的API,提供Ansible Runner工具模块。直接或作为另一个系统的一部分与ansible交互时(无论是通过容器映像接口、作为独立工具还是作为可以导入的python模块),它都会提供帮助。目标是为Ansible提供一个稳定和一致的接口抽象。如图2所示。

图2:Ansible工作机制

3.2.2 Tornado技术特征

轻量级架构、性能优越、速度快、高并发。异步非阻塞、内嵌了HTTP服务器、自定义模块。如图3所示。

图3:Tornado结构图

3.2.3 功能架构交互技术:

Ansible和Tornado都是基于Python语言编写的。定制化任务通过Ansible的playbook模块完成。普通任务可以使用shell和copy2个模块完成。Tornado架构程序通过调用Ansible Runner接口工具包与Ansible通信进行访问执行。举例如图4所示。

图4:Twisted架构用来接收客户端的监控数据并存入Mysql数据库

4 项目创新点及重点解决的问题分析

(1)通过搭建该平台,实现运用自动化手段解决重基础运维的日常重复工作,为企业降本增效。目前,各系统平台相互独立,日常运维主要靠维护人员每天登录设备、输入命令的方式进行重复性工作,所需日常数据或其他需求也是以此方式进行,存在效率低、易出错、响应慢等不足,同时也耗费了大量的人工成本。

(2)通过搭建该平台,实现各平台之间统一管理,实现联动。目前各平台运维相互独立,缺少统一管理,各个系统平台不能自适配数字化转型下业务发展变化的需求,灵活度非常低,造成业务性能的分析统计大部分通过“手工作坊”式的方式实现,难度大、运维工作效率低。

(3)通过python编程配合脚本的逻辑功能,实现各平台间编排能力。目前,各平台之间缺少编排能力,随着业务的发展和要求的不断变化,如果运维有新需求或者原功能有改动,需要多部门联动、发起相应流程、依靠三方厂商来实现,不但效率低、而且花费成本高。

(4)实现网络端到端的可视化运维。目前运维还存在缺乏网络端到端的可视化运维工具,无法直观的进行判障排障,当故障发生时,还是依靠手工加经验的方式来处理;运维在支撑用户服务方面,如查询用户数据,需要登录多平台进行逐个查询,也非常耗时耗力。

(5)实现可编排的数据查询比对工具。随着“云改数转”战略的逐步深化,集团“全面上云”要求的逐步落实,现有运维方式已无法满足新形势下的要求,急需一个自动化运维平台将运维人员从繁重的日常维护工作解放出来、将不断变化的需求编排能力掌握在运维人员手中降低成本。

5 系统功能

系统主要功能(如图5所示)。

图5:系统功能结构图

5.1 实现资源管理功能

平台对接入的主机资源、网络资源、应用资源等实现统一的资源管理,从接入初始就实现数字化管理;对任何时期不同主机的增加、减少、修改等均设置统一管理入口,方便管理。

5.2 实现权限管理功能

分权分域是任何系统必不可少的一项重要功能,本系统根据各功能设计划分小颗粒度的分权分域的管理,匹配账户的权限管理。权限管理还包括系统上线后,不同用户的资源管理权限、自动化运维任务管理权限、不同报表管理权限等待,真正实现谁的系统谁管理谁负责。

5.3 实现流程管理功能

系统将实现主机上线、资源配置、自动化运维任务上传审批、发布部署等不同流程的可视化管理。用户可以随时查看不同任务的及时状态,方便运维管理。平台还将实现复杂流程编排的审核流程可视化,将自动化数据配置、自动化应急预案启动流程进行可视化编排和展示。

5.4 实现API管理功能

系统将实现对外API接口能力,通过API管理功能,对API的更新、优化、升级、发布等实现管理。

5.5 实现脚本仓库功能

平台基于开源Ansible自动化运维工具。Ansible 是近年来越来越火的一款开源运维自动化工具,它拥有丰富的内置模块,几乎可以满足一切要求;它管理模式非常简单,一条命令可以影响上千台主机;它无客户端模式,底层通过 SSH通信;通过Ansible可以实现运维自动化,提高运维工程师的工作效率,减少人为失误,降低人工成本。如图6所示。

图6:Ansible基本架构图

维护人员通过自主编排运维脚本,将日常工作的查询命令和条件进行编排,即可自动定时完成,只有达到预设条件时系统才会提示需要关注。运维脚本的开发,即是运维能力的编排,几乎可以通过编排满足运维的所有需求。脚本仓库就是运维脚本的版本管理和实例参考的仓库,它将大大降低运维脚本编排的难度和工作量,真正让自动化运维更加简便。如图7所示。

图7:Ansible任务执行流程图

5.6 实现任务管理功能

在自动化运维脚本编排完成后,我们还设计了一个任务管理的功能,主要是区分同一任务多个脚本时谁是部署使用的版本、谁是历史版本;对任务的定时或其他特殊设置进行管理。

5.7 系统架构前后分离、实现对外接口能力开放

平台将采用前后端采用完全分离的开发模式,前端使用Web主流技术,以维护人的使用习惯为出发点布局和设计,后端以微服务的方式实现注册管理。

本平台还将平台具有的能力,通过自主研发,以API的形式提供给其他系统使用,提高整体运维可编排能力。

6 自主研发内容及实现业务场景分析

通过调研维护人员的使用习惯,根据实际生产需求,完成前端页面设计和开发调试,部署和调试自动化运维平台,并以微服务形式实现前后端各模块的注册和调用。

6.1 实现日常自动化运维

借助自动化运维平台,实现日常工作中需要的常规操作或任务查询的自动化,将原来每天或定期登录、查询、记录、判断等流程,缩短为脚本上传、查看结果。极大的减轻日常运维工作,让运维人员解放出来做更有意义的工作。

6.2 基于自动化运维实现端到端可视化检测及故障诊断

通过对运维脚本的编排,实现任意网络端到端的展示。对全程主机接入后,自主研发和编排自动运维脚本,实现全程端到端的网络监测和可视化展示,实现可视化判障排障,当故障发生时通过该平台直观定位到具体位置,通过自动化手段极大缩短故障处理时长。

基于此,可完成其他网络端到端场景运维脚本的编排,完成数据的采集和入库,并对采集到的原始数据完成二次编排的业务逻辑的开发,实现网络端到端的可视化、智能化;

6.3 基于自动化运维实现一键数据查询比对

完成投诉用户的数据查询比对的多平台数据查询脚本的编排,完成数据的采集和入口,并对采集到的原始数据完成二次编排的业务逻辑的开发,实现用户数据的智能查询。一键对投诉用户的数据进行查询判断比对,该功能将借助不同主机自动运维脚本的编排,来实现一键用户数据诊断,并结合实际判障经验进行功能的编排,实现一键判障,无需登录多个平台逐个查询数据比对。

6.4 探索基于本系统的对外接口能力开放

本次系统的开发,还将探索平台对外接口的能力开放,将开发一些接口可供第三方系统进行调用和展示、数据分析等系统直接调用通过API获取数据。

7 推广应用前景与范围

通过本系统可对运维方便实现降本增效,保障和促进业务发展的目的,可以结合更多具体业务场景和不同网络结构需求,实现可视化判障排障、实现任务智能编排。同时,基于获取到的运维数据进行数据分析和数据治理,可以为运维大数据和AI提供数据,为数字化转型战略提供数据基础保障。如图8所示。

图8:自动化运维平台演进路线

8 结语

随着信息化的全面推进,自动化运维必将代替之前的人工运维方式。之后我们研发的该系统必定会大放异彩,日常运维工作基本不直接接触生产,切实提升了工作效率、降低了生产风险、严控了操作流程。自动化做到事前全面防范、事中及时处理、事后智能分析,保障了信息系统这颗大心脏的稳定性,为集团快速发展保驾护航。

猜你喜欢
脚本运维可视化
酒驾
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
运维技术研发决策中ITSS运维成熟度模型应用初探
“融评”:党媒评论的可视化创新
数据库系统shell脚本应用
快乐假期
基于ITIL的运维管理创新实践浅析