构建数据驱动型IT场景化运维管理体系

2020-05-19 15:14裴力
中国信息化 2020年4期
关键词:运维驱动系统

裴力

一、项目概述

(一)背景

近年来,传统国有企业公司围绕“创一流示范企业”的要求,主动推动向高质量发展的经营模式、管理模式和能力体系转型升级,IT部门也在不断探索和实践适用于新态势下关键路径的IT支撑领域管理转型方法,包括统一的运维管理流程、运维管理模式、考核评估机制、运维管控标准以及配套的电子化支撑手段等。

通过分析发现运维部门基本采用的是传统运维模式下的纵向烟囱式的系统维度分工和横向分层式的架构维度分工两种管理体系,纵向型不利于运维深度,横向性不利于业务串联,无法适应在复杂的移动IT系统架构下高质量的运维保障,单纯根据运维经验来优化系统或消除故障的模式往往会带来响应滞后和判断偏颇的问题;面对复杂多变的系统架构以及纷繁多样的开源运维需求,IT管理模式必须要向灵活精益转型,数据驱动型的场景优化模式才能提供准确高效的运维抓手。重点聚焦运维领域体制、流程、模式上的优化,特点是打造一套由运维数据驱动的联动运维管理体系实现IT系统的统一支撑。

(二)内涵

建立数据驱动的运维管理模式转型目标,需要通过自上而下的顶层设计,以管理理念的变革牵引组织结构的优化,以运营机制的转变推动管理平台的建设,最终打造成一套完整的IT运维联动体系,实现IT能级的整体提升。管理理念变革主要包含从传统经验指导到运维数据驱动的转化,从多而全的监控保障体系到小而精的运营感知体系的转化,从专属化应用运维思维到通用化建模运维思维的转化;组织架构的优化主要通过组建专业化精益小团队和专家委员会的深度融合打破原本纵向型保姆式运维责任人的传统体系,提升整体战斗力;运营机制上的建立场景化运维作战体系,实现统一标准输出和实践,通过作业管理平台和智能运维平台实现IT运维的显现化。

二、模式实施

(一)创建数据驱动型管理理念

自顶向下建立数据驱动的管理理念是构建整个运维体系变革的基石,其核心思想主要包含数据驱动、精益运维、通用化应用运维三层。

1. 构建数据驱动思维

针对系统运维数据进行整理归类成7类数据,包含日志、指标、告警、热点、预警、问题单、事件单,对该部分数据进行采集、录入、汇总,结合监督算法和规则定义对系统及业务健康度进行动态分析,指导系统优化、故障定位、扩缩容、专题攻关、风险预案制定等五项运维工作。

2. 建立精益运维思想

转变传统运维观念,建立精益运维思想,关注告警、监控、指标三大运维感知体系,从大而全向小而精转型,对于系统运维工作这些感知数据不单单是故障抢修的提醒更是指导系统优化的有力抓手;

实现告警压降,分析高频告警,调整告警模式,减少无效告警产生;设置规则库实现个性化屏蔽功能;研究告警关联算法,分析告警产生频次及关联度,调整告警脚本,提升告警有效性,实现精益告警的目的;

构建精品大屏,根据业务流、系统流、数据流制作精品大屏,聚焦核心环节,利用流量探测、插码技术、自动探测手段实现从系统健康、业务关键节点、数据流转状态等全方位的信息覆盖,同时调整数据轮循策略,利用概览图和浮标实现关键信息的一屏展示;

实现一键运维,系统的可用性是衡量运维水平的重要指标之一,故障发生期间快速的恢复对外的响应是IT运维条线主要职责,聚焦关键操作,通过脚本化编排实现系统快速应急处理的一键运维功能,大幅提升故障处理的效率,减轻运维故障所带来的压力;

实现指标提质,分析运维数据,明确指标类型,分析影响因素,增设权重,不断深入挖掘指标的价值,构建核心要素指标矩阵,运维人员通过关注该矩阵可以基本准确定位系统或业务的运行状态,快速实施预案或策略。

3. 树立通用化运维理念

专属化向通用化转型:IT应用传统运维模式为纵向型的以单一系统为维度开展的系统责任人制,关注于应用本身的运维,人员专属性强,如遇应用系统责任调整,需要较长时间来适应,应用逻辑框架随业务转型迭代迅速,运维经验往往缺少沉淀和套路,通用化转型思路主要针对应用系统进行层级模块化的拆分,关注成熟模式的打造和优化。

(二)建立场景化运维组织结构

组织结构优化分成两段演进模式,第一阶段,调整运维大班组分工模式,成立多支专业化小团队,包含核心应用组、安全组、基础设施组、机房施工组织、网络运维组、数据库运维组、运营管理组,每组形成3-5人的运维规模,组内人员形成能力互补、责任共担、独立考核的工作模式;构建专家委员会形成标准化输出辅助IT建设和运维。

第二阶段逐渐向专家池化模式转型,池内专家根据场景化运维需求成立虚拟团队,增加运维灵活性和专业的全面性,注重过程技能沉淀和流程固化,加深融合整体提升运维效能,保障人员稳定。制订运维专业化人才培养方案,针对10类池化专家角色设置不同的培养课程和认证要求(包含WEB层、DBA层、安全层、基础软件层、开源软件层、接口层、存储层、网络层、高可用层、质量管控层),配套开展内部、外部运维专家培训和认证,切实提升员工对于数据驱动型场景化运维流程的掌握程度。

(三)打造联动运维运营机制

联动运维运营机制的打造需要从平台、人员、流程三方面进行整体规划构建。平台建设方面通过作业管理平台和智能运维平台实现运维显性化,数据的汇聚和分析为后续数据驱动提供基础;團队组建方面实行场景化作战模式,根据业务场景选派合适技能人才形成虚拟团队联合作战;在流程方面构建数据、监控、指标、规则、自动化为一体的联动运维体系,形成固化有效的运维套路,保障系统的稳定。

1. 运维显性化建设

建设作业管控平台:制针对巡检、变更、文档、任务跟踪、故障、质量、创新、告警等运维任务及文档统一收敛、编码,并上传到作业巡检管理平台,文档的集中化录入和存储有利于运维信息互通;针对于巡检类作业,统一标准和异常处置的流程,并通过平台实现“录入-处置-审核”的跟踪闭环。构建智能运维平台:将运维数据集中录入到智能运维分析平台,通过机器学习和数据统计制定出辅助策略帮助运维团队进行决策,日志报错、耗时、指标异动、告警明细可以及时的反馈出当前业务及系统的健康状况及时作出反馈,热点、预警、派单等数据可以较为准确地定义本周期的运维焦点。

2. 打造场景化作战模式

场景化作战以组建虚拟化小团队的模式开展。场景化虚拟团队结构包含WEB层、DBA、安全、操作系统、开源软件、接口层、存储层、网络层、高可用层、质量管控层十个专家组,同时设立专家委员会,专家委员会提供12份标准建议协助虚拟团队进行场景攻关,包含非功能性标准、监控指标模板、安全审计规范、数据库参数配置规范、系统参数配置规范、运维手段配置规范、开源软件标准、设备基建入网标准、网络配置规范、备份配置规范、存储配置规范、上线发布规范。

3. 建立数据驱动的联动运维体系

数据驱动型联动运维体系涉及14个关键步骤,数据整合录入,通过算法实现数据驱动的运维热块定位,构建运维场景;通过专家委员会对场景特点的评估组建团队,分别从系统架构、数据流程、业务流程三方面进行梳理;配置关键点监控告警,定义核心要素指标;定义运维决策规则;编写运维应急脚本,实现场景-规则-处理的联动执行体系,根据执行的效果进行再跟踪和运维数据的再评估,形成PDCA循环优化。充分提高运维准度和效率,推进高质量运维系统的建设。

(四)推广性

该运维体系适用于负责IT系统建设、运维管理的组织。通过建立数据驱动的场景化运维管理体系,可以有效提升运维效率、增强运维人员专业深度,组织结构也将更适用于运维团队稳定运营和灵活变通。

总之,只有形成了良好的运维管理体系才能够为各项运维管理工作的开展提供良好的支持。文中提出的数据驱动型IT场景化运维管理体系可以为运维管理工作的改进提供有力支持。

作者单位:中国移动通信集团上海有限公司信息系统运营部

猜你喜欢
运维驱动系统
探讨问题驱动教学法在高中数学教学中的应用
一种无人机缓冲系统
品“助读系统”之妙
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
直扩系统中的窄带干扰抑制
直扩系统中的窄带干扰抑制
AMD VS微软 SSD的AHCI驱动选哪家
电子政务甲方运维管理的全生命周期