强化“比”的意识锻造适应转型发展的“生产稳定力”

2020-10-21 13:03中国工商银行数据中心办公室
杭州金融研修学院学报 2020年9期
关键词:数据中心运维监控

中国工商银行数据中心办公室

我行信息系统的生产运维管理领域经过近几年的迭代建设,已经形成覆盖面较为完善、服务边界清晰、具有一定分析洞察能力的运维体系,总体已达到同业领先水平。但随着业务快速创新、IT 架构持续演进,运维复杂程度不断提高,信息系统的质量把控能力和快速部署能力面临新的挑战。数据中心认真贯彻“科技驱动、价值创造”的工作思路,运用“三比三看三提高”的工作方法,积极推动生产运维转型工作,提升生产运营自主把控能力,为全行改革和业务发展提供有力支撑。

一、对标分析,制定生产运维转型蓝图规划

为了更好地服务于智慧银行建设,积极应对开放化、架构转型等新变化,数据中心牵头联合软件开发中心、业务研发中心全面梳理生产运维现状,通过多种形式先后开展与同业机构、互联网金融头部企业、咨询服务公司的调研和分析,系统性思考并论证生产运维转型方案,在运维组织机制保障、运维技术能力建设和员工技能转型这三个方面开展创新转型,构建稳定性更高、防护能力更强的信息系统安全生产运维体系。

本次运维转型规划主要面向未来2—3年,通过迭代优化IT 基础技术架构,分阶段完成35 项工作任务,实现生产运维六大核心能力提升。技术支撑能力方面,包含高可用部署优化、平台运维支撑体系建设和多中心多活规划等工作;持续交付能力方面,包含配置策略标准化建设、灰度措施优化以及持续交付工具链优化等工作;监控分析能力方面,包含持续推进专业监控标准化、构建多视角业务监控以及建设算法服务模块、探索和践行AIOps 等工作;应急处置能力方面,重点优化组织管理、操作工具以及故障回顾、演练等工作;性能容量规划方面,包含建设资源评估和管理系统、性能容量管理平台以及建立有效的容量评估机制等内容。

二、统筹管理,建立转型工程组织保障机制

生产运维转型规划涉及内容多、范围广、任务重,且各项任务之间关联关系复杂,需指定一套行之有效的管理流程,把控整体进度,确保工程质量。遵循“责任分级,任务到人;以评促管,以检控质;内外联动,集中统筹;目标管理,严控进度”的总体原则,数据中心建立起一套与生产运维转型工程相适配的组织保障机制,通过“组织机制”和“工作机制”两方面对整体工作进行重点保障,不断推动运维组织机制优化。

责任分级,任务到人。通过安排核心能力领域负责人、具体任务牵头人以及交付件负责人,逐级落实工作职责和具体人员,切实保障各项工作有序开展。

以评促管,以检促控。采用“分级管理,层层落实”的形式,严把工作质量关。各项任务及交付件应结合分级技术评审机制(专业线、专家组、联席评审等)来确保质量,重要交付件需安排总行架构评审或专题汇报,组织回溯机制检验任务落实效果。

内外联动,集中统筹。数据中心成立了架构师柔性团队,深度参与重点业务产品线的业务架构、应用架构和运维能力设计;建立起常态化生产前移工作机制,促进生产运维团队与研发测试团队的融合;通过跨中心的柔性团队,推动上下游部门合作联动,强化沟通协调;通过跨专业融合协作,集中统筹需求和资源,确保规划、研发、实施各环节有序高效。

目标管理,严控进度。通过线上系统,提高转型工作任务的分派、督办、验收等环节的管理效率,加强任务推进的计划性;通过云文档实现各类交付物、工作方案、工作总结的集中交付和分享。做好工程关键点管理和里程碑控制,确保整体进度可控。

三、有序推进,生产运维转型取得新成效

通过建立与生产运维转型工程相适配的组织保障机制,加强整体工作的管理流程,确保各项任务有序开展、切实执行,生产运维转型工作取得预期成效。

一是深化信息系统高可用建设。完成数据中心故障域与应用部署规划,通过优化应用整体布局、完善系统部署策略,有效控制故障影响范围、缩短应急处置时间;完成四、五级应用和重点产品线的高可用情况梳理以及46 个改造点优化,针对互联网支付、客户投资等26 条重点业务线,开展持续评价和优化治理,提升对外服务连续运营水平。

二是完善业务运营监控体系。在专业监控方面,完成网络区域探测和MySQL 数据库DBLE 进程监控部署,已实现全部65 个重点应用的交易监控全覆盖,高频交易监控计算时效由分钟级提升至10 秒级,有效提升了交易监控的覆盖率和时效性。在业务监控方面,建设多重视角的业务级监控,完善7 类重点资金账户业务场景,完成5大类14 个关键业务专项监控视图,形成支付业务、渠道、客户投业务、大客户和特殊保障视图体系,提高监控敏感性和感知能力;优化用户体验监控和合作方互联互通监控,推动外部感知能力持续提升。

三是提高业务连续性保障水平。持续推动配套工具平台优化,结合多形式的应急演练组织,强化应急管理的准确性和有效性;加快应用自隔离和一键式切换全面推广,完成90%以上的同城双活AB 类应用、A 类应用数据库的一键式切换工具部署,实现机房区域、业务线维度集中切换的一键式触发;完善业务连续性管理机制,完成13 个重点业务线的业务与科技联动应急预案,开展资产托管、养老金业务、网点业务联动应急演练,完成66 套子环境、涉及57 个应用的突发切换演练,对14 个应用数据库进行标准化一键式切换,促进了切换工具的保鲜以及工具平台的不断优化。

下一步,数据中心将继续激发“比”的意识,发扬“拼”的精神,加速“进”的行动,大力推动生产运维转型工作开展落地,积极建设与智慧银行相适配的生产运营体系。

猜你喜欢
数据中心运维监控
酒泉云计算大数据中心
The Great Barrier Reef shows coral comeback
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
风电运维困局
配电线路的运维管理探讨
基于一体化的变电标准运维模式
科学训练监控新趋势——适时监控