谌力 张申宇
近几年,银行在面对数据中心大幅提升的数据量,以及要求越来越严格的数据管理、安全标准的情况之下,提升自身运维管理能力,提高数据中心运维效能就显得刻不容缓。但是,目前市场上大多数基础设施运维管理平台对其他品牌产品的兼容性比较差,如果需要实现全平台、全品牌的兼容管理就需要采用自主研发的手段来实现。
近日,民生银行科技部系统管理中心硬件运维主管毕伟光介绍了近几年民生银行在数据中心建设、运维管理,以及民生银行近几年自主研发的存储管理平台、带外管理平台、自动化运维平台方面的成功经验。
结合自身需求 自主研发存储管理平台
近几年,随着民生银行数字化建设步伐的推进,存储平台和X86服务器的使用量大幅提升,且存储设备包括了EMC等3家以上主流供应商的品牌。原先的存储管理系统都是每个品牌管理自己的设备,不能跨平台管理,存储系统的变更和日常的维护工作中一大部分还需要依靠人工完成。因此,随着设备和数据量的增加,运维压力不断增加。
毕伟光表示:“实现各个存储平台之间的兼容与实时监控,依靠其中哪个厂商都实现不了。我们之前也尝试着找过第三方的存储管理平台的厂商,基本上我们需要的定制化的要求都很难实现,因为平台品牌数量多,兼容既有其他工具的管理要求高,要实现设备之间的兼容及自动化需要2~3年的开发周期,这个周期太长不能满足行内的要求。”
正是基于这种情况,以及日益增加的设备数量所带来的运维压力,2018年,民生银行决定结合自身对于存储管理的使用需求,自主开发一套适合自己的存储管理平台。民生银行利用开源工具,结合运维团队多年的运维管理经验,参照包括EMC SRM管理平台等工具的部分功能及逻辑,自主研发出一套存储管理平台。该平台不光在磁盘存储方面实现兼容,还在存储交换机等产品层面实现了不同厂商、不同架构的兼容,还可以实现主机端口信息的兼容,以及交换机的配置、状态,存储的配置、状态、容量等信息的实时提取和显示,实现了存储系统的跨平台管理。
谈到存储管理平台的作用,毕伟光表示:“存储管理平台搭建起来之后,在解决自动化巡检和监控问题的同时,还解决了自动化配置变更的问题。原有的监控系统管理起来并不精密,依靠人工管理难度大,效率低,统一整合到一个平台之后,大幅提升了数据的质量和准确度,在此基础上实现了自动化运维的功能,包括跟其他平台的衔接也更顺畅了。”
随着存储管理平台的投入使用,运维效率大幅提升,运维人员有更多时间跟精力投入对平台的升级、迭代,以及对存储设备的精细化运维中。
积极探索统一带外管理工具
随着小型机下移和分布式技术的发展,近几年服务器使用数量大幅增长,X86架构服务成为主要增加的服务器设备。原有的服务器运维方法已经不足以应对日益增长的服务器数量。毕伟光表示:“目前民生银行使用的服务器包括X86服务器和小型机。各个不同的服务器品牌之间的管理工具相互兼容性并不好,我们想通过一个平台实现所有服务器的统一管理。面对这种情况,民生银行在2018年自主研发了一套带外管理平台。”
带外管理平台是一个基于开源平台基础上的监控、管理和配置收集的分布式平台。相比于需要通过操作系统的带内管理来说,带外管理平台不需要登入操作系统,只是基于设备的微码层面,就可以在微码层面管理设备的硬件,相比于带内管理平台,带外管理平台减少了运营成本、提高了运營效率、减少了宕机时间、提高了服务质量。
“民生银行在开源平台的基础上开发的带外管理平台,只要设备接通电源,接入网络后,就可以通过带外管理平台来收集服务器的配置信息,管理服务器的监控指标,并处理服务器发出的告警,排查硬件层面的问题,第一时间进行监控及处理,并且并不受设备品牌及架构的限制。”毕伟光谈到。
据介绍,在民生银行自主开发带外管理平台的过程中,戴尔为民生银行提供了部分代码及技术层面的支持,以完善带外管理平台的功能。在测试阶段,戴尔还参与了部分脚本的测试。
紧跟科技发展潮流 进军自动化运维
除了存储管理平台和带外管理平台之外,早在2017年,民生银行就开始搭建自己的自动化运维平台。
“自动化运维是一个体系的建设,并不是建设好一个平台就能实现自动化。在实现自动化的过程中,从上层的审批、管理的维度,到一些制度的落实,包括一些运维经验及习惯的改变都很重要。”谈到自动化运维平台的应用,毕伟光表示:“自动化是一把双刃剑,一方面提高了运维的效率,另一方面也放大了运维的风险。在初期部署时,我们就遇到过在测试环境中,自动化删除了一批不该删除的数据,在经验积累之后,对自动化带来的风险已经能够掌控,这是一个逐步推进和掌握的过程——在平台搭建的初始阶段只是实施脚本的自动部署、配置的自动收集,紧接着实现了自动化脚本的执行,自动化的安装。到目前为止,从部署到运行都可以实现自动化。”
在2018年年初,通过与PaaS平台结合,民生银行的自动化运维平台正式上线,目前还处于不断完善的过程中。因为自动化运维平台与硬件平台以及服务器之间的衔接比较多,最初民生银行实现的一些功能都是通过自动化运维平台进行数据的采集,现在随着其他的平台上线,自动化运维平台主要负责实现系统级数据的采集和部署。
谈到自动化运维的经验,毕伟光说:“自动化运维首先要有审核、把控的机制,没有一个严格的审核、把控机制,运维风险会被无限放大。其次,要不断完善运维体系、流程、制度,使之和自动化系统相匹配。例如,原先都是通过人工实施,实现自动化执行之后,相关的人工的决策环节要制定清楚。”
现在,民生银行在不断完善自己各个平台及系统的同时,还在紧跟科技的潮流,推进智能运维实施落地。民生银行将各个平台之间进行整合,开发出不同的功能。比如,运维可视化可以将基于应用运维的平台整合到可视化平台中,与CMDB数据库、存储管理平台以及带外管理平台对接后,形成了一个更系统化、架构化的平台,这是目前民生银行在主要推进落地应用的项目之一。
随着智能化、自动化的推进,提高了运维人员的工作效率,“原先许多操作都需要人工进行复核比对,现在实现自动化运行,节省出来的人工可以更多投入到运维制度建设、精细管理和工具化实施中,进一步提高运维效率,降低运维风险,从而形成良性循环。”毕伟光表示。