王磊
摘 要:银行所开展的各方面业务均以IT基础设施作为支撑,保障银行业务数据的完整性、安全性,保障业务系统的连续性、稳定性、可靠性,是IT系统运维的主要目标。本文从集中专业化运维体系建设的角度出发,研究如何通过集中、专业的体系,实现应用系统一体化运维及数据库中间件集中管理的安全可控,从而保障银行系统的安全和稳定,加强应用系统运维管理,提高运维管理整体水平,降低运维风险和控制成本。
关键词:中间件;数据库;安全可控;集中专业化运维
一、背景及意义
随着信息科技的快速发展,银行所开展的各方面业务均以IT基础设施作为支撑。保障银行业务数据的完整性、安全性,保障业务系统的连续性、稳定性、可靠性,是IT系统运维的主要目标。如何充分整合利用各类软硬件资源,提高运维团队专业化水平,提高运维管理效率是目前银行IT运维的主要挑战。
(一)信息系统运维管理面临的挑战
我们已投产应用系统200余套。由于IT人员少,需借助外包人员从事具体运维工作,目前由70多家外包商,每家从2人到15人不等,分别负责不同应用系统,绝大部分是纵向独立运维。随着我们业务及IT系统快速发展,信息系统运维管理问题日渐凸显。
第一方面,管理复杂度高。系统多,队伍散,对统一的质量,统一流程控制难度大,规范难以落地。专业化程度受影响,每个队伍人员少,难以兼顾各方面。整个运维管理水平,风险控制能力依赖于每个队伍。每个人的短板决定了系统性风险。每个系统相对独立,难以保证跨系统、跨团队知识转移。对外包队伍依赖性高,外包管理难度大。
第二方面,资源利用受影响。数据库中间件等软硬件资源无法跨系统调度,交付时间长,资源管理标准化程度低,资源配置合理性不足,资源投入成本高。
第三方面,安全生产压力大。没有双活或多活架构,系统跨中心抗风险能力不足,给安全生产带来很大压力。
第四方面,银监会提出安全可控,是长治久安的战略举措。因非关键系统运维多、小、散、标准化程度低,导致保证安全可控实施难度大。
针对上述挑战,如果没有强大的运维体系,专业化队伍,自动化管理,信息系统风险将会很高。
(二)研究内容及目标
本课题立足实际,结合安全可控监管要求,以专业化、标准化为指导,从管理革新和技术改进两个层面,通过对人力和软硬件资源进行科学分类、集中整合,围绕应用系统、中间件和数据库多层次立体化综合设计,建成一套高效实用的运维体系,重点解决生产安全面临的突出问题与挑战,提高信息系统的整体抗风险能力。
二、集中专业化体系建设整体思路
通过虚拟化技术,结合数据库及中间件的云化高可用性、负载均衡和DNS技术实现主机虚拟化、数据库云化、中间件池化的技术架构体系;通过建设专业团队体系,实现应用集中化、接入智能化、运维专业化、监控统一化的管理体系。
整个体系通过数据库云、中间件资源池、集中专业化应用运维三个层面的资源整合、专业化建设实现。
集中数据库平台。通过利用全局DNS机制,结合负载均衡及数据库自身高可用技术,整合非关键系统数据库,提高服务器资源利用率,实现统一管理,降低数据库版本多样性,提高数据库服务高可用性和安全性水平。
中间件池化建设。建立基于虚拟机为基础的中间件资源池,实现中间件快速部署,统一配置,提高中间件部署工作效率,充分利用各类软硬件资源。
三、集中数据库建设方案
集中数据库平台应满足高可靠高可用服务要求,即业界公认的RAS标准。所采用的数据库软件在集群、管理、数据保护、资源利用方面要求具有先进性,有较长时间的技术支持。我们已有的数据库管理经验对集中数据库平台运行维护具有支持作用。集中数据库平台建设重点满足以下方面:
1、高可用性。集中数据库平台应能够满足较大的负载需求,提供高可用的数据处理和应用响应能力。可根据负载需求灵活扩展计算资源,提高系统容量和处理能力。调整资源过程简便,能有效缩短服务中断时间。
2、数据同步及数据安全。为保证数据安全性和操作管理风险可控,集中数据库平台应具备数据多冗余存储机制及同步机制,满足不同级别容灾需求。
3、快速切换。数据库集群内部及站点间应具有快速切换功能。
4、隔离机制及可审计性。应用与系统管理间具有分离机制、操作可审计机制。
5、数据备份及服务保障。集中数据库平台配套相应的备份及其他保障机制。
6、兼容性和弹性扩展。集中数据库平台通过较简单的部署配置方便的扩展并利用现有软硬件及人力资源,提供较高的性能价格比。从而以较低的成本、较少的人员投入来建设和维护系统。
7、风险可控。数据库集中运行采取逐步过渡原则,根据系统重要性和各自情况分别制定数据库部署方案。将需要集中部署的新系统数据库和现有系统数据库分期分批逐步融入集中运行平台。
(一)整体架构
通过整合服务器资源,对数据库进行“统一资源、统一管理、统一标准、统一监控”四“统一”管理,持续提升数据库运维工作的规范化和标准化水平,同时提高运维质量和资源利用率,降低成本。
以数据库容器及运行其上的数据库实例为核心,将备份、监控、审计、安全机制进行合理整合,通过数据库双活和同城容灾建设实现集中数据库平台安全性和高可用性。
(二)高可用性
应用访问数据库方式通常采用节点叠加的配置方式,给集群扩展及服务切换带来诸多不便。主要体现在横向扩展难度大、跨中心切换复杂度高、应用配置变更频繁、运维难度大。
为了实现高可用性,简化操作复杂度,减少数据库切换对应用系统带来的影响,集中数据库平台综合采用负载均衡、域名服务实现与应用系统连接透明化,即无需在应用层修改配置,只需要调整负载均衡分发策略即可实现数据库切换。
经全面测试验证,我们选用F5作为负载均衡实现产品。负载均衡与数据库集群的连接有F5简单分发、F5单路与集群负载、F5多路与集群负载三种配置方式。
(三)容灾实现
1、服务切换
引入负载均衡设备后,数据库切换操作大幅简化,且简单快速。在负载均衡器上均预先设置好主辅数据库两组配置信息,其中辅中心的数据库配置状态禁用。在数据库不可用而需要切换时,一键式将F5分发由主中心切换至辅中心,应用无需进行任何操作,且对应用透明。
为了实现F5跨中心透明切换,通过采用全局DNS机制,当一个中心的F5都发生故障时,辅中心的F5接管服务,同时DNS提供辅中心F5的域名解析。
2、数据同步
提供存储级数据同步和数据库级数据同步。各系统可根据自身特点选择主数据中心和容灾数据中心间数据同步方式。目前所采用的数据同步机制有存储复制(TC)、数据库复制(ADG)、存储复制与数据库复制结合(TC+ADG)、Oracle GoldenGate(OGG)四种。
3、备份策略
集中数据库平台按照每天全备策略进行数据备份。一个月的数据保留在虚拟带库,超过1个月的数据保留在磁带库。恢复验证按照系统等级分每月一次,两月一次,每季度一次三类。
4、技术选择
鉴于Oracle数据库是我们的主流数据库,通过对11g和12c的对比测试,12c具有更为先进的云化技术优势,因此采用Oracle12c实施集中数据库平台建设。
在数据同步、负载均衡、数据安全、资源分配、数据复制等方面分别采用业界主流产品ADG、F5、DV、PDB、TC进行实施。
四、中间件池化方案
中间件在扩展性、安全性、与应用耦合度、资源使用情况均与数据库有很大不同。通过建立统一的中间件资源池,实现中间件部署自动化、服务定制化、配置标准化、架构统一化。中间件池通过最小资源单位进行分配,每个资源单位具有统一标准,可以灵活、快速的为用户部署所需的中间件集群。单个中间件节点具有高可用机制,可提供持续稳定服务。
(一)整体架构
通过虚拟化技术制定基础资源模板(包括操作系统、中间件平台和标准化参数配置),采用镜像技术进行资源初始化,同时实现WAS节点在服务器层面高可用性。在基础资源模板上通过配置完成中间件集群搭建。
在计算资源分配上,通过虚拟化技术实现资源分配自动化,可以为中间件提供高可用、可随时扩展的虚机资源。有效整合资源,简化管理流程。
(二)技术方案
1、池化内容。目前我们使用的中间件产品有WebSphere、WebLogic、Tomcat、MQ、Filenet、Cognos、Informatica和Tibco等多种。其中WAS中间件占59%,绝大多数部署工作以WAS为主。中间件池化建设工作从WAS池化开始,逐步酌情扩展至其他中间件产品。
基于我们现状及发展规划,搭建WAS三个主流版本的资源池。每个资源池包括WEB服务池、DM管理池、WAS服务池。
WAS资源池:WAS资源池用于部署应用程序,通过集群功能实现高可用,集群中节点数依据应用系统访问量和并发等指标设定。
DM资源池:DM资源池用于管理WAS集群和应用程序发布。
WEB资源池:WEB资源池用于特定系统的静态程序发布。
2、资源单位。最小资源单位。虚拟化环境为WAS池提供的虚拟机资源为2核CPU、8G内存、150G存储空间。每个虚拟机上部署1个WAS节点及一个服务实例。
集群资源单位。通过横向扩展WAS节点组成的集群满足较大的WAS资源需求。每个WAS集群最多由2或8个节点组成。
3、负载均衡机制。WAS节点间通过网络负载均衡设备+WAS单节点部署、网络负载均衡设备+WEB分发(可选)+WAS集群两种方式实现。
五、集中专业化运维管理方案
(一)人员组织
按照业务条线组建专业应用运维团队,将外包人员按照供应商分组,同时配备不同行方项目经理,实现横向运维,纵向管理。根据不同维度,分别建立应用软件、中间件和数据库共五个专业技术团队,统一负责相关系统及数据库和中间件基础软件的运维。
1、应用软件运维团队
负责业务应用软件日常巡检、热线电话支持、版本上线、数据变更、数据备份、系统跑批等运维工作。根据实际经验,为保证运维质量和控制操作风险,对于非关键应用系统而言,每个人负责的系统平均不超过3个,每个系统运维都设立AB角,并统一安排运维质量管理人员。
2、中间件运维团队
负责中间件环境的建设和维护,包括中间件的安装、升级、监控、技术支持、故障排查等运维任务。中间件是通用软件,与具体的业务逻辑无关,但种类繁多,技术复杂,对运维人员的专业技能和实际经验要求高。每类软件产品配置3-4名专家,集中统一提供技术支持服务。
3、数据库运维团队
负责数据库系统建设和维护,包括建设集中数据库系统,负责数据库系统的统一监控、性能调优、故障处理、技术支持等。数据库与中间件软件类似,也属于通用软件,同样具有复杂度高,专业性强的特点,与具体的业务逻辑无关。但由于数据库系统直接存放业务数据和负责数据处理,其安全稳定性至关重要,数据库团队对全行所有系统提供7*24小时技术支持。
(二)外包商集约化
外包商集约化,主要是通过引入大型专业外包服务商,精简行内现有的小众外包商数量,由3家外包商组成3支专业的应用运维团队替代原先的9个公司的18个团队负责全行非关键类系统应用运维工作。
管理流程上,由于外包运维团队减少,组织流程节点也随之减少。每个运维团队向对应的行方经理汇报,行方经理向行内主管领导汇报,形成3层组织汇报机制。运维管理由分散向集中过渡。
六、成效与收益
(一)成效
1、管理革新。按照业务条线创建了专业应用运维团队。消除了多小散问题,避免了技能参差不齐,加强了应用运维专业性,知识经验易于共享,个人技能可以实现价值最大化,制度规范容易落地,服务质量明显改善;外包管理复杂度显著降低,外包风险控制能力得到加强。另一方面,按照技术类别创建了中间件和数据库专业运维团队。加强了技术专业性,统一安装规范,统一配置标准,制度规范容易落地,整体服务水平大幅提升。
2、技术改进。已建成三套集中数据库平台,整合50套数据库。统一了软件版本、运行监控;资源利用率平均提高4-6倍,资源分配更高效合理。完成中间件资源池选型、架构设计、测试验证工作。为中间件版本统一、资源合理分配和快速交付打下了基础。
(二)收益
集中数据库平台建设为我们节约服务器资源62台,存储资源20TB,数据库授权130 CPU,备份软件授权65 CPU,双机软件授权65 CPU,卷管理授权近70 CPU。
专业化运维团队建设在提升各应用系统服务质量的同时,减少21名外包运维人员,人员复用率提高近20%。
七、结束语
应用系统数据库中间件安全可控集中专业化运维体系的建成,实现应用系统运维统一管理,统一制度、统一规范、统一流程,运维质量有了保证。集中数据库平台资源实现统一冗余配置,并实现跨中心部署,使系统可用性得到极大提升。实现外包自主可控,外包团队可替换性增强。所积累的经验为以后我们新数据中心建设提供了依据。
数据库云建设方案、F5与数据库集群融合、数据库分权管理等具有一定可推广价值。我们将在此基础上,对基础软件、自动化部署工具、监控工具进行开源化和自主化研究实践;同时探索通过开源软件进行云平台建设。
(作者单位:国家开发银行股份有限公司)
参考文献:
[1] 李克.中国金融电脑.2015年2月.
[2] 高军,修永春.银行业务连续性管理实践[J].银行家,2012年第7期.
[3] 金磐石.建设银行云计算数据中心及运维体系建设实践探讨[J].中国金融电脑,2014年7月.
[4] 袁俊德.中国金融电脑.2013年10月.
[5] 牛新庄.Bank3.0时代民生银行灾备体系建设.金融电子化,2014年6月.
[6] 高军.银行业务连续性管理实践[J].银行家,2012年第7期.
[7] 袁俊德。大型银行“两地三中心”运营体系建设实践。中国金融电脑,2013年10月。
[8] 高曙东.打造新型金融IT运维管理模式——访中国光大银行股份有限公司信息科技部副总经理史晨阳.中国金融电脑,2013年9月.
[9] 银行业应用安全可控信息技术推进指南(2014-2015年度)(银监办发317号【2014】,“317号文”).中国银监会办公厅与工业和信息化部办公厅,2014年12月26日.
[10] 林晓轩.关于商业银行信息科技“自主可控”的思考和实践.中国金融电脑,2014年01期.
[11] 涂晓军.推进信息技术“自主可控”,保障金融信息安全.中国金融电脑,2014年01期.