薛宝明 陈炎 陈羹
新时代的背景下,江苏省农村信用社联合社以党的十九大提出的新目标为引领,深入贯彻新发展理念,围绕“服务实体经济、防控金融风险、深化金融改革”三项任务,谋划深化改革、创新发展的思路举措。随着省联社深入改革,如何进一步突出省联社尤其是在科技领域的服务职能和能力,就需要省联社科技团队大胆创新、小心求证,为农商行提供更新、更稳定、更高效的科技支撑能力。
探索同城应用双活,提高业务连续性保障水平
随着电子渠道替代率提升,电子业务的快速发展对银行核心系统的业务连续性提出了更高的要求,使得江苏农信目前的灾备体系需要进一步提升。对于现有灾备中心的主备模式,备份资源大部分空转闲置,如何能将这部分资源更好使用起来,更高效的用好科技投资是每家商业银行都在考虑的问题。
随着集群技术越来越成熟,以及对业务连续性要求越来越高,同城双活模式正成为不少银行生产运营的首选方案。如工行采用了并行主机双活2.0非对称架构方案,人行采用了基于队列复制的双活方案,交行采用了同城双站点大集群的双活方案,等等。江苏农信也在积极探寻如何进一步提高主机系统的高可用和业务连续性水平,提升主机核心系统的价值。
探寻一:并行主机双活2.0非对称架构方案
参考工行并行主机双活2 0非对称架构方案,改造应用,在生产中心和灾备中心之间构建并行主机双活2 0非对称架构,实现核心应用同时运行在同城双中心。
探寻二:多站点集群架构方案
将升级的灾备主机迁移至相距3公里的同城数据中心,与原生产中心构建同城跨中心集群架构,并采用数据同步复制(GDPS/PPRC)保护数据。将交易响应时间要求不高的工作负载分流至同城双活中心运行,提高主机资源利用率。
遵从业务特点和科技能力,选择适合农信的双活方案
江苏农信的法人单位主要为区域性农商银行,相较于全国性的商业银行,其客户群体主要集中在本地,资产规模相对较小;另外从科技能力上看,也与国有大型商业银行有着一定的差距。但从业务品种、电子业务的连续性要求上与国有大行的要求类似,甚至在村镇覆盖上下沉更深。因此江苏农信就需要从自身业务特点和科技能力出发,选择一种契合自身特性,方案复杂性、风险度和投资相对低一些的,但又能大幅提升核心系统高可用性和业务连续性能力的方案。并行主机双活2.0非对称架构和多站点集群架构两种技术方案从特性上看,无疑后者是更适合省级农信的同城双活方案。
测评聚焦结果喜人,改革再铸生命力
从2017年3月初开始,江苏农信与IBM对多站点集群架构方案进行近两个月可行性分析研究,在省联社各级领导的关心和支持下,决定于2017年5月3日,挑选了核心系统13支重要交易,集结各技术团队精兵强将前往厂商北京系统中心进行测试。目的是通过模拟测试来验证同城跨站点集群架构的技术关键点以及可达到的高可用灾备效果,测试并评估交易在跨3KM距离的多站点集群架构下的性能影响。整个测试为期2个月,参与人员包含江苏农信科技部,以及厂商产品部门(硬件,软件)。测试主要包含性能测试和高可用测试,设计测试场景多达20个。通过测试验证了实施跨站点集群的技术可行性,通过实施GDPS自动化工具,可改变原先手工操作的切换模式,在主站点维护等计划内切换场景下RTO可由原先的小时级提升到分钟级,在发生灾难或意外导致主站点完全不可用的计划外切换场景下RTO可由原先的四小时缩短到两小时。性能方面三公里跨站点的架构下本地节点交易响应时间没有明显变化,远端节点交易响应时间略有增长,整体在可接受范围内。
2017年测试结束后,江苏农信组织召开业内技术评审会议,邀请五大行的主机技术专家到南京,参与探讨多站点集群架构方案的可行性,会议中五大行专家对架构方案给与了肯定,同时也提出了很多中肯建议和见解。
为了更全面验证此架构的性能和可靠性,江苏农信科技部和产品研发部共同合作,挑选出业务高峰期具有代表性的五大类26支交易,到厂商系统中心再次进行测试验证。本次测试从2018年2月26日开始,于2018年4月13日结束,为期1.5个月。参与人员包含江苏农信科技部和产品研发部,以及厂商产品部门(硬件,软件)。本次主要针对性能进行测试,设计六大类11个测试场景,从混合交易,单测“重”交易,压测TPS拐点,“重”交易如何路由控制等方面,更系统、全面的测试架构性能。
·經过两次大型测试,针对5节点多站点集群架构,详细评估距离对于性能的影响,这是重点,也是难点。
·前端交易如何合理分发至核心系统,如何控制交易分发,这更是关键。
·在同城站点级灾备切换能力维持不变的基础上,实现自动化同城切换,这是提升。
多站点集群架构下性能表现:
·在光纤3KM外增加一个集群节点,并未给本地集群上CPU使用率带来明显增加。说明增加一个集群节点,没有影响原有生产中心集群的运行。
·通过主机上的CICS进行交易分发控制,使3KM外的集群节点仅运行“轻”交易,测试结果显示,3KM外集群节点交易响应时间因距离的影响略有增加,本地集群交易响应时间也略有增长,但是增加范围均在可接受范围之内。
全新升级再造,基于真实应用的多站点集群架构测试
在充分借鉴大行双活建设经验的基础上,这是一次不对交易进行区分,采用真实交易基于三公里的跨站点集群测试,较为全面的测试和验证多站点集群架构的性能和高可用性。同时本次测试数据准备和抽取样本,以及交易占比和交易分发配比均与生产环境十分相似,因此可以说,这次测试对真实生产环境来说,是具有参考意义的。在不改变应用的情况下,对中间件进行修改,控制交易分发,这是一个创新。它以最小代价实现同城双活,提升IT架构能力的同时,也更合理有效利用双中心主机资源,实现资源高效利用,优化成本。