郭思岐 谌力 马淑琴
当前,传统的金融场景正在被互联网金融模式所蚕食,越来越多的消费者倾向于借助互联网的手段获取金融服务。然而,单个县域农商行的科技力量无法满足互联网时代对金融对科技的需求,省联社集中开发系统的模式又不能满足不同地域农商行个性化需求。
江苏省农村信用社联合社(以下简称“江苏农信”)作为我国发达地区的省级农村金融机构,对辖内的农信机构在业务发展和系统建设发展不均衡、特色业务系统繁多等痛点非常重视。为方便辖内农信机构有一个更大的发展空间,专心致力于特色业务、个性化服务研发,并从繁重的系统维护事务中解放出来,江苏农信决定把握时代趋势,化挑战为机遇,积极利用新兴技术来实现省联社的科技金融转型,走一条“服务即管理”的全新路线,重塑省联社价值。
为此,江苏农信成立了专门的团队,对A(AI人工智能)B(BlockChain区块链)C(Cloud云计算)D(Data大数据)四大金融科技概念认真学习研究。經过反复的考量和评估,最终选择了当时发展相对成熟,应用场景已比较明确,且和省联社的需求契合度较高的云计算和大数据作为重点抓手,双管齐下推动江苏农信的金融科技转型升级之路。
江苏农信信息科技管理部总经理傅晓三表示:“江苏农信从2016年开始关注金融科技,根据我们辖内农商行的需求迫切度、自身技术积累,以及新兴技术的应用成熟度,我们选择了云计算、大数据作为金融科技上的切入点。”作为全国农村信用社首家改革试点单位,江苏农信这一举措走在了其他同行的前列。
打造行业云重塑省联社价值
利用云计算对业务进行转型升级是很多农商行的愿景所在,不少农商行试图自建云服务而实现“上云”。然而,自身IT条件的限制和人才的缺乏,短缺往往制约了农商行的“上云”脚步。另一方面,大量农商行由于服务模式类似,自建的云服务同质化极高,在一定程度上成为了一种资源浪费。
面对这样的现状,傅晓三思考:能否由省联社建立一个开放的农商行专属行业云,让所辖的中小农商行接入进来?这样不仅避免了各家农商行建立同质化私有云所带来的资源浪费,也可以提供统一维护,解决了农商行自建私有云所面临人才不足的难题。
于是,江苏农信的行业云建设之路就这样展开了。
(一)谨慎抉择,打造自主可控“上云”之路
考虑到金融业务的特殊性,江苏农信在建设云计算平台时,第一要义就是自主可控。2016年江苏农信正式进入大规模云计算环境规划阶段,傅晓三亲自带领员工考察了市场上多种技术类型和几乎所有云厂商的解决方案,期间交流的云厂商数量达到19家,省联社自行总结了POC测试指标达321条,并开展了两轮POC测试工作,POC测试厂商达到14家,最终确定采用OpenStack + KVM + SDS技术方向。
“当时之所以最终选择这样的技术路线,是因为OpenStack + KVM + SDS技术方向大量采用了开源技术,能充分满足自主可控要求,避免封闭技术导致成本投入和技术服务不可控的风险。”江苏农信信息科技管理部云计算团队负责人蒋星梁告诉《新金融世界》记者,“在选择关键供应商的问题上我们相当严谨。在项目实施过程中也一直坚持积极探索、稳健推广的原则,为的是确保产品的稳定性和先进性。”
据悉,为了避免初创公司的经营的不确定性,江苏农信特意选择了两家OpenStack公司分别实施私有云(定位为省联社统建系统的运行环境)与行业云(定位为基于多租户的,农商行自建业务系统的运行环境),互作备份,从而保证业务的万无一失。
(二)直击痛点,为辖内农商行做好服务
从2017年开始,江苏农信陆续实施了私有云、行业云多个网络区域资源池的部署,“上云”之路开展得如火如荼。但是,不同于省联社,当时辖内的农商行普遍还处于一个运维自动化程度低、资源利用效率也低,基础环境部署响应较慢,日常运维管理难度较大的状态中。尽管这些农商行也想参考省联社的路线“上云”,但是技术人员缺失、硬件资源不足、机房容量不够、无力进行扩容等痛点却制约住了他们的脚步。
为了给辖内农商行提供切实有效的服务,江苏农信从第一个资源池、第一个应用上线时,就同步实施基于自动化的配置采集系统、性能监控、容量管理平台,最终目标是实现极大程度的自动化和智能化的云计算平台,来提高基础环境的部署和运维效率。行业云多租户模式下,协助农商行将本地应用近乎在线的迁移至省联社的行业云平台,减少农商行对本地IT资源的需求,同时也减轻了农商行本地的基础设施管理压力。
当前,江苏农信的行业云上已经运行有54家农商行的1300余套业务系统,已占到业务系统总量的60%以上,自建的微信银行、中间业务、绩效系统、办公OA、数据平台等系统均运行在其上。江苏农信行业云在基础的计算资源、存储资源、网络资源之外,提供了监控、备份、对象存储自服务的能力,给农商行们提供了切实有效的服务。
(三)成绩斐然,技术人才“双提升”
现如今,这项“上云”建设已经开始展现出了五大显著的成果:一是基础环境的标准化程度极大的提高,运维自动化较大程度的提高,配置、性能、容量均实现了自动化,基础环境部署效率大大提高;二是资源利用率极大程度的提高,在自动化的配置、性能、容量管理的帮助下,资源利用率提高了6倍左右;三是较大程度地释放了农商行的科技人员的运维压力,农商行科技人员可以更多精力投入到当地业务需求的支持中去了;四是全省范围内集约效应凸显,农商行机房内服务器设备等待自然淘汰,机房容量的压力已彻底消失;五是为后期的互联网安全统一防护与管理打下了基础。
“以往一个应用系统的投产受制于基础软硬件的采购、安装、配置,动辄两三个月还搞不定,而现在依托云计算平台,基础软硬件环境的准备可以按小时来计算。” 蒋星梁告诉《新金融世界》记者。
不仅仅是技术和效率上获得了提升,云计算平台的建设给江苏农信还带来了其他的收获。“经过云计算平台的建设,我们改变了很多原有的运维思路,驱动了应用场景和IT业务的创新。” 傅晓三表示,银行业务系统云化之前与之后的最大变化是运维方式,由于设计理念不同,两者的运维模式存在很大的差异。为了适应软件定义存储带来的运维变化,江苏农信单独成立了云服务团队,以软件定义、软件调度的方式全新构建运维体系与搭建运维团队。在带领团队探索新技术应用的过程中,不同部门之间增强了开放、共享与协作,人才队伍得到了很好的锻炼。
(四)从IaaS到SaaS,“上云”之路仍在继续
尽管已经取得了喜人的成果,但是江苏农信的“上云”之路还在继续。据悉,云平台的下一步规划,一个是继续完善云平台的IaaS功能,实现防火墙、VPN、负载均衡、SSL、签名验签等的自服务,让农商行享受更多更便捷的底层资源服务;二是实施云平台的同城灾备与多中心模式探索,提供云平台本身的灾难预防等级;三是开展集中代监控服务,根据监控结果探索代运维的可行性,进一步减轻农商行科技人员压力;四是开展应用商店建设,也即PaaS和SaaS的服务平台,依托容器、API平台、混合编排等技术,为省联社、农商行、外部软件供应商的生态圈创造条件。
“我们的云计算是一个长期的布局规划,初期以IaaS服务的模式实现全辖农商行的硬件资源共享,逐步推进PaaS和SaaS服务,集合同类需求农商行的科技力量合力开发,共享成果,省农信的云平台将成为一个云上的应用商店,农商行可以根据自己的需要选择服务。”傅晓三告诉《新金融世界》记者,“云平台的建设和我们省联社‘服务即管理发展思路的一个落地体现,希望在未来可以给辖内农商行提供更为优质的服务体验。”
利用大数据优化整体运维效率
在江苏农信的日常运营中,省联社自身的IT系统、应用和基础设施时刻都在产生数据,它们是系统的性能、容量、安全、压力、稳定性的记录。这些数据对于运维工作至关重要,然而传统的架构,使得这些数据过于分散、大量分散的实时数据也不易被及时分析,因此需要通过全新的大数据平台来将分散数据整合,并通过实时数据分析和历史数据关联分析相结合的方法,挖掘它们内在的规律和模型,以帮助预测和预防未来可能出现的运行中断和性能瓶颈问题。
傅晓三曾多次提出,江苏农信需要借助大数据的力量做一个整体的升级,将IT部门的运行数据实时展示在每个人的面前,为员工们日常工作中的运维决策提供数据参考。
(一)建立全新的运维大数据平台
大数据战略的第一步是建立平台,收集大量数据。江苏农信通过开源软件自主搭建了大数据平台,可以收集包括应用日志、网络设备日志、系统监控数据、网络数据包和安全态势感知数据。在《新金融世界》的采访中,牵头带领运维大数据平台团队的江苏农信信息科技管理部副总经理陈长玲告诉记者:“在做大数据整体架构的设计的时候,我们就明确指出希望平台可以对服务管理、基础运维、安全管理等信息进行大数据采集,之后结合人工智能分析预测,对运维管理实现可视化的支持,以达到持续运行优化的目标。”
大量的数据在提供了分析资料的同时,对于数据处理也是一个挑战。面对每天日志增量近1TB,单个业务流量峰值达到70MB,每秒采集数据处理请求数达到10万次,要对超过100T的历史数据实现秒级检测的需求,江苏农信的运维大数据平台对接入业务应用的实际数据负载情况共同做了4次的扩容,采用Rolling Upgrade的升级方式,始终未影响大数据应用的正常运行,保障平台扩容方便、灵活、高效,对业务和运营的服务也从未间断。
据悉,目前组成运维大数据平台的服务器分区数量达到60台,包括33台CDH、24台Elasticsearch和3台门户,可以在保障关键组件的高可用的同时提供实时数据处理。
(二)打造独具特色的使用场景
陈长玲告诉《新金融世界》记者,当前江苏农信的运维大数据平台主要有4大独具特色的场景。分别是数据集中查询检索、单笔业务跟踪、批量作业执行时长计算与预警和数据库实时分析。
1. 数据集中查询检索
数据集中查询检索具体包括:应用日志快速检索查询、日志数据实时统计分析、综合前置(AFA)系统交易合并、ESB(丰富的特征字段提取)、ODS(作业流与作業标签)和NMON系统性能查询。陈长玲指出,数据集中检索查询,对业务非常重要。“以前都是上百、上千台的服务器,一台台查很麻烦。通过这个我们把它连接起来了,只要大数据选什么系统,把关键字输入进去,马上就会有对应的东西显示出来。”
2. 单笔业务跟踪
新平台的单笔业务跟踪可以实现跨多业务应用查询,基于Service SN追踪单笔交易在不同业务日志中的流向,然后根据返回的日志条目数量判断该笔交易在ESB中是否请求和响应成功,并根据单笔交易追踪过程中遇到的问题,反向协调业务开发部门对日志进行优化,确保Service SN等有效信息在不同业务应用中的一致性流转。“新系统会对日志数据的实时统计分析,比如请求量多少,平均耗时多少等。单笔业务追踪场景可以基于Service SN去判断某一笔业务具体慢在哪个点,单独一个场景就可以帮助我们把全流程打通。” 陈长玲介绍。
3. 批量作业执行时长计算与预警
据悉,批量作业执行时长与预警是保障业务高可用的一个重要纬度。基于Web Service接口TWS 8.6和TWS 9.1,其预警算法可以基于过去一个月历史运行时长、均值与中位数/剔除毛刺或是预测未来一天的动态阈值。
4. 数据库实时分析
据悉,数据库实时分析有三大作用:一、定位问题。无需开启Crace、运行SQL,就能在故障发生时实时查看最慢的SQL操作、遇到Lock的SQL操作和访问最频繁的SQL。二、优化性能。问题发生时实时对数据库的访问情况进行各种维度的分析,对数据库变更前后的性能做对比,包括SQL访问频次、 SQL总耗时 / 平均耗时、 SQL类型分布和全量SQL语句记录。三、分析影响。对数据库变更后的负载、性能数据进行比对,分析变更对数据库的影响。
“该场景实现了零影响、全量记录和实时监控三大成果。” 陈长玲表示,“进行数据库分析实时采用的是通过网络旁路,抓取网络数据包的方式,从而实现对数据库零影响。通过网络数据包分析,解析出所有的数据库访问并记录,实现了整体的全量记录。通过流计算对数据库访问,进行数据监控分析做到实时监控。”
(三)利用可视化数据帮员工提升效率
数据可视化作为大数据生态链的最后一公里,也是最能直接感知信息的环节,在完成数据集中和分析之后,需要一个数据可视化展现平台实现高效定制,快速展现。
为了让数据更为直观进行展示,提升整个运维工作效率,在江苏农信最核心的技术部门竖起了一面高7.3米、宽4.1米,由36块显示器紧密结合组成成的巨型“显示墙”。每个技术人员抬起头就能看到数字大屏上清晰、实时的数据反馈,然后从里面寻找到有用的信息,及时监控整个公司IT设施的运行状态。
陈长玲向《新金融世界》记者介绍,这是运维大数据平台的最后一环——数据可视化展示平台。在数据可视化展示平台上,有77个场景的数据展示,并根据关注点的不同,将这些展示场景进行组合,为ECC大屏提供5大模式的展示内容,包括:日间模式、日终模式、年终模式、高峰模式和参观模式。
“我们改变了原有ECC大屏展示高度依赖厂商的定制化模式,通過平台自由功能实现产品级开发,消除复杂的代码开发带来的约束,降低项目上线后的存续成本。这就可以让需求者变成设计者,节省需求沟通带来的时间成本,降低沟通不到位的风险,加快数据展示的进程。”
据悉,通过大数据平台,江苏农信拥有了更全面的客户特征画像和产品画像。“比如,我们可以通过贡献度、忠诚度、风险度和客户等级等来甄别优质客户、潜力客户和即将流失的客户,帮助员工及时去获取、挽留和交叉销售。也只有通过大数据,主动服务和个性化营销才能实现。”傅晓三强调,这在过去,全靠人的经验判断是不可能完成的任务。
眼下,江苏农信已经完成一期运维大数据的建设,傅晓三也展开了对未来新的期望,在平台优化的基础上,他希望可以完成“运维大数据画像”,实现系统与应用联动,进行更多指标的关联分析和问题根因定位、业务画像、平台智能运维等功能。“未来,基于一期建设成果,江苏农信将对行内所有运维数据进行整合,最终完成江苏农信运维大数据湖的建设。”