姜青云 王参参
摘要
在人工智能时代,IT运维管理成为数据中心发展的重要部分,传统方法已无法满足高质量运维要求,近几年来商业银行正积极探索智能化IT运维管理方法,本文介绍了智能IT运维在银行数据中心的应用场景,并对智能运维技术案例进行浅析。
【关键词】数据中心 IT运维管理 人工智能
1引言
随着商业银行信息科学技术的不断发展,数据中心已经由原来数据、系统及运营分散的管理模式转型为异地多活分布式架构,资源利用率和灵活性显著提升,运维工作量也明显提升,传统的“救火式”运维己不能保证数据中心应用系统的安全稳定运行,因此越来越多的商业银行数据中心开始探索高效的IT运维管理模式。
从宏观上看,IT设施种类各异、组成复杂,包括机房动力环境、基础网络、存储、小型机及主机等平台、中间件、应用系统等,从微观上看,特定IT设施品牌及指标繁多,以存储为例,品牌涉及IBM、HP、EMC、华为、Netapp等,指标包括系统配置、电源、风扇、控制器、硬盘状态、实时性能,以及存储交换机的电池、映射关系等,银行业数据中心一般通过厂商提供的监控管理工具查看各IT设施运行状态和性能指标,但是这样零散的监控方式不仅会增加运维工作量,冗余告警还会对运维人员产生极大干扰,降低运维工作效率,从而影响故障点发现的及时性,因此传统运维方式面临的主要问题包括错综复杂的IT元素难以有效监控、传统运维工具单一无法集中监控、运维过程流转不成体系等。面对复杂的异构环境,数据中心对数据分析和运维自动化的要求越来越高,IT运维人员也希望能够借助海量的运维数据优化改进当前工作方法,建立在大数据分析和自动化运维基础上的智能化运维时代即将到来。
2人工智能在金融业的应用
当前人工智能技术在金融业务领域的主要应用包括风控及反欺诈、精准营销、智能投顾、智能客服等,在金融IT领域的主要应用是智能运维。风控及反欺诈是通过申请贷款的客户社会关系数据,建立与现有黑名单/灰名单库的关联强度,预测申请客户的欺诈概率;精准营销主要是针对用户的行为、已有的认知习惯等数据进行挖掘分析,将符合用户个性及偏好的产品适时的推荐到用户面前;智能投顾依赖于用户提供的风险承受水平、风险偏好等信息,通过不断的自学习和分析模块,为用户提供投资参考及预警提醒;智能客服为银行与海量用户之间的沟通建立了一种基于自然语言的快捷有效手段。
对人工智能技术的研究和应用已经与金融业务深度融合,其中大型商业银行银行已经成立人工智能实验室,投入专门资源开展机器学习、GPU处理等相关技术的研究工作,在信用卡、快捷支付等业务中运用人工智能技术甄别潜在欺诈风险,并提供交易阻断、短信提醒等措施,保障客户资金安全,同时适时引入人脸識别、声纹识别、语音导航等技术,搭建智能柜台业务和客服中心,中小型银行也纷纷打造智慧厅堂服务机器人,处理客户提出的简单问题。对于银行数据中心而言,人工智能在IT运维管理方面的应用研究也日趋明显。
3智能IT运维
3.1 IT运维管理
IT运维管理是指数据中心采用相关方法、技术、制度、流程、文档等,对软硬件生产运行环境、业务应用系统和运维人员进行的综合管理,主要包括数据库管理、应用管理、可用性和性能管理、网络管理、故障事件管理、日志管理、配置管理、服务台、资产管理、作业调度平台管理、硬件设备管理等。
3.2智能IT运维
智能IT运维本质是将人工智能、大数据分析等技术应用到运维管理场景中,实现运维活动的标准化及自动化,进而提升机器辅助运维决策等能力,比如对业务应用系统提供自动化故障智能检测,帮助运维人员进行故障根源判断和处理等,在《中国银行业信息科技“十三五”发展规划监管指导意见》分列章节“提高运维自动化水平,打造智能化运维体系”中,对智能化运维相关内容进行了描述,包括环境部署、运维监控、容量管理、共享协作、数据分享等。由于智能化运维的重要作用,银行业数据中心正积极开展智能化运维的建设工作,但是由于技术架构复杂,普遍针对特定智能化场景进行技术研究、原型测试和试点建设,目前还没有整体规划设计,典型智能运维场景如图1所示。
3.3智能IT运维技术
智能运维平台是将大数据和机器学习功能相结合的软件系统,用以增强或部分取代广泛的IT运维流程和任务,包括可用性和性能监视、事件相关性和分析、IT服务管理和自动化,智能化IT运维的共性特征包括以运维数据为驱动、以动态算法为核心、以机器学习为手段,主要包括以下方面功能技术:
(1)运维数据抓取,允许从业务应用服务、中间件及硬件设备生成的日志文件中捕获可二次处理的价值数据,以及用于访问和分析的数据,为方便访问可以为日志存储编入索引。
(2)文档文本输入,允许对可读文档进行输入、解析和语法语义索引。
(3)运维数据存储,允许对日志数据、软硬件设备参数和文档数据进行持久存储。
(4)自动模式发现和预测,基于获取到的一种或多种类型的历史运维数据,得出数学结构模型,来描述可能被推断出的新型关联关系。
(5)异常检测,使用己建立的发现模型确定什么是正常的系统行为,然后从正常的系统行为中辨别出偏离。
(6)根源决定,通过自动模式发现和预测模型建立的关联关系网络删除依赖关系的链接,以提供有效干预的方法。
4智能IT运维技术案例
4.1智能容量预测
对于各应用系统容量管理方面,传统运维平台无法预测当前系统配置能否撑过业务高峰期,以及系统存在的瓶颈位置,而智能化的容量管理结合了大数据分析预测技术,将银行数据中心各物理资源(如服务器、存储和网络等资源)的实时容量快照、负载情况和未来扩容趋势呈现出来。智能容量管理首先采集应用系统交易量、操作系统性能指标、中间件性能指标等,基于机器学习算法,对交易量进行预测分析,找出交易量与各指标之间的关联,最终评估当前系统承受交易量上限及瓶颈,在容量告警之前帮助维护人员及时制定有效地采购和扩容计划,满足用户未来资源的高效利用。
4.2智能异常检测
传统的异常告警管理一般使用固定阀值并且需要运维人员手动设置,这种方式不仅工作量巨大且十分依赖运维人员的经验,若阀值设置不当可能导致告警风暴或者告警漏报等后果,异常检测是智能运维系统中一项基础且重要的功能,是在众多可能引起故障的因素中,追溯到导致故障发生的症结所在,旨在通过算法自动发现KPI时间序列中数据的异常波动,为后续的告警、根源分析提供决策依据。在实际场景中,批量时段性能指标超阀值、交易量峰值时段性能指标超阀值等成为日常告警的难点,通过时间序列分析和移动指数平均、LSTM算法等机器学习算法,进行系统指标的动态基线告警,并基于指标告警实现故障树的构建,辅助完成故障定位。
5展望
近年来,机器学习理论研究迅猛发展,不断取得突破,促进了人工智能技术的飞跃,基于机器学习的智能运维今后会在银行数据中心全面发展,因为银行业拥有得天独厚的大数据和应用场景,最终成为运维人员高效可靠的助手。
参考文献
[1]袁俊德.人工智能与生产运维[R].农信银支付清算系统会议,苏州,2 018.
[2]王雄.云时代IT运维面临哪些新的挑战[J].计算机与网络.2018 (21): 40
[3]袁俊德,以“七台两库”领衔智能化运维[J].金融电子化.2017 (08):75-77.