大数据在金融数据中心IT运维中的应用研究

2018-12-31 00:00:00杨松张毅薛宝明
现代信息科技 2018年7期

摘 要:论文主要探索大数据技术在金融行业数据中心IT运维中的应用。通过有效地挖掘运维数据中存在的规律和模型,预测和预防未来运行中断、性能差等问题,并对未来资源容量、使用情况进行预测及合理规划,提高故障发生后的快速响应能力,加强科技风险的主动预知能力,从而提升整体科技运维服务水平。

关键词:大数据;数据挖掘;IT运维;金融数据中心

中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)07-0099-03

Abstract:This paper mainly explores the application of big data technology in the IT operation and maintenance of the data center of the financial industry.By effectively mining the rules and models existing in the operation and maintenance data,it helps to predict and prevent future operation interruption and performance problems. And the ability of quick response after obstacles can enhance the initiative prediction ability of scientific and technological risks,so as to enhance the overall level of science and technology operation and maintenance service.

Keywords:big data;data mining;IT operation and maintenance;financial data center

0 引 言

近年来,大数据浪潮席卷全球,世界著名的IT企业都在积极推动大数据技术的研发与应用工作。随着经济转型的升级、利率市场化节奏的加快以及互联网金融的迅速崛起,金融行业面临着巨大的冲击。为了应对日趋激烈的市场竞争,金融行业IT运维引入了大数据的概念,将实时数据分析和历史数据关联分析相结合,挖掘它们内在的规律和模型,以帮助预测和预防未来运行中断和性能差等问题,同时可以对未来资源容量、使用情况进行预测,合理规划设备,避免不合理的采购和资源的浪费。

1 金融行业运维体系的现状

银行业信息化建设经过多年的探索实践,已经形成了数据大集中的系统架构,同时形成了以数据中心为核心,以IT运维服务管理为基础的运维体系。尽管多家银行制定了基础架构及服务管理体系,以从制度和管理上为其业务运作提供更好的支持,但是在新形势下随着金融业务的迅速发展和规模的急剧扩大,系统数量和规模越来越多,导致IT运维人员不断陷入到建设基础设施、处理系统故障、频繁变更上线等工作的循环中,并且花费大部分时间和精力处理一些简单的问题,不能及时处理故障。

此外,IT系统和基础设施的应用无时无刻不在产生数据,这些数据代表了所有系统的性能、容量、安全、压力、稳定等因素的运行状态,但是这些海量的数据信息堆积在一起无法判断问题的实际根源在哪里,IT运维人员甚至可能不知道如此庞大的数据有何业务含义,更不知道这些数据该如何使用。

2 运维大数据在金融数据中心解决方案

为了应对上述IT运维中存在的诸多问题,本文在IT运维上引用了大数据技术,建设大数据平台,实现机房环境、网络设备、服务器、安全设备、操作系统、数据库、应用系统等方面的日志和服务器间的通讯报文的收集与解析;搭建几个亟待解决的数据挖掘场景,从根本上解决了生产运维中遇到的困难;同时依托运维大数据平台,整合运维所有可以挖掘的数据和日志,逐步完善智能化分析的预测场景,让运维团队从过去的事中与事后管理,迈入事前管理的时代,从而更加积极主动的保护银行各网点的业务生命线。

2.1 整体技术解决方案

运维大数据平台作为运维架构的重要组件,平台的建设需要充分考虑与其他运维组件的关系。本文主要考虑平台与现有或者待建系统的接口设计和交互内容,做如下设计:

(1)采集IT服务管理组件里的流程信息、资产数据和配置数据;

(2)采集监控事件数据,同时为监控提供历史基线数据;

(3)采集组件里的作业调度信息以及依赖关系,为平台提供历史基线数据;

(4)采集配置管理组件的配置数据和业务关联模型数据;

(5)采集安全管理组件里的安全日志和安全事件,为安全管理组件提供历史基线数据;

(6)采集基础运维组件里的日志数据、网络数据、资源数据、性能数据、容量数据、应用数据、交易数据等各种日常运维数据,为基础运维组件提供历史基线数据;

(7)采集云管平台的资源信息、计量信息等数据,为云管理平台提供历史基线数据;

(8)为可视化决策支持组件提供各种展现数据,以实现主动风险管理,快速问题应对和持续运行优化。

2.2 逻辑架构

逻辑架构采用分层模式,如图1所示,其中:

(1)数据采集层:数据中心运维过程中产生的所有可收集的数据均为对象数据源,包括但不限于:系统性能数据、流程数据、日志数据、交易数据、资产数据、配置数据、监控数据、告警和事件数据等。

(2)数据缓冲层:作为分布式发布与订阅系统,数据缓冲层支持数据的一次发布多场景的消费订阅。基于分布式架构,支持处理结点的横向扩展,以及高可用;基于数据存放机制,支持数据落盘保存,保证数据在数据缓冲层的零丢失。

(3)数据存储层:数据存储是数据保存落地的地方,根据不同的数据类型及不同数据类型的使用场景,选择不同的数据存储方式。针对一些需要全文检索、分词搜索的数据选择作为热数据保存以提高检索效率;针对一些历史的分析数据和批量计算的数据选择作为冷数据保存以提高计算效率。

(4)数据处理层:包含流处理模块、批量处理模块和日志检索模块这三大部分内容,其中流处理模块负责采集数据与实时处理;批量处理模块负责历史数据分析和批量计算;日志检索模块负责在线和历史日志的合并与查询。每个处理模块根据场景需要从数据库或者消息缓存队列中获取数据,并将处理结果保存到相应数据库中。

(5)应用场景层:从主动避免故障,快速解决问题,运行优化这三个方面提供运维管理工具,提升运维管理服务水平。

2.3 物理架构

历史数据离线批量分析和实时在线查询分析采用集群部署,数据可配置多个副本,以保证计算和数据的高可用;WEB服务器、数据缓存服务器、ZOOKEEPER同样采用集群部署,而HADOOP NAMENODE和YARN采用主备模式部署,结构满足可扩展原则,即集群模式均支持在线动态扩展;架构符合网络隔离原则,需要申请开设大数据专用网段,避免和其他网段的业务流量冲突,同时满足了部分服务器访问外部网络的需求。

3 大数据在运维中的应用

本文设计的大数据IT运维平台已经实现应用系统AFA、网络和系统等日志采集功能。借助该平台,可以通过输入关键字快速查询出给定时间段内以event为单位的日志信息,能够实现某个选定的关键字段值具体占比情况,以及通过图表等形式展现一段时间内资源的使用情况等。

3.1 充分发挥运维数据的潜在价值

目前平台每天生产数以T级的日志数据,大部分数据都会丢失或者在几天内备份到带库中,无法分析。运维大数据平台的横向扩展能力支持海量数据的统一存放,生产的所有数据都可以采集并保存在该平台中,既解决了跨系统日志统一查看的问题,也解决了长期历史数据样本关联挖掘的问题。

3.2 提前预警,主动运维

当大数据平台发现正在运行的某系统相关KPI指标违背了历史基线数据,即出现异常波动时,平台会提前预警,保证运维团队在业务受影响前修复问题,实现了主动发现问题、解决问题,真正从被动运维转变成主动运维。

3.3 容量预测,合理使用资源

随着业务量、服务器资源、性能等历史样本数据的不断采集和积累,很多数据之间的内在规律与联系需要我们去挖掘。依据大数据平台,能够有效预测出业务系统业务量的变化规律,同时结合云管理技术,实现硬件资源的动态调整,以保证资源的合理使用,为未来硬件采购决策提供依据。

3.4 后台持续的机器学习和模型优化

通过统计学方法建立数学模型,分析采集的历史数据样本,不断提高数学模型的预测分析能力,优化预测误差,保证预测的结果随着时间的推移会更加接近现实。

4 结 论

本文从发挥运维数据潜在价值,提升运行维护服务水平,提高发生故障后的快速响应能力,加强发生科技风险的主动预知能力等方面的目的出发,开展运维大数据平台的建设工作。平台实现了机房环境、网络设备、服务器、安全设备、操作系统、数据库、应用系统7类数据的抽取解析与汇总整合功能,并通过大数据技术手段实现了系统、网络、AFA应用这3个场景的生产部署,提升了数据中心的运维管理水平。

参考文献:

[1] 黄宜华.深入理解大数据:大数据处理与编程实践 [M].北京:机械工业出版社,2014.

[2] 杨灵运,邓生雄,严芸.基于MapReduce的供应链大数据金融信用评估模型 [J].现代工业经济和信息化,2017,7(17):50-53.

[3] 林巍,王祥兵.大数据金融商业模式的构成要素与创新趋势 [J].经营与管理,2016(4):24-26.

[4] 苏汝劼,张寰宇.利用互联网金融发展中国健康产业的模式和途径分析 [J].宏观经济研究,2018(3):118-124+147.

[5] 吴咚格.大数据背景下金融产业创新之路 [J].现代经济信息,2017(3):271.

作者简介:杨松(1981-),女,江苏徐州人,信息科技部技术管理团队高级主管,硕士;张毅(1982-),男,江苏淮安人,信息科技部运行管理团队副经理,本科;薛宝明(1979-),男,江苏泰州人,本科,信息科技部系统管理团队经理。