大数据时代下的Hadoop智能运维

2018-07-04 01:06:40中移苏州软件技术有限公司吴文昊
通信世界 2018年15期
关键词:时序日志集群

中移(苏州)软件技术有限公司|吴文昊

面对企业数据的爆发式增长,大数据系统的节点数量众多、日志数据繁杂、组件种类多样等特点,使得传统的运维工具难以很好地保障系统的稳定运行。

目前,市面上传统的Hadoop运维工具的功能主要集中在自动化安装部署、集群指标监控、集群故障告警等方面,旨在通过自动化处理和脚本执行的方式对Hadoop集群进行故障的自动诊断和处理,但是处理手段比较薄弱,并且对于复杂故障的诊断,还是需要依赖资深运维人员的知识积累和经验。

大数据运维领域“长路漫漫”

在自动化安装部署方面,传统自动化运维工具基本上可以通过向导的方式完成Hadoop组件在各个节点的安装,但是对于集群安装完成后的配置项,却无法进行自动化的初始配置,需要运维人员根据部署机器的硬件环境来进行调整。这就导致即使集群已经安装部署完成,但是其使用的效率却比较低,无法达到初步满足正常生产使用的效果。

在集群指标监控上,目前业界的监控指标软件相对来说较为成熟,大多数都能够实现集群,以及节点和服务级别的多维度监控。但是对于这些监控指标项的处理分析,却基本上很难见到,无法根据一些统计学甚至人工智能的算法,来识别指标项之间的关系,从而发现Hadoop集群深层次的内在联系。

在故障告警上,业界传统运维工具的功能基本上大同小异,几乎都是通过前端页面/邮件/短信等方式,将故障信息告知相关运维人员,并提供了基本的管理功能,如告警周期管理、告警人员管理等。目前的告警功能,主要是在集群异常发生后,触发了预设的告警机制,从而产生告警,而无法对集群的故障进行提前预警和发现,从而实现未雨绸缪、故障规避的效果。

由上,我们可以看到,在大数据的运维领域,其实还有很长的路要走。目前的运维机制,对于保障大规模、超大规模的Hadoop集群来说,还远远不够。因此,结合机器学习、深度学习以及知识库等人工智能技术,打造一套能够自动化发现故障,分析根因并且提供相关故障解决方案的智能化运维系统,显得尤为关键。

Hadoop智能运维

从工业界的角度来说,目前对于Hadoop集群的智能运维,所围绕的主线集中在故障发现——根因分析——问题修复——故障规避的全流程,简单来说,也就是对于集群已出现的故障,能够快速分析其发生原因,并针对性地解决故障,甚至在后期通过故障预处理在故障实际发生之前就使其得到解决。

图 深度学习模型训练和预测流程图

上述相关功能,很多都要依靠人工智能的技术来进行实现,例如对集群资源进行预测,通常采用深度神经网络模型对输入数据训练时序进行判别,具体流程如图所示。

从整体的流程图可以看出,整个预测流程分为离线训练部分和在线预测部分。离线部分主要包括深度学习模型的训练和预测技术实现,模型的选择依据数据特征,可以考虑使用卷积神经网路(CNN)、循环神经网络(RNN)、长短时记忆神经网络(LSTM)等综合评测模型的结果,选择最佳模型。而在线部分,主要是基于已成熟的数学模型,导入实时数据,进行未来集群资源指标的预测。

在日志分析方面,已采集的日志数据进行统一存储,并通过深度学习平台建立和训练数学模型,同时通过深度学习API实时监控模型的能力。具体实现步骤如下。

步骤1:建立词典词库

将运维过程中会产生的同等意义的词语、单词、符号等内容建立链接,形成同义词词库;

将集群、组件、接口中的日志信息、操作流水以及告警信息中含有的关键词进行标注具体事件,并建立知识库词典。

步骤2:日志中提取关键词,形成模型训练数据

将日常监控的日志数据格式过滤,再进行分词处理,提取关键词后根据同义词词库进行同一化处理,实现以“时序-关键词”为结构的训练数据。

步骤3:通过贝叶斯算法计算事件发生的时序关联关系

将“时序-事件”结构的训练数据通过贝叶斯算法进行计算形成类似{时序,事件1→事件2,P(事件2|事件1)}的结果。

步骤4:确定目标故障分类

对故障事件进行标注、分类,明确集群故障预测目标。

步骤5:在RNN中训练模型

将训练数据在RNN中,选择隐藏层数量、调整参数和权重,并多次训练后得到模型。

步骤6:模型结果封装API接口提供给BOMC调用

模型结果封装成API提供给上层平台调用。集群监控日志数据通过格式过滤、分词处理和关键词提取后,通过封装API的处理,接入短信、邮件、电话告警,及时提醒运维人员对系统故障进行处理,减少对集群上层应用能力的影响。

目前,随着大数据集群部署的越来越多,集群规模日益增长,对于集群运维的需求越来越强。通过智能运维技术,我们力求尽可能地释放运维人员压力,使得运维人员在面对复杂的系统故障时,能够利用人工智能技术对监控指标,日志数据的多维分析,准确定位故障发生的原因,并且根据知识库的反馈,快速找到解决问题的办法,甚至自动完成故障的排查和处理。

猜你喜欢
时序日志集群
基于时序Sentinel-2数据的马铃薯遥感识别研究
一名老党员的工作日志
华人时刊(2021年13期)2021-11-27 09:19:02
基于Sentinel-2时序NDVI的麦冬识别研究
扶贫日志
心声歌刊(2020年4期)2020-09-07 06:37:14
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
电子制作(2018年11期)2018-08-04 03:25:40
游学日志
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
一种毫米波放大器时序直流电源的设计
电子制作(2016年15期)2017-01-15 13:39:08