基于运行监控场景的大数据应用探究

2019-09-10 15:25林志达吕华辉徐欢
现代信息科技 2019年6期

林志达 吕华辉 徐欢

关键词:运行监控场景;信息运维;运维大数据

中图分类号:TP277     文献标识码:A 文章编号:2096-4706(2019)06-0132-03

Abstract:With the development of information technology,all kinds of large energy enterprises have established and continuously improved their IT operation management system based on their own development needs,and continue to promote the enterprises’information construction. Nowadays,the development of IT operation has entered a new stage with the application of advanced technologies like“cloud,big data,IoT,mobile and artificial intelligent”,in which the operation and maintenance of large data is an important part with broad prospects. By using new technologies such as big data and machine learning,the intelligent analysis of IT operation data and the automatic judgment of IT operation as well as maintenance strategy can be realized. The proportion of manual operation can be reduced,while the intelligent development of IT operation and maintenance can be accelerated. Aiming at the big data application of IT operation,this paper introduces the IT operation process under several scenarios of operation and monitoring,analyses the problems existing in the current IT operation,and finally puts forward construction suggestions based on the application of large data of IT operation.

Keywords:IT operation monitoring scenario;IT operation;operation and maintenance of big data

0  引  言

进入21世纪,信息技术与企业经营管理全面融合,大量企业业务的开展依赖于信息系统的稳定运行,IT运维管理的重要性不断凸显。

随着信息化的不断发展,大数据运维是企业运维管理的重要趋势之一。如何对IT运维大数据加以应用,也是企业在IT转型过程中应重点加以关注的。运维大数据的应用场景通常包括了运行监控类、性能容量类、分析决策类和科技优化类等。

运行监控类场景是企业日常运维中的一个重要基础场景。IT运维监控管理支撑了信息系统的安全运行,为信息化应用提供了最基础的安全保障。安全运维是运维管理的一大核心原则,然而随着IT系统的日趋复杂化,确保运维安全成为IT运维监控管理的一大挑战。如何进一步优化IT运维监控管理,是目前大规模IT应用环境中必须要考虑的问题。

1  运行监控流程的三个阶段

在IT运维的运行监控类场景中,IT运维监控流程大致可以分为三个阶段。

1.1  事前故障预测

在事前阶段,运维管理主要集中在运维评估、运维报告、应用系统投运前的准备工作、应急预案修订及应急演练等运维管控活动,运维期间对系统的测试工作,包含发布测试及補丁测试前的验证测试等。

1.2  事中异常识别

主要集中在巡检管理、缺陷管理两方面业务事项。缺陷管理则是指对缺陷处理过程的管理。缺陷是指发生的可能影响运维对象安全可靠运行、性能、寿命或服务质量的异常或隐患,通过巡检管理进行故障识别,巡检管理指对运维对象的运行状况进行巡视、检查,分为定检和临检。定检是定期对运维对象进行巡检;临检是临时性对运维对象进行巡检,从而识别运维系统异常。

1.3  事后根源分析

着重在故障管理、系统优化两方面业务事项。故障是指在没有预先安排的情况下出现的用户服务中断,而故障管理指故障处理过程的管理,是出现故障之后对运维系统进行分析根因、排除故障的管理过程。排除故障之后,对应用系统、软硬件平台、基础设施进行增强与优化。

2  运行监控现存问题

“IT时代”向“DT时代”的演变已逐步成为业界发展趋势,如何充分利用数据成为了企业运维管理的新挑战。近年来,电力行业数据量呈指数型增长,电力行业迈入大数据时代。持续增加数据积累、有效挖掘数据价值,在电力生产、电力企业经营管理和社会能源节约中都有着重要的意义。当前电力通信网逐步发展成以光纤通信为主,微波、载波通信为辅,多层级的电力骨干和接入网络。网络规模的扩大让电力通信网支持的业务范围和用户类型越来越多,故障影响和传播机理变得更加复杂,加大了运维风险管控的难度。IT运维管理被赋予了更多信息挖掘和数据分析的重任。然而现有情况下,大型企业传统的运维管理平台无法有效借助数据实现运维故障事前预测、事中监控、事后分析的全生命周期管理,不能发挥运维数据的巨大潜力。运维管理平台面临着三大运维痛点。

2.1  事前故障预测

从目前的情况来看,运维管理潜在风险点的挖掘和故障预测功能有待优化。一方面是现有运维的基础架构越来越复杂,涉及的技术和平台越来越多,数据形态各异、数据资产存放分散、数据质量及规范度较差,难以有效整合。另一方面,各类运维数据生成的维度和颗粒度“井喷”,现有平台不具备海量数据吞吐及计算能力。各类运维数据整合及预测性分析难以实现,容易导致“救火式”运维。运维管理运行监控尚未实现从被动处置到主动预防的转变,需要引入特定数学模型进行故障预测,建设主动预防能力,并对预测数学模型进行训练,不断提升其精准度。

2.2  事中异常识别

运维安全是电网企业最重要的生命线,必须保证和强化运行监控对异常事件或事故的及时识别能力。只有在运行监控中的信息及时得到有效反馈,运维系统的安全才能够得到切实保障。一方面,企业对待运维数据分析结果的时效性要求越来越高,传统的离线计算场景不能满足实时计算要求,使得以往离线计算场景愈发向实时计算场景靠拢。另一方面,伴随企业信息化建设,越来越多的不同类型、不同颗粒度的运维数据在迅速产生,企业能搜集的运维数据总量在迅速增长,企业越发重视运维数据的处理能力是否能及时响应新需求。如何借助大数据处理能力,实现及时有效处理多种数据,并从中识别运行风险,成为企业运维管理的新挑战。

2.3  事后根因分析

在传统的运维管理当中,面对复杂的业务监控和问题诊断,通常是依靠运维人员的经验来找到指标和事件之间的关联关系,进而进行故障的定位。在故障定位的过程中,往往在召集相关运维专家诊断时,已浪费不少时间。在诊断过程中,一方面是依据经验进行故障定位存在一定主观随意性,当面临迅速更新迭代、层出不穷的新系统以及新的故障风险点,难以仅凭相关人员已有的运维经验进行准确定位;另一方面,随着运维场景复杂化,各类系统、平台高度集成,传统运维管理下问题根源定位精度低、不及时的缺点集中暴露。若需提升事后根因分析能力,IT运维管理必须从粗放式走向精细化,借助大数据技术,对根因分析过程进行自动化改造,减少人力消耗,提升根因分析精度和速度。

3  运行监控优化建议

3.1  周期性分析技术强化事前故障预测

周期性分析用于同指标性能、同故障告警、同日志记录等按周期发生的规律性,主要用于时序挖掘分析和反复事务挖掘。周期性分析可应用于指标基线预测。

借鉴算法较先进的IT运维服务商的成功尝试,IT运维服务商应用周期性分析可在其运维大数据分析平台衍生出一些运维大数据应用,如利用大数据自动化学习业务运行规律生成的指标动态预警基线。运维人员根据指标基线进行实时预警,可摆脱“经验式”的故障告警模式,提高运行监控的准确性。

以保障业务高峰期整个IT体系的稳定性为例,一般的做法是根据业务部门告知的业务量上涨预估值来判断IT性能增长的百分比。换言之,假设预估今年第二季度业务上涨量可能达到50%,那IT运维部门就会通过添加服务器、集群节点等整体配置来提升50%的IT性能,以保障业务高峰期的IT系統的承载力。这样的IT运维决策缺乏实际数据支撑,存在较大风险,如果IT投入过少,将可能导致整个业务运营服务系统的崩溃,反之则造成资源的浪费。而以周期性分析技术为基础的指标基线预测的优势则在此体现:通过对历史性的运维数据的学习、分析,预测出未来一段时间(如:7天)内各项指标值的变化趋势图,运营商运维人员便可根据基线预测知晓业务高峰期各项IT指标的可能运行形态,进而可以提前采取措施,深层次保障业务系统的稳定性、安全性。

3.2  强化大数据实时计算处理能力

数据是解决运维效率、实现运维自动化甚至智能化的核心。企业应该着手于在调度、故障处理、质量调优在内的多个场景中,努力实现自动化,优化运维大数据架构平台建设,发挥平台支撑作用。提高运维效率,通过提高运维大数据自动化、智能化水平,实现运维大数据的快速处理,有效应对数据井喷。

针对离线数据分析,在基于Hadoop的云计算平台上利用数据挖掘算法能够实现对海量广域运维系统数据进行高效处理。

针对实时数据分析,流处理模式下大数据处理技术注重对动态产生的数据进行实时计算并及时反馈结果,满足了数据快速处理的需要。目前,流式数据处理的计算框架主要有Spark Streaming、Samza、Storm等,在优化运维大数据快速处理时可以提供一定的参考借鉴。

3.3  优化运维大数据价值化处理

随着数据来源不断扩充,在数据井喷的情况下,如何挖掘数据价值,成为运维大数据处理的一个重要课题。

一方面,面对大量模糊的非结构化数据,通过规划运维数据的使用生命周期、根据业务场景优化运维数据生成时的相关参数、进行适当数据压缩等多种手段对运维大数据进行优化,对海量运维数据进行压缩、重删,提炼高价值运维数据,提升故障洞察能力。

另一方面,面对今天动辄数万条的告警信息,传统的、单纯的日志事件集中展现难以令运维人员锁定后续处理的工作重点,IT运维管理平台可基于资产管理角度进行关联风险分析,以运维大数据技术高速关联计算取代传统人员的经验分析,优先处理重要资产告警事件,使运维管理者对关键事件与重要风险的把握更精准,提升处理效率。

3.4  利用相关性分析技术强化根因分析

相关性分析运用于跨业务系统、跨软硬件设备、跨自动化工具等产生的多个指标之间的内在关联性,主要用于运维故障根源挖掘和发现潜在原因等方面。数据相关性分析方法可应用于告警根源挖掘,帮助运维管理人员有效地找到告警信息发生的根源等方面。

举例说明,A服务器和B服务器在业务上相链接,A服务器的Tomcat因CPU占用高,发出了告警;B服务器的Oracle死锁数增长,产生了报警。调取历史运维告警数据进行大数据相关性分析,可发现这两个看似毫无联系的指标同时告警的概率高达90%;此时,通过进一步的相关性挖掘可发现,与A服务器Tomcat的CPU同时告警的指标还有C交换机的某端口流量和A服务器的URL响应时间,且机率分别达到85%和80%。利用运维大数据技术实时学习分析的特性,运维人员可根据相关性概率挖掘出告警产生的根因,进而不断丰富运维关系库、知识库,大大节省人工排查的人力、物力、财力,从根本上解决潜在问题、消除安全隐患。

4  结  论

实现对运行监控的全生命周期管理是企业智能化、一体化运维的重要目标,也是运维大数据可以应用的一个典型场景。在这之中,企业通过明确未来信息化发展对运维提出的新要求,发现传统运维管理在运行监控场景中全生命周期存在的不足,针对性地利用运维大数据技术进行优化,进一步提高企业的运行監控场景中的IT运维综合水平,将以往的被动式运维转变为主动式服务,助推IT运维管理向智能化发展,从而推动IT运维管理从粗放式走向精细化。

参考文献:

[1] 杨志农.智慧型IT运维监控管理平台的技术特点及实现 [J].计算机安全,2014(12):2-4.

[2] 徐英超.运维数据的大数据分析和前瞻性展望 [J].综合运输,2015,37(11):94-99.

[3] 2018年中国企业IT运维管理市场报告 [R].艾瑞咨询,2018.

作者简介:林志达(1983-),男,汉族,广东大埔人,主管,高级工程师,本科,主要研究方向:信息运行管理。