李晓林,严 峻,陈国华,张明强,廖剑雄
(塔里木油田公司信息与通讯技术中心,库尔勒 841000)
油田信息运维监控平台于2008年开始建设,并于2009年上线投入使用。2013年以后,运维监控平台对报警跟踪、督办及分析等问题进行了整改。现有运维监控服务已无法满足现在用户的各种需求,如何加强运维监控能力,提升运维监控服务水平,提高运维服务质量,是我们今后面临的主要问题与发展方向。
运维监控平台在近十年发展大致可划分为两个阶段,一是2009年至2013年,主要对运维监控平台进行技术上的监控部署与维护;二是2014年至今,在经过系列整改已形成了较为完备的运维监控服务体系。
运维监控平台支持丰富多样的监控参数和灵活多变的建模管理,监控范围包括各种性能、网络、数据库、应用系统、存储等监控参数,实现监控的数据接口有200多种。平台运行至今,共计发现5万余次不同等级的监控报警。这些报警共分为三级,一级报警为油田核心设备或系统,一旦发生故障将严重影响油田生产生活,“7×24”小时响应报警;二级报警为油田单个设备或非核心系统,发生故障不影响油田生产生活,但可能会影响非关键用户使用,“7×16”小时响应报警;三级报警为油田非重要设备或系统(例如:应急系统、测试服务器等),发生的故障或问题不影响油田生产生活,不直接影响用户使用,运维人员“5×8”小时响应报警。
图1 运维监控报警闭环处理流程
如图2所示,为减少运维人员的非必要工作量,同时也对各类计划运维事件进行统一规范管理,我们制订了运维计划管理流程,并按流程开发了运维计划管理系统。该系统通过对各类计划运维网上申请、审批,并与报警闭环管理系统进行事件联动,对申请审批后的运维操作所产生的监控报警事件进行标识,运维人员按标识判断是否开启“报警闭环与跟踪督办”,计划运维操作完成后通过关闭计划运维任务恢复正常监控预警。
对运维监控平台产生的监控预警,在经过筛选后,我们会对其中一些较为重要的报警事件进行分析,找出故障发生的原因。分析的主要手段是通过基于日志的故障定位与分析系统,该系统收集被监控设备或系统的所有运行日志,分析的主要对象就是这些日志。我们通过深度挖掘与该故障关联的多层应用环境中所有相关日志记录,并对日志事件进行分析并建立索引,找出故障报警的关键指标。
图2 运维计划管理流程图
目前,油田数据中心运维监控以vantage平台为主,但随着信息化的发展与业务整合,运维监控平台出现监控盲区,不同专用监控平台难以与运维监控平台整合,无法实现统一监控管理。
运维监控平台至今已较为平稳运行近十年,但因该软件生产厂商于2012年停止对该软件更新,该平台越来越难以承受运行压力。
运维监控平台通常经过日志系统对监控报警进行故障分析和排查,但有时故障是由于应用程序本身产生的,此类故障因为某些原因并未完全反映在日志中。运维监控平台对代码、Web或SQL等方面发生的问题进行分析时缺少相关的分析手段。
目前,国内外大数据平台技术发展较快,相关产品也较为成熟,重要的是它可以存储非结构化数据,而且对于TB级的数据搜索通常也只需几秒。那么采用大数据技术搭建运维监控平台,可充分发挥其数据采集与分析优势,帮助运维监控平台丰富数据来源和提升处理分析速度。采用大数据技术的运维监控平台不论是在数据接口,还是数据类型都比传统的数据管理方式更具优势。
通过应用性能数据分析、代码级问题定位、性能分析等手段,实现应用系统故障与性能问题快速定位与分析,是第三代运维监控中必不可少的能力之一。我们认为应用系统性能监测与分析应包含以下功能:一是数字体验监控;二是应用发现、追踪、诊断;三是作为应用分析。
用户访问行为监测是对用户的来源、浏览情况、回访等各种网站访问行为进行监测,以获得各种基本数据,给我们提供更加精准的分析数据,通过分析我们可以为运维监控实现以下功能:将用户体验监测数据结合位置信息投射在地图上,动态感知应用系统用户位置分布。通过大数据分析技术的应用发现数据之间的特点与关系。将用户体验数据应用于信息生产调度中,可及时了解应用系统用户并发、用户数量趋势分析与预测、用户影响与分布以及通过应用性能与用户数量的对比趋势分析帮助用户提前做出响应。
运维监控平台在油田数据中心应用至今,其总体监控运维服务体系已全部形成,它脚步一直随着油田数据中心的发展与变化而前行,在不远的将来,会发生一次巨大的脱变,它将应用国内外先进成熟的监控技术,收集整个应用交付链的各层监测数据,包括:软硬件状态监测数据、系统集成数据、配置日志数据、性能容量、安全审计等数据,并应用大数据技术进行处理和分析,以用户体验为导向,以应用可用性为核心,以信息基础设施为重点,建成塔里木油田第三代运维监控服务平台,实现油田数据中心一体化运维监控服务,为油田IT业务的连续、高效、安全、平稳运行提供有力支撑。■