◆刘 芬 张 科 王逸兮
(国网湖北省电力公司信息通信公司 湖北 430077)
面向中间件的智能化运维平台设计与实现
◆刘 芬 张 科 王逸兮
(国网湖北省电力公司信息通信公司 湖北 430077)
中间件为应用软件提供高效、灵活的开发运行环境,目前已在信息系统中被大量使用,因此中间件的健康与否对于系统的可靠稳定运行至关重要。基于此,本文给出了一种基于大数据的中间件智能化运维平台,介绍了系统功能与关键功能的实现技术,对提升信息运维管理提供了一种经验和思路。
中间件;智能化;系统运维
国网公司SG186和SG-ERP两大信息化工程的实施基本完成了公司信息系统支撑各大业务应用的布局,高效支撑着公司经营管理业务的有序开展,进而对信息系统的运行可靠性要求达到了前所未有的高度,亦对信息系统运维管理工作提出了更高的要求。另一方面,随着信息系统的大规模建设告一段落,现有信息系统的运行保障和消缺调优等运维管理工作将逐步成为公司信息化部门(单位)的工作重点。
中间件目前被国网大量信息系统所使用,中间件问题是信息系统故障的高发地带,因此中间件的健康与否对于系统的可靠稳定运行至关重要。当前信息系统运维人员尚未有针对中间件的巡检模板、规范及其相关工具,往往当系统出现故障后才能引起一线运维人员的重视。基于这种被动救火的运维模式,迫切需要构建针对中间件的运维规范,同时引入相应的自动化监控工具,深入系统内部运行结构进行监控预警,进行事故统计分析与数据挖掘。基于此本文设计了一套面向中间件的智能化运维管理平台,实现了系统运维工作的标准化、规范化和自动化,进一步提升信息系统的运行稳定。
面向中间件的智能化运维管理平台包括八大模块,分别是:运维首页、实时监测、智能分析、预警中心、历史分析、数据抓取、系统配置和后台管理,结构如下:
图1 结构图
八大模块充分考虑到生产实际,其功能设计如下:
2.1 运维首页
运维管理平台的入口是运维首页,通过登录页面输入正确的用户名和密码即可登录到运维平台。运维管理平台的首页按照用户角色分为三大部分:领导仪表盘、运维仪表盘和第三方仪表盘。仪表盘是项目的主页和信息中心。
2.2 实时监测
运维人员经常会需要知道业务系统数据库或是中间件的运行状况,例如中间件节点数或是中间件集群情况等一些信息,面对这些问题,虽然可以通过一些其他渠道观察到,但是却不方便让运维人员实时统计,也不能给运维人员直观的统计数据。
运维管理平台的实时监测功能则是解决这一问题,实现数据的实时监测。实时监测功能又包括三部分:中间件集群监测、中间件节点指标监测和自动化巡检。
2.3 智能分析
基于大数据的智能分析模块,主要是根据对历史样本数据的机器学习、数据挖掘,结合专家经验固化的规则,形成中间件的健康模型,并最终利用中间件健康模型合并实时监测数据,形成对中间件未来运行状态的趋势预测。
2.4 预警中心
指标特征都有一个标准,超过此标准就会有可能对信息系统的正常使用造成一些严重的影响,基于这些特性,平台设计了预警中心模块,将超出一些指标标准的特性展现出来,提醒运维人员关注,同时也起到了预防的作用。预警中心的接口也有三部分:
(1)消息预警:平台中的预警信息消息提示。
(2)邮件预警接口:提供预警信息的邮件提醒。
(3)短信预警接口:短信提醒预警信息。
2.5 历史分析
平台实现了实时性能监测功能,监测到的数据积累之后形成历史数据,该功能是根据历史数据进行科学分析或是经验分析。
历史数据对比分析:将产生的历史数据进行科学的、多周期、多维度的对比分析,把分析结果展现出来,使运维人员一目了然的观察到数据差异或是发现异常,同时也可以帮助运维人员回溯异常发生之前的系统变化,形成经验积累。
2.6 数据抓取
本系统的又一大功能模块数据抓取,实现了无插件形式的中间件数据抓取、统一数据模型和调度任务。
中间件数据抓取:本功能实现了中间件数据抓取,通过对业务系统、主机和中间件进行要抓取中间件的必要配置,即可实现智能数据抓取。
统一数据模型:针对异构中间件归纳总结的统一数据模型,用于抓取到的性能数据的清洗、转换等(ETL)。
调度任务监控:实现对抓取调度任务的配置,调度任务配置主要包括调度任务IP配置、调度指标配置和调度频率配置,数据抓取功能由调度任务进行发起。
2.7 系统配置
平台基础功能模块,包括了平台中基础信息的配置,包括:信息系统管理、服务器管理、中间件管理等。
2.8 后台管理
平台基础功能模块,包括了平台后台自身的管理,用于控制平台自身的健康运行,包括:调度任务管理、阀值管理、权限管理。
在上述功能中,最关键的是中间件运行状态数据抓取与分析。众所周知,目前市面上存在众多中间件,比如商业用途国外的 Oracle WebLogic、IBM WebSphere等;国内厂商方正飞鸿、普元EOS、金蝶AAS、中创InforSuite AS等;还有开源的Tomcat、JBoss等。如此众多的中间件,每个都有自身特有的属性,全部采集数据量极大也影响性能,而且很多数据对项目需求毫无意义,所以通过按需求分类挑选的方式来确定。
图2 数据库格式
3.1 抽取指标分类
根据项目需求,我们需要用到以下几类的指标:
(1)资源消耗类:堆栈内存使用量/使用率、CPU使用量/使用率、活动连接数、每秒IO等。
(2)负载类:总请求数、每秒请求数、总吞吐量、每秒吞吐量、当前活动连接计数、执行线程总数、挂起线程等。
(3)性能效率类:每秒完成请求数、平均连接延迟时间。
(4)异常类:失败请求数、连接失败次数。
3.2 定义指标名称与数据格式
对每个指标统一命名,不区分来源于哪种中间件,只在采集实现中区分各种中间件的不同,比如:
Resource.HeapSizeCurrent 代表资源消耗类中的堆栈内存使用量
Resource.HeapRatioCurrent 代表资源消耗类中的堆栈内存使用率
Resource.CPUUsagedCount 代表资源消耗类中的CPU使用量
Resource.CPUUsagedRatio 代表资源消耗类中的CPU使用率
Resource.TotalRequest 代表负载类中总请求数
例如Tomcat没有对应的Resource.TotalRequest,那么可以使用接近次指标的其他指标替换;如果部分中间件没有与其接近的,那么可以将做空白处理,只是后续分析、预测时缺少一个维度数据,对结果不会产生决定性的影响。
在此基础上,我们可以进一步定义每个指标的数据结构,以满足异构中间件指标数据的统一处理。
随着公司信息化建设的快速发展,信息系统运行维护工作效率问题更加突出,亦对信息系统运行保障和消缺调优等运维管理工作提出了更高的要求。开展面向中间件的智能化运维平台应用有助于提升运维工作效率,对保障信息系统稳定运行意义重大。本文以大数据与中间件技术的发展为背景,给出了一种基于大数据的中间件应用系统,该系统具备功能多样、便捷实用、易用性好等特点,可有效引导用户进行运维管理,给未来满足公司经营管理业务的不断发展,规范完善现有信息系统运维体系,强化信息系统关键构件监管,实现信息系统运维规范化、标准化、智能化,提升信息运维管理提供了一种经验和思路。
图6 与设计人员交流
(2)设计人员针对自己具有权限的产品项目进行设计。设计完成后提交给系统管理员。然后设计人员仍可以进行其他产品的设计。
(3)系统管理员将该产品的相关图纸传给工艺项目中去,具体方法为将该设计产品的节点直接拖到工艺项目中去。
(4)工艺人员接收到后,对其进行工艺编制。根据工艺需要检查设计图纸是否合理,如果合理,则进行工艺编制。如果不合理,则通过在线消息或邮件的方式与设计人员进行交流,双方也可以在设计图纸上进行批注,直至合乎要求为止。
图7 工艺的编制
(5)最后工艺人员利用PDM和CAPP集成环境完成工艺的编制。
通过基于PDM和CAPP集成环境,可以将设计数据和工艺数据集中到同一的产品结构下,有利于保持产品数据的统一管理,便于查阅,而且有利于产品研制过程的并行化和建立合理的数字化流程。并行设计工作模式,打破了厂所之间的地域和时间限制,可以大大缩短产品研制的生产周期。
[1]范文慧等.产品数据管理(AVIDM)的原理与实施.机械工业出版社,2004.
[2]李红星.实施AVIDM掌控企业产品研发.PLM专刊,2003.
[3]陈小云,唐志钢.以数字化制造技术提升民用飞机研制水平[J].航空制造技术,2009.
[4]李敏军.基于PDM的工艺信息化研究[D].西北工业大学硕士学位论文,2003.
[5]周世平.我国航天制造业数字化征程[J].金属加工,2010.
[6]吴维江.基于DELMIA的飞行器虚拟装配技术[D].南京航空航天大学硕士学位论文,2008.
[7]孙康.“TXZ”微小卫星虚拟装配关键技术研究[D].南京航空航天大学硕士学位论文,2007.