信息系统运维模式及优化对策

2020-05-19 15:14陈瀚
中国信息化 2020年4期
关键词:使用者运维工程师

陈瀚

随着信息化建设不断地发展进步,无论是企事业单位还是学校、政府机关都开始运用信息系统进行日常管理。

众所周知,信息系统是一个复杂庞大的工程,无论设计和建设时思虑周全,在实际的应用场景和运行过程中信息系统还是会存在这样那样的问题。无论信息系统运行过程中出现了硬件还是软件的问题,都需要运维工程师及时发现问题所在并快速准确的将故障排除,保证整套系统正常平稳运行。

运维工程师该如何高效的处理各种问题,做好系统运维?笔者认为应该在平时做好优化,同时面对还没出现的问题未雨绸缪地做好对策。下文将就信息系统运维模式及其优化对策进行简单的阐述。

一、信息系统的三种运维模式

(一)系统故障由运维工程师解决(被动式运维模式)

在平时的运维过程中,有一种最普遍的运维模式,那就是被动式运维。这种被动式运维在故障处理中是最为常见的一种。

通常,这种运维模式是由使用者发现系统故障,使用者联系运维工程师,运维工程师对故障进行处理,最终解决问题完成该次信息系统的运维动作。这样的运维模式和解决方法最直观,但是却是一种效率低下的被动式运维模式。

因为这样的运维模式“反射弧”太长,面对故障的响应时间存在延迟。从发现问题到解决问题的过程往往拖沓耗时,甚至可能因此直接影响到整个信息系统的正常运转。在这种运维模式中,系统出现了问题和故障且具体影响到系统使用或正常生产活动。这时,相关使用者发现后,才将其上报给运维工程师,运维工程师再对问题和故障进行处理。

其实这个问题和故障可能早就显现,也可能更快更高效的解决掉。因为,在系统发生某些严重的问题和故障前,可能早就已经已经存在某些小的问题,但由于并没有影响到具体使用,于是作为非专业人员的使用者,对此类故障一般不会注意到或是得过且过的忽略掉这些问题。须知,千里之堤毁于蚁穴,正是这些被忽视的小问题,不断累积放大,最终发展成为影响正常使用的故障。

(二)系统故障由使用者和运维工程师共同解决(干预式运维模式)

随着各类信息化系统的应用日益广泛和普及,使用者在使用的过程中或多或少地接触过故障,甚至解决过简单的系统问题和故障;亦或通过自身学习进而掌握了部分故障的处理方法。于是,在工作时发现系统中的小故障以后,使用者会先尝试自行处理和解决,在解决问题和故障的同时进行上报知会运维工程师。如故障无法解决时,运维工程师已经有了前期的报备和了解,再进行处理会减少故障处理的延迟。

这样的模式,笔者称之为干预式运维模式:由接触系统最多的相关使用者作为最早发现系统问题和故障的“前端运维工程师”。作为第一线的系统使用者,面对系统中存在的问题和故障会比运维工程师发现得更早更快,由他们在初期对问题和故障进行处理大大缩短了故障解决的响应时间。

这样的模式要比传统的动式运维模式高效,也容易将小的问题和故障扼杀在摇篮里,提高整个系统的健康度和运维效率。

(三)系统故障由监控报警运维工程师第一时间解决(预警式运维模式)

如果想要比人更快发现问题和故障,那么就需要在系统本身上做文章。一套成熟的监控系统在信息系统运维过程中至关重要!

为了解决故障发现到解决的时效性的问题,通常会开发相关监控系统配合主系统运行,这套监控系统会实时监控主系统中部分关键项目,一旦发现故障和问题的端倪立刻记录并报警。这样的报警监控系统会让运维工程更快获取到故障信息,缩短故障处理的时长。而这样的运维方法可以称之为预警式运维模式。

二、优化对策

笔者根据自身在工作中的经验和不断的学习归纳出了一些想法和优化策略。主要从以下这些方面完善和优化。

(一)转换思想,从保姆式管理(被动式)向主动干预式管理转变

很多公司的管理层对运维的理解比较单一,他们认为运维就是:使用者在工作中使用系统时出现了问题,进行汇报,随后由运维工程师进行处理。殊不知,这样的思想和运维模式最容易在使用者中滋生出坐、等、靠的不良习惯。只要是系统出现的问题,不管问题多小多簡单,都必须由运维来处理。甚至有的员工因此产生惰性,滋生“系统出现问题刚好可以磨洋工,等待运维解决期间趁机休息偷懒”的不良现象。

虽然,运维解决单个简单问题的时间不会太长,但随着网点数量增加、故障上报数量也会随之增加、造成的单据排队等待解决的状况将不可避免,直接导致等待时长的大幅增加。这样的结果就是:正常业务运行受到影响、问题等待处理时长增加、运维工程师资源浪费;进而造成一线网点顾客(或相关人员)投诉事件增多(直接影响公司、单位的美誉度和口碑)、对员工上班热情和积极性产生不良影响。

要改变这一现象,笔者认为,应当由上至下进行思想转变。首先,我们可以将简单的、不涉及到经营基础数据的故障处理方法教给使用者,让其自行排查解决。同时为了避免使用者的不专业造成“越帮越忙,越修越乱”的状况,对系统使用者进行适当的培训。

具体方案是组织力量,将简单故障处理的方法以文档、视频等方式进行汇编、培训,切实提升使用者处理问题的能力。 不再做使用者的保姆,事无巨细什么都出手;而是让他们成为“第一线的前端运维工程师”,及时发现问题,一边解决一边报备,实在解决不了再由运维工程师出手解决。

(二)转变管理,做好主动运维

俗话说得好,“进攻是最好的防守”,面对问题主动出击,将小问题和故障扼杀在摇篮里,无疑是提高运维效率的捷径;而对于信息系统中的问题和故障,比使用者更清楚的是“系统自己”。

在监控系统方面,首先,运维团队可以从日常故障中总结、归纳出隐患型故障,针对这些隐患项,有的放矢的开发监控平台或监控手段。同时完善工作职责,将监控与故障隐患报警处理合并,首问负责,这样更有利于高效彻底地处理每一条报警信息涉及的故障隐患。

其次,建立健全数据备份机制,对于关键数据、软件、甚至服务器配置等,要尽可能做到实时备份。只要我们做到了这两步,就是对系统故障和问题最有力的防守,这种以攻代守的主动防御模式会在问题出现前就“解决问题”或是做好准备。而且,完善的备份机制是应对突发灾难性故障的重要保障。

(三)利用机器学习技术,实现智能运维

随着科技的不断发展与进步,各个领域都有了革命性的变革。对于系统运维来说更是科技的前沿和尖端。这个时代,各个企业的服务器规模、虚拟化节点、计算存储性能都在成百倍的增长。在这种情况下,但靠传统的人工运维,越来越无法满足运维需求。

这时候,利用机器学习技术,实现智能运维把AI带入运维里是未来最高效的运维方式和途径。就拿监控的报警信息来举例,传统的逐个远程处理已远远不能满足需求,未来,运维工程师们应针对报警处理方式进行探索,利用机器学习等技术、实现故障自动诊断自动处理以及风险操作远程触发处理等,只有这样才能适应现代企业信息化高速发展的脚步。

让机器学习的目的就是实现“智”。怎么样让机器获得这个“智”呢?在系统运行中,故障和问题会以各种千奇百怪的方式出现,我们首先可以通过不断地对历史数据中的故障场景分类和详细标注让机器进行学习,当机器能自主进行较细致的划分和标注后我们可以让其不停地在这种模块化的数据中进一步识别和学习运维工程师的处理方式。之后再让机器在各种新发事件中寻得一次次耦合,完成其判断体系最终让机器可以自行做出精准的判断和处理。

这就是未来最高效的运维模式。弱化对运维工程师的需求,增强机器的能力,让机器做到面对故障和问题精准的做出自我判断和解决处理方案。

三、总结

信息系统作为辅助工具,已日益深入各行各业的生产经营活动中,运维工作也将成为一个炙手可热的职业。在这样良好的环境中,运维工程师需要立足自身、不断学习、勇于创新、推进产业与技术的相互融合才能有力的推动信息系统业务应用更上一层楼。让信息系统的运维工作越来越优质是每一个运维工程师的光荣使命!

作者单位:中国石油天然气股份有限公司广西销售分公司

猜你喜欢
使用者运维工程师
环保工程师:生来为了“拯救地球”
设计让您在喜爱的虚拟世界中自由奔跑
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
新型拼插休闲椅,让人与人的距离更近
我想做一名桥梁工程师
抓拍神器
开心一刻
梦乡床
电子政务甲方运维管理的全生命周期