◆白兴科 刘 建 钟 文 黄 飞 何攀宇
浅谈信息化预防性运维的重要性
◆白兴科 刘 建 钟 文 黄 飞 何攀宇
(大庆金桥信息技术工程有限公司成都分公司 四川 610037)
当前社会信息化不断深入发展,企业的信息化架构越来越庞大和复杂,企业的业务越来越紧密地依赖于信息化系统。传统的信息化运维还处于被动式的非预防性模式,这种运维模式已经不能满足飞速发展的信息化水平,将带来被动、效率低下、服务质量差、知识不能传承等问题。
非预防性运;维预防性运维;服务质量巡检;漏洞扫描;预防性运维智能化
随着社会信息化的快速发展,信息化在企业中的作用日益明显。企业对信息化规划和建设不断深入发展,业务对信息化系统的依赖性越来越强,造成各类应用系统繁多,同时服务器、存储、网络、数据库、云计算、个人计算机软硬件设备不断攀升。已成为各单位信息化运维面临的困难与挑战,尤其是信息服务部门普遍头痛的事情。只有转变传统运维模式和思路,才能让信息化运维成为企业效率的加速器。
信息化预防性维护的目的:是将信息化设备以及信息化系统故障率降至最低,整个信息化设备及信息化系统使用周期的可用性和可靠性增至最高,发挥信息化系统和设备最大价值,从而提高运维服务质量。
传统信息化运维处在“救火式”的工作模式。信息化运维人员大多数时间都处在被动低效率手工“救火”的状态,只有当事件已经发生并已造成业务受到影响时才能发现和着手处理。这种被动“救火”会导致:信息化运维人员终日忙碌,信息化运维人员大部分时间和精力都在处理重复的问题;信息安全事件频频发生;故障预警机制和应急响应机制不完善,往往是故障发生后或报警后才会慌乱的进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;运维服务质量较差,信息化部门和业务部门对信息化运维的服务满意度不高。
知识与经验传承存在脱节。作为企业来说,信息化故障处理不单单是解决眼下的故障问题,还要为以后遇到同类的故障时提供可靠的知识查阅和帮助,而这一切不能仅依靠运维管理员的个人经验,否则这种“过分依赖某人”的技术经验将会为企业运维管理带来很大的风险,假如技术人员经验丰富后产生惰性或提出无理的要求甚至提出离职,运维主管对这种现象表示无奈。
传统的巡检往往依赖人工方式,这种巡检方式会导致:巡检频次较低,故障发生后不能及时发现。巡检深度不够,因系统和设备繁多造成巡检效率非常低。人工巡检毕竟要依靠人的行为、行动,时间久了巡检人员就易出现麻痹思想,即使在管理制度上制定了设备的管理及日常巡查的制度,但由于疏于监督,人工巡检也容易成为形式,所以人工巡检存在着很多弊端。
由于传统运维方式带来诸多的问题,只有将被动响应式工作方式转变成主动服务式,在日常运维工作中主动去发现和识别潜在风险,才能做到预防为先,防患于未然。
预防性运维是为了延长信息化设备的使用寿命,避免减少设备故障而进行的计划内维护以及提前对未知信息化风险进行预防。在实际工作中,预防性运维采取一些必要的手段和措施,是防止信息化设备及信息化系统受到攻击和设备损耗的一种运维体系,是基于时间和使用计划的维护方法,以防止故障的发生。
预防性运维就是在信息化设备以及信息化系统未发生故障前,进行有针对性、有计划性、有目标性制定的运维策略,最大程度降低风险。例如:对信息化设备以及信息化系统运行状态进行深度检查,及时发现信息化设备以及信息化系统在运行中产生的因磨损及系统漏洞而出现的某些可预见的安全隐患,防止设备设施在运行中可能发生的问题,杜绝或避免信息系统发生更严重的运行故障或信息安全风险,有效的延长设备使用寿命,使设备设施处于高可用状态,避免由于设备故障造成的业务中断,影响公司各项业务正常开展,甚至蒙受经济损失。
通过建设规范化、标准化的预防性运维体系,保障信息化设备及系统安全、稳定、持续运行;优化运维资源的配置、最大化降低运维成本;促进运维工作标准化,提高整体运维质量和效率,推进运维由“救火队”角色向“防火队”角色转变。
预防性运维体系由预防性运维管理、运维团队、维护技术以及维护对象等组成,即“管理”、“人”、“技术”、“对象”四类因素。见图1。
图1 预防性运维体系结构
预防性运维体系是在预防性维护制度的指导和约束下,由预防性维护团队,采用一系列预防性维护技术,对各类信息化设备和系统进行“未雨绸缪”的维护。
预防性维护管理包括制度、流程及ITIL服务体系。制度是规范预防性运维管理工作的基本保障,流程是在制度的基础上建立的,是对操作行为进行的标准化管理。ITIL服务管理包括服务台管理、问题管理、配置管理、变更管理、发布管理。
预防性维护团队建设,根据预防性维护对象确定各项工作的岗位和职责分工,并按照相应岗位要求配备人员,组成高效协作的运维队伍。预防性维护队伍建设和预防性维护技术相辅相成,一方面预防性维护队伍的专业水平需要不断提高来达到预防性维护的目的;另一方面预防性维护技术中的培训和知识库等手段将进一步打造业务精通、经验丰富的维护团队,实现知识的更替、传承。
预防性维护技术是以统一的系统监控管理平台为基础,以预防故障发生和性能优化为基本目标,对生产环境的网络、服务器、数据库、中间件、系统等重要对象实现自动、集中的监控,对系统运行中出现的异常情况具有预警和报警功能,便于运维人员全面、及时了解信息化设备和系统运行状况,提高信息化设备和系统的故障应急处理能力的技术手段。
预防性维护对象,一般企业的信息化设施包括:网络、服务器、数据库、存储、中间件、系统等。这些设施是一个企业信息化的基石,所有的信息化环境都牢牢依赖于这个基础,预防性维护要防微杜渐、未雨绸缪,就需要从这几个信息化基础设施着手。预防性维护对象相当于人体的心脏,是核心,所谓“擒贼先擒王”,只要抓住了这个核心,那么预防性维护的工作将事半功倍。
预防性运维的开展主要依靠相关技术的落实,在信息化运维实践过程中,运用了漏洞扫描、巡检等相关技术,达到了预防性运维的目的。
4.1 漏洞扫描
信息化系统由多种类型的设备或系统组成包括存储、数据库、网络、虚拟化等系统,在信息技术高速发展的今天,无法保证各个系统的绝对安全,所以利用漏洞扫描技术能够及时的获得各个系统最新的运行状况,防止未经授权的用户对各系统的破坏,最大程度的保证各个系统的安全可靠稳定的运行。
所谓漏洞扫描技术一般是指终端用户通过扫描服务端口或依靠特定的协议获取硬件设备信息的手段,对指定的远程或本地信息系统进行安全检测,进而发现是否存在安全隐患。在发现漏洞后运维人员可通过相应的补丁或修改相应的配置来消除安全隐患。
漏洞扫描技术从不同的角度可以分为以下几类:
基于网络和主机的扫描,基于网络的扫描主要是从未经授权的非法用户角度来讲,利用网络通信协议和服务的漏洞来扫描网络或系统架构,从而获得相关信息以达到非法目的。例如可以查找网络中的设备是否开启了SNMP服务,通过SNMP服务获取设备的相关信息。基于主机的扫描技术是终端用户通过检查注册表、配置项、系统日志等来检测是否存在漏洞,例如共享访问漏洞、弱口令等漏洞,可通过修改注册表值或修改配置项来增强信息系统的安全性,进而避免信息安全事故的发生,起到预防性运维的效果。基于网络的扫描和基于主机的扫描各有利弊,只有同时使用上述两种扫描方式才能获取更多有用的漏洞信息,为运维人员后续处理漏洞提供有力的支持。
主动扫描和被动扫描,主动扫描方式是通过给目标主机发送特定的包并接收回馈信息从而获取相关信息。有时未收到回馈信息本身也是信息,因为有可能是信息在传递过程中被安全类的设备给过滤掉了,比如常见的防火墙就能够通过配置相关选项将某些特定的字段过滤掉,其优点在于能够快速的获取相关信息且准确性能够得到保证。被动扫描是通过实时监测网络通信流量来获取所需的信息,而自身不需要发送任何信息。这种扫描方式不会受到防火墙的影响,但是在监测过程中需分析接收的流量,所以速度较慢且准确性较差。
通过漏洞扫描技术可以有效发现信息化设备及系统的安全隐患,运维人员能够准确地对各个关键漏洞进行补救。大大的降低了安全风险,达到预防性运维的作用。
4.2巡检管理
巡检是预防性运维工作中重要的一环,通过制定相应的巡检制度,信息化设备或系统可以通过巡检提前发现问题所在,达到预防性运维的效果。在实践工作中我们通过计划性巡检、深度巡检以及实时巡检弥补了单一巡检方式的不足。
计划性巡检是通过制定相应的巡检流程,固化巡检频次及方式,在实际工作中通过电子巡检的方式避免了人工巡检的各种不足,同时也可以将巡检作用最大化,电子巡检包含了手持终端和现场的信息点。信息点提供唯一的地址编码,为信息化设备制定相应的巡检参数。手持终端用于信息点数据的采集。例如巡检人员使用手持终端采集信息点的参数实时上传巡检结果,系统自动统计并生成所需的各类报表,运维人员根据生成的报表了解设备运行的状态做出相应的判断,达到预防性运维的目的。
深度巡检是在计划性巡检的基础上加强了巡检的深度及广度,制定深度巡检的标准及制度。对信息化设备及系统,进行深度检查对设备的运行状态进行分析,提前发现安全隐患及性能瓶颈,消除隐患,改善和优化设备的性能,保证设备能够安全、稳定、健康地运行。
实时巡检是通过统一的监管平台,建立巡检模板和策略,将信息化设备及系统纳入其中,实时获取设备的运行状态,预测分析设备的运行趋势,快速判断、追踪定位并响应各种故障,结合多样化的报警机制。如某台信息化设备运行参数超过了制定的阈值,监管平台自动通过短信、电子邮件等方式进行报警,最终从被动到主动及时地发现问题,并调度各种资源解决问题,从而形成预防性运维主动服务的新局面。
预防性运维工作通过计划性巡检、深度巡检及实时巡检有效的提高了运维的效率,保证信息化设备及系统安全、稳定、健康地运行。
4.3应急预案
应急预案在预防性运维体系中起着关键作用,它明确了在突发风险事故发生之前、发生过程中以及发生后,谁负责做什么、何时做,以及相应的策略和资源准备等。针对可能发生的重大事故及其影响和后果的严重程度,应急预案是为应急准备和应急响应的各个方面所预先做出的详细安排,是开展及时、有序和有效事故应急救援工作的行动指南。
应急预案明确了应急救援的范围和体系,使应急准备和应急管理不再是无据可依、无章可循,尤其是培训和演习工作的开展;有利于做出及时的应急响应,降低事故的危害程度;当发生超过应急能力的重大事故时,便于与上级应急部门的协调;有利于提高风险防范意识。
应急预案的内容应包括:(1)风险描述:用于描述本预案相对应的具体风险及故障。(2)应急小组组织结构:明确应急组织人员结构与职责。(3)突发事件的预防与预警机制:具体说明对应风险的预防措施及故障发生时的预警机制。(4)应急保障措施:规范应急程序所需物资的准备情况。(5)处置程序:故障发生时及故障发生后的具体处置程序。(6)事后恢复与重建措施:明确故障恢复后的相关工作,如故障记录、汇报等。
在实际的运维工作中应该首先制定各类突发事件的基础性应急预案,然后在此基础上针对特定风险编制专项应急预案,有针对性地制定应急措施、定期进行专项应急准备和演习。
4.4事件库与知识库
预防性运维中事件库与知识库建立对企业具有重要意义:(1)创造知识价值:营造有序和高效的知识管理体系,通过知识的创建、共享、积累、分析、以及知识的快速检索与获取,利用知识创造价值,从而提高组织能力和个人能力。(2)实现知识共享:典型案例是许多企业的信息化运维人员常常重复解决用户的相同问题。如果多数问题及其解决方案都可以从事件库中简单、方便获取,从而将信息化运维人员从重复性的工作中解放出来,着手解决其他新的问题,从而达到提升工作效率的目的。(3)实现知识转化:知识库的建立极大地促进了知识转化,有利于提高信息化部门的整体水平。(4)避免知识流失:许多知识掌握在相关工作人员的手里,一些信息化系统的升级、部署或故障解决方法只有研发人员知道,知识库的建立可以有效地避免由人员流失造成的信息孤岛和知识流失。(5)提高运维响应速度和质量:当知识库的质量、数量及知识结构都达到一定标准时,才能快速响应信息化服务需求,提升客户满意度。(6)挖掘、分析信息化系统数据:运维知识库作为一种信息收集、整理的工具,同时提供了数据分析、统计的功能。便于信息化维护团队发现潜在问题、进行趋势分析。
在预防性运维技术中事件库与知识库应包括以下要素:(1)知识发布:通过知识库可以发布知识条目和典型事件;(2)文档管理:在知识库中,已解决事件的记录或相关知识条目作为重要的知识资源和参考资料,为自助服务用户提供诊断事件的依据,从而使问题快速解决;(3)自助服务平台:企业员工通过自助服务方式搜索FAQ答案,快速定位知识条目和典型事件,员工可以自主解决问题;(4)知识权限管理:知识库需具备一套安全严密的访问权限管理机制,访问权限可以定义项目级、文件级、甚至知识条目级别的访问权限,如只读权限、读写权限等。
现阶段预防性运维并不是企业信息化运维体系建设的终点。随着社会信息化的不断深入,信息化运维工作越来越复杂化、层次化,预防性运维将朝着更加智能化的方向发展,因此企业的信息化运维建设,应该逐步推动实现集中告警、自动处理的智能化运维体系。
预防性运维的智能化是用机器代替运维人员完成重复的故障处理,在最少人工干预下,结合运维工具,保证业务高效稳定地运行,这是预防性运维体系建设的更高级目标。智能化运维需要做到事前预警、事中恢复和事后存档。首先,要对信息化设备实施主动式监控。当这些设备在运行过程中出现告警时会自动根据告警级别做出判断,并将结果反馈给运维人员。其次,对于一些简单的告警,智能化工具可以自行处理并修复,另外新业务部署时设备和应用程序的调整也要做到自动化。最后,对事件的处理程序及结果进行自动归档收入事件库。
预防性运维智能化可将运维人员从繁琐的工作中解放出来,让他们在发展专业技能的道路上走得更加深入,进一步提升了运维工作的效率。