宋义华 班孝明
(中信银行总行信息技术部 北京 100027)
随着信息时代的持续发展,运维已经成为IT服务内涵中重要的组成部分,面对越来越复杂的业务和多样化的用户需求,不断扩展的IT应用需要更为合理的模式来保障IT应用能安全、稳定地持续运行,这种模式中的保障因素就是IT运维。
从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,标准化、自动化、架构优化和过程优化等降低IT服务成本的因素越来越被人们所重视,其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。
运维人员日常大部分时间和精力忙于处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。
系统和应用变更、日常检查、信息采集等大部分工作都是手工操作的,需要运维人员逐一登录每台设备进行操作,当设备数量达至成百上千时,这些操作占用了大量运维人员的时间,工作质量无法得到保障,并且工作效率低。
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量、数据库的警告信息,成千上万条警告信息堆积在一起没法判断问题的根源在哪里。
IT应用日趋复杂,各类型的网络设备、服务器、中间件、业务系统等让运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响商业银行的正常运转,出现这些问题部分原因是商业银行缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
是指在提供IT服务过程中所应用的各种IT设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。
通过对运维对象和日常运维工作分析,IT应用运维工作从如下7个方面开展,具体包括:运行状态实时监控、事件与问题处理、例行运维操作、系统与应用变更、审计与合规检查、环境投产部署、配置信息管理,如下图所示。
图1 系统与数据
工作内容与要求:实时监控IT应用的各个组件,业务运行的状态以及处理效率等,及时、准确、全面的发现IT应用运行过程中出现的各类事件和故障。
面临挑战:商业银行数据中心内部都有上百套IT应用系统和数据库、成几千台服务器和网络设备等,而运维人员的数量与被管理对象的数量严重不成比例,及时发现潜在的风险点提前预警,对发生的故障快速定位故障根源。
工作内容与要求:建立事件处理机制,及时发现事件,生成工单,通过工单跟踪事件处理的进展,掌握事件处理的效率和质量;建立问题跟踪机制,通过问题单跟踪问题的解决效率和质量;
面临挑战:运维对象产生大量的事件(问题),由于事件(或问题)的分级不合理,无法保证紧急的事件优先得到处理,流程的高效运转需要各环节运维人员及时处理,这就要求事件处理人员需要一定的规模并具备一定的技能。
工作内容与要求:日常运维工作中有大量固化的,例行的操作的内容,例如,银行业务系统日终批处理、定时数据报送、业务定时日启、数据库定期更新统计信息、数据定期清理等,要求这些例行操作必须在特定的时间点执行跟踪执行结果。
面临挑战:可固化的、例行的工作项多,操作步骤复杂,要求操作人员具备丰富的技能,需要严格的流程和制度保证例行工作不被遗漏,确保固化和例行的工作按照正确的步骤执行,并及时发现过程中出现的问题。
工作内容与要求:涉及运维对象的变更包括:IP网络配置、存储网络配置、操作系统、数据库、中间件、应用软件等,变更要求按照既定的步骤和时间窗口操作,不允许临时改变变更的时间和步骤。
面临挑战:运维对象多,变更内容种类繁多,变更频率高,运维人员每天疲于各种各样的系统和应用更新;制度和流程要求执行不到位,无法保证变更是按照既定的安排执行;
工作内容与要求:信息系统投产环境的准备,包括操作系统、数据库和中间件、监控软件、备份软件、自动化软件等基础软件的部署、以及技术规范点在环境中的落实等;
面临挑战:待投产信息系统环境复杂,靠人工去实现容易出现遗漏,基础环境的交付质量无法得到有效保证;基础环境的准备包含大量重复性的工作内容,消耗运维人员精力和时间,而且效率低。
工作内容与要求:将运维对象的配置信息(例如序列号、用途、位置等)以及运维对象之间的对应关系管理起来,并保证信息的准确性,作为运维日常管理的基础数据,供给支撑运维工作的其他工具平台和日常运维需要;
面临挑战:配置管理工作涉及范围广,对象之间的关系错综复杂,如何准确的获取配置信息,并保证信息的有效性是配置管理面临的最大的一个问题,通过手工的方式是来开展配置管理工作几乎是不可能实现。
工作内容与要求:对运维人员行为、系统行为、以及安全设备的行为进行审计,发现当前已经存在或潜在的风险点,提出安全整改建议;
面临挑战:运维人员行为和系统行为产生海量数据,如何从这些数据中发现有价值的信息是非常有挑战的事情,通过人工去搜寻几乎是不可能完成的任务;对于大量的运维对象执行合规检查,采用手工的检查方式,效率低,检查结果无法有效保障。
建设集中化的监控管理平台,对所有运维对象以及业务的运行情况的实时状态进行监控,实现监控自动化。通过监控自动化,实现运行状态全面、及时、准确的监控,能及时发现故障隐患,主动的告诉用户需要关注的对象,以达到防患于未然。
基于ITIL中的最佳实践,建设IT服务管理(ITSM)平台,并与监控管理平台对接,将事件管理、问题管理、变更管理等运维日常工作通过ITSM流程平台进行管理,提高流程的可控性和透明度,能够一目了然的看到整个流程运转情况,有针对性的对运维流程中不顺畅的地方进行优化。
通过例行操作自动化,将日常容易遗漏、出错的手工操作转变为规范的、标准化、流程化的步骤执行,避免人为失误、简化操作人员的工作内容,确保规章制度和流程的落实执行,并节省大量的运维资源,并能够及时发现过程中出现的问题。
规范基础设施、网络、应用变更的步骤,将变更的内容标准化,形成变更模版,基于模版编写变更的实际步骤,然后在自动化平台(网络自动化平台和系统自动化平台)配置变更计划,确保变更在规定的变更时间窗口执行,以及变更严格按照既定的步骤实施,确保变更与预期的目标和要求一致,并监控变更执行的结果。
通过基础环境部署自动化,实现信息系统基础运行环境的标准化、避免出现手工部署中出现的遗漏和不合规的地方,提高基础环境的交付质量,缩短信息系统投产的周期,节省运维资源。
设计与运维工作密切相关的实用配置管理参考模型,避免大而全的模型,通过自动发现工具自动采集配置信息和配置项之间的关系映射,从 BSM 的维度(业务服务管理)的去管理运维对象。通过配置管理自动化,基于实用的标准,实现配置信息采集、关联的自动化,确保配置信息的准确、实用、可用,作为运维过程中最为重要的数据源供运维人员和其他运维工具平台使用。
明确审计和合规检查目标、标准、方法,建设运维数据加工平台,从海量运维数据中发现运维人员和系统行为中的异常行为,检查运维人员、系统、安全设备是否满足规章制度要求,发现运维工作和系统中存在的风险点。通过审计与合规检查自动化,将监管机构的监管要求、商业银行内部的合规与审计要求、技术规范要求、安全规范要求等应用到运维工作的各个方面,从制度流程、运维人员、技术等方面找到风险点,逐一解决,即提高了运维工作的安全性,又能满足各种管理要求,还可以节省大量的运维资源。
自动化对IT运维的影响,不仅仅是人与设备之间的关系,已经发展到了运维工作的各个层面,通过IT运维自动化,可以提高提高运维工作的效率、提高运维工作的规范化程度、能提高运维工作的流程化程度、提高节省大量的运维资源,降低成本。
[1]罗金满 陈华军等.试谈 IT安全运维管理的应用.《电脑编程技巧与维护》 [J]-2013年22期.
[2]李卫军 吕永帅.解析虚拟技术在 IT 运维管理中的应用.《中国信息化[J]2013年6期.