文/张智龙 宫剑 陆春 黄杰
IT运维促进信息化良性循环
文/张智龙 宫剑 陆春 黄杰
上海财经大学IT运维管理体系以基于ITIL V3的服务运营流程为主线,以服务管理、服务改进为辅助,配合一系列的管理制度与技术工具的支撑,使原有相对杂乱、重复的运维工作转向分工清晰、职责明确、快速响应、安全可信的良性循环。
随着上海财经大学数字化校园建设的进一步开展,信息系统的覆盖范围越来越广,信息化建设和运维的复杂度不断提升,一方面需要继续深化信息系统建设,实现业务支持到决策支持的转变;另一方面需要加强信息系统运维管理,确保信息系统的稳定运行和可持续发展。
面对新的挑战,上海财经大学遵循PPT(People、Process、Technology)原则,即受到良好培训的人员,通过执行明确定义的、以技术驱动的流程,为所支持的业务提供高质量服务,同时借鉴ITIL最佳实践体系,依据本校实际情况,开展IT运维管理体系的建设实践,形成具有上海财经大学特色的信息化运维管理体系。
图1 IT运维管理体系框架
上海财经大学IT运维管理体系以基于ITIL V3的服务运营流程为主线,以服务管理、服务改进为辅助,配合一系列的管理制度与技术工具的支撑,使原有相对杂乱、重复的运维工作转向分工清晰、职责明确、快速响应、安全可信的良性循环。上海财经大学IT运维管理体系框架如图1所示。
上海财经大学运维管理体系的主体由服务台、服务支持流程和服务持续改进三部分组成,其内容既相对独立又相互关联。服务台针对用户进行管理,对用户的咨询和需求进行统一处理,为服务支持流程提供服务;服务支持流程作为运维工作的核心,一方面以日常运维中的服务运营和服务转移为抓手,通过相关服务流程和支持工具为用户提供服务,快速响应用户需求,另一方面从服务设计出发,通过工具的支撑和管理流程的控制,提高系统的可用性、系统和数据的安全性以及服务的持续性;服务持续改进,通过对服务支持流程体系中的问题进行阶段性的总结和分析,以及对用户的系统使用情况的调查和整理,发现运维工作中存在的问题并及时进行调整,实现对运维工作的持续改进。
在运维管理体系的主体之外,运维组织与制度和运维开发与管理工具也是贯穿在运维管理过程中的不可或缺的部分,是高效开展运维工作的基础。在多年的实践中,上海财经大学制定一系列对运维的标准化工作进行指导的制度,使得运维工作有理所依、有条不紊地进行;此外,通过对各类系统管理工具和开发工具的不断调查和使用,也找出一套适用于自身情况的IT工具,使得开发和管理工作事半功倍。
图2 服务台工作流程
服务台扮演和用户交流的角色,主要负责接收和管理用户的咨询和服务请求,第一时间了解用户反映的问题并准确记录,为后期的问题处理和事件处理的快速准确打下基础。
目前,我们已在服务台开辟多种渠道与用户进行实时交流,包括:面向全校用户的7×24小时电话服务和E-Mail服务,针对学生的BBS信息化答疑板块,针对行政部门的即时反馈QQ、MSN服务群。除此之外,针对目前较为流行的微博,也即将开通“上海财经大学信息化问题反馈官方微博”,通过多种形式的沟通机制保障用户反映问题的畅通性。
除了多路径的问题采集方式外,问题的顺利流转很大程度上依赖于问题记录工作。学校运维部门通过开源问题跟踪工具Mantis来监控整个问题的生命周期,使得一个问题经历从记录到问题处理流程,到变更、发布部署的完整流程。图2为一个典型的服务台问题记录流程。
问题被完整记录后便完成其在服务台的生命周期,处理过程将进入服务支持流程。
服务支持流程体系的内容
服务支持流程体系,从运维工作所属的不同职能的角度,可划分为两部分内容。
一部分归属应用管理的职能,直接处理从服务台引入的服务事件和问题,根据事件处理所处的不同生命周期,分为服务运营和服务转移两方面内容。服务运营包括ITIL框架中的事件管理、问题管理、访问管理以及知识管理等流程,服务转移涵盖配置管理、变更管理、发布管理等流程。
服务支持流程体系的另外一部分内容是服务设计,它属于IT运维管理和技术管理的职能,既包括对系统运行状态、数据库使用状态、数据质量和用户权限等IT运行核心指标的实时监控,又包括对它们的事后审计,同时涵盖数据和系统的备份和恢复方案以及后台数据申请的日常工作流程,从系统可用性、IT服务连续性和信息安全管理等方面予以支撑。
通过这些标准化流程的约束,避免运维阶段的混乱局面,使工作人员的工作有理所依。同时这些流程也并非是割裂的部分,而是共同组成一个整体的服务支持流程体系。服务运营和服务转移对用户进行快速响应,解决在运营状态中出现的各种问题,及时准确地进行处理。服务设计是系统正常稳定运行的基础,保证系统和信息的安全性。
运维的核心
服务运营和服务转移是运维日常工作中的核心内容。它们包括以下几个典型的主流程:事件管理,问题处理,变更管理,发布管理,最后记录进入知识库。每一步骤都对应着相应的流程文档,并作为配置管理中的配置项信息,保证IT服务的不断持续循环,达到运维管理的可持续发展目标。一个典型的服务处理流程如图3所示。
1. 事件管理与问题处理
在一个问题接受、问题处理到问题解决的过程中,问题的流转通过Mantis问题记录单来完成,它监控整个时间的生命周期。记录单中的记录内容包括问题的接收时间、报告人,问题的整个指派和流转过程、处理过程中的详细处理方法以及配置项变更信息、发布与部署信息等。
为防止系统更改对现有系统的运行产生影响,上海财经大学信息办制定一套严格的涉及运行维护员、发布管理员、配置管理员、运维部长等多个角色的发布流程,整个发布流程整合到Mantis记录单中,同时发布确认单也作为一项重要的配置项进行管理。发布流程与变更管理这两个功能对任何配置项的变更进行严格把关,加强质量控制和审核。
3. 配置管理
配置管理作为ITIL中的一个核心,在整个流程体系中有着举足轻重的作用。信息化办公室定制配置管理规范。规范内容分为软件配置管理和CMDB管理。软件配置管理的目标配置项主要包括信息系统项目文档、源代码、数据库脚本、可执行程序及其他相关资料。CMDB管理的目标配置项主要包括所有硬件设备、应用服务、数据库系统及其相应的用户、权限、相关部门、责任人等元素。所有软件配置管理和CMDB中的配置项的变更,都能够关联到具体的问题记录单,做到从问题记录单到配置项,以及从配置项到问题记录单的双向追溯。
服务设计
在高校信息化应用日益深化的今天,信息和资源的整合日益密切,如何保障信息系统的持续稳定运行,确保信息安全是亟待解决的关键问题。服务设计主要包含两方面内容:第一,保障系统的可用性和持续性。通过对网络、主机、应用系统、数据库的运行状态和性能指标进行实时监控,保证系统的不间断运行;第二,确保系统安全与数据安全。通过对用户账号与权限的监控以及系统安全检测和事后审计等措施,保障系统和数据安全。
1. 权限变更的规范化流程与审计
系统中的数据查看和管理职能几乎都是建立在系统的角色和权限的基础上,所以权限问题尤为重要,权限的泛滥将严重危害到系统数据的安全,有意或无意的误操作都将对系统数据造成严重危害。学校运维部门制定一套权限申请审核流程,要求用户的权限变更必须提交权限变更申请表,通过权限变更流程,审批后,再进行权限的修改。除此之外,运维部定期开展系统的权限审计工作,要求各部门对本部门的人员角色和系统权限进行确认,并递交给信息化办公室进行审核,如发现有超出权限范围的功能或数据查看权,立即停用。
2. 数据质量
随着业务的逐年运行,信息系统中的数据量越发庞大,不可避免地产生大量不符合系统标准的垃圾数据,这些数据极有可能造成系统不正常运行。为了避免此种情况发生,我们制定一系列针对各信息系统情况的数据录入维护规范,同时,运维部门还根据数据录入维护规范,制定日常数据质量检查工作机制,定期通过技术手段对系统数据进行监控检查,确认数据是否符合各业务、数据接口的标准,同时给出数据质量检查报告,针对存在问题的数据,查找数据源头,进行数据重新修正录入,以满足系统要求。
网络上的东西更新速度快,出于对网络的迷恋,大多数高校大学生喜欢通过网络去学习一些自己感兴趣的知识,不断丰富着自己的大脑,使自己开阔眼界,运用自己的判断力对某一观点进行评判,从而不愿意被动地接受教育者机械似的灌输和教育,思想政治教育者的权威地位就会受到威胁。
图3 服务运营流程
3. 系统环境备份
对所有的系统分别搭建4套系统环境:开发环境、测试环境、模拟环境和生产环境。通过4套环境的有机结合,最大程度地减少发布风险,满足系统扩展开发的需求。
4. 系统安全检测
为确保主机安全和信息安全,运维部定期进行安全检测和扫描,具体内容有:使用开源漏洞扫描工具扫描所有服务器主机,生成主机安全等级报告,对高级和中级安全漏洞进行专家分析和处理,确保主机运行于低安全风险;使用商业漏洞扫描工具扫描全校应用系统,生成应用安全等级报告,针对高风险安全漏洞进行分析和处理,确保Web应用没有较高的安全漏洞。
5. 异常登录监控
系统账号作为认定责任人的最重要的手段,一旦被盗用,将引起重大的纠纷。为了保证在校的近2万用户的权利不被侵犯,我们对重要系统的账号登录情况进行监控。监控内容包括每天登录各信息系统的账号、登录的时间、注销的时间、每次登录的IP地址等。通过这些信息的统计挖掘,对可疑的登录信息进行调查、确认及核实。
服务持续改进
通过对服务支持流程体系中的问题进行阶段性的总结、分析和处理,实现对运维工作的持续改进。
1. 事件管理分析
事件管理分析工作,本着规范流程、提升管理水平、降低事件发生率、提高工作效率的目标,通过对各季度和学期的各应用系统事件数进行总结与分析,制定出运维事件阶段性总结处理指导文档。目前,运维部门将问题归为12大类,基本囊括运维中的所有常见问题。事件分析会对各类问题所占的百分比进行统计,总结出本时间周期里的问题的特点和共性,对今后的运维工作进行指导。
2. 调查问卷和系统运行情况分析
运维部门定期对学生、教师发布系统使用的调查问卷,定期举办用户讨论座谈会,获取用户对系统、运维服务的各类意见和建议,找出工作盲点,为运行维护的规范化提供依据,还定期采用专门工具对各系统的访问日志、操作日志进行分析,获取用户使用偏好和使用习惯,为给用户提供更优质的服务提供参考。
3. 安全应急演练
应急演练是在事先虚拟的事件(事故)条件下,应急指挥体系中各个组成部门、单位或群体的人员针对假设的特定情况,执行实际突发事件发生时各自职责和任务的活动,是一种模拟突发事件发生的应对演习。运维部门对应急演练制定合理的演练周期,对频率较高的突发事件增加演练频次,本着演练内容可控、不能影响生产系统正常运行的原则使演练逼真。演练的过程遵循有重点、有层次、先易后难的策略展开。演练结束后,演练工作小组对演练方案执行及演练过程和结果进行总结,针对发现的问题,及时修改应急预案,并应用到实际工作中。
上海财经大学信息办系统运维部结合本校自身的信息化开展情况,通过对ITIL管理流程的裁剪,制定出一套适合学校自身特点的运维管理规范体制,并在实践中取得令人满意的成效。但目前标准化流程还无法覆盖运维的全部环节,且随着信息化建设的不断深入,运维工作还将面临越来越多的挑战,运维工作任重而道远。下一步,我们将进一步加强对ITIL理念的研究和实践,促进对人员技术水平和管理能力的提升,配合数字化校园的深入建设,使运维管理与服务更上新台阶。