刘忏 张鹏 王朝晖 张斌 孙硕阳
(1.中国铁路信息科技集团有限公司 北京市 100000)
(2.中铁(北京)信息技术服务有限责任公司 北京市 100000)
在党中央国务院对于传统产业“两化融合”、“云物大智移”等行动计划的号召下,国铁集团在“十四五”期间,为实现铁路现代化,建设智慧铁路,大力推进信息化建设并取得了显著成效。目前,国铁集团总部和全路18个路局已建设专业化的信息化运维队伍,但是各铁路局、基层站段 IT服务存在水平参差不齐、服务标准、流程不统一、IT资源无法共享等问题。另一方面,随着铁路武清主数据中心的顺利建设、投产及统建系统应用上移,为全路资源、服务共享奠定了物质基础。
为解决铁路当前IT服务困境及适应未来IT服务趋势,构想了依托铁路主数据中心的“18+1”IT共享服务模式,基于此,提出了一套集约化且可持续改进的IT共享服务流程设计方案。该方案通过线上远程及线下现场团队组织机构的搭建,以及服务人员职责明晰划分,借助共享服务平台,实现智能客服、线上派单,流程追踪、服务反馈等一系列IT服务措施的流程闭环管理,从而提升IT服务运营效率及质量,提高IT服务过程中用户满意度。
在铁路IT共享服务中心的流程建立中,对业务的划分,对流程的分析、重定义、优化、质量把控、全程监控、效率反馈,对资源的分配方式等问题都需要根据铁路当前服务特点进行深入挖掘和研究,建立从用户的角度出发的,端到端的、高效流转的服务流程,从而实现共享服务。
同时,对于铁路IT共享服务流程的设计不仅仅是简单的环节重现,而是在将共享服务各主要因素,例如服务流程原则的把控,相关流程角色的职责分工、共享服务标准的落实等方面全部考虑在内的情况下,利用前沿的信息技术,实现共享服务流程在全程被安全监控的情况下高效快速流转。
流程的每个环节都应是有价值的,这种价值可以体现在不断满足客户的需求,或是确保服务流程的安全性、流转的及时性,在对服务成本和产生价值的平衡中,建立更加优化的IT服务流程。
对于依托铁路主数据中心的IT共享服务流程而言,应以提出健全的、针对不同服务级别问题的处理流程为原则,达到统一调度服务资源将IT服务最大程度集约化、标准化的目的。同时,针对当前铁路IT服务中资源较分散、环节较多、问题边界模糊等问题,梳理一套完善的IT共享服务流程,包含不同的角色、流转过程、升级方案等。
对于一个服务处理的全流程而言,共享服务中心的各部门需各司其职。例如业务部门发出服务请求,由呼叫中心进行服务登记,再派发工单并通知服务管理部门。由服务管理部门对请求进行分类,若请求为核心业务,则派发至IT共享服务中心技术支持部进行处理审核,再由对应的技术支持部门进行属地或远程服务处理。若请求业务为非核心请求范畴,则交由BPO外包团队进行服务处理。事件解决后将结果返回呼叫中心,呼叫中心最后与客户确认处理结果并关闭请求。在服务请求流程中,共享服务中心质量安全部需全程监督跟踪服务质量。
在服务流程设计中,首先确定相关角色,明确各角色的职责与能力,如对于服务的支持角色,即服务提供方而言,可分为:服务台:负责接收来自外部用户的需求、负责满意度调研、负责跟进服务请求流程进展。
一线、二线、三线:服务支持团队,负责根据服务台派发的任务做服务支持,包含资源服务、技术服务、应急服务等。
服务经理:负责对整体服务质量和效率、流程kpi的统计和分析,输出服务报告,优化服务目录。
流程经理:负责维护服务流程,保证流程的易用性和高效率、完善协同体系。
职能经理:负责人员管理,包括培训、评估等。
在角色设计完成后,通过借鉴PDCA循环管理模式的方法,将事件拆分成事件记录、分析诊断、解决恢复、确认解决以及问题管理几个部分。再通过对每一个环节进行自动化设计、实现、测试,实现流程的自动化、快速流转,并不断收集过程数据,持续改进每一环节的服务速度与质量,达到流程闭环,服务持续提升的目的。
依托铁路主数据中心建立的IT共享服务中心信息系统运行维护管理应包括,投产交接管理、运维计划管理、日常运行管理、事件管理、问题管理、故障调查处理、变更管理、配置管理、可用性和容量管理、应急管理以及对信息系统运行维护保障支持等内容。信息系统运行维护实施应引入现代化管理方法,应用先进高效的自动化手段,标准化、规范化作业过程,实施流程化运维。针对运行维护服务流程的设计可以立足于资源分配、故障处置、应急处理、变更等四个方面来系统的梳理运行维护管理业务流程。
铁路主数据中心的建设为铁路信息化发展提供了充足的资源条件,同时各路局的数据中心也拥有各类资源储备。在共享服务这一创新模式体系下,如何有效地将铁路的现有资源利用起来,既避免资源闲置,又能对全路资源进行有效管控,还能简化资源申请流程,提升用户友好度,提高申请和释放资源的效率。
资源的申请与分配是铁路IT共享服务中心最基础与关键的活动,也是与技术相关性极强的操作活动,具体的资源分配内容涉及虚拟机分配、物理裸机安装、数据库等中间件的安装配置、存储及灾难资源的分配与回收等操作管理等。
在铁路资源分配的流程设计中,需要遵循铁路相关管理原则,首先明确流程角色可分为三类,即:资源申请部门,资源拥有部门和资源管理部门。然后需要明确资源分配流程的过程,大体可分为六个阶段:资源规划、资源申请、资源审批、资源分配与回收、资源监控、资源回收。
在实际的铁路IT服务业务中,通常会有两种最常见的资源规划场景,既有系统扩容和新建系统规划。具体的资源分配流程如图1所示。在资源申请部门提出回收或是扩容申请的需求后,由资源拥有部门核算需求评估,若评估通过,且资源拥有部门有足够的资源,则提交资源管理部门进行资源审批。审批通过后,管理部门反馈至资源拥有部门,进行资源交付。在资源交付后,还需继续对申请进行监控,通过自动化监控手段监控资源的使用情况。若资源超过规定期限未使用,或与需求申请时有较大差距,则进行资源回收。通过共享服务IT流程的设计,既通过监控避免资源浪费的情况,又实现了资源的快速分配。
图1:资源分配流程图
故障处置可以分为事件管理和问题管理,对于事件管理,其管理的主要对象包括服务引入停止和导致服务质量下降的事件,主要来自呼叫中心服务台记录的事件和主动发现的事件。运维部门的主要目标是尽快恢复信息系统的运行,加强对信息系统的事件管理,规范事件级别的划分、事件响应和事件处理流程,明确事件升级策略,不断提高事件处理效率。信息系统事件处理应严格执行技术升级机制。呼叫中心值班员负责接收报告和记录信息系统事件,判断事件的类型和级别,并组织及时处理事件。对于无法在规定时间内处理的事件,事件处理的执行人员应及时从呼叫中心升级到一线、二线甚至三线。事件按照等级可以分为一般事件和重大事件。不同等级的事件处理流程也是不相同的,以下为对于一般事件(见图2)和重大事件(见图3)的处理内容和操作步骤的描述。
图2:一般事件处理流程图
图3:重大事件处理流程图
(1)呼叫中心坐席工程师负责判断用户的请求监控告警事件是否为一般事件,如果是一般事件就按照一般事件流程进行处理,如果是重大事件需要上报共享中心值班负责人启动重大事件处理流程。
(2)一线和二线工程师负责分析和判断日常巡检以及运管平台监控报警产生的告警是否属于重大事件的范畴,如果是重大事件应及时上报共享中心值班负责人启动重大事件处理流程。
(3)呼叫中心坐席工程师对事件进行分析判断,如果能够自己解决问题就自己解决,如果不能及时解决,就上升到一线工程师进行处理。
(5)二线处理人员对事件进行分析和处理,如果能够解决就自己解决,如果不能及时解决,就进行技术升级,寻求原厂工程师进行解决。
问题管理的目标是分析事件发生的原因,找出事件的根本原因和系统运维人员在运行维护中可能存在的隐患,提出解决方案和优化建议,防止类似事件再次发生,并建立和完善相关知识库。制定问题管理流程,明确流程角色和工作要求,规范操作流程,实现闭环管理;建立问题管理库和知识库,记录和共享问题信息。问题管理的质量可以提高系统和设备的稳定运行。将问题匹配并与知识库关联是确保问题得以解决并启动运维服务或系统稳定运行的关键,问题处理流程图如图4所示。
图4:问题处理流程图
网络安全事关国家安全和铁路发展,深刻影响铁路运输、经营、建设、管理等各领域安全。同时,信息化已经成为铁路运输生产重要组成部分,自然灾害影响信息机房或数据中心后,会导致运输调度管理系统、客票发售系统、客票预订系统、货运票据电子化等铁路关键信息基础设施故障,严重影响运输生产安全或客货经营管理,甚至可能造成重大损失。因此有必要提高思想认识,坚持底线思维。坚决守住铁路安全的政治红线和职业底线,全力做好铁路网信应急处置工作,对于防范和应对网络安全事件、最大限度降低信息系统故障影响具有重要意义。
应急响应流程示意图见图5,一般包括以下步骤:
图5:应急管理流程图
3.3.1 事件发现和初始响应
对突发事件进行预先检测,在发生后进行及时确认,获悉事件内容。做出初步分析判断,并及时进行事件通知和报告。同时进行事件等级判断,推算性质级别,决策是否启动应急响应预案。
3.3.2 人员召集和建立指挥中心
根据应急响应预案,在第一时间召集灾难恢复组织成员,并组建临时指挥中心。
3.3.3 损害及影响评估
综上所述,基于微课的高职Photoshop课程教学改革,突破传统教学的壁垒,微课资源不仅可以作为课前、课中和课后的学习资源,更让教师的教学行为和学生的学习行为产生颠覆性变革,真正把课堂还给学生,通过自主、合作、探究的学习方式内化学生的职业技能,课堂更高效。
由相关专业人员对信息系统进行专业研究,分析事件原因,对故障进行定位,判断出业务影响程度及范围,预计故障的修复时间。并持续跟踪事件,每30分钟评估一次事件是否需要升级。
3.3.4 应急处置方案制定
实施小组结合突发事件的评估结果、现场资源状况等信息,结合专业技术能力,从而提出应急处置方案。
3.3.5 应急处置决策
指挥部门需要综合考虑各实施小组的应急处置方案建议,形成应急处置决策,并下达命令。
3.3.6 信息系统灾难恢复
根据事件发展的后续结果,通过判断系统是否恢复,判断应急处置方案是否成功,若执行方式不成功,则重新对损害进行评估,并考虑是否升级事件,且提出新的应急处置方案。
变更管理是指采用标准统一的方法和步骤来管理和控制所有对IT生产环境有影响的变更活动。通过执行变更流程,对所有操作进行正确评估和实施,以此来维护IT生产环境的完整性,减少由于操作不当等原因对生产环境所造成的风险。对信息系统的应用程序、操作系统、数据库、中间件、负载均衡设备及其配置、主机存储设备、网络安全设备等环境的改变构成信息系统变更的,根据风险评估、影响生产环境的范围以及对生产环境的影响程度可以分为重大变更和一般变更;同时,又依据其事件处理的紧急程度分为紧急变更和非紧急变更。重大变更申请由运维部门负责组织提出申请,附带变更计划表、变更执行方案、变更回退方案以及变更过程中发生意外需要进行紧急处理的应急预案,报送共享服务中心的信息化管理部门进行审批。一般变更由共享服务中心主管领导审批。对于紧急变更,变更主责部门在统筹考虑安全可控的基础上,报共享服务中心主管领导批准后快速处置,事后补办变更手续,具体变更流程示意图如图6所示。
图6:变更管理流程图
(1)变更申请阶段:变更申请阶段是进行变更的首要阶段,执行变更前的准备工作由变更由运维部门和业务部门完成,包括分析变更对业务的影响范围、确定变更类型是重大变更还是一般变更,共同制定变更计划,提出的变更申请。
(2)方案制定和审批阶段:编写变更执行方案、变更回退方案、变更应急预案等。对于重大变更需要验证变更执行方案的可行性,同时需要确认变更的回退方案和变更应急预案是否可行。变更执行人需要编写变更方案,并对变更的风险进行评估。在该阶段应召集相关技术工程师在测试环境上对变更执行方案、变更回退方案、应急预案等进行测试,并出具变更测试报告,对于无法进行测试的部分,可以组织相关人员进行桌面演练, 模拟在变更实施过程中各种可能出现的故障,并出具相关的测试报告,最后相关人员签字确认。
(3)变更实施阶段:在变更实施过程中一旦发生意外的情况,应立即停止变更的执行,启动变更回退方案或者启动应急预案进行处置。对于在变更实施过程中出现的各种问题,要认真进行总结和分析, 查找变更失败的原因。
(4)变更关闭阶段: 变更关闭阶段是运维部门对整个变更过程进行核对和总结。对于变更过程中出现的各种问题进行分析,最后更新所涉及的所有配置项关闭变更。
IT共享服务作为一种新的IT服务管理模式,因其既可将复杂流程简单化,也可分散服务统一化的特点,正在以快速增长的形势被各大型企业广泛使用。本文在铁路应用上移、统一管理的背景下,结合IT共享服务的特点,提出了针对铁路IT共享服务的流程设计。从铁路常见的流程场景出发,探讨在共享服务场景下,资源分配、故障处置、应急处理、变更管理四个流程的梳理和重新设计。通过整合铁路优势资源,面向国铁集团全路职工提供统一IT服务流程,对于今后的IT共享服务模式研究一定的借鉴意义。